Stemming
·
정보검색-데이터마이닝
StemmingStemming정의색인 파일의 크기를 줄이기 위해 정보 검색 시에 사용단어(어절) 대신 어간(stem)을 저장 -> 50% 이상의 압축 비율 * 어절 : 어절(語節)은 한국어에서 문장을 구성하고 있는 도막 도막의 성분으로서 발음의 기본이 되는 단위이다.어절은 띄어쓰기 단위와 동일하다* 어간 : 어간(語幹)은 문법에서 어형 변화의 기초가 되는 부분을 말한다. 색인 시간과 탐색 시간에서의 stemming 기능 색인 시간- 색인어가 어간화 되어 효율성과 색인 파일 압축성이 증진- search time에 이런 연산을 위한 자원 요청이 불필요 탐색 시간시스템과 탐색 기술에 대한 지식을 요구하지 않고도 용어 합성stemmer에 의해 찾아진 용어들의 집합에서 용어 선택 -> 오결합 가능성 감소 자동 합..