Stemming
·
정보검색-데이터마이닝
StemmingStemming정의색인 파일의 크기를 줄이기 위해 정보 검색 시에 사용단어(어절) 대신 어간(stem)을 저장 -> 50% 이상의 압축 비율 * 어절 : 어절(語節)은 한국어에서 문장을 구성하고 있는 도막 도막의 성분으로서 발음의 기본이 되는 단위이다.어절은 띄어쓰기 단위와 동일하다* 어간 : 어간(語幹)은 문법에서 어형 변화의 기초가 되는 부분을 말한다. 색인 시간과 탐색 시간에서의 stemming 기능 색인 시간- 색인어가 어간화 되어 효율성과 색인 파일 압축성이 증진- search time에 이런 연산을 위한 자원 요청이 불필요 탐색 시간시스템과 탐색 기술에 대한 지식을 요구하지 않고도 용어 합성stemmer에 의해 찾아진 용어들의 집합에서 용어 선택 -> 오결합 가능성 감소 자동 합..
정보 검색 개요
·
정보검색-데이터마이닝
정보 검색 개요정보 검색 시스템정의사용자가 필요로 하는 정보를 수집-저장효율적인 검색을 위한 색인검색 요구에 적합한 정보 검색 및 제공 인터넷 상의 문서의 수가 폭발적인 증가로 인해 검색 대상의 수가 방대해짐.사용자 질의에 대한 빠른 응답 시간 요구 구성도색인정의개개의 정보 자료(문서)의 특성을 표현하는 데이터 요소(색인어)를 뽑아각 정보자료의 내용을 대표하도록 한 것 * 검색어 : Retrival term 정보 데이터베이스의 탐색 시간을 최소화하여 이용자에게 빠른 속도로 정보를 제공하기 위함 순서1. 입력 문서들로부터 색인어를 추출2. 역파일 구조로 색인 정보 저장3. 일괄처리 방식으로 수행 (전체 문서를 색인) 색인 과정1. 각 문서에서 색인어 추출1-1 forward indexingstopword(..
한글 인코딩과 변환 코딩
·
정보검색-데이터마이닝
한글 인코딩과 변환 코딩한글 인코딩uuencode, uudecode8비트 3문자를 6비트 4문자로 변경한다.UUE : 3Byte의 Binary Data -> 4Byte의 Text Data1. 16진수0x14 0x0F 0xA8 2. 2진수00010100 00001111 10101000 -> 8bit * 3 3. 6개씩 끊기000101 000000 111110 101000 -> 6bit * 4 4. 상위 비트 앞에 00추가00000101 00000000 00111110 00101000 5. 16진수로 변환0x05 0x00 0x3E 0x28 6. 이 숫자에 0x20 더함 (예외 0인 경우 0x00 -> 0x60)0x25 0x60 0x5E 0x48 7. 최종%`^H Base648비트 3문자를 6비트 4문자로 변..
유니코드 Unicode
·
정보검색-데이터마이닝
유니코드 Unicode유니코드http://www.unicode.org/유니코드(Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준이다. 유니코드 2.0기존의 한글 완성자를 삭제하고, 11,172자의 새 한글 완성자 영역을 새로 지정함.순서대로 코드를 부여코드 범위: 가(0xAC00)~힣(0xD7A3) 자모코드자음 : 0x3131 ~ 0x314E모음 : 0x314F ~ 0x3163채움 코드 : 0x3164 유니코드에서 초성/중성/종성 인식초성 : (( 코드값 - 0xAC00) / 28) /21 ) % 19중성 : (( 코드값 - 0xAC00) / 28 ) % 21종성 : (코드값 - 0xAC00) % 28 유니코드 EncodingUCS-2, UCS-4Un..
한글 코드
·
정보검색-데이터마이닝
한글 코드영문 코드EBCDICIBM 정보 교환을 위한 Extended BCD 코드 ASCIIAmerican Standard Code for Information Interchange미국 표준 코드 영문자 52개대문자 0x41 ~ 0x5A소문자 0x61 ~ 0x7A 숫자10개0x30 ~ 0x39 특수문자 34개제어문자 32개0x00 ~ 0x1F CR(Carriage Return) : 커서를 맨 좌측으로 옮김 0x0DLF(Line Feed) : 커서를 현재 행에서 다음 행으로 옮김 0x0A Window 환경에서는 CR+LF(0x0D + 0x0A)Linux 환경에서는 0x0A 한글 코드N 바이트 코드자음 14+5+11자: 영문 대문자, [, \, ], ^ (30개) 로 mapping모음 21자 : 영문 소문자..
김 정출
'정보검색-데이터마이닝' 카테고리의 글 목록