대용량 한글 문서의 원문 보호 탐색 기법 (An Original Text Protecting Search Method for Huge Korean Documents)

unpublished
(Sun-Young Park) (Sung-Hwan Kim) 조 환 규 † † (Hwan-Gue Cho) 요 약 유사 문서 탐색 시스템의 개발이 꾸준히 이루어 지고 있는 가운데, 유사 문서 탐색을 위한 데이터 수집 문 제가 저작권과 관련하여 큰 문제가 되고 있다. 만약 유사 문서 탐색 시스템이 저작권자들의 저작물을 복원할 수 없 도록 변환하여 보관하는 것을 보장한다면, 저작권자들이 데 이터를 제공하는 데에 드는 거부감을 완화할 수 있을 것이 다. 본 논문에서는 초성을 이용한 한글 스킨 추출 방법을 이용한 원문 보호가 이루어지면서 특정 단어나 문장이 존 재하는지 탐색할 수 있는 시스템을 제안한다. 제안하는 시 스템은 한글 문서의 초성을 추출하고, 버로우즈-휠러 변환 (Burrows-Wheeler Transformation)을 수행하여 접미사 배열 정보와 원문 정보를 최소한의 용량으로 저장한다. 실 험 결과 20자 이상의 문장에 대하여 신속하고 정확한 검색 이 가능함을 보였다. 또한
more » ... 검색 이 가능함을 보였다. 또한 1-2자의 불일치를 허용하는 탐 색과 80% 부분 일치 탐색 방법을 제안하고 각각 5자, 15자 이상의 질의어에 대하여 효과적으로 동작함을 확인하였다. 키워드 : 유사 문서 탐색, 버로우즈-휠러 변환, 초성 스킨 Abstract While similar document searching systems have been developed steadily, data collection to be searched is becoming a problem related to copyright law. If such searching systems guarantee that they store documents as a converted form which is secure and cannot be recovered, it makes much uncomplicated to get agreements from authors. In this paper, based on the fact that first phonemes of Korean sentences have much information than other phonemes, we propose a searching method which provides the protection of original text using Korean skin extraction. The proposed system extracts first phonemes(skin) from given Korean documents , and store them by BWT(Burrows-Wheeler Transform) to minimize the size while containing the information of original text and its suffix array. By experiment, we show that the searching is a quite fast and accurate with a query longer than 20. We also present a method to search allowing 1~2 mismatches and to find partial matching of 80%. We experimentally demonstrate these methods works effectively with queries longer than 5 and 15 respectively.
fatcat:ehqaab6mdjbg3dhjg2gy2fkatq