Comparison of Context-Sensitive Spelling Error Correction using Embedding Techniques
임베딩 기법을 이용한 문맥의존 철자오류 교정 성능의 비교

Jung-Hun Lee, Minho Kim, Hyuk-Chul Kwon
2020 Journal of KIISE  
요 약 본 논문에서는 임베딩(embedding) 기법들을 이용하여 문맥의존 철자오류 교정에 적용하고 각 기법의 성능을 비교한다. 임베딩 학습을 통해 얻은 단어의 벡터를 사용하여 교정 대상 단어와 주변 문맥 단어 간의 거리(distance)를 비교하여 교정한다. 논문에서는 학습 말뭉치(corpus)에 포함되어 있지 않은 단어(out of vocabulary)의 처리와 교정 단어의 주변 문맥 정보를 잘 반영하여 교정 성능을 높이려 한다. 교정에 사용하는 임베딩 기법의 종류는 단어 기반의 임베딩(word embeding)과 문맥정보를 반영하는 임베 딩(contextual embedding)으로 나뉜다. 본 논문에서는 앞서 제시한 두 가지 향상 목표를 초점으로 임베딩 기법을 적용하여 교정실험을 하였으며, 신용 있는 교정 성능을 얻을 수 있었다. 키워드: 문맥의존 철자오류 교정, 문맥 정보를 반영한 임베딩, 단어 임베딩, 자연언어처리 Abstract This paper focuses on
more » ... he use of embedding techniques to solve problems in contextsensitive spelling correction and compare the performance of each technique. A vector of words obtained through embedding learning is used to correct the distance between the correction target word and the surrounding context word. In this paper, we tried to improve the correction performance by reflecting the processing of words not included in the learning corpus and surrounding contextual information of the correction words. The embedding techniques used for proofing were divided into word-based embeddings and embeddings that reflected contextual information. This paper performed correction experiments using the embedding techniques, focusing on the above two improvement goals, and obtained reliable correction performance.
doi:10.5626/jok.2020.47.2.147 fatcat:hlhqr5vk6fddzmmfyxiyigpb2u