Segmentation methods of OCR systems in problems of automatic processing of archival documents

Sergey Viktorovich Kuleshov, Sergey Vladimirovich Smirnov
2014 Труды СПИИРАН  
9599 (online) www.proceedings.spiiras.nw.ru УДК 004.6 С.В. КУЛЕШОВ, С.В. СМИРНОВ МЕТОДЫ СЕГМЕНТАЦИИ OCR-СИСТЕМ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ АРХИВНЫХ ДОКУМЕНТОВ Кулешов С.В., Смирнов С.В. Методы сегментации OCR-систем в задачах автоматической обработки архивных документов. Аннотация. Настоящая статья описывает сравнение современных систем оптического распознавания, проводимого с целью определить системы, наиболее точно выполняющих сегментацию документов по заранее заданным критериям; а
more » ... е возможности систем по выделению различных типов областей. Анализируются результаты работы методов сегментации OCR-систем, оценивается эффективность сегментации. На основыве результатов исследования и сделанных наблюдений составлен список рекомендаций по выбору OCR-систем и методов для обработки различных типов документов. Ключевые слова: системы оптического распознавания, методы сегментации, OCRсистемы, структурный анализ документа, оптическое распознавание, оцифровка архивных документов. Kuleshov S.V., Smirnov S.V. Segmentation methods of OCR systems in problems of automatic processing of archival documents. Abstract. This paper describes the comparison of the modern optical character recognition systems aimed to find the systems, which do more precise segmentation, and to detect the capabilities of systems to allocate different types of areas. The results of the segmentation methods of OCR systems are analyzed. The effectiveness of the process of segmentation is evaluated. Based on the results of studies and observations made, recommendations to use for different types of documents are made.
doi:10.15622/sp.16.3 fatcat:u2p4wiy7z5gonnrpiv7hvrbdum