Automatic search for fragments containing biographical information in a natural language text
Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке

A.V. Glazkova
2018 Proceedings of the Institute for System Programming of RAS  
Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке 1 А.В. Глазкова Тюменский государственный университет, 625003, Россия, г. Тюмень, ул. Володарского, д.6 Аннотация. Поиск и классификация текстовых документов применяются во многих практических приложениях и являются одними из ключевых задач информационного поиска. Методы поиска и классификации текстов находят применение в поисковых системах, электронных библиотеках и каталогах, системах сбора и
more » ... обработки информации, платформах для онлайн-обучения и многих других. Существует большое количество частных применений указанных методов, однако каждая подобная практическая задача отличается, как правило, слабой формализуемостью, узкой предметностью и, следовательно, требует индивидуального изучения и собственного подхода к решению. В данной работе рассматривается задача автоматического поиска и типизации текстовых фрагментов, содержащих биографическую информацию. Ключевой проблемой при решении указанной задачи является проведение мультиклассовой классификации текстовых фрагментов в зависимости от наличия и типа содержащейся в них биографической информации. Проведя обзор научной литературы по рассматриваемому вопросу, авторы сделали вывод о перспективности и широте применения нейросетевых методов для решения подобных задач. Исходя из данного вывода, в работе проведено сравнение различных архитектур нейросетевых моделей, а также основных способов представления текстов (Bag-of-Words, Bag-of-Ngrams, TF-IDF, Word2Vec) на предварительно собранном и размеченном корпусе биографических текстов. В статье описываются этапы подготовки обучающего множества текстовых фрагментов для обучения моделей, способы представления текстов и методы классификации, выбранные для решения задачи. Также приводятся результаты мультиклассовой классификации текстовых фрагментов и показаны примеры автоматического поиска фрагментов, содержащих биографическую информацию, в текстах, не участвовавших в процессе обучения моделей. Ключевые слова: классификация текстов; обработка естественного языка; векторные представления слов; нейронные сети; биографический текст. 1 Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-37-00272 «Автоматизированное извлечение биографических фактов из текстов на естественном языке». Glazkova A.V. Automatic search for fragments containing biographical information in a natural language text. Trudy ISP RAN/Proc.
doi:10.15514/ispras-2018-30(6)-12 fatcat:lxucm6kmt5a55psj6l4cv7dh7a