Comparative Analysis of Special Text Corpora for Security-Related Tasks
Сравнительный анализ специальных корпусов текстов для задач безопасности

Alexei Lavrentiev, CNRS & ENS de Lyon, Darya Ryabova, Elizaveta Tikhomirova, Alina Fokina, Andrey Chepovskiy, Tatiana Sherstinova, School of Business Informatics of National Research University Higher School of Economics Moscow, Department IC3 of Bauman Moscow State Technical University, School of Business Informatics of National Research University Higher School of Economics, RUDN University, Department of Information Security of National Research University Higher School of Economics (+2 others)
2020 Voprosy kiberbezopasnosti  
Цель исследования: разработка методики сравнения специальных корпусов текстов для последующего применения в задачах идентификации экстремистских текстов. Метод: применялись частотные методы и показатель специфичности для анализа текстов в рамках корпусной платформы TXM. Полученные результаты: разработана методика сравнительного анализа специальных корпусов текстов, которая позволяет выявлять неявные связи между корпусами разнородных текстов; показана возможность использования индекса
more » ... индекса специфичности для составления своего рода «профиля» подкорпуса (набора текстов); проведен сравнительный анализ корпуса текстов террористической, экстремистской направленности и корпуса русских рассказов первой трети двадцатого века; обнаружены взаимосвязи лексики противоправных и литературных текстов; показаны возможности использования корпусной лингвистики для исследования свойств экстремистских текстов с целью обнаружения противоправных ресурсов и сообщений в Интернете; показаны возможности использования как морфологических характеристик слов, так и псевдооснов словоупотреблений в анализе специфичности при корпусном анализе; результаты исследований показывают, что инструменты частотного анализа, предоставляемые платформой TXM, эффективны для прикладных задач, когда необходимо выявить неявные лексические совпадения различных корпусов текстов. Ключевые слова: корпусная лингвистика, автоматический анализ текстов, платформа корпусного анализа, показатель специфичности, экстремистские тексты.
doi:10.21681/2311-3456-2020-03-58-65 fatcat:bit3jn5lurbhldfkws6dhg2j2a