Программная система для разработки многоязычного тезауруса

А.В. Кириллович, Kirillovich A.V., А.М. Баширов, Bashirov A.M., А.Р. Гатиатуллин, Gatiatullin A.R.
2018 Международный журнал Программные продукты и системы  
Работа посвящена описанию нового инструмента для разработки двуязычного русско-татарского тезауруса. В статье перечислены требования, предъявляемые к реализации данного инструмента: поддержка выбранного формализма представления тезаурусных знаний, многоязычных тезаурусов, коллективной работы, возможность публикации тезауруса в облаке Linking Open Data, кроссплатформенность и свободная лицензия. Приводятся результаты анализа существующих редакторов онтологий общего назначения и
more » ... редакторов тезаурусов, основанных на моделях SKOS, WordNet и РуТез: Protégé/WebProtégé, VocBench, PoolParty, iQvoc, SKOSEd, OMWEdit, WordNetLoom, GernEdiT, DEBVisDic, WordNet Editor, редактор тезауруса YARN и редактор тезаурусов РуТез. Показаны преимущества и недостатки этих редакторов. На основании этого объясняется выбор модели РуТез, а также разъясняется необходимость разработки собственного инструмента, удовлетворяющего всем предъявляемым требованиям. Предложен новый инструмент для разработки двуязычного тезауруса, реализованный в виде web-приложения, который имеет поддержку коллективной работы и функцию публикации тезауруса в облаке Linking Open Data (LOD). Описаны пользовательский интерфейс инструмента, а также его использование в режиме редактирования тезауруса. Отмечается возможность использования программного продукта для разработки не только русско-татарского тезауруса, но и тезаурусов других языков. Поставлены задачи для дальнейшего развития инструмента, среди которых доработка пользовательского интерфейса, включая расширенные возможности визуализации в виде графа, интеграция с электронными корпусами и дополнительными словарями, доработка модуля публикации в облаке LOD, создание универсального инструмента для разработки лексических ресурсов, основанных на онтологии Lemon, разработка средств для детального описания отдельных лексических единиц. Ключевые слова: информационно-поисковый тезаурус, skos, wordnet, рутез, linking open data, татарский язык. В области компьютерной лингвистики и искусственного интеллекта существует множество задач, для решения которых активно используются электронные тезаурусы и онтологии. Это задачи информационного поиска и обработки естественного языка, среди которых расширение поискового запроса, автоматическая рубрикация документов, вычисление семантической близости, разрешение лексической многозначности, разрешение кореференции, суммаризация текста, вопросно-ответные системы. Электронные многоязычные тезаурусы используются также для кросс-языкового поиска и машинного перевода. Электронные тезаурусы разработаны для многих языков мира, однако для татарского языка до сих пор такого тезауруса не существует. В связи с этим задача разработки тезауруса для татарского языка, а также двуязычного русско-татарского тезауруса весьма актуальна. Разработка подобного ресурса требует специализированных программных средств, к которым предъявляются следующие требования:  поддержка выбранного формализма представления тезаурусных знаний;  поддержка многоязычных тезаурусов;  поддержка коллективной работы;  возможность публикации тезауруса в облаке Linking Open Data;  кроссплатформенность;  свободная лицензия. Настоящая работа имеет две цели: провести развернутый обзор программных инструментов для разработки тезаурусов и представить новый программный инструмент, отвечающий всем заявленным выше требованиям (эта цель возникла из анализа результатов обзора). Обзор существующих инструментов для работы с тезаурусами Рассмотрим существующие инструменты для редактирования тезаурусов: редакторы онтологий общего назначения и специализированные редакторы тезаурусов, основанные на моделях SKOS/SKOS-XL [1, 2], WordNet/EuroWordNet [3, 4] и РуТез [5]. Модели тезаурусов Модель SKOS/SKOS-XL. В соответствии с моделью SKOS тезаурус организован в виде сети не-
doi:10.15827/0236-235x.121.112-120 fatcat:pjlpgsxnlbbu3c232buef76nbi