Multimodal topic modeling for exploratory search in collective blog

A.O. Ianina
2016 Machine Learning and Data Analysis  
1 Московский физико-технический институт, Россия, г. Долгопрудный, Институтский пер., 9 2 Яндекс, Россия, г. Москва, ул. Льва Толстого, 16 Разведочный информационный поиск нацелен на приобретение и систематизацию профессиональных знаний в отличие от поисковых систем, отвечающих на короткие запросы массовых пользователей. Для него характерно отсутствие как точной формулировки запроса, так и единственного правильного ответа. В данной работе предлагается технология тематического разведочного
more » ... разведочного поиска. Рассматривается задача поиска тематически близких документов по текстовому запросу произвольной длины. Применение аддитивной регуляризации тематических моделей (ARTM additive regularization for topic modeling) позволяет комбинировать требования различности тем и разреженности векторных тематических представлений документов, а также учитывать дополнительные данные об авторах и категориях документов. Для построения тематических моделей используется библиотека с открытым кодом BigARTM. Предлагается методика оценивания точности и полноты тематического поиска на основе оценок асессоров. Эксперименты на данных коллективного блога habraharb.ru показывают, что качество тематического поиска сравнимо с качеством асессорского поиска и даже несколько превосходит его по критерию полноты, при этом асессоры тратят в среднем по 30 мин на каждый тематический запрос, тогда как тематическая поисковая система выдает результат практически мгновенно. Ключевые слова: информационный поиск; разведочный поиск; тематическое моделирование; аддитивная регуляризация тематических моделей; BigARTM Современные поисковые системы отвечают на короткие четко сформулированные запросы массового пользователя. Исследовательский или разведочный поиск (exploratory search) это относительно новая парадигма в информационном поиске, нацеленная на самообразование, приобретение и систематизацию знаний [1, 2]. Потенциальные пользователи разведочного поиска исследователи, преподаватели, студенты, специалисты различных профессий, работа которых связана с накоплением и анализом информации. Переход к обществу, основанному на знаниях, приводит к расширению информационных потребностей людей и необходимости создания принципиально новых инструментов поиска. Основной особенностью разведочного поиска является отсутствие точной формулировки запроса и отсутствие единственного ответа. Когда пользователь плохо ориентируется в терминологии или слабо представляет себе структуру предметной области, его первейшей информационной потребностью становится получение дорожной карты предметной области, определение наиболее важных тем, систематизация и визуализация релевантной информации по этим темам. В этих случаях трудно или вообще невозможно сформулировать запрос в виде короткой текстовой строки. Проще наметить направление поиска, * Работа выполнена при финансовой поддержке РФФИ, проекты 16-37-00498, 14-07-00847 и 14-07-00908. Машинное обучение и анализ данных, 2016. Том 2, № 2.
doi:10.21469/22233792.2.2.04 fatcat:jsfy66bslng73d2w7zsu366kpi