OLAP Textual com Múltiplas Hierarquias de Tópicos e Rankings Segmentados

Adriano Souza, Reinaldo Fortes, Joubert Lima
2017 Anais do Simpósio Brasileiro de Sistemas de Informação (SBSI)  
Na última década a tecnologia OLAP tem sido redesenhada para melhor atender à demanda de dados textuais, tendo que remodelar suas medidas e dimensões. A hierarquia de tópicos surgiu como uma alternativa para organizar dimensões textuais em diferentes níveis semânticos. Contudo, tal hierarquia é criada uma única vez e utilizada para todos os cuboides do cubo. A hierarquia de tópicos é sensível ao conteúdo dos documentos, portanto diferentes células de um cubo agregam diferentes conjuntos de
more » ... entos, produzindo hierarquias de tópicos distintas. Este artigo apresenta uma abordagem para OLAP textual que constrói múltiplas hierarquias de tópicos para cada célula do cubo, denominada DTCubing. Múltiplas hierarquias são viáveis porque cada documento pode ser particionado em diversos segmentos de texto, tais como título, resumo, parágrafo, dentre outros. Este artigo também pretende contribuir com a apresentação dos resultados das consultas multidimensionais. O estado da arte em OLAP textual normalmente retorna os top-k documentos mais relevantes como resultado de suas consultas. A abordagem DTCubing vai além, retornando também os top-k segmentos de texto mais relevantes, portanto os parágrafos e resumos mais relevantes podem ser retornados. Os experimentos realizados utilizando artigos indexados pela DBLP confirmam as hipóteses do trabalho.
doi:10.5753/sbsi.2017.6078 dblp:conf/sbsi/SouzaFL17 fatcat:fwgzzrzpn5gmvojzpxt3p6k5sy