Indexation automatique de documents par combinaison d'analyses statistiques et terminologiques structurées

Lyne Da Sylva
2004 Open research Areas in Information Retrieval  
Ce travail vise à développer un certain type d'outil de navigation de documents numériques pour faciliter la recherche d'information, sous la forme d'un index comme ceux que l'on retrouve à la fin des livres. L'implémentation veut mettre à profit les techniques d'analyse documentaire humaine : repérage des passages du document, détermination de leurs thématiques respectives, puis établissement de liens entre toutes les entrées proposées. Une liste de candidats-termes pondérés est préparée, sur
more » ... a base de ces critères mais aussi sur la base d'une analyse de fréquence (on considère alors à la fois les occurrences de termes isolés et les cooccurrences de paires de termes). L'index final est constitué des candidats-termes au poids le plus élevé. Le résultat est une liste d'entrées structurées en vedettes principales et sous-vedettes, entretenant divers liens statistiques ou sémantiques. L'article fait un survol d'approches reliées, présente la méthodologie utilisée ainsi que certains résultats expérimentaux, et conclut sur quelques pistes de recherche à poursuivre. Justification de rapproche et travaux antérieurs Les modes d'accès actuels aux documents numériques se limitent souvent aux suivants : l'indexation automatique (telle qu'effectuée par les moteurs de recherche), quelques mots-clés fournis par l'auteur du document, ou encore la fonction de recherche plein texte. Chacun présente des limites importantes. L'indexation automatique (normalement couplée à une interface de requête) recense toutes les occurrences des mots des documents indexés. Elle n'implique aucune hiérarchisation des concepts, ni par importance, ni par relation sémantique entre concepts. De plus, les moteurs de recherche n'indexent généralement pas les pages au complet, se limitant à un certain nombre de kilo-octets au début du document. Par ailleurs, cette approche représente un mélange d'indexation fine (du style d'un index de monographie) et d'indexation sommaire du document (comme dans les bases de données bibliographiques), avec les périls que cette confusion entraîne (voir notamment Klement, 2002).
dblp:conf/riao/Sylva04 fatcat:7kiktevsabhmheg6mzc2icsb2u