Agrégats de mots-clés validés sémantiquement Pour de nouveaux services d'accès à l'information sur internet

Christian Belbèze, Max Chevalier, Chantal Soulé-Dupuy
2009 Document Numérique  
{Max.Chevalier, Chantal.Soule-Dupuy}@irit.fr RÉSUMÉ. A l'heure du web social, nous présentons une solution destinée à définir de nouveaux services tels que la construction automatique et dynamique de communautés d'utilisateurs : l'agrégation de mots-clés. Ces agrégats de mots-clés sont issus des recherches antérieures des utilisateurs réalisées au travers d'un moteur de recherche. Nous présentons la démarche que nous avons suivie pour obtenir un algorithme de regroupement des mots-clés
more » ... de fichiers de traçage (log) ; nous illustrons cet algorithme au travers de son application au fichier de traçage du moteur de recherche aol.com. A des fins d'évaluation et de validation, nous proposons de comparer les résultats obtenus par le moteur de recherche à partir des agrégats de mots-clés ainsi créés et de définir un coefficient de cohérence sémantique de ces agrégats. Nous mesurons dans une expérimentation la perte de cohérence sémantique liée à l'augmentation de la taille des agrégats. L'intérêt de notre approche réside dans le fait qu'elle peut être considérée comme une brique de base pour un grand nombre de systèmes « communautaires » et ainsi exploitée pour offrir encore plus de services à l'usager. ABSTRACT. At the hour of the social Web, we present a solution being able to be used as a basis for the definition of new services such as automatic and dynamic construction of communities of users: the aggregation of keywords. These aggregates of keywords result from former research of the users of a search engine. We present the process which we followed to obtain an algorithm for gathering keywords coming from log files (tracing files); we illustrate this algorithm through its application to a log file of the search engine aol.com. At ends of evaluation and validation, we propose to compare the results obtained by the search engine starting from the aggregates of keywords thus created and to define a semantic coefficient of coherence of these aggregates. We measure in an experimentation the loss of semantic coherence related to the increase in size of the aggregates. The interest of the approach suggested lies in the fact that it can be regarded as a basis for a great number of "community" systems and thus exploited to offer even more services to the user.
doi:10.3166/dn.12.1.81-105 fatcat:mfd7hrhkpfcmtdynf2yerbtihe