DocCat : un composant logiciel de catégorisation de documents et de marquage sémantique XML

Georges Gardarin, Huaizhong Kou, Karine Zeitouni
2003 Ingénierie des Systèmes d'Information  
Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d'apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L'intérêt du stockage dans une base XML est de faciliter la recherche de documents pertinents grâce au langage XQuery. La
more » ... catégorisation implémente un nouvel algorithme hybride dit CKNN et qui combine les algorithmes de centroïdes et celui des k plus proches voisins (k-NN). En amont de cette phase, un modèle de représentation des documents doit d'abord être constitué. Ceci a amené au développement d'une nouvelle approche (CBA) pour la sélection de termes caractéristiques, comprenant la pondération des termes puis le test de dépendance de χ 2 pour filtrer ces termes. En se basant sur ces poids qui quantifient les liens entre les documents et les catégories, la qualité de classement peut être améliorée. Aussi, deux nouvelles méthodes de calcul de score des catégories (CBW et IBW) ont été proposées. Ces méthodes sont intégrées à l'algorithme k-NN. Les tests préliminaires montrent qu'une recherche partielle dans la base d'apprentissage aboutit aux mêmes performances que la recherche totale. Cet article décrit globalement le composant DocCat et décrit son application à la gestion de dépêches boursières. Mots-clés : catégorisation de documents, fouille de textes, XML • La catégorisation automatique: lorsqu'un nouveau document arrive, il est automatiquement classé en une ou plusieurs catégories pré-définies.
doi:10.3166/isi.8.3.33-54 fatcat:dg5vztuihrcavcjed3ygdalqli