A copy of this work was available on the public web and has been preserved in the Wayback Machine. The capture dates from 2012; you can also visit the original URL.
The file type is application/pdf
.
DocCat : un composant logiciel de catégorisation de documents et de marquage sémantique XML
2003
Ingénierie des Systèmes d'Information
Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d'apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L'intérêt du stockage dans une base XML est de faciliter la recherche de documents pertinents grâce au langage XQuery. La
doi:10.3166/isi.8.3.33-54
fatcat:dg5vztuihrcavcjed3ygdalqli