Classification d'un contenu encyclopédique en vue d'un étiquetage par entités nommées

Eric Charton, Juan-Manuel Torres-Moreno
2009 Traitement Automatique des Langues Naturelles & Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues  
On utilise souvent des ressources lexicales externes pour améliorer les performances des systèmes d'étiquetage d'entités nommées. Les contenus de ces ressources lexicales peuvent être variés : liste de noms propres, de lieux, de marques. On note cependant que la disponibilité de corpus encyclopédiques exhaustifs et ouverts de grande taille tels que Worldnet ou Wikipedia, a fait émerger de nombreuses propositions spécifiques d'exploitation de ces contenus par des systèmes d'étiquetage. Un
more » ... e demeure néanmoins ouvert avec ces ressources : celui de l'adaptation de leur taxonomie interne, complexe et composée de dizaines de milliers catégories, aux exigences particulières de l'étiquetage des entités nommées. Pour ces dernières, au plus de quelques centaines de classes sémantiques sont requises. Dans cet article nous explorons cette difficulté et proposons un système complet de transformation d'un arbre taxonomique encyclopédique en une système à classe sémantiques adapté à l'étiquetage d'entités nommées.
dblp:conf/taln/ChartonT09 fatcat:4opawa36mjeyjiygiv7hfmoyda