8QQRXWLOOGHHFRORULDJHHGHFRUSXVVSRXUUODDUHSUpVHQWDWLRQQGH WKqPHV

Pierre Beust
unpublished
This paper presents a software called ThemeEditor. This tool provides a help to its users with the representation of their own semantic classes. This construction is realised through an interpretative analysis of an electronic texts corpora. A thematic coloring process plays the leading part in the software's principles. It consists in showing using several colors how the acquired (or under acquisition) semantic classes are set within the text. 5pVXPp Cet article présente une application
more » ... ThemeEditor dont le but est de permettre une acquisition supervisée de classes sémantiques. Cette acquisition est réalisée dans le cours d'une tâche interactive d'analyse interprétative d'un corpus de textes électroniques. Le logiciel d'étude proposé met en oeuvre un principe de coloriage thématique des documents du corpus. Il s'agit de mettre en évidence, en fonction des classes sémantiques acquises ou en cours d'acquisition, la répartition des thèmes et leurs différentes formes d'enchaînements. 0RWVFOpVV Segmentation thématique, Statistique textuelle, Traitement automatique du langage naturel, Logiciels pour l'analyse lexicale et textuelle. ,QWURGXFWLRQ Notre recherche en traitement automatique des langues concerne la sémantique lexicale et la dimension thématique de la cohésion textuelle. Il s'agit dans cet article de présenter un logiciel interactif d'étude de corpus permettant à un utilisateur de mettre à profit cette cohésion pour construire les classes sémantiques qui l'intéressent. En cela, notre approche s'inscrit dans le courant issu des travaux en linguistique de Harris, Rastier ou encore Mel'cuk qui avancent que la construction de lexiques (à des fins de traitements automatiques ou d'analyses « manuelles ») est fondée sur une étude des usages des mots dans les productions langagières (textes, dialogues, ...). L'outil que nous proposons, appelé ThemeEditor, est basé sur une idée de coloriage que nous allons détailler dans une première partie de l'article. Dans une deuxième partie nous présenterons plus en détails l'application que nous avons développée. Enfin, nous expliquerons dans quels buts les classes sémantiques produites sont réutilisées par d'autres composants logiciels. /HHFRORULDJHHWKpPDWLTXH De même que Pichon et Sébillot, 1999, nous entendrons ici par « thèmes » les sujets abordés dans un texte ou dans un corpus. Les thèmes seront représentés par des listes de mots indiquant le sujet en question. Le coloriage thèmatique est une façon d'identifier ces sujets
fatcat:s6tirgaqqvdklido3hptm3owyu