22 ème Traitement Automatique des Langues Naturelles

Philippe Blache, Grégoire Montcheuil, Stéphane Rauzy, Marie-Laure Guénot
2015 unpublished
Nous présentons ici 4-couv, un nouveau corpus arboré d'environ 3 500 phrases, constitué d'un ensemble de quatrièmes de couverture, étiqueté et analysé automatiquement puis corrigé et validé à la main. Il répond à des besoins spécifiques pour des projets de linguistique expérimentale, et vise à rester compatible avec les autres treebanks existants pour le français. Nous présentons ici le corpus lui-même ainsi que les outils utilisés pour les différentes étapes de son élaboration : choix des
more » ... on : choix des textes, étiquetage, parsing, correction manuelle. Abstract. Creation of a new treebank with backcovers We introduce 4-couv, a treebank of approximatively 3 500 trees, built from a set of literacy backcovers. It has been automatically tagged and parsed, then manually corrected and validated. It was developed in the perspective of linguistic expriment projects, and aims to be compatible with other standard treebanks for french. We present in the following the corpus itself, then the tools we used or developed for the different stages of its elaboration : texts' selection, tagging, parsing, and manual correction.
fatcat:3iqavjonvfeyvbx7ifmems6qsa