Pré-analyse de corpus

Thierry Poibeau
unpublished
Most Natural Language Processing tools need homogeneous corpora in order to deliver relevant results. However , such corpora are rarely available in industrial and applicative contexts. This paper presents an original approach for preparing corpora in order to obtain useful amount of texts. The presented techniques are based on statistical and surface linguistic analysis. We present these techniques and an experiment in the information extraction domain. We demonstrate the different techniques
more » ... nd evaluate their interest for the task. Résumé Les applications de Traitement Automatique des Langues nécessitent le plus souvent des corpus homogènes pour fournir des résultats pertinents. De tels corpus sont rarement disponibles dans des contextes applicatifs ou indus-triels. Cet article propose une approche originale pour préparer les corpus et obtenir des masses de textes utili-sables. Les techniques présentées vont des statistiques à l'analyse linguistique de surface. Les techniques sont présentées puis appliquées au domaine de l'extraction d'information. Nous montrons l'intérêt de ces techniques et nous en donnons une évaluation fondée sur leur pertinence pour la tâche visée. Mots-clés : pré-analyse de corpus, analyse linguistique de surface, approches statistiques
fatcat:jd6os6z42zbrrerbher75wzy7y