S XPipe 2: an architecture for surface preprocessing of raw corpora

Benoît Sagot, Pierre Boullier
2008 Revue TAL  
Cet article présente SXPipe 2, chaîne modulaire et paramétrable dont le rôle est d'appliquer à des corpus bruts une cascade de traitements de surface. Préalable nécessaire à une possible analyse syntaxique, ils peuvent également servir à préparer d'autres tâches. Développé pour le français mais également pour d'autres langues, SXPipe 2 comprend, entre autres, divers modules de reconnaissances d'entités nommées dans du texte brut, un segmenteur en phrases et en tokens, un correcteur
more » ... e et reconnaisseur de mots composés, ainsi qu'une architecture originale de reconnaissance de motifs non contextuels, utilisée par différentes grammaires spécialisées (nombres, constructions impersonnelles. . . ). Nous présentons les fondements théoriques des différents modules, leur mise en oeuvre pour le français et pour certains une évaluation quantitative. ABSTRACT. This article introduces SXPipe 2, a modular and customizable chain aimed to apply to raw corpora a cascade of surface processing steps. Necessary preliminary step before parsing, they can be also used to prepare other tasks. Developed for French and for other languages, SXPipe 2 includes, among others, various named entities recognition modules in raw text, a sentence segmenter and tokenizer, a spelling corrector and compound words recognizer, and an original context-free patterns recognizer, used by several specialized grammars (numbers, impersonal constructions. . . ). We describe the theoretical foundations of these modules, their implementation on French and a quantitative evaluation for some of them.
dblp:journals/tal/SagotB08 fatcat:jq5vlxmzojcpvo5kwykobiwwiq