Comment allier la puissance du TAL et la simplicité d'utilisation ? L'exemple du concordancier bilingue ConcQuest

Olivier Kraif
unpublished
This paper presents the design of a multilingual concordancer, ConcQuest, which attempts to give simple access to complex technologies of NLP. Through this presentation, we try to delineate some possible solutions, in order to cope with the inherent difficulties of formal linguistic representations. These solutions involve different aspects: simplified functionalities, standardisation, graphical aids, and the like. We show that basic NLP techniques, such as bilingual aligning, lemmatizing,
more » ... , lemmatizing, pos-tagging, and regular expressions, allow one to conduct advanced searches through corpora, without being a specialist. After a brief description of the functions of ConcQuest, we describe how the query language has been designed, and compare it with more widely used systems. Then we present a help interface which illustrates how a graphical representation makes it possible to handle complex queries without mastering formal operations, and how this representation may be used as an intermediate step in the process of familiarization with the the query language. Résumé Cette article présente l'architecture d'un concordancier multilingue nommé ConcQuest, dont l'effort de conception s'est articulé autour d'une problématique générale en TAL : comment mettre à la disposition d'un utilisateur non spécialiste des formalismes puissants, capables de décrire des phénomènes morphosyntaxiques complexes ? A travers la présentation de ce logiciel, nous verrons qu'il existe des solutions liées à différents aspects : simplicité des fonctionnalités, standardisation, aides graphiques. Nous verrons que des techniques de base du TAL (alignement, lemmatisation et étiquetage, recherche de patterns d'expressions régulières) permettent d'accéder à des fonctionnalités avancées (critères syntaxiques, recherche de cooccurrences monolingues et bilingues) sans être spécialiste du domaine. Après avoir exposé les différentes fonctionnalités offertes par ConcQuest, nous expliquerons, à travers une étude comparative, comment le langage de requête a été conçu, sur la base de méta-expressions régulières et de relations de dépendances facultatives, dans le souci d'allier puissance et simplicité. Nous décrirons ensuite une interface graphique d'aide à la construction de ces expressions, qui poursuit deux objectifs : permettre d'utiliser le langage sans aucune connaissance du formalisme d'une part, et se familiariser à celui-ci d'autre part, grâce à une construction parallèle des expressions et de leur représentation graphique.
fatcat:2pxfruvn5zgrrmw3t6eiemywke