L'alignement multicritères des documents médiévaux

Hatem Ghorbel, Giovanni Coray, André Linden, Olivier Collet, Wagih Azzam
unpublished
The aim of text alignment is to establish correspondence relations between subparts of two or more translations or versions of the same document. The majority of the methods in use in the technique of alignment are based on the statistical analysis of word or character frequencies or of string occurrences. In order to improve the efficiency of the process of alignment, other methods have incorporated some structural properties of the documents (e.g. chapters, sections, paragraphs, etc.) as
more » ... er criteria. When applying the problem of alignment to parallel versions of medieval French manuscripts produced between the XIIth and the XVIth century, classical approaches have shown their limits due to the considerable variation of the appearance and content of these documents. This is basically caused by, (a) the partial evolution of the language, second, (b) the variation of the style (verse and prose) and (c) the various personal interpretations that could come about when rewriting new versions. In this article, we adapt the technique of alignment to parallel versions of ancient texts and we propose a multicriteria approach which takes into account, first the similarities at the lexical, morpho-syntaxic and lexico-semantic levels, and second the similarities of the typographic and rhetorical structure of texts. Lexicometrica 2 KEYWORDS : multicriteria alignment, parallel versions of medieval manuscripts, linguistic similarities, structural similarities. RESUME Le but de l'alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d'un même document. La plupart des méthodes utilisées dans la technique de l'alignement se fondent sur l'analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci composent. Afin d'améliorer l'efficacité de ces méthodes, d'autres approches incorporent certaines propriétés linguistiques (morpho-syntaxiques et lexico-sémantiques) et structurelles (marques de chapitres, de sections, etc.) des documents. Lorsqu'on applique de telles techniques aux versions parallèles des manuscrits en langue française produits entre le XIIème et XVème siècle, celles-ci montrent leurs limites en raison de la variation considérable de l'aspect et du contenu de ces documents. Les causes en sont premièrement, l'évolution de la langue, deuxièmement, les possibilités de transformation stylistique des textes, enfin, les diverses interprétations personnelles auxquelles la réécriture de nouvelles versions peut donner lieu. Cet article expose les résultats d'une adaptation de la technique d'alignement aux versions parallèles des écrits anciens à partir d'une approche multicritères qui tient compte d'une part de la similitude au niveau lexical, morpho-syntaxique et lexico-sémantique du français de la période médiévale et, d'autre part, de celle que l'on constate sur le plan de la structure typographique et rhétorique des textes. MOTS-CLES : alignement multicritères, versions parallèles d'écrits médiévaux, similitude linguistique, similitude structurelle.
fatcat:az3y3xxbdjh3ro25n3pfwyadgu