Extraction de lexique bilingue à partir d'un corpus de traduction : une stratégie par écrémage

Etienne Leblois
unpublished
To extract a bilingual lexicon from a translation corpus or aligned bilingual corpus, the standard approach is to select equivalences based on their specificity, an indication of the small probability that the two terms of the equivalence are paired only by chance. An additional approach can be taken from the lexicographer's intuition: when confronted with an unknown pair of languages, he/she will start retrieving first the transcodables, then less likely pairs, thus following a skimming
more » ... g a skimming strategy that favors reliability of the extractions over recall. We define ignition loss, a numerical criterion that quantifies this transcodable nature of the candidate equivalence. Equivalence candidates being 2D-characterized by both ignition loss and specificity, the skimming strategy consists in selecting a pair candidate on the convex hull of the plot. Once that pair has been withdrawn from the corpus, we update the elementary statistics and select a next pair, until residual equivalence scores become insufficiently significant. A first implementation of such a skimming strategy is demonstrated and applied to both a simulated corpus and a real corpus of Finnish literature aligned with its French translation. Résumé En extraction de lexique bilingue à partir d'un corpus de traduction ou corpus bilingue aligné, l'usage est d'extraire les équivalences candidates sur la base de leur spécificité. La spécificité quantifie la faible probabilité que les deux termes de l'équivalence candidate soient ainsi présents en segment appariés du seul fait du hasard. Un autre critère nous paraît fourni par l'intuition du lexicographe qui face à une paire de langues inconnues commencera par récolter les transcodables, avant de s'attaquer à des paires plus incertaines, dans une stratégie d'écrémage privilégiant la fiabilité des extractions sur le rappel. Nous introduisons la perte au feu, critère numérique permettant de quantifier le caractère transcodable d'une équivalence candidate. Les équivalences candidates étant désormais caractérisées en deux dimensions par leur perte au feu et leur spécificité, on appellera stratégie d'écrémage toute stratégie consistant à sélectionner une paire sur l'enveloppe convexe de ce diagramme, à la retirer, à procéder à la mise à jour des statistiques élémentaires, et à recommencer jusqu'à atteindre des scores insuffisants. On étudie ici le comportement d'une implémentation de cette stratégie, d'une part sur corpus simulés, d'autre part sur un corpus réel constitué de littérature finnoise alignée avec sa traduction française.
fatcat:svddumkacra2pgndexrxht5vxa