Construction collaborative d'une base lexi-cale multilingue Le projet Papillon Word usage identification from a crowd-sourced lexical network built with online games

Mathieu Mangeot-Lerebours, -Gilles Sérasset, -Mathieu Lafourcade, Mathieu Lafourcade, Alain Joubert
unpublished
L'analyse sémantique de textes nécessite en préalable la construction d'objets relevant de la sémantique lexicale. Les vecteurs d'idées et les réseaux lexicaux semblent de bons candidats et constituent ensemble des structures complémentaires. Toutefois, faut-il encoreêtre capable dans la pratique de les construire. Les vecteurs d'idées peuventêtre calculésà partir de corpus de définitions de dictionnaires, de thésaurus ou encore de textes. Ils peuvent se décliner en des vecteurs conceptuels,
more » ... vecteurs anonymes ou des vecteurs lexicaux -chaque type présentant unéquilibre différent entre précision, couverture et praticité. Quant aux réseaux lexicaux, ils peuvent etre acquis efficacement via des jeux, et c'est précisément l'objet du projet JeuxDeMots. L'analyse sémantique peutêtre abordée par l'analyse thématique, et ainsi servir de moyen de calculà des vecteurs d'idées (bouclage). Nous pouvons modéliser l'analyse comme un problème d'activation et de propagation. La multiplicité des critères pouvant intervenir dans une analyse sémantique, et la difficulté inhérenteà définir une fonction de contrôle satisfaisante, nous amèneà explorer l'usage de métaheuristiques bio-inspirées. Plus précisément, nous introduisons un modèle d'analyse par colonies de fourmis artificielles.À partir d'un texte, l'analyse vise a construire un graphe contenant les objets du texte (les mots), des objets identifiés comme pertinents (des syntagmes, des concepts) ainsi que des relations pondérées et typées entre ces objets. Mots-clés Traitement Automatique des Langues, analyse sémantique de textes, sémantique lexicale, vecteurs d'idées, réseaux lexico-sémantiques, acquisition lexicale, jeux sérieux. Abstract The semantic analysis of texts requires beforehand the building of objects related to lexical semantics. Idea vectors and lexical networks seems to be adequate for such a purpose and are complementary. However, one should still be able to construct them in practice. Vectors can be computed with definition corpora extracted from dictionaries, with thesaurii or with plain texts. They can be derived as conceptual vectors, anonymous vectors or lexical vectors -each of those being a particular balance between precision, coverage and practicality. Concerning lexical networks, they can be efficiently constructed through serious games, which is precisely the goal of the JeuxDeMots project. The semantic analysis can be tackled from the thematic analysis, and can serve as computing means for idea vectors. We can modelise the analysis problem as actviations and propagations. The numerous criteria occuring in the semantic analysis and the difficulties related to the proper definition of a control function, lead us to explore metaheuristics inspired from nature. More precisely, we introduce an analysis moodel based on artificial ant colonies. From a given text, the analysis aims at building a graph holding objects of the text (words, phrases, sentences, etc.), highlighting objects considered as relevant (phrases and concepts) as well as typed and weighted relations between those objects.
fatcat:hlykecaoxvhrripoon5gbhtiju