Limites de la lemmatisation pour l'extraction de significations

Benoît Lemaire
unpublished
Corpus lemmatization is a widely used procedure which is sometimes done for the sake of following a tradition. This paper highlights the limits of this process in the case of automatic extraction of semantic information, that is, when the context in which words occur is used. First, we uncovered significant differences between contexts of singular and plural forms of 58 nouns in a large French corpus. Systematically replacing plural forms by singular forms might therefore affect the
more » ... of semantic extraction systems. Then, we relied on Latent Semantic Analysis to show in another way that the two contexts are different and that LSA performances on a vocabulary test decrease when the corpus is lemmatized. Lemmatizing corpora for such a usage might therefore work against the general intention. Résumé La lemmatisation des corpus est une procédure répandue que l'on effectue parfois par simple respect d'une tradition. Cet article met en évidence les limites de cette opération dans le cas de l'extraction automatique d'informations sémantiques, c'est-à-dire lorsque le contexte d'apparition des mots est utilisé. Nous montrons dans une première partie que les contextes des formes plurielles et singulières de 58 mots dans un vaste corpus diffèrent significativement, ce qui laisse penser que remplacer les uns par les autres peut affecter les performances des systèmes d'extraction de significations. Dans une seconde partie, nous recourons à l'analyse de la sémantique latente (LSA) pour montrer d'une autre manière que les contextes des deux formes ne sont pas les mêmes et que les performances du système sur un test de vocabulaire diminuent dès lors que le corpus est lemmatisé. Le lemmatisation des corpus pour un tel usage va donc peut-être à l'encontre du but recherché.
fatcat:msodxdvlmffnha7qbwaccxhgyq