Une procédure automatique pour étendre des normes lexicales par l'analyse des cooccurrences dans des textes

Nadja Vincze, -Yves Bestgen
unpublished
Tant dans le domaine de la psychologie que dans celui du traitement automatique des langues, les normes portant sur des propriétés sémantiques, comme le caractère concret ou abstrait, la polarité ou le caractère émotionnel, constituent des ressources importantes. La construction manuelle de ces normes, par l'intermédiaire d'évaluateurs, est coûteuse, d'où l'intérêt de développer des méthodes de construction ou d'extension automatique. Plusieurs méthodes ont été proposées, mais elles portent sur
more » ... s elles portent sur une seule dimension : la polarité. Nous proposons de voir dans quelle mesure l'une d'entre elles peut être étendue à six autres normes, et ce pour le français et l'espagnol. Les expérimentations confirment l'efficacité de la technique non seulement pour étendre une norme, mais également pour mettre en évidence des mots pour lesquels les valeurs attribuées par les évaluateurs sont sujettes à caution. ABSTRACT. Both in the field of psychology and in natural language processing, norms related to semantic properties, such as concreteness, polarity or emotionality, are important resources. The manual construction of these norms, by asking participants to rate the words, is expensive, hence the need to develop automatic methods of construction or extension. Several methods have been proposed, but they focus on only one dimension: polarity. We propose to determine whether one of these methods can be extended to six other norms, for French and Spanish. The experiments confirm the effectiveness of the technique, not only to extend a norm, but also to highlight the words for which the values that were assigned by the raters seem unreliable. MOTS-CLÉS : normes lexicales, psycholinguistique, fouille d'opinion, analyse sémantique latente, corpus et collection de textes.
fatcat:g5qqsbqjzrfgxkctz7widpndve