Quelques questions à l'attention des utilisateurs de statistique textuelle pour l'analyse des discours

Guillaume Carbou
2017 Texto ! Textes et Cultures   unpublished
Cet article, volet d'un travail en deux parties, propose une liste de questions critiques à l'attention des utilisateurs de logiciels de statistique textuelle. Ces techniques d'analyse des discours deviennent de plus en plus courantes dans de nombreux champs de recherche. Or, si la statistique textuelle offre un moyen intéressant d'aborder les corpus, il est nécessaire de prendre un certain nombre de précautions théoriques et méthodologiques pour faire un usage éclairé de cet outil. Les
more » ... s posées dans le présent article invitent à ce recul critique. Elles interrogent les hypothèses sur les fonctionnements textuels que porte en elle la statistique textuelle (lexicocentrisme, compositionnalisme, typification lexicale...) ainsi que les difficultés d'interprétabilité des sorties-machine. Mots-clefs : statistique textuelle, sciences du texte, méthodologie, lexicométrie, textualité. Cet article s'inscrit dans un diptyque dont le second volet est publié dans la revue Les cahiers du numérique (Carbou, 2017). Ces deux articles visent à lister les principales questions que doivent se poser les utilisateurs d'outils d'analyse informatisée des données textuelles (ou encore de lexicométrie, textométrie, statistique textuelle, de topic modeling, ... nous ne faisons pas ici de distinction entre ces diverses appellations) afin de faire un usage éclairé de leurs instruments. Il ne s'agit en aucun cas de nier les intérêts épistémiques et la puissance heuristique de l'analyse des textes assistée par ordinateur mais simplement de désigner les écueils qui guettent les utilisateurs les moins avertis. Le volet publié dans Les cahiers du numérique s'attache à des questions d'ordre épistémologique : il s'agit de se demander quel rôle peut jouer l'outil informatique dans l'étude des grands corpus numériques. Nous y suggérons que la statistique textuelle doit se garder de soutenir les tendances objectivistes de certaines franges des humanités numériques. Au contraire, elle doit participer à affirmer la dimension herméneutique de l'analyse des textes, plaider pour une approche prudente des (trop) grands corpus, ou encore distinguer entre usage probatoire et exploratoire des calculs statistiques. Dans le présent volet, nous nous intéressons à l'analyse des textes assistée par ordinateur d'un point de vue plus linguistique. D'une part nous adoptons le regard des sciences du texte pour mettre en garde contre certaines inadéquations entre les modes d'analyse des logiciels de lexicométrie et les fonctionnements textuels effectifs. D'autre part, nous soulevons certains des risques liés à la difficile interprétabilité des sorties-machine : les calculs qui déstructurent les textes et les recomposent sous forme graphique peuvent conduire à des « mirages lexicométriques » (Tournier, 1985). Notre démarche dans ce travail part du constat que l'utilisation de logiciels de statistique textuelle pour analyser les discours traverse aujourd'hui tous les champs de recherche. Psychologie, sociologie, linguistique, sciences de gestion, économiques, politiques, de l'information et de la communication, etc., voient fleurir les approches outillées de leurs données textuelles. À l'heure où les grands corpus numérisés sont aisément accessibles, la lexicométrie semble offrir la possibilité de traitements rapides et économiques. Toutefois, on peut craindre que l'expansion de cet outil hors de son champ de spécialité (à savoir l'analyse du discours, dûment informée par les sciences du langage et la statistique) mène à des utilisations maladroites. La simplicité apparente d'usage, la possibilité de traiter en quelques clics des grandes masses de données numérisées, la dimension objectivante du traitement statistique, la force rhétorique de résultats présentés sous forme graphique sont autant d'éléments qui favorisent des appropriations
fatcat:a3layz22dngx3dfnzhssegznui