Zero-Syllable Words in Determining Word Length [chapter]

Gordana Antić, Emmerich Kelih, Peter Grzybek
Contributions to the Science of Text and Language  
Le data turn. Des premiers traitements statistiques du langage (1950-60) à la fouille de textes Introduction On tient généralement les années 1990 pour le moment où le TAL a commencé à abandonner les méthodes symboliques au profit des méthodes statistiques ; ce mouvement apparaît lorsque le traitement de grandes masses de données devient possible grâce aux développements technologiques inédits des ordinateurs et des logiciels. Or si l'on examine les débuts du TAL, on s'aperçoit que, dès les
more » ... it que, dès les années 1950, sont mis en oeuvre des traitements du langage fondés sur des méthodes statistiques et probabilistes dans le sillage de la cryptographie et de la théorie de l'information. C'est particulièrement le cas en France où, dans les années 1950-60, sont utilisées et discutées les chaînes de Markov et la loi d'Estoup-Zipf, de sorte que l'on peut dire qu'en France les analyses quantitatives précèdent les premières expériences en traduction automatique et l'utilisation des méthodes logico-mathématiques dans le processus d'automatisation-mathématisation du langage 1 . Dans les années 1960-70, on voit se développer la lexicométrie (travaux de Moreau, Tournier, Lafon, Salem) et l'analyse des données (travaux de Benzécri dans les années 1970-80). Ces traitements sont contemporains des premiers analyseurs syntaxiques automatiques fondés sur les grammaires formelles, mais ils ont été partiellement éclipsés par l'analyse syntaxique une fois celle-ci devenue dominante dans les années 1960. Enfin, si l'on considère les unités linguistiques envisagées par ces traitements, on observera une partition assez nette : alors que la phrase est l'unité de l'analyse syntaxique automatique, le texte et le mot sont les unités privilégiées par les méthodes statistiques et probabilistes. 1 Sur cette spécificité de la France voir Léon (2010) et Léon (sous presse). 01/05/14 2 Dans cet article, nous examinerons les deux moments « statistiques » du TAL, la période des débuts, dans les années 1950-60, et la période initiée dans les années 1990 où les méthodes statistiques et probabilistes se sont généralisées pour déboucher progressivement sur ce qu'on peut appeler le « data turn » (ou « tournant des masses de données »). Nous aborderons ces périodes de façon comparative en nous interrogeant sur les rapports entre TAL, méthodes statistiques et probabilistes, et linguistique. Nous nous poserons les questions suivantes : -en quoi la généralisation du traitement des grandes masses de données remet-elle en cause le statut linguistique des unités « texte » et « mot »? -en quoi la réorganisation des objectifs du TAL à partir de la notion de tâche déplace-t-elle ou oblige-telle à repenser le rapport du TAL avec la linguistique ? -Quel est le statut de la linguistique elle-même lors de l'utilisation de ces méthodes : fournit-elle un cadre théorique pour le TAL, ou bien est-elle instrumentalisée et ses unités et ses méthodes utilisées comme simples ressources ? Constitue-t-elle encore un enjeu ou bien se retrouve-t-elle purement et simplement mise à l'écart ? Unités linguistiques (mot et texte) et débuts du traitement automatique des langues Quand on examine les débuts du traitement automatique des langues dans les années 1950-1960, le statut linguistique des unités est unanimement discuté par l'ensemble des acteurs du domaine, linguistes, ingénieurs, mathématiciens, même si les méthodes utilisées sont parfois inédites ou non conformes aux descriptions de la linguistique de l'époque. Les unités linguistiques sur lesquelles ont porté la plupart des traitements statistiques et probabilistes sont le mot et le texte. Ces deux unités sont souvent indissociables dans le traitement automatique et nous examinerons les définitions mises en oeuvre par les différents modèles et théories au moment des débuts de l'automatisation du langage : chaînes de Markov, théorie de l'information, cryptographie, modèles probabilistes et modèles statistiques de distribution des fréquences. Deux points sont à noter cependant, et nous y reviendrons plus loin : le mot n'a pas été l'unité de traitement uniquement de méthodes statistiques, il a été aussi au coeur de certains travaux pionniers en traduction automatique. Inversement, d'autres unités que le mot ont fait l'objet de traitements statistiques. C'est le cas des phonèmes et des lettres (unités de longueur des mots). Enfin il faut souligner que l'automatisation des traitements statistiques s'est faite progressivement. Le passage des comptages « à la main » aux machines mécanographiques puis aux ordinateurs n'a pas entraîné de grands changement ni dans les méthodes 01/05/14 3 statistiques ni dans la conception du rapport entre statistiques et linguistique. C'est le data turn amorcé dans les années 1990 qui a provoqué un véritable bouleversement. Phrase, mot, texte Il faut tout d'abord préciser que la définition des unités « phrase », « mot » et « texte », voire leur statut même d'unité linguistique, est loin de faire consensus pour tous les linguistes, et dépend largement de l'approche théorique adoptée. Néanmoins, ces entités ont un caractère empirique indéniable dès lors qu'il s'agit d'accomplir une tâche, qui, on le sait, constitue un des principaux objectifs du TAL. La phrase est l'unité par excellence de la syntaxe. Comme il ne convient pas de faire ici l'histoire de l'analyse syntaxique automatique peu concernée, surtout à ses débuts, par les méthodes statistiques, disons simplement que le premier qui ait envisagé une analyse syntaxique automatique est Yehoshua Bar-Hillel (1915-1975. Philosophe du langage, ayant fait une thèse sur la syntaxe logique de Carnap, Bar-Hillel introduit la récursivité en linguistique et élabore une « syntaxe opérationnelle » pour la traduction automatique, fondée sur une grammaire catégorielle « A Quasi-arithmetical notation for syntactic description », associant la méthode de Harris et la notation d'Ajdukiewicz [ Bar-Hillel 1953]. Pour Bar-Hillel, la syntaxe constitue la question principale à résoudre pour la traduction automatique, c'est pourquoi il conçoit sa syntaxe opérationnelle comme une machine capable de découvrir de façon automatique la structure syntaxique d'une chaîne d'une langue source donnée. Cette syntaxe opérationnelle peut être considérée comme le premier analyseur syntaxique automatique au fondement même de ce qui deviendra la linguistique computationnelle dans les années 1960 [Cori et al. 2002]. En linguistique, le mot est une notion complexe et hétérogène, d'ailleurs souvent controversée, dont les différentes dimensions, graphique, phonétique, syntaxique ou sémantique coïncident rarement et n'ont pas de propriétés constantes 2 . Pour le traitement automatique des langues, que ce soit en linguistique computationnelle ou en linguistique de corpus, une définition semble faire toutefois consensus : le mot est une suite de caractères délimités par des séparateurs 3 . On verra que cette définition, en vigueur dès les débuts du traitement automatique, est historiquement située et a fait l'objet de vifs débats. 2 Pour le mot, voir Tamba et Luzzati dans ce numéro, Léon 2001, Baratin et al. 2004. 3 Sur le plan empirique et pour le TAL, on peut distinguer deux types de mots : (i) les mots-formes, tokens, formes fléchies ou running words. Ce sont des « unités perceptibles de texte écrit qui peuvent être reconnues selon les espaces ou d'autres marques de séparation » [voir Antié et al. 2006] ; (ii) les 01/05/14 4 Comme le remarque Kyheng [2005], bien que le texte constitue l'un des objets les plus anciens des sciences du langage, il n'est envisagé comme concept par les linguistes qu'à partir de la seconde moitié du XX e siècle. Aux trois écoles qui, selon elle, ont contribué à l'établissement du texte comme objet pour la linguistique, à savoir l'école sémiotique de Tartu , l'école sémiotique de Paris, et la Textlinguistik allemande, il faut ajouter les travaux des empiristes britanniques, en particulier de J.R. Firth dans les années 1950, pour lequel le texte intégral et authentique est une unité essentielle pour l'élaboration d'une théorie sémantique. C'est cette conception du texte qui sera à la base de la Corpus Linguistics telle qu'envisagée par John Sinclair au début des années 1960 (voir [Stubbs 1993], [Léon 2007]) -voir plus loin §1.4.3. 1.2. Chaînes de caractères et probabilités 1.2.1. Le modèle de Markov Les premiers travaux probabilistes sur les textes concernent les successions de voyelles et consonnes et non directement les mots. Il s'agit des travaux du mathématicien russe Andrei Andrejevitch Markov (1856 -1922), dont l'objectif est la recherche de constantes de probabilités liées en étudiant la succession des voyelles et des consonnes (vv, cc, vvv, vcv, cvv, ccv) -plus tard appelées digrammes et trigrammes -dans un chapitre et demi d'Eugene Onéguine, roman en vers d'Alexandre Pouchkine [Markov 1913]. Son modèle généralisé sous le terme de chaîne de Markov est un automate à états finis dont les transitions d'un état à un autre sont réglées par des probabilités. En 1948, dans le cadre de la théorie de l'information, Shannon a proposé un modèle probabiliste des séquences de lettres et de mots en anglais, fondé sur les chaînes de Markov. Par exemple, dans le cas où les n-grammes sont des lettres (ce peut être des mots), si un texte comporte 100 occurrences de "th", dont 60 occurrences de "the", 25 occurrences de "thi", 10 occurrences de "tha", et 5 occurrences de "tho", le modèle de Markov prédit que la prochaine lettre qui suit le 2-gramme « th » est « e » avec une probabilité de 3/5, elle est « i » avec une probabilité de ¼, « a » avec une probabilité de 1/10, et « o » avec une probabilité de 1/20. Dans ce type de recherche, les unités sont des caractères graphiques, les consonnes et les voyelles, considérées selon leur probabilité d'apparition dans un extrait de texte. Les objectifs sont ceux d'un mathématicien : il s'agit pour Markov de trouver des constantes de probabilités. Nulle préoccupation stylistique ou littéraire ne l'anime. Comme l'a fait formes vides (types, lemmes) qui ont déjà fait l'objet d'une abstraction. Cette distinction comporte des enjeux théoriques importants (voir ci-dessous §2.2.2). 01/05/14 5 remarquer Mandelbrot (1961, p.191), le texte selon Markov est appréhendé en tant que séquence de lettres résultant de tirages au hasard, suivant en cela la « règle d'urne » 4 . Il ne comporte aucune structure grammaticale, seule est conservée la dimension séquentielle. 1.2.2. Le mot « groupe codique » Les n-grammes et les chaînes de Markov ont tout d'abord été utilisés en cryptographie. Ainsi, Moreau 5 [1961] montre comment en cryptographie et en télécommunications, lettres, syllabes et mots sont des unités pouvant travailler pour le même objectif, à savoir coder et décoder un message. En termes de la théorie de l'information, Moreau définit le mot ou « groupe codique » comme l'unité la moins coûteuse en termes d'entropie. En cryptographie comme dans le traitement automatique, quand le mot identifié dans le texte ne se trouve pas dans la mémoire de la machine on descend au niveau de la syllabe (ou plutôt des « psyllabes », pseudo-syllabes définies selon des critères mi-phonétiques mi-graphiques pour la machine). En dernière instance, on descend au niveau des lettres, mais le traitement devient plus coûteux. C'est bien en tant qu'unité empirique linguistique stockable dans un dictionnaire que le mot est utile en cryptographie comme il le sera en traitement automatique des langues. rendre exploitable par les machines, c'est-à-dire en le rangeant dans les cases prédéfinies d'une base de données. Le traitement automatique des petites annonces ou des CV, l'analyse bibliométrique des articles scientifiques... sont autant d'applications possibles pour des systèmes capables d'aborder cette tâche [Tellier, Tommasi 2011]. Ces tâches n'ont de potentiel applicatif que si les systèmes qui les traitent sont capables de gérer rapidement de grandes quantités de données. Elles font basculer la recherche du côté de l'innovation technologique, donnant lieu à des applications commerciales capables de gérer des données réelles. On parle d'ailleurs plus volontiers d'ingénierie linguistique que de TAL dans les sociétés qui commercialisent des produits les mettant en oeuvre. Les habits neufs du TAL Comment réaliser un programme capable de traiter ces nouvelles tâches ? Remarquons tout d'abord que leur unité de traitement est le texte, considéré comme un ensemble de phrases. Cette notion se passe d'ailleurs très bien dans ce cas d'une vraie définition linguistique : c'est l'application qui définit la granularité des textes qu'elle traite. Un texte, pour une tâche de recherche d'information, c'est « ce que fournit un moteur de recherche » (l'identifiant URL d'une page Web, par exemple, même si elle contient plusieurs « textes » au sens linguistique), ou bien c'est la donnée d'entrée d'un système de classification ou d'extraction d'information. Les tweets ou SMS actuels peuvent jouer ce rôle, au même titre que les articles de journaux ou les livres, si le seul objectif visé est de leur attribuer à chacun une étiquette (tâche de classification). Pour des raisons d'efficacité opératoire, la quasi-totalité des systèmes vont renoncer complètement à procéder à une analyse syntaxique (et encore moins sémantique) des phrases qui y figurent. Les analyseurs syntaxiques sont pourtant de plus en plus performants, mais ils sont soit trop coûteux en temps de calcul (dans le cas de textes longs en particulier), soit trop ambigus (ils produisent plusieurs analyses possibles pour une même phrase), soit encore pas assez fiables (dans le cas de textes ne respectant pas les normes usuelles, comme la plupart des tweets ou des SMS). L'intuition qui prévaut est qu'un traitement superficiel des données suffit, dans la plupart des cas, à réaliser la tâche requise. Puisque le pari est d'utiliser les méthodes les plus simples possibles, pour aboutir aux meilleurs résultats possibles, le mot (en tant que suite de caractères comprise entre deux séparateurs dans un texte) retrouve également une nouvelle actualité. C'est l'unité de base sur lequel opèrent en effet la plupart des 01/05/14 17 programmes du TAL contemporain. Suivant que l'ordre dans lequel les mots apparaissent dans un texte est pris en compte ou non, on distinguera toutefois deux familles d'approches : -la première est l'approche dite « sacs de mots ». Comme son nom l'indique, elle consiste à ramener un texte à l'ensemble des « mots-formes » qu'il contient, en négligeant leur ordre d'apparition dans le texte. Les mots sont ici de simples unités de découpage du texte. Représenter un ensemble de textes en sac de mots revient ainsi à créer un tableau dont chaque colonne est un « mot » (ou toute autre unité de segmentation préalablement définie : ngrammes de lettres ou de mots, racine si on a appliqué un « raciniseur », lemme si on dispose d'un lemmatiseur, etc.) présent au moins une fois dans ce corpus, et chaque ligne correspond à un texte : la case à l'intersection d'un texte t et d'un mot m est le nombre d'occurrences du mot m dans le texte t (ou toute autre valeur obtenue par une pondération de cette première). Les lignes et les colonnes sont dans un ordre arbitraire, toute notion de séquentialité a été perdue. Procéder ainsi permet de transformer un corpus en un tableau de nombres, et de lui appliquer directement les procédures qui ont fait leur preuve pour les tâches de data mining. Les mots jouent ainsi pour les textes le rôle que les descripteurs jouaient pour les individus qui cherchent à obtenir un prêt, par exemple : ce sont des attributs dont les valeurs (nombres d'occurrences) sont censées caractériser la donnée. Les systèmes de fouille de textes font en fait la plupart du temps implicitement l'hypothèse encore plus forte que chaque ligne du tableau est un vecteur dans un espace normalisé, qui comprend autant de dimensions qu'il y a d'attributs (de colonnes) dans le tableau. C'est le même principe que les coordonnées (x,y) servant à repérer des points ou à dessiner des vecteurs dans le plan à deux dimensions, sauf que ces objets ont maintenant autant de coordonnées qu'il y a de colonnes. Tout l'attirail mathématique des espaces vectoriels devient alors disponible, ce qui permet par exemple de définir simplement des notions de distances entre données (donc entre textes). Chaque mot caractérise donc dans ce cas une dimension de l'espace de représentation des textes (comme les vecteurs de base (x,y) dans l'espace à deux dimensions) : chacun est « orthogonal » à chaque autre, autrement dit complètement indépendant. Ces hypothèses sont bien sûr linguistiquement aberrantes, mais elles présentent l'avantage de simplifier les calculs. Le mot a ainsi perdu son caractère linguistique pour devenir une unité mathématique : c'est une base vectorielle à partir de laquelle on peut définir ce texte par combinaison linéaire (somme pondérée par les nombres d'occurrences). C'est ainsi que fonctionnent à l'heure actuelle les meilleurs systèmes de recherche d'information, de même que ceux qui réalisent des tâches de classification. 01/05/14 18 -la seconde approche possible préserve la linéarité de la langue , à savoir l'ordre des mots dans le texte, et procède à des simplifications moins radicales : on pourrait la qualifier d' « approche annotative » car elle revient à annoter des portions de textes découpées en unités (ce peut être des phrases segmentées en mots, mais tout aussi bien des textes longs segmentés en phrases, ou en paragraphes) par des étiquettes (autant d'étiquettes qu'il y a d'unités) : l'ordre dans lequel les unités apparaissent se retrouve dans l'ordre des étiquettes. On retrouve là l'intuition initiale des chaînes de Markov (cf . section 1.2.1), appliquée aux séquences de mots. La tâche d'annotation morpho-syntaxique, qui consiste à étiqueter les mots d'une phrase comme « le petit chat est mort » en « DET ADJ NC V ADJ » (DET pour déterminant, ADJ pour adjectif, NC pour nom commun et V pour verbe) est l'instance la plus simple d'une telle tâche. Les systèmes d'extraction d'information ne procèdent pas autrement : pour repérer dans une phrase les noms propres qui y figurent (qui constituent en général la cible de l'extraction), ils cherchent à annoter chacune de ses unités en fonction de leur appartenance ou non à un tel nom propre. Les systèmes de traduction automatique fondés sur des modèles statistiques, quant à eux, exploitent des corpus bilingues alignés, c'est-à-dire des ensembles de phrases qui sont les traductions les unes des autres, exactement comme si chacune servait à « annoter » l'autre. C'est cet alignement qui est la cible principale de la phase d'apprentissage automatique mise en oeuvre dans ces systèmes 14 . La figure suivante montre par exemple comment la traduction d'une phrase entre l'anglais au français, présentée dans un tableau de correspondance, se traduit par un couple de phrases annotées : chaque mot de chaque phrase est annoté par l'indice (la position) du mot qui le traduit dans la phrase de l'autre langue. J ' 1 aime 2 le 3 Chocolat 4 I 1 X like 2 X chocolate 3 X J'aime le chocolat | I like chocolate 1 2 -3 1 2 4 14 Voir l'article d'Holger Schwenk dans Information Grammaticale n°141 01/05/14 19 Les traductions obtenues sont des « mot à mot » ou, au mieux, des « groupe de mots » à « groupe de mots » réordonnés. L'approche « annotative » est un peu moins frustrante pour le linguiste que l'approche « sac de mots » car les unités y sont considérées « en contexte » : pour choisir quelle étiquette associer à l'une d'elles, on a le droit de tenir compte des unités environnantes, voire des étiquettes des unités environnantes, quand elles sont déjà connues. Mais c'est toujours un contexte limité, borné (ce que recouvre exactement le terme « markovien » en mathématiques). Un nouveau rapport à la linguistique Les nouvelles recherches en TAL que nous venons d'évoquer, qu'elles se rattachent à une approche « sac de mots » ou à une approche « annotative », ont massivement recours à l'apprentissage automatique [Cornuejols et Miclet 2002]. La réalisation des tâches n'est ainsi pas directement programmée par un informaticien ou un linguiste : les chercheurs en TAL se contentent désormais de recueillir des exemples de données, si possible associées au résultat souhaité (exemples de mails transformés en sacs de mots pour lesquels on sait s'ils sont ou non des spams, par exemple, ou exemples de textes où les noms propres qui remplissent les champs d'un formulaire d'extraction d'information sont annotés) et de les confier à un programme d'apprentissage qui recherchera lui-même les paramètres pertinents qui relient les données aux résultats. La linguistique a-t-elle encore quelque chose à apporter à ces techniques ? C'est ce que nous allons envisager dans cette dernière partie (voir aussi [Tellier 2009]). 2.2.1. La linguistique comme pourvoyeuse de ressources L'apprentissage automatique n'a rien de magique : pour que les programmes « apprennent » quelque chose de pertinent, c'est-à-dire qui soit applicable sur de nouvelles données non encore observées, il faut leur fournir des exemples de bonne qualité et en grand nombre. La plupart, comme on l'a vu, requièrent des données associées au résultat attendu : c'est ce que l'on appelle de l'apprentissage supervisé. De même que les banquiers se fient, pour accorder un nouveau prêt à un nouveau client, sur l'historique des remboursements passés d'autres clients, un détecteur de spams repose sur la mise à disposition d'exemples de courriers indésirables et d'exemples de textes acceptables. Les systèmes de gestion de courrier électronique effectuent donc d'autant mieux cette tâche que leurs utilisateurs leur ont signalé au fur et à mesure de leur arrivée les courriers indésirables non encore repérés. Ce type d'information est relativement facile à obtenir, mais collecter des textes intégraux où les noms 01/05/14 20 propres sont identifiés, ou des corpus bilingues alignés, est nettement plus problématique. Les linguistes sont ainsi très souvent mis à contribution pour produire (ou au minimum corriger et valider à la main des versions préliminaires imparfaites) ces corpus de référence qui serviront à alimenter les systèmes fondés sur l'apprentissage automatique. Une partie de ces précieuses données de référence (on ne les appelle sans doute pas pour rien des « gold standard » : elles valent de l'or !) sert aussi à valider les programmes appris : on les fait fonctionner sans, bien sûr, leur donner accès au résultat attendu, et on compare ce qu'ils produisent avec ce résultat, afin de calculer les fameuses mesures d'évaluation qui servent à quantifier leur performance. La « linguistique », dans ce cas, intervient en amont (comme fournisseuse de données d'apprentissage) ou en aval (pour l'évaluation du résultat final) du processus de construction du programme. Mais elle peut aussi être mise à contribution pendant la phase d'apprentissage elle-même. Les programmes d'apprentissage automatique, en effet, sont capables de tirer parti de tous les types d'informations qu'on leur fournit. De même qu'un banquier se trompera d'autant moins dans l'appréciation de son client qu'il dispose sur lui d'informations pertinentes, de même un programme chargé de classer des textes ou de les annoter bénéficiera en général d'informations de nature linguistique intégrées à ces textes : les « mots vides » (mots grammaticaux ou très fréquents) peuvent ainsi être exclus de la liste de ceux qui définissent l'espace de représentation des « sacs de mots » sans perte de performance, tandis que la présence d'un mot dans une liste de noms propres prédéfinie est une indication précieuse qui peut aider un programme à décider si on l'étiquette en vue de l'extraire ou non. Des « ressources linguistiques » sont ainsi intégrées parmi les indices dont dispose le système d'apprentissage automatique pour prendre sa décision. On remarque, là encore, que ce sont principalement des ressources de nature lexicale (présence dans des listes, des dictionnaires...) qui sont exploitées. La linguistique qui regarde au-delà du niveau des mots est très rarement utilisée dans ce cadre. 2.2.2. La linguistique comme effet secondaire à commenter Un autre type d'interaction entre TAL et linguistique peut également émerger de ces nouvelles approches, en se focalisant sur la compréhension des résultats des programmes et l'interprétation de leurs erreurs. Les programmes d'ingénierie linguistique, on l'a vu, visent surtout à la réalisation d'une tâche : c'est là-dessus seul qu'ils seront évalués. Néanmoins, certains d'entre eux produisent également, pendant leur fonctionnement (soit pendant la phase d'apprentissage sur des exemples étiquetés, soit pendant leur application sur de nouvelles 01/05/14 21 données), des traces exploitables. Les « arbres de décision », par exemple, sont des modèles qui non seulement classent les objets (en l'occurrence les sacs de mots, quand ils sont employés en fouille de textes) sur lesquels ils opèrent, mais qui représentent dans une arborescence la succession des critères ayant permis d'aboutir à ce classement. Pour des textes, chaque noeud de l'arbre sera ainsi un critère du type : « le mot m est présent au moins n fois dans le texte » : l'une des branches qui suit ce noeud correspond à une réponse positive, l'autre à une réponse négative. Chaque classement global se « lit » alors en parcourant les critères depuis la racine jusqu'à une feuille, qui contient le diagnostic final : la classe choisie. Plus un critère se trouve proche de la racine, plus il est discriminant, c'est-à-dire important pour la décision finale. On obtient ainsi indirectement un classement de l'ordre d'importance des mots dans un texte en vue de le classer, qui peut être confronté à l'intuition d'un linguiste. Mais tous les programmes d'apprentissage automatique (et il existe de nombreux, très différents les uns des autres !) ne proposent pas des « sorties » aussi lisibles pour un humain que les arbres de décision : il est souvent difficile d'interpréter les raisons qui leur ont permis d'aboutir à un résultat plutôt qu'à un autre, et ce d'autant plus quand cette décision résulte de la combinaison pondérée d'une multitude de critères. A défaut d'en comprendre vraiment les motifs, les linguistes en sont alors réduits à commenter et analyser les erreurs commises par les programmes, à chercher les sources des confusions qu'ils ont faites, et à essayer d'y remédier en fournissant des exemples qui lèvent les ambiguïtés, ou une ressource qui contient des indices qui manquaient. C'est un travail souvent difficile et ingrat. Conclusion Qu'est-ce qui caractérise le data turn ? Alors que dans les années 1960, la linguistique apparaît comme le moteur des traitements statistiques, elle perd ce rôle pilote dans les années 1990, où elle n'est plus souvent qu'une ressource, qu'un recours éventuel en cas de nécessité. La tâche est au premier plan et abolit toute réflexion théorique sur le statut des unités traitées, qui est désormais fixé par les mathématiques employées. Dans les années 1960, les lois statistiques sont l'objet de débats afin de déterminer si elles peuvent être considérées comme des universaux linguistiques ou des propriétés intrinsèques des unités de langue ou de discours. En tout cas les statistiques ne sont jamais de simples outils ; leur utilisation en linguistique est un problème de linguistique. Ce type de position est manifeste dans les conclusions du premier colloque Statistique et analyse linguistique qui a eu 01/05/14
doi:10.1007/1-4020-4068-7_4 fatcat:zjindv3senh73holuofnmn27uu