Quel type de systèmes utiliser pour la transcription automatique du français ? Les HMM font de la résistance (What system for the automatic transcription of French in audiovisual broadcasts ?)

Paul Deléglise, Carole Lailler
2020 Traitement Automatique des Langues Naturelles & Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues  
at gmail.com,c.lailler chez scribe-conseil.com RÉSUMÉ Forts d'une utilisation couronnée de succès en traduction automatique, les systèmes end-to-end dont la sortie réside en une suite de caractères, ont vu leur utilisation étendue à la transcription automatique de la parole. De nombreuses comparaisons ont alors été effectuées sur des corpus anglais libres de droits, de parole lue. Nous proposons ici de réaliser une comparaison entre deux systèmes état de l'art, non pas sur de la parole lue mais
more » ... bel et bien sur un corpus d'émissions audiovisuelles françaises présentant différents degrés de spontanéité. Le premier est un end-to-end et le second est un système hybride (HMM/DNN). L'obtention de résultats satisfaisants pour le end-to-end nécessitant un lexique et modèle de langage dédiés, il est intéressant de constater qu'une meilleure intégration dans les systèmes hybrides (HMM/DNN) est source de performances supérieures, notamment en Français où le contexte est primordial pour capturer un énoncé.
dblp:conf/taln/DelegliseL20 fatcat:eyasjpkb25du5kn5oupw6wdsde