Multilayer Perceptron Based Hierarchical Acoustic Modeling for Automatic Speech Recognition

Joel Praveen Pinto
2010
Dans cette thèse, nous proposons une approche hiérarchique afin d'évaluer les probabilités conditionnelles des classes phonétiques utilisant des "Multilayer Perceptrons (MLP)", type de réseaux de neurones couramment utilisé. L'architecture choisie est composé de deux classificateurs MLP en cascade. Le premier classificateur est entraîné de façon standard en utilisant des paramètres acoustiques tenant compte du contexte temporel sur une duré d'environs 90 ms. Le deuxième classificateur MLP est
more » ... ificateur MLP est entraînéà partir des probabilités conditionnelles des classes phonétiques (ou paramètres postérieurs) estimées par le premier classificateur, en tenant compte d'un contexte temporel plus long cette fois-ci, avoisinant les 150-250 ms. Le choix de l'architecture hiérarchique est motivé par la possibilité d'exploiter l'information contextuelle présente dans la séquence des paramètres postrieurs, qui contient l'évolution des valeurs de probabilité dans un phonème (sub-phonemic) ainsi que la transition depuis ou vers les phonèmes voisins (sub-lexical). Etant donné que les paramètres postérieurs sont epars et simples, le deuxième classificateur est capable d'obtenir l'information contextuelle sur une durée de 250ms. Des manipulationa effectuées sur la reconnaissance des phonèmes, de même que sur la retranscriptionécrite de la parole lors de conversations, montrent que l'approche hiérarchique conduità des performances significativement meilleures. L'analyse du second classificateur MLP utilisant des séries Volterra, montre que les paramètres phonétiques et temporels sont représents dans l'espace des paramètres postérieurs. Ces paramètres phonétiques et temporels capturent les erreurs de classifications des phonèmesà la sortie du premier classificateur, de même que les phonotactics du langage observés dans l'ensemble des donnes d'entrainement. De plus, nous montrons lors de ce travail, que le second classificateur MLP est simple puisqu'il contient un nombre limité de paramètres dans le modèle est peutêtre entraîné sur un ensemble plus petit de données. L'utilité de l'approache hiérarchique proposée par ce travail, servantà modéliser les paramètres acoustiques lors de la reconnaissance automatique de la parole, est démontréeà travers deux applications : (a) l'adaptation de cette tâche en exploitant les MLPs entraînés sur une grande quantité de données pour d'autres nouvelles tâches et ii (b) la reconnaissance automatique de la parole utilisant un large vocabulaire d'émissions d'information radiophoniques ou télévisées en Mandarin. La reconnaissance de mots isolés utilisant un vocabulaire limité, ainsi que lesétudes d'adaptation des tâches ont eté exécutées sur la base de données "Phonebook". La reconnaissance de la parole utilisant un vocabulaire plus dispersé aété experimentée sur la base de données de Mandarin "DARPA GALE". Mots Clés : Multilayer perceptron, système hiérarchique, séries de Volterra. iii Abstract In this thesis, we investigate a hierarchical approach for estimating the phonetic class-conditional probabilities using a multilayer perceptron (MLP) neural network. The architecture consists of two MLP classifiers in cascade. The first MLP is trained in the conventional way using standard acoustic features with a temporal context of around 90 ms. The second MLP is trained on the phonetic class-conditional probabilities (or posterior features) estimated by the first classifier, but with a relatively longer temporal context of around 150-250 ms. The hierarchical architecture is motivated towards exploiting the useful contextual information in the sequence of posterior features which includes the evolution of the probability values within a phoneme (sub-phonemic) and its transition to/from neighboring phonemes (sub-lexical). As the posterior features are sparse and simple, the second classifier is able to learn the contextual information spanning a context as long as 250 ms. Extensive experiments on the recognition of phonemes on read speech as well as conversational speech show that the hierarchical approach yields significantly higher recognition accuracies. Analysis of the second MLP classifier using Volterra series reveal that it has learned the phonetic-temporal patterns in the posterior feature space which captures the confusions in phoneme classification at the output of the first classifier as well as the phonotactics of the language as observed in the training data. Furthermore, we show that the second MLP can be simple in terms of the number of model parameters and that it can be trained on lesser training data. The usefulness of the proposed hierarchical acoustic modeling in automatic speech recognition (ASR) is demonstrated using two applications (a) task adaptation where the goal is to exploit MLPs trained on large amount of data and available off-the-shelf to new tasks and (b) large vocabulary continuous ASR on broadcast news and broadcast conversations in Mandarin. Small vocabulary isolated word recognition and task adaptation studies are performed on the Phonebook database and the large vocabulary speech recognition studies are performed on the DARPA GALE Mandarin database.
doi:10.5075/epfl-thesis-4649 fatcat:7jrf77rgq5fr5orpyboozs6g3a