An efficient search space representation for large vocabulary continuous speech recognition

Kris Demuynck, Jacques Duchateau, Dirk Van Compernolle, Patrick Wambacq
2000 Speech Communication  
In pursuance of better performance, current speech recognition systems tend to use more and more complicated models for both the acoustic and the language component. Cross-word context dependent phone models and long-span statistical language models are now widely used. In this paper, we present a memory-efficient search topology that enables the use of such detailed acoustic and language models in a one pass time-synchronous recognition system. Characteristic of our approach is (1) the
more » ... ng of the two basic knowledge sources, namely pronunciation information and language model information, and (2) the representation of pronunciation information -the lexicon in terms of context dependent units -by means of a compact static network. The language model information is incorporated into the search at run-time by means of a slightly modified token-passing algorithm. The decoupling of language model and lexicon allows great flexibility in the choice of language models, while the static lexicon representation avoids the cost of dynamic tree expansion and facilitates the integration of additional pronunciation information such as assimilation rules. Moreover, the network representation results in a compact structure when words have various pronunciations, and due to its construction, it offers partial language model forwarding at no extra cost. Résumé A la recherche d'une meilleure performance, les systèmes de reconnaisance de la parole actuelles inclinentà des modèles acoustiques et des modèles de langage de plus en plus compliqués. Des modèles de phones en contexte intramot et des modèles de langage de longue envergure sont maintenant largement répandus. Dans cet article, nous présentons une topologie de recherche qui permet l'utilisation de tels modèles détaillés, dans un système de reconnaisance temps-synchroneà une passe. Caractéristiqueà notre approche est (1) le découplage des deux sources de connaissance de base,à savoir l'information de prononciation et l'information de modèle de langage, et (2) la représentation compacte d'information de prononciation -le lexique en termes de phones en contexte -au moyen d'un réseau statique. L'information de modèle de langage est incorporéeà la recherche au délai d'exécution au moyen d'un algorithme de passage de jeton (token passing) légèrement modifié. Le découplage du modèle de langage et du lexique permet une grande flexibilité dans le choix des modèles de langage, alors que la représentation statique du lexiqueévite le coût d'expansion dynamique du réseau et facilite l'intégration d'information de prononciation supplémentaire telle que des règles d'assimilation. En plus, la représentation par un réseau est très efficace quand les mots ont des prononciations multiples, età cause de sa construction, la structure proposée offre l'anticipation partielle de modèle de langage sans coûts supplémentaires. 3
doi:10.1016/s0167-6393(99)00030-8 fatcat:mcbe43giazf3rbjeliyxziwmty