Neuronale Fusionsarchitekturen in der audio-visuellen Sprachverarbeitung
[article]
Barbara Helga Talle, Universität Ulm, Universität Ulm
2016
Spracherkennungssysteme finden immer weitere Verbreitung. Allerdings zeigen sie noch immer eine mangelnde Robustheit in unterschiedlichen Geräuschumgebungen. Ein neuer Ansatz, die Leistung dieser Systeme zu steigern bzw. robust zu machen, besteht in einer multimodalen Erkennung. Dabei werden Informationen über die Lippenbewegungen des Sprechers in den Spracherkennungsprozess einbezogen. Die dabei noch ungelöste Problematik der bestmöglichen Sensorfusion wird in dieser Arbeit anhand eines
more »
... gen audio-visuellen Worterkennungssystems untersucht. Bei der Entwicklung des Worterkennungssystems werden die Realisierung und die systematische Untersuchung aller möglichen Fusionsarchitekturen zum Ziel genommen. Das System ist modular und vollständig neuronal aufgebaut und erlaubt im Gegensatz zu herkömmlichen Verfahren (z.B. Hidden-Markov-Modellen) die Untersuchung von Fusionsarchitekturen auf allen Stufen der Informationsverarbeitung. Auch die Realisierung und Bewertung einer Fusion auf einer Zwischenebene des Systems ist leicht möglich. Zudem kann eine Architektur mit automatischer Gewichtung der Einzelkanäle ohne Kenntnis des Signal-Rausch-Abstandes realisiert werden. Eine aufwendige Segmentlabelung der Daten ist aufgrund des gewählten Aufbaus nicht notwendig. Das Worterkennungssystem wird anhand der Klassifikation von Buchstabenwörtern getestet, welche hochgradig verwechselbar sind und ein schwieriges Klassifikationsproblem darstellen. Die visuellen Daten bestehen dabei in Grauwertbildern der Lippenregion. Es werden zudem gestörte und ungestörte akustische Daten verwendet. Eine Dimensionsreduktion dieser hochdimensionalen Eingangsdaten wird durch Verwendung einer linearen Diskriminanzanalyse erreicht. Um statistische Aussagen über die Performanzen einzelner Fusionsstrategien zu gewinnen, werden Crossvalidierungs-Experimente durchgeführt. Die Strategie einer möglichst späten Fusion vor einer Klassifikation erreicht dabei die besten Ergebnisse.
doi:10.18725/oparu-31
fatcat:6hmd6jxudfaa7iri2a35l4u7um