Recherche par le contenu dans des documents audiovisuels multilingues

Georges Quénot, Tien Ping Tang, Viet Bac Le, Stéphane Ayache, Laurent Besacier, Philippe Muhlen
2010 Document Numérique  
Nous présentons dans cet article une approche basée sur l'utilisation de l'Alphabet Phonétique International (API) pour l'indexation et la recherche par le contenu de documents audiovisuels multilingues. L'approche fonctionne même si les documents contiennent des langues inconnues. Elle a été validée dans le cadre de la compétition « Star Challenge » sur les moteurs de recherche organisée par l'Agence A*STAR de Singapour. Notre approche comprend la construction d'un modèle acoustique
more » ... basé sur l'API et une méthode fondée sur la programmation dynamique pour la recherche de segments de documents par « détection de chaînes API ». La programmation dynamique permet de repérer la chaîne de la requête dans la chaîne du document, même avec un taux d'erreur de transcription au niveau phonétique significatif. Les méthodes que nous avons développées nous ont classés premiers et troisièmes sur les tâches de recherche monolingues (anglais), cinquièmes sur la tâche de recherche multilingue et premiers sur la tâche de recherche multimodale (audio et image). ABSTRACT. We present in this paper an approach based on the use of the International Phonetic Alphabet (IPA) for content-based indexing and retrieval of multilingual audiovisual documents. The approach works even if the languages of the document are unknown. It has been validated in the context of the "Star Challenge" search engine competition organized by the A*STAR Agency of Singapore. Our approach includes the building of an IPA-based multilingual acoustic model and a dynamic programming based method for searching document segments by "IPA string spotting". Dynamic programming allows for retrieving the query string in the document string even with a significant transcription error rate at the phone level. The methods that we developed ranked us as first and third on the monolingual (English) search task, as fifth on the multilingual search task and as first on the multimodal (audio and image) search task.
doi:10.3166/dn.13.1.229-246 fatcat:eitxn6qx2zap7cfpy3gy4zdgn4