Τεχνικές χωρο-χρονικής κατάτμησης και αναγνώρισης ήχου

Νικόλαος Ιωάννη Βρύζας
2016
Οι νέες τεχνικές και υπολογιστικές δυνατότητες για την καταγραφή και την ανάλυση οπτικοακουστικής πληροφορίας ανοίγουν νέα πεδία στην πολυμεσική διάδραση και τη σημασιολογική ανάλυση του καταγραφόμενου υλικού. Στα πλαίσια της παρούσας εργασίας προτείνεται μία πολυτροπική μέθοδος ανίχνευσης οπτικοακουστικού συμβάντος, εντοπισμού, παρακολούθησης και αναγνώρισης, με πολλές πιθανές εφαρμογές στην κάλυψη εκδηλώσεων και την επισήμανση οπτικοακουστικών αρχείων. Η διαδικασία αφορά την αναγνώριση
more » ... ηχητικού συμβάντος, την αναγνώριση και τον ηχητικό εντοπισμό του ομιλητή, τον οπτικό εντοπισμό και παρακολούθησή του και την εξαγωγή σημασιολογικής πληροφορίας. Η μέθοδος παρουσιάζεται μέσα από ένα αφαιρετικό μοντέλο μπλοκ διαγράμματος, κάθε μπλοκ του οποίου επιτελεί μια λειτουργία και αλληλεπιδρά με τις υπόλοιπες, είναι όμως ανεξάρτητο σε επίπεδο σχεδιασμού και επιδέχεται περισσότερες από μία λύσεις. Για την αυτόματη κατάτμηση των καταγραφών βάσει των συμπερασμάτων της ανάλυσης, υλοποιείται εφαρμογή σε C# με γραφικό περιβάλλον διεπαφής, για τη δημιουργία αρχείων σελιδοδεικτών. Προτείνοντας λύσεις για όλα τα στάδια της διαδικασίας, η διερεύνηση γίνεται κυρίαρχα για την ηχητική αναγνώριση, που είναι το βασικό θέμα της εργασίας, ενταγμένο όμως μέσα στον γενικότερο σχεδιασμό της πολυτροπικής ανάλυσης. Δημιουργούνται πρωτότυπα αρχεία ήχου, τόσο πολυκαναλικά, όσο και μονοκαναλικά για να εκπαιδευτούν μοντέλα αναγνώρισης ήχου. Η εκπαίδευση γίνεται μέσα από ένα αρχικό υπερσύνολο ηχητικών χαρακτηριστικών που εξάγονται από τα αρχεία ήχου. Τα χαρακτηριστικά αξιολογούνται μέσω αλγορίθμων και επιλέγονται υποσύνολα εκπαίδευσης με τα επικρατέστερα χαρακτηριστικά, ενώ τροφοδοτούν διαφορετικούς αλγορίθμους μηχανικής μάθησης που εκπαιδεύουν μοντέλα ταξινομητών. Η αξιολόγηση των αλγορίθμων και των επιλεγόμενων χαρακτηριστικών γίνεται με βάση μια σχέση ακρίβειας-υπολογιστικού κόστους. Συγκεκριμένα, διερευνάται η αναγνώριση χωρικού ηχητικού συμβάντος από εκπαιδευμένα μοντέλα αξιοποιώντας ηχητικά χαρακτηριστικά πολυκαναλικών αρχείων. Τα αρχεία [...]
doi:10.26262/heal.auth.ir.286791 fatcat:jcbg3g7ryzdhhkdquhvwvihmmu