Algorithms and Software for Automatic Detection of Speech Disfluencies in an Audio Signal
Vasilisa Olegovna Verkhodanova
2014
Труды СПИИРАН
УДК 004.522 В.О. ВЕРХОДАНОВА АЛГОРИТМЫ И ПРОГРАММНЫЕ СРЕДСТВА АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ РЕЧЕВЫХ СБОЕВ В ЗВУКОВОМ СИГНАЛЕ Верходанова В.О. Алгоритмы и программные средства автоматического определения речевых сбоев в звуковом сигнале Аннотация. При автоматической обработке спонтанной речи возникает ряд трудностей, таких как вариативность речи или присутствие речевых сбоев различной природы. В статье рассматриваются различные виды речевых сбоев и причины их возникновения, а также представлен
more »
... ритм их автоматического определения, основанный на анализе акустических параметров. Для выделения звонких хезитационных явлений использовался кросскорреляционный метод, а для выделения глухих хезитационных явленийметод полосовой спектральной фильтрации. Эксперименты проводились на специально собранном корпусе спонтанной русской речи, состоящем из диалогов по описанию маршрута по карте и нахождению общего свободного времени по расписанию. Проведенные эксперименты показали, что звонкие хезитационные явления выделяются с точностью 80%, глухие хезитационные явления и дыханиес точностью 66%. Ключевые слова: речевые сбои, речевой корпус, автоматическая обработка речи, автоматическое распознавание речи. Verkhodanova V.O. Algorithms and Software for Automatic Detection of Speech Disfluencies in an Audio Signal Abstract. During automatic speech processing a number of problems appear, and among them are such as speech variation and different kinds of speech disfluences. In this article different types of speech disfluencies and their causes are presented, as well as the algorithm for their automatic detection based on the analysis of acoustical parameters. The method of crosscorrelation was used to deteсt voiced hesitation phenomena and a method of band-filtering was used to detect unvoiced hesitation phenomena and artefacts. The experiments were performed on a specially collected corpus of spontaneous Russian map-task and appointment-task dialogs. Experiments showed that voiced hesitation phenomena are detected with 80% accuracy and devoiced hesitation phenomena and artefacts -with 66% accuracy.
doi:10.15622/sp.31.3
fatcat:rpalcz4ygvcf7eutnysxxqn7sq