The use of pitch in Large-Vocabulary Continuous Speech Recognition System

Marcin PŁONKOWSKI
2016 Przeglad Elektrotechniczny  
In this article the authors normalize the speech signal based on the publicly available AN4 database. The authors added to the algorithm of calculating the MFCC coefficients, the normalization procedure, that uses pitch of the voice. As demonstrated by empirical tests authors were able to improve speech recognition accuracy rate of about 20%. Streszczenie. W niniejszym artykule autorzy normalizują sygnał mowy wykorzystując publicznie dostępną bazę danych AN4. Autorzy dodali do algorytmu
more » ... ia współczynników MFCC, procedurę normalizacji, wykorzystującą wysokość tonu głosu. Jak wynika z przeprowadzonych testów, autorzy uzyskali poprawę dokładności rozpoznawania mowy o około 20% (Wykorzystanie wysokości tonu głosu w systemach rozpoznawania mowy ciągłej z dużą ilością słów).
doi:10.15199/48.2016.08.21 fatcat:ybrh3y5qbjfepp2uftg4jumwiy