The Validity of the Application of the Cepstral/Spectral Index of Dysphonia(CSID)to Japanese Dysphonic Speech

Tomoyuki Haji, Kanako Terada
2020 Koutou (THE LARYNX JAPAN)  
The validity of the application of the Cepstral/Spectral Index of Dysphonia (CSID) to Japanese dysphonic speech was examined by analyzing normal and breathy voice samples both produced by healthy Japanese volunteers with no vocal problems. Four Japanese sentences which had phonological similarities to the English test sentences were prepared for the application of the CSID. The voice samples included sustained vowel /a/ and the four sentences. The CSID was applied for analyzing both the
sustained vowel and the four sentences. Established indices based on pitch synchronous analyses, such as period perturbation quotient (PPQ), amplitude perturbation quotient (APQ) and noise to harmonic ratio (NHR) were applied to the samples of the sustained vowel. For the grade of the hoarseness and the breathiness, auditory perceptual evaluations of Japanese speech sentences and the sustained vowel were performed using a visual analog scale (VAS). GRBAS scale was used for evaluations of the sustained vowel only. Strong statistical relationships were found between the CSID and the three indices with pitch synchronous analyses. Furthermore, the CSID had strong statistical relationships with the two auditory perceptual evaluations as well, which was equal to relationships between the auditory perceptual evaluations and the indices with pitch synchronous analyses. Given that the CSID can be used to analyze speech samples whereas the indices with pitch synchronous analysis have certain technical problems to analyze speech samples, this index is considered to be applicable as a useful measure for evaluating vocal dysfunction of Japanese speech and should be used actively in clinical settings. Keywords: vocal dysfunction, cepstral analysis, CSID, CAPE-V, Japanese speech ケプストラム分析法は 1964 年に Noll ら 1 ) が音声の基本 周波数推定に有用であることを示して以来,音声の分析に 現在も広く応用されている方法である.ケプストラム分析 の詳細は成書に譲るが,まず音声波形に適当な時間窓をか け,離散フーリエ変換を行って,振幅スペクトルを求める. ソース・フィルタ理論から,この振幅スペクトルは,声帯 振動(ソース)に起因する高い周波数成分のスペクトルと 声道の伝達関数(フィルタ)に起因する低い周波数成分の スペクトルとの積で表される.それを対数変換すれば,ス ペクトルは声帯振動と声道伝達関数のスペクトルの和に変 換される.対数変換された振幅スペクトルを一種の波形と みなして,さらに離散フーリエ変換(逆フーリエ変換)し て得られたものがケプストラム(cepstrum : スペクトラム spectrum のアナグラム)であり,このような分析法をケプ ストラム分析という.ケプストラムの縦軸はスペクトル分 析の縦軸に相当する相対的なエネルギーあるいは振幅を表 し,単位は通常 dB である.横軸は時間領域となるが,通 常の波形での時間軸とは異なり周波数(frequency)の逆 数,すなわち周期に関連した値をとるため,frequency の アナグラムとしてケフレンシー(quefrency)と呼ばれる. 声帯振動に関連した成分はケフレンシー軸の高次に基本周 波数とその倍音成分に対応してピークとして現れる.ま た,フォルマントなどの声道の性質に関連した成分は低次 に分離して現れる.基本周波数は最初のピークに対応した 1 )倉敷中央病院 顧問 2 )清風会廿日市記念病院リハビリ技術科 3 )県立広島大学 1 )Senior advisor,
