IDENTIFIKASI PARAMETER OPTIMAL GAUSSIAN MIXTURE MODEL PADA IDENTIFIKASI PEMBICARA DI LINGKUNGAN BERDERAU MENGGUNAKAN RESIDU DETEKSI ENDPOINT

Yanuar Risah Prayogi, Joko Lianto Buliali
2015 JUTI: Jurnal Ilmiah Teknologi Informasi  
ABSTRAK Salah satu permasalahan pada sistem identifikasi pembicara adalah fitur yang dihasilkan kurang tahan terhadap derau. Di lingkungan berderau, kinerja sistem identifikasi pembicara bisa turun secara signifikan. Hal ini disebabkan oleh perbedaan lingkungan ketika pelatihan dan pengujian. Salah satu metode ekstraksi fitur yang digunakan untuk identifikasi pembicara dan sensitif terhadap derau adalah Mel Frequency Cepstral Coefficient (MFCC). Di lingkungan bersih, kinerja yang dihasilkan
more » ... metode MFCC sangat tinggi, tetapi turun drastis ketika berada di lingkungan berderau. Pada penelitian ini diusulkan memodifikasi metode MFCC menggunakan residu dari algoritma deteksi endpoint. Hasil dari algoritma deteksi endpoint adalah speech dan nonspeech (residu). Nonspeech atau residu ini biasanya tidak dipakai pada proses berikutnya. Pada sinyal suara yang berderau, residu dari algoritma deteksi endpoint sebagian besar diisi oleh derau itu sendiri sehingga bisa dijadikan informasi derau. Residu tersebut diekstrak untuk mendapatkan besaran (magnitude) frekuensi derau. Kemudian magnitude frekuensi derau digunakan untuk menghilangkan derau pada sinyal utama atau speech. Uji coba menggunakan lima tipe derau dengan tujuh tingkat SNR. Tipe derau yang digunakan adalah f16, hfchannel, pink, volvo, dan white. Sedangkan tingkat SNR yang digunakan adalah bersih, 25, 20, 15, 10, 5, dan 0 dB. Hasil uji coba menunjukkan bahwa metode yang diusulkan unggul pada mayoritas pembicara. Selain itu metode yang diusulkan juga unggul pada semua tipe derau dan unggul hampir pada semua tingkat SNR. Metode yang diusulkan menunjukkan rata-rata akurasi sebesar 14.69% lebih tinggi dari metode MFCC, 2.74% dari MFCC+Spectral Subtraction (SS), dan 6.4% dari MFCC+wiener. Kata Kunci: identifikasi pembicara, lingkungan berderau, Mel Frequency Cepstral Coefficient (MFCC), residu endpoint detection. ABSTRACT One of the problems in the speaker identification system is a feature that generated less resistant to noise. In the noisy environment, the speaker identification system performance can drop significantly. It is caused by environmental differences when training and testing. One feature extraction method used to identify the speaker and sensitive to noise is Mel frequency cepstral coefficient (MFCC). In a clean environment, the performance generated by MFCC method is very high, but dropped dramatically when in the noisy environment. In this study, we propose to modify the MFCC method using endpoint detection residues. Results of endpoint detection algorithm is speech and nonspeech (residue). Nonspeech or residues are usually not used in the next process. At the noisy signal, the residue of endpoint detection algorithm is filled by the noise itself so that it can be used as information noise. The residue is extracted to get the magnitude of the noisy signal. Magnitude of the noisy signal is used to remove noise on the main signal or speech. The experiments using five types of noise with seven levels of SNR. The type of noise that used is f16, hfchannel, pink, volvo, and white. While the level of SNR that used is clean, 25, 20, 15, 10, 5, and 0 dB. Experimental results show that the proposed method superior to the majority of the speakers. In addition the proposed method is also superior to all types of noise and superior in nearly all levels of SNR. The proposed method shows the average accuracy 14.69% higher than MFCC, 2.74% higher than MFCC+Spectral Subtraction (SS), and 6.4% higher than MFCC+wiener. Keywords: centroid speaker identification, noisy environment, mel frequency cepstral coefficient (MFCC), residue of endpoint detection.
doi:10.12962/j24068535.v13i2.a489 fatcat:ioee3zm6cvgpjhjcsdgh6y32ya