Audio Event Classification Using Deep Neural Networks
깊은 신경망을 이용한 오디오 이벤트 분류

Minkyu Lim, Donghyun Lee, Kwang-Ho Kim, Ji-Hwan Kim
2015 Phonetics and Speech Sciences  
류 방법인 규칙기반 (rule-based), Gaussian Mixture Model (GMM) 기반 분류기에 관련한 연구가 주를 이루었다[1]-[3]. 하 지만 대부분의 연구는 음악/음성/기타소리를 구분하는 등 제한 적인 클래스 분류가 주를 이루었다. 최근 기계학습 분야에서 괄목할만한 성능 향상을 보이는 기 술로서 Deep Neural Network (DNN)이 주목 받고 있다. DNN은 많은 수의 계층으로 구성된 깊은 인공 신경망으로서 기존의 인공 신경망보다 복잡한 비선형적인 학습 경계를 구분 지을 수 있어 분류 문제에 있어 더 좋은 성능을 얻을 수 있다. 다만 DNN의 수많은 파라미터를 추정하는 데에 있어서 높은 연산량 이 요구되어 어려움이 있었지만, 최근 하드웨어 기술의 발전으 로 다양한 응용 분야에 DNN을 성공적으로 적용할 수 있게 되 었다. DNN은 음성인식 및 이미지 분류에 적용되어 많은 성능향상 을 보였으나, 오디오 이벤트 분류에 적용된 사례는 많지 않다. 본
more » ... 적용된 사례는 많지 않다. 본 논문에서는 DNN을 이용한 오디오 이벤트 분류기를 구현하 고, DNN을 구성하는 하이퍼파라미터를 실험적으로 추정한다. 본 논문은 다음과 같이 구성되어 있다. 2장에서는 오디오 이벤트 인식을 위한 기존 연구들에 대하여 서술하고, 3장에서 는 DNN을 이용한 오디오 이벤트 분류기에 대해 서술한다. 4 말소리와 음성과학 제7권 제4호 (2015.12.31) ABSTRACT This paper proposes an audio event classification method using Deep Neural Networks (DNN). The proposed method applies Feed Forward Neural Network (FFNN) to generate event probabilities of ten audio events (dog barks, engine idling, and so on) for each frame. For each frame, mel scale filter bank features of its consecutive frames are used as the input vector of the FFNN. These event probabilities are accumulated for the events and the classification result is determined as the event with the highest accumulated probability. For the same dataset, the best accuracy of previous studies was reported as about 70% when the Support Vector Machine (SVM) was applied. The best accuracy of the proposed method achieves as 79.23% for the UrbanSound8K dataset when 80 mel scale filter bank features each from 7 consecutive frames (in total 560) were implemented as the input vector for the FFNN with two hidden layers and 2,000 neurons per hidden layer. In this configuration, the rectified linear unit was suggested as its activation function.
doi:10.13064/ksss.2015.7.4.027 fatcat:4k5x6zdxmrhl3inym43e3wg2fm