서지주요정보
다중 특징 결합을 이용한 보안감시 시스템용 음향 이벤트 분류 = Sound event classification for surveillance systems with multiple feature combination
서명 / 저자 다중 특징 결합을 이용한 보안감시 시스템용 음향 이벤트 분류 = Sound event classification for surveillance systems with multiple feature combination / 이승형.
저자명 이승형 ; Lee, Seunghyung
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8028268

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 15135

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Recently, interests on audio-based surveillance systems have been greatly increased since they can detect abnormal, i.e., emergency events rather successfully in some tough situations whereas the video-based surveillance system cannot. For instance, the information obtained by video cameras is not reliable when the event happens in the dark or is blocked by some obstacles. However, the information obtained by audio sensors in the same situations is still trustworthy. Therefore, we can maximize the surveillance effect by utilizing audio-based systems along with the traditional video-based ones. For more reliable audio-based surveillance systems, it is crucial to improve the accuracy of sound event classification for successful abnormal circumstance detection. To improve the performance, many researchers have tried to extract more discriminative audio features to represent the inherent characteristics of various sound events. These include the traditional frame-based features such as the MPEG-7 low level audio descriptor, the linear predictor coefficient (LPC), the perceptual linear prediction (PLP) and the mel-frequency cepstral coefficient (MFCC), and some modified long-term features such as the histogram-based bag-of-audio-words (BoAW) feature and the segmental two-dimensional MFCC (STDMFCC). Conventional audio-based surveillance systems recognize sound events by single-feature-based classification. Therefore, they inevitably become inaccurate when a feature fails to model some sound events successfully and when other types of sound classes are added. In this thesis, a method of combining multiple features by assigning weights to features for each sound event is proposed to improve the performance of sound event classification. To estimate the weights for features, the likelihoods for multiple features are calculated using the trained Gaussian mixture models (GMM) of sound events for the independent development data set that is not used both in training and testing. Then, the weights are derived by calculating the average likelihoods and their ratios from the matched sound with the GMM. The extracted weights are used for the sound event classifier to calculate the weighted sum of likelihoods for multiple features. In particular, this method is powerful in situations that a feature fails to model some sound events, whereas the other features can model them successfully. Additionally, in real surveillance situation, the performance of sound event classification is de-graded due to the low signal-to-noise ratio of the sounds which are occurred in distant location from audio sensors. Thus, to improve the sensor input SNR, noise-robust gain control for sound enhancement is applied as a preprocessing. This preprocessing method is based on an automatic gain control to amplify the input signal and Wiener filtering to the gain-controlled signal for noise reduction. For evaluation, the classification test is performed for 16 types of sound events. To construct the sound event database used in experiments, original sounds are collected from the sound effect libraries. Then, the original sounds are recorded again in a classroom at five different distances, i.e., at 0.3, 1, 4, 7, and 10 m. Among these various types of data, the data of 0.3 m is used for training, and the other distant types are used for test and weight estimation for multiple feature combination. For feature combination, the STDMFCC and the modified long-term feature based on the LPC and the PLP are used. The test sounds are clipped into 5 second-long segments and the segmented clips are classified by using a GMM and the maximum likelihood criterion. By using the proposed feature combination method, the classification accuracy of 90.8% was obtained, and the results show noticeable performance improvement compared to the performance of the conventional single feature-based sound event classification systems.

최근 들어, 오디오 기반 보안감시 시스템에 대한 관심이 증가하고 있다. 이는 기존의 비디오 기반의 보안감시 시스템이 감지할 수 없는 상황을 오디오 정보를 기반으로 감지할 수 있기 때문이다. 예를 들어, 카메라가 어둠속에 있거나 장애물에 가로막혀 시야 확보가 어려운 상황에서는, 카메라로부터 얻은 비디오 정보는 신뢰할 수 없다. 하지만 이런 상황에서도 오디오 정보는 여전히 신빙성이 있기 때문에 기존의 보안감시 시스템과 더불어 오디오 기반의 보안감시 시스템을 사용하면 보안감시의 효과를 극대화 할 수 있다. 더 신빙성 있는 오디오 보안감시 시스템을 구축하기 위해서는, 가장 먼저 음향 이벤트 분류 정확도를 확보하는 문제가 선결되어야 한다. 음향 이벤트 분류의 정확도 개선을 위해서, 기존의 많은 연구자들은 다양한 음향의 내재적 특성을 잘 나타낼 수 있는 특징을 추출하는 연구를 주로 수행해왔다. 이런 음향 특징으로는 프레임 단위의 특징인 MPEG-7 Low Level Audio Descriptor, Linear Predictor Coefficient(LPC), Perceptual Linear Prediction(PLP), Mel-Frequency Cepstral Coefficient(MFCC) 등이 있다. 또한 프레임 단위 특징의 변형으로 long-term 특징을 사용한 사례도 있으며, 그 예로 히스토그램 기반의 Bag-of-Audio-Words(BoAW), Segmental Two-Dimensional MFCC(STDMFCC) 등이 있다. 기존의 오디오 보안감시 시스템은 이러한 단일 특징만을 사용하여 음향 인식을 수행하는데, 이 경우 특징이 성공적으로 특정 음향을 모델링하지 못한다거나 분류할 음향 클래스가 증가한다면 필연적으로 성능이 악화되게 된다. 따라서 본 논문에서는, 음향 모델별로 다양한 특징들에 가중치를 부여하는 방식으로 결합하여 음향 이벤트 분류에 활용하는 방법을 제안하였다. 특징들에 대한 가중치는 미리 훈련된 가우시안 혼합 모델에 정답인 음향 모델로부터 추출한 특징벡터의 likelihood를 계산하여 likelihood 평균의 비율을 이용해 추정한다. 이 때 가중치 추정에는 훈련과정과 테스트과정에 모두 쓰이지 않는 별도의 데이터베이스 집합을 이용한다. 이와 같이 추정된 가중치는, 추후 분류 과정에서 다중 특징의 가중치 합을 구할 때 사용되며 계산된 가중치 합은 분류에 사용된다. 이와 같은 다중 특징 결합법은, 어느 한 특징이 특정 음향 이벤트 모델링을 잘 하지 못하는 상황에서, 모델링을 잘 하는 다른 특징이 존재할 때 특히 효과적이다. 추가적으로, 실제 보안감시가 이루어지는 환경에서는, 원거리에서 발생한 음향의 낮은 SNR로 인해 분류 성능이 감소된다. 따라서 센서에 입력되는 음향 SNR을 향상하기 위해 잡음에 강인한 이득조절 과정을 전처리로 거쳤고, 이 전처리 과정은 자동 이득 조절을 통한 에너지 보상과 위너 필터링을 통한 잡음 제거 과정으로 구성되어 있다. 성능평가는 16종류의 음향 이벤트 데이터에 대해 수행되었다. 음향 이벤트 데이터베이스는 음향 효과 라이브러리에서 수집된 원본 음향을 강의실 환경에서 5 종류의 거리 환경(0.3, 1, 4, 7, 10 m)에 대해 재 수집하여 사용하였다. 이 때 가장 근거리의 0.3 m 데이터를 훈련에, 나머지 모든 데이터들 중 일부를 특징 간 가중치 추정에, 나머지 모두를 성능평가에 사용하였다. 특징 결합은 STDMFCC와, LPC, PLP 기반의 변형 long-term 특징을 사용하여 수행하였다. 성능평가는 5초 단위의 음향(클립)에 대해 수행되었으며, 클립들은 가우시안 혼합모델과 Maximum-Likelihood 기준에 의해 분류되었다. 이와 같은 방법들을 통해 90.8%의 분류 정확도를 얻었으며, 기존의 단일 특징 기반 음향 이벤트 분류기보다 상대적으로 훨씬 더 좋은 성능을 얻을 수 있었다.

서지기타정보

서지기타정보
청구기호 {MEE 15135
형태사항 vi, 49 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Seunghyung Lee
지도교수의 한글표기 : 한민수
지도교수의 영문표기 : Min Soo Hahn
부록 수록
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p.
주제 음향 이벤트 분류
보안감시
오디오 보안감시
다중 특징 결합
음향 개선
Sound Event Classification
Surveillance
Audio-based Surveillance
Multiple Feature Combination
Sound Enhancement
QR CODE qr code