서지주요정보
Speech emotion recognition in noisy environments using adaptive comb filtering and feature vector classification = 적응 콤 필터링과 특징 벡터 분류 기법을 이용한 잡음 환경에서의 음성 감정 인식
서명 / 저자 Speech emotion recognition in noisy environments using adaptive comb filtering and feature vector classification = 적응 콤 필터링과 특징 벡터 분류 기법을 이용한 잡음 환경에서의 음성 감정 인식 / Jeong-Sik Park.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021103

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 10010

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Speech processing technology has been continuously advanced as an essential field of artificial intelligence for the last few decades. Researchers are investigating various approaches to make more intelligent and user-friendly applications, which assist and understand humans. Especially, service robot industry remains critical challenges to advance the human-robot interaction and they search for the solutions in voice interface. The most representative technology to enable intelligent machines to comprehend users` emotional state and interact with them is Speech Emotion Recognition (SER), which automatically identifies users` feelings and conditions from their spoken speech. Although many researchers have applied various technical approaches developed for speech recognition and speaker identification to SER system, they should take into account two critical issues. The first one is noisy environments. Many applicable devices of SER such as mobile devices and service robots are inevitably exposed to various background noises. As studied on speech recognition, noise contaminated speech may significantly degrade the recognition performance, and this drawback should be handled in SER equivalently. The next issue is the domain-oriented ambiguity: acoustically similar characteristics between emotions and variable speaker characteristics due to different user speaking styles. Each of these characteristics may cause a substantial amount of overlap between emotion models in feature vector space, thus decreasing SER accuracy. This dissertation aims at preserving the SER performance from each issue mentioned above. To address noisy environmental issue, this dissertation proposes an efficient front-end of SER system. The proposed front-end is based on adaptive comb filtering. Whereas conventional adaptive comb filtering reduces noise components remarkably, it is rarely effective in reducing severe noises. Furthermore, due to the uniformly distributed frequency response of the comb-filter and fixed value of filter coefficients, it can cause serious distortions to clean speech signals. This dissertation proposes a modified comb-filter that adjusts its spectral magnitude to the original speech, based on speech presence probability. This scheme can enhance spectral harmonics of original speech, and as a result, produce well-estimated pitch information, which is a feature parameter importantly used in SER. For this reason, the proposed approach can be effectively applied to the front-end of SER system. Evaluation experiments carried out using the Aurora 2 and Emotional Speech database demonstrate that the proposed method outperforms conventional comb filtering techniques in both clean and noisy environments. Next, in order to reduce the overlap effects caused by the domain-oriented ambiguity, this dissertation proposes an efficient feature vector classification for SER. The conventional feature vector classification applied to speaker identification categorizes feature vectors as overlapped and non-overlapped. Because this method discards all of the overlapped vectors in model reconstruction, it has limitations in constructing robust models when the number of overlapped vectors is significantly increased such as in emotion recognition. The method proposed herein classifies overlapped vectors in a more sophisticated manner, selecting discriminative vectors among overlapped vectors, and adds those vectors in model reconstruction. On SER experiments using an LDC speech emotion corpus, the proposed classification approach exhibited superior performance to conventional methods, and displayed an almost human-level performance. In particular, the proposed approach achieved commercially applicable performance for two-class (negative vs. non-negative) emotion recognition. In summary, this dissertation proposes SER system framework to guard the performance against background noises and domain-oriented ambiguity. In this framework, the modified comb-filter based front-end reduces severe noises remarkably and produces harmonic-enhanced speech, which can be usefully applied to emotion model training and recognition. Feature vector classification proposed herein selects discriminative feature vectors preserving emotional characteristics and contributes to the construction of robust emotion models.

인간의 삶의 질을 향상시키기 위한 목적으로 끝없이 진보해온 인공지능 기술은 인간과 기계 사이의 거리를 좁히기 위해 다양한 방법을 시도하고 있으며, 인간-기계 인터페이스는 사용자의 편의성을 향상시키는 것에서 나아가 사용자를 이해하는 수준으로 발전하고 있다. 사용자를 이해하는 인간-기계 인터페이스의 구현을 위해서는 감정 인식 기술이 필수적이며, 특히 음성을 통한 감정 인식은 고가의 장비 없이 원거리에서도 사용자의 감정 인지가 가능하다는 장점을 지닌다. 음성 인식 분야에서 개발된 다양한 방법들이 음성 감정 인식에 적용되고 있는 가운데, 실제 응용 환경에서 직면하는 두 가지 중요한 문제가 해결 과제로 남아 있다. 잡음 환경에 의한 성능 저하 및 감정 자체가 갖는 모호성에 관한 문제가 이에 해당한다. 감정 인식 시스템에 유입되는 각종 배경 잡음은 인식 성능을 저해하는 중요한 요인이 된다. 기존에 연구된 음질 개선 기법의 적용이 가능하나 본 연구에서는 잡음에 의해 훼손된 감정 파라미터를 개선하는 잡음 처리 기법을 제안하였다. 감정의 모호성이란 감정 사이에 존재하는 음향적 유사성에 의해 구분이 모호한 성질을 뜻한다. 가령, 중립(neutral) 감정은 지루함(boredom)과 특성이 비슷하여 이들 간의 오인식률이 크다. 화자에 따라 감정을 표현하는 방식이 다른 점 또한 감정의 모호성을 가중시킨다. 이같은 모호성에 의한 감정 인식의 제약을 해결하기 위해 본 연구에서는 감정 인식에 적합한 특징 벡터 분류 기법을 제안하였다. 제안한 잡음 처리 기법은 적응 콤 필터링(Adaptive comb filtering)에 기반한 방법이다. 적응 콤 필터링은 감정 인식에서 유용하게 사용되는 피치 주기 정보에 기반한 잡음 제거 기법으로 필터링에 의해 고조파(harmonic) 성분이 강조되어 피치 주기 정보가 개선되는 효과가 있다. 그러나 기존의 콤 필터링의 경우 주파수 영역에서 규칙적으로 반복되는 콤 필터의 특성으로 인하여 음성의 왜곡이 발생하며, 또한 피치 주기의 측정이 어려운 잡음 음성의 경우 잘못 측정된 피치 주기에 의해 콤 필터링의 효과가 저하되는 문제가 발생한다. 본 연구에서는 이 같은 문제를 해결하기 위하여 각 주파수 대역마다 측정한 음성 존재 확률을 이용하여 콤 필터의 주파수 응답 특성을 조정하였다. 즉, 음성 성분이 포함된 영역에서는 콤 필터의 에너지를 강조하고 그렇지 않은 영역의 에너지를 감쇠한다. 이처럼 개선된 콤 필터는 음성 존재 확률에 의해 잡음 성분을 효과적으로 제거하며 또한 정확한 피치 주기를 측정하기 어려운, 잡음이 심한 음성의 경우 하모닉의 조정을 통해 피치 주기 정보를 개선하는 효과가 있다. 개선된 피치 주기는 감정 인식의 특징 파라미터로 사용되어 잡음 환경에서 감정 인식 성능을 향상시키는데 기여한다. 화자 인식 분야에서 사용된 기존의 특징 벡터 분류(Feature vector classification) 기법은 고유의 화자 정보를 포함하고 있는지 여부에 따라 각 특징 벡터를 중첩 벡터와 비중첩 벡터로 분류한 뒤, 중첩 벡터를 배제하고 비중첩 벡터를 대상으로 화자 모델을 구축한다. 이 방법은 모호한 특성을 지닌 벡터를 분류한다는 점에서 감정의 모호성 문제를 해결하는데 유용하게 사용될 수 있다. 그러나 기존의 분류 기법을 감정 인식에 적용하는 경우 비중첩 벡터의 양이 현저히 감소하는 문제가 발생하여 정확한 모델을 구축하는데 한계가 있다. 본 연구에서는 특징 벡터의 인식 결과(N-best log-likelihood)를 이용하여 기존의 방식에서 중첩 벡터로 분류된 벡터 중 해당 감정 정보를 지니고 있는 벡터를 추가로 선별하여 비중첩 벡터와 함께 감정 모델을 구축하였다. 이 같은 방법은 정확한 감정 정보를 지닌 벡터를 선별함과 동시에 훈련에 사용되는 자료의 양을 충분히 확보함으로써 보다 신뢰성 있는 감정 모델을 구축하는데 기여한다. Aurora2 DB, LDC의 감정 DB 등 다양한 음성 자료 및 잡음 자료를 사용하여 본 연구에서 제안한 방법들의 유효성을 평가하였다. 잡음이 포함된 음성을 대상으로 감정 인식 실험을 수행한 결과, 제안한 적응 콤 필터링의 경우 주파수 차감법 및 기존의 콤 필터링에 비해 성능이 향상되었으며, 5-class 감정 인식에서 baseline (잡음 제거 기법이 적용되지 않은 음성)에 비해 약 5%의 성능 개선을 보였다. 특히, 공장 및 군중 잡음 환경의 경우 10%의 성능 향상률을 나타냈다. 제안한 특징 벡터 분류 기법 또한 standard GMM 및 기존의 특징 벡터 분류 기법에 비해 눈에 띄는 성능 개선을 보였다. 5-class 감정 인식의 경우 standard GMM 및 기존의 특징 벡터 분류 기법에 비해 각각 11.9% 및 11.3%의 성능 향상률을 나타냈다. 또한 제안한 방법에 기반한 감정인식 시스템은 사람을 대상으로 수행한 청취 실험 결과에 거의 근접한 성능을 나타냈다. 전처리를 포함한 전체 시스템의 성능을 평가한 결과, baseline에 비하여 모든 잡음 환경에서 감정 인식 성능이 향상되었으며 평균적으로 6.8% 성능이 개선되었다. 본 연구에서는 잡음에 의한 감정 인식의 성능 저하 문제를 해결하기 위해 적응 콤 필터링에 기반한 전처리를 제안하였으며, 감정 자체의 모호성 문제를 해결하기 위해 특징 벡터 분류 기법에 기반한 감정 인식 시스템을 제안하였다. 향후에는 제안한 방법을 HMM 기반의 감정인식 시스템으로 확장할 계획이며, 단어 수준이 아닌 문장 단위의 감정 자료를 대상으로 제안한 방법의 유효성을 검증할 필요가 있다.

서지기타정보

서지기타정보
청구기호 {DCS 10010
형태사항 viii, 73 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박정식
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "Feature vector classification based speech emotion recognition for service robots". IEEE Transactions on Consumer Electronics, v.55.no.3, pp. 1590-1596(2009)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 68-73
주제 Speech emotion recognition
Noisy environments
Adaptive comb filtering
Feature vector classification
음성 감정 인식
잡음 환경
적응 콤 필터링
특징 벡터 분류
QR CODE qr code