Nowadays, devices are regarded as partners rather than simple machines as users are able to personalize the devices. This tendency is being consolidated since mobile devices such as smart phones and tablet personal computers provide more advanced features which can understand a user`s intention and emotional states by analyzing voice and facial expressions. Understanding the emotional states plays such an important role in Human-Computer Interaction (HCI) since it enables a user to feel more comfortable and friendly interaction and appropriate responses from the devices depending on the emotional states of a user. The emotional information can be obtained from speech, facial expressions, gestures, biological features and so forth. Among these indicators, speech is a relatively natural and intuitive interface for interaction with devices. For these reasons, Speech Emotion Recognition (SER) can be an effective technology required for HCI along with speech recognition.
Many researchers have introduced various approaches for SER tasks, but unfortunately, they have failed to achieve satisfactory performance due to two critical factors. First, different speakers rarely express emotional states in the same way. Second, several pairs of emotions, such as sadness and boredom, have acoustically similar characteristics, and this ambiguity causes unreliable recognition results. This dissertation aims at increasing the SER performance by resolving the domain-oriented characteristics. To deal with the large inter-speaker variations, speaker adaptation techniques is applied to SER. In this approach, Speaker Independent (SI) models are adapted to a relatively small amount of data collected from a specific speaker, and then the adapted models represent the acoustic characteristics of a target speaker. This dissertation focuses on unsupervised adaptation which does not require pre-define emotion labels since manual labeling is unpractical and somehow unrel iable.
The proposed adaptation technique is based on the Maximum Likelihood Linear Regression (MLLR) since MLLR has shown satisfactory performance for speech recognition owing to its robustness against labeling errors. Global adaptation of MLLR cannot catch large variances of emotion models, but multiple regression (denoted as multiple adaptation) can. However, multiple regression is vulnerable to labeling errors. Since both have their own advantages and disadvantages, we use an iterative unsupervised adaptation scheme which refines models and labels in two stages: global adaptation and multiple adaptation in an iterative manner. However, the ambiguity of emotions is expected to have a critical impact on multiple adaptation. To handle this, this dissertation proposes a multi-staged data selection based on the ambiguity of emotions.
We define two types of emotional data: discriminative and non-discriminative data. Let us define discriminative data as the data whose acoustic feature vectors are covered by a single emotion model. On the other hand, non-discriminative data is defined as the data whose acoustic feature vectors are covered by several emotion models. Those overlapped feature vectors are expected to generate labeling errors and degrade the performance of multiple adaptation.
For the classification, this dissertation proposes Log-likelihood Distance-based Measure (LDM) which is based on distances between log likelihood of models. Moreover, instead of a static threshold, this dissertation proposes a Class-based Dynamic Threshold (CDT) which reflects acoustic characteristics of the adaptation data classified into emotion classes. However, it is based on a mean value, and some portion of discriminative data might be classified into non-discriminative data. Therefore, we propose Background Model (BM)-based data selection which filters extra-discriminative data out from non-discriminative data. BM is based on Universal Background Model (UBM) and trained with only discriminative adaptation data or non-discriminative data to measure how relatively close non-discriminative data to discriminative data is.
In SER experiments performed on a LDC corpus database, the proposed approach exhibited superior performance to that of the conventional approaches. While conventional approaches such as MLLR and MAP showed unstable adaptation and degraded performance compared with even SI models in some sets, the proposed MLLR-based approach showed stable adaptation and increased the performance. In addition, it presented a strong possibility that our approach will have contribution to commercialization of negative emotion classification such as anger-detection technology.
진보된 컴퓨팅 기술이 여러 종류의 휴대용 기기에 적용 됨에 따라, 휴대용 기기를 통해 대량의 자료를 수집하고 분석하는 것이 가능해지고 있다. 이에 따라 사용자의 행동을 인지하고 의도를 인식하는 기능이 휴대용 기기에 장착되어 보다 편리한 생활을 가능하게 하고 있다. 사용자의 감정 정보는 사용자의 의도를 파악하는 데 유용한 자원이며 따라서 사용자의 감정을 인식하는 연구가 활발히 이루어지고 있다. 특히 음성은 가장 직관적인 인간의 의사 소통 수단으로서 수집하는 데에 고가의 장비가 요구되지 않으며 휴대용 기기를 통해 자연스러운 수집이 가능하다. 따라서 음성 감정 인식 기술은 개인 기기에서 감정 기반 서비스를 제공하는데 적합한 기술이며 관련된 연구가 활발히 이루어지고 있다.
음성 감정 인식의 성능 향상을 위해서 다양한 연구가 진행되고 있지만, 상용화에 있어서 만족스러운 수준의 성능을 이끌어 내기에는 많은 문제점들이 있다. 그 중에서도 대표적인 문제점은 도메인 기반 특성(domain-oriented characteristics)이라 불리는 화자간의 편차와 감정 간의 모호성이다. 본 연구에서는 우선 화자 간 편차 문제를 해결 하기 위해 적은 양의 자료로 기존 화자 독립 모델을 수정하여 화자 종속 형 모델에 근접한 모델을 생성하는 화자 적응 기술을 감정 인식에 적용하고자 한다.
본 연구에서는 최대 우도 선형 변환(Maximum Likelihood Linear Regression; MLLR)에 기반한 화자 적응 기법을 제안하였다. 최대 우도 선형 변환 기법은 최대 사후 기법(Maximum A Posteriory; MAP)에 비해 레이블의 오류에 강인한 기법이다. 하지만 최대 우도 선형 변환 기법의 전체 변환(global adaptation)은 변이가 큰 감정 모델에 적합하지 않으며 복수 변환(multiple adaptation)은 감정 모델들의 다양한 분포에 효과적인 적응을 할 수 있으나 레이블 오류에 취약하다는 단점이 있다. 이러한 취약점을 해결하기 위해서 반복적 비교사 다 계층 적응 기법(iterative unsupervised multi-staged adaptation)을 사용 한다. 이 기법은 우선 모델과 레이블을 반복 점증적인 전체 변환을 통해 개선시키며 다시 반복 점증적인 복수 변환을 통해 최종 모델과 레이블을 생성한다. 하지만 감정 인식에서는 감정 간의 모호성으로 인해 더욱 심각한 레이블 오류 발생이 예상되며, 이는 불안정한 복수 변환으로 이어진다. 이 문제를 해결하기 위해 감정 특성을 고려한 다 계층 자료 선택 기법을 제안한다. 복수 변환에 적합한 자료 선택을 위해 감정 자료를 크게 두 범류로 나누는 개념을 제안하였다. 하나의 특정 감정 모델 만으로 특징 공간에서 표현 가능한 자료(discriminative data)와 그렇지 않고 여러 개의 감정 모델로 표현되는 모호한 자료(non-discriminative data)로 적응 자료를 분류한다. 자료의 분류를 위해서 자료의 N-Best 로그 우도(log-likelihood) 거리 기반의 평가 기법(Log-likelihood-based Distance Measure; LDM)이 제안되었다. 감정의 모호성을 고려한 LDM과 클래스 기반 동적 임계 값(Class-based Dynamic Threshold; CDT)를 사용하여 discriminative data를 선택한다. 하지만 CDT는 평균에 기반을 하여 discriminative 특성을 갖춘 자료라도 non-discriminative 자료로 분류될 수 있다. 이를 위해 Background Model (BM)을 사용한 추가 선택 기법이 제안되었다. BM은 감정 독립적 분포 공간에 각 감정 별 discriminative data 를 적응시킨 Discriminative Background Model (DBM)과 non-discriminative data 를 적응시킨 Non-Discriminative Background Model (NDBM)으로 나뉜다. 이 두 모델에서 LDM 관측 값을 비교하여 추가적인 discriminative data를 선택한다. 추가적으로 선택된 자료와 기존의 discriminative data를 사용하여 반복적 복수 변환을 하여 화자 적응 감정 모델을 완성한다. 완성된 감정 모델은 화자와 단일 감정의 음향학적 특성을 반영하게 된다.
감정 인식에 널리 쓰이는 LDC 음성 감정 DB를 사용하여 본 연구에서 제안된 기법의 유효성을 평가하였다. 제안된 기법이 적용된 최대 우도 선형 변환 기반의 기술은 기존의 적응 기법 들(MLLR, MAP)에 비해 안정된 적응을 통해 성능을 향상시킬 수 있었다. 기존의 기법들은 5개 감정 구분 시험에서는 화자 독립 모델 시험보다 낮은 성능을 보여주어 도메인 기반 특성이 화자 적응 기술에 얼마나 큰 부정적인 효과를 주는지 확인 할 수 있었다. 이에 반해 제안된 기법은 특징 자료의 적절한 선택으로 안정적인 복수 변환을 가능케 하여 성능을 향상시킬 수 있었다. 추가적으로 부정적 감정 집합에서의 높은 성능 향상을 확인함으로써 실 생활에서의 사용 가능성을 보여주었다.
본 연구에서는 기존 음성 감정 인식의 문제점인 화자간의 편차를 해결하기 위해 최대 우도 선형 변환 기반의 화자 적응 기술을 제안하였다. 또한 감정의 모호성으로 인한 불안정한 복수 변환 문제를 해결하기 위해 다계층 자료 선택 기법을 제안하였다. 향후에는 화자 독립 모델 구성에서의 자료 선택 기법 적용과 레이블 개선 방법에 대해 연구할 계획이다.