A variety of methods have been proposed for emotion recognition from speech signals. Most researches adhere to the supra-segment-based feature extraction which extracts a feature vector from computing statistical values in an utterance. However, the supra-segment-based feature extraction might miss important statistical characteristics because the statistical values such as mean, variance, and skewness, are extracted from the frame-based features and the rest of information is discarded. In this work, we propose a simple and effective feature representation for emotion speech recognition. The key idea is to use histogram as a feature vector. Histogram-based feature representation reflects more statistical characteristics. In addition, the histogram-based feature representation is able to include both local variation and global trend which can be the essential characteristics of emotional speech because the estimated emotion cannot be determined only from a feature vector in a frame. For the local variation the first-order delta of a feature vector is employed, and for global trend a histogram of the above local variation is applied as the feature representation for emotion speech recognition. For four-class emotion classification, recognition accuracy of 84.3% was achieved using the utterance-basis histogram feature vector. This shows an improvement of 52% relatively to the conventional supra-segment-based approach when we use K-nearest neighbor classification. For two-class emotion classification, we achieved the accuracy rate of 86.0% which is an improvement of 29% relatively to the conventional supra-segment-based approach. When we use the MFCCs histogram together with the utterance-basis histogram, we achieved 87.9% for 4-class and 89.3% for 2-class. This is a relative improvement of 23% and 24% respectively compared with only using the utterance-basis histogram. In classification method, we proposed an efficient classification method based on eigen analysis (CBEA). The computation time for CBEA classification is much reduced compared with KNN while the accuracy with CBEA is comparable to the result with KNN.
음성신호 기반으로 하는 감정인식의 다양한 방법들이 제안되어 왔다. 대부분의 연구는 프레임 기반의 특징을 가지고 통계값을 계산하는 supra-segment기반의 특징 추출을 활용하여 감정인식을 진행하였다. 그러나 supra-segment기반의 특징추출 방법은 중요한 통계적인 특성을 놓칠수 있다. 그 이유는 평균, 분산, 왜곡도등과 같은 통계적인 값을 활용하게 되면서 나머지 통계적 정보는 버려지기 때문이다. 본 논문에서는 간단하고 효과적인 감정인식에서의 특징 표현방법을 제시한다. 핵심적인 아이디어는 히스토그램을 특징 벡터로써 활용하는 것이다. 히스토그램 기반의 특징 표현은 더 많은 통계적 특성을 반영하고 감정인식에서 중요한 지역적인 변화와 전역적인 추세 특성 모두 포함할 수 있다. 지역적인 변화 및 전역적인 추세 특성이 중요한 이유는 하나의 프레임에서 나오는 특징 벡터 하나만으로 감정 인식을 수행하기 어렵기 때문이다. 1차 미분형태를 가지는 특징 벡터를 활용하면 지역적인 변화를 반영할 수 있고 이러한 특징 벡터를 이용하여 히스토그램을 구성하여 특징 벡터로 활용하면 전역적인 추세도 반영할 수 있게 된다. 히스토그램 기반의 특징 표현을 이용했을 때 4개의 감정을 구분하는 시스템에서 84.3%의 평균 정확도를 얻었다. 이 수치는 기존 방법인 supra-segment기반의 특징 표현을 하고 KNN으로 인식 했을 때와 비교했을 때 상대적으로 52%의 성능 향상을 보여준다. 두 개의 감정 구분하는 시스템에서는 86.0%의 평균 정확도를 얻었고 이 수치는 기존 방법과 비교했을 때 29%의 상대적인 성능 향상을 나타낸다. 또한, MFCC 히스토그램을 히스토그램 기반의 특징 표현과 같이 특징 벡터로 활용했을 때 히스토그램 기반의 특징 표현을 단독으로 이용했을 때 보다 4개의 감정 구분에 대해서는 23%, 2개의 감정 구분에 대해서는 24%의 상대적인 성능 향상을 보여준다. 본 논문은 CBEA라는 효율적인 인식기를 제안하였다. CBEA는 KNN에 비해 계산 시간이 많이 감소되면서 성능은 비슷한 결과를 보여준다.