Currently, the performance of text emotion recognition is superior to speech emotion recognition in general. This gap in performance is attributed to the fact that text can provide linguistic context which plays an important role in classifying emotion. A person crying might be classified as sad. However, if we consider the linguistic context and situation behind it, the person might be crying tears of joy. Motivated by this, to improve the performance for speech emotion recognition, we are leveraging this linguistic context from past utterances for speech emotion recognition through the help of Automatic Speech Recognition (ASR) system and language model. We also utilize prosody features like pitch and energy of the speech which are not present in text modality to complement the linguistic features and boost the performance further. Implementation of this method shows that we achieve 6.9% higher weighted accuracy than the current State of The Art model
현재로서는 일반적으로 텍스트 감정인식의 성능이 음성 감정인식보다 우월합니다. 이러한 성능 차이는 텍스트가 감정을 분류하는 데 중요한 역할을 하는 언어적 맥락을 제공할 수 있기 때문입니다. 우리는 언어적 맥락과 상황을 고려한다면, 울고 있는 사람이 슬픔으로 분류될 수 있습니다. 그러나 만약 우리가 그 배경과 맥락을 고려하면, 그 사람은 기쁨의 눈물을 흘릴 수도 있습니다. 이를 바탕으로 우리는 음성 감정인식 성능을 향상시키기 위해 자동 음성인식 (ASR) 시스템의 도움을 통해 이전 발화의 언어적 맥락을 활용하고 있습니다. 또한, 텍스트에는 없는 음조와 에너지와 같은 운율적 특징을 활용하여 언어적 맥락 특징을 보완하고 성능을 더욱 향상시키고 있습니다. 이 방법의 구현 결과는 현재 최첨단 모델보다 가중 정확도가 6.9% 높게 나타났습니다