Today, as we live in numerous interactions, many studies have tried to predict human emotions. Since our daily life consists of countless interactions, it is better to predict human emotions between interactions. However, most studies have focused only on the speaker's data, not the counterpart's data, to predict the speaker's emotions because datasets which labeled human emotions in the naturalistic conversation are rare. In this study, we propose a method for predicting the emotions of the speaker in the naturalistic conversation using a speaker encoder and counterpart encoder composed of CNN-LSTM deep learning networks. We used emotion-related data called K-EmoCon collected during the debate process to empirically evaluate our model. The results showed that the counterpart's speech and the physiological signals had a positive impact on predicting the speaker's emotions. Through this paper, we hope to be helpful in the study of predicting emotions in naturalistic conversation.
자연스러운 감정 인식 기술은 다양한 활용처가 있지만 많은 이전 연구들은 인간의 감정을 사람 간 상호작용 속에서 분석하지 않았다. 그 이유는, 대부분의 감정 관련 데이터셋은 대화 과정 속에서 수집되지 않았기 때문이다. 즉, 이전 연구는 인간의 감정을 예측하기 위해 상대방의 데이터가 아닌 화자의 데이터만 사용했다. 본 연구는 멀티모달 센서 데이터(음성 및 생체신호)를 활용하여 감정 상태를 자동 분류하는 CNN-LSTM 딥러닝 네트워크를 소개한다. 특히, 자연스러운 대화 상황을 가정한 환경에서 연속적인 감정을 수집한 K-EmoCon 데이터셋을 활용해 쌍방 대화에서 대화 파트너의 데이터를 활용하여 화자의 감정 분류의 정확도를 높일 수 있는 모델을 제시한다. 실험 결과 대화 상대방의 음성 및 생체신호가 발화자의 감정 예측 성능에 긍정적인 영향을 미친 것으로 나타났다. 이 논문을 통해 우리는 자연스러운 대화 과정에서 발화자 뿐만 아니라 상대방의 특성 또한 고려해야 된다는 것을 주장한다.