Affective interaction between humans and robots/machines is a cherished goal for socially intelligent robots/machines. Ability to recognize human emotional states is an essential prerequisite to such affective interactions. Therefore, this dissertation addresses the issue of human emotion recognition by first individually processing and then aggregating different modes of human communication through a classification and aggregation framework. Specifically, the proposed framework analyzes the speech acoustics, facial expressions, and body language using unimodal emotion classifiers. The speech emotion is classified using a deep neural network (DNN) while Facial and body language emotion classifiers are implemented using classifiers implemented through supervised fuzzy adaptive resonance theory (ARTMAP). The speech emotion classifier uses acoustic features, the facial emotion classifier uses features based on facial animation parameters (FAP), and body language emotion classifier uses head and hands motion capture data to formulate body language features. These unimodal evaluations are then aggregated using a fuzzy integral for interval type-2 fuzzy-valued attributes (FIIFA). FIIFA is proposed in this dissertation as a novel aggregation framework for attribute evaluations with linguistic and numeric uncertainties. Moreover, FIIFA also utilizes reliability based preferences for the unimodal evaluations. The dissertation proposed to generate these reliabilities based preferences from the accuracies of the unimodal classifiers for each emotion. The framework was tested and compared against the existing state-of-the-art. The results show that the proposed framework significantly outperforms the existing techniques. Furthermore, because of late fusion, the functionality of the proposed approach is robust to unavailability all but one of the modes of communication.
지능적인 로봇/기계를 위해서 사람과 로봇/기계 간의 정서적 상호작용은 매우 중요하다. 그 중, 인간의 감정 상태를 인식하는 기술은 정서적 상호 작용에 필수 불가결한 전제 조건이다. 따라서, 이 논문은 다양한 형태의 의사소통 중 개별적으로 음성, 얼굴 표정, 몸짓에 관한 감정 분류를 한 후, 다시 이를 통합하는 프레임워크를 통해 감정을 인식한다. 우선, 제안된 프레임 워크는 단일 모드 감정 분류기를 사용하여 음성 음향, 표정 및 신체 언어를 분석한다. 음성에 대한 감정은 딥 뉴럴 네트워크 (DNN)를 사용하여 분류되며 얼굴 및 신체에 대한 감정은 supervised fuzzy adaptive resonance theory (ARTMAP)를 통해 분류된다. 이 논문은 언어적 및 수치적 불확실성을 가진 속성 평가를 위한 새로운 집합 프레임워크로써 fuzzy integral for interval type-2 fuzzy-valued attributes ( FIIFA)를 제안하며, 각각의 분류기로부터 얻어진 결과는 FIIFA를 통해 합쳐진다. 또한 FIIFA는 각 단일 모델에 대한 선호도를 고려하여 신뢰도를 향상하였다. 또한, 제안된 프레임워크는 최근 연구결과보다 우월한 결과를 보였으며, 특히 late fusion 방법을 사용하였기 때문에 제안하는 방법은 부분적인 입력 모달리티만으로도 강인한 감성 인식 결과를 얻을 수 있다.