Facial expression understanding is one of the basic universal constructions of nonverbal inter-human communication. The ability to classify facial expressions is crucial for better machine-human interaction. In this thesis, we study emotion classification problem using Capsule Network architecture, which is known for ability to generalize learned characteristics of various datasets. To the best of our knowledge, this is a first approach to learn emotional variance encoding of human face using deep neural networks. The proposed model has facial keypoint detection unit, which encourages emotion classifier to learn critical facial attributes. Using the proposed method, we were able to disentangle universal human expressions and we showed that the neural network could learn several expression action units without any supervision.
얼굴 표정을 이해하는 것은 사람들간의 비언어적 의사소통의 가장 기본 보편적인 구조중의 하나이다. 이러한 감정 표현들을 분류하는 능력은 더 나은 기계-사람 상호작용에 있어서 중대하다. 본 논문에서는 다양한 테이터 집합의 학습된 특성을 일반화하는 능력으로 알려진 캡슐 네트워크 구조를 사용하여 감정 분류 문제에 대해 연구한다. 알고 있는 한, 이것은 깊은 신경 네트워크를 사용하여 인간 얼굴의 정서적인 변화 인코딩을 배우는 첫 번째 접근법이다. 제안된 모델은 감정 분류기가 중요한 얼굴 특징을 학습하도록 유도하는 얼굴 핵심 검출 단위를 갖는다. 제안된 방법을 사용하여 우리는 보편적인 인간의 감정표현을 구분지을 수 있었고, 신경 네트워크가 어떠한 통제 없이 몇 가지 감정표현 활성화 단위를 학습할 수 있다는 것을 보여주었다.