서지주요정보
중간 융합 모듈을 사용한 트랜스포머 기반의 멀티모달 감정인식 네트워크 = Multi-modal transformer based emotion recognition network using intermediate fusion modules
서명 / 저자 중간 융합 모듈을 사용한 트랜스포머 기반의 멀티모달 감정인식 네트워크 = Multi-modal transformer based emotion recognition network using intermediate fusion modules / 유지현.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038804

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22059

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As human-computer interaction technology has been developed in recent decades, affective computing tasks such as emotion recognition have been attended in various industrial fields such as Internet on Things, health care and autonomous driving to recognize the user's emotional state and provide appropriate feedback. Human language is often multi-modal, which includes acoustic, natural language, facial expressions and body gestures. However there is a major challenge that is effective multi-modal fusion method is required to learn sufficient intra-modality and inter-modality information. In this paper, we introduce the Multimodal Emotion Recognition network based on Transformer (MERT network) which adopt the intermediate fusion method which fuses acoustic, language, and vision modality sequences. The key idea is to attends to interactions between multi-modal sequences of each hidden layer and pass to the next hidden layer using transformer encoders and co-attention modules. We also adopt language as main modality and acoustic and vision as auxiliary modality in order to reduce the computation cost as the emotional information is prominently revealed in textual data. Comprehensive experiments on CMU-MOSI and CMU-MOSEI benchmarks show that our model significantly outperforms existing transformer-based multimodal model for several evaluation metrics and shortens the computational time.

최근 인간-컴퓨터 상호작용 기술의 발전에 따라 사용자의 감성 상태를 인지하고 적절한 피드백을 제공하는 분야인 감성 컴퓨팅이 다양한 산업 분야에서 주목받으며 그 연구가 활발히 이루어지고 있다. 사람의 의사 표현은 음성, 언어, 얼굴 표현 등의 다양한 모달리티로 나타난다. 그러나 감정인식을 위해 모달 간 내부 정보와 모달 간 상관관계를 충분히 학습하는 멀티모달 융합 방법이 필요하다는 문제가 존재한다. 본 연구에서는 트랜스포머를 기반으로 하는 중간 융합 구조의 멀티모달 감정인식 네트워크를 제안한다. 트랜스포머 인코더와 공동-어텐션 모듈을 사용해 멀티모달 시퀀스의 은닉 층에서의 모달 간 정보를 학습하고 다음 은닉층에 전달한다. 또한 언어 데이터에 감정 정보가 현저히 드러난다는 사실을 고려해 언어를 주 모달리티로 적용하여 연산량을 감소시킨다. 두 종류의 감정인식 벤치마크에 대한 종합적인 실험 결과로 기존의 트랜스포머 기반의 멀티모달 모델보다 성능이 향상되었고 연산시간 또한 단축되었다.

서지기타정보

서지기타정보
청구기호 {MEE 22059
형태사항 iii, 22 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Ji-Hyun Yoo
지도교수의 한글표기 : 김종환
지도교수의 영문표기 : Jong-Hwan Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 18-20
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서