서지주요정보
Encoding features robust to unseen modes of variations with attentive recurrent neural networks = 주의 깊은 회귀 신경망 네트워크를 이용한 처음 보는 변화에 강인한 특징 표현 연구
서명 / 저자 Encoding features robust to unseen modes of variations with attentive recurrent neural networks = 주의 깊은 회귀 신경망 네트워크를 이용한 처음 보는 변화에 강인한 특징 표현 연구 / Wissam J. Baddar.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8034718

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19070

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recurrent neural networks, particularly long short-term memory (LSTM) units, have been popular as an efficient tool for encoding dynamic features in sequences. While LSTM units have been fairly successful in encoding dynamic features, in practice the LSTM performance is affected by different types of variations unseen during the training. While it is possible to overcome this shortcoming by training the LSTM with data containing different modes of variation, the number of variation that could occur at test time is infinite. This makes it difficult to produce LSTM units robust to all types of variations. Hence it is important to devise a method for encoding dynamic features robust to unseen modes of variation. In this work, we first investigate the effect modes of variations have on the features encoded dynamic using LSTMs. We show that the LSTM retains information related to the mode of variation in the sequence, which is irrelevant to the task at hand. We experimentally show that the forget gate of the LSTM is designed to discard features temporally irrelevant to the task at hand. However, the forget gate is not designed to handle non-temporal variations. Encoding such variations into the dynamic features could substantially reduce the discriminability of the encoded features, especially when these variations are unseen during training time. To encode features robust to unseen variations, it is important to identify the variations apparent in the sequence at test time. To that end, we devise multiple LSTM adaptations and network architectures that would first identify and encode the type variation apparent in the test sequence. Then the proposed methods suppress the negative effect the modes of variation have on the encoded dynamic features. In this work we devise three approaches for encoding features robust to unseen modes of variation. The first two methods were designed as application specific methods to encode features robust to unseen modes of variation in Facial expression recognition task. Then a generalized LSTM adaptation named attentive mode vartiation LSTM was devised as a generalized and compact LSTM adaptation that generalizes to different types of features and applications. The proposed attentive mode variational LSTM unit has an input signal separator, which separates the input into two parts: (1) task-relevant dynamic sequence features and (2) task-irrelevant static sequence features. The task-relevant features are the input feature elements that contain the most dynamics related to the task at hand .The task-relevant features are used to encode and emphasize the dynamics in the input sequence. The task-irrelevant static sequence are the input feature elements that contain the least dynamics related to the task at hand. The task-irrelevant static sequence features are utilized to encode the mode of variation in the input sequence, regardless if they were seen or not during the training. The task-relevant dynamic sequence features and the task-irrelevant sequence features are processed in independent cell states to disentangle the effect of variation from the task-relevant dynamic features. The effect of the encoded variation is then suppressed with a shared output gate resulting in dynamic features robust to unseen variations. The effectiveness of the proposed method is verified using two tasks: facial expression recognition and human action recognition. Comprehensive and extensive experiments verified that the proposed method encodes dynamic features robust to variations unseen during the training.

순환 신경망, 특히 LSTM (Long Short Term Memory) 은 시퀀스의 동적 피처를 인코딩하기에 효율적인 도구다. LSTM이 동적 피처를 성공적으로 인코딩하지만, 실제로 LSTM 성능은 학습 과정에서 본 적 없는 다양한 변형에 영향을 받는다. 서로 다른 모드 변형이 포함된 데이터를 학습하여 이 단점을 극복할 수 있지만, 테스트 시 발생하는 변형은 무한히 많다. 이로 인해 LSTM 이 모든 종류의 변화에 강인하도록 만들기 어렵다. 따라서 본 적 없는 모드 변형에 강인한 동적 피처를 인코딩하는 방법을 고안하는 것이 중요하다. 제안 방법에서 우리는 먼저 LSTM을 통해 인코딩 된 동적 피처에 대한 모드 변형의 영향을 분석 하여 LSTM이 태스크와 상관 없는 시퀀스의 모드 변형과 관련된 정보를 가지고 있음을 보인다. 그리고 LSTM의 forget gate가 태스크와 시간적으로 관련이 없는 피처를 제거하도록 설계되었음을 보인다. 하지만 forget gate는 non-temporal한 변형을 다루도록 설계되지 않았다. 특히 학습 때 보지 못한 변형의 경우, 동적 피처로 인코딩 하는 것이 피처의 식별성을 상당히 감소시킬 수 있다. 따라서 보지 못한 변형에 강인한 피처를 인코딩 하기 위해, 테스트 시 시퀀스에서 명백한 변형을 식별하는 것이 중요하다. 이를 위해, 시퀀스에서 명백한 변형을 먼저 식별하고 인코딩 할 수 있는 다중 LSTM 적응 및 네트워크 구조를 제안한다. 또한, 모드 변형의 부정적인 영향을 억제하고자 한다. 우리는 보지 못한 모드 변형에 강인한 피처를 인코딩하는 세 가지 방법을 제안한다. 처음 두 가지 방법은 얼굴 표정 인식에서 보지 못한 모드 변화에 강인한 피처를 인코딩하는 것에 특화된 방법이다. 그 다음, 다양한 어플리케이션으로의 일반화를 위해, attentive mode variation LSTM이라는 일반적이고 압축된 LSTM adaptation을 고안했다. 제안하는 attentive mode vibrational LSTM 은 입력을 두 부분으로 분리하는 입력 신호 분리기를 가진다. (1) 태스크 관련 동적 피처는 현재 태스크와 관련된 가장 동적인 부분을 갖는 입력 피처 요소다. 이 피처는 입력 시퀀스의 동적 정보를 인코딩하고 강조하기위해 사용된다. (2) 태스크와 무관한 정적 시퀀스 피처는 태스크에서 가장 정적인 부분을 갖는 입력 피처 요소다. 이 피처는 학습 과정에서 본적이 있는 지와 관계없이, 시퀀스의 모드 변형을 인코딩 하는 데에 사용된다. 태스크 관련 동적 피처로부터 변형 효과를 분리하기 위해 두 피처는 독립된 cell state에서 처리된다. 그 다음 공유하는 하나의 출력 게이트에서 완화되어, 보지 못한 변형에 강인한 동적 피처를 제공한다. 제안 방법의 효과는 얼굴 인식과 사람 행동 인식 태스크에서 검증한다. 광범위한 실험을 통해 제안 방법이 학습과정에서 보지 못한 변형에 강인한 동적 피처를 인코딩하는 것을 증명한다.

서지기타정보

서지기타정보
청구기호 {DEE 19070
형태사항 iv, 57 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 바다르 위삼
지도교수의 영문표기 : Yong Man Ro
지도교수의 한글표기 : 노용만
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 49-53
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서