서지주요정보
Context-aware model with generalized structured gate and attention = 일반화 및 구조화된 게이트와 어텐션 기반의 맥락 파악
서명 / 저자 Context-aware model with generalized structured gate and attention = 일반화 및 구조화된 게이트와 어텐션 기반의 맥락 파악 / Kyungwoo Song.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037509

소장위치/청구기호

학술문화관(문화관) 보존서고

DIE 21003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

To understand the meaning of the data clearly, it is necessary to capture the relationship between data as well as each data itself. Especially, the context, the meaning of surrounding elements, is helpful in understanding the data. Gate and attention have become widely used for the context-aware model. Both gate and attention compute the importance of given features and construct the context by combining the given features with computed importance. Gate and attention utilize the softmax function to calculate the importance, and they represent a value between 0 and 1. In this thesis, I focus on the studies of gate and attention for a model to understand the data well. Generalized and structured modeling is necessary to capture accurate and diverse contextual representations. However, we find that gate and attention lack these components and propose more generalized and structured models from the findings. First, we find that the gate in RNN and its variants cannot represent a value between zero and one because of its sigmoid function. Furthermore, traditional gate structures are formulated independently, and it lacks the correlation between gates. To improve the gate from our findings, we propose a more generalized structured bivariate Beta distributed gate structure. Second, we find that the attention in Transformer and GAT can be decomposed into similarity and magnitude terms. Furthermore, we found that the traditional unstructured multi-head attention (MHA) is hard to capture important diverse features. From our new interpretation, we propose a more generalized and structured multi-head implicit kernel attention (MIKAN). We validate our proposed models on text, image, music, time-series, graph-structured dataset.

주어진 데이터를 잘 이해하기 위해서는, 데이터의 개별적인 정보뿐만 아니라, 데이터들 사이의 관계를 잘 고려해야 한다. 특히, 특정 데이터의 요소를 잘 파악하기 위해서는, 해당 요소를 포함하는 주변 요소들의 의미인 맥락을 잘 고려하여야 한다. 뉴럴넷 기반의 모델 중에서, 맥락을 모델링하는 대표적인 요소는 gate와 attention이다. Gate와 attention은 주어진 요소들의 중요도를 결정 및 각 요소들을 특정한 비중에 따라 결합하여 맥락을 모델링한다. Gate와 attention은 중요도를 결정할 때에 softmax 기반의 함수를 쓰며, 0과 1 사이의 값을 표현한다는 공통점이 존재한다. 본 학위논문에서는 데이터를 잘 이해하기 위한 한 가지 방법인 맥락 기반의 모델링에서 널리 활용되는 gate와 attention에 중점을 두고 연구를 진행하였다. 정확하고 다양한 맥락을 파악하기 위해서는, 보다 일반화되고 구조적인 모델링이 필요하다. 하지만, 기존의 gate와 attention에는 이러한 요소들이 결여 되어있다는 것을 밝히고, 이를 기반으로 더욱 일반화되고 구조화된 모델링을 제시하였다. 첫 번째로, RNN 및 그 변형들에 존재하는 gate 구조는 sigmoid 함수기반이기 때문에 0과 1 사이를 유연하게 표현하기 어려우며, gate 간의 상관관계 또한 결여되어있다는 것을 새롭게 밝혔다. 이를 해결하기 위해, 기존의 gate보다 더욱 일반화되고 구조화된 bivariate Beta 기반의 새로운 gate 구조를 제시하였다. 두 번째로, Transformer 및 graph attention network (GAT) 에 존재하는 attention이 similarity와 magnitude term으로 분해되어 해석될 수 있다는 것을 밝혔다. 더 나아가, 기존의 구조화되지 않은 multi-head attention(MHA)은 다양한 feature를 잡기 어렵다는 것을 실험적으로 확인하였다. 이를 기반으로 implicit kernel 기반의 더욱 구조화되고 일반화된 multi-head implicit kernel attention (MIKAN)을 새롭게 제안하였다. 본 학위논문에서는 텍스트, 이미지, 음악, 시계열, 그래프 관련 데이터에 대해서 bivariate Beta gate와 MIKAN의 우수성을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DIE 21003
형태사항 iv, 71 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 송경우
지도교수의 영문표기 : Il-Chul Moon
지도교수의 한글표기 : 문일철
수록잡지명 : "Implicit Kernel Attention". AAAI Conference on Artificial Intelligence, (2021)
수록잡지명 : "Bivariate Beta-LSTM". AAAI Conference on Artificial Intelligence, (2020)
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 61-68
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서