서지주요정보
Ladder-deep convolutional recurrent writer for generating images = 이미지 생성을 위한 딥 래더 컨볼루셔널 순환형 작성자 네트워크
서명 / 저자 Ladder-deep convolutional recurrent writer for generating images = 이미지 생성을 위한 딥 래더 컨볼루셔널 순환형 작성자 네트워크 / Sadaf Gulshad.
저자명 Gulshad, Sadaf ; 굴샤드, 사다프
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031423

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 17148

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In this thesis, we propose a deep recursive autoencoder based architecture with enhanced interaction between the encoder and the decoder networks to improve its performance for image generation. In the first part of the thesis, we modify the architecture of deep recurrent attentive writer(DRAW) by replacing the RNN at the encoder with CNN because in more than one spatio-temporal domains and even in images it is difficult to use RNNs for feature learning. This is mainly because RNNs need to remember far back in the time to look for the pixels which are horizontally or vertically aligned. In addition, CNNs are commonly used for image processing tasks and they give the state of the art performance for them. In the second part of the thesis, the model is further modified to increase its expressiveness and eventually the performance. In order to do this multiple stochastic layers are introduced in the architecture, which help the model in generating the complex data. Moreover, the interaction between the inference and the generation networks is increased by adding the skip connections between the recognizer and the generator networks, this makes the generation of data more effective. Three variants of Ladder deep convolutional recurrent writer(L-DCRW) are proposed with increased interaction between the recognizer network and the generator network. The first architecture trains the network to get the posterior by combining the mean and variance of recognizer network (which acts as Gaussian likelihoods) and mean and variance of generator network (which can be considered as priors). In the second architecture, skip connections between the inference network and the generation network are introduced at the higher layers of network such that, the higher layers instead of capturing all the information now only needs to learn the abstract representations. Finally, the architecture with the skip connections at all the layers is presented. Furthermore, in the last chapter of this thesis the same idea of ladder network is also applied to and tested with the DRAW architecture. All the architectures are tested on MNIST and Omniglot datasets and the results are analyzed.

본 논문에서는 인코더와 디코더 네트워크 간의 향상된 상호작용이 포함된 깊은 순환형 오토인코더를 제안한다. 첫번째로 기존의 Deep recurrent attentive writer (DRAW)의 인코더에 사용된 RNN을 CNN으로 대체한다. 인코더로 RNN을 사용할 경우 수평 혹은 수직으로 정렬된 픽셀을 찾을 때까지 먼 과거를 기억해야 하기 때문에 특징점 학습에 어려움이 있다. DRAW의 인코더를 RNN 대신 시공간 도메인에서 특징점 추출에서 탁월한 성능을 보이고 있는 CNN을 적용하여 성능을 개선하였다. 두번째로 제안하는 모델에 여러 개의 레이어를 추가하여 많은 정보를 담을 수 있도록 하였고, 이를 통해 복잡한 데이터를 생성할 수 있다. 게다가, 식별자와 생성자 네트워크 간의 건너 뛴 연결을 통해 추론과 생성 네트워크 간 상호작용이 강화되며 효율적인 데이터 생성이 가능하게 된다. 세번째로 식별자와 생성자 네트워크 간 상호작용을 강화하기 위하여 Ladder deep convolutional recurrent writer (L-DCRW)의 3가지 모델을 제안한다. 첫번째 모델은 Gaussian likelihood의 역할을 하는 식별자 네트워크의 평균과 분산, 사전확률의 역할을 하는 생성자 네트워크의 평균과 분산을 이용하여 사후확률을 구하는 구조이다. 두번째 모델은 추론과 생성 네트워크 간 건너 뛴 연결을 상위 레이어에 추가된 구조로 모든 정보가 아닌 추상화된 정보만 이용하여 학습이 가능해진다. 세번째 모델은 상위 레이어 뿐만 아니라 모든 레이어간 건너 뛴 연결을 추가한 모델로 보다 복잡한 모델에 대하여 학습이 가능해진다. 마지막 챕터에서는 MNIST, Omniglot 데이터셋을 이용하여 제안하는 모델의 결과를 분석하였고, DRAW와의 비교를 통해 제안하는 모델의 우수성을 입증하였다.

서지기타정보

서지기타정보
청구기호 {MEE 17148
형태사항 iv, 47 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 사다프 굴샤드
지도교수의 영문표기 : Jong Hwan Kim
지도교수의 한글표기 : 김종환
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References: p. 45-46
주제 Variational Autoencoders
Convolutional Neural Networks
DRAW
ladder variational autoencoder
Recurrent Neural Network and visual attention
QR CODE qr code