In this thesis, we propose a deep recursive autoencoder based architecture with enhanced interaction between the encoder and the decoder networks to improve its performance for image generation. In the first part of the thesis, we modify the architecture of deep recurrent attentive writer(DRAW) by replacing the RNN at the encoder with CNN because in more than one spatio-temporal domains and even in images it is difficult to use RNNs for feature learning. This is mainly because RNNs need to remember far back in the time to look for the pixels which are horizontally or vertically aligned. In addition, CNNs are commonly used for image processing tasks and they give the state of the art performance for them. In the second part of the thesis, the model is further modified to increase its expressiveness and eventually the performance. In order to do this multiple stochastic layers are introduced in the architecture, which help the model in generating the complex data. Moreover, the interaction between the inference and the generation networks is increased by adding the skip connections between the recognizer and the generator networks, this makes the generation of data more effective. Three variants of Ladder deep convolutional recurrent writer(L-DCRW) are proposed with increased interaction between the recognizer network and the generator network. The first architecture trains the network to get the posterior by combining the mean and variance of recognizer network (which acts as Gaussian likelihoods) and mean and variance of generator network (which can be considered as priors). In the second architecture, skip connections between the inference network and the generation network are introduced at the higher layers of network such that, the higher layers instead of capturing all the information now only needs to learn the abstract representations. Finally, the architecture with the skip connections at all the layers is presented. Furthermore, in the last chapter of this thesis the same idea of ladder network is also applied to and tested with the DRAW architecture. All the architectures are tested on MNIST and Omniglot datasets and the results are analyzed.
본 논문에서는 인코더와 디코더 네트워크 간의 향상된 상호작용이 포함된 깊은 순환형 오토인코더를 제안한다.
첫번째로 기존의 Deep recurrent attentive writer (DRAW)의 인코더에 사용된 RNN을 CNN으로 대체한다.
인코더로 RNN을 사용할 경우 수평 혹은 수직으로 정렬된 픽셀을 찾을 때까지 먼 과거를 기억해야 하기 때문에 특징점 학습에 어려움이 있다. DRAW의 인코더를 RNN 대신 시공간 도메인에서 특징점 추출에서 탁월한 성능을 보이고 있는 CNN을 적용하여 성능을 개선하였다. 두번째로 제안하는 모델에 여러 개의 레이어를 추가하여 많은 정보를 담을 수 있도록 하였고, 이를 통해 복잡한 데이터를 생성할 수 있다. 게다가, 식별자와 생성자 네트워크 간의 건너 뛴 연결을 통해 추론과 생성 네트워크 간 상호작용이 강화되며 효율적인 데이터 생성이 가능하게 된다. 세번째로 식별자와 생성자 네트워크 간 상호작용을 강화하기 위하여 Ladder deep convolutional recurrent writer (L-DCRW)의 3가지 모델을 제안한다. 첫번째 모델은 Gaussian likelihood의 역할을 하는 식별자 네트워크의 평균과 분산, 사전확률의 역할을 하는 생성자 네트워크의 평균과 분산을 이용하여 사후확률을 구하는 구조이다. 두번째 모델은 추론과 생성 네트워크 간 건너 뛴 연결을 상위 레이어에 추가된 구조로 모든 정보가 아닌 추상화된 정보만 이용하여 학습이 가능해진다. 세번째 모델은 상위 레이어 뿐만 아니라 모든 레이어간 건너 뛴 연결을 추가한 모델로 보다 복잡한 모델에 대하여 학습이 가능해진다. 마지막 챕터에서는 MNIST, Omniglot 데이터셋을 이용하여 제안하는 모델의 결과를 분석하였고, DRAW와의 비교를 통해 제안하는 모델의 우수성을 입증하였다.