With the recent advances of deep learning especially on Generative Adversarial Networks (GANs), it became possible to modify high-level attributes of an image, or translate between image domains that share content features and differ in style. Current image editing algorithms basically handle relatively general features such as face attribute and style of Van Gogh's paintings. In other words, only common features that a collection of images share can be edited. Image editing at a level of single reference image can show much more various type of conversion. In order to carry out this kind of image editing such as virtual fitting and manga colorization, it is necessary to capture single-image-level features, but general features are too coarse to represent a specialized image. In order to tackle this problem, we introduce a conditional generative model for a reference-based image editing which is controlled by representations of a base image and a reference image. Our proposed model can then take a base image and a reference image as an input and properly combine them so that a desired final image can be generated. In this thesis, we describe the objectives and the architecture of the model and present the image editing results of the model through a test of the replacement of the intermediate representation to a guidance image.
최근 딥러닝의 발달, 특히 생성적 적대 신경망(Generative Adversarial Networks)의 발달로 고수준의 이미지 특성을 변화시키거나 내용 특징은 공유하지만 스타일이 다른 이미지 도메인 간에 변환하는 것이 가능해졌다. 기존의 이미지 편집 알고리즘들은 기본적으로 얼굴의 특성이나 반 고흐 화풍과 같은 상대적으로 일반적인 특징들을 다룬다. 다시 말해서, 오직 이미지의 모음이 공유하는 공통적인 특징만이 편집이 가능하다. 하나의 예시 이미지 수준의 이미지 편집은 훨씬 다양한 형태의 변환을 보여줄 수 있다. 가상 탈의와 만화 채색과 같은 이미지 편집을 수행하기 위해서는 한 이미지 수준의 특징을 파악하는 것이 필수적이다. 이 문제를 해결하기 위해서 우리는 기반 이미지와 예시 이미지의 표현에 의해 조정되는 예시 유도 이미지 편집을 위한 조건적 생성 모델을 제안한다. 우리가 제안한 모델은 원하는 최종적인 이미지를 만들도록 기반 이미지와 예시 이미지를 입력으로 받아들여 그것들을 적절히 조합할 수 있다. 이 학위 논문에서는, 모델의 목적과 구조에 대해 설명하고, 중간 표현을 유도 이미지로 대체하는 테스트를 통해 모델의 이미지 편집 결과를 보여준다.