Generating a novel image by manipulating two input images is an interesting research problem in the study of generative adversarial networks (GANs). We propose a new GAN-based network that generates a fusion image with the identity of input image x and the shape of input image y. Our network can simultaneously train on more than two image datasets in an unsupervised manner. We define an identity loss $L_I$ to catch the identity of image x and a shape loss $L_S$ to get the shape of y. In addition, we propose a novel training method called Min-Patch training to focus the generator on crucial parts of an image, rather than its entirety. We show qualitative results on the VGG Youtube Pose dataset, Eye dataset (MPIIGaze and UnityEyes), and the Photo–Sketch–Cartoon dataset.
이 논문은 두 입력 이미지를 받아 새로운 결과 이미지를 생성하는 네트워크를 다루었다. 두 입력 이미지 x의 독자성과 y의 모양을 보존하는 GAN 기반의 네트워크를 제시하였다. 이 네트워크는 비지도 학습으로 결과 이미지에 대한 답이 없는 경우에도 3개 이상의 데이터셋에 대해서 학습이 가능하다. 우리는 이미지 x의 독자성을 보존하기 위한 독자성 오차 $L_I$와 이미지 y의 모양을 가져오는 모양 오차 $L_S$를 정의해주었다. 그리고 우리는 생성기가 결과 이미지의 전체보다는 중요한 부분에 집중할 수 있도록 해주는 새로운 학습 방법 Min-Patch 학습을 제안한다. 이 생성기는 VGG YouTube Pose 데이터셋, Eye 데이터셋 (MPIIGaze and UnityEyes), 그리고 Photo-Sketch-Cartoon 데이터셋에 대해서 주어진 목표를 완성하는 결과들을 보여준다.