Clothing image generation is a task of generating clothing product images based on input fashion images of people dressed. A result of existing GAN based methods often contains visual artifact with the global consistency issue, due to training instability of GAN. To solve this issue, we split the difficult single image generation process into relatively easy multi-stages for image generation process. We apply a coarse-to-fine strategy on an image-conditional image generation model, with a multi-stage network training method, called rough-to-detail training. We also design our generator architecture appropriate for rough-to-detail training, by progressively configuring a target image of each stage through adding a decoder block. Via the coarse-to-fine process, our model can generate from small size images with rough structures to large size images with details. To validate our proposed model, we perform extensive evaluations on the LookBook dataset. Compared to other methods, our model can create visually pleasing 256 × 256 clothing images while keeping the global structure and containing details of target images.
의류 이미지 생성은 옷 입은 사람의 이미지를 기반으로 의류 이미지를 생성하는 문제이다. 결과 이미지는 의류 형태이면서 입력 이미지에 있는 시각적 특징을 포함해야 한다. 그러나 현존하는 GAN 기반의 방법들은 앞서 언급한 조건들에 실패하는 경우가 있으며, 이는 목표 해상도가 높을수록 잦다. 본 논문에서는 입력으로 제공하는 패션모델 이미지에 따라 256 × 256 의류 이미지를 생성하는 rough-to-detail GAN (rtdGAN) 을 제안한다. 이미지 생성 과정을 여러 단계로 나눠 수행했다. 제안한 모델은 단계별 목표 이미지를 생성하기 위해 점진적으로 생성기의 복호기를 구성한다. 이를 통해, 우리 모델은 대략적인 구조를 가지는 작은 이미지부터 목표 이미지의 세밀한 부분까지 묘사하는 큰 이미지를 생성할 수 있다. 우리가 제안한 방법의 유효성을 평가하기 위해 정성적 평가와 정량적 평가를 수행했다. 최첨단 방법보다, 시각적으로 만족스러운 256 × 256 의류 이미지를 생성하였다.