We propose a conditional generative neural network that synthesizes a realistic person image reflecting the input image of a person, multiple garments, and wearing styles. Firstly, we construct a benchmark dataset Fashion-TB with paring information between a person and multiple clothes that the person is wearing. We propose a method to properly embed input conditions (i.e., person, clothes, and wearing styles) and reflect the latent feature to the generative neural network so that the network effectively generates a person image under the given conditions. In particular, we propose a single-stage network trained by end-to-end learning while most existing studies consist of multiple stages to leverage performance. In spite of the simple architecture with fewer parameters, our proposed network can effectively synthesize VITON images. Additionally, we introduce two methods called Wearing-guide Scheme and Wearing Style Transfer which control the wearing style of the synthesized image using a user-defined binary mask and an example image, respectively. We evaluate the proposed dataset and methods compared to stateof-the-art methods. We can verify that existing methods can be trained using the proposed dataset, and our proposed methods can synthesize a more realistic person image. Also, methods to control wearing style are validated to alter the wearing style of the output image, and they can be utilized in two different user scenarios.
연구에서는 사람 이미지와 복수개의 의류 이미지, 그리고 옷에 대한 착용법을 입력으로 하여 주어진 착용법을 따라 입력된 모델의 포즈와 체형을 유지하며 입력된 의류를 착용한 것과 같은 이미지를 사실적으로 생성하는 조건부 생성 신경망 기술에 대해서 다루었다. 보다 자세하게는 본 연구에서는 생성 신경망의 학습에 활용될 수 있도록 사람과 해당 사람이 착용하고 있는 의류 정보가 연결된 학습 데이터 세트를 수집하여 Fashion-TB 데이터세트를 구성하였다. 기존 연구들의 다수개의 신경망으로 구성된 것과 다르게 단일 신경망이 종단간 학습을 통해 다수상품을 활용하는 착용이미지 생성을 효과적이고 효율적으로 수행할 수 있는 네트워크 구조를 고안하였다. 이에 더해 착용법을 조절하기 위한 두 방법인 Wearing-guide Scheme과 Wearing Style Transfer를 제안하였다. 두 방법은 각기 다른 사용자 시나리오에 따라 이진 마스크와 같이 명시적인 입력에 반응하여 동작하거나 다른 모델의 예시 착용 이미지를 바탕으로 합성될 이미지의 착용법을 조절한다. 최근 공개된 다양한 생성적 신경망들을 활용하여 제안된 데이터 및 방법의 효과를 평가하였으며, 그 결과 제안된 데이터는 기존에 존재하는 신경망들을 보다 효율적으로 학습할 수 있음을 확인하였을 뿐만 아니라 제안된 생성적 신경망은 기존 방법들보다 사실적인 이미지를 만들며 다양한 착용법을 반영할 수 있음을 확인하였다.