With the advantages of fast inference and human-friendly flexible manipulation, image-agnostic style manipulation via text guidance enables new applications that were not previously available. The state-of-the-art text-guided image-agnostic manipulation method embeds the representation of each channel of StyleGAN independently in the Contrastive Language-Image Pre-training (CLIP) space, and provides it in the form of a Dictionary to quickly find out the channel-wise manipulation direction during inference time. However, in this paper we argue that this dictionary which is constructed by controlling single channel individually is limited to accommodate the versatility of text guidance since the collective and interactive relation among multiple channels are not considered. Indeed, we show that it fails to discover a large portion of manipulation directions that can be found by existing methods, which manually manipulates latent space without texts. To alleviate this issue, we propose a novel method Multi2One that learns a Dictionary, whose entry corresponds to the representation of a single channel, by taking into account the manipulation effect coming from the interaction with multiple other channels. We demonstrate that our strategy resolves the inability of previous methods in finding diverse known directions from unsupervised methods and unknown directions from random text while maintaining the real-time inference speed and disentanglement ability.
이 논문에서는 쓰는이가 적대적 생성 모델을 이용한 이미지 조작 상황에서 텍스트를 이용하는 경우에 현재 가장 우수한 것으로 평가받는 모델이 한정된 조작 방향밖에 찾지 못함을 분석하고 이에 대한 해결법을 제시하였다. 훈련된 적대적 생성 모델의 잠재 공간에서 각각의 채널이 담당하는 역할을 이미지-언어 사전학습 공간에서 정의한 사전을 이용하는 방법은 주어진 이미지와 텍스트에 관계없이 추가적인 최적화 없이 실시간 조작을 가능하게 한다. 그러나 이러한 편리한 특성에도 불구하고, 주어진 텍스트를 충분히 표현할 수 있는 방향을 제대로 찾아내고 있지 못하다. 본 논문에서는 그 문제의 원인이 잠재 공간에 있는 채널을 오직 하나씩만 고려해서 각각의 역할을 이미지-언어 사전학습 공간에서 정의하는 방식에 있다고 분석한다. 또한 이를 해결하기 위해 여러 개의 채널을 총체적으로 조작하여 그 안에서 각각의 채널이 어떤 역할을 담당하는지에 대한 사전을 학습하는 방법을 제안한다. 제안된 방식의 우수성은 질적, 양적 실험의 결과물로 입증하였다.