서지주요정보
Learning input-agnostic manipulation directions in styleGAN with text guidance = 텍스트를 이용한 StyleGAN의 Input-agnostic 방향 학습
서명 / 저자 Learning input-agnostic manipulation directions in styleGAN with text guidance = 텍스트를 이용한 StyleGAN의 Input-agnostic 방향 학습 / Yoonjeon Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040533

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the advantages of fast inference and human-friendly flexible manipulation, image-agnostic style manipulation via text guidance enables new applications that were not previously available. The state-of-the-art text-guided image-agnostic manipulation method embeds the representation of each channel of StyleGAN independently in the Contrastive Language-Image Pre-training (CLIP) space, and provides it in the form of a Dictionary to quickly find out the channel-wise manipulation direction during inference time. However, in this paper we argue that this dictionary which is constructed by controlling single channel individually is limited to accommodate the versatility of text guidance since the collective and interactive relation among multiple channels are not considered. Indeed, we show that it fails to discover a large portion of manipulation directions that can be found by existing methods, which manually manipulates latent space without texts. To alleviate this issue, we propose a novel method Multi2One that learns a Dictionary, whose entry corresponds to the representation of a single channel, by taking into account the manipulation effect coming from the interaction with multiple other channels. We demonstrate that our strategy resolves the inability of previous methods in finding diverse known directions from unsupervised methods and unknown directions from random text while maintaining the real-time inference speed and disentanglement ability.

이 논문에서는 쓰는이가 적대적 생성 모델을 이용한 이미지 조작 상황에서 텍스트를 이용하는 경우에 현재 가장 우수한 것으로 평가받는 모델이 한정된 조작 방향밖에 찾지 못함을 분석하고 이에 대한 해결법을 제시하였다. 훈련된 적대적 생성 모델의 잠재 공간에서 각각의 채널이 담당하는 역할을 이미지-언어 사전학습 공간에서 정의한 사전을 이용하는 방법은 주어진 이미지와 텍스트에 관계없이 추가적인 최적화 없이 실시간 조작을 가능하게 한다. 그러나 이러한 편리한 특성에도 불구하고, 주어진 텍스트를 충분히 표현할 수 있는 방향을 제대로 찾아내고 있지 못하다. 본 논문에서는 그 문제의 원인이 잠재 공간에 있는 채널을 오직 하나씩만 고려해서 각각의 역할을 이미지-언어 사전학습 공간에서 정의하는 방식에 있다고 분석한다. 또한 이를 해결하기 위해 여러 개의 채널을 총체적으로 조작하여 그 안에서 각각의 채널이 어떤 역할을 담당하는지에 대한 사전을 학습하는 방법을 제안한다. 제안된 방식의 우수성은 질적, 양적 실험의 결과물로 입증하였다.

서지기타정보

서지기타정보
청구기호 {MAI 23008
형태사항 iv, 33 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김윤전
지도교수의 영문표기 : Eunho Yang
지도교수의 한글표기 : 양은호
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 14-16
주제 Generative models
Image manipulation
Text guidance
생성 모델
이미지 조작
텍스트 기반
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서