서지주요정보
Exploration into translation-equivariant image quantization = 위치 등변 이미지 양자화에 대한 탐구
서명 / 저자 Exploration into translation-equivariant image quantization = 위치 등변 이미지 양자화에 대한 탐구 / Woncheol Shin.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039731

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 22029

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently, vector-quantized image modeling has demonstrated impressive performance on generation tasks such as text-to-image generation. However, we discover that the current image quantizers do not satisfy translation equivariance in the quantized space due to aliasing. Instead of focusing on anti-aliasing, we propose a simple but effective way to achieve translation-equivariant image quantization by enforcing orthogonality among the codebook embeddings. To explore the advantages of translation-equivariant image quantization, we conduct three experiments with a carefully controlled dataset: (1) text-to-image generation, where the quantized image indices are the target to predict, (2) image-to-text generation, where the quantized image indices are given as a condition, (3) using a smaller training set to analyze sample efficiency. From the strictly controlled experiments, we empirically verify that translation-equivariant image quantizer improves not only sample efficiency but also the accuracy over VQGAN up to +11.9\% in text-to-image generation and +3.9\% in image-to-text generation.

최근 벡터 양자화 이미지 모델링 기법은 텍스트 기반 이미지 생성 작업에서 놀라운 성과를 보여줬다. 그러나 본 연구에서 이미지 양자화 모듈들이 위신호 현상 때문에 양자화된 공간에서 위치 등변성을 만족하지 못한다는 사실이 발견되었다. 본 논문에서 필자는 위신호 제거에 집중하는 대신 코드북 임베딩 벡터들을 직교화하는 간단하지만 더 효과적인 방법을 사용하여 위치 등변 이미지 양자화를 달성하였다. 위치 등변 이미지 양자화의 이점을 알아보기 위해 필자는 엄격히 통제된 데이터셋을 이용해 3가지 상황의 실험을 진행하였다: (1) 양자화된 이미지 토큰들이 예측의 대상이 되는 경우 (텍스트 기반 이미지 생성), (2) 양자화된 이미지 토큰들이 조건으로 주어지는 경우 (이미지 기반 텍스트 생성), (3) 학습셋의 크기가 작아지는 경우 (샘플 효율성 확인 실험). 필자는 엄격히 통제된 실험을 통해 위치 등변 이미지 양자화가 샘플 효율성뿐만 아니라 텍스트 기반 이미지 생성 작업에서 +11.9\%, 이미지 기반 텍스트 생성 작업에서 +3.9\%의 VQGAN 대비 정확도 향상을 달성함을 실험적으로 입증하였다.

서지기타정보

서지기타정보
청구기호 {MAI 22029
형태사항 iv, 28 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신원철
지도교수의 영문표기 : Edward Choi
지도교수의 한글표기 : 최윤재
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 16-17
주제 Vector Quantization
Translation Equivariance
Text-Image Multimodal Learning
벡터 양자화
위치 등변성
텍스트-이미지 멀티모달 학습
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서