Recently, vector-quantized image modeling has demonstrated impressive performance on generation tasks such as text-to-image generation. However, we discover that the current image quantizers do not satisfy translation equivariance in the quantized space due to aliasing. Instead of focusing on anti-aliasing, we propose a simple but effective way to achieve translation-equivariant image quantization by enforcing orthogonality among the codebook embeddings. To explore the advantages of translation-equivariant image quantization, we conduct three experiments with a carefully controlled dataset:
(1) text-to-image generation, where the quantized image indices are the target to predict,
(2) image-to-text generation, where the quantized image indices are given as a condition,
(3) using a smaller training set to analyze sample efficiency.
From the strictly controlled experiments, we empirically verify that translation-equivariant image quantizer improves not only sample efficiency but also the accuracy over VQGAN up to +11.9\% in text-to-image generation and +3.9\% in image-to-text generation.
최근 벡터 양자화 이미지 모델링 기법은 텍스트 기반 이미지 생성 작업에서 놀라운 성과를 보여줬다. 그러나 본 연구에서 이미지 양자화 모듈들이 위신호 현상 때문에 양자화된 공간에서 위치 등변성을 만족하지 못한다는 사실이 발견되었다. 본 논문에서 필자는 위신호 제거에 집중하는 대신 코드북 임베딩 벡터들을 직교화하는 간단하지만 더 효과적인 방법을 사용하여 위치 등변 이미지 양자화를 달성하였다. 위치 등변 이미지 양자화의 이점을 알아보기 위해 필자는 엄격히 통제된 데이터셋을 이용해 3가지 상황의 실험을 진행하였다:
(1) 양자화된 이미지 토큰들이 예측의 대상이 되는 경우 (텍스트 기반 이미지 생성),
(2) 양자화된 이미지 토큰들이 조건으로 주어지는 경우 (이미지 기반 텍스트 생성),
(3) 학습셋의 크기가 작아지는 경우 (샘플 효율성 확인 실험).
필자는 엄격히 통제된 실험을 통해 위치 등변 이미지 양자화가 샘플 효율성뿐만 아니라 텍스트 기반 이미지 생성 작업에서 +11.9\%, 이미지 기반 텍스트 생성 작업에서 +3.9\%의 VQGAN 대비 정확도 향상을 달성함을 실험적으로 입증하였다.