Though deep generative models have gained a lot of attention, most of the existing works are designed for the unimodal generation task. In this paper, we explore a new method for unconditional image-text pair generation. We propose MXQ-VAE, a vector quantization method for multimodal image-text representation. MXQ-VAE accepts a paired image and text as input, and learns a joint quantized representation space, so that the image-text pair can be converted to a sequence of unified indices. Then we can use autoregressive generative models to model the joint image-text representation, and even perform unconditional image-text pair generation. Extensive experimental results demonstrate that our approach effectively generates semantically consistent image-text pair and also enhances meaningful alignment between image and text.
심층 생성 모델이 많은 관심을 얻었지만, 대부분의 기존 연구들은 단일모달 생성을 위해 설계되었다. 본 논문에서는 조건없는 이미지-텍스트 쌍 생성을 위한 새로운 방법을 탐구한다. 우리는 멀티모달 이미지 텍스트 표현을 위한 벡터 양자화 방법인 MXQ-VAE를 제안한다. MXQ-VAE는 한 쌍의이미지와 텍스트를 입력으로 받아들이고 이미지 텍스트 쌍을 일련의 통일된 인덱스로 변환할 수 있도록 공동 양자화된 표현 공간을 학습한다. 그런 다음 자기 회귀 생성 모델을 사용하여 공동의 이미지 텍스트 표현을 모델링할 수 있으며, 조건 없는 이미지 텍스트 쌍 생성도 수행할 수 있다. 다양한 실험 결과는 우리의 접근 방식이 의미적으로 일관된 이미지-텍스트 쌍을 효과적으로 생성하고 이미지와 텍스트 사이의 의미 있는 정렬을 향상시킨다는 것을 보여준다.