Existing text-to-image generation approaches have set high standards for photorealism and text-image correspondence, largely benefiting from web-scale text-image datasets, which can include up to 5 billion pairs. However, text-to-image generation models trained on domain-specific datasets, such as urban scenes, medical images, and faces, still suffer from low text-image correspondence due to the lack of text-image pairs. Additionally, collecting billions of text-image pairs for a specific domain can be time-consuming and costly. Thus, ensuring high text-image correspondence without relying on web-scale text-image datasets remains a challenging task. In this paper, we present a novel approach for enhancing text-image correspondence by leveraging available semantic layouts. Specifically, we propose a Gaussian-categorical diffusion process that simultaneously generates both images and corresponding layout pairs. Our experiments reveal that we can guide text-to-image generation models to be aware of the semantics of different image regions, by training the model to generate semantic labels for each pixel. We demonstrate that our approach achieves higher text-image correspondence compared to existing text-to-image generation approaches in the Multi-Modal CelebA-HQ and the Cityscapes dataset, where text-image pairs are scarce.
기존의 문자열 기반 이미지 생성 연구들은 최대 50억쌍의 웹 규모의 문자열-이미지 데이터셋을 활용하여 실제 사진 수준의 퀄리티 및 높은 문자열 반영 생성 결과를 얻어내었다. 그러나 많은 문자열-이미지 쌍을 얻을 수 없는 도메인인 도로 주행, 의료, 얼굴 등의 상황에서는 여전히 생성된 이미지에 대해서 낮은 문자열 반영률을 보인다. 또한 특정 환경에 대해서 수십억 개의 문자열-이미지 쌍을 수집하는 것은 많은 시간과 비용을 필요로 한다. 따라서 웹 규모의 문자열-이미지 데이터셋에 의존하지 않고 높은 문자열 반영도를 얻는 것은 여전히 어려운 일이다. 본 논문에서는 사용 가능한 의미 영역 분할 지도를 활용하여서 문자열 반영률을 향상시키는 새로운 접근 방식을 제안한다. 구체적으로는 이미지와 의미 영역 분할 지도 쌍을 동시에 생성하는 가우시안-카테고리컬 확산 과정을 제안한다. 본 논문에서는 각 픽셀에 대해서 의미 영역 분할 지도를 생성하도록 모델을 훈련하는 것이 각 이미지의 영역 별로 의미론적 정보를 고려하기 때문에 문자열 기반 이미지 생성 모델이 문자열을 이해하고 반영하는데 도움이 된다는 것을 확인하였다. 본 방법은 문자열-이미지 쌍이 적은 얼굴 및 도로주행 데이터셋에 대하여 실험하였고 다른 방법론들에 비해 더 높은 문자열의 반영률을 보여주는 것을 확인하였다.