서지주요정보
Learning to generate semantic layouts for higher text-image correspondence in text-to-image synthesis = 문자열 기반 이미지 생성 시 높은 문자열 반영도를 위한 의미론적 분할 지도 동시 생성 기법
서명 / 저자 Learning to generate semantic layouts for higher text-image correspondence in text-to-image synthesis = 문자열 기반 이미지 생성 시 높은 문자열 반영도를 위한 의미론적 분할 지도 동시 생성 기법 / Minho Park.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041917

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 24028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Existing text-to-image generation approaches have set high standards for photorealism and text-image correspondence, largely benefiting from web-scale text-image datasets, which can include up to 5 billion pairs. However, text-to-image generation models trained on domain-specific datasets, such as urban scenes, medical images, and faces, still suffer from low text-image correspondence due to the lack of text-image pairs. Additionally, collecting billions of text-image pairs for a specific domain can be time-consuming and costly. Thus, ensuring high text-image correspondence without relying on web-scale text-image datasets remains a challenging task. In this paper, we present a novel approach for enhancing text-image correspondence by leveraging available semantic layouts. Specifically, we propose a Gaussian-categorical diffusion process that simultaneously generates both images and corresponding layout pairs. Our experiments reveal that we can guide text-to-image generation models to be aware of the semantics of different image regions, by training the model to generate semantic labels for each pixel. We demonstrate that our approach achieves higher text-image correspondence compared to existing text-to-image generation approaches in the Multi-Modal CelebA-HQ and the Cityscapes dataset, where text-image pairs are scarce.

기존의 문자열 기반 이미지 생성 연구들은 최대 50억쌍의 웹 규모의 문자열-이미지 데이터셋을 활용하여 실제 사진 수준의 퀄리티 및 높은 문자열 반영 생성 결과를 얻어내었다. 그러나 많은 문자열-이미지 쌍을 얻을 수 없는 도메인인 도로 주행, 의료, 얼굴 등의 상황에서는 여전히 생성된 이미지에 대해서 낮은 문자열 반영률을 보인다. 또한 특정 환경에 대해서 수십억 개의 문자열-이미지 쌍을 수집하는 것은 많은 시간과 비용을 필요로 한다. 따라서 웹 규모의 문자열-이미지 데이터셋에 의존하지 않고 높은 문자열 반영도를 얻는 것은 여전히 어려운 일이다. 본 논문에서는 사용 가능한 의미 영역 분할 지도를 활용하여서 문자열 반영률을 향상시키는 새로운 접근 방식을 제안한다. 구체적으로는 이미지와 의미 영역 분할 지도 쌍을 동시에 생성하는 가우시안-카테고리컬 확산 과정을 제안한다. 본 논문에서는 각 픽셀에 대해서 의미 영역 분할 지도를 생성하도록 모델을 훈련하는 것이 각 이미지의 영역 별로 의미론적 정보를 고려하기 때문에 문자열 기반 이미지 생성 모델이 문자열을 이해하고 반영하는데 도움이 된다는 것을 확인하였다. 본 방법은 문자열-이미지 쌍이 적은 얼굴 및 도로주행 데이터셋에 대하여 실험하였고 다른 방법론들에 비해 더 높은 문자열의 반영률을 보여주는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MAI 24028
형태사항 v, 35 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박민호
지도교수의 영문표기 : Jaegul Choo
지도교수의 한글표기 : 주재걸
수록잡지명 : "Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image Synthesis". Proceedings of the IEEE/CVF International Conference on Computer Vision, 7591-7600(2023)
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 30-33
주제 Text-to-image generation
Generative model
Diffusion Process
문자열 기반 이미지 생성
생성 모델
확산 과정
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서