서지주요정보
A study on the score-based diffusion model for improved training, flexible inference, and efficient sampling = 향상된 학습, 유연한 추론, 및 효과적인 샘플링을 위한 스코어 기반 확산 모델 연구
서명 / 저자 A study on the score-based diffusion model for improved training, flexible inference, and efficient sampling = 향상된 학습, 유연한 추론, 및 효과적인 샘플링을 위한 스코어 기반 확산 모델 연구 / Dongjun Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041486

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DIE 23015

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Learning a data distribution and sampling from it are key on creative generation. For previous decades, however, human-level generation in a high-dimensional space was far-fetching for two reasons. First reason comes from the lack of computational resources. Second, none of generative models were scalable to high-dimensions. Therefore, models that seem to conquer the MNIST dataset failed at generating recognizable natural images, such as CIFAR-10. In this thesis, we introduce recent development of score-based diffusion models, which emerge as a strong candidate of the substitute for previous modeling frameworks. The diffusion models have three components [4]: the forward-time data diffusion process [5], the reverse-time generative diffusion process [6], and the score training objective [7]. There are few works [8, 9, 10] that provides the deep understanding of each component, and we aim to understand each component more deeply by answering fundamental questions that arise from the nature of diffusion models in three chapters. First, we observe that the previous training objective has a trade-off between the actual sample quality and the model likelihood evaluation. We explain this trade-off by the contribution of diffusion loss at each time: the large-time diffusion loss takes only an extremely minor portion on the model log-likelihood. From this imbalanced contribution of small-large times, the log-likelihood training leaves the score estimation on large time inaccurate, and the sample quality is deteriorated by this inaccuracy. We introduce Soft Truncation that successfully mitigates the trade-off. Soft Truncation ease the truncation bound at every mini-batch from a hyper-parameter $\epsilon$ to a random variable $\tau$ , and trains the score network for the batch on [$\tau$, T], instead of [$\epsilon$, T]. This forces batch update with large $\tau$ to focus on the range of large diffusion time, so the large time score is well-trained with Soft Truncation. Second, we extend the scope of forward-time data diffusion process from the linear SDEs to nonlinear SDEs. So far, the forward-time data diffusion process is fixed throughout the training procedure so to constrain the final density as one of a Gaussian distribution. However, intuitively, there would be promising diffusion patterns to efficiently train the diffusion models that is adaptive to the given data distribution. Therefore, we introduce Implicit Nonlinear Diffusion Models (INDM), that models the nonlinearity by an implciit way. We find that the explicit nonlinearity modeling is unsuccessful for its intractable transition probability, and introduce a normalizing flow to detour the intractability issue. Third, we aim to adjust the score estimation to improve sample quality. This work is motivated from the difference of local optimum and global optimum. At the global optimum of the training objective, the score network perfectly estimates the data score, but achieving the global optimality is hardly satisfied in reality. Instead, the score network (at local optimum) is merely an approximation of the data score,so there is a gap between the estimation and the true data score. We introduce a neural estimator of this gap, using a discriminator training. After the training, we augment the gap estimation to the original generative process to adjust the score part. Throughout the chapters, we validate our works in vision-oriented dataset, such as CIFAR-10.

우리에게 데이터가 주어진 경우, 우리는 인공신경망을 통하여 데이터를 분류하거나 생성할 수 있다. 데이터를 생성하는 것은 분류하는 것과 서로 다른 업무를 수행할 수 있기 때문에, 데이터 생성은 분류와는 다른, 독자적인 연구 분야로 자리매김할 수 있다. 생성 모델은 데이터를 생성하는 것을 목적으로 한 모델로써,모델 분포를 데이터 분포를 추종하도록 학습하여 그 모델 분포로부터 샘플링 하는 것을 가리킨다. 현대의 깊은 생성 모델들은 보다 빠른 샘플링을 위해 모델 분포를 잠재 변수와 생성 신경망을 통해 모델링한다. 즉, 잠재 공간에서 잠재 변수 하나를 샘플링 한 후, 그 변수를 생성 신경망의 입력값으로 넣으면 데이터를 생성하는 방식으로 모델링을 진행한다. 이러한 모델링 기법의 예로, 널리 알려진 Variational Autoencoders (VAE) [1], Generative Adversarial Networks (GAN) [2], 및 Normalizing Flows (NF) [3] 를 꼽을 수 있다. 생성 모델들은 학습 방법에 따라 샘플 성능이 크게 좌우된다. 우도 기반 모델 (likelihood-based model) 은 모델 분포의 로그 우도를 추정하여 로그 우도 최대 학습을 통하여 모델 분포를 학습하기 때문에 모델 분포가 광범위한 모양을 가지도록 학습할 수 있다. 하지만, 모델이 충분히 유연하지 못한 경우, 모델 분포는 넓은 범위를 덮고 있지만 세세한 미소 우도 변화를 표현하기에는 한계가 있어, 이런 경우 다양한 샘플링은 가능하나 정확한 샘플링은 불가능하다. 그에 비해, 우도 자유 모델 (likelihood-free model)은 이름에서 유추할 수 있듯이, 모델 분포의 우도를 기반으로 학습하는 것이 아니라, 생성자 신경망과 판별자 신경망이 적대적으로 서로를 속이는 방향으로 학습한다. 즉, 생성자는 판별자를 속이기 위하여 현실과 유사한 샘플을 생성하고, 판별자는 생성자가 생성하는 샘플을 가짜로 인식하도록 학습된다. 이러한 적대적 학습 방법은 생성자로 하여금 아주 좋은 생성을 가능케 하지만, 한번 좋은 샘플을 생성하면 더이상 생성자가 다양한 종류의 좋은 샘플을 생성하도록 학습이 이루어게끔 하는 학습 시그널이 주어지지 않는다. 그렇기 때문에 이러한 우도를 기반으로 학습하지 않는 생성 모델은 정확하지만 다양하지 못한 샘플을 생성한다. 최근에 개발된 확산 모델은 우도 기반 모델로, 다양한 샘플링을 보장하면서도 우도 자유 모델이 생성하는 수준의 정확한 샘플을 생성한다. 확산 모델은 데이터 변수에 계속하여 미소 잡음 변수를 더해 데이터를 시간이 흐름에 따라 점차 백색 소음으로 변화시키는 정방향 확산과 백색 소음으로부터 점차 잡음을 없애 데이터 변수를 만드는 역방향 확산으로 설명된다. 여기서 잡음을 없애는 역과정은 모델 분포의 미분값 (스코어 함수)을 포함하고 있기 때문에 확산 모델은 이러한 스코어 함수를 인공생성망으로 학습한다. 다른 우도 기반 모델들과 마찬가지로 확산 모델에서 스코어 함수는 로그 우도 최대 학습을 통해 학습한다. 하지만, 로그 우도는 초기 확산 과정의 스코어 추정으로 대부분 결정되고, 확산의 후기 시간에는 스코어 추정 능력이 로그 우도에 미치는 영향력이 미미하기 때문에, 후기 시간에는 정확하지 않은 스코어 추정이이루어진다. 이러한 후기 시간에서의 스코어 오차가 샘플링 과정에서 누적되어 정확하지 않은 샘플링이 이루어진다. 우리는 첫 번째 챕터에서 이러한 문제를 관측하고, 이 문제를 해결하기 위한 새로운 학습 방법을 소개한다. 우리의 학습 방법은 기존의 학습 방법과 거의 동일하되, 매 batch마다 스코어 신경망을 학습하는 시간대를 다르게 설정해 준다. 예를 들어, 어떤 batch에서는 스코어 신경망은 전체 확산 시간에 대하여 학습하는 반면, 다른 어떤 batch에서는 스코어 신경망을 확산 후기 시간에서만 학습하도록 하여 스코어 신경망을 확산 시간에 따라 골고루 학습하도록 한다. 즉, 모든 batch마다 동일한 전체 확산 시간에서 스코어 신경망을 학습하는 기존의 방법론과는 달리, 우리의 학습 방법은 고정된 확률 변수에서 매 batch마다 새로운 값을 뽑아서 그 값보다 큰 확산 시간에서 스코어 신경망을 학습한다. 확률 변수는 디자인의 영역이며, 우리는 좋은 샘플을 생성하는 확률 변수을 찾기 위한 실험을 진행하였다. 또 다른 측면에서 보았을 때, VAE와 확산 모델은 매우 유사한 구조를 가진다. 즉, VAE와 확산 모델 둘 다 추론 과정 (inference process)과 생성 과정 (generative process)이 존재한다. VAE에서 추론 과정은 encoder 신경망이고, 생성 과정은 decoder 신경망으로 표현된다. 확산 모델에서는 정방향 확산이 추론 과정이고 역방향 확산이 생성 과정이 된다. VAE와 확산 모델의 가장 두드러지는 차이점은, VAE에서는 추론 과정에 해당하는 encoder가 학습 가능한 반면 확산 모델에서는 추론 과정에 해당하는 정방향 확산이 학습 불가능하다는 점이 있다. VAE와의 이러한 차이점에서 동기를 얻어, 기존의 연구에서는 정방향 확산을 학습하도록 하기 위해 여러가지 시도가 이루어졌지만 연속 시간에 대하여 정방향 확산의 학습은 불가능하였다. 우리는 두번째 챕터에서 이러한 연속-시간 정방향 확산을 성공적으로 학습하는 방법을 제시한다. 마지막 챕터는 학습이 종료된 스코어 신경망을 더 향상시키는 방법론을 제시한다. 미분 기반으로 스코어 신경망을 학습하였을 때, 스코어 신경망은 지역 최적점에서 학습이 종료되고 더이상 전역 최적점으로 나아가지 않는다. 그렇기 때문에 우리는 지역 최적점에 빠진 스코어 신경망과 전역 최적점에서의 스코어 신경망의 오차를 구하고, 이 오차를 또 다른 추정의 대상으로 삼는다. 즉, 지역 최적점에 빠진 스코어 신경망은 추가적인 학습을 하지 않고 대신 다른 신경망을 추가로 도입하여 오차 그 자체를 모델링한다. 이 오차를 다른 신경망으로 학습한 후, 오차를 보정한 스코어 값을 이용하면 더 좋은 샘플을 얻을 것으로 기대한다.

서지기타정보

서지기타정보
청구기호 {DIE 23015
형태사항 x, 158 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김동준
지도교수의 영문표기 : Il-Chul Moon
지도교수의 한글표기 : 문일철
수록잡지명 : "Soft Truncation: A Universal Training Technique of Score-based Diffusion Model for High Precision Score Estimation". International Conference on Machine Learning, V.162.no.1, pp.11201-11228(2022)
수록잡지명 : "Maximum Likelihood Training of Implicit Nonlinear Diffusion Model". Neural Information Processing Systems, v.35.no.1, pp.32270--32284(2022)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 147-156
주제 Generative models
Diffusion models
Score-based models
Generative Adversarial networks
Normalizing flows
생성 모델
확산 모델
스코어 기반 모델
적대적 생성 모델
정규화 흐름
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서