서지주요정보
Pathwise gradient estimators for various probability distributions in deep generative models = 딥 생성 모델에서의 다양한 확률 분포에 대한 경로별 경사 추정자
서명 / 저자 Pathwise gradient estimators for various probability distributions in deep generative models = 딥 생성 모델에서의 다양한 확률 분포에 대한 경로별 경사 추정자 / Weonyoung Joo.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036282

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DIE 20010

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Estimating the gradients of stochastic nodes is one of the crucial research questions in the deep generative modeling community to optimize the model parameters through gradient descent method. This dissertation discusses two types of pathwise gradient estimators: one for Dirichlet distribution, and the other for generic discrete distributions. In our first work, we propose Dirichlet Variational Autoencoder (DirVAE) using a Dirichlet prior. To infer the parameters of DirVAE, we develop the pathwise gradient estimator by approximating the inverse cumulative distribution function of the Gamma distribution, which is a component of the Dirichlet distribution. This approximation on a new prior led an investigation on the component collapsing, and DirVAE revealed that the component collapsing originates from two problem sources: decoder weight collapsing and latent value collapsing. By resolving the component collapsing problem with the Dirichlet prior, we show that DirVAE produces disentangled latent representation which leads to the significant performance gain. Comparing to the continuous case, the gradient estimation problem becomes further complex when we regard the stochastic nodes to be discrete because pathwise derivative techniques can not be applied. Hence, the gradient estimation requires the score function methods or the continuous relaxation of the discrete random variables. In our second work, we suggest a general version of the Gumbel-Softmax estimator with continuous relaxation, and this estimator is able to relax the discreteness of probability distributions, including broader types than the current practice. In detail, we utilize the truncation of discrete random variables and the Gumbel-Softmax trick with a linear transformation for the relaxation. The proposed approach enables the relaxed discrete random variable to be reparameterized and to backpropagate through a large scale stochastic neural network.

확률적 노드의 미분값을 구하는 것은 경사 하강법을 통해 딥 생성 모델을 학습을 가능케하는 측면에서 딥 생성 모델링 분야의 중요한 연구 주제다. 본 논문에서는 확률적 노드가 디리쉴릿 분포를 따르는 경우와 일반적인 이산 분포를 따르는 경우에 대한 경로별 경사 추정자를 제안한다. 첫 번째 연구에서는 디리쉴릿 사전 분포를 활용한 디리쉴릿 변분 오토인코더를 제시한다. 디리쉴릿 분포는 감마 분포를 따르는 확률 변수들로 구성된다는 점에 착안하여, 감마 누적 분포 함수의 역함수를 근사하여 경로별 경사 추정자를 제시했고, 이를 활용해 디리쉴릿 변분 오토인코더의 모수를 학습했다. 이러한 새로운 형태의 사전 분포를 제안함으로써, 변분 오토인코더의 컴포넌트 붕괴 문제가 디코더 가중치 붕괴와 잠재 변수값 붕괴에서 기인한다는 것을 밝혀냈다. 디리쉴릿 변분 오토인코더는 컴포넌트 붕괴 문제를 해결하고 그 결과로 구분된 잠재 표현을 생성하여 성능 항샹으로 이끌었다. 연속 분포의 경우와 비교했을 때, 확률적 노드가 이산 분포를 따르는 경우에 미분값을 추정하는 것은 기존의 경로별 미분 방법을 활용할 수 없음에 따라 보다 복잡한 문제로 여겨진다. 따라서 스코어 함수 기반의 방법론을 활용하거나 이산적인 값을 연속적인 값으로 완화하는 과정이 필요하다. 두 번째 연구에서는 일반화된 검블-소프트맥스 경로 추정자를 제시하는데, 이 경로 추정자는 이산 확률 변수의 끝단을 잘라낸 뒤 검블-소프트맥스 재매개화 기교를 선형 변환과 함께 사용하여 이산 확률 분포를 연속적인 값으로 완화한다. 제안된 방법론은 완화된 이산 확률 변수를 재매개화 가능하게 함으로써 큰 규모의 확률적인 뉴럴 네트워크를 역전파를 통한 학습을 가능하게 했다.

서지기타정보

서지기타정보
청구기호 {DIE 20010
형태사항 vii, 64 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 주원영
지도교수의 영문표기 : Il-Chul Moon
지도교수의 한글표기 : 문일철
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 59-62
주제 Deep Generative Model
Variational Autoencoder
Pathwise Gradient Estimator
Reparameterization Trick
Representation Learning
딥 생성 모델
변분 오토인코더
경로별 경사 추정자
재매개화 기교
표현 학습
QR CODE qr code