In machine learning, stochastic processes have been used for modeling the dataset because the datasets can be understood as the finite realizations of the stochastic process. Thus, estimating the parameters of the stochastic process for given dataset results in modeling the underlying process of the datasets. Gaussian Process (GP) models are widely used to employ the stochastic process for modeling the datasets in practice.
To use GP models, it is required to set the kernel function for determining the covariance structure of GP. Since the determined kernel function affects the modeling performance of the GP model, setting the kernel function is a vital procedure. Thus, there have been many works on finding the reasonable kernel function for the given dataset. Automatic Bayesian Covariance Discovery and Deep kernel framework have shown that the automatically chosen kernel leads to good performance on modeling datasets. However, those methods have some limitation that lacks the rationale to support the chosen kernel.
In this thesis, I have focused on the class of the stationary kernel function because (1) the stationary kernel function can be used to model a wide range of stochastic process called stationary process and (2) the stationary kernel function has a theoretical background to explain its construction. Indeed, many datasets, including the time-series dataset, spatial-temporal dataset, image dataset, and sound dataset, have stationary property inherently. I have delved into how the stationary kernel can be trained in an efficient manner and how complex probabilistic models using the stationary kernel can be employed.
This thesis mainly consists of two part: inference part and applications part for the stationary kernel.
For the inference part, I propose the approximate Bayesian inference method to estimate the spectral mixture (SM) kernel efficiently. In this procedure, I have provided the theoretical justifications for the approximation procedure, the sampling strategy for stabilizing the stochastic training procedure, and the efficient update rule. I have validated that the proposed method can train the SM kernel for the large-scale dataset while stabilizing the training and reducing training time due to the fast convergence for estimating the kernel hyperparameters.
For the application part, I have introduced two applications. For the first application, I have proposed the scalable inference method to train the hybrid HMM using the GP emission which can estimate the varying hidden state of sequences of time-series. I have validated that the proposed inference scheme enables the corresponding model to be trained with a large-scale dataset efficiently, and the trained model can thus estimate the hidden state for a large-scale dataset. For the second application, I have introduced a Deep neural network (DNN) architecture called a Bayesian Convolutional Deepsets to model the stationary process via Deep learning framework. The Bayesian Convolutional Deepsets employs the task-dependent stationary prior. I have validated that it alleviates the potential task ambiguity issue of the existing framework called the Convolutional Deepsets.
기계 학습 분야에서, 확률적 프로세스는 데이터를 확률적 프로세스의 실현된 값들로 간주하고, 확률적 프로세스의 매개변수를 추정하여 데이터를 모델링하는데 사용할수있다. 가우시안 프로세스 기반 모델은 실질적으로 많이 사용되는 모델중 하나이다.
가우시안 프로세스 기반 모델을 사용하기위해서는 가우시안 프로세스의 공분산 구조를 결정하기 위한 커널 함수를 설정해야 합니다. 커널 함수 선택은 모델의 모델링 성능에 영향을 미치므로 커널 함수를 설정하는 것은 매우 중요한 절차입니다. 그러므로 주어진 데이터 세트에 대해서 합리적인 커널 함수를 찾기 위한 많은 연구들이 있었습니다. 자동 베이지안 공분산 발견(Automatic Bayesian Covariance Discovery) 또는 심층 커널 방법론은 자동으로 선택된 커널이 데이터를 모델링 하는데에 좋은 성능을 이끌어낸다는 것을 보여주었다. 하지만, 이러한 방법에는 몇가지 제한 사항이 있었으며, 또한 선택된 커널을 뒷바팅 이론적 근거가 부족하였다.
따라서, 나는 커널의 범위를 제한하여 고정 커널 함수를 연구하는 데에 집중하였으며 이는 (1) 고정 커널 함수는 정상 추계적 과정이라고 하는 광범위한 확률 과정을 모델링하는 데 사용할 수 있고 (2) 고정 커널 함수는 설명할 이론적 배경을 가지고 있기 때문이다. 실제로 시계열 데이터셋, 공간-시간 데이터셋, 이미지 데이터셋, 사운드 데이터 등등을 포함한 많은 데이터셋이 내재적으로 고정 속성을 가지고 있다. 그래서 이번학위논문은 고정 커널을 효율적으로 훈련하는 방법과 고정 커널을 사용하는 복잡한 모델을 효율적으로 학습할수 있는 방법등을 집중적으로 다루었다.
이번 학위논문은 고정 커널에 대한 추론 부분과 응용 부분의 두 부분으로 구성되어있다.
추론 부분에서는 모든 고정 커널을 근사할 수 있는 스펙트럼 혼합(SM) 커널의 매개변수를 효율적으로 추정하기 위한 근사 베이지안 추론 방법을 제안하였다. 이 과정에서, 근사 절차에 대한 이론적 근거, 확률적 훈련 절차를 안정화하기 위한 샘플링 전략 및 효율적인 업데이트 규칙을 제안하였다. 검증과정에서, 제안방법이 (1) 대규모 데이터셋에 대해 효율적 학습이 가능하고, (2) 확률적 훈련을 안정화시키며, (3) 매개변수 추정에 있어 빠른 수렴으로 훈련 시간을 단축할 수 있음을 검증하였다.
응용 부분의 경우 두 가지 응용 방법론을 소개한다. 첫 번째 응용에서는 인간의 뇌 신호 및 진동 시스템 신호와 같은 시계열 시퀀스의 다양한 은닉 상태를 추정할 수있는 하이브리드 은닉 마코브 모델을 소개하고, 대규모 데이터를 효과적으로 학습할수있는 근사학습기법을 제안하였다. 후에, 제안된 추론 방식을 통해 학습된 모델이 실제 대규모 데이터에 대한 은닉 상태를 추정할 수 있음을 검증했습니다. 두 번째 응용에서는 심층신경망으로 통해 고정 프로세스를 모델링하는 베이지안 심층신경만 아키텍처를 제안하였며, 이는 주어진 데이터셋에 따른 다른 고정 커널 함수를 사용하여, 기존 프레임워크가 지니는 잠재적인 모호성 문제를 완화시켰습니다.