Gaussian process (GP) has been widely used in supervised learning as a prior process to directly estimate a hidden and complicated relation between input and output. Due to this ability of GP, it is recently applied in several areas of data analysis and machine learning, including data association and feature selection. In this proposal we propose new methods with GPs for data association and feature selection.
As the goal of data association is separating observations from different sources, we propose a Bayesian approach based on a mixture of GPs having two key components, the assignment probabilities and the GPs. In the proposed approach, the two key components are simultaneously updated according to observations through an efficient Expectation-Maximization (EM) algorithm that we newly develop. The proposed approach is thus more adaptive to the observations than the existing GP based approaches. We also provide a theoretical analysis to show the effectiveness of the Bayesian update in the proposed approach.
Next, we examine a recently proposed feature selection method that measures the feature relevance by estimating dissimilarity between the predictive distributions of GP at a training sample and its perturbed sample by a small amount. However, this existing method with GP suffers from the scalability problem and hence needs refinement for its applicability to large data sets. Moreover, it uses the Kullback-Leibler (KL) divergence in sensitivity analysis for feature selection, but we theoretically show that the KL divergence under-estimates the relevance of important features in some cases of classification. Hence we propose a new method with GP to remedy such limitations of the existing method for better feature selection. Throughout experiments with synthetic and real data sets we show that the proposed methods outperform the existing methods.
가우시안 확률과정은 입력 값과 출력 값 사이의 복잡하고 숨은 관계를 추정하기 위한 사전 모델로 지도 학습에 사용되고있다. 최근에는 자료 연관 문제 와 특성 선택을 비롯한 다양한 데이터 분석에도 활용된다. 본 논문에서는 두 문제들을 해결하기위해 가우시안 확률과정을 활용한 방법들을 제안한다.
서로 다른 출처로부터 생성된 관측 값들을 구분하는 것이 자료 연관 문제의 주요 목표이기 때문에, 이를 해결하기 위해 가우시안 확률과정의 혼합 모델과 할당 확률로 구성된 베이지안 방법을 제안한다. 위의 두가지 구성 요소들은 본 연구에서 개발한 효과적인 기댓값-최대화 알고리즘을 통해 동시에 업데이트 된다. 따라서 제안된 방법은 기존의 가우시안 확률과정 기반의 방법들 보다 관측 값에 적응적이며, 이를 이론적으로 분석 한다.
다음으로 각 학습 샘플과 교란된 샘플에서의 가우시안 확률과정의 사후 예측 분포의 차이를 계산하여 각 특성의 관련성을 측정하는 최신 특성 선택 방법을 다루고자 한다. 그러나, 쿨백-라이블러 발산을 기반으로 한 해당 방법은 확장성 문제로 인해 큰 데이터셋에는 적용하기 힘들고, 쿨백-라이블러 발산의 경우 일부 분류 문제에 대해서 중요할 수 있는 특성을 간과하는 문제점이 있다. 따라서, 위 두가지 문제점을 개선하는 새로운 특성 선택 방법을 제안한다.