서지주요정보
Data association and feature selection with Gaussian processes = 가우시안 확률과정을 이용한 자료연관 기법과 특성 선택 기법
서명 / 저자 Data association and feature selection with Gaussian processes = 가우시안 확률과정을 이용한 자료연관 기법과 특성 선택 기법 / Younghwan Jeon.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039535

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DMAS 22015

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Gaussian process (GP) has been widely used in supervised learning as a prior process to directly estimate a hidden and complicated relation between input and output. Due to this ability of GP, it is recently applied in several areas of data analysis and machine learning, including data association and feature selection. In this proposal we propose new methods with GPs for data association and feature selection. As the goal of data association is separating observations from different sources, we propose a Bayesian approach based on a mixture of GPs having two key components, the assignment probabilities and the GPs. In the proposed approach, the two key components are simultaneously updated according to observations through an efficient Expectation-Maximization (EM) algorithm that we newly develop. The proposed approach is thus more adaptive to the observations than the existing GP based approaches. We also provide a theoretical analysis to show the effectiveness of the Bayesian update in the proposed approach. Next, we examine a recently proposed feature selection method that measures the feature relevance by estimating dissimilarity between the predictive distributions of GP at a training sample and its perturbed sample by a small amount. However, this existing method with GP suffers from the scalability problem and hence needs refinement for its applicability to large data sets. Moreover, it uses the Kullback-Leibler (KL) divergence in sensitivity analysis for feature selection, but we theoretically show that the KL divergence under-estimates the relevance of important features in some cases of classification. Hence we propose a new method with GP to remedy such limitations of the existing method for better feature selection. Throughout experiments with synthetic and real data sets we show that the proposed methods outperform the existing methods.

가우시안 확률과정은 입력 값과 출력 값 사이의 복잡하고 숨은 관계를 추정하기 위한 사전 모델로 지도 학습에 사용되고있다. 최근에는 자료 연관 문제 와 특성 선택을 비롯한 다양한 데이터 분석에도 활용된다. 본 논문에서는 두 문제들을 해결하기위해 가우시안 확률과정을 활용한 방법들을 제안한다. 서로 다른 출처로부터 생성된 관측 값들을 구분하는 것이 자료 연관 문제의 주요 목표이기 때문에, 이를 해결하기 위해 가우시안 확률과정의 혼합 모델과 할당 확률로 구성된 베이지안 방법을 제안한다. 위의 두가지 구성 요소들은 본 연구에서 개발한 효과적인 기댓값-최대화 알고리즘을 통해 동시에 업데이트 된다. 따라서 제안된 방법은 기존의 가우시안 확률과정 기반의 방법들 보다 관측 값에 적응적이며, 이를 이론적으로 분석 한다. 다음으로 각 학습 샘플과 교란된 샘플에서의 가우시안 확률과정의 사후 예측 분포의 차이를 계산하여 각 특성의 관련성을 측정하는 최신 특성 선택 방법을 다루고자 한다. 그러나, 쿨백-라이블러 발산을 기반으로 한 해당 방법은 확장성 문제로 인해 큰 데이터셋에는 적용하기 힘들고, 쿨백-라이블러 발산의 경우 일부 분류 문제에 대해서 중요할 수 있는 특성을 간과하는 문제점이 있다. 따라서, 위 두가지 문제점을 개선하는 새로운 특성 선택 방법을 제안한다.

서지기타정보

서지기타정보
청구기호 {DMAS 22015
형태사항 v, 54 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 전영환
지도교수의 영문표기 : Ganguk Hwang
지도교수의 한글표기 : 황강욱
수록잡지명 : "Bayesian mixture of gaussian processes for data association problem". Pattern Recognition, Volume 127, 108592, (2022)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 수리과학과,
서지주기 References : p. 48-52
주제 Gaussian process
data association
feature selection
Bayesian model
variational inference
가우시안 확률과정
자료연관 기법
특성 선택 기법
베이지안 모델
변분 추론
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서