서지주요정보
Development of robust kernel-based learning algorithms for regression and classification problems = 회귀분석과 분류 문제를 위한 강건한 커널 학습방법의 개발
서명 / 저자 Development of robust kernel-based learning algorithms for regression and classification problems = 회귀분석과 분류 문제를 위한 강건한 커널 학습방법의 개발 / Sang-Heum Hwang.
발행사항 [대전 : 한국과학기술원, 2012].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8024494

소장위치/청구기호

학술문화관(문화관) 보존서고

DIE 12005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Regression and classification are frequently employed machine learning tasks to estimate the underlying functional relationship between input and output variables in a data set. In many practical applications, the underlying functional relationship may be highly nonlinear, and kernel-based methods have appeared and assumed a central role in machine learning area for exploring such nonlinearities effectively. Most of the existing kernel-based learning algorithms have been developed under the assumption that a given data set consists of observations independently taken from the same distribution. Consequently, the results of such algorithms are highly sensitive to the outliers in a data set. To provide reliable results even if a given data set contains outlying observations, robust learning algorithms for regression and classification are developed in this thesis in the kernel framework. For regression, a new robust kernel-based regression algorithm is developed in the first study. The proposed method utilizes a weighting scheme based on the hat matrix similar to the generalized M-estimator of conventional robust linear regression. The diagonal elements of the hat matrix in the kernel-induced feature space are used as leverage measures to reduce the effects of outliers. Computational results from simulated examples and real data sets show the robustness of the proposed method compared to the existing approaches. Another kernel-based regression method insensitive to outliers is developed in the second study based on the relevance vector machine (RVM) with a weighting strategy. The proposed method has several advantages in that it provides statistical intervals and requires no validation data set. A semiconductor plasma etching process is used as a case study to compare the predictive performance of the proposed method with that of other regression methods. Experimental results demonstrate that the proposed method can be used for the purpose of predicting the quality characteristics of wafers more effectively than the existing approaches. For classification, a robust learning algorithm based on the RVM combined with probabilistic weights is developed. Given a prior distribution of weights, the weight values are determined in a probabilistic way and computed automatically during training. To verify the robustness of the proposed method, it is shown that the effect of an outlier is bounded through the probabilistic weights. In addition, computational experiments are conducted using various data sets. From the computational results, it is observed that the proposed method gives consistently stable prediction results even if data sets are contaminated by outliers.

회귀분석과 분류 문제는 자주 접하게 되는 기계 학습 분야의 문제들이다. 이 문제들은 수집된 데이터로부터 입력 변수와 출력 변수간의 함수 관계를 추정하는 것을 목적으로 한다. 많은 실제 사례에서 그 함수 관계는 상당한 수준의 비선형성을 가지고 있고, 이러한 비선형성을 효율적으로 탐색하기 위하여 최근 기계 학습 분야에서 커널 학습방법이 활용되고 있다. 기존의 커널 학습방법들은 수집된 데이터가 단일 결합 분포로부터 독립적으로 추출되었다는 가정을 바탕으로 설계되었다. 이러한 이유로 데이터에 이상치가 포함되어 있는 경우, 기존의 방법으로 추정된 함수는 신뢰할 수 없다. 본 논문에서는 데이터가 이상치를 포함하고 있는 경우에도 신뢰할 수 있는 추정 결과를 주는 강건한 커널 학습방법들을 개발하였다. 기존의 강건 회귀분석 기법인 GM-estimator를 커널 학습방법으로 확장한 새로운 강건한 커널 학습방법을 개발하였다. 입력 변수 공간상에 존재하는 이상치의 영향력을 제한하기 위해 커널 함수로 특징지어 지는 사상 공간에서의 모자 행렬의 대각 값을 이용하였다. 개발된 방법의 강건성을 보이기 위해 시뮬레이션 데이터와 실제 데이터를 통해 기존 커널 학습방법과 비교하였다. 또한, 기존 커널 학습방법의 하나인 렐러번스 벡터 머신 (relevance vector machine, RVM) 을 기반으로 가중치 접근방법을 이용하여 회귀분석 문제를 위한 새로운 강건 커널 학습방법을 개발하였다. 개발된 방법은 신뢰구간과 예측구간에 관한 정보를 제공하고, 모형을 평가하기 위한 평가 데이터가 필요하지 않다는 장점을 가진다. 개발된 방법은 실제 반도체 공정 데이터를 이용하여 그 효용성을 입증하였다. 실험 결과를 통해, 개발된 방법은 기존 방법들에 비해 웨이퍼의 성능 특성치를 예측하는데 있어서 더 적합함을 보였다. 또한, 확률적 가중치를 이용하여 분류 문제를 위한 RVM 기반의 강건한 커널 학습방법을 개발하였다. 가중치의 사전 확률 분포를 가정한 후 모델 학습 과정에서 이 가중치 값을 자동적으로 결정하였다. 개발된 방법에서 사용된 가중치 방법은 손실 함수의 상한 값을 제한함으로써 이상치의 영향력을 제한한다는 것을 보였다. 추가적으로 다수의 데이터를 이용한 실험을 통하여, 개발된 방법이 학습 데이터가 이상치를 포함하는 상황 하에서도 좋은 예측 성능을 보인다는 것을 확인하였다. 실제 응용 사례에서 수집되는 데이터는 다양한 형태의 이상치를 포함할 가능성이 높으므로 본 논문에서 개발된 강건한 커널 학습방법들은 실제 응용 사례의 데이터에 내재된 함수 관계를 추정하는데 기여하리라 기대된다

서지기타정보

서지기타정보
청구기호 {DIE 12005
형태사항 viii, 136 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 황상흠
지도교수의 영문표기 : Bong-Jin Yum
지도교수의 한글표기 : 염봉진
Including Appendix : 1, The diagonal element of a hat matrix in the feature space - 2, Proof of proposition 2.1 - 3, Proof of Proposition 2.2 - 4, Derivation of eq. (2.6) - 5, Proof of proposition 2.3 - 6, Derivation of the estimates of training response values in section 2.3.4 - 7, Derivation of the approximated predictive distribution in section 3.2.5 - 8, Proof of proposition 4.1 - 9, Proof of proposition 4.2
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 126-134
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서