서지주요정보
(A) co-classification framework for transfer learning using a semi-supervised topic model = 반감독 토픽 모델을 이용한 전달 학습 기법의 동시 분류 프레임워크
서명 / 저자 (A) co-classification framework for transfer learning using a semi-supervised topic model = 반감독 토픽 모델을 이용한 전달 학습 기법의 동시 분류 프레임워크 / Sung-Rack Yun.
발행사항 [대전 : 한국과학기술원, 2012].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8023208

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 12003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis considers a co-classification framework using the hidden sub-state probabilistic latent semantic analysis (HS-pLSA) for cross-domain transfer learning. Traditional machine learning algorithms are not able to accurately classify the unlabeled testing data from new information sources which have the different data distribution from the learning data. Re-training of the previously-obtained model by labeling of new data is expensive and time-consuming work. In this case, the transfer learning is effective: using the previously-obtained labeled data which are different but related to the new testing data, the common knowledge between the labeled data and unlabeled data is obtained to classify the new testing data. For cross-domain transfer learning, various approaches, e.g. tri-factorization-based classification framework, cluster correspondence inference, topic-bridged pLSA, were proposed. However, they do not accurately describe the statistical variations of the data given a category. The proposed model, HS-pLSA, is considered for transfer learning to accurately describe the statistical variations in the data by introducing a hidden random variable. The model uses a word probability for each hidden sub-state and is able to describe the data from multiple sub-categories using a mixture of word probabilities. In the previous algorithms using the pLSA and its variants, the parameter set is obtained using the expectation-maximization which may lead to the over-fitting problem when the number of learning data is not sufficient. For this reason, this thesis considers a learning algorithm which is directly related to the testing criterion by incorporating the max-margin principle which leads to good generalization ability. The learning criterion is maximizing an objective function under a set of nonlinear constraints which are required for the properties of the model. The objective function is the sum of a generative function and discriminant function: the generative function is the likelihood of the unlabeled testing data set, and the discriminant function is the separation margin of the labeled learning data set. By maximizing the objective function, the separation margin of the learning data set and also the likelihood of the testing data set are maximized. The trade-off between maximization of two functions is controlled by a fixed constant. Learning and testing are performed in a single framework, and the knowledge obtained from the discriminant function is transferred to the generative function in this co-classification framework. The nonlinear constraints in the learning criterion require a nonlinear optimizer, and for this, the interior point optimizer (IPOPT) is utilized. The HS-pLSA is applied to the transfer learning tasks using the following databases: 20Newsgroup, Reuters, Caltech-101, and the sketch images which were collected from the Google`s image search. The experimental results show that the considered approach yields better performance than the previous transfer learning approaches.

본 학위논문에서는 은닉 하부 상태가 접목된 확률적 은닉 의미 분석 모델 (hidden sub-state probabilistic latent semantic analysis, HS-pLSA)을 이용한 전달 학습 기법의 동시 분류 프레임워크를 제안하고자 한다. 기존의 기계 학습 알고리즘에서는, 새로운 정보 소스로부터 오는 테스트 데이터, 즉 학습 데이터와 다른 통계적 분포를 따르는 데이터가 주어졌을 경우에는 그 분류 성능이 좋지 못하였다. 이를 해결하는 한 가지 방법으로서, 새로운 정보 소스로부터 오는 데이터에 레이블 정보를 추가하여 기존 모델을 재학습하여 사용할 수도 있지만, 레이블 정보를 새로 추가한다는 것은 매우 번거로운 일이며 시간도 많이 들게 된다. 이러한 경우 전달 학습이 매우 유용하다. 전달학습에서는, 새로운 테스트 데이터와 다른 통계적 분포를 따르지만, 연관 되어 있는 레이블 된 데이터를 사용하여, 두 데이터 사이의 공통 지식을 뽑아내어 이를 분류에 사용한다. 따라서, 레이블을 새로이 추가할 필요가 없다는 장점이 있다. 전달 학습 기법으로, tri-factorization-based classification framework, cluster correspondence inference, topic-bridged pLSA 등이 제안되었다. 그러나 이들 방법은 어떤 한 카테고리 내의 데이터의 통계적 변화를 정확히 묘사할 수 없다는 단점이 있다. 제안한 HS-pLSA 모델에서는 은닉 랜덤 변수를 사용하여 한 카테고리 내의 데이터를 여러 개의 분포의 결합으로 표현함으로써, 그 통계적 변화를 정확히 묘사 가능하다. 기존의 pLSA 및 그 변형 모델들의 학습에 있어서는 추정-최대(expectation-maximization, EM) 학습기법이 많이 사용되어 왔다. 하지만 EM 학습 기법은 학습 데이터 개수가 충분치 못한 경우 과적합 문제가 일어난다는 단점이 있다. 이 학위 논문에서는 분류 기준과 직접적으로 연관된 최대 마진 원리를 적용한 새로운 학습 알고리즘을 제안하여 그 문제점을 해결하고자 한다. 제안한 학습 기준은 비선형 조건이 들어가 있는 목적 함수를 최대화 하는 것인데, 그 목적함수는 변별력 함수와 발생 함수로 구성되어 있다. 발생 함수는 레이블이 없는 테스트 데이터의 우도(likelihood)이며, 변별력 함수는 레이블이 있는 학습 데이터의 분류 마진이다. 목적함수를 최대화 함으로써, 테스트 데이터의 우도를 최대화 하는 동시에 학습 데이터의 분류 마진을 최대화 하게 된다. 이 두 함수의 최대화는 미리 정해둔 상수에 의해 그 균형이 조정된다. 이렇게 학습과 분류를 하나의 프레임워크에서 하게 됨으로써, 변별력 함수에서 얻어진 지식이 발생 함수로 전달되게 된다. 제안된 학습 방법은 비선형 조건 때문에 Interior Point OPtimizer (IPOPT)라는 비선형 최적화 프로그램을 사용하였다. 제안한 HS-pLSA는 20Newsgroup, Reuters, Caltech-101, 그리고 Google 그림 검색기로부터 수집한 스케치 데이터를 이용하여 전달 학습 실험에 적용하여 보았다. 실험 결과로부터 제안한 방법은 다른 전달 학습 기법에 비해 우수한 성능을 나타냄을 알 수 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 12003
형태사항 vii, 62 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤성락
지도교수의 영문표기 : Chang-Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 References : p.53-57
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서