한국과학기술원 도서관

서지주요정보
Active learning using uncertainty measure based on class probability output network = 클래스 확률 출력망에 기초한 불확실성 측도를 이용한 능동 학습 연구
서명 / 저자	Active learning using uncertainty measure based on class probability output network = 클래스 확률 출력망에 기초한 불확실성 측도를 이용한 능동 학습 연구 / Ho-Gyeong Kim.
발행사항	[대전 : 한국과학기술원, 2012].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8023282

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 12038

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Labeling the data to create a training set is time-consuming and costly. Most ma-chine learning algorithms use a randomly selected training set. Active learning helps a learner choose essential training data or queries from the pool, thereby reducing the cost and the time needed for the machine training. For obtaining examples which give us much information, we can choose it selective-ly which may be helpful to improve the performance of a classifier. We call this method as selective sampling and it is an essential component of active learning in which the learning algorithm has the control over the selection of examples for the future training. In this se-lective sampling, the essential component is to define the uncertainty measure. For the un-certainty of a pattern, the better way may be describing the conditional class probability for the given pattern. Furthermore, the confidence interval for the conditional class probability is also an important measure to describe the ambiguity of the decision of the class. This method provides a good measure of uncertainty for the selective sampling in active learning. To show the effectiveness of the proposed uncertainty measure, we compared the recognition performances of several sampling methods and those of the proposed method for several classification problems. The relationship between the uncertainty measure and recognition rate was also investigated.

선택적 추출 방법은 무작위 추출 방법의 대안이 될 수 있다. 실제로 많은 분류 또는 회귀 분석의 경우에서 기계를 학습시키기 위해 라벨을 붙이는 작업은 많은 비용을 초래할 수 있다. 이러한 경우, 학습할 자료 수를 줄이면서 좋은 성능의 분류기를 얻기 위한 자료들의 추출은 매우 중요하다. 선택적 추출은 분류기의 성능을 향상 시키는데 도움을 줄 수 있으며, 그것은 또한 능동학습에서 중요한 역할을 담당한다. 능동학습이란 학습할 자료를 선택적으로 골라 학습 시 사용하는 것을 말하며, 따라서 이는 일반 수동학습에 비해 높은 성능을 낼 수 있다. 선택적 추출 방법에 있어 필수적인 방법 중 하나가 바로 불확실성을 나타내는 측도를 이용하는 것이며, 그것은 주어진 자료가 있을 때 분류기의 결과가 얼마나 불확실한지를 나타내는 것으로 생각할 수 있다. 만약 주어진 자료의 분류 결과가 확실히 믿을 만하다면, 우리는 더 이상 그 자료에 대해 고려하지 않아도 된다. 그러나 만약 주어진 자료의 분류 결과가 불확실한 경우, 우리는 그 자료를 분류기를 만들기 위한 다음 학습에 써야 할 필요가 있다. 이러한 방법으로 선택적 추출 방법이 고안되었다. 클래스 정보가 불확실한 자료인지를 판단하는 것은 조건부 확률을 이용함으로써 알 수 있다. 이를 위해 Support Vector Machine (SVM) 의 출력 값을 beta분포 함수로 추정하는 Class Probability Output Network (CPON)을 사용하였다. 이러한 모델링을 이용하여 추정된 통계적 변수들에 대한 확신구간이 사용될 수 있다. 분류를 위한 이 확신구간 레벨이 불확실성 척도가 되며, 이와 같은 방법으로 얼마나 분류기의 결과가 확실한지를 나타내 줄 수 있다. 주어진 자료에 대한 조건부 확률을 추정하여 분류하는 방법은 분류기의 성능 향상에 있어 효과적인 방법이다. 그러나 실제로는 학습할 자료의 개수가 적은 경우 추정된 조건부 확률은 부정확할 수 있으며, 또한 불확실성을 내포하고 있을 수 있다. 이러한 경우 불확실성을 측정하는 것은 더 나은 분류 결과를 만들어 낼 수 있으며, 더 나아가 능동학습에 사용되는 선택적 추출에 도움을 줄 수 있다. 불확실성 측정은 분류기의 출력인 추정된 조건부 확률과 가설검증을 이용해 구할 수 있다. 측정된 불확실성 값은 0과 0.5 사이의 값으로 나타내 질 수 있으며, 그 값이 0에 가까울수록 자료의 클래스 정보가 확실하며, 0.5에 가까울수록 어떤 클래스에 속할지에 대한 정보가 불확실하다고 간주 된다. 위의 제안하는 불확실성 측도를 이용한 능동학습법을 두 개의 클래스를 포함하는 여러 자료 세트에 대해 실험해 보았다. 이에 무작위 추출법과 앞서 설명한 현재의 학습된 분류 경계선으로부터의 거리를 계산해 가장 가까운 것을 고르는 추출법을 추가로 비교 실험하였다. 우선적으로 2차원의 간단한 데이터에 대해 제안하는 추출법이 잘 동작함을 보이고 난 후, 음성 데이터를 이용하여 다시 한번 증명하였다. 위와 같은 실험들을 통하여 1) 좀 더 복잡한 문제에서는 무작위 추출법에 의한 학습보다 선택적 추출에 의한 능동학습이 더 잘 동작함을 알 수 있었고, 2) CPON을 사용한 능동 학습 시에는 초기 데이터의 개수가 어느 정도 확보되어야만 그 효용이 있음을 확인하였다. 이러한 결과를 통해 우리는 제안하는 불확실성 측도를 이용한 선택적 추출법이 다른 추출법에 비해서 높은 성능을 나타냄을 보였고, 또한 그 측도는 능동학습에 쉽게 적용될 수 있음을 확인하였다. 더욱이 제안하는 불확실성 측도는 추정된 확률이 얼마나 불확실한지 또는 그 반대로 확실한지를 나타내주는 척도로 사용할 수 있으며, 이것은 CPON이 아닌 다른 어떤 확률 출력 분류기 등에도 사용될 수 있음을 의미한다.

서지기타정보

서지기타정보
청구기호	{MEE 12038
형태사항	vii, 56 p. : 삽화 ; 30 cm
언어	영어
일반주기	저자명의 한글표기 : 김호경 지도교수의 영문표기 : Soo-Young Lee 지도교수의 한글표기 : 이수영
학위논문	학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기	References : p.51-52

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서