서지주요정보
Learning a discriminative histogram representation for histogram intersection kernel (HIK) = 히스토그램 교차 커널을 위한 분별력 있는 히스토그램 표현 학습
서명 / 저자 Learning a discriminative histogram representation for histogram intersection kernel (HIK) = 히스토그램 교차 커널을 위한 분별력 있는 히스토그램 표현 학습 / Seung-Ryul Baek.
저자명 Baek, Seung-Ryul ; 백승렬
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022660

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 11047

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

This thesis studies a method to increase the performance of the image categorization based on the bag-of-visual words (BOV) model. The BOV model represents images as histograms of visual-words describing only their appearance while ignoring their spatial structure, and these histograms are classified based on the classification algorithm such as latent dirichlet allocation (LDA), probablistic latent semantic allocation (pLSA), or support vector machines (SVM). SVM using kernel functions are known to be the state-of-the-art classifier for the BOV model. Recently, the histogram intersection kernel (HIK) is introduced and known to be relatively faster and performs better for histogram features than other popular kernels. Currently, the HIK-based classifier such as intersection kernel SVM (IKSVM) is widely used for image recognition and classification tasks. The performance of the image categorization based on the BOV model mainly depends on the histogram representation and the classification algorithm. The focus of this paper is on the former. The objective of this thesis is learning a discriminative histogram representation for widely used histogram intersection kernel (HIK). The histogram feature space is modeled as the multivariate Gaussian distribution and we propose a learning criterion which can obtain a discriminative histogram representation by increasing inter-class distances of histogram features while decreasing intra-class distances of histogram features. The learning criterion is formulated as the linear programming (LP) problem, which can be optimized by the conventional linear programming solver. The original formulation are successful for binary or ternary classification problem, however, often fails to find the feasible solution and cannot complete the classification process for large database. So, we map histogram feature space into higher dimensional space by incorporating generalized HIK and exponential formulation is obtained. We show that the proposed algorithm lead to more discriminant histogram representation than the previous one[34] by experiments. We tested the exponential formulation on two well-known datasets: Caltech 101 database and 8 class sports event database and tested the original formulation on Caltech 101 database and ETH-80 database. The experimental results show that the proposed histogram representation consistently outperforms the previous one[34] based on the Kmeans or HIK clustering.

영상 단어 군집 모델 (Bag-of-visual words) 모델을 사용한 이미지 분류 작업은 최근에 많이 사용되고 있다. 이 모델은 문서를 주요 단어의 히스토그램으로 나타내는 단어 군집 (bag-of-words) 모델을 전신으로 하며,이미지 분류 작업에 사용하기 위해 이미지를 공간적인 관계는 무시한채,생김새를 묘사한 영상단어의 히스토그램으로 나타낸다. 이미지를 영상단어의 히스토그램으로 나타낸 후,이 히스토 그램들을 클래스에 따라 분류하기 위해 probabilistic latent semantic analysis (pLSA),latent dirichlet allocation (LDA), support vector machine (SVM)과 같은 분류 알고리즘이 사용된다. 커널 함수를 사용한 SVM 분류 알고리즘이 성능면에서는 우수하다고 알려져 있으며,최근에 히스토그램 교차 커널 (histogram intersection kernel)을 사용한 SVM이 제안되고,성능과속도면에서 다른 커널보다 우수함이 증명되어 최근의 이미지 분류,인식 작업에 많이 사용되고 있다. 영상 단어 군집 모델의 분류 작업 성능은 히스토그램 표현을 어떻게 하느냐와 분류 알고리즘의 성능에 의해 대부분 영향을 받는다. 본 논문의 목표는 히스토그램 표현을 어떻게 하느냐에 맞추어져 있으며,최근 많이 사용되는 히스토그램 교차 커널을 사용한분류기의 성능을 높이기 위한 분별력 있는 히스토그램 표현 방법을 학습하는 것이 본 논문의 목표이다. 이미지를 영상단어의 히스토그램으로 나타낸 후,이 히스토그램 특징벡터들을 클래스별로 다차원 가우시안 분포로 모델링하였다. 그리고 공간에서 같은 클래스끼리의 거리는 줄이고,다른 클래스 사이의 거리는 늘리는 학습 기준을 제안하였으며,같은 클래스사이의 거리는 클래스의 평균 히스토그램과 각각의 히스토그램 사이의 거리로,다른 클래스 사이의 거리는 두 클래스의 평균 히스토그램 사이의 거리로 정의하였다. 이 때,거리 측정은 1 놈 거리 (Z1-distance)를 사용했으며,분별력 있는 히스토그램 표현을 위한 변형 방법으로 리웨이팅 방식 (re-weighting scheme)을 사용하였다. 1놈 거리가 히스토그램 교차 커널과 직접적으로 관련되는 거리 측정 방식이고,히스토그램 교차 커널이 실제 인식에서 비슷함을 측정하는 조치로 사용되어 인식률에 영향을 미치기 때문이다. 리웨이팅 방식은 히스토그램의 각각의 코드워드에서 1놈 거리에 미치는 영향력을 제어함으로써,적절한 변형방식이 될 수 있다. 본 논문이 제안하는 학습 기준을 선형계획 문제 (linear programming problem) 로 수식화하였다. 하지만 이런 기준은 클래스가 2개나 3개 존재하는 작은 데이터셋에서는 충분히 효율적으로 동작하였지만,큰 데이터셋을 사용한 실험에는 적절한 해답을 찾지 못하였다. 이것을 해결하기 위해 일반적인 히스토그램 교차 커널 (generalized HIK)을 도입하여 좀 더 높은 차원의 공간으로 히스토그램 특징 벡터들을 매핑하여 새로운 수식을 얻었다. 새로운 수식을 잘 알려진 Caltech 101 databse와 8 class sports event database에 대해 실험하였고,원래 수식을 Caltech 101 database와 ETH-80 database의 몇가지 클래스에 대해 실험하였다. HIK kernel을 사용한 K-means 알고리즘으로 히스토그램 표현을 만드는 방식[34]과의 비교를 통해 제안된 알고리즘이 좀 더 분별력 있는 히스토그램 표현 방식으로 이끈다는 것을 증명하였다.

서지기타정보

서지기타정보
청구기호 {MEE 11047
형태사항 vi, 42p : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 백승렬
지도교수의 영문표기 : Chang-Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기 및 전자공학과,
서지주기 References : p. 38-40
주제 object recognition
bag of words model
computer vision
machine learning
image categorization
물체인식
단어군집모델
컴퓨터 시각
기계학습
이미지분류
QR CODE qr code