서지주요정보
A hybrid bags-of-feature model for sports scene classification = 하이브리드 특징 벡터 사전 모델에 기반한 스포츠 영상 분류
서명 / 저자 A hybrid bags-of-feature model for sports scene classification = 하이브리드 특징 벡터 사전 모델에 기반한 스포츠 영상 분류 / Dong-Jin Park.
저자명 Park, Dong-Jin ; 박동진
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8024692

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 13040

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In this thesis, we propose an effective framework for sports scene classification by using a Hybrid Bags-of-Feature model. The Bag-of-Feature (BoF) model is a methodology which represents an image based on the histogram of visual codewords. With its successful performance, the BoF model has been widely exploited in computer vision such as scene classification and object recognition. Unlike traditional BoF models which resort to a single feature descriptor such as SIFT and thus exploit a single codebook, the proposed Hybrid BoF model employs two different types of codebooks; SIFT feature and modified LBP feature. The LBP descriptor is capable of capturing micro patterns of the image, hence it is suitable for texture classification. In contrast, Gradient based feature descriptors such as SIFT have been proven to be effective for object recognition. By taking advantage of properties of both SIFT and LBP, the proposed method improves the classification accuracy for sports scene. To this end, we design the hybrid type of BoF framework which encodes foreground objects (i.e., players) and background separately. More specifically, foreground objects (or regions containing distinct silhouettes) are encoded based on the SIFT descriptor and the remaining regions such as sky, lawn or floor of the gymnasium are encoded based on the LBP descriptor. To build a criterion for descriptor selection, we introduce a saliency pyramid based on the Phase Fourier Transform (PFT). The proposed method has been extensively tested, and experimental results show that the proposed framework is effective for sports scene classification compared to other various state-of-the-art methods.

최근 디지털 카메라 및 스마트 폰의 보급으로 누구나 손쉽게 디지털 영상을 생성할 수 있게 되었을 뿐만 아니라 인터넷의 발달로 필요로 하는 영상들을 큰 노력 없이도 검색하고 수집 할 수 있게 되었다. 이렇게 생성되고 수집된 방대한 양의 영상 정보로부터 필요한 영상을 검색하고 조직화하기 위하여 내용 기반의 영상 검색 및 영상의 자동 주석 생성 시스템에 대한 관심이 급증하고 있으며, 이러한 시스템을 효율적으로 구성하기 위하여 자동 영상 분류 알고리즘에 대한 연구 또한 활발히 이루어지고 있다. 하지만, 대부분의 기존 연구들은 자연 영상 분류에 초점을 맞추고 있다. 반면, 스포츠 영상은 우리 주변에서 가장 흔히 접할 수 있는 영상에도 불구하고, 이에 맞추어진 연구들은 많이 이루어지고 있지 않은 실정이다. 스포츠 영상을 분류하기 위해서는 스포츠 경기의 주요 행위자와 그 행위가 일어나는 배경에 대한 복합적인 인식을 하여야 정확한 분류가 가능하므로 기존의 일반적인 자연 영상 분류 알고리즘을 적용하기에는 한계가 있다. 이러한 주요 객체와 배경으로 이루어진 스포츠 영상의 특징을 적극적으로 활용하기 위하여, 우리는 하이브리드 형태의 시각 사전 생성 기법을 제안한다. 시각 사전 모델은 최근 활발히 연구가 이루어지고 있는 영상 분류 및 객체 인식 방법론이다. 이 방법은 영상 내 존재하는 특징들을 시각단어로 부호화하고 이들에 대해 군집화를 수행하여 대표 단어로 이루어진 시각사전을 생성한다. 이를 기반으로 하여 영상 내 존재하는 시각 단어들의 발생 빈도수를 특징벡터로 생성하여 학습을 하고 영상을 분류하는 프레임워크로 이루어져 있다. 본 논문에서는 기존 단일 특징 기술자를 사용하여 하나의 시각사전을 생성하던 방법과 달리, SIFT기술자와 LBP기술자로 이루어진 두개의 시각사전을 가지는 하이브리드 시각사전 접근법을 제안한다. SIFT 기술자는 강한 실루엣을 가지는 객체 인식 및 검출에 적합하며, LBP 기술자는 영상의 질감 분류에 뛰어난 성능을 나타내는 것으로 잘 알려져 있어 배경을 인식하는데 적합하다. 제안하는 방법에서는, 이러한 두 가지의 특징벡터를 적응적으로 사용하여 영상 내 주요 객체 및 강한 실루엣을 가지는 영역에 대해 SIFT기술자를 사용하고 나머지 영역에 대해서는 LBP기술자를 사용한다. 두 시각 기술자를 선택하기 위한 기준을 위하여 우리는 위상 푸리에 변환 관심영역 생성방법을 사용한다. 위상 푸리에 변환 관심영역 생성방법은 주파수 관점에서 가장 많은 정보를 가진 영역을 관심영역으로 나타내며, 실험적으로 영상 내 존재하는 전경 객체 또는 강한 실루엣을 가지는 물체를 관심영역으로 나타낸다. 다양한 크기의 객체에 대해 대응 할 수 있도록 다중 스케일 공간에서 관심영역 피라미드를 생성한다. 이렇게 생성된 관심영역을 참조하여 선택적으로 시각기술자를 적용한다. 각 패치 단위로 추출된 SIFT 특징 벡터와 LBP 특징 벡터에 대하여 개별적으로 군집화를 수행하여 두개의 시각사전을 생성하고 이를 바탕으로 학습과 분류를 수행한다. 다양한 영상 데이터베이스에서 실험을 통하여 기존 단일 시각사전을 사용하여 영상을 분류하는 것 보다 뛰어난 성능을 나타내는 것을 확인하였다. 또한 스포츠 영상뿐만 아니라 자연영상에 대해서도 추가적인 실험을 수행하여 다양한 환경에서 뛰어난 영상 분류 능력을 나타내는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MEE 13040
형태사항 vi, 50 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박동진
지도교수의 영문표기 : Chang-Ick Kim
지도교수의 한글표기 : 김창익
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기 References : p. 41-45
주제 scene classification
sports scene
bag-of-feature
hybrid bags-of-feature
saliency pyramid
영상 분류
스포츠 영상
시각 사전
하이브리드 시각 사전
관심영역 피라미드
QR CODE qr code