서지주요정보
Accuracy improving methods for content-based image searches in large multimedia databases = 대용량 멀티미디어 데이터베이스 상에서 내용-기반 이미지 검색의 정확도 향상 연구
서명 / 저자 Accuracy improving methods for content-based image searches in large multimedia databases = 대용량 멀티미디어 데이터베이스 상에서 내용-기반 이미지 검색의 정확도 향상 연구 / Tak-Eun Kim.
저자명 Kim, Tak-Eun ; 김탁은
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8028788

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 16003

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The task of content-based image retrieval (CBIR) from a large volume of image database has recently received a great deal of attention from database community. There have been many researches to improve the accuracy and the efficiency of image retrievals. Among various issues in CBIR, the development of an accurate and compact image descriptor is the most fundamental and challenging task. Various compact image description schemes have been proposed, but most existing methods simply aggregate local descriptors into a single vector without any consideration on the importance of local descriptors. In these methods, noisy or less important local descriptors are treated equally to the important local descriptors, and there-by such compact image descriptors suffer from background clutters of an image. In this dissertation, we propose two methods to improve accuracies of content-based image retrieval on a large volume of multimedia database. In the first part of this dissertation, we propose a novel compact image descriptor that can improve the search accuracy significantly through weighted aggregation of local descriptors based on their relative importance in an image. Using saliency analysis of an image, we assign low weights to local descriptors extracted from noisy or less important region (i.e., background) of the image, whereas high weights are assigned to local descriptors extracted from salient objects. By assigning low weights to noisy or less important local descriptors, the proposed compact image descriptor alleviates the adverse effects caused by noisy descriptors, and thereby is very robust to background clutters. In the second part of this dissertation, we propose a novel multimodal query processing method, called image-keyword joint query processing, which integrates the benefits of keyword-based image retrieval with content-based image retrievals. As the two different types of queries are processed individually in the existing approaches, the final result may not contain relevant images to the query at all. To solve the problem, we propose a hybrid index structure that can process both visual and textual information simultaneously.

최근 스마트 폰, 태블릿 등 카메라가 장착된 모바일 기기의 사용이 늘어나면서 영상 데이터의 양이 급격히 증가하고 있다. 따라서 사용자가 원하는 이미지를 신속하고 정확하게 찾아줄 수 있는 이미지 검색 시스템의 필요성이 어느 때보다 강조되고 있다. 기존의 이미지 검색 시스템은 사용자가 질의 키워드를 입력하면, 질의 키워드와 연관이 있는 이미지를 검색 결과로 반환하는 방식이었다. 그러나 질의 키워드가 부정확하거나, 이미지에 질의 키워드가 태깅되어 있지 않으면 사용자가 원하는 결과를 정확하게 찾을 수 없다는 단점이 있다. 또한 처음 보는 미술 작품에 대한 부가적인 내용을 검색하고자 하는 경우처럼, 사용자가 해당 이미지에 대한 관련 지식이 없으면 키워드 질의 자체를 작성하기 어렵다는 문제점도 있다. 따라서 최근에는 이미지를 질의 그 자체로 사용하여, 질의 이미지와 시각적으로 유사한 이미지들을 검색해 주는 내용-기반 이미지 검색 기술이 활발하게 연구되고 있다. 특히 Google Goggles의 상품 검색, 미술 작품 검색, 와인 라벨 검색 등과 같은 서비스가 성공하면서 학계뿐만 아니라 산업계에서도 폭넓은 관심을 받고 있다. 내용-기반 이미지 검색은 이미지의 다양한 영상 특징 정보(예: 컬러, 엣지, 텍스쳐 등)들을 추출 및 가공하고, 이미지들 간에 이들 영상 특징 정보들의 유사도를 비교하는 과정을 통해 이루어진다. 최근 연구에서 주로 사용하는 영상 특징 정보는 SIFT나 SURF와 같은 지역 특징(local feature) 정보들로, 한 이미지로부터 수백개에서 수천개 정도가 추출된다. 신속한 검색을 위해, 추출된 지역 특징 정보들은 Bag-of-Visual-Words (BOVW) 모델로 표현되거나 VLAD 또는 Fisher Vector와 같이 단일 벡터로 축약된 형태로 재 가공된다. 이와 같이 가공된 형태를 디스크립터 (descriptor)라고 부르며, 각 이미지의 디스크립터 간 유클리드 거리 계산을 통해 이미지들 간 유사도를 수치화 하게 된다. 이미지로부터 추출된 지역 특징 정보들은 이미지 간 유사도 비교 시 기여하는 정도가 각기 다르다. 예를 들어, 서로 다른 위치에서 에펠 탑을 찍은 두 사진의 유사도를 계산한다고 하자. 한 사진의 에펠 탑은 그 일부가 나무로 가려져 있다고 하자. 이 때, 나무 영역에서 추출된 지역 특징 정보들은 두 사진 간 정확한 유사도 비교를 방해하게 되는데, 이는 크게 두 가지 이유로 설명할 수 있다. 첫째, 나무 영역에서 추출된 지역 특징 정보들이 다른 사진의 에펠 탑에서 추출된 지역 특징 정보들과 잘못 매칭될 수 있기 때문이다. 이는 곧 잘못된 유사도 계산 결과로 이어진다. 둘째, 나무 영역에서 추출된 지역 특징 정보들이 다른 사진의 에펠 탑에서 추출된 지역 특징 정보들과 매칭되지 않기 때문이다. 이 경우, 두 이미지 간 매칭되는 지역 특징 정보의 비율이 낮아지므로 두 이미지 간 유사도가 낮게 계산될 가능성이 있다. 이와 같은 문제로 인해, 나무로 그 일부가 가려진 에펠 탑 사진을 질의하면, 에펠 탑이 나타나는 이미지가 검색되는 것이 아니라 숲이나 나무가 우거진 사진이 검색 결과로 나타나는 상황이 발생하기도 한다. 이처럼 이미지 상에서 주요 오브젝트와 그 외의 영역에서 추출되는 지역 특징 정보들을 적절히 구별하여 고려하지 않으면, 두 이미지의 주요 오브젝트가 시각적으로 유사하더라도 유사도 값은 낮게 계산될 가능성이 있다. 이는 곧 내용-기반 이미지 검색 결과의 정확도 하락으로 이어진다. 현재까지 내용-기반 이미지 검색의 정확도 향상을 위해 다양한 연구들이 발표되었지만, 기 발표된 연구들 중 대부분은 앞서 논의한 문제점들을 심도 있게 다루지 않았다. 내용-기반 이미지 검색 기술은 키워드 질의 기반 이미지 검색 기술이 갖는 여러 한계점을 극복할 수 있는 방법임에는 틀림없다. 하지만, 시맨틱 정보인 키워드와는 달리 영상 특징 정보들은 저수준(low level)의 정보들이므로, 내용-기반 이미지 검색만으로 원하는 결과를 찾지 못하는 경우도 종종 발생한다. 여타 멀티미디어 데이터와는 달리 이미지의 경우 풍부한 키워드 태깅이 함께 제공된다. 따라서 키워드 질의와 이미지 질의를 함께 결합되어 이미지 검색에 사용한다면, 키워드-기반 이미지 검색 결과와 내용-기반 이미지 검색 결과의 단점을 상호 보완하여 보다 높은 정확도의 검색 결과를 얻을 수 있다. 그러나 기 발표된 연구들에서 이와 같은 멀티 모달 질의에 대한 논의는 거의 없으며, 일부 연구들에서 기초적인 내용만을 다루고 있다. 따라서 본 학위 논문에서는 이미지 검색의 정확도를 향상시키기 위해 다음 두 가지 검색 정확도 향상 기법을 제안한다. 첫째, 내용-기반 이미지 검색의 정확도를 향상시키기 위해 이미지에서 추출되는 영상 특징 정보 각각에 가중치를 부여함으로써, 이미지 배경의 노이즈에 강인한 디스크립터를 생성하는 방법을 제안한다. 제안하는 방법은 주어진 이미지에서 중요한 영역(예: 주요 오브젝트)과 덜 중요한 영역(예: 배경)을 판별한 다음, 중요한 영역에서 추출된 영상 특징 정보들에는 높은 가중치를 주고, 그 외의 영역에서 추출된 영상 특징 정보들에는 낮은 가중치를 주는 것이 핵심이다. 예를 들어, 앞서 설명한 예제에서 에펠 탑에서 추출된 영상 특징 정보들에는 높은 가중치 값을 부여하고, 나무 영역에서 추출된 영상 특징 정보들은 낮은 가중치 값을 부여하게 된다. 이를 통해 중요한 영역이 아닌 (예: 나무 영역)에서 추출된 영상 특징 정보들이 유사도 계산에 미치는 영향을 최소화하여, 이미지 간 부정확한 유사도 값이 계산될 가능성을 낮춘다. 이미지 상에서 중요한 영역과 그렇지 않은 영역을 판별하기 위해, 본 논문에서는 중요도 분석(saliency analysis)를 수행하였다. 이는 색상 선명도나 인접한 픽셀 간 색상 차이 등을 이용하며, 중요도 값은 각 픽셀 단위로 0과 1 사이의 값으로 매겨진다. 사진의 경우 주로 포커스(focus)된 오브젝트가 높은 중요도 값을 갖게 되며, 배경은 상대적으로 낮은 중요도 값을 갖게 된다. 주요 오브젝트 영역에서는 중요도 값이 균일해야 하는 것이 바람직하나, 중요도 분석 알고리즘을 통해 얻어진 값은 주요 오브젝트의 중심에서 가장 높으며, 경계 부분으로 갈수록 급격히 낮아지는 양상을 보인다. 따라서 이를 보정하기 위한 후처리 작업이 수행되어야 한다. 중요도 값 보정 과정을 통해 주요 오브젝트의 중요도 값을 거의 일정하게 유지할 수 있었고, 이는 이미지 검색의 정확도를 향상하는 데에 중요한 역할을 하였다. 상기 과정을 통해 이미지의 각 픽셀에 대해 중요도 값이 계산되면, 영상 특징 정보에 가중치 값을 부여할 수 있다. 영상 특징 정보는 이미지 상에서 추출된 좌표값을 갖고 있으므로, 해당 위치의 중요도 값을 영상 특징 정보의 가중치 값으로 사용한다. 가중치가 부여된 영상 특징 정보를 이용하여 디스크립터를 생성한 후 이미지 검색을 수행하면, 기존 연구에서 제안된 방법으로는 찾지 못했던 결과 이미지들을 성공적으로 찾아낼 수 있었다. 제안하는 두 번째 방법은 내용-기반 이미지 검색만으로는 찾지 못했던 유사 이미지들을 찾기 위해 키워드 질의를 함께 이용하는 방법이다. 키워드는 시맨틱 정보이므로, 단순히 이미지만을 질의로 사용한 경우보다 질의의 의미가 더욱 풍부하고 정확해질 수 있다. 질의의 의미가 더욱 명확해지면 검색 결과의 정확도가 향상되는 것은 자명하다. 키워드와 이미지를 함께 사용한 이미지 검색 기법은 이미 몇몇 기존 연구들에 의해 제안되었다. 그러나 본 학위 논문에서 제안하는 방법은 기존 연구들과 차별화된다. 제안하는 방법은 대용량 이미지 데이터베이스를 대상으로 한다. 대용량 이미지 데이터베이스를 대상으로 하는 경우, 성능상의 이유로 인해 질의 이미지와 데이터베이스 상에 존재하는 전체 이미지에 대한 유사도 계산을 수행하지 않는다. 따라서 기존 연구 방법과 같이 단순히 키워드 질의와 이미지 질의를 각각 처리한 다음 두 검색 결과를 조인(join)하게 되면, 두 질의 결과에 동시에 속하는 이미지가 거의 나타나지 않는다. 극단적으로는 최종 검색 결과가 공집합이 되는 상황이 발생할 수도 있다. 따라서 이와 같은 상황을 방지하기 위해, 두 종류의 질의를 함께 고려하는 새로운 색인 구조를 설계하였다. 제안하는 방법을 다양한 종류의 이미지 데이터 셋에 대해서 실험 및 평가하였다. 평가 결과, 주요 오브젝트가 다른 오브젝트에 가려진 경우나, 배경으로부터 추출되는 불필요한 영상 특징 정보들로 인해 기존 내용-기반 이미지 검색 기법들이 찾지 못했던 이미지들을 성공적으로 찾아내는 것을 확인하였다. 또한 키워드와 이미지를 함께 질의로 사용하여 검색하는 방법에서는 개별 질의를 통해서는 찾지 못했던 이미지들을 상당부분 찾아낼 수 있음을 보였다.

서지기타정보

서지기타정보
청구기호 {DCS 16003
형태사항 vii, 90 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김탁은
지도교수의 영문표기 : Myoung Ho Kim
지도교수의 한글표기 : 김명호
수록잡지명 : "Improving the Search Accuracy of the VLAD through Weighted Aggregation of Local Descriptors". Journal of Visual Communication and Image Representation, 31, pp.237-252(2015)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 77-83
주제 content-based image retrieval
saliency analysis
Joint query processing
accuracy improving
VLAD
내용-기반 이미지 검색
중요도 분석
복합 질의 처리
정확도 향상
VLAD
QR CODE qr code