서지주요정보
Bi-DCT: fast DCT-based binary visual metric for multiple view stereo = Bi-DCT: 다중시점 3차원 복원을 위한 빠른 DCT 기반 이진 시각 매칭 기법
서명 / 저자 Bi-DCT: fast DCT-based binary visual metric for multiple view stereo = Bi-DCT: 다중시점 3차원 복원을 위한 빠른 DCT 기반 이진 시각 매칭 기법 / Sujung Kim.
저자명 Kim, Sujung ; 김수정
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8028016

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 15006

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Multiple view stereo (i.e., the dense 3D reconstruction of the surface of an object from multiple calibrated images) is one of the persistent central challenges of computer vision with many applications such as augmented reality, robot navigation, and heritage digital archival etc. Over the last few years, massive efforts have been put in this field and so fruitful achievements have been obtained. Most these efforts have, however, mainly focused on methods for optimization and regularization. As for the similarity measure, denoted as the visual metric here, normalized cross correlation (NCC) has been the data term of choice for almost all multiple view stereo algorithms. This is in stark contrast to the matching of salient feature points where the design of feature descriptors has received tremendous attention with the advent of landmark achievements such as SIFT, SURF, DAISY, and BRIEF etc. In this dissertation, we address this visual metric issue in the context of multiple view stereo. Firstly, we investigate the design space of visual metrics by identifying central design parameters from the literature and evaluating combinations thereof. In this way, we present a taxonomy of visual metrics for multiple view stereo. More specifically, we conduct a full factorial study based on the main parameters (i.e., degree of freedom, binning, and aggregation) in our taxonomy in order to understand which parameters are significant for multiple view stereo. Through this investigation, we obtain some insights and recommendations of how to construct a visual metric for multiple view stereo. Main conclusions are that binning is the most signifcant design parameter, and while performance of all visual metrics is more or less equivalent on suffciently textured diffuse regions, i.e., non-challenging regions, it is strongly recommended to use a new combination, M2, for challenging regions. As part of investigation, we also present a new dataset containing a variety of scenes, i.e., different degrees of specularity, textureness and geometric complexity, compared to any available dataset we are aware of. Based on the results from this investigation, we propose a new visual metric, coined Bi-DCT, while considering two issues (i.e., robust matching over non-salient regions and fast matching of a large number of pixels) that have not been thoroughly addressed yet. Even though the binning process of DAISY descriptor alleviates the geometric distortions, its fundamental description method, i.e., histogram of oriented gradients (HOG), is still vulnerable to providing discriminant features over the non-salient regions. In the proposed Bi-DCT, frequency information based on 2D DCT is utilized to achieve high matching performance even for the non-salient regions. Furthermore, to cope with the computational diculties (i.e., high computational complexity and huge memory space), a binary representation is adopted to accelerate the matching speed via the Hamming distance. Finally, to further improve the discriminability of the binarized descriptor, we propose a space-frequency pooling scheme that can perform very efficiently by virtue of the simplicity of filtering in the frequency domain. Through extensive experiments on the benchmark dataset and our compiled dataset, the superiority of the proposed visual metric is demonstrated over the state-of-the-art descriptors in terms of accuracy and efficiency. We certainly believe that the proposed Bi-DCT visual metric can be a promising tool for the recent surge of large-scale multiple view stereo.

다중시점 영상으로부터 3차원 복원은 컴퓨터 비전에서 핵심 연구 중 하나로 가상현실, 로봇 안내, 문화 유적지 디지털 보존 등 많은 분야에서 사용되고 있다. 이를 증명하듯, 지난 십 여 년간 다중시점 3차원 복원에 관한 많은 연구들이 진행되어 왔다. 그러나 대부분의 연구는 최적화와 정규화 기법 개발이었고, 이 때 사용하는 정합 매칭 기법으로는 정규 상관 기법(NCC)이 거의 유일하였다. 이는 특징점 매칭(salient feature matching) 분야에서 정합 매칭 연구가 많은 주목 받고 발전을 이룩한 것과 사뭇 대조적이다. 본 논문에서는 다중시점 3차원 복원에서의 정합 매칭, 즉 시각 매칭 기법,에 관해 다룬다. 먼저 다중시점 3차원 복원의 선행 연구들로부터 시각 매칭을 위한 핵심 디자인 파라미터를 정의하고, 그것들의 성능을 평가한다. 구체적으로, 정의한 핵심 파라미터들(자유도, 비닝, 영상조합)을 기반으로 전체 요인 설계(full factorial study)를 수행하고, 다중시점 3차원 복원을 위한 시각 매칭기법들을 분류하고 성능을 평가한다. 이 연구를 통해, 다중시점 3차원 복원을 위한 시각 매칭 구성 방법에 영감을 얻고, 권고 사항을 제안한다. 주요 결론은 비닝이 가장 중요한 디자인 파라미터이고, 텍스쳐가 풍부한 영역에서는 모든 시각 매칭기법의 성능이 비슷하나, 도전적인 영역 (예를 들어, 반사도가 존재하는 영역)에서는 새로운 조합인 M_2를 권장 한다는 것이다. 조사과정의 한 부분으로 현재 사용 가능한 어느 데이터 셋들보다 다양한 반사도, 질감, 복잡도를 가지는 장면들로 구성된 새로운 데이터셋을 소개한다. 다음으로는, 앞선 조사 결과를 바탕으로, 기존 기법들이 다루고 있지 않은 두가지 사항 (즉, 비특징 영역에서의 강인한 매칭 그리고 많은 화소들의 빠른 매칭)을 고려한 새로운 시각 매칭 기법 Bi-DCT를 제안한다. DAISY의 비닝 과정이 기하 왜곡을 완화하는 장점을 가지고 있지만, 그것을 이루는 기본 표현 기법 (즉, HOG)은 여전히 비특징 영역에서 구분력을 제공하는데 한계가 있다. 제안하는 Bi-DCT는 2D DCT에 기반한 주파수 정보를 활용하여 비특징 영역에서도 높은 매칭 성능을 가지도록 한다. 또한 제안 시각 매칭 기법은 방대한 계산량과 많은 메모리 공간 등 계산과 관련된 어려움을 해결하기 위해 이진 표현법을 채택한다. 마지막으로 이진화된 표현의 구분력을 더욱 향상시키기 위해 공간-주파수 풀링 기법을 제안한다. 제안하는 풀링 기법은 기존 기법들에 비해 주파수 공간에서의 간단한 필터링 처리를 활용하여 연산량이 작은 장점이 있다. 이와 같이 제안하는 Bi-DCT는 비특징 영역에서도 높은 구분력을 유지하면서도, 이진 표현법으로 메모리 공간의 축소는 물론 수백배 향상된 매칭 속도를 보인다. 본 연구에서는 기준 데이터 셋 그리고 제안한 데이터 셋에서의 다양한 실험을 통하여, 최신 기법들에 비해 제안 기법의 우수성을 증명한다. 마지막으로 제안 시각 매칭 기법은 현재 많은 관심을 받고 있는 대규모 다중시점 3차원 복원 연구 발전에 견인 역할을 할 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {DEE 15006
형태사항 ix, 93 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김수정
지도교수의 영문표기 : Seong Dae Kim
지도교수의 한글표기 : 김성대
수록잡지명 : "IEEE Signal Processing Letters". IEEE Signal Processing Letters, v.22.no.7, 847-851(2015)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 References : p.
주제 Binary feature
3D reconstruction
similarity measure
이진 특징점
3차원 복원
유사도 측정
QR CODE qr code