서지주요정보
High-quality object 3D reconstruction via shape from shading in near-infrared spectrum = 고품질 물체 3차원 모델링을 위한 근적외선 영상 기반 형상 복원
서명 / 저자 High-quality object 3D reconstruction via shape from shading in near-infrared spectrum = 고품질 물체 3차원 모델링을 위한 근적외선 영상 기반 형상 복원 / Gyeongmin Choe.
저자명 Choe, Gyeongmin ; 최경민
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032697

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 18063

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The demand for 3D modeling of real-world objects is getting higher with the rapid growth of the 3D printer and 3D visual contents. Although 3D scanners such as laser scanner captures highly accurate depth, those are costly. For the alternative ways, simple camera or commercial depth sensors have been used for the 3D modeling. For that, most conventional works have been used visible-band images and near-infrared (NIR) band is neglected and filtered out. Our motivation is to analyze the beneficial aspect of the NIR images possibly be used as a photometric cue for the 3D geometry. After that, we use a simple NIR camera and conduct the shape from shading so that we can estimate the 3D geometry of various real-world objects from a single-view NIR image. For this we prose cost optimization-based and deep learning-based methods. Also for the Full 3D modeling with multiple-view, we use commercial depth sensors such as Kinect and use their rough 3D geometry to resolve the ambiguity of the shape from shading. Finally we can obtain the improved 3D geometries. In this dissertation, there are four sub-tasks. The abstract description of each sub-tasks are as follows: Near-Infrared (NIR) images of most materials exhibit less texture or albedo variations making them beneficial for vision tasks such as intrinsic image decomposition and structured light depth estimation. Understanding the reflectance properties (BRDF) of materials in the NIR wavelength range can be further useful for many photometric methods including shape from shading and inverse rendering. However, even with less albedo variation, many materials e.g., fabrics, leaves, etc. exhibit complex fine-scale surface detail making it hard to accurately estimate BRDF. In this task, we present an approach to simultaneously estimate NIR BRDF and fine-scale surface details by imaging materials under different IR lighting and viewing directions. This is achieved by an iterative scheme that alternately estimates surface detail and NIR BRDF of materials. Our setup does not require complicated gantries or calibration and we present the first NIR dataset of 100 materials including a variety of fabrics (knits, weaves, cotton, satin, leather), and organic (skin, leaves, jute, trunk, fur) and inorganic materials (plastic, concrete, carpet). The NIR BRDFs measured from material samples are used with a shape-from-shading algorithm to demonstrate fine-scale reconstruction of objects from a single NIR image. To augment the lighting directions and materials, we present deep learning-based surface normal estimation using a single near infrared (NIR) image. We are focusing on reconstructing fine-scale surface geometry using an image captured with an uncalibrated light source. To tackle this ill-posed problem, we adopt a generative adversarial network, which is effective in recovering sharp outputs essential for fine-scale surface normal estimation. We incorporate the angular error and an integrability constraint into the objective function of the network to make the estimated normals incorporate physical characteristics. We train and validate our network on a recent NIR dataset [1], and also evaluate the generality of our trained model by using new external datasets that are captured with a different camera under different environments. In the next sub-task, We propose a method to refine geometry of 3D meshes from a consumer level depth camera, e.g. Kinect, by exploiting shading cues captured from an NIR camera. A major benefit to using an NIR camera instead of an RGB camera is that the NIR images captured are narrow band images that filter out most undesired ambient light, which makes our system robust against natural indoor illumination. Moreover, for many natural objects with colorful textures in the visible spectrum, the subjects appear to have a uniform albedo in the NIR spectrum. Based on our analyses on the IR projector light of the Kinect, we define a near light source NIR shading model that describes the captured intensity as a function of surface normals, albedo, lighting direction, and distance between light source and surface points. To resolve the ambiguity in our model between the normals and distances, we utilize an initial 3D mesh from the Kinect fusion and multi-view information to reliably estimate surface details that were not captured and reconstructed by the Kinect fusion. Our approach directly operates on the mesh model for geometry refinement. We ran experiments on our algorithm for geometries captured by both the Kinect I and Kinect II, as the depth acquisition in Kinect I is based on a structured-light technique and that of the Kinect II is based on a time-of-flight (ToF) technology. The effectiveness of our approach is demonstrated through several challenging real-world examples. We have also performed a user study to evaluate the quality of the mesh models before and after our refinements. Lastly, In this section, we additionally try to see if our RGB and NIR pair images are beneficial for recognition task. In this sub-task, we present a data-driven method for scene parsing of road scenes to utilize single-channel near-infrared (NIR) images. To overcome the lack of data problem in non-RGB spectrum, we define a new color space and decompose the task of deep scene parsing into two sub-tasks with two separate CNN architectures for chromaticity channels and semantic masks. For chromaticity estimation, we build a spatially-aligned RGB-NIR image database (40k urban scenes) to infer color information from RGB-NIR spectrum learning process and leverage existing scene parsing networks trained over already available RGB masks. From our database, we sample key frames and manually annotate them (4k ground truth masks) to finetune the network into the proposed color space. Hence, the key contribution of this work is to replace multispectral scene parsing methods with a simple yet effective approach using single NIR images. The benefits of using our algorithm and dataset are confirmed in the qualitative and quantitative experiments. For all the sub-tasks, we validate our approaches with using various examples, and demonstrate possible applications for each industrial field.

본 논문에서는 컬러 영상을 사용하는 기존 연구들과는 달리 구조광, ToF (Time-of-flight) 방식의 깊이 센서나 야간 카메라, CCTV 등 응용에 널리 사용되는 근적외선 카메라를 이용, 그 특성을 실험적으로 알아보고 그 음영정보를 수학적 모델링을 통해 정밀 물체 3차원 복원 문제에 적용하는 방법을 제안한다. 적외선 영상 음영 정보의 효용성과 장점을 분석하고, 광학 모델을 수학적으로 모델링하여 다양한 물체의 근적외선 대역에서의 영상 정보 및 3차원 정보가 담긴 데이터베이스를 구축한다. 구축된 데이터베이스를 이용하여 단일 영상을 이용한 물체의 3차원 깊이 정보 계산 방법론을 제안한다. 이를 위해 최적화 기법 (Optimization) 및 깊은 신경망 방법 (Deep learning) 등의 방법론을 제안하였고, Microsoft Kinect 센서 등과 같은 상용 카메라에도 적용 가능한 모델을 제안하여, 고품질의 3차원 모델링이 가능함을 실험적으로 보였다. 그 상세한 내용은 다음의 네가지 소주제로 나뉘어 연구되었다. 가장 먼저 첫번째 주제는 근적외선 영상에 대한 분석과 그 데이터베이스, 최적화 기법을 통한 표면법선벡터 추정에 관한 연구이다. 대부분의 재료나 물체는 근적외선 대역에서 표면의 무늬가 적게 관측되거나 표면반사도의 공간적인 차이가 적게 관측되는 경향을 보인다. 이러한 근적외선 영상의 특성은 컴퓨터 비전에서 내부 영상 분리 나 구조광 기반의 깊이 정도 측정 등에 유용하게 사용되어 왔다. 재료별 표면 반사도를 추정하는 연구는 또한 음영 정보로부터의 3차원 정보 추정이나 인버스 렌더링 등의 다양한 광학적 방법등에서 유용하게 사용 될 수가 있다. 그러나 근적외선 영상의 이와같은 장점에도 불구하고 근적외선 대역에서는 기존에 이러한 광학정보에 관한 연구가 존재하지 않아 쉽게 사용되지 못하였다. 따라서 본 연구에서는 이와 같은 한계를 극복하고자 최초로 근적외선 카메라를 이용하여 광학적으로 물체의 미세한 3차원 표면 기하구조를 찾고 표면 반사도를 동시에 측정하는 방법을 제안한다. 이를 위하여 가장 먼저, 근적외선 카메라를 설치하고 12가지 다양한 방향에 적외선 조명을 설치한다. 적외선 조명을 이용하여 광학 스테레오 기법을 이용, 물체의 미세한 3차원 기하구조 (표면법선 벡터)를 찾는다. 그 후 찾아진 표면법선 벡터를 이용하여 반사도를 추정하고, 다시금 표면법선 벡터를 계산과 반사도추정를 반복한다. 본 연구에선느 이렇게 100가지 물체에 대한 반사도와 3차원 기하 모델 데이터 베이스를 구축하였고, 구축 된 100가지 물체에 대한 데이터 베이스를 이용해, 임의의 물체를 단일 영상 촬영하였을 때 3차원 모델을 추정하는 음영으로부터의 3차원 (Shape from Shading) 방법에 적용하여 그 결과를 실험적으로 보였다. 두번째 주제는 앞선 연구에서 확보된 데이터베이스를 딥러닝 네트워크를 통해 강화하고, 임의의 조명과 재료 환경에서 동작할 수 있도록 학습시키는 연구이다. 광학적인 3차원 정보추정 방법에서는 음영 정보를 이용하기 때문에 실내 조명이 다 꺼진 암실 환경을 구축하고 실험 해야 한다. 또한 실험 당시 빛의 방향에 대한 계산을 필요로 한다. 따라서 그 실험과정과 계산이 번거롭다. 최근 딥러닝의 발전으로 한장의 영상으로 실내 환경에서의 3차원 기하구조를 추정 하는 다양한 방법이 연구되었다. 하지만 이러한 방식은 실제 물체의 미세한 표면 3차원 기하구조를 목적으로 하지 않을뿐만 아니라 3차원 기하구조 추정시 이미지상의 물체 정보(context)를 사용을 하여 물체의 표면을 평면으로 추정을 한다. 따라서 본 발명에서는 이와 같은 한계를 극복하고자 최초로 근적외선 카메라를 이용한 딥러닝 기반 물체의 미세한 3차원 표면 기하구조를 추정하는 기술을 제안한다. 제안하는 방법은 지도학습 방법을 기반으로한다. 데이터에서 근적외선 영상을 받아 3차원 기하구조를 출력하게 하는 네트워크를 GAN 기반으로 설계하였다. GAN은 영상을 생성 하는 generative 네트워크와 생성된 영상과 Ground-truth 영상과의 차이를 분별하는 discriminative 네트워크로 구성 되어 있다. 기존 GAN에서는 생성된 영상의 유사성만을 측정을 하여 학습을 하여 결과의 질이 좋지 못하였지만, 본 연구에서는 광도 스테레오 분야에서 사용하는 몇가지 수식을 최적화 식에 반영하여 결과의 정확도를 향상 시켰다. 세번째 주제는 앞에서 다룬 근적외선 영상을 기반으로한 다양한 상용 센서들에 광도 스테레오 기법을 결합하여 3차원 정보의 정확도를 높이는 연구이다. 본 연구에서는 깊이 센서인 키넥트의 적외선 카메라로부터 얻은 음영 영상을 사용하여 키넥트 퓨전으로 얻은 3차원 모델을 개선하는 결과를 보였다. 기존의 RGB 칼라 영상을 이용하는 방법에 비해 적외선 영상을 이용하는 본 방법은 키넥트의 적외선 카메라가 사용하는 좁은 주파수 밴드의 영상을 이용한다는 점에서 불필요한 가시광 영역의 조명 효과를 필터링 하고, 실내의 조명 조건을 간단히 모델링 할 수 있다는 장점을 가진다. 이로 인해 제안된 방법은 형광등이나 LED 등 일반적인 실내의 조명 조건 하에서 강인하게 작동한다. 본 연구에서는 표면 법선 벡터, 반사도, 광원의 방향 그리고 광원과 표면 점 사이의 거리의 함수로 근거리 적외선 조명 모델을 정립하였다. 법선 벡터와 거리 값 사이의 모호성을 해결하기 위하여 키넥트 퓨전으로 얻은 3차원 메쉬 모델을 초기 모델로 사용하였고 다시점에서 촬영한 근적외선 음영 영상 정보를 사용하였다. 이로서 키넥트 퓨전으로 얻은 3차원 모델에 비해 보다 정밀한 표면을 추정할 수 있어 상세한 정보를 갖는 3차원 모델을 얻을 수 있음을 보였다. 본 방법은 다양한 현실 환경의 물체에 대하여 적용되어 3차원 모델의 정밀 개선 효과를 입증하였다. 마지막 주제는, 앞에서 분석한 근적외선 영상의 특성을 바탕으로 가시광 영상과 근적외선 영상이 인식 문제에도 상호 보완적으로 사용될 수 있는지를 추가적으로 실험하였다. 본 연구에서는 가시광-근적외선 스테레오 카메라를 자동차에 설치하고 다양한 장소를 비디오로 동시 촬영하였다. 도심, 교외, 캠퍼스 등 다양한 실외 환경의 데이터를 수집하였으며 이를 이용, 지도학습 기반의 Scene Parsing 네트워크를 학습시켰다. 이를 통해 근적외선 영상이 실외환경의 인식문제에 도움을 준다는 것을 실험적으로 보였다. 본 데이터는 온라인상으로 공개되었다.

서지기타정보

서지기타정보
청구기호 {DEE 18063
형태사항 ix, 89 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최경민
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 75-84
주제 Computer vision
near-infrared images
surface normal
reflectance
3D modeling
scene parsing
컴퓨터 비전
근적외선 영상
표면 법선 벡터
표면 반사도
물체의 3차원 모델링
QR CODE qr code