서지주요정보
Deep learning approaches for light-field 3D reconstruction = 라이트 필드 3차원 복원을 위한 딥러닝 접근법
서명 / 저자 Deep learning approaches for light-field 3D reconstruction = 라이트 필드 3차원 복원을 위한 딥러닝 접근법 / Youngjin Yoon.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032331

소장위치/청구기호

학술문화관(문화관) 보존서고

DRE 18003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Sophisticated 3D reconstruction are required, depending on the development of 3D printers. The most common method for 3D modeling is CAD(Computer-aided-design). However, it requires professional training. The most widely used method for 3D reconstruction in computer vision is a geometric method which uses multiple images from different viewpoints, and a photometric method of measuring the surface normal under different light directions. Geometric methods have difficulties in complicated computation process and obtaining fine-scale 3D structures, and photometric method produces accurate surface normal under limited capturing environments such as dark room. Therefore, we achieve a sophisticated 3D reconstruction while overcome limitations of previous works. In this dissertation, we present a new method for 3D reconstruction of a light field camera image using depth neural network: In order to obtain more detailed 3D depth information, we super-resolved the spatial and angular resolution of the light field images, the surface normal of scenes obtained through the deep neural network using only the shading information of one image. We also proposed a network restoring 3D reconstruction from the light field images. Finally, we combine the surface normal and the depth obtained by deep neural network to recover a 3D model in which a more detailed surface is expressed. First, we present the super-resolution method of light-field camera. The light-field camera developed at Stanford university consists of several arrangements of over 100 CMOS based cameras, and commercial light-field cameras, an array of microlens placed between lenses and sensors, so that direction of light rays are recorded. Previous work which computes a disparity from slope in an EPI (Epipolar Plane Image) of light-field then conduct super-resolution using it. However, it is difficult to apply to the real-world because it assumes ideal light-field images. On the other hand, we present first time a deep neural network which learns the relation of light-field image for super-resolution. In order to train various disparities, we also built about 200 light-field image datasets from different places. The trained network models and dataset are available online so that related researchers can easily access. Second, we present a deep learning network that can obtain surface normal of an object from a single image. In the conventional photometric methods, images are taken in a dark room where the direction of light is easy to compute in order to light calibration. In the proposed method, a sophisticated surface normal is obtained from a NIR (near infrared ray) image without light calibration by training a deep neural network. Visible light images provide redundant information such as color, while NIR images filter the visible light bandwidth to obtain a precise surface image, and are easy to capture because they are not affected by fluorescent light. In order to improve the accuracy of the surface normal, we combine angle loss, inerrability constraint and intensity loss which are widely used objective functions in existing photometric approach. In order to evaluate the versatility of the trained neural network, the network is evaluated by images taken in an trained environment. We also show that the trained network is not applied only to a specific camera, and fine-scale 3D information can be obtained from the deep neural network trained by NIR images using a gray scale image. Third, we address a deep neural network for restoration 3D model from a single light-field image. The most efficient method to estimate disparity map from a light-field image is using the slope of the EPI. However, the inherent camera structure of existing commercial light field cameras has a smaller angular resolution available due to the trade-off between spatial and angular resolution and also light-field images suffers from noise. To overcome the noise issue, multi-view stereo methods are adopted, it finds correspondences by matching photoconsistency in local patches between sub-aperture images. It provides a high accuracy disparity maps but requires a lot of computation due to the matching processing. The proposed network shows that fast computation and also comparable performance to the conventional methods. Finally, we combined disparity maps and surface normal results to create a 3D model in which the details of surface are represented. The 3D model obtained by the proposed method shows very fast computation speed and promising performance in various environments.

3D 프린터의 발전에 따라 정교한 이미지의 3차원 모델링 요구가 되고 있다. 대표적으로 정교한 모델링을 위해 쓰이는 방법으로는 CAD(Computer-aided-design) 가 있다. 하지만 CAD를 사용하기 위해서는 전문적인 교육을 필요로 한다. 컴퓨터 비전을 통해 가장 널리 쓰이는 3차원 복원을 방법으로 대상 물체를 여러 뷰포인트에서 촬영을 하여 3차원 정보를 얻는 기하학 방법과 이미지의 음영 정보를 통해 표면 법선을 구하는 광도 방법을 이다. 기하학 방법은 복잡한 계산 과정과 정교한 3차원 정보를 얻기가 어려움이 있으며 광도 방법은 정밀한 3차원 정보를 주는 대신 암실과 같은 통제 가능한 공간이 아닌 경우 수행에 제약이 있다. 때문에 본 논문에서는 기존의 방법론의 제한을 극복하는 동시에 정교한 3차원 복원 달성을 하려고 합니다. 본 논문에서는 심층 신경망을 이용하여 라이트 필드 카메라의 한장의 이미지에서 3차원 복원하는 새로운 방법론을 제시 한다: 보다 세밀한 3차원 깊이 정보를 얻기 위하여 라이트 필드 카메라의 저해상도의 공간(spatial), 각 이미지(angular)를 슈퍼 레졸루션을 하였고 광도 방법론를 통해 인공 심층 신경망을 학습 하여 한장의 이미지의 음영 정보만을 통해 물체의 정교한 3차원 정보를 구하였다. 또한 라이트 필드 이미지에서 3차원 복원을 복원 하는 네트워크를 제시 하였다. 마지막으로 광도 방법론으로 얻은 표면 정보와 깊이 정보를 합쳐 보다 세밀한 표면이 표현되는 3차원 모델을 얻어낸다. 첫 번째로, 라이트 필드 카메라의 슈퍼 레졸루션을 방법을 소개한다. 라이트 필드 카메라 종류로는 약 100대의 CMOS 카메라를 배열 형태로 구성 되어 있으며 상용 라이트 필드 카메라는 렌즈와 센서 사이에 마이크로 센서를 가지고 있어 한장의 이미지에서 3차원 정보를 획득이 가능 하다. 하지만 상용 라이트 필드 카메라에서는 각 해상도(Angular resolution)가 커질수록 공간 해상도(spatial resolution)가 낮아 지는 트레이드 오프가 있다. 기존 라이트 필드 이미지 슈퍼 레졸루션의 방법으로는 에피폴라 평면 이미지(EPI) 에서 기울기를 통해 구한 3차원 정보(Disparity)를 활용 하여 슈퍼 제졸루션을 하는 방법으로 이상적인 이미지에서 원활하게 수행이 되어 실제 환경에는 적용하는데 어려움이 있다. 이와 달리 우리는 라이트 필드 이미지 관계를 학습 하는 심층 신경망으로 처음으로 제안 및 학습을 하여 기존의 라이트 필드 이미지 보다 좋은 퀄리티 이미지와 더 큰 각해상도를 만들어내어 더 나은 3차원 복원 성능을 보였다. 또한 다양한 이미지 관계를 학습 하기 위하여 여러 환경에서 촬영한 약 200장의 라이트 필드 데이터셋을 구축을 하였다. 학습된 네트워크 모델과 데이터는 온라인 상으로 공개하여 관련 연구자들이 쉽게 비교및 학습 하도록 제공 하였다. 두 번째로, 우리는 이미지의 음영에 기반한 물체의 3차원 정보를 구하는 딥러닝 네트워크를 제시 한다. 기존의 광도 방법에서는 3차원정보를 구하기 위해서는 빛의 방향의 캘리브레이션이 용이한 암실에서 이미지를 촬영을 하였다. 제안하는 방법에서는 심층 신경망을 이용하여 빛 캘리브레이션 없이 한장의 근적외선 이미지에서 정교한 3차원 정보를 구하였다. 근적외선 이미지는 가시광선 영역을 필터링을 하여 물체의 색깔 밑에 있는 정밀한 표면 정보를 획득을 할 수 있으면 실내에서 많이 사용하는 현광등에 영향을 받지 않기 때문에 촬영 공간 제약이 적다. 보다 정밀한 3차원 정보를 획득 하기 위하여 기존의 광도방법론(Shape-from-Shading)에서의 널리 사용되는 손실 함수인 각도 오류, 통합성 제약 그리고 최소제곱법을 조합을 하여 학습및 비교 실험을 하였다. 학습된 심층 신경망의 범용성을 평가 하기 위하여 학습에 사용하지 않은 환경에서 촬영한 이미지를 3차원을 하여 네트워크 강건성을 확인 하였다. 또한 학습된 네트워크가 특정 카메라에서만 적용이 되는것이 아니라는것을 확인 하기 위하여 근적외선과 칼라 이미지의 특성을 분석을 하여 그레이 스케일로 변환된 칼라 이미지 사용하여 근적외선으로 학습된 심층 신경망에서 정밀한 3차원 정보를 구할수 있다는것을 입증을 하였다. 세번째로, 우리는 라이트 필드 3차원 복원을 위한 심층 신경망을 소개 한다. 라이트 필드 카메라에서 3차원 복원을 하기 위해 가장 좋은 방법 에피폴라 이미지 플랜(EPI)의 기울기를 구하는것 이다. 하지만 상용 라이트 필드 카메라에서는 노이즈와 이미지 센서로 인한 충분하지 않은 각 해상도로 인해 사용하기에 어려움이 있다. 또 다른 방법으로는 멀티뷰 스테레오 방법을 라이트 필드 카메라에 적용하는것이다. 이 방법은 좋은 성능을 보여주지만 모든 라이트 필드 이미지 사이에서 매칭을 해야 하므로 많은 계산량을 요구로 한다. 우리는 다양한 각도로 쌓아 올린 라이트 필드 이미지를 이용하는 심층 신경망을 제안 하였고 학습 결과를 멀티뷰 스테레오 방식과 비교를 하였다. 학습된 심층 신경망은 기존 방법론 보다 매우 빠른 계산 속도를 보이는 동시에 유사한 성능을 보여주고 있다. 마지막으로, 심층 신경망을 통해 얻은 3차원 깊이 정보와 물체의 표면 결과를 합쳐 보다 세밀한 표면이 나타내는 3D 차원 모델을 얻어 냈다. 제안된 방법으로 얻은 3차원 모델은 매우 빠른 계산 속도와 우수한 성능을 다양한 환경에서 보여 준다.

서지기타정보

서지기타정보
청구기호 {DRE 18003
형태사항 viii, 88 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤영진
지도교수의 영문표기 : Inso Kweon
지도교수의 한글표기 : 권인소
학위논문 학위논문(박사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 77-85
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서