서지주요정보
One-shot 3D estimation with object guidance = 물체 정보를 이용한 3차원 정보 추정
서명 / 저자 One-shot 3D estimation with object guidance = 물체 정보를 이용한 3차원 정보 추정 / Kibaek Park.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041467

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DPD 23002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

3D estimation is a crucial task in computer vision and has various applications such as robotics, autonomous driving, and virtual reality. In human perception, the brain predominantly relies on the analysis of visual information from multiple viewpoints to infer three-dimensional spatial relationships. Interestingly, even with a single image, the brain exhibits a remarkable capacity to perceive and comprehend the underlying structure in three dimensions. However, translating this innate ability to artificial intelligence models poses significant challenges. Traditional approaches in artificial intelligence (AI) models, typically, 3D estimation is accomplished by utilizing geometric constraints via multi-view images with corresponding camera poses and photometric loss with errors about RGB values, where 3D estimation from the single image still remains challenging task. Moreover, acquiring multiple images and corresponding camera poses needs specialized calibrated equipment with camera and IMU or data acquisition in a limited environment without moving objects in the scene. Consequently, learning 3D information using multi-viewpoint data under these environmental constraints is challenging and cannot be applied to arbitrary real environment scenarios. In contrast, a one-shot 3D learning model using a single image can estimate a 3D model without the aforementioned data constraints like moving object scene, utilizing data from arbitrary environments and situations. For example, the model can even be learned using data crawled from the vast internet photos. However, 3D estimation using a single image has the disadvantage of not being able to use geometric constraints and photometric loss from images of multiple viewpoints. To deal with the problem of one-shot 3D estimation, this work aims to address the limitations of one-shot 3D estimation by proposing novel methods and techniques. First, we aim to overcome the challenge of insufficient information in one-shot observations for 3D depth estimation by leveraging objectness to estimate fine-grained depth maps. While the existing one-shot depth estimation models are mainly trained on the scene structure and the vanishing point of outdoor road scenes, they suffer from the drawback of limited capability in estimating fine-grained object depth details. To address this issue, our proposed approach focus on the object regions, resulting in improved fine-grained depth estimation. We evaluate the proposed approach against existing depth estimation models, and analyze how the model learns detailed regions of the scene. In the other hands, the acquisition of diverse data is critical for one-shot 3D estimation to overcome the limitations of limited observations. The diverse data provides sufficient feature information to learn from a single image. As such, researchers have worked to construct 3D datasets using depth sensors such as Time-of-Flight (ToF) and LiDAR sensors in specific environments. In this work, we have contributed to the SideGuide dataset, which expands the coverage of the existing 3D dataset. Typically, outdoor datasets focus on road scenes, however, we have prioritized the sidewalk environment as it is an area with a high volume of pedestrian traffic, including impaired individuals. We have released the SideGuide dataset, which includes object bounding boxes, masks, and depth maps obtained from stereo sensors. By doing so, we hope to facilitate research on one-shot 3D estimation in sidewalk environments. Lastly, we delve into the methodology of one-shot 3D neural rendering estimation using object guidance. In contrast to vanilla NeRF (Neural Radiance Fields) models that train separate models for each 3D structure with hundreds of images, the one-shot neural rendering model have challenges in terms of improving model architecture and learning 3D structures from diverse one-shot observations. To tackle these difficulties, we propose a network architecture for one-shot neural rendering models that aims to address the inherent complexities and train on a single image. We compare the performance of the proposed model on the real-world data by using 3D virtual data. In order to effectively learn from the artificially generated virtual data, we employ the knowledge distillation technique, utilizing a teacher-student framework. Through this approach, we incrementally train the student model with object information extracted from images, ultimately leading to a model that learns and incorporates object information within the rendering process. Additionally, we propose one-shot generative 3D estimation, improving the model's generalization and ability the generation of 3D models via diffusion processes.

인간의 뇌는 3차원 공간 인식을 주로 다양한 영상 시점의 변화로 판단하지만, 신기하게도 한 장의 영상이 주어졌을 때에도 충분히 인식이 가능한 구조를 가지고 있다. 하지만, 이러한 학습 구조가 인공지능 모델에서는 작동하기 어려운 특성을 보이고 있다. 인공지능 모델에서 일반적으로 3차원 추정을 위해서는 여러 시점의 영상을 이용한 기하학적 관계를 이용하거나 여러 시점의 영상 RGB 값 변화를 이용한다. 하지만 이러한 여러 시점의 영상과 카메라 자세를 얻기 위해서는 캘리브레이션 된 특수한 촬영 장비가 필요하거나, 움직이는 물체가 없는 제한된 환경에서의 취득한 영상을 이용하여야 하는 제약이 따른다. 따라서, 이러한 환경적 제약 조건때문에 다시점의 대용량 데이터를 이용한 3차원 정보 학습은 다양한 실제 환경에서 3차원 정보를 추정하기는 어렵다. 이에 반해, 한 장의 영상을 이용한 학습 모델은 영상 하나로부터 3차원 모델을 추정하기에 데이터의 제약 없이 다양한 환경과 상황의 데이터를 이용하여 학습할 수 있다. 예를 들면, 엄청나게 다양한 인터넷에 크롤링 된 데이터를 이용하여서도 학습을 할 수 있다. 하지만 영상 하나를 이용한 3차원 추정은 다시점의 영상을 이용한 기하학적 관계를 사용할 수 없는 단점이 있다. 이 논문에서는 한 장의 영상으로 인한 제한된 정보 조건의 한계의 단점을 극복하기 위해 물체정보를 이용한 방법론을 다룬다. 영상 한 장이라는 부족한 정보를 극복하기 위해, 주어진 영상안의 물체 정보를 이용한 3차원 깊이감 추정하는 방법론을 제안한다. 한 장을 이용한 3차원 깊이감을 추정하도록 학습된 네트워크는 주로 영상의 3차원 구조적인 부분이나 야외 영상의 경우, 차도나 인도가 한 곳으로 수렴하는 부분에 (Vanishing point) 대하여 주로 학습을 진행한다. 이러한 경향성은 학습된 모델이 영상의 전체적인 부분을 주로 학습하기에, 세부적인 깊이감을 제대로 추정할 수 없는 단점이 있다. 하지만 제안한 방법론을 이용하면, 영상 내부의 물체 정보를 이용하여 상대적으로 부족한 물체의 세부적인 부분의 3차원 정보를 개선하여 추정할 수 있다. 제안한 방법론으로 학습한 모델이 기존 방식에 비해 3차원 깊이 추정을 정확하게 하는 것을 실험적으로 보였고, 왜 제안한 방법론이 세부적인 부분을 잘 학습할 수 있는지 분석하였다. 또한, 다양한 데이터 셋은 한 장의 영상을 이용한 3차원 정보 추정에 매우 필요한 요소이다. 한 장의 영상으로 부터 배우기 힘든 다양한 피쳐의 모습을 다양한 영상으로부터 배워 모델을 학습하는 데에 쓰이기 때문이다. 그리하여 연구자들은 인터넷 영상을 이용한 데이터셋을 만들거나 깊이 센서를 이용한 장비를 이용하여 데이터셋을 만들어 모델을 학습시키고 있다. 본 연구에서도 이러한 실측 데이터 셋의 범위를 넓히는 데에 기여하기 위하여, 새로운 데이터 셋을 제안한다. 공개되어 있는 데이터 셋의 경우, 일반적인 도로 환경으로 제한되어 있지만, 여기서는 새로운 인도 보행 환경에서의 물체 정보와, 깊이 정보를 제공하는 데이터 셋을 제안하였다. 이러한 데이터 셋을 이용하여, 많은 연구자들이 다양한 환경에서의 학습 데이터를 이용하길 바라며, 특히 인도 보행의 어려움이 있는 장애인들의 기술 개발에 쓰이길 기대해 본다. 마지막으로, 물체 정보를 이용한 3차원 뉴럴 렌더링 정보 추정에 대한 방법론을 다룬다. 기존의 뉴럴 렌더링의 모델이 수백장의 영상으로부터 각 3차원 구조 별로 모델을 따로 학습하는 것에 비해, 한 장의 영상을 이용한 뉴럴 렌더링 모델은 기존과 다른 구조의 모델 개선을 요구하며, 다양한 영상으로 부터 3차원 구조를 학습하고 렌더링 해야하는 어려운 주제이다. 이러한 어려운 점을 학습시키기 위한 한 장을 이용한 뉴럴 렌더링 모델 네트워크 구조를 제안하며, 실제 데이터와 3D 가상 데이터를 이용하여 제안한 모델의 성능을 비교하였다. 큰 데이터를 임의로 생성할 수 있는 가상 데이터를 잘 학습하기 위하여, 우리는 선생님과 학생 모델을 설정한 지식의 증류기법 (Knowledge Distillation)을 이용하여, 물체 정보를 점차적으로 학생 모델에 학습하고 결국에는 영상의 물체 정보를 학습하는 모델을 제안하였다. 또한, 노이즈를 가하여 새로운 영상을 생성하는 디퓨전 모델의 방법론을 이용하여, 한 장의 영상으로부터 3차원 모델을 생성하는 뉴럴 렌더링 네트워크 구조를 제안하였다. 노이즈를 가하는 방법은 모델 학습의 범용성을 높여서, 한 장을 이용한 뉴럴 렌더링 모델의 안정적인 학습을 가능하게 할 뿐만 아니라, 디퓨전 모델을 이용하여 새로운 3차원 모델을 만들 수 있는 장점이 있다.

서지기타정보

서지기타정보
청구기호 {DPD 23002
형태사항 vi, 57 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박기백
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "SideGuide:A Large-scale Sidewalk Dataset for Guiding Impaired People". International Conference on Intelligent Robots and Systems (IROS), pp.10022 - 10029(2020)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 미래자동차학제전공,
서지주기 References : p. 51-56
주제 3D estimation
Single view depth estimation
One-shot
Diffusion model
Neural rendering
3차원 복원
스테레오
인도 보행
뉴럴 렌더링
깊이 추정
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서