서지주요정보
(A) study on depth estimation using channel to space conversion = 채널 정보의 공간변환을 이용하는 깊이추정에 관한 연구
서명 / 저자 (A) study on depth estimation using channel to space conversion = 채널 정보의 공간변환을 이용하는 깊이추정에 관한 연구 / Jung-Jae Yu.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039483

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DRE 22007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Depth-estimation from a single input image can be used in various applications such as robotics and autonomous driving. UNet-styled networks with encoder/decoder structures have been widely used for monocular depth estimation based on supervised learning. Various studies have been attempted to reduce the amount of computation in the encoder, but research on saving the amount of computation in the decoder is relatively lacking. In general, in the decoder, an operation of increasing the image resolution while gradually reducing the channel size is repeated. If such processing can be performed at a time at a high magnification, the amount of computation in the decoder can be remarkably reduced. To achieve this goal in a monocular image-based depth estimation network, we propose a new network structure with reduced convolution layers at the decoder part, namely, the Cocktail Glass Network (CGN). And to make this structure possible, we propose a new feature data transformation method, which is called Channel to Space Remapping (CSR), which directly moves and transforms the data accumulated in the channel direction to the image plane. Using this method, it is possible to convert low-resolution data of a thick channel into high-resolution data of a thin channel in a single layer. The proposed method can be easily implemented using simple reshaping operations; therefore, it is suitable for reducing the depth-estimation network. Considering the experimental results based on the NYU V2 and KITTI datasets, we demonstrate that the proposed method reduces the amount of computation in the decoder by half, while maintaining the same level of accuracy; it can be used in both lightweight and large-model-capacity networks. In the latter part of the paper, we show that the proposed method is particularly suitable for depth estimation networks, and we further propose a method to improve performance by adding MLP to CSR. And we suggest that CSR can be used for the purpose of reducing the amount of computation not only in the depth estimation network but also in the Super Resolution network.

한 장의 영상으로부터 깊이를 추정하는 기술은 로봇이나 자율주행과 같은 다양한 활용분야에서 이용될 수 있다. 교사 학습 기반으로 단앙영상으로부터 깊이를 추정하기 목적으로 UNet 구조의 인코더/디코더 방식의 네트워크가 많이 활용되어 왔다. 인코더 관련해서는 연산량을 줄이기 위한 다양한 연구들이 시도되었지만, 상대적으로 디코더의 구조적 특성에 맞는 연산량 절약에 관한 연구는 부족한 상황이다. 일반적으로 디코더에서는, 점진적으로 채널크기를 줄이면서 영상 해상도를 증가시키는 연산이 반복된다. 만약 이러한 처리를 고배율로 한 번에 수행할 수 있다면, 디코드에서의 연산량은 획기적으로 감소될 수 있다. 단안영상 기반의 깊이추정 네트워크에서 이러한 목적을 달성하기 위해서, 우리는 디코더 단에서의 컨볼루션 레이어를 감소시킨 새로운 네트워크 구조, 즉 칵테일 잔 네트워크 구조(CGN)를 제안한다. 그리고 이러한 구조가 가능할 수 있도록, 채널의 공간 변환이라 지칭하는, 채널방향으로 쌓인 데이터를 영상평면으로 곧바로 이동시켜서 확대하는 새로운 특징 데이터 변환방법(CSR)을 제안한다. 이 방법을 사용하면 단일 레이어에서 두꺼운 채널의 저해상도 데이터를 얇은 채널의 고해상도 데이터로 변환이 가능하다. 제안된 방법은 간단한 형태변형 연산을 이용하여 구현 가능하며, 그렇기 때문에 깊이추정 네트워크를 경량화하기에 적합하다. NYU V2 데이터셋과 KITTI 데이터셋에서의 실험 결과를 통하여, 우리는 제안한 방법이 동일한 수준의 정확도를 유지하면서 디코더에서의 연산량을 절반으로 줄이는 것을 확인하였고, 제안방법은 경량 네트워크 모델과 중량 네트워크 모델에서 모두 사용 가능다는 것도 확인하였다. 논문의 후반부에서는 제안하는 방법이 깊이추정 네트워크에 특히 적합함을 보이고, CSR에 MLP를 추가하여 성능을 향상시키는 방법을 추가로 제안한다. 그리고 CSR이 깊이추정 네트워크 뿐 아니라 Super Resolution 네트워크에서도 연산량을 감소하는 목적으로 활용가능함을 함께 제시한다.

서지기타정보

서지기타정보
청구기호 {DRE 22007
형태사항 vi, 43 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 유정재
지도교수의 영문표기 : Junmo Kim
지도교수의 한글표기 : 김준모
수록잡지명 : "Cocktail Glass Network: Fast Depth Estimation Using Channel to Space Unrolling". IEEE Access, v.9. no.1, pp.114680-114689(2021)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 40-42
주제 Neural
Network
Image
Processing
Depth
Estimation
Monocular
신경회로
영상처리
깊이추정
단안영상
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서