서지주요정보
Light-weight encoder-decoder network for depth estimation = 거리측정을 위한 인코더-디코더 네트워크 경량화
서명 / 저자 Light-weight encoder-decoder network for depth estimation = 거리측정을 위한 인코더-디코더 네트워크 경량화 / S. Hyejin Kim.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040997

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DRE 22008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation deals with lightweight encoder-decoder structured depth estimation. Through the thesis research, it is found that local texture information is very important even in the last layer of the network for the ligthweight depth estimation network, unlike other lightweight methods of computer vision. In addition, it is found that long range shape information is also important for network performance improvement. Based on this knowledge, this thesis designs RRNet to capture long range shape information by increasing the number of layers without additional layer parameter cost due to RR blocks. In addition, we propose Condensed Dense Connection(CDC) that enables to preserving lightweight local texture information through dense connection and reduced the weight of the decoder by 16 times to the base model. Moreover, CDC plays a regularization role at training the parameter shared RR block. In addition, this network works well on TX2, a mobile GPU. Compared to other compatible networks, the amount of computation and number of parameters is significantly less, and the network shows quite fast performance in terms of computation speed. On CPU, the proposed RRNet can run as fast as the network without depthwise convolution. Recently, recent depth estimation has developed to use the pretrained encoder from ImageNet classification. According to this trend, the second proposed method is a lightweight decoder, which can be applied to various encoders, so that its performance can be incrementally improved as the encoder will be enhanced. The proposed lightweight decoder method utilizes axial attention~\cite{wang2020axial}, which is one of self-attention approaches that are known to take long range shape information. However, this method causes local texture destroyed when all convolutions are replaced with axial attention. Axial attention is applied to all layers.~\cite{wang2020axial} in image segmentation or classification, where their performance has improved because these application do not deal with local texture at the end of the network. In order to overcome this texture vanishing problem this study places the axial attention layer at the front end of the decoder due to the study of StyleGAN, in which the generator fetched the shape features in the first and second layer. In addition, in order to achieve the same effect as applied to multiple layers while not losing local shape information by applying axial attention with as few strokes as possible, upsampling was performed 8 times at a time and the upsampled values are brought from axial attention. By doing this, this thesis proposes a lightweight decoder network that preserves both long range shape information and local texture well. The proposed lightweight study evaluates its performances on the NYU v2 dataset and the KITTI dataset, and the performance has much improved on KITTI greatly. This fact confirms that the proposed method preserves long range shape information well because KITTI has homogeneous and long range shaped objects such as street and wall etc. Finally, this lightweight depth estimation network has been expected to have high utility in a manufacturing environment. So, a dimension measurement is studied by using depth estimation. Dimension estimates in a manufacturing environment are discontinuous. However, depth estimation is a kind of regression problem in general. In addition, it is difficult to measure the exact dimensions depending only on the texture, as the textures in manufacturing objects are much more homogeneous than other situations. To overcome this problem, this thesis proposes a magnifier loss to amplify the minute changes in texture so that accurate dimension can be measured well.

이 학위 논문에서는 인코더-디코더의 구조를 갖는 거리측정 네트워크의 경량화를 다루었다. 학위논문 연구를 통해 기존의 다른 컴퓨터 비전의 경량화 방법들과 달리 거리측정 네트워크의 경량화는 네트워크의 마지막 레이어에서도 local texture 정보가 매우 중요함을 알게 되었다. 또한, long range shape 정보도 네트워크 성능 향상에 중요함을 알 수 있었다. 이를 기반으로 RRNet에서는 long range shape 정보를 얻기 위해 RR block으로 계산 비용의 증가없이 layer 수를 늘려 long range shape 정보를 확보할 수 있었다. 또한, CDC에서의 dense connection을 통해 경량화된 local texture 정보를 잘 보존하여, 인코더와 디코더 모두 경량화되면서도 성능이 우수한 경량화 네트워크를 설계하였다. 또한, 이 네트워크는 실제 모바일 GPU인 TX2에서도 잘 동작하며 다른 네크워들에 비하여 연산량, 파라메터 수가 월등히 적을 뿐만 아니라 계산 속도 측면에서도 꽤 빠른 성능을 보였으며 CPU에서도 depthwise convolution을 사용하지 않은 다른 경량화 네크워크와 견주어 유사한 속도로 연산을 가능케 하였다. 최근 Depth estimation은 Encoder를 ImageNet에서 미리학습된 모델값을 가져와 네트워크의 성능을 향상 시키고 있다. 이러한 경향에 따라, 두 번째로 제안하는 거리측정 경량화 방안은 Decoder 경량화 기술로, 여러 Encoder에 적용할 수 있어, Encoder 성능 향상에 따라 지속적으로 향후 지속적인 성능 향상을 기대할 수 있다. 제안 Decoder 경량화 방법은 long range shape 정보를 가져올 수 있도록 self-attention 방법 가운데 axial attention을 활용하였다. 그러나, 이 방법은 기존에 axial attention~\cite{wang2020axial}이 적용해왔던 것처럼 모든 convolution을 axial attention으로 대체하게 되면 local texture 정보의 손실을 가져오게 된다. 이를 극복하면서도 경량화하기 위하여, StyleGan의 generator가 첫째, 둘째 레이어에서 shape 정보를 가져오는 것에 기반하여 Decoder의 앞단에 axial attention을 배치하였다. 또한, 가능한 적은 획수로 axial attention을 적용하여 local shape 정보를 잃어버리지 않게 하면서도 여러 layer에 적용한 효과를 거두기 위해 upsampling을 한 번에 8배를 진행하며서, upsampling 시에 axial attention 값으로 upsampling 하도록 하였다. 이를 통해, long range shape 정보와 local texture를 모두 잘 보존하는 디코더 경량화 네트워크를 제안하였다. 제안한 경량화 연구는 NYU v2 데이터셋과 KITTIT 데이터셋에서 성능 테스를 하였으며, KITTI에서의 성능 향상이 컸다. 이는, 제안한 방법이 long range shape 정보를 잘 보존하도록 구현된 네트워크이고, 도로와 같이 homogeneous하여 long range shape 정보가 중요한 영상에서 그 성능이 우수함을 확인하였다. 마지막으로, 이러한 거리측정 경량화 네트워크는 제조 환경에서 활용도가 높아, 치수측정 방법으로 거리측정을 활용하는 응용 연구도 진행하였다. 제조환경에서의 치수값은 기존의 depth estimation가 regression으로 다룬 continuous한 데이터가 아니라 discontinuity가 존재하는 어려움이 있다. 또한, texture 정보가 우리 주변의 texture보다 homogenous한 texture 정보를 포함하여, texture에만 의존해서 정확한 치수를 측정하기 어렵다. 이를 개선하기 위해, magnifier loss를 제안하여 texture의 미세한 변화를 증폭시켜 정확한 치수 측정을 할 수 있도록 하였다.

서지기타정보

서지기타정보
청구기호 {DRE 22008
형태사항 vi, 53 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김혜진
지도교수의 영문표기 : Junmo Kim
지도교수의 한글표기 : 김준모
수록잡지명 : "RRNet: Repetition-Reduction Network for Energy Efficient Depth Estimation". IEEE Access, v.8, pp. 106097 - 106108(2020)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 42-49
주제 Encoder-decoder network
Lightweight depth estimation
Computation
CPU
Mobile Graphical Processing Unit (GPU)
Long range shape
local texture
dimension measurement
manufacturing
인코더-디코더 네트워크
거리측정 네트워크 경량화
연산량
거리측정기술
CPU
모바일 GPU
원거리 형태 정보
국부 텍스쳐
치수측정
제조
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서