Depth estimation is an important task in various robotics systems and applications. In mobile robotics systems, monocular depth estimation is desirable since a single RGB camera can be deployable at a low cost and compact size. Due to its significant and growing needs, many lightweight monocular depth estimation networks have been proposed for mobile robotics systems. While most lightweight monocular depth estimation methods have been developed using convolution neural networks, the Transformer has been gradually utilized in monocular depth estimation recently. However, massive parameters and large computational costs in the Transformer disturb the deployment to embedded devices. In this paper, we present a Token-Sharing Transformer (TST), an architecture using the Transformer for monocular depth estimation, optimized especially in embedded devices. The proposed TST utilizes global token sharing, which enables the model to obtain an accurate depth prediction with high throughput in embedded devices. Experimental results show that TST outperforms the existing lightweight monocular depth estimation methods. On the NYU Depth $v2$ dataset, TST can deliver depth maps up to $63.4$ FPS in NVIDIA Jetson nano and $142.6$ FPS in NVIDIA Jetson $TX2$, with lower errors than the existing methods. Furthermore, TST achieves real-time depth estimation of high-resolution images on Jetson $TX2$ with competitive results.
단안 깊이 추정은 다양한 로봇 시스템과 애플리케이션에서 중요한 작업이다. 특히 모바일 로보틱스 시스 템에서는 단일 RGB 카메라를 저렴한 비용과 컴팩트한 크기로 배포할 수 있기 때문에 단안 깊이 추정이 바람직하다. 그 중요성과 필요성이 커짐에 따라 모바일 로봇 시스템을 위한 경량 단안 깊이 추정 인공 신 경망이 많이 제안되다. 대부분의 경량 단안 깊이 추정 방법은 컨볼루션 신경망을 사용하여 개발되었지만, 최근에는 트랜스포머가 단안 깊이 추정에 점차적으로 활용되고 있다. 하지만 트랜스포머의 많은 수의 파라 미터와 높은 연산 비용으로 인해 임베디드 디바이스에 적용하는 데 어려움이 있다. 본 논문에서는 임베디드 디바이스에 최적화된 트랜스포머를 사용하는 단안 깊이 추정을 위한 경량 인공 신경망을 제안한다. 제안된 경량 인공 신경망은 글로벌 토큰 공유를 활용하여 모델이 임베디드 디바이스에서 높은 처리량으로 정확한 깊이 예측을 얻을 수 있도록 한다. 실험을 통해 제안하는 경량 인공 신경망이 기존의 경량 단안 깊이 추정 방법보다 뛰어난 성능을 가짐을 알 수 있다. 특히 고해상도 이미지에서 제안하는 방법은 기존 방법들보다 낮은 오차로 임베디드 디바이스 및 모바일 디바이스에서 실시간 처리가 가능함을 보여준다.