Perception is a crucial function for intelligent robots since most of the robots’ plans and actions should depend on the surrounding conditions. In recent years, deep learning-based robot perception has emerged as one of the most popular approaches, mostly due to its capability in generalizing to previously unseen but identical scenarios. While modern deep neural networks have shown extremely accurate performance in various downstream tasks, they often require tremendous computing resources. This effectiveness-efficiency tradeoff is an especially important issue in robot perception since the available computing resources are often limited, yet high accuracy and low latency are desired. In this thesis, we aim to address the effectiveness-efficiency tradeoff issue with the prototypical encoder, a lightweight neural network module that can be used to extract, transform, or generate new high-quality features in an efficient manner. A prototypical encoder operates by approximately modeling 2-ary interactions of elements in a set with a surrogate set of arbitrary size, which results in features with higher capacity compared to 1-ary functions. In addition, the computational complexity can be significantly reduced from conventional 2-ary functions by setting the surrogate set size to be smaller than the input set. We demonstrate the effectiveness and efficiency of prototypical encoders in two downstream applications: point cloud shape completion and multi-modal multi-task learning. In both applications, the prototypical encoder-based networks successfully outperform the baselines with a lower number of parameters and/or inference latency.
대부분의 로봇의 계획과 행동은 환경 조건에 따라 달라지기 때문에 인식은 지능형 로봇에게 중요한 기능이다. 딥 러닝 기반 로봇 인식은 이전에는 보이지 않았지만 동일한 시나리오로 일반화할 수 있는 능력 때문에 이 문제를 처리하는 가장 인기 있는 접근법 중 하나로 떠올랐다. 현대의 심층 신경망은 다양한 다운스트림 작업에서 매우 정확한 성능을 보여주었지만, 종종 엄청난 계산 리소스를 필요로 한다. 이러한 효율성-효율성 트레이드오프는 사용 가능한 컴퓨팅 리소스가 종종 제한되지만 높은 정확도와 낮은 대기 시간이 요구되는 로봇 인식에서 특히 중요한 문제이다. 본 논문에서는 적시에 새로운 고품질 기능을 추출, 변환 또는 생성하는 데 사용할 수 있는 경량 신경망 모듈인 프로토타입 인코더를 사용하여 효과-효율성 트레이드오프 문제를 해결하는 것을 목표로 한다. 프로토타입 인코더는 임의 크기의 대리 집합을 통해 세트의 모든 요소 쌍의 상호 작용을 대략적으로 모델링한다. 우리는 포인트 클라우드 형태 완성과 다중 모드 멀티태스킹 학습이라는 두 가지 다운스트림 애플리케이션에서 프로토타입 인코더의 효과와 효율성을 입증한다. 두 애플리케이션 모두에서 프로토타입 인코더 기반 네트워크는 매개 변수 수 및/또는 추론 지연 시간을 크게 줄여 경쟁력 있는 성능을 성공적으로 달성한다.