서지주요정보
Memory & runtime efficient deep learning-based perception with prototypical encoder = 프로토타입 인코더를 통한 메모리 및 런타임이 효율적인 딥러닝 기반 인지 기술 연구
서명 / 저자 Memory & runtime efficient deep learning-based perception with prototypical encoder = 프로토타입 인코더를 통한 메모리 및 런타임이 효율적인 딥러닝 기반 인지 기술 연구 / Tirta Wijaya Kevin.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040559

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MRE 23006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Perception is a crucial function for intelligent robots since most of the robots’ plans and actions should depend on the surrounding conditions. In recent years, deep learning-based robot perception has emerged as one of the most popular approaches, mostly due to its capability in generalizing to previously unseen but identical scenarios. While modern deep neural networks have shown extremely accurate performance in various downstream tasks, they often require tremendous computing resources. This effectiveness-efficiency tradeoff is an especially important issue in robot perception since the available computing resources are often limited, yet high accuracy and low latency are desired. In this thesis, we aim to address the effectiveness-efficiency tradeoff issue with the prototypical encoder, a lightweight neural network module that can be used to extract, transform, or generate new high-quality features in an efficient manner. A prototypical encoder operates by approximately modeling 2-ary interactions of elements in a set with a surrogate set of arbitrary size, which results in features with higher capacity compared to 1-ary functions. In addition, the computational complexity can be significantly reduced from conventional 2-ary functions by setting the surrogate set size to be smaller than the input set. We demonstrate the effectiveness and efficiency of prototypical encoders in two downstream applications: point cloud shape completion and multi-modal multi-task learning. In both applications, the prototypical encoder-based networks successfully outperform the baselines with a lower number of parameters and/or inference latency.

대부분의 로봇의 계획과 행동은 환경 조건에 따라 달라지기 때문에 인식은 지능형 로봇에게 중요한 기능이다. 딥 러닝 기반 로봇 인식은 이전에는 보이지 않았지만 동일한 시나리오로 일반화할 수 있는 능력 때문에 이 문제를 처리하는 가장 인기 있는 접근법 중 하나로 떠올랐다. 현대의 심층 신경망은 다양한 다운스트림 작업에서 매우 정확한 성능을 보여주었지만, 종종 엄청난 계산 리소스를 필요로 한다. 이러한 효율성-효율성 트레이드오프는 사용 가능한 컴퓨팅 리소스가 종종 제한되지만 높은 정확도와 낮은 대기 시간이 요구되는 로봇 인식에서 특히 중요한 문제이다. 본 논문에서는 적시에 새로운 고품질 기능을 추출, 변환 또는 생성하는 데 사용할 수 있는 경량 신경망 모듈인 프로토타입 인코더를 사용하여 효과-효율성 트레이드오프 문제를 해결하는 것을 목표로 한다. 프로토타입 인코더는 임의 크기의 대리 집합을 통해 세트의 모든 요소 쌍의 상호 작용을 대략적으로 모델링한다. 우리는 포인트 클라우드 형태 완성과 다중 모드 멀티태스킹 학습이라는 두 가지 다운스트림 애플리케이션에서 프로토타입 인코더의 효과와 효율성을 입증한다. 두 애플리케이션 모두에서 프로토타입 인코더 기반 네트워크는 매개 변수 수 및/또는 추론 지연 시간을 크게 줄여 경쟁력 있는 성능을 성공적으로 달성한다.

서지기타정보

서지기타정보
청구기호 {MRE 23006
형태사항 vi, 72 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 위자야케빈 틸타
지도교수의 영문표기 : Seung-Hyun Kong
지도교수의 한글표기 : 공승현
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 65-71
주제 Deep learning
Efficient
Perception
딥 러닝
효율적
인지
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서