서지주요정보
Learning 3D object decomposition via natural language descriptions = 자연어를 활용한 3차원 객체 분할 학습
서명 / 저자 Learning 3D object decomposition via natural language descriptions = 자연어를 활용한 3차원 객체 분할 학습 / Juil Koo.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040824

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 23009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

We introduce PartGlot, a neural framework and associated architectures for learning semantic part segmentation of 3D shape geometry, based solely on part referential language. We exploit the fact that linguistic descriptions of a shape can provide priors on the shape’s parts – as natural language has evolved to reflect human perception of the compositional structure of objects, essential to their recognition and use. For training we use ShapeGlot’s paired geometry / language data collected via a reference game where a speaker produces an utterance to differentiate a target shape from two distractors and the listener has to find the target based on this utterance. Our network is designed to solve this target multi-modal recognition problem, by carefully incorporating a Transformer-based attention module so that the output attention can precisely highlight the semantic part or parts described in the language. Remarkably, the network operates without any direct supervision on the 3D geometry itself. Furthermore, we also demonstrate that the learned part information is generalizable to shape classes unseen during training. Our approach opens the possibility of learning 3D shape parts from language alone, without the need for large-scale part geometry annotations, thus facilitating annotation acquisition. This thesis is written based on a published paper that the candidate wrote as the first author.

본 학위논문에서는 3차원 객체의 의미론적 파트 분할을 파트에 대한 주석 없이 자연어로부터 학습할 수 있는 딥러닝 프레임워크인 PartGlot을 제시한다. 인간은 복잡한 물체를 단순한 파트들의 구조적 집합으로 인식 하며, 자연어는 의사소통 도구로서의 역할을 수행하기 위해 인간의 구조적 시각 인지 메커니즘을 반영하는 방향으로 발전해왔다. 이러한 사실을 기반으로 본 논문에서는 객체에 대한 언어적 묘사를 객체의 파트에 대한 사전 지식으로 활용하는 방법을 제시한다. 신경망의 학습을 위해서는 ShapeGlot에서 참조 게임을 통해 모은 3차원 객체-자연어 쌍 데이터를 사용한다. 참조 게임은 화자의 언어적 묘사를 통해 청자가 주어진 여러 객체 중 정답을 찾는 게임이다. 본 논문의 프레임워크는 이러한 멀티 모달 인지 분류 문제를 풀면서, 동시에 세밀하게 디자인된 트랜스포머 기반의 어텐션 모듈을 이용해 입력된 문장에서 묘사하고 있는 파트를 찾는다. 이러한 설계를 통해 3차원 객체의 파트에 대한 직접적인 주석 없이도 분할을 학습할 수 있다. 또한, 본 논문의 실험에서는 이렇게 자연어로부터 학습된 파트 정보가 학습 과정에서 본 적 없는 새로운 카테고리 의 객체에 대해서도 쉽게 일반화 가능하다는 것을 보인다. 본 논문의 방법은 자연어만으로 학습한 객체의 의미론적 파트 분할을 통해 3차원 객체의 파트 주석 수집을 용이하게 할 수 있는 가능성을 보여준다. 본 학위논문은 학위청구자가 주저자로 작성하여 출판한 논문에 기초하여 작성되었다.

서지기타정보

서지기타정보
청구기호 {MCS 23009
형태사항 iv, 40 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 구주일
지도교수의 영문표기 : Minhyuk Sung
지도교수의 한글표기 : 성민혁
수록잡지명 : "PartGlot: Learning Shape Part Segmentation from Language Reference Games". IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16505-16514(2022)
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 36-38
주제 3D Object Decomposition
Natural Language Processing
Multi-Modal Learning
Computer Vision
Computer Graphics
Deep Neural Network
Deep Learning
3차원 객체 분할
자연어 처리
멀티 모달 학습
컴퓨터 비전
컴퓨터 그래픽스
심층 신경망
딥러닝
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서