서지주요정보
Deep semantic visual embeddings with spatial relationships = 공간적 위치 관계성을 고려한 의미론적 시각 임베딩
서명 / 저자 Deep semantic visual embeddings with spatial relationships = 공간적 위치 관계성을 고려한 의미론적 시각 임베딩 / Wonjun Yoon.
저자명 Yoon, Wonjun ; 윤원준
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033798

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MEE 19049

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

Understanding the relationships between objects in an image is an important problem in computer vision. Recently, methods for concerning the relationships have been proposed in many vision tasks, but there are few studies in the semantic-visual embedding problem. In this paper, we first propose a new dataset called R-CLEVR to concentrate on the relations between objects in semantic-visual problems, and we introduce an Object Phase Module (OPM) that focuses on relative locations of objects in an image. Experiments demonstrate that our proposed network with object phase module has the highest performance in cross-modal retrieval and phrase grounding problems on R-CLEVR datasets. Furthermore, our model demonstrates meaningful performance on MS-COCO dataset which has a relatively small number of object relations.

컴퓨터 비전 분야에서 이미지는 단순히 물체들의 집합이 아닌, 상호 연결된 하나의 거미줄과 같이 얽힌 네트워크로 물체간의 관계성을 이해하는 것은 중요한 문제이다. 최근에 이러한 관계성을 고려하는 연구들이 다양한 비전 분야에서 제시되어 왔으나, 의미론적 시각 임베딩의 문제에서 제시되어 온 연구는 거의 없었다. 이 논문에서는 의미론적 시각 임베딩 분야에서 물체간의 관계성에 초점을 맞추기 위한 데이터셋인 R-CLEVR 를 새롭게 만들었고 물체의 상대적 위치에 중점을 두는 물체 위상 모듈을 제안한다. 실험을 통하여 R-CLEVR 데이터셋에서 제안된 물체위상모듈이 적용된 네트워크가 멀티모달 반환과 문구를 그라운딩 하는 문제에서 가장 높은 성능을 보인다. 나아가 제안된 모델은 상대적으로 위치관계성이 덜 고려된 데이터셋인 MS-COCO 에 대해서도 의미있는 결과를 보인다.

서지기타정보

서지기타정보
청구기호 {MEE 19049
형태사항 v, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤원준
지도교수의 영문표기 : Dae-Shik Kim
지도교수의 한글표기 : 김대식
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 22-24
주제 Deep learning
computer vision
multi modal
image and text understanding
semantic visual embeddings
딥러닝
컴퓨터 비전
멀티모달
이미지-텍스트 이해
의미론적 시각 임베딩
QR CODE qr code