서지주요정보
Attentive visual semantic embedding with multiple self-attention = 다중적 셀프 어텐션 접근을 이용한 이미지의 의미론적 임베딩
서명 / 저자 Attentive visual semantic embedding with multiple self-attention = 다중적 셀프 어텐션 접근을 이용한 이미지의 의미론적 임베딩 / Geon-Do Park.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036048

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 20034

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Visual-semantic embedding enables various tasks such as image-text retrieval, image captioning, and visual question answering. The key to successful visual-semantic embedding is to express visual and textual data properly by accounting for their intricate relationship. While previous studies have achieved much advance by encoding the visual and textual data into a joint space where similar concepts are closely located, they often represent data by a single vector ignoring the presence of multiple important components in an image or text. Thus, in addition to the joint embedding space, we propose a novel multi-view self-attention network to capture various components of visual and textual data by attending to important parts in data. Our approach achieves the new state-of-the-art results in image-text retrieval tasks on MS-COCO and Flicker30K datasets. Through the visualization of the attention maps that capture distinct semantic components at multiple positions in the image and the text, we demonstrate that our method achieves an effective and interpretable visual-semantic joint space.

시각적 의미론적 임베딩은 이미지 텍스트 검색, 이미지 캡셔닝 및 시각적 질문 응답과 같은 다양한 임무를 가능하게 하므로 컴퓨터비전과 언어 분야에서 중요하게 다루어 진다. 성공적인 시각적 의미론적 임베딩의 핵심은 두 모달리티간의 복잡한 관계를 고려하여 시각적 및 텍스트 데이터를 올바르게 표현하는 것이다. 이전의 연구에서 시각적 및 텍스트 데이터를 공동 공간에 유사한 개념이 밀접하게 위치하도록 인코딩함으로써 많은 발전을 이룩했지만, 이미지나 텍스트에 여러 중요한 구성 요소의 존재를 무시하고 단일 벡터로 데이터를 나타내는 경우가 많다. 따라서 공동 임베딩 공간에 인코딩 함에 있어, 데이터의 중요한 부분에 집중하여 시각 및 텍스트 데이터의 다양한 구성 요소를 캡처 할 수있는 새로운 멀티홉 셀프 어텐션 네트워크를 제안합니다. 우리의 접근 방식은 코코 데이터셋 및 플리커 3만 데이터 셋에 대하여 이미지 텍스트 검색 임무에서 최고의 성능을 달성함을 확인하였다. 이미지와 텍스트의 여러 위치에서 별개의 시맨틱 구성 요소를 캡처하는주의 맵의 시각화를 통해, 우리의 방법이 효과적이고 해석 가능한 시각적 시맨틱 조인트 공간을 생성함을 확인한다.

서지기타정보

서지기타정보
청구기호 {MEE 20034
형태사항 iii, 25 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박건도
지도교수의 영문표기 : Daeshik Kim
지도교수의 한글표기 : 김대식
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 21-23
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서