한국과학기술원 도서관

서지주요정보
Multi-view full sentence visual question answering with full sentence answer network and question-driven object attention network = 멀티뷰 완전 문장 시각 질의 응답 문제를 위한 완전 문장 응답 네트워크와 질문 주도 물체 주의 네트워크
서명 / 저자	Multi-view full sentence visual question answering with full sentence answer network and question-driven object attention network = 멀티뷰 완전 문장 시각 질의 응답 문제를 위한 완전 문장 응답 네트워크와 질문 주도 물체 주의 네트워크 / Guhyun Chung.
발행사항	[대전 : 한국과학기술원, 2019].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8033754

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 19005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Visual Question Answering (VQA) is a task which answers a question about a given image. So, a model for VQA needs understanding of images and questions, and reasoning method based on a given image and question. Previous researches on VQA are mainly focused on better reasoning and understanding of images or questions. However, in a real VQA application where a robot or a mobile device interacts with human, the VQA model should handle surrounding environment rather than an image taken at specific time. We name the task as Multi-view VQA (MV-VQA) when the object of the task is to get a word answer, and Multi-view Full Sentence VQA (MV-FSVQA) when the object of the task is to get a full sentence answer. We propose a question-driven object-based attention model for the tasks. Furthermore, we separately train a seq2seq model for FSVQA and MV-FSVQA task to get better full sentence answer unlike the baseline algorithm. We carried out various experiments on VQA, FSVQA, MV-VQA, and MV-FSVQA with MS COCO dataset and customized datasets. We show that our model achieves improvements over the baseline especially in Multi-view scenarios and demonstrate the feasibility of the proposed model for real application.

시각 질의 응답은 주어진 사진에 대한 질문에 답하는 문제이다. 따라서 시각 질의 응답 문제를 위한 모델은 사진과 자연어를 이해할 수 있어야 하며 주어진 사진과 질문을 바탕으로 추론할 수 있는 능력이 필요하다. 시각 질의 응답에 관련된 기존의 연구들은 주로 사진이나 자연어에 대한 더 깊은 이해나 더 나은 추론 능력에 초점을 두고 있다. 하지만 로봇이나 휴대 장비가 사람과 시각 질의 응답을 통해 상호작용하는 상황에서 시각 질의 응답 모델은 한 순간에 촬영한 사진이 아닌 주변 환경을 모두 고려한 답을 할 수 있어야 한다. 우리는 이런 상황을 고려하여 한 단어로 답을 얻는 문제를 멀티뷰 시각 질의 응답 문제, 한 문장으로 답을 얻는 문제를 멀티뷰 완전 문장 시각 질의 응답 문제라 이름을 붙였다. 이를 위해 우리는 질문 주도 물체 주의 모델을 제안했다. 또한 기존의 접근 방법과 달리 완전 문장 시각 질의 응답 및 멀티뷰 완전 문장 시각 질의 응답 문제를 더 잘 풀기 위해 시퀀스 투 시퀀스 모델을 별도로 학습하였다. 우리는 큰 데이터 세트와 직접 만든 데이터 세트로 시각 질의 응답, 완전 문장 시각 질의 응답, 멀티뷰 시각 질의 응답, 멀티뷰 완전 문장 시각 질의 응답 문제에 대해 다양한 실험을 수행했다. 우리는 제안된 모델이 비교 알고리즘에 비해 정확도가 높고 멀티뷰 시각 질의 응답과 멀티뷰 완전 문장 시각 질의 응답 문제에 특히 좋다는 것을 보였다. 또한 실제 적용을 위해서 제안된 모델이 실현 가능하다는 것을 로봇 실험을 통해 증명하였다.

서지기타정보

서지기타정보
청구기호	{MEE 19005
형태사항	iv, 23 p. : 삽화 ; 30 cm
언어	영어
일반주기	저자명의 한글표기 : 정구현 지도교수의 영문표기 : Jong-Hwan Kim 지도교수의 한글표기 : 김종환
학위논문	학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기	Including references

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서