Visual Question Answering (VQA) is a task which answers a question about a given image. So, a model for VQA needs understanding of images and questions, and reasoning method based on a given image and question. Previous researches on VQA are mainly focused on better reasoning and understanding of images or questions. However, in a real VQA application where a robot or a mobile device interacts with human, the VQA model should handle surrounding environment rather than an image taken at specific time. We name the task as Multi-view VQA (MV-VQA) when the object of the task is to get a word answer, and Multi-view Full Sentence VQA (MV-FSVQA) when the object of the task is to get a full sentence answer. We propose a question-driven object-based attention model for the tasks. Furthermore, we separately train a seq2seq model for FSVQA and MV-FSVQA task to get better full sentence answer unlike the baseline algorithm. We carried out various experiments on VQA, FSVQA, MV-VQA, and MV-FSVQA with MS COCO dataset and customized datasets. We show that our model achieves improvements over the baseline especially in Multi-view scenarios and demonstrate the feasibility of the proposed model for real application.
시각 질의 응답은 주어진 사진에 대한 질문에 답하는 문제이다. 따라서 시각 질의 응답 문제를 위한 모델은 사진과 자연어를 이해할 수 있어야 하며 주어진 사진과 질문을 바탕으로 추론할 수 있는 능력이 필요하다. 시각 질의 응답에 관련된 기존의 연구들은 주로 사진이나 자연어에 대한 더 깊은 이해나 더 나은 추론 능력에 초점을 두고 있다. 하지만 로봇이나 휴대 장비가 사람과 시각 질의 응답을 통해 상호작용하는 상황에서 시각 질의 응답 모델은 한 순간에 촬영한 사진이 아닌 주변 환경을 모두 고려한 답을 할 수 있어야 한다. 우리는 이런 상황을 고려하여 한 단어로 답을 얻는 문제를 멀티뷰 시각 질의 응답 문제, 한 문장으로 답을 얻는 문제를 멀티뷰 완전 문장 시각 질의 응답 문제라 이름을 붙였다. 이를 위해 우리는 질문 주도 물체 주의 모델을 제안했다. 또한 기존의 접근 방법과 달리 완전 문장 시각 질의 응답 및 멀티뷰 완전 문장 시각 질의 응답 문제를 더 잘 풀기 위해 시퀀스 투 시퀀스 모델을 별도로 학습하였다. 우리는 큰 데이터 세트와 직접 만든 데이터 세트로 시각 질의 응답, 완전 문장 시각 질의 응답, 멀티뷰 시각 질의 응답, 멀티뷰 완전 문장 시각 질의 응답 문제에 대해 다양한 실험을 수행했다. 우리는 제안된 모델이 비교 알고리즘에 비해 정확도가 높고 멀티뷰 시각 질의 응답과 멀티뷰 완전 문장 시각 질의 응답 문제에 특히 좋다는 것을 보였다. 또한 실제 적용을 위해서 제안된 모델이 실현 가능하다는 것을 로봇 실험을 통해 증명하였다.