In this thesis, we have proposed a new training method which adds auxiliary tasks to existing models. For visual question answering problem, it is important to increase the mutual information among questions, images, and answers. By reconstructing features of the training data from answer, we were able to guide learning process more efficiently. The proposed method is not limited to a specific model, and it can also improve the performance of model while preserving the size of models.
이 논문은 시각적 질의 응답 문제를 해결하기 위하여 기존의 여러 모델에 여러 보조 과제를 추가하여 학습 데이터가 지닌 정보를 최대한 활용할 수 있는 학습 방안을 제시하였다. 시각적 질의 응답 문제 학습에 있어서 질문과 영상 그리고 답의 상호 정보량 높이는 것은 중요한데, 이 논문에서는 답으로 부터 학습 데이터의 질문 및 영상 특징 등을 재 구성함으로서 이를 수행하였다. 이 논문은 시각적 질의 응답 문제 해결을 위한 복잡한 새로운 모델을 제안하는 것이 아니라, 기존의 여러 모델들에 보조 과제를 추가하는 학습 방법을 제시하여 일반성을 가지고 모델의 복잡도를 올리지 않으면서 성능 향상을 도모한다.