In this thesis, we propose an explainable image caption generation model by applying an attention mechanism and Bayesian inference. Image captioning task is the process of generating textual descriptions of a given image. In traditional studies, such tasks were addressed by directly combining computer vision techniques and natural language processing. Because deep learning has shown great performance in various applications, some recent studies have applied deep learning to image captioning leading to performance improvements compared to traditional approaches. However, these image captioning models cannot reflect the important objects in the given image when generating captions, because these models simply learn the direct correlation between the given image and a corresponding true caption sentence. Moreover, these models cannot explain why specific words are selected in the generated caption because of the lack of deep learning interpretability. To overcome these limitations, we propose a novel image captioning model, Explainable Image Caption Generator, which generates a caption for a given image by reflecting specific objects in the image, and by providing evidence explaining why specific words are generated. Our model is composed of two parts: the generation part, which generates the caption for a given image; and the explanation part, which generates the image--sentence relevance loss, which guides the generation part to capture the important objects in the image and to reflect them during training. Furthermore, the generation part provides a correlation matrix between extracted regions and generated words that can be used for visualizing the evidence of the words in the generated caption. We evaluate our model on three benchmark datasets: MSCOCO, Flickr8K, and Flickr30K. Qualitative results are provided for presenting the effectiveness of the explanation. Quantitative results for generated caption show that the proposed model outperforms traditional approaches both for quantitative and qualitative results.
본 학위논문에서는 어텐션과 베이즈 확률을 이용한 설명가능 이미지 캡션 생성 모델을 제안한다. 기존의 딥 러닝 기반의 이미지 캡션 생성 모델은 이미지 내의 중요한 오브젝트를 반영한 캡션을 생성할 수 없다. 뿐만 아니라, 캡션 생성 모델이 생성한 문장 내 단어들이 왜 생성되었는지 이유를 알 수 없다. 이러한 한계점을 극복하기 위해, 우리는 설명 가능한 이미지 캡션 생성기라는 새로운 이미지 캡션 생성 모델을 제안한다. 우리의 모델은 주어진 이미지 내의 중요한 오브젝트를 반영하여 캡션을 생성하고, 생성된 캡션 문장 안의 특정 단어들이 왜 생성되었는지에 대한 증거를 제공한다. 이를 위해 우리는 어텐션 모델과 베이즈 추론 기반의 해석능력 강화 모델로 구성된 설명 파트를 제안한다. 우리가 제안한 모델의 유효성을 입증하기 위해 세 개의 데이터셋을 사용하여 우리 모델이 생성한 결과에 대한 정성적, 정량적 실험 결과를 보여주고 우리가 제안한 모델이 기존 접근법보다 뛰어남을 보여준다.