This paper considers a multimodal representation that associates image features to text such that the conditional probability of the next word given past n words and image features is defined by a neural language model for image retrieval and text generation. By contrast to previous representations, our representation is learned to resolve the issue of data sparsity that has been a deteriorative cause for any neural language model in the evaluation. Specifically, we make use of Kneser-Ney smoothing and skip-gram techniques in order to integrate each of them to a multimodal neural language model, e.g., the Modality-biased Log-bilinear model. As a result, the prediction for the next word using the conditional probability is developed to produce better contextual consistency within one unit of each modality, i.e., one sentence or one image. On the other hand, the correspondence of image and text is also enhanced. The representation is validated on the IAPR TC-12 and Attribute Discovery datasets for image retrieval and text generation, demonstrating improved performance on perplexity and BLEU-n criteria and effective shared representation learning.
본 논문에서는 신경 언어 모델을 활용하여 영상과 텍스트를 연관짓는 멀티모달 표현방법을 다룬다. 신경 언어 모델을 이용하여, 일정한 수의 이전 단어와 영상 특징을 조건으로 하는 다음 단어에 대한 조건부 확률이 계산되는데, 이를 통해 데이터베이스 내에서의 영상 복구(검색) 및 텍스트 생성의 과제를 수행할 수 있다. 이전의 표현방법들에 대비할 때, 제안되는 멀티모달 표현방법은 임의의 신경 언어 모델의 성능 평가에 있어 저하 요인이 되어왔던 데이터 희소성 문제를 해결하며 학습하게 된다. 구체적으로 Kneser-Ney 평활법과 스킵 그램 기법이 활용되는데, 각각을 모달리티 경사화된 로그 이중선형 모델(Modality-biased Log-bilinear model)과 같은 멀티모달 신경 언어 모델에 결합시키기 위함이다. 그 결과로, 조건부 확률을 이용한 다음 단어의 추정은 단일 모달리티의 단위 내에서의 문맥상 정확도가 개선되도록 변경되었다. 이 때, 단일 모달리티란 한 개의 영상 또는 한 개의 문장을 일컫는다. 한편, 영상과 텍스트 간의 일치도도 강화된다. 이 표현방법을 사용한 신경 언어 모델은 영상 복구 및 텍스트 생성의 과제에 대해 IAPR TC-12 및 Attribute Discovery 데이터셋을 이용하여 검증되었으며, perplexity와 BLEU-n 지표를 기준으로 개선된 성능을 나타내는 동시에 효과적인 공통 공간상 표현 학습방법을 증명한다.