We present novel method for image-text multi-modal representation learning. In our knowledge, this
work is the first approach of applying adversarial learning concept to multi-modal learning and not
exploiting image-text pair information to learn multi-modal feature. We only use category information
in contrast with most previous methods using image-text pair information for multi-modal embedding.
In this paper, we show that multi-modal feature can be achieved without image-text pair information and
our method makes more similar distribution with image and text in multi-modal feature space than other
methods which use image-text pair information. And we show our multi-modal feature has universal
semantic information, even though it was trained for category prediction. Our model is end-to-end
backpropagation, intuitive and easily extended to other multimodal learning work.
인간은 다양한 감각으로부터 정보를 받아들이고 가공하여 뇌에서 처리한다. 사람은 영상을 보고 같은 의미를
가진 문장을 떠올릴 수 있으며, 문장을 보고 같은 의미를 가진 영상을 떠올릴 수도 있다. 기계학습에서도
사람이 가진 이러한 멀티모달 표현을 학습하기 위한 방법이 많이 연구되어 왔다. 특히 영상-문장 멀티모달
표현 학습이 많이 연구되었다. 기존의 연구들의 공통된 점은 영상-문장 짝 정보를 이용하여 멀티모달 표현을
학습하였다는 점이다. 본 연구에서는 적대적 역전파를 영상-문장 멀티모달 표현 학습에 적용하여 영상-문장
짝 정보를 이용하지 않고 분류 정보만을 이용하여 멀티모달 표현 학습을 하였다. 본 연구에서는 영상-문장 짝
정보를 사용한 기존의 연구보다 멀티모달 공간에서 영상과 문장이 더 유사한 분포를 가지는 멀티모달 표현을
학습하였다. 그리고 분류 실험, 문장을 이용한 영상 검색 실험을 통해 학습된 멀티모달 표현이 풍부한 의미
를 가지고 있음을 증명하였다. 향후 로봇과 사물인터넷 기기등이 받아들이는 정보의 감각이 다양해질수록
멀티모달 표현을 어떻게 학습할 것인지는 중요한 문제가 될 것으로 생각된다. 본 연구에서 제안한 멀티모달
표현 학습 방법은 영상-문장 뿐 아니라 다른 다양한 감각 멀티모달 표현 학습에도 방법의 변경 없이 적용이
가능해 쉽게 사용이 가능하다.