Image captioning is a rising ?eld of study in Arti?cial Intelligence, since both computer vision and natural language processing are involved in this task. We propose a novel 2-layer Long Short-Term Memory network architecture for generating a caption which describes an image. Our model consists of two LSTMs which play different roles in generating sentences: one is combining visual attributes extracted from a convolutional neural network and the other is decoding it. We train an image feature extractor for the purpose of extracting multiple objects as well. Our model is validated with Microsoft COCO dataset, and the results show that it outperforms other state-of-the-art models in evaluation metrics, BLEU, METEOR and CIDEr.
사진 설명문 생성은 영상처리와 자연어처리가 모두 포함되어 있는 분야이기 때문에 인공지능에서 현재 가장 주목받고 있는 분야 중 하나이다. 우리는 2 단 LSTM 구조를 제안하여 사진을 설명할 수 있는 설명문 생성 알고리즘을 제시하였다. 우리가 제안한 모델은 두 개의 각각 다른 역할을 담당하고 있는 LSTM으로 구성되어 있다. 첫 번째 LSTM은 콘볼루셔널 뉴럴 네트워크로부터 추출된 사진 정보를 조합하여 좋은 특징 벡터를 만드 는 역할을 하고, 다른 하나는 특징 벡터를 통해 설명문을 예측하는 역할을 한다. 본 논문에서는 사진으로부터 다중 물체 정보 추출을 위해 새로운 학습 방법을 고안하였다. 최종적으로, 제안한 모델은 Microsoft COCO 데이터셋에 대해 BLEU,METEOR,CIDEr를 이용하여 측정하였고, 그 결과는 다른 논문에서 제안한 방법들에 비해 더 높은 성능을 보여주었다.