한국과학기술원 도서관

서지주요정보
Image captioning with 2-layer LSTM network for combining visual attributes = 사진 정보 결합을 위한 2단 LSTM 구조를 이용한 사진 설명문 생성 알고리즘
서명 / 저자	Image captioning with 2-layer LSTM network for combining visual attributes = 사진 정보 결합을 위한 2단 LSTM 구조를 이용한 사진 설명문 생성 알고리즘 / Chang-Mo Nam.
발행사항	[대전 : 한국과학기술원, 2017].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8030644

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 17035

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Image captioning is a rising ？eld of study in Arti？cial Intelligence, since both computer vision and natural language processing are involved in this task. We propose a novel 2-layer Long Short-Term Memory network architecture for generating a caption which describes an image. Our model consists of two LSTMs which play different roles in generating sentences: one is combining visual attributes extracted from a convolutional neural network and the other is decoding it. We train an image feature extractor for the purpose of extracting multiple objects as well. Our model is validated with Microsoft COCO dataset, and the results show that it outperforms other state-of-the-art models in evaluation metrics, BLEU, METEOR and CIDEr.

사진 설명문 생성은 영상처리와 자연어처리가 모두 포함되어 있는 분야이기 때문에 인공지능에서 현재 가장 주목받고 있는 분야 중 하나이다. 우리는 2 단 LSTM 구조를 제안하여 사진을 설명할 수 있는 설명문 생성 알고리즘을 제시하였다. 우리가 제안한 모델은 두 개의 각각 다른 역할을 담당하고 있는 LSTM으로 구성되어 있다. 첫 번째 LSTM은 콘볼루셔널 뉴럴 네트워크로부터 추출된 사진 정보를 조합하여 좋은 특징 벡터를 만드 는 역할을 하고, 다른 하나는 특징 벡터를 통해 설명문을 예측하는 역할을 한다. 본 논문에서는 사진으로부터 다중 물체 정보 추출을 위해 새로운 학습 방법을 고안하였다. 최종적으로, 제안한 모델은 Microsoft COCO 데이터셋에 대해 BLEU,METEOR,CIDEr를 이용하여 측정하였고, 그 결과는 다른 논문에서 제안한 방법들에 비해 더 높은 성능을 보여주었다.

서지기타정보

서지기타정보
청구기호	{MEE 17035
형태사항	iii, 31 p. : 삽화 ; 30 cm
언어	영어
일반주기	저자명의 한글표기 : 남창모 지도교수의 영문표기 : Dae-Shik Kim 지도교수의 한글표기 : 김대식
학위논문	학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기	References : p. 28-29

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서