서지주요정보
Multimodal representation : Kneser-Ney smoothing/skip-gram based neural language model = 멀티모달 표현방법 : Kneser-Ney 평활법/스킵 그램에 기반하는 신경 언어 모델
서명 / 저자 Multimodal representation : Kneser-Ney smoothing/skip-gram based neural language model = 멀티모달 표현방법 : Kneser-Ney 평활법/스킵 그램에 기반하는 신경 언어 모델 / Mingoo Song
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029165

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 16054

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This paper considers a multimodal representation that associates image features to text such that the conditional probability of the next word given past n words and image features is defined by a neural language model for image retrieval and text generation. By contrast to previous representations, our representation is learned to resolve the issue of data sparsity that has been a deteriorative cause for any neural language model in the evaluation. Specifically, we make use of Kneser-Ney smoothing and skip-gram techniques in order to integrate each of them to a multimodal neural language model, e.g., the Modality-biased Log-bilinear model. As a result, the prediction for the next word using the conditional probability is developed to produce better contextual consistency within one unit of each modality, i.e., one sentence or one image. On the other hand, the correspondence of image and text is also enhanced. The representation is validated on the IAPR TC-12 and Attribute Discovery datasets for image retrieval and text generation, demonstrating improved performance on perplexity and BLEU-n criteria and effective shared representation learning.

본 논문에서는 신경 언어 모델을 활용하여 영상과 텍스트를 연관짓는 멀티모달 표현방법을 다룬다. 신경 언어 모델을 이용하여, 일정한 수의 이전 단어와 영상 특징을 조건으로 하는 다음 단어에 대한 조건부 확률이 계산되는데, 이를 통해 데이터베이스 내에서의 영상 복구(검색) 및 텍스트 생성의 과제를 수행할 수 있다. 이전의 표현방법들에 대비할 때, 제안되는 멀티모달 표현방법은 임의의 신경 언어 모델의 성능 평가에 있어 저하 요인이 되어왔던 데이터 희소성 문제를 해결하며 학습하게 된다. 구체적으로 Kneser-Ney 평활법과 스킵 그램 기법이 활용되는데, 각각을 모달리티 경사화된 로그 이중선형 모델(Modality-biased Log-bilinear model)과 같은 멀티모달 신경 언어 모델에 결합시키기 위함이다. 그 결과로, 조건부 확률을 이용한 다음 단어의 추정은 단일 모달리티의 단위 내에서의 문맥상 정확도가 개선되도록 변경되었다. 이 때, 단일 모달리티란 한 개의 영상 또는 한 개의 문장을 일컫는다. 한편, 영상과 텍스트 간의 일치도도 강화된다. 이 표현방법을 사용한 신경 언어 모델은 영상 복구 및 텍스트 생성의 과제에 대해 IAPR TC-12 및 Attribute Discovery 데이터셋을 이용하여 검증되었으며, perplexity와 BLEU-n 지표를 기준으로 개선된 성능을 나타내는 동시에 효과적인 공통 공간상 표현 학습방법을 증명한다.

서지기타정보

서지기타정보
청구기호 {MEE 16054
형태사항 iv, 24 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 송민구
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 19-21
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서