서지주요정보
Measuring popularity of machine-generated sentence using term occurrence and dependency language model = 어휘등장빈도와 의존관계언어모델을 이용한 기계생성문장의 대중성 측정
서명 / 저자 Measuring popularity of machine-generated sentence using term occurrence and dependency language model = 어휘등장빈도와 의존관계언어모델을 이용한 기계생성문장의 대중성 측정 / Jong Myoung Kim.
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029218

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 16017

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Natural language generation is widely used in variety of Natural Language Processing (NLP) applications. To improve the quality of generated sentences, appropriate evaluation criteria is critical. We investigated the notion of \popularity" for machine-generated sentences as a new criteria for sentence evaluation. We approached popularity of sentence from two perspectives: word and word sequence. We de ned a popular sentence as one that contains words that are frequently used, appear in many documents, and contain frequent dependencies. We measured the popularity of sentences based on three components: content morpheme count, document frequency, and dependency relationships. Language resources used for those three components were obtained by analyzing massive on-line document repository. Additionally, we attempted to improve search quality under the intuition: search queries that consist of popular terms retrieve greater number of results and increase the chance that these documents contain the desired results. In order to consider the characteristics of agglutinative language, we used content morpheme frequency instead of term frequency. The key component in our method is that we use the product of content morpheme count and document frequency to measure word popularity, and apply language models based on dependency relationships to consider popularity from the co-occurred words. We verify that our method accurately reects popularity by using Pearson correlations and the inuence of query popularity on search results using the mean reciprocal rank (MRR), precision-at-k (p@k) and individual comparison of search term pairs. Through these experiments, we demonstrate that our method has a high correlation with human judgments and that better search results can be obtained by considering the popularity of the query.

자연어 처리 분야에서 문장의 평가는 보다 나은 품질의 문장을 생성하기 위하여 반드시 필요한 과정이다. 그 중에서도 시간적, 금전적인 비용이 적으며 문장의 생성단계에 적용될 수 있는 자동평가의 쓰임은 점점 더 늘어나고 있다. 본 학위 논문에서 우리는 평범한 사람들의 대중적인 언어 사용을 자연어 문장 생성 단계에 반영할 수 있도록, 문장의 대중성을 측정하는 평가 방법에 대하여 논하고 있다. 우리는 이 문제에 대하여 "어휘 자체가 갖는 대중성"과 "어휘 사이의 문맥에 존재하는 대중성"이라는 두 가지 측면에서 접근하였다. 우리는 "어휘 자체가 갖는 대중성"을 고려하기 위해 의미형태소들의 사용 빈도와 문서 등장 빈도를 이용하였으며, "어휘 사이의 문맥에 존재하는 대중성"을 고려하기 위해 의존관계에 기반한 콜로케이션 언어 모델을 이용하였다. 이 과정에서 교착어의 일종인 한국어의 특성을 반영하기 위해 흔히 사용되는 어휘 빈도가 아닌 의미 형태소의 사용 빈도를 이용하였고, 일반적인 콜로케이션이 아닌 의존관계에 기반한 콜로케이션 언어 모델을 이용하였다. 우리가 제시한 대중성 측정 방법이 실제 사람이 느끼는 대중성을 얼마나 잘 반영하고 있는지 확인하기 위하여, 우리는 자동평가 방법의 검증에 가장 널리 사용되는 사람의 평가에 대한 피어슨 상관관계 분석을 이용하였고, 그 결과 0.77이라는 매우 높은 상관관계를 얻을 수 있었다. 또한 키워드 베이스로 구성되어 관련성이 높다고 판단되는 문서들을 제공하는 현존 검색 엔진에 대해 사람들이 자주 사용하는 표현으로 구성된 질의가 그렇지 않은 질의보다 검색에 용이할 것이라는 가정을 세웠다. 우리는 가정을 검증하기 위해, MRR, p@k, 개별 비교라는 세 가지 실험을 설계하였고, 세 종류 실험에서 모두 눈에 띄는 검색 결과의 향상을 얻을 수 있었다. 우리는 이 논문을 통해, 문장의 대중성이라는 새로운 개념과 평가 방법을 제시하였고, 이 평가 방법을 이용하여 검색 성능의 향상을 가져올 수 있음을 보였다. 우리는 대중성이 자연어 처리 프로그램의 문장 생성 단계에 적용되거나, 글쓴이를 추정하는 실험 등 다양한 분야에 적용될 수 있을 것이라고 생각한다.

서지기타정보

서지기타정보
청구기호 {MCS 16017
형태사항 v, 32 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김종명
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 27-29
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서