서지주요정보
Analyzing topic flows of entity groups using power-set hierarchy and poisson-dirichlet process = 멱집합 계층과 푸아송-디리클레 프로세스를 이용한 객체 집단들의 토픽 전개 분석
서명 / 저자 Analyzing topic flows of entity groups using power-set hierarchy and poisson-dirichlet process = 멱집합 계층과 푸아송-디리클레 프로세스를 이용한 객체 집단들의 토픽 전개 분석 / Young-Seob Jeong.
발행사항 [대전 : 한국과학기술원, 2012].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8023759

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 12037

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Topic mining has been regarded as a powerful unsupervised method to analyze documents. The research aim in this thesis is to get topic flows of entity groups within a document such as a fiction or a history, because there is no topic model designated to get topic flows of entities within one document although many topic models have been proposed. We propose two new topic models Sequential Entity Group Topic Model (S-EGTM) and Entity Group Topic Model (EGTM). EGTM is to get topics of a certain entity group which has more than or equal to zero entity, and S-EGTM is a sequential version of EGTM. Therefore, S-EGTM gets topic flows of entity groups within one document. There are four contributions: 1) the models get a topic distribution of a certain existing entity group; 2) a topic flow of each entity group over segments in one document will be captured; 3) each segment is annotated with entity groups; 4) the models get topics of entity groups without division of topics. We performed and explained six experiments. Topics and topic flows, which are obtained from the proposed models, are coherent with original documents. The proposed models show better prediction performances than other models.

내용 및 종류에 대한 정보가 없는 문서들의 자동 분석을 위해 연구되었던 여러 기법들 중에서, 토픽 마이닝은 그 유용성과 강력한 성능으로 잘 알려져있다. 토픽은 문서들을 구성하는 각 세부내용을 뜻하는데, 예를 들어, ‘식사 문화’를 다루는 문서들의 토픽들은 ‘한국의 식사 문화’, ‘일본의 식사 문화’ 등이 될 수 있다. 여러 토픽 모델들이 제시되어왔는데, 문서들을 시간 및 장소 차원에서 흐름을 분석하기 위한 토픽 모델들과, 문서에 존재하는 객체들, 이를테면 사람, 사물, 장소, 혹은 개념 등의 관점에서 토픽을 분석하는 모델들도 제시되었다. 특히, 소설이나 역사문헌과 같은 한 문서 내의 토픽의 흐름을 분석하는 연구가 최근에 수행되었는데, 이 연구들은 한 문서를 여러 단락들의 모음으로 취급하여, 단락들 사이의 토픽의 흐름을 분석하였다. 소설이나 역사문헌과 같은 문서 내에서 토픽의 흐름을 자동으로 얻음으로써, 독자들은 이야기의 흐름을 손쉽게 관찰할 수 있게 된다. 한편, 문서의 토픽을 각 객체 혹은 객체 쌍의 관점에서 분석하는 연구들은 존재하지만, 여러 객체를 포함할 수 있는 객체 집단의 관점에서 토픽을 분석하기 위한 토픽 모델이 제시되지 않았다. 또한, 소설이나 역사문헌과 같은 문서 내의 토픽의 흐름을 각 객체 집단의 관점에서 관찰하는 토픽 모델도 제시되지 않았다는 점에 착안하여, 본 학위 논문에서는 위 두 가지 목적을 달성하기 위한 두 개의 새로운 토픽 모델들을 제시한다. 제안하는 두 개의 모델들은 각각 Sequential Entity Group Topic Model (S-EGTM)와 Entity Group Topic Model (EGTM)이다. EGTM 은 한 문서만을 분석하기 위한 모델이 아니며, 특정 객체 집단의 관점에서 토픽을 얻을 수 있게 해준다. S-EGTM 은 EGTM 의 확장된 형태이며, 한 문서 내에서 토픽의 흐름을 분석하는 것을 목표로 한다. 이 새로운 모델들의 공헌은 네 가지이며, 다음과 같다. 첫째, 특정 객체들의 관점에서 토픽 분포를 구할 수 있다. 둘째, 문서 내에서 객체들의 토픽 흐름을 구할 수 있다. 셋째, 문서의 각 단락이 객체들로 태깅될 수 있다. 태깅된 단락을 분석하면, 문서에서 유용한 지식들을 얻을 수 있다. 넷째, 토픽들의 불일치 없이, 객체들의 토픽들을 구할 수 있다. 기존 모델들은 두 개 이상의 토픽 변수를 가지고 있고, 각 토픽을 생성하는 데에 서로 다른 데이터를 사용함으로써 토픽들의 불일치가 발생한다. 따라서, 객체 예측 실험 혹은 객체 집단 예측 실험을 통해, 제안하는 모델들이 토픽들의 불일치가 없이 더 좋은 성능을 내는 것을 증명한다.

서지기타정보

서지기타정보
청구기호 {MCS 12037
형태사항 v, 45 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정영섭
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 Reference : p. 40-41
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서