서지주요정보
Community discovery for academic papers using both citation and attribute information = 인용 정보와 속성 정보를 고려한 학술 논문 커뮤니티 발견
서명 / 저자 Community discovery for academic papers using both citation and attribute information = 인용 정보와 속성 정보를 고려한 학술 논문 커뮤니티 발견 / Jung-Eun Kim.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8025250

소장위치/청구기호

학술문화관(문화관) 보존서고

MKSE 13004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The main goal of this thesis is to discover the high-quality communities for academic papers. Since tremendous amounts of academic papers have been published, many researchers experience diculties in exactly nding the papers in which they are interested. Community detection (or cluster discovery) can facilitate this task since it nds similar or relevant papers. Thus, community detection from academic papers has received a lot of attention, but it is still a challenging issue. Along this direction, citation analysis and attribute (e.g., content) analysis have been widely used. However, most existing methods focus on either citation analysis or attribute analysis, disregarding the other side. The novelty of this thesis is a complete merger between citation analysis and attribute analysis. Our approach constructs a network of academic papers by considering both types of information together and then performs clustering to obtain the communities of papers. In the network, an edge between two papers is created by considering both (i) the existence and importance of citations from one to the other and (ii) the attribute similarity between the two papers. In this way, the two types of information are considered at the same time, not sequentially. The optimal merger was empirically determined. Last, the e ectiveness of our approach was veri ed by extensive experiments. About half-million papers were crawled, and the full text was extracted from them for attribute analysis. The results show that our approach produces higher-quality communities compared with the baseline approaches that use either citation analysis or attribute analysis. Overall, we believe that our approach will be very useful for academic search engines.

본 논문에서 제안한 학술 논문 네트워크 구성 방법은 기존의 단순 인용 정보 기반, 단순 속성 정보 기반의 네트워크 구성과 나아가 이러한 네트워크를 대상으로 하는 커뮤니티 발견의 한계점을 극복하고자 한다. 또한 최근 구조적 정보와 속성 정보 모두 고려한 커뮤니티 발견 기법에 대한 연구가 진행되고 있으나 각각 정보의 중요도를 고려하지 못한다는 단점과 구조적 정보와 속성 정보가 순차적으로 적용됨으로써 야기되는 단점을 해결하고자 한다. 본 논문에서는 학술 논문의 인용 정보의 가중치와 속성 정보의 가중치를 모두 고려한 네트워크를 구성 방법을 제안하고 제안하는 방법에 대해 modularity based graph clustering 결과를 통해 평가를 수행하였다. 인용 정보와 속성 정보는 순차적인 적용이 아닌 독립적, 병렬적으로 분석되며 인용 정보와 속성 정보의 관계 정도에 따라 가중치를 부여하였다. 인용 정보의 가중치는 학술 논문의 전문을 분석하여 실제 인용 횟수를 기반으로 가중치를 적용하였으며 속성 정보의 가중치는 학술 논문의 context information을 기반으로 문서 간 유사도를 측정하고 유사도 값을 가중치로 적용하였다. 학술 논문 43만 여개의 데이터 셋에 대해 실험 결과, 세 가지 metric인 community coverage, normalized modularity, density 모두 제안하는 방법으로 네트워크를 구성하여 그래프 클러스터링 수행 할 때 클러스터의 품질이 우수하다는 것을 입증하였다.

서지기타정보

서지기타정보
청구기호 {MKSE 13004
형태사항 v, 36 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김정은
지도교수의 영문표기 : Jae-Gil Lee
지도교수의 한글표기 : 이재길
학위논문 학위논문(석사) - 한국과학기술원 : 지식서비스공학과,
서지주기 References : p. 32-33
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서