서지주요정보
Resolving homonymy with correlation clustering in scholarly digital libraries = 상관 군집화를 통한 학술 데이터베이스상의 동명이인 해결방법에 대한 연구
서명 / 저자 Resolving homonymy with correlation clustering in scholarly digital libraries = 상관 군집화를 통한 학술 데이터베이스상의 동명이인 해결방법에 대한 연구 / Jeong-In Ju.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8025227

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 13034

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As scholarly data increases rapidly, scholarly digital libraries, supplying tremendous scholarly data through convenient online interfaces, become more popular and important tools for researchers. However, because of the limitation of naming convention widely practiced in academic fields, a large number of scholarly publications often su er with the problem of correctly identifying authors with common names. Especially, the naming conventions such as abbreviating rst and middle names make it even harder to identify and distinguish authors with the same representation (i.e. spelling) of names. Several disambiguation methods have been suggested to tackle the problem but most of them require less practical inputs such as number of same-named authors, training set, or rich information about papers. Base on assumption that coauthors are likely to write more than one paper together, we propose an autonomous approach to group papers from the same author using the most common information, author lists. We employ various techniques to achieve the goal. First, we represent the input set of papers as a data matrix and reduce dimension of the matrix to nd groups of coauthors who appear frequently together. Second, we devise relative correlation distance measure suitable to the reduced space and apply it to density-based clustering which are used to cluster papers showing similar coauthors. Finally, we adopt a concept of summarization to represent cluster of papers as a single vector. We evaluate our method using publication records about 11 ambiguous names, and show that our approach results better disambiguation while keeping high purity of clusters compared to other four density-based clustering methods.

학술 데이터가 급속도로 늘어나는 현대에 있어, 전자 학술 데이터베이스(Scholarly Digital Libraries)는 학자들이 논문을 비롯한 학술 정보를 가장 손쉽고, 편리하게 접근할 수 있는 도구가 되어왔다. 하지만, 방대한 규모의 데이터와 학계에서 관습적으로 사용되는 저자 이름 표기법으로로 인해 동명 저자들의 논문들이 제대로 분류되지 못하는 문제점이 발생하고 있다. 특히, 중간 이름(middle name)과 이름(first name)을 축약해서 사용하는 이름 표기법은 동명의 저자들의 논문들을 구별하는 것을 더욱 어렵게 하여왔다. 이러한 동명분류 문제에 대해 과거에도 다양한 해결방법이 제시되어 왔지만, 대부분 데이터 셋 내부의 동명저자의 수, 학습 세트(Training set), 혹은 논문 내부의 다양한 정보등을 요구하고있어, 현재 학술 데이터베이스 상태를 고려해 보았을 때 현실적이지 못한 입력을 요구하는 한계점이 있었다. 이에 본 논문은 공저자들은 함께 논문을 빈번히 작성한다는 가정을 기반으로, 논문의 가장 기본적인 정보중에 하나인 저자 리스트만을 이용하여 논문들을 효과적으로 분류하는 방법을 제안하였다. 이를 위해 첫째, 우리는 논문들의 저자 데이터를 행렬형태로 표현하고 둘째, 차원 감소(Dimension Reduction)방법을 통해 불필요한 정보를 제거하고, 함께 자주 등장하는 공저자 그룹을 발견하였다. 셋째로, 줄어든 저차원 데이터에 적합한 새로운 거리 측량법을 고안하고, 이를 밀도 기반 군집화(Density-based clustering) 방법에 적용하여 유사한 공저자를 보이는 논문들을 묶어내었으며, 마지막으로 묶인 논문들을 하나의 벡터로 요약함으로서 새로운 논문들을 묶어낼 수 있도록 하였다. 우리는 유명 전자 학술 데이터베이스 중 하나인 DBLP에서 얻어낸 11개의 저자 이름에 대한 논문들을 데이터로 사용하여 제안한 방법의 성능을 평가하고, 다른 4개의 밀도기반 군집화 방법에 비해 효과적으로 문제를 해결함을 보였다.

서지기타정보

서지기타정보
청구기호 {MCS 13034
형태사항 iv, 23 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 주정인
지도교수의 영문표기 : Sue-Bok Moon
지도교수의 한글표기 : 문수복
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 21-22
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서