서지주요정보
위키피디아 스케일의 디비피디아 온톨로지 기반 개체명 코퍼스 구축 방법 연구 = A method for constructing wikipedia-scale named entity corpus based on dbpedia ontology
서명 / 저자 위키피디아 스케일의 디비피디아 온톨로지 기반 개체명 코퍼스 구축 방법 연구 = A method for constructing wikipedia-scale named entity corpus based on dbpedia ontology / 함영균.
저자명 함영균 ; Hahm, Young-Gyun
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026407

소장위치/청구기호

학술문화관(문화관) 보존서고

MWST 14002

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

We propose a novel method to automatically build Wikipedia-scale named entity corpus based on the DBpedia ontology. Most of named entity recognition system requires the time and effort consuming annotations task as training data. And also recent many named entity recognition system use a fine-grained taxonomy of type of named entity. However, existing named entity corpora do not meet the needs of these purposes and have limited research scope due to the difficulty of construction. As an alternative approach to overcome these problems, methods of construction of silver-standard corpora have been proposed. In this paper, we anlize the problems of existing gold/silver-standard corpora and define conditions of silver-standard corpora to suitable for training data. And we show how to construct Wikipedia-scale named entity corpus automatically and publish a corpus which meet the specified conditions of silver-standard.

본 논문에서는 위키피디아 스케일의 개체명 코퍼스를 디비피디아 온톨로지를 활용하여 자동으로 구축하는 방법을 제안한다. 대부분의 개체명 인식 시스템은 학습 데이터로서 개체명 코퍼스를 요구하는데, 이는 비용과 시간을 많이 요구하는 어노테이션 작업을 요구한다. 특히 최근의 개체명 인식 시스템들은 다양한 개체명 분류체계를 사용하며, 다양한 도메인에 대한 개체명 인식을 요구한다. 그러나 기존에 존재하는 개체명 코퍼스들은 그 구축의 어려움 때문에 이러한 최근의 요구에 부합하지 못하는 것이 사실이며, 또한 공개된 코퍼스들의 경우에도 특정 언어에 대해서만 공개된 경우가 많아 연구의 어려움이 있는 것이 사실이다. 이러한 문제를 극복하기 위한 대안으로서, 개체명 코퍼스를 자동으로 구축하는 silver-standard 코퍼스 구축에 관한 연구가 제시되었다. 본 논문에서는 기존의 gold-standard코퍼스는 물론 기존의 silver-standard 코퍼스들이 갖고 있는 문제들을 분석하고, 이러한 문제들을 극복할 수 있는 silver-standard 코퍼스로서의 조건을 밝히고, 그 조건에 부합하는 코퍼스를 구축하여 공개한다.

서지기타정보

서지기타정보
청구기호 {MWST 14002
형태사항 vi, 46 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Young-Gyun Hahm
지도교수의 한글표기 : 최기선
지도교수의 영문표기 : Key-Sun Choi
학위논문 학위논문(석사) - 한국과학기술원 : 웹사이언스공학전공,
서지주기 참고문헌 : p. 43-44
주제 코퍼스
개체명 인식
링크드 데이터
Corpus
Named Entity Recognition
Linked Data
QR CODE qr code