서지주요정보
Temporal information extraction from Korean texts = 한국어 문서로부터의 시간 정보 추출
서명 / 저자 Temporal information extraction from Korean texts = 한국어 문서로부터의 시간 정보 추출 / Young-Seob Jeong.
저자명 Jeong, Young-Seob ; 정영섭
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8028798

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 16013

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Due to the increasing number of unstructured documents available on the Web and from other sources, developing techniques that automatically extract knowledge from the documents has been of paramount importance. Among many aspects of extracting knowledge from documents, the extraction of temporal information is recently drawing much attention, since the documents usually incorporate temporal information that is useful for further applications such as Information Retrieval (IR) and Question Answering (QA) systems. Given a simple question, ``who was the president of the U.S. 8 years ago?'', for example, a QA system may have a difficulty in finding the right answer without the correct temporal information about when the question is posed and what `8 years ago' refers to. To prior to the task of the temporal information extraction, it is required to define a representation scheme or an annotation language of the temporal information. The most popular annotation languages are TimeML and ISO-TimeML. Although they are desinged to represent various types of temporal information, they do not consider language diversity. That is, for language-specific characteristics, there are some languages that can not be properly annotated using the TimeML and ISO-TimeML. Korean language is one of such languages, so Korean TimeML (KTimeML) was proposed in 2009. However, the KTimeML also has some limitations. For example, it does not consider a lunar calendar although the temporal expressions of the lunar calendar appear often in Korean texts. It is also based on a morpheme-level annotation which is not practical to data distribution or data sharing. In this dissertation, a revised version of the KTimeML is proposed, and Korean TimeBank, which is constructed using a part of the new KTimeML, is proposed. With the Korean TimeBank, a system for temporal information extraction, namely ExoTime, is developed. Several Korean-specific challenging issues are discussed, and it will be explained how these issues are addressed by the proposed system. The proposed system makes use of Korean analyzer which gives POS tags, NE tags and results of dependency parsing. As the performance of Korean analyzer is not stable compared to the tools for English language, a new method for generating complementary features is also proposed. The complementary feature generation method is a data-driven model designed to be available to any language, and it generates syntactic and semantic features in an unsupervised way. The proposed system will have a huge impact on industry and various research fields, because the documents usually have the temporal information which must be useful for various applications.

문서 데이터의 양이 날로 증가하면서, 이들로부터 지식을 자동으로 추출해내기 위한 기술 개발의 중요성도 차츰 커지고 있다. 특히, 대부분의 문서에는 시간 정보가 포함되어 있으며, 이 시간 정보는 정보 검색 시스템, 질의응답 시스템 등의 다양한 응용 분야에 적용될 수 있기 때문에 시간 정보 추출을 위한 기술 개발의 필요성이 주목받고 있다. 가령, ``8년 전 대한민국의 대통령은 누구인가?''라는 질문이 질의응답 시스템에게 주어졌을 경우, 이 질문이 주어진 시점이 언제이며, `8년 전'이 언제인지에 대한 시간 정보를 인지하지 않는 한 정답을 제공하기 힘들어진다. 시간 정보 추출을 위한 기술 개발에 앞서 수행되어야 하는 것은 시간 정보를 주석하는 언어를 설계하는 것이다. 시간 주석 언어로서 가장 잘 알려진 것으로는 TimeML 과 ISO-TimeML 이 있다. 이 주석 언어들은 다양한 시간 정보를 표현 가능하도록 설계되었지만, 언어의 다양한 특성들을 충분히 고려하지 않았다는 약점이 있다. 다시 말해서, 언어적 특성 때문에 이 주석 언어들이 적용되기 어려운 일부 언어들이 존재하며, 한국어도 이러한 언어에 속한다. 그래서, 한국어를 위한 시간 정보 주석 언어인 Korean TimeML (KTimeML) 이 2009년에 제시되었다. 하지만, KTimeML 또한 몇 가지 한계점이 존재했다. 예를 들어, 음력 시간 표현이 한국어에서 간혹 등장하는 시간 표현임에도 불구하고, KTimeML 에서는 이를 주석하는 방법을 제공하지 않고 있다. 이 논문에서는 한국어의 특성을 충분히 반영하도록 개선된 KTimeML 을 새롭게 소개하였으며, 개선된 KTimeML 의 일부를 채택하여 구축한 데이터인 Korean TimeBank 도 소개하였다. 뿐만 아니라, Korean TimeBank 을 사용하여 한국어를 위한 시간 정보 추출 시스템인 ExoTime 을 제시하였다. ExoTime 시스템은 Korean analyzer 를 전처리기로 사용함으로써 얻는 원시자질들에 의존적인 경향을 보이므로, 이 원시자질에서 발생하는 에러가 시스템 내부에서 전파될 수 있다는 약점이 있다. 이를 극복하기 위해, 오직 텍스트만을 사용하여 보조적인 자질을 생성하는 모델인 Language Independent Feature Extractor(LIFE)를 설계하고 ExoTime 시스템에 적용하였다. 실험을 통해 ExoTime 시스템의 우수성을 증명하였고, LIFE 모델로부터 생성된 자질들이 ExoTime 시스템 성능에 미친 긍정적인 영향력도 분석하였다. 한국어 문서의 양이 차츰 늘어나는만큼, 이 문서들에 존재하는 다양한 시간 정보를 자동으로 추출하는 시스템을 개발하는 것은 매우 가치가 있다. 새롭게 제시한 한국어를 위한 시간 정보 주석 언어와 이를 바탕으로 구축한 Korean TimeBank, 그리고 종합적인 시간 정보를 추출하는 최초의 시스템인 ExoTime 은 그 가치가 무궁무진하며, 추후 여러 연구들과 산업에서 다양한 방식으로 적용될 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {DCS 16013
형태사항 vii, 110 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정영섭
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 84-93
주제 Temporal Information
Korean Texts
Temporal Information Extraction
Language Independent Features
Topic Modeling
시간정보
한국어문서
시간정보추출
언어비종속적자질
토픽모델링
QR CODE qr code