서지주요정보
Noise-tolerant relation annotation for knowledge extension = 지식 확장을 위한 잡음 내성 관계 주석 기법
서명 / 저자 Noise-tolerant relation annotation for knowledge extension = 지식 확장을 위한 잡음 내성 관계 주석 기법 / Sangha Nam.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037500

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 21011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Knowledge learning or knowledge extension, which is a study that extracts knowledge from natural language texts, which is information in an unstructured form, plays a vital role in the field of natural language processing research. Relation extraction, a core task in the field of knowledge extension, is a task of classifying one of the predefined relation set between two entities in a sentence, and then expressing the extracted relation and the two entities as RDF triples that can be understood by a machine. Distant supervision is a method of automatically generating the relation annotation data for the relation extraction task. It has a strong assumption that ’when a sentence containing two entities in the RDF triple of the knowledge base is collected, the sentence will contain the meaning of the relation between the two entities.’ At this time, the sentence and the two entities are collectively called an instance. However, in the distant supervision data, there are many noise instances, that is, sentences do not contain discriminative evidence of the relation. In our observation, there is 48% noise in the Korean distant supervision dataset. This noise data degrades the performance of the relation extraction model, and noise gradually accumulates in the knowledge base, resulting in a problem that the quality of relation extraction training data and the model continues to deteriorate. To solve this problem, semi-supervised relation extraction (SSRE) studies using high-quality small-scale seed data have been conducted, however, to the best of our knowledge, no studies are starting from seed data with some noise. SSRE using noise seed data seeks to improve the quality of newly annotated labeled data and also improve the performance of the relation extraction model. Noise seed data can be easily collected by the distant supervision, or a large amount of data can be created with a relatively low cost using a crowdsourcing technique, thus it is easy to expand. To achieve this goal, this study proposes a method of noise-tolerant relation annotation for knowledge extension. As a result, we proved the superiority of our method by improving the performance of the relation extraction model by 10% by the method proposed in this study. After that, this study proposes a method of constructing a knowledge extension environment in the low-resource languages. In this study, as an actual example of the Korean language, four types of knowledge extension data were constructed based on our crowdsourcing method, and a knowledge extension framework was designed using this data. Moreover, we released the collected language resources and Korean knowledge extension API. Next, we propose a surface knowledge graph that generates one graph for the whole-sentence without the knowledge base ontology. Ontology-based knowledge extension has a problem in that a lot of information in the text is missed, then its utilization is reduced in applications such as question answering. Therefore, to solve this problem, we design and implement a Korean surface knowledge graph extraction system. This surface knowledge graph can be combined with an ontology-based knowledge graph, and also proved its excellence by showing its application in a question answering system. Finally, we define various problems that arise from the viewpoint of real-world knowledge extension and discuss practical solutions to each problem. We expect that the efficient data construction and knowledge extension framework proposed in this paper, the definition of various problems arising from the real-world knowledge extension, and their solutions will be one method to overcome the low resource knowledge extension environment.

비구조적 형태의 정보인 자연언어 텍스트로부터 의미를 파악하고 지식을 추출하는 연구인 지식 학습 또는 지식 확장은 자연언어처리 연구 분야에서 중요한 역할을 한다. 지식 확장 분야의 핵심 태스크인 관계 추출은 문장 내 두 개체의 관계를 미리 정의된 관계 세트 중 하나를 선택하는 문제이고, 이 태스크를 통해 추출된 관계와 두 개체를 RDF 트리플로 표현하여 기계가 이해할 수 있는 형태의 정보로 저장한다. 원격 지도 학습은 관계 추출 태스크의 학습 데이터인 관계 주석 데이터를 자동으로 생성하는 방법으로, ‘지식베이스의 RDF 트리플 내 두 개체를 포함하는 문장을 수집했을 때 그 문장은 두 개체의 관계를 뜻할 것이다’라는 강한 가정을 이용한다. 이때 문장과 두 개체를 묶어 인스턴스라고 칭한다. 하지만 원격 지도 학습 데이터에는 해당 관계를 뜻하지 않는 문장, 즉 노이즈 인스턴스가 다수 존재한다. 실제 한국어 위키피디아를 이용해 원격 지도 학습 데이터를 수집해본 결과, 노이즈의 비율은 48%에 달한다. 이 노이즈 데이터는 관계 추출 모델의 성능을 떨어뜨리고, 해당 모델로부터 추출된 지식으로 확장한 지식베이스에는 노이즈가 점차 쌓이게 되며, 그로 인해 관계 추출 데이터와 모델의 품질이 지속적으로 하락하는 문제가 발생한다. 이 문제를 해결하기 위해 고품질의 소규모 시드 데이터를 이용하는 준지도학습 관계 추출에 대한 연구가 수행되었으나, 아직 노이즈 시드 데이터를 이용한 준지도학습 관계 추출에 대한 연구는 거의 수행되지 않았다. 노이즈 시드 데이터를 이용한 준지도학습 관계 추출은 새롭게 주석된 학습 데이터의 품질이 향상함과 동시에 관계 추출 모델의 성능도 동반 상승할 수 있는 방법을 모색하는 것이다. 노이즈 시드 데이터는 원격 지도 학습 방식으로 손쉽게 수집하거나, 또는 크라우드소싱 기법으로 상대적으로 적은 비용과 시간으로 많은 양의 데이터를 만들 수 있어 확장성에 용이하다. 위 목표를 달성하기 위해, 본 연구에서는 시드 데이터 내 노이즈의 영향력을 억제하면서 자가 주석하는 방법을 제안한다. 그 결과, 본 연구에서 제안한 방법으로 관계 추출 모델의 성능을 10% 향상시켜 그 우수성을 입증하였다. 다음으로, 본 연구에서는 저-자원 언어에서 지식 확장 환경을 구축하는 방법을 제안한다. 본 연구에서는 한국어를 하나의 실제 예시로써 지식 확장 학습 데이터 4종류를 크라우드소싱 방법을 기반으로 구축하고 이 데이터를 활용한 지식 확장 프레임워크를 설계하였으며, 그 결 과로 수집된 언어자원과 한국어 지식 확장 API를 공개하였다. 다음으로, 지식베이스 온톨로지에 제약받지 않고 주어진 입력 텍스트 전체를 하나의 지식그래프로 생성하는 표층어휘 지식그래프를 제안한다. 온톨로지 기반 지식 확장은 텍스트 상에 있는 많은 정보를 놓치게 되어 질의응답 등의 응용에서 그 활용도가 감소되는 문제가 있다. 따라서 본 연구에서 이 문제를 해결하기 위해, 문장 전체 지식그래프에 대한 구조를 정의하고 실제 한국어 지식그래프화 시스템을 설계 및 구현하여 가능성을 확인하였다. 이 표층어휘 지식그래프는 온톨로지 기반 지식그래프와 결합 가능하고, 또한 지식그래프 기반 질의응답 시스템에서 응용됨을 보여 그 우수성을 입증하였다. 마지막으로 실제 환경에서의 지식 확장 관점에서 발생하는 여러가지 문제를 정의하고 각 문제에 대한 실제적인 해결책을 논의한다. 본 논문에서 제안한 자가 관계 주석 방법, 효율적인 지식 확장 데이터 구축 및 지식 확장 프레임워크 설계 방법과 실제 지식 확장 문제에서 발생하는 여러가지 문제 정의와 그 논의가 저 자원 지식 확장 환경을 극복하기 위한 하나의 해결 방법이 될 것으로 기대한다.

서지기타정보

서지기타정보
청구기호 {DCS 21011
형태사항 119+viii : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 남상하
지도교수의 영문표기 : Key-Sun Choi
지도교수의 한글표기 : 최기선
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 107-115
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서