서지주요정보
Plausibility assessment of triples with distant supervision = 원거리학습을 활용한 트리플 타당성 평가
서명 / 저자 Plausibility assessment of triples with distant supervision = 원거리학습을 활용한 트리플 타당성 평가 / Soon Gill Hong.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032739

소장위치/청구기호

학술문화관(문화관) 보존서고

DKSE 18002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Building knowledge bases by extracting triples from text has attracted significant attention but introduced another fundamental problem: rampant triples with erroneous expressions which are rarely found in human expressions. Recent validation research has not paid much attention to the generators of expressions when validating triples. Machine-extracted expressions should be validated in a different way unlike human-generated expressions because they are extracted without intention or consciousness. Focusing on the plausibility assessment of triples, this research proposes a new plausible/nonsensical framework overlaid with a true/false framework. Then it conceptualizes the validation of machine-extracted triples as a two-step procedure: a domain-independent plausibility assessment and a domain-dependent truth validation only for plausible triples. Furthermore, this research introduces two learning methods. A distant supervision method consistently builds both positive and negative training data, eliminating the need for indefinable but obligatory negative training data. A lazy learning algorithm skips the generation of pre-defined models that have difficulty in dealing with triples various expressions. These algorithms also learn some form of semantic relationships that improve the performance of plausibility assessment. The experimental results support the proposed approach, which outperformed several unsupervised baselines. The proposed approach can be used to filter out newly extracted nonsensical triples and existing nonsensical triples in knowledge bases. It can be used on its own, or it can complement existing truth validation process. Extending background knowledge for better coverage and implementing converging algorithms remain for future investigation.

텍스트로부터 트리플(triple)을 추출해 지식베이스를 구축하는 연구는 많은 관심을 끌어왔지만, 사람의 언어표현에서는 찾아볼 수 없는 오류를 지닌 대량의 트리플을 생성하는 심각한 문제점을 야기하였다. 최근까지 진행된 트리플 검증 연구에서는 표현의 생성자가 누구인지에 대한 관심은 크게 두지 않았다. 하지만, 기계가 추출한 표현은 사람이 만들어낸 표현과는 다르게 검증되어야 한다. 왜냐하면 기계가 추출한 표현에는 사람과는 달리 어떤 의도(intention)나 의식(consciousness)이 없기 때문이다. 이 연구는 트리플의 진위 프레임워크(true/false framework)에 통합된 형태의 타당성 프레임워크 (plausible/nonsensical framework)을 제시함으로써 트리플의 타당성 평가(plausibility assessment)를 위한 새로운 방법을 제시하고 있다. 또한 이 연구는 기계가 추출한 트리플 검증을 위해 `도메인 독립적인 타당성 평가'와 `타당한 트리플에 대한 도메인 종속적인 진위 검증'이라는 두 단계의 절차도 제시한다. 이 연구에서는 두 가지 기계학습방법을 활용하고 있다. 우선, 원거리지도학습(distant supervision)방법을 활용하여 긍정훈련데이터(positive training data)와 부정훈련데이터(negative training data)를 일관된 방식으로 생성한다. 이 학습방법을 사용하면, 정의되기 어렵지만 학습에 반드시 필요한 부정훈련데이터를 생성하지 않아도 된다. 지연학습(lazy learning)은 트리플의 다양한 표현을 수용하기 어려운 전처리 모델(predefined model)을 굳이 생성하지 않도록 만든다. 이 알고리즘들은 일정한 형태의 시멘틱 관계(semantic relationship)도 학습할 수 있으며, 그 결과 타당성 평가 성능을 전반적으로 향상시킨다. 실험결과는 이 연구에서 제시된 접근방법이 여러 개의 비지도 기준시스템(unsupervised baseline)보다 뛰어난 성능을 보여준다. 제시된 접근방법은 텍스트로부터 추출된 트리플을 평가하거나 혹은 이미 지식베이스에 존재하는 트리플들을 평가하여 오류를 제거하는데 활용될 수 있다. 제시된 접근방법은 단독으로 사용될 수도 있고, 혹은 기존의 진위검증 시스템을 보완할 수도 있다. 향후 보다 다양한 트리플을 평가하기 위해서 백그라운드 지식을 확장하는 기법과 수렴 알고리즘의 개발에 대한 연구가 더 필요하다.

서지기타정보

서지기타정보
청구기호 {DKSE 18002
형태사항 vi, 73 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍순길
지도교수의 영문표기 : Mun Yong Yi
지도교수의 한글표기 : 이문용
학위논문 학위논문(박사) - 한국과학기술원 : 지식서비스공학대학원,
서지주기 References : p. 65-70
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서