서지주요정보
(A) siamese network for aligning open information extraction relations to knowledge base relations = 샴 네트워크를 이용한 오픈 정보 추출 관계와 지식 베이스 관계의 정렬
서명 / 저자 (A) siamese network for aligning open information extraction relations to knowledge base relations = 샴 네트워크를 이용한 오픈 정보 추출 관계와 지식 베이스 관계의 정렬 / Rifki Afina Putri.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033977

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 19046

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Open Information Extraction (Open IE) is a system which produces an output in the form of triples from a large amount of text. A triple consists of two entities and a relation describing the relationship between those entities. Even though Open IE relations are more extensible than those used in a traditional Information Extraction system, the former are ambiguous and lack of semantics. Thus, we need a method to canonicalize Open IE relations. The existing approaches mostly use a clustering method to canonicalize triples without considering the information in an existing Knowledge Base (KB) consisting of triples with a predefined set of relations. Dutta et al. attempted to align Open IE relations with KB relations. However, they used a rule-based approach that requires human efforts to define the rules. Motivated by this problem, in this thesis, we attempt to canonicalize Open IE relations with KB relations by using a Siamese Network model. For training, we attempt to automatically generate a training dataset using a distant supervision approach rather than relying on a hand-labeled dataset. In the experiment, we show that our model performs better than the baselines.

오픈 정보 추출 시스템(Open IE)은 방대한 텍스트로부터 트리플 형태의 출력을 생산해내는 시스템을 말하며, 트리플은 두 개념과 이들 개념간의 관계로 구성된다. Open IE의 관계는 기존 정보 추출 시스템에서 사용되는 관계보다 확장성이 높지만, 의미가 애매하고 시멘틱이 부족하다는 단점이 존재한다. 따라서 Open IE의 관계를 정규화하는 방법이 필요하다. 이를 위한 기존의 접근 방법은 주로 군집화 방법을 사용해 트리플을 정규화하는 것이었다. 그러나 이러한 방법들은 사전에 정의된 관계 집합을 포함하는 트리플로 구성된 지식 베이스(KB)의 정보를 사용하지 않았다. 이에 Dutta et al.은 Open IE 관계를 KB 관계와 정렬하려고 시도하였으나, 사람이 규칙을 정의해야 하는 규칙 기반 접근 방식을 사용하였다. 이에 본 논문에서는 샴 네트워크 모델(Siamese Network)을 사용하여 Open IE 관계를 KB 관계로 정규화하는 방법을 제안한다. 모델의 학습을 위해, 우리는 사람이 직접 레이블을 붙인 데이터에 의존하기보다는 원거리 감독 방법을 사용하여 자동으로 학습 데이터를 생성하였다. 실험에서, 우리의 제안 모델은 베이스 라인보다 높은 성능을 보였다.

서지기타정보

서지기타정보
청구기호 {MCS 19046
형태사항 iv, 29 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 푸트리 리프키 아피나
지도교수의 영문표기 : Sung-Hyon Myaeng
지도교수의 한글표기 : 맹성현
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 25-27
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서