서지주요정보
Relation extraction from imbalanced data by independently estimating linguistic expressions = 언어적 표현의 독립적인 확률 추정을 통한 불균형 데이터로부터의 관계추출
서명 / 저자 Relation extraction from imbalanced data by independently estimating linguistic expressions = 언어적 표현의 독립적인 확률 추정을 통한 불균형 데이터로부터의 관계추출 / Gyu Hyeon Choi.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031443

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 17054

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Supervised Relation Extraction (RE) often comes with imbalanced datasets. Although advanced classifiers are achieving great performance on well-prepared datasets, it is hard to expect equivalent results on severely skewed data; underrepresented relation classes can be neglected. Data imbalance problem is more severe when a dataset contains many relations because most relations are in the long tail. This paper proposes an RE algorithm to learn from a dataset with imbalance. The algorithm independently estimates a probability (sample precision) of a pattern of dependency graph to express a certain relation. For efficiency, lattices are expanded with reasonable stopping conditions to collect dependency patterns. Since probabilities are independently estimated, it can be more resistant against the data imbalance problem. This paper includes the system description and an experiment to compare resistance with a standard classifier.

지도학습에 의한 관계 추출은 불균형 데이터셋을 수반한다. 비록 진보된 분류기가 고품질의 데이터셋에 대하여 뛰어난 성능을 보이고 있지만, 편향된 데이터로부터 비슷한 성능을 기대하기는 어렵다. 충분히 드러나지 않은 관계 클래스는 학습 과정에서 도외시될 소지가 있다. 데이터 불균형 문제는 학습해야하는 관계가 많아질수록 심하된다. 자주 쓰이는 몇몇 관계를 제외한 대부분의 관계는 롱테일에 속하기 때문이다. 본 논문에서는 불균형 데이터셋으로부터 관계추출 방법을 학습하기 위한 알고리즘을 제안한다. 제안하는 알고리즘은 표본의 정밀도를 계산하여 패턴이 관계를 표현하는 확률을 독립적으로 추정한다. 효율적인 학습을 위하여 레티스를 확장하는 방법을 통해 패턴을 수집한다. 특정 패턴이 관계를 표현하는 확률이 독립적으로 측정되기 때문에 데이터 불균형 문제에대한 영향을 덜 받게 된다. 본 논문은 제안하는 알고리즘을 이용한 시스템에 대한 설명과 데이터의 불균형 정도에 따른 관계추출 성능을 일반적인 분류기의 성능과 비교한 실험을 포함하고 있다.

서지기타정보

서지기타정보
청구기호 {MCS 17054
형태사항 iii, 20 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최규현
지도교수의 영문표기 : Key Sun Choi
지도교수의 한글표기 : 최기선
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References: p. 19-20
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서