분류 기법과 단서구문 학습 모델을 이용한 인과관계 지식추출 자동화 연구 = Causality extraction using classification and incremental cue phrase learning
서명 / 저자 분류 기법과 단서구문 학습 모델을 이용한 인과관계 지식추출 자동화 연구 = Causality extraction using classification and incremental cue phrase learning / 장두성.
발행사항 [대전 : 한국과학기술원, 2005].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

DCS 05030

휴대폰 전송







Causality or Causal relation refers to "the relation between a cause and its effect or between regularly correlated events." In this paper, we aim to extract possible causal relations that exist between noun phrases or short sentences. An improved approach was introduced in this paper for causality extraction. Previous works on the causality extraction mainly used the lexical pattern matching and WordNet. The causality pattern matching method has a limited performance since not all patterns guarantee the selected sentence to have causality. In cases where a dictionary or WordNet is used as the basis of causality, the unregistered words in the dictionaries hinder the search for correct causal relation. We use lexical patterns as a filter to find causality candidates and we transfer the causality extraction problem to the binary classification. With this approach, we managed to combine possible classification features and introduce any kind of learning method. The bootstrapping method was found useful for learning the Naive Bayes causality classifier on the raw corpus. The Naive Bayes classifier is bootstrapped from the initial classifier. The training data is the causality candidate ternary set that was filtered by cue phrases. As an initial classifier, we use a dictionary-based classifier which does not need the extra training sequence. Empirical results suggested feasible features for the causality extraction. Cue phrase and word pair probabilities are two of them. The cue phrase probability is defined as the probability of the cue phrase that connects causal event pairs. We define the word pair probability as the probability of the word pair that is part of causal event pairs. With this probabilistic model, we increase both precision and recall. Our causality extraction shows an F-score of 77.37%, which is an improvement of 21.14 percentage points over the baseline model. Noun class rank that is originated from dictionary showed good performance in such domain that dictionary works well. The main advantage of the proposed causality extraction model over that of Girju (2003) is the robustness. The proposed model empirically shows high performance without dictionary-based feature. The benefit of the binary tree-styled cue phrase expression is its ability to match the long distance causality. With this cue phrase expression and the incremental cue phrase learning method, we automate the cue phrase learning sequence. A better recall of 15.37 percentage points is acquired after the cue phrase learning. In summary, we proposed the improved methods on causality extraction and cue phrase learning. The results of evaluations were promising. The proposed causality extraction is used for the causal question answering. The causal question answering is available on the web; the causal browsing that uses the proposed system can be accessed there as well. We found direct/indirect causal relations with the proposed causality extraction. An overview of new causality-driven term clustering is also introduced. If two terms share the causal or resultant term, we can say these two terms has causal similarity. Empirical results from clustering experiments suggest the causal similarity works well as long distance collocation information in text mining systems.

인과관계란 서로 연관된 사건들의 원인과 결과의 관계를 의미한다. 이 논문에서는 문헌 상에 명시적으로 나타나는 인과관계의 추출을 자동화 하는 방안과 그 응용에 대해 논의하였으며, 인과관계 분석에 대한 새로운 접근 방법을 제시하였다. 기존의 인과관계 분석 방법은 대부분 패턴 매칭 방법이나 워드넷 등에 기반한 방법을 사용하고 있으나, 어휘 패턴을 자동화하기에는 어려움이 있었다. 이 논문에서는 어휘 패턴을 인과관계 후보를 찾기 위한 필터로 사용하여, 인과관계 분석의 문제를 이진 분류의 문제로 전환하였다. 인과관계 분석 문제를 이와 같이 단서구문 필터를 도입하여 이진 분류의 문제로 풀게 되면 기존의 어휘 패턴에 의존하던 단순한 방법에서 벗어나 여러 확률 분류 모델을 적용할 수 있다는 장점이 있다. 또한 텍스트 마이닝 기법에서 개발된 여러 형태의 학습 기법을 사용할 수 있으며, 인과관계에 도움이 될 수 있는 여러 형태의 속성들을 확률모델에 결합하여 시도해 볼 수 있는 여지를 제공하여 준다. 본 논문에서는 인과관계 분석에 확률 분류 기법을 도입하였으며, 원시 코퍼스에서 나이브 베이즈 분류기를 학습하기 위해 부트스트래핑 방법이 효율적임을 실험을 통해 밝혔다. 나이브 베이즈 분류기는 학습에 부담이 적은 초기 분류기로부터 학습이 시작된다. 또한 인과관계 분석을 위해 적합한 속성들을 제안하고 실험을 통해 밝혔다. 주요한 속성들은 단서구문 확률과 어휘 쌍 확률 등이다. 이들 확률 값을 이용하여 분석의 정확도와 재현률을 같이 높였다. 결과적으로 77.37%의 F-값을 보였으며 이는 사전 기반 분류 시스템에 비해 21.14%포인트 향상된 결과이다. Girju (2003)의 결정트리 기반 지도식 학습 방법에 비해 제안된 모델의 장점은 비지도식 학습이 가능함과 더불어 사전과 관련된 속성이 없이도 더 좋은 성능을 보였다는 점이다. 사전에 많은 어휘가 등록되어 있는 일반 영역에서는 사전에 기반한 속성인 명사 부류 순위를 같이 사용하면 더 좋은 결과를 보일 수 있었다. 제안된 구문트리 형식의 단서구문을 사용하는 잇점은 먼거리의 인과관계를 필터링할 수 있는 능력이다. 이러한 형식의 단서구문과 점진적 단서구문 학습 방법을 사용하여 단서 구문의 습득을 자동화하였다. 단서구문 자동화를 통하여 15.37%포인트의 재현률 향상을 얻었다. 종합적으로 인과관계 분석과 단서구문 학습에 향상된 새로운 방식을 제안하였으며 그 결과 또한 매우 긍정적이다. 제안된 인과관계 분석모델은 인과관계 질의응답을 위해서도 사용되고 있다. 인과관계 질의응답은 웹사이트에서 사용이 가능하며, 같은 곳에서 인과관계 브라우징도 사용할 수 있다. 인과관계 분석을 통하여 주어진 사건의 주변 사건들 간의 직/간접적 인과관계들을 탐색할 수 있다. 인과관계를 사용한 용어 군집화 방법이 제안되었다. 두 개의 용어가 동일한 원인이나 결과 용어들을 공유한다면, 이 두 용어들이 인과관계 유사성을 가진다고 말할 수 있다. 실험 결과 이 인과관계 유사성이 텍스트 마이닝 시스템에서 문장 내에서 먼 거리에 위치하는 문맥정보로 사용할 수 있음을 보였다. 사건 간 인과관계 분석 모델은 인과관계 지식 획득을 위한 모델이다. 이 모델은 인과관계뿐만 아니라 3진관계로 표현 가능한 지식의 획득 및 탐색 모델로 사용될 수 있다. 3진 관계로 표현 가능한 지식의 예는 정의문 구축에 사용될 수 있는 상하위어(IS-A) 관계, 부분-집합(PART-OF) 관계 등이 있다. 또한, 제안된 지식 획득 모델은 전문 영역 문헌으로부터 전문 지식의 획득 및 탐색을 위해 사용될 수 있으며, 이를 통해 고장 진단, 의료 상식 제공과 같은 전문 지식의 활용이 가능하다.


청구기호 {DCS 05030
형태사항 viii, 89 p. : 삽화 ; 26 cm
언어 한국어
일반주기 부록 : A, 단서구문. - B, 인과관계 추출 및 응용 시스템
저자명의 영문표기 : Du-Seong Chang
지도교수의 한글표기 : 최기선
지도교수의 영문표기 : Key-Sun Choi
수록잡지명 : "Incremental cue phrase learning and bootstrapping method for causality extraction using cue phrase and word pair probabilities". Information processing & management, (2005)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 72-81





이 주제의 인기대출도서