서지주요정보
텍스트에서 IS-A 관계 자동 추출 및 추론 = Automatic IS-A relation extraction & inference from text
서명 / 저자 텍스트에서 IS-A 관계 자동 추출 및 추론 = Automatic IS-A relation extraction & inference from text / 류법모.
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

8020364

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 09003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The web is evolving from a huge information and communication space into a massive knowledge and service repository. The Semantic Web is a vision of such evolution where machines can perform more of the tedious work involved in finding, sharing and combining information on the web. Ontology provides a sound semantic ground of machine-understandable description of digital content. Thus, the semantic web relies heavily on formal ontologies to structure data for comprehensive and transportable machine understanding. Therefore the proliferation of ontologies factors largely in the Semantic Web’s success. Current state of domain ontology development is still in its infancy in terms of both quantity and quality. IS-A relation, one of the most important components in ontology, is basic element for organizing knowledge. Thus, we exploit text mining approach to extract IS-A relations for high coverage, and apply machine learning and logical inference to guide reliability and stability of the acquired relations. In this thesis, we describe three factors of IS-A relation building process. 1) Domain specificity of terms, a term level necessary condition of IS-A relation, 2) IS-A relation extraction and verification process, and 3) a structural level IS-A relation reorganization process. In the first section, we suggest domain specificity of terms, a necessary condition for IS-A relation. The specificity is a measure to evaluate information quantity of terms. We assume that hyponym is more specific than hypernym in IS-A relation. So specificity of hyponym is higher than that of hypernym. The specificity is measured using distribution of modifiers and component words of terms. Because specific terms have sufficient information in themselves, they are rarely modified by other words in text. So their modifier distribution is simple. In the other view, because specific terms are created by attaching additional words to existing terms, multiword terms are more specific than single word terms. In the second section, we suggest two phase practical IS-A relation extraction model. In the first phase, we extract IS-A relation candidates using pattern matching approach. In the second phase, we filter incorrect candidates using binary classifier. We categorized incorrect IS-A relation candidates into entity boundary error, anaphora, syntactic ambiguity, pattern ambiguity and second characteristic error. For each error type, we suggest corresponding features for the classifier and verify the features. We also test IS-A specific features, including term specificity, which have been introduced many works and show their usability. We also exploit external resources to evaluate IS-A relation candidates. New patterns for IS-A relation are added automatically using extracted IS-A relations and their usages. The filter is iteratively re-trained using new training examples from IS-A relations built in the ontology learning process. In the third section, we suggest logical inference model to find implicit IS-A relation and reorganize taxonomy structure. We convert IS-A relations extracted in previous section into logical form based on description logic framework. Terms in the relations are converted into concepts based on their modifier-head structure, and the IS-A relations are converted into subsumption relations between the concepts. The converted logical forms are reorganized using inference engine. In this process, new relations are inferred or existing relations are deleted for the optimal structure of the taxonomy.

정보 공유와 통신 공간으로서의 웹이 지식 공유와 서비스 공간으로서의 웹으로 진화하고 있다. 시맨틱 웹은 웹에서 정보를 검색하고, 공유하고 조합하는 번거로운 일을 기계가 효율적으로 처리하기 위한 비전을 가능하게 하고 있으며, 온톨로지는 기계가 이해할 수 있는 디지털 컨텐츠를 안정적으로 생산하기 위한 시맨틱 웹의 기반 지식을 제공한다. 대규모의 잘 구조화된 온톨로지를 효율적으로 구축하는 일은 시맨틱 웹의 발전에서 중요한 역할을 하지만, 현재의 온톨로지 구축은 양과 질적인 면에서 아직 초기 단계에 있다. 온톨로지에서 가장 중요한 구성 요소 중 한 가지인 IS-A 관계는 지식을 조직화하기 위한 기본적인 구성 요소이다. 본 연구에서는 텍스트 마이닝 방법을 이용하여 풍부한 IS-A관계를 추출하여 도메인 커버율을 높이고, 신뢰도가 높은 관계를 획득하기 위하여 기계 학습 방법과 논리 추론 방법을 이용한다. 본 논문은 1) IS-A 관계 추출을 위한 한 가지 필요조건인 용어의 도메인 전문성 측정 방법, 2) 텍스트 마이닝 방법을 이용한 IS-A 관계 추출 및 검증 방법, 그리고 마지막으로 3) 구조 단위의 IS-A 관계 재조직화 방법을 제안하고 실험을 통하여 효용성을 검증한다. 첫 번째 단계에서, 용어의 분야 전문성 계산 방법을 제안한다. 용어의 전문성은 용어에 포함된 분야 전문적인 정보의 량을 정량적으로 평가한 척도이다. IS-A 관계에서 하위어는 상위어보다 더 전문적이기 때문에 하위어의 전문성이 상위어의 전문성보다 높다고 가정한다. 용어의 전문성은 텍스트에서 추출한 수식어의 분포와 용어의 구성 단어를 이용하여 계산한다. 전문적인 용어는 그 자체로 충분한 정보를 포함하기 때문에 텍스트에서 사용될 때 다른 단어의 수식을 상대적으로 적게 받는다. 따라서 수식어의 통계적인 분포가 단순하다. 또 다른 관점에서 전문적인 용어는 새로운 단어를 기존의 용어에 추가하여 생성되기 때문에 여러 개의 구성 단어로 구성된다. 두 번째 단계에서는 텍스트에서 IS-A 관계 추출을 위한 실용적인 모델을 제안한다. 먼저 패턴 매칭 방법을 적용하여 IS-A 관계 후보를 추출하고, 다음 단계에서 이진 분류기를 이용하여 오류가 있는 관계 후보를 필터링한다. 오류가 있는 관계 후보를 엔티티 인식 오류, 조응에 의한 오류, 구문 애매성 오류, 패턴 애매성 오류, 그리고 2차 특징 오류로 구분하고, 각각의 유형의 오류를 필터링하기 위한 자질을 제안하고 검증한다. 또한 용어의 전문성을 포함하여 기존의 많은 연구에서 제안하였던 IS-A 관계에 특화된 자질을 적용하고 유용성을 검증한다. 추가적으로 IS-A 관계 후보를 검증하기 위하여 기존 외부 자원을 이용한다. 발견한 IS-A 관계와 용례를 이용하여 자동으로 관계 추출을 위한 패턴을 확장한다. 한편 도메인의 변화를 반영하기 위하여 온톨로지 구축 과정에서 점진적으로 쌓여가는 관계를 이용하여 새로운 학습 데이터를 구축하고 필터를 새롭게 학습한다. 세 번째 단계에서는, 논리 추론 방법을 적용하여 텍스트에서 명시적으로 기술되지 않은 묵시적인 관계를 발견하고 분류체계 구조를 재조직화한다. 이를 위하여 앞 단계에서 추출한 IS-A 관계를 서술 논리 기반의 논리식으로 변환한다. IS-A 관계에 포함된 용어는 내부 구조를 표현하는 논리식으로 변환하고, IS-A 관계 자체는 포함 관계 (subsumption relation)을 이용하여 논리식으로 변환한다. 변환된 논리식은 추론 엔진을 이용하여 재조직화한다. 이 과정에서 새로운 관계가 추론되거나 중복된 관계가 삭제되어 최적화된 분류체계를 생성한다.

서지기타정보

서지기타정보
청구기호 {DCS 09003
형태사항 viii, 114 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Pum-Mo Ryu
지도교수의 한글표기 : 최기선
지도교수의 영문표기 : Key-Sun Choi
부록 : IS-A 관계 추출을 위한 패턴.
수록잡지정보 : "Determining the specificity of terms using inside-outside information: a necessary condition of term hierarchy mining". Information Processing Letters, v.100. Issue 2, pp. 76-82(2006)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 105-111
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서