서지주요정보
Building word knowledge for information retrieval using statistical information = 정보검색을 위한 단어지식의 통계적 구축
서명 / 저자 Building word knowledge for information retrieval using statistical information = 정보검색을 위한 단어지식의 통계적 구축 / Young-Chan Park.
발행사항 [대전 : 한국과학기술원, 1997].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8008225

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 97030

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9005520

소장위치/청구기호

서울 학위논문 서가

DCS 97030 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Information Retrieval(IR) is the subfield of computer science that deals with the automated storage and retrieval of documents. In IR systems, a user submits a query to find documents for his/her information need. User query is a representation method to deliver user's need to IR system. User query, however, has individual varieties according to the users knowledge level and information needs. The property of user query can be characterized as following: subjectivity, incompleteness, and variety. Subjectivity of user query means that user query is generated from the subjective knowledge level of individual information needs. Incompleteness is a property that user's knowledge cannot be a complete one. The level of incompleteness differs from one user to another. Variety of user query can be described as users generally do not use exact same terms for a single concept. These characteristics of user query yield that IR should use knowledge to process user's query for finding their information needs. The use of knowledge can reduce the knowledge gap between a user and IR system. There are two main categories of the word knowledge in IR: domain knowledge and lexical knowledge. Domain knowledge represents the knowledge of the domain expert using the similarity of terms. While domain knowledge addresses the meaning coherence among terms, lexical knowledge deals with the individual knowledge on a specific term itself. Namely, lexical knowledge focuses on the variable form diversities in documents on a specific term. In this thesis, it is shown that the two major knowledge, domain knowledge and lexical knowledge, can be built by the statistical anaylsis. For the domain knowledge, Bayesian network is used to encode the statistical behavior of terms. The Collocation map, which is a particular instance of the Bayesian network for encoding term dependency relations, is shown to be useful for the task of automatic domain knowledge construction. The proposed similarity measure addresses the data sparseness problem which is crucial in constructing a domain knowledge. The usefulness of the domain knowledge, which is referred as thesaurus in this paper, built from the proposed method is demonstrated by testing the retrieval effectiveness in query expansion of a retrieval system. The precision and recall are compared with the results of other methods, and the average performance gain of 27.1% over the best results of other methods is very encouraging. For the lexical knowledge, the compound noun problem is mainly tackled. Previous methods for compound noun handling in information retrieval systems have been designed for English texts in which the compound nouns are less prevalent than Korean texts. This paper explains how the occurrence patterns are related with the compositive patterns for each compound noun and the information of such relations that can be mechanically acquired from texts is used in ranking the candidate documents for a given query. Especially, the individual lexical knowledge for each compound noun is constructed automatically and is used directly to the ranking process. This scheme is tested on Korean texts with are rich with the typical compound noun problems, but it is easily applicable to other languages.

정보검색이란 정보를 원하는 사용자로부터 질의를 입력받아 이에 해당하는 문서를 검색하여 주는 시스템을 의미한다. 사용자 질의는 사용자의 생각을 표현하는 수단으로 찾고자 하는 정보의 내용을 가리키게 된다. 그러나 사용자 질의는 사용자의 개개인에 따라 다양한 형태를 띠게 된다. 즉 정보검색 시스템은 사용자로 하여금 특정한 지식을 요구할 수 없으며, 특정 단어의 사용을 제약하는 것 또한 시스템의 성능을 저하시키는 요인으로 작용하게 된다. 사용자 질의의 특성은 주관성, 불완전성, 다양성을 띠게 된다. 주관성이란 사용자 개개인의 주관적인 지식체계에 따라 발생하는 특성이며, 불완전성이란 사용자가 자기가 원하는 정보를 완전히 이해하지 못하는 경우 그 질의 또한 불완전한 성격을 띠게 된다. 이러한 불완전성은 사용자마다 그 정도가 다르게 된다. 또한, 다양성이란 사용자마다 같은 개념을 나타내고자 할때, 사용자 특유의 단어 지식에 따라 다른 표현을 사용함을 의미한다. 이러한 사용자 질의의 특성을 검색 시스템에서 고려하는 방법으로는 검색 시스템 자체내에서 단어지식을 사용하여 사용자의 질의를 다시 재구성하는 방법이 사용되고 있다.(Forsyada,1986; Fox, 1986; Salton, 1989). 이러한 시스템내의 지식은 사용자마다의 지식의 차이를 고르게 하고, 사용자와 문서간의 지식의 차이를 극복하는 중요한 수단이 된다. 사용되는 단어지식은 크게 두 가지의 지식, 영역지식과 어휘지식으로 나뉜다. 영역지식은 전문가의 각 분야에 대한 단어의 지식을 의미하며, 단어와 단어간의 유사성을 주로 다루고 있다. 이러한 영역지식의 표현은 주로 시소러스라고 불리는 단어의 의미계층 분류등으로 나타내게 된다. 영역지식이 단어와 단어사이의 의미유사도를 다루고 있는 반면, 어휘지식은 단어 개개에 대한 지식을 나타낸다. 한 어휘는 문서내에서 다양한 행태를 보인다. `정보검색'이라는 한 개념은 문서에 따라, `정보검색', `정보의 검색', `정보 색인과 검색'등의 한 단어를 이루는 기본단어에 따라 합치고 나눔이 다양함을 볼수 있다. 본 논문에서는 단어 지식의 자동 구축에 있어서 영역지식, 어휘지식으로 나누어 구축하는 방법을 사용한다. 영역지식 구축은 단어의 통계적 행태를 모델링하는 공기지도(Collocation Map)을 사용하여 자료희귀문제에 대한 접근과 더불어 단어 유사도에 대한 정형적 접근방법 을 제시하고자 한다. 어휘지식에 대해서는 기존에 제시되어 온 사전 기반 또는 인식 규칙에 따른 방법론이 아닌 문서내에서의 통계적 행태 관찰에 따른 유형별 분리 모델을 사용하여 검색시스템의 검색 모델에서 사용하고자 한다.

서지기타정보

서지기타정보
청구기호 {DCS 97030
형태사항 vi, 70 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박영찬
지도교수의 영문표기 : Key-Sun Choi
지도교수의 한글표기 : 최기선
수록잡지명 : "Automatic thesaurus construction using bayesian networks". Information processing & management. Pergamon, vol. 6, no. 4, pp. 275-285 (1996)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 Reference : p. 65-70
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서