서지주요정보
Document ranking methods for thesaurus-based boolean retrieval systems = 시소러스를 기반으로 하는 불리안 검색 시스템을 위한 문서의 순의 결정 방법
서명 / 저자 Document ranking methods for thesaurus-based boolean retrieval systems = 시소러스를 기반으로 하는 불리안 검색 시스템을 위한 문서의 순의 결정 방법 / Joon-Ho Lee.
발행사항 [대전 : 한국과학기술원, 1993].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8003368

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 93010

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Information Retrieval (IR) systems provide users with relevant references satisfying their information need. A major role of IR systems, however, is not just to present relevant references but to help determine which documents are most likely to be relevant to the given requirements. IR systems should provide a sequence of documents which are ranked in decreasing order of query-document similarity. The ranked output makes it possible for users to minimize their time spent to find useful information. Therefore, the document ranking method is an important component of IR systems. Boolean retrieval systems have been most widely used among commercially available IR systems by reason of efficient retrieval and easy query formulation. When the boolean retrieval system uses the thesaurus as indexing vocabularies, it has additional advantages. First, since index terms are selected from the thesaurus, documents on the same topic can be retrieved by the same thesaurus terms regardless of terminology in the documents. Second, the ability to rank documents can be improved by using term dependence information from the thesaurus. In this thesis, we investigate document ranking methods which can be used in thesaurusbased boolean retrieval systems. Particular document ranking methods such as Relevance, R-Distance and K-Distance have been applied to thesaurus-based boolean retrieval systems. Though the methods effectively rank documents in many cases by using term dependencies, they have no effective weighting schemes for queries and decuments and also suffer from inappropriate evaluation of boolean operators. We propose the Knowledge-Based Extended Boolean Model (KB-EBM) incorporating the extended boolean model and the knowledge from the thesaurus. KB-EBM avoids the problems of the foregoing methods, and also provides high quality document ranking by using term dependence information. It has been argued that the conventional fuzzy set model based on the MIN and MAX operators is not appropriate as a model of IR systems. This is because the MIN and MAX operators have properties adverse to effective document ranking. Since the first introduction of fuzzy set theory a variety of fuzzy operators have been proposed, which can replace the MIN and MAX operators. We analyze the effect of the fuzzy operators on retrieval effectiveness and present the enhanced fuzzy set model based on positively compensatory operators. The operational properties of the enhanced fuzzy set model almost coincide with those of the extended boolean model. We construct the Knowledge-Based Set Model (KB-FSM) by applying the same procedure that use to develop KB-EBM. Performance experiments show that positively compensatory operators provide higher effectiveness than any other fuzzy operators. We also show through performance comparison that KB-FSM and KB-EBM simulate human behavior more closely than Relevance, R-Distance and K-Distance.

문서의 순위 결정 방법은 정보 검색 시스템의 중요한 구성 요소 중의 하나이다. 정보 검색 시스템은 검색된 문서에 대하여 순위 결정 방법을 적용함으로써 문서가 질의를 만족하는 정도를 나타내는 문서값을 계산하고, 계산된 문서값에 따라 문서들에 순위를 부여한다. 높은 순위를 갖는 문서일수록 질의에 대한 만족도가 크며, 사용자는 높은 순위를 갖는 문서를 우선적으로 검토함으로써 필요한 정보를 얻는데 소모되는 시간을 최소화할 수 있다. 불리안 검색 시스템은 짧은 검색 시간을 제공하고 질의를 비교적 쉽게 표현할 수 있기 때문에, 정보 검색 분야에서 가장 널리 사용되어 왔다. 불리안 검색 시스템이 문서의 색인을 위해 시소러스를 사용한다면, 다음과 같은 장점을 추가로 얻을 수 있다. 첫째, 색인어가 시소러스로부터 선택되기 때문에, 문서에서 사용된 특정한 용어에 관계없이 같은 내용을 갖는 문서는 같은 색인어에 의해 검색될 수 있다. 둘째, 색인어들 사이의 연관성 정보를 이용하여 문서값을 보다 정확하게 계산할 수 있다. 본 논문에서는 시소러스를 기반으로 하는 불리안 검색 시스템에서 사용될 수 있는 문서의 순위 결정방법에 대하여 고찰한다. 지금까지 Relevance, R-Distance, K-Distance와 같은 방법들이 시소러스를 기반으로하는 불리안 검색 시스템에서 문서의 순위 결정을 위하여 개발되었다. 이러한 방법들은 문서값 계산에 색인어들 사이의 연관성 정보를 이용함으로써 많은 경우에 높은 검색효율을 제공할 지라도, 가중치와 불리안 연산자에 대한 효율적인 연산 방법을 지원하지 않는다. 본 논문에서는 확장된 불리안 모델을 시소러스가 제공하는 색인어들 사이의 연관성 정보를 효율적으로 이용할 수 있도록 개선한 새로운 순위 결정 방법 KB-EBM 을 제안한다. KB-EBM은 기존 방법들의 문제점들을 극복하고, 또한 문서들의 순위를 보다 정확하게 결정한다. MIN과 MAX 연산자는 검색 효율을 저하시키는 특성을 지니고 있기 때문에, 이들을 이용하는 기존의 퍼지 집합 모델은 정보 검색 시스템을 위한 검색 모델로서 부적합한 것으로 알려져 왔다. 퍼지 집합 이론에 대한 연구가 시작된 이후로, MIN과 MAX 를 대신할 수 있는 다양한 퍼지 연산자들이 개발되어 왔다. 본 논문에서는 이러한 퍼지연산자들이 검색 효율에 미치는 영향을 분석하고, 긍정적 보상 연산자를 기반으로 하는 개선된 퍼지 집합 모델을 제안한다. 개선된 퍼지 집합 모델은 확장된 불리안 모델과 유사한 연산 특성을 지니고 있다. 따라서 KB-EBM의 개발에 사용된 과정을 적용함으로써 KB-FSM을 생성한다. 긍정적 보상 연산자를 사용하는 퍼지 집합 모델이 다른 종류의 퍼지 연산자를 사용하는 퍼지 집합 모델보다 높은 검색 효율을 제공함을 실험을 통하여 보인다. 또한, KB-FSM과 KB-EBM이 Relevance, R-Distance, K-Distance보다 사람과 유사하게 문서들의 순위를 결정함을 성능 비교를 통하여 입증한다.

서지기타정보

서지기타정보
청구기호 {DCS 93010
형태사항 118 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : 1, Experimental collection 1. - 2, Experimental collection 2. - 3, Experimental collection 3 and 4
저자명의 한글표기 : 이준호
지도교수의 영문표기 : Yoon-Joon Lee
지도교수의 한글표기 : 이윤준
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 Reference : p. 95-105
주제 Information retrieval.
Expert systems (Computer science)
시소러스. --과학기술용어시소러스
정보 검색 시스템. --과학기술용어시소러스
Boole 대수. --과학기술용어시소러스
지식 베이스 시스템. --과학기술용어시소러스
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서