From a couple of years ago, extensive research efforts have been devoted to the knowledge-based approach to information retrieval. These are usually based on thesauri that admit a variety of relations between control vocabularies called index terms. However, there have been few systems to offer sufficient functions enough to deal with domain dependent knowledge as well as domain independent one in storing and retrieving information. Accordingly, it is extremely difficult for an information seeker to get the documents relevant to his query without the aid of a domain expert or librarian.
This thesis aims at developing a knowledge-based information retrieval system that is easy for a naive user to use allowing to retrieve relevant documents effectively, without help. For this, it proposes a knowledge-based model that lets most of heuristics be represented in a simple and structured manner. As the knowledge is usually categorized by domain independent and domain dependent one, it separates the store of the knowledge into two boxes: domain independent knowledge Box (Ibox) and domain dependent knowledge Box (Dbox). Ibox is used as a graph-based thesaurus that permits "is-a" relation between index terms. Dbox describes domain-specific information, such as synonym relationship, some term relationships other than "is-a" relation, generation rules for complex compound phrases, and some heuristics for navigating Ibox. A Dbox is used as the front-end to Ibox that helps to convert the arbitrary terminology given by an IR user to the index terms implied in Ibox, and reflects domain dependent knowledge.
According to this, a system named HYKIS (Hybrid Knowledge-based Information retrieval System) is developed. In HYKIS, the query evaluation procedure, QEP retrieves the documents relevant to a query given as Boolean form, interacting with Ibox and Dbox. It first retrieves all related documents and takes the ones of highest rank by Rada's algorithm. We show that Rada's algorithm does not raise discontinuity near zero, nor counter-intuitive result in QEP, while it does in general situation.
It turns out that HYKIS mimics the way that a domain expert does to an information seeker so as to lead to effective retrieval.
정보 검색에 있어서 지식기반을 사용한 접근방식에 관한 연구가 몇년 사이에 많이 시도되고 있다. 이러한 방식들은 Index terms 라고 불리우는 Control Vocabularies 사이의 여러가지 관계를 표시하는 시소러스에 근거를 두고 있다. 그러나 정보를 저장하고, 검색하는 과정에서 Domain에 무관한 지식과 연관된 지식을 효율적으로 처리할 수 있는 기능을 제공하는 시스템은 거의 없기 때문에, 해당 Domain 전문가나, 전문 사서의 도움없이 정보검색자가 적당한 Query를 만들어서 필요한 정보를 찾는 것은 매우 힘들었다.
본 논문에서는 일반적인 사용자가, 전문가등의 도움없이 관련된 문서등을 효율적으로 쉽게 찾기위한 지식기반 정보검색시스템을 개발하는 방법에 관한 연구에 있다. 이에 따라서 전문가들의 여러가지 휴리스틱들이 쉽고, 구조적으로 표현될 수 있는 지식기반모델을 제안하였다. 일반적으로 지식은 Domain에 무관한 것과, 연관된 것으로 구분되기 때문에, 이것들을 각기 다른 2개의 Boxes인 Ibox (Independent 지식 Box), Dbox(연관 지식 Box)에 각각 수록한다. IBOX는 Index terms간의 "is-a"관계를 갖는 계층적 그래프형의 시소러스를 표시하고, DBOX는 "synonym" 관계와 같은 "is-a" 관계 이외의 terms 간의 관계, 복합구의 생성 방법, Ibox의 검사를 위한 Domain연관지식을 갖는 휴리스틱등을 표시한다. 즉 Dbox는 검색사용자에 의하여 주어진 임의의 용어를 Ibox에 포함된 Index terms로 바꾸어 주는 Front-end로서 사용되고, Domain연관지식을 반영한다.
이러한 모델에 따라서 HYKIS(HYbrid Knowledge-based Information retrieval System)을 개발하였고, 이 시스템에서는 불리안 형태로 된 질의어를 QEP에서 Ibox, Dbox등을 통하여 연관된 문서들을 먼저 축출한다. 축출된 후보문서들은 Rada의 알고리듬을 통하여 가장 관련이 많은 상위 순위의 문서들이 결과로서 검색된다. 이렇게 함으로서 Rada의 모델에서 설명할수 없었던 문제들을 해결됨이 보여주었다.
HYKIS가 효율적인 검색을 위하여 전문가들이 하는 방법들과 비슷하게 동작하여, 정보 검색자가 필요한 문서들을 찾게 한다는 것을 보여주었다.