Automatic construction of a thesaurus for an information retrieval system is studied in this thesis.
In order to apply a clustering algorithm to a thesarus construction, clustering methods are studied. Theories of pattern recognition, classification, discriminant analysis, and information theory are applied to the clustering problem in information retrieval system. To get the similarities between key words, hypergeometric distribution property is used. And the irreducible matrix property is used to find the initial cluster. The criterion of similarity is given by Baysian procedure and by the other criterion derived from the information theory. The test whether the model is correct is done by comparing the keyword CR thesaurus constructed in Adam information retrieval system.
정보검색체계에서 thesaurus를 컴퓨터를 이용하여 자동적으로 만들기 위한 방법들이 본 논문에서 연구되었다. Clustering 방법들을 사용하여 thesaurus를 만들기 위하여 clustering에 관한 일반적인 이론들이 검토되었고 pattern recognition, classification, disoriminant analysis, 정보이론등이 정보검색체계의 clustering문제에 적용되었다. Keyword간의 유사성을 얻기 위하여 超기하 급수분표의 성질이 이용되었고 초기 cluster를 구하기 위하여서는 irreducible matrix의 성질이 이용되었다. Keyword와 초기 cluster간의 유사성의 기준은 Bayesian procedure의 결과와 정보이론의 결과를 이용하여 주어졌다. 모델의 타당성 여부는 Adam 정보검색체계에 구성되어 있는 keyword-CR thesaurus와 실험결과로 생긴 cluster와 비교하여 검사되었다. 컴퓨터를 이용하여 실험한 결과 초기 cluster가 최종 cluster원들중 60~80%를 차지하고 있음이 밝혀졌고 모델의 타당성은 입증되었다.