서지주요정보
(A) novel term weighting scheme based on discrimination power = 질의 어절의 고유한 분별력에 기반한 어절 가중치 부여방법 연구
서명 / 저자 (A) novel term weighting scheme based on discrimination power = 질의 어절의 고유한 분별력에 기반한 어절 가중치 부여방법 연구 / Sa-Kwang Song.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022287

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 11010

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Term weighting for document ranking and retrieval has been an important research topic in Information Retrieval for decades. We propose a novel term weighting method that utilizes availability of past retrieval results consisting of the queries that contain a particular term, retrieval documents, and their relevance judgments. A term’s evidential weight, DP (Discrimination Power) which we propose in this paper, depends on the degree to which the mean weighting scores for the relevant and non-relevant document distributions are different in the relevance-judged past document collection. It also takes into account the rankings and similarity values of the relevant and non-relevant documents to make a compensation for incorrect positions or scores in the retrieved document list. The experiments were performed using two well-known open-source search engines, Terrier and Indri, and four different ranking models including TFIDF, DFR (Divergence From Randomness) BM25, Hiemstra Language Model, and Indri Language Model. Our experimental result using a standard test collection (TREC-3,4, and 5) shows that a term weighting scheme that incorporates the notion of evidential weights outperforms the four baseline scheme. It is interesting to note that we obtained the performance increase with only a small number of terms found in the relatively small number of past queries. An additional analysis of how the effectiveness changes as the number of terms having DP value increases shows that DP has strong applicability given a large set of queries because the effect of DP is in proportion to the number of DP terms. Further analysis shows the notion of evidential weight, not based on the entire collection but based on the relevance-judged documents, is clearly distinct from IDF. In addition, an experiment was performed and showed significant result on TREC Web Blogs collection to show the proposed method is feasible to apply to general Web search. As a result, we designed a new term weighting method that consists of TF, IDF, and DP (Discrimination Power).

텍스트 문서 검색에서 질의어 가중치 부여방법은 오랫동안 중요한 주제로써 많은 연구들이 수행되어 왔다. 전통적인 TFIDF, BM25, Language Model 등의 방법부터 근래에는 Learning to Rank와 같이 다양한 기계학습 기법을 이용한 가중치 부여방법 연구들이 진행되어 오고 있다. 본 연구는 기 개발된 가중치 부여방법을 검색 기록을 통해 개선하는 방법으로, 기존 검색 결과로부터 어절의 경험적 가중치를 습득하고 이를 활용하여 질의어 가중치를 개선하는 새로운 방법론을 제안한다. 어절의 경험적 가중치는, 질의어에 포함된 각 어절들이 대상 문서들을 적합/부적합 문서로 구분할 수 있는 정도를 수치화한 것이다. 경험적 가중치는 질의어의 분별력(DP: Discrimination Power)이라 정의하는데, 질의어의 문서 내 가중치, 검색 결과의 순서(Ranking) 및 유사도(Similarity) 정보, 대상 문서의 적합/부적합 여부 등을 기반으로 하나의 질의어가 문서들의 적합/부적합 여부를 구분할 수 있는 능력을 경험적 통계치를 통해 추출한 것이다. 질의어 분별력의 추출을 위한 실험으로, 잘 알려진 공개된 검색엔진 중 성능이 검증된 Terrier와 Indri를 사용하였고, 검색 모델로써 TFIDF, DFR(Divergence From Randomness)기반 BM25, Hiemstra Language Model, Indri Language Model 등을 적용하였다. 테스트 컬렉션으로는 TREC-3,4,5를 대상으로 하였고, 웹 블로그 검색에 적용하기 위해, TREC 2009에서 사용한 ClueWeb09 컬렉션을 사용하였다. 실험은 전통적인 확률 모델인 TFIDF, DFR BM25와 Language Model인 Hiemstra, Indri로 구분하여 적용하였고, 모든 검색모델에서 질의어 분별력(DP)의 적용이 검색 성능 향상을 가져옴을 검증하였다. 흥미로운 사실은 기존 검색결과로부터 학습된 분별력(DP)을 갖는 질의어의 수가 크지 않음에도 이러한 성능 향상을 가져왔다는 것과 그러한 질의어 수가 증가함에 따라 성능향상도 비례적으로 증가한다는 것이다. 또한, 질의어 분별력은 다수의 검색 결과로부터 추출된 통계적인 척도로써 대상 문서집합에 대한 질의어의 고유한 가중치라는 해석을 할 수 있다. 이는 역 문서빈도(Inverse Document Frequency)가 전체 문서집합 내에서의 질의어의 중요도를 의미하는 척도도 해석되는 점을 고려할 때 의미상 구분할 필요가 있다. 그리하여 상관관계 분석을 통해 본 연구에서 제안한 질의어 분별력(DP)와 역 문서빈도(IDF)를 비교하여 두 척도간에 유의한 상관관계가 없음을 보였다.

서지기타정보

서지기타정보
청구기호 {DCS 11010
형태사항 88 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 송사광
지도교수의 영문표기 : Sung-Hyon Myaeng
지도교수의 한글표기 : 맹성현
Appendix : 1, List of Microsoft learning to rank datasets. - 2, An example of performance increase in TREC-3. - 3, An example of performance increase in TREC-4.
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 70-75
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서