서지주요정보
Web search using query type classification = 질의 유형 구분을 이용한 웹 문서 검색
서명 / 저자 Web search using query type classification = 질의 유형 구분을 이용한 웹 문서 검색 / In-Ho Kang.
저자명 Kang, In-Ho ; 강인호
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015575

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 04015

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The massive and heterogeneous Web exacerbates IR problems and short user queries make them worse. Due to these difficulties, nowadays classic IR that focuses on content information is not enough to retrieve various types of answer documents. To compensate for the insufficiencies of content information, previous studies combined multiple types of evidence such as PageRank with content information. However, in some cases, the combination of multiple types of evidence degrades the retrieval performance of a search engine. Each type of evidence has designated queries and answer documents. The use of evidence for an inappropriate query degrades the retrieval performance. We have to use each type of evidence according to its properties. To do this, the analysis of a query is needed. In this work, we investigate the property of each type of information for a search engine according to a query type. In addition, we propose Web search and MctaSearch that exploit a query type. User queries can be classified into three types according to a user's intention; a topic relevance task, a homepage finding task, and a service finding task. The intention of a topic relevance task, a homepage finding task, and a service finding task are informational need, navigational need, and transactional need, respectively. We investigate the properties of content, link, and URL information according to a query type. In addition, we propose and investigate service link information that uses the existence of a service hyperlink for a service finding task. Each type of information shows different effect in Web search according to a query type. In a homepage finding task, combining link and URL information with content information improves the retrieval performance of a search engine. However, in a topic relevance task and a service finding task, it degrades the retrieval performance. In addition, retrieval algorithms such as TFIDF and OKAPI, also show different effect in Web search. Each type of information and retrieval algorithm has a designated query type. To classify a query type, we propose two classifiers that use differences in collections and tagged anchor texts respectively. The differences between text documents and site entry pages are used to distinguish a topic relevance task and a homepage finding task. Differences include distribution, Mutual Information, POS, and the usage rate as anchor texts of keywords in a query. In addition to the differences in two document collections, anchor texts are used to classify a query type. Each hyperlink related to an anchor text has an anticipated action with a linked object. Possible actions include reading, visiting, and downloading a linked object. We assign a possible action to each anchor text. We can assume the intention of a query with a tagged possible action. These tagged anchor texts can be used as a train query set for a query analysis module. We can collect a large-scale and dynamic train query set without human intervention. After we classified a user query with differences in two collections and tagged anchor texts, different retrieval algorithms and a different type of evidence are applied to a search engine to retrieve better results. To retrieve better results, we put high weight on content information for a topic relevance task, link and URL information for a homepage finding task, and service link information for a service finding task. We were able to achieve the highest retrieval performance when our proposed classification method was used with the OKAPI scoring. The classified category of a user query can also be used to a MetaSearch algorithm. An overlapped document usually has a high score in a MetaSearch algorithm. However, in a homepage finding task, the unit of overlap is not only a document but also a site. Unlike a query in a topic relevance task, a query in a homepage finding task usually has only one correct answer. The overemphasis of overlapped documents may degrade the performance of a MetaSearch algorithm. While an entry page is not easy to locate, a site is easy to locate. In this work, an enhanced overlapping algorithm that uses site overlap is proposed for a homepage finding task. We achieved 25.3% improvement of retrieval performance over commercial search engines.

인터넷의 발달로 인해 웹에서 얻을 수 있는 정보의 종류와 수는 급진적으로 증가하고 있다. 기존의 문서 위주의 구성에서 멀티미디어 서비스, 쇼핑몰 등 종류와 매체에 있어서 다양한 변화를 보이고 있다. 이에 따라 사용자가 요구하는 정보의 단위는 문서뿐만 아니라, 사이트 그리고 서비스 단위로 확장하고 있다. 전통적인 내용 기반의 검색으로는 사용자의 다양한 요구를 만족할 수 없다. 기존의 연구에서는 내용 기반 검색의 단점을 보완하기 위해 페이지랭크를 사용하기도 한다. 그러나 페이지랭크의 결합은 검색 성능의 저하를 초래하기도 한다. 이는 검색에 사용되는 정보들이 대상으로 하는 질의들이 존재하기 때문이다. 보다 좋은 결과를 얻기 위해서는 검색에 사용하는 정보의 특성을 분석하고, 질의에 따른 알맞은 정보의 사용이 필요하다. 본 연구에서는 사용자 질의를 구분하고, 각 유형에 따른 정보의 유용성을 분석한다. 구분된 사용자 질의 유형에 따라서 정보 검색을 수행하는 방법과 복수 개의 검색기가 제시하는 여러 결과를 결합하는 방법을 보인다. 웹 환경에서 사용자의 정보 요구를 나누어 보면 크게 세 가지로 볼 수 있다. 첫째로 원하는 정보를 설명하는 혹은 정보와 관련된 문서를 찾는 내용 기반 검색, 둘째로 사용자가 관심 있어 하는 개인이나 단체의 사이트 입구를 찾는 시작 페이지 검색, 셋째로 사용자가 관심 있어 하는 서비스를 제공하는 웹 페이지를 찾는 서비스 검색을 들 수 있다. 이러한 유형은 질의에 대해서 항상 하나만 해당하지는 않는다. 경우에 따라서, 질의가 여러 개의 질의 유형을 포함할 수 있다. 예를 들어, 상품 정보를 원하면서 이를 구매하고 싶어할 수도 있다. 본 연구에서는 질의어를 통해서 사용자의 요구 유형을 분류하는 방법을 보인다. 먼저 내용 기반 검색과 시작 페이지 검색을 구분하기 위해 일반 문서와 시작 페이지 문서 집합을 자동으로 구성한다. 구성된 문서 집합의 특징을 분석하여, 각 문서 집합의 차이점을 얻을 수 있는 정보를 추출하고 이를 요구 유형 추정에 사용한다. 문서 집합의 특성에 더하여 하이퍼링크의 유형에 따른 중요 어구를 추출하여 사용한다. 이를 통해 시작 페이지 검색과 서비스 검색에 사용하는 유용한 어구를 추출하여 적용할 수 있다. 질의어 유형에 따라서 검색에 사용되어야 할 정보는 차이를 보인다. 내용 기반 검색을 위해서는 문서 내부의 정보나 다른 문서 집합을 통한 현재 문서의 페이지랭크가 유용한 반면, 시작 페이지 검색을 위해서는 사이트 내에서 문서의 상대적인 위치에 따른 정보가 유용하다. 마지막으로 서비스 검색을 위해서는 사용자와의 작업을 구현하는 장치의 빈도 정보가 유용하다. OKAPI를 기본으로 문서를 추출하고 각 정보를 결합하여 문서를 순위화할 경우, 세가지 유형에 있어서 좋은 성능을 얻을 수 있었다. 이러한 질의 유형 구분은 메타 검색에도 사용할 수 있다. 일반적으로 문서 단위의 중복은 결합 시 중요한 근거 자료로 사용된다. 그러나 시작 페이지 검색의 경우 사이트 단위의 중복 또한 중요한 근거 자료로 사용할 수 있다. 본 연구에서는 사이트 단위의 중복을 고려하는 SiteSUM이라는 새로운 메타 검색 기법을 보인다. SiteSUM을 적용한 결과 25.3%의 성능 향상을 얻을 수 있었다.

서지기타정보

서지기타정보
청구기호 {DCS 04015
형태사항 ix, 82 p. : 삽도 ; 26 cm
언어 영어
일반주기 Appendix : Systems that were presented in TREC-2001 web track
저자명의 한글표기 : 강인호
지도교수의 영문표기 : Gil-Chang Kim
지도교수의 한글표기 : 김길창
수록잡지명 : "Incremental pageranking for newly crawled web pages". International journal of computer processing of oriental languages, v.16 no.1,(2003)
수록잡지명 : "Integration of multiple evidences based on a query type for web search". Information processing and management
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 76-82
주제 WEB SEARCH
QUERY TYPE
문서 검색
질의 유형
QR CODE qr code