서지주요정보
Multidimensional mining of search logs based on topic-concept cube approach = 주제-개념 큐브 접근법에 기반한 검색 로그의 다차원 마이닝
서명 / 저자 Multidimensional mining of search logs based on topic-concept cube approach = 주제-개념 큐브 접근법에 기반한 검색 로그의 다차원 마이닝 / Dong-Yeop Kang .
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021837

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 10037

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In addition to search queries and the corresponding click-through information, search engine logs record multidimensional information about user search activities, such as search time, location, vertical, and search device. Multidimensional mining of search logs can provide novel insights and useful knowledge for both search engine users and developers. How can we develop a search engine service to support multidimensional mining of search logs effectively and efficiently? In this paper, we describe our topic-concept cube project which addresses the business need and answers several challenges. First, to semantically summarize a set of search queries and click-through data, we develop a novel topic-concept model which learns a hierarchy of concepts and topics automatically from search logs. Second, to handle a huge amount of log data, we develop distributed algorithms for learning model parameters efficiently. Third, we present alternative approaches for computing a topic-concept cube which supports multidimensional mining of search log data online. Last, we report an empirical study verifying the effectiveness and efficiency of our approach on a real data set of 1.96 billion queries and 2.73 billion clicks.

검색 엔진 로그에는 사용자의 검색 질의어와 해당 클릭 정보 뿐 아니라 사용자의 검색 활동에 관한 다차원의 정보를 기록한다. 예를 들어, 검색 시간, 장소, 버티컬, 검색 장비 등이 있다. 검색 로그의 다차원 마이닝은 검색 엔진 사용자들과 개발자 모두에게 새로운 통찰력과 유용한 지신을 제공할 수 있다. 그렇다면 이러한 검색 로그의 다차원 마이닝을 제공하기 위해 어떻게 효율적이고 효과적인 검색 엔진 서비스를 개발할 수 있을까? 본 논 문에서 주제-개념 큐브 연구를 소개하여 사업적 필요성을 충족시키고, 다음과 같은 연구적 문제들을 해결하려고 한다. 첫째, 검색 질의어와 클릭 정보들의 집합을 의미적으로 요약 하기 위해, 새로운 주제-개념 모델을 개발하였다. 이 모델은 검색 로그로부터 자동으로 개념과 주제들의 계층 관계를 학습한다. 둘째, 방대한 검색 로그를 처리하기 위해서, 분산 알고리즘을 통해 모델 변수들을 학습하였다. 셋째, 검랙 로그 데이터의 온라인 다차원 마이닝을 위해 주제-개념 큐브를 생성을 위한 대체적 접근방법들을 제안하였다. 마지막으로 우리가 제시한 방법의 효율성과 효과성을 증명하기 위해서 19.6억 개의 질의어와 2.73억 개의 클릭을 포함하고 있는 실제 로그 데이터에 실험을 하였다.

서지기타정보

서지기타정보
청구기호 {MCS 10037
형태사항 v, 31 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 강동엽
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References: p. 30-31
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서