In addition to search queries and the corresponding click-through information, search engine logs record multidimensional information about user search activities, such as search time, location, vertical, and search device. Multidimensional mining of search logs can provide novel insights and useful knowledge for both search engine users and developers. How can we develop a search engine service to support multidimensional mining of search logs effectively and efficiently? In this paper, we describe our topic-concept cube project which addresses the business need and answers several challenges. First, to semantically summarize a set of search queries and click-through data, we develop a novel topic-concept model which learns a hierarchy of concepts and topics automatically from search logs. Second, to handle a huge amount of log data, we develop distributed algorithms for learning model parameters efficiently. Third, we present alternative approaches for computing a topic-concept cube which supports multidimensional mining of search log data online. Last, we report an empirical study verifying the effectiveness and efficiency of our approach on a real data set of 1.96 billion queries and 2.73 billion clicks.
검색 엔진 로그에는 사용자의 검색 질의어와 해당 클릭 정보 뿐 아니라 사용자의 검색 활동에 관한 다차원의 정보를 기록한다. 예를 들어, 검색 시간, 장소, 버티컬, 검색 장비 등이 있다. 검색 로그의 다차원 마이닝은 검색 엔진 사용자들과 개발자 모두에게 새로운 통찰력과 유용한 지신을 제공할 수 있다. 그렇다면 이러한 검색 로그의 다차원 마이닝을 제공하기 위해 어떻게 효율적이고 효과적인 검색 엔진 서비스를 개발할 수 있을까? 본 논 문에서 주제-개념 큐브 연구를 소개하여 사업적 필요성을 충족시키고, 다음과 같은 연구적 문제들을 해결하려고 한다. 첫째, 검색 질의어와 클릭 정보들의 집합을 의미적으로 요약 하기 위해, 새로운 주제-개념 모델을 개발하였다. 이 모델은 검색 로그로부터 자동으로 개념과 주제들의 계층 관계를 학습한다. 둘째, 방대한 검색 로그를 처리하기 위해서, 분산 알고리즘을 통해 모델 변수들을 학습하였다. 셋째, 검랙 로그 데이터의 온라인 다차원 마이닝을 위해 주제-개념 큐브를 생성을 위한 대체적 접근방법들을 제안하였다. 마지막으로 우리가 제시한 방법의 효율성과 효과성을 증명하기 위해서 19.6억 개의 질의어와 2.73억 개의 클릭을 포함하고 있는 실제 로그 데이터에 실험을 하였다.