Extended Author-Topic Model (EATM) to extract more specific author information in problem and solution perspectives is proposed. EATM is an extended model based on existing approach, Author-Topic Model(ATM) which proposed an unsupervised learning technique for extracting information about authors and topics from large text collections. Especially, the proposed model is designed to extract topic distribution of authors in prob-lem and solution perspectives. In research papers, there are two subject matters commonly understood, problem and solution. Problem and solution refer to a key objective to achieve in a research work and a sort of techniques with which authors solve the problem, respectively. EATM represents documents as if they were generated by a sort of stochastic process. An author is represented by a probability distribution over topics and perspectives. A topic is represented as a probability distribution over words. A perspective is also represented as a probability distribution over words, but the stochastic process is controlled in initial stage. The topic-word and author-topic distributions are learned from data in an unsupervised manner using a Markov chain Monte Carlo algorithm. To achieve the goal of our research, we address two technical challenges. First, topic assignment boundary is changed from sentence to phrase. It relies on dataset and perspective. Second, the preprocessing step using as-signed phrase extension is needed to a richer number of initialized phrases. We apply the proposed model to text collections which include research papers from four of major conferences in computer science. We discuss the interpretation of the results discovered by the model with specific topics and authors and give a prominence to the results discovered by both perspectives. We show the different ranking of authors discovered in each per-spective and illustrate reviewer recommendation as an applications to emphasize differences between the author-topic model and our proposed model. The experiment based on perspective prediction is conducted to validate the model rather indirectly.
본 논문에서는 문제와 해결책 관점에서 보다 구체적인 저자 정보를 추출하는 Extended Author-Topic Model (EATM)를 제안하였다. EATM은 대용량 문서 집합들에서 저자와 주제에 관한 정보를 추출하기 위한 비감독 학습 기법으로서 제안되었던 기존 기법인 Author-Topic Model (ATM)을 기반으로 확장된 모델이다. 특히, 제안 모델은 문제와 해결책 관점에서 저자의 주제 분포를 추출하도록 설계되었다. 일반적으로 연구 논문은 문제와 해결책이라는 핵심 주제를 포함한다. 문제는 연구에서 주로 달성하고자 하는 목적이고, 해결책은 저자들이 그 문제를 해결하는데 사용하는 기법이다. EATM은 2단계 확률론적 처리과정으로 생성된 문서들을 나타낸다. 한 명의 저자는 문제 및 해결책 관점 양쪽에서 주제들의 확률 분포로 표현된다. 단일 주제는 단어들의 확률 분포로 표현된다. Markov Chain Monte Carlo 알고리즘을 이용한 비감독 방식을 사용하여 데이터로부터 주제-단어 및 저자-주제 분포를 학습한다. 우리의 연구 목적인 문제와 해결책 관점을 적용하기 위해 두 가지 기술적 도전이 요구된다. 첫째, 우리의 데이터에서 주제 분포를 잘 나누기 위해 주제와 관점의 할당 경계를 문장 단위에서 구 단위로 변경하였다. 둘째, 초기화되는 구의 개수를 늘리는 특수한 전처리 과정이 필요하게 되었다. 우리는 전산학 분야의 4가지 주요 학술대회에서 수집된 연구 논문 데이터를 제안 모델에 적용하였다. 그리고 특정 주제와 저자 정보를 가진 모델의 결과해석에 대해 토론하고, 양쪽 관점에서 발견된 결과의 중요성을 제시한다. 우리는 각 관점에 따라 저자들이 서로 다른 유사성 순위를 가질 수 있는 가능성을 보였다. 논문 검토자(reviewer) 추천 응용을 예시로 설명하면서 제안 모델과 기존 저자-주제 모델 간의 차이를 강조한다. 간접적으로 모델을 검증하기 위하여 문제와 해결책의 관점을 예측하는 실험을 하였다.