In this thesis, a noble method for video content recommendation is proposed based on Latent Dirichlet Allocation (LDA), which is adequate for large and unstructured data. The description texts tagged in video contents are mainly utilized for extracting content topics. In spite of many advantages of Dirichlet prior in inference process, the Dirichlet distribution assumes that topic proportions are independent so the similarities among the topics are hard to be induced. Therefore using the per document (item) topic proportions, we suggest a way of representing the items as profile vectors. In this study, the text descriptions tagged on video contents are treated as items or documents. By doing so, we can compute the similarities of items based on topics so that the documents (items) can be semantically compared. From the experiments, we can conclude that the similarity between topics tends to decrease when the number of topics decreases. However, as a result, it may affect recommendation results as the number of topics changes. It has shown that our proposed method effectively works for item recommendation compared to those of YouTube in terms of the document (item) similarities.
추천 시스템과 관련된 이 연구는 토픽 모델의 하나인 Latent Dirichlet Distribution을 이용하여 추출된 토픽을 바탕으로, 아이템 벡터 프로파일을 생성하고, Hellinger distance를 이용하여 제시된 아이템과 유사한 아이템을 추천하는 방법에 대한 연구이다. 이는 토픽을 기반 하여 아이템을 벡터 프로파일 나타냄으로써 아이템간의 유사성을 더 효율적으로 찾아낼 수 있게 한다. 새로운 아이템이 등장했을 경우에도 아이템이 가지고 있는 의미 정보만 이용하여 유사 아이템을 찾을 수 있는데, 이는 직접적인 단어의 비교가 아닌 단어에 내재되어 있는 의미를 기반으로 비교하는 것으로 더 높은 성능의 추천 결과를 가져 온다. 한편, 토픽 모델에 의해 생성되는 아이템 벡터 프로파일은 토픽 및 그 확률의 다중 조합으로 표현되는데, 이는 토픽의 개수에 따라 표현 결과가 달라지게 되며, 그에 따라 추천되는 아이템들도 달라지는 결과를 가져온다.