With the recent development of machine learning, there are emerging attempts to study literature with computers. In this study, we intend to analyze the SF story dataset using a computational method. Using topic modeling, an unsupervised learning technique, we investigated the pattern of word use in science fiction stories. The produced topics could be interpreted as illustrating the subject materials in the novel and how they are used. In addition, based on the resulting topic distribution, we proposed metrics that allow us to evaluate authors’ topic use. The main contribution of this study is to present an alternative to literature study through computational methods. With advancements in computational linguistics, this study can be further expanded to illuminate other aspects of literary studies.
최근, 기계학습 기법의 발전과 더불어 컴퓨터를 이용해 문학을 연구하려는 시도들이 나타나고 있다. 본 연구에서는 전산적인 방법을 이용하여 SF 소설 데이터셋을 분석해보고자 한다. 우리는 비지도 학습 기법 중 하나인 토픽 모델링을 이용해 SF 소설 속의 단어 사용 패턴을 조사해보았다. 이로부터 얻어낸 토픽들은 소설 속에 존재하는 소재들과, 이들이 사용되는 방식에 대해 알려주는 것으로 해석될 수 있다. 이에 더불어, 우리는 토픽 모델링의 결과로 나온 토픽 분포를 바탕으로 작가들의 토픽 사용을 정량적으로 평가할 지표를 제안하였다. 본 연구의 주된 기여는 전산적인 방법을 통해 문학을 연구할 수 있는 대안을 제시했다는 것이다. 향후 전산언어학의 발전과 함께, 이 연구는 다양한 방식으로 확장될 수 있을 것이다.