Inspired by the notion of a curriculum that allows human learners to acquire knowledge from easy to difficult materials, curriculum learning (CL) has been devised for machine learning and applied to many areas, including Natural Language Processing (NLP). Most previous CL methods in NLP learn texts according to their lengths. We posit, however, that learning semantically similar texts is more effective than simply relying on superficial easiness such as text lengths. As such, we propose a new CL method that considers semantic dissimilarity as the complexity measure and a tree-structured curriculum as the organization method. The experimental results show that the proposed CL method shows better performance than previous CL methods on a sentiment analysis task.
사람이 무언가를 배우고자 할 때 쉬운 개념부터 어려운 개념 순으로 지식을 습득하게끔 가이드하는 커리큘럼으로부터 영감을 얻어 기계 학습을 위한 커리큘럼 학습이 고안되었으며, 이는 자연 언어 처리를 비롯한 다양한 영역에 적용되어왔다. 자연 언어 처리 분야에 적용된 기존 커리큘럼 학습 방법들은 난이도 결정에 있어 텍스트의 길이를 주로 이용해왔다. 그러나 우리는 텍스트의 길이와 같은 단순하고 피상적인 지표를 난이도로써 고려하기보다, 의미적으로 유사한 텍스트를 함께 배우는 것 그리고 최근에 학습한 텍스트와 의미적으로 연관된 텍스트를 학습하는 것이 보다 효과적이라고 가정한다. 의미적 차이를 복잡성 척도로써 고려한 새로운 커리큘럼 학습 방식을 제안하고, 이를 위한 보다 효과적인 커리큘럼 구조로서 트리 구조 커리큘럼을 제안한다. 제안 된 커리큘럼 학습 방법이 기존 커리큘럼 학습 방법보다 우수한 성능을 보임을 감정 분석에의 적용을 통해 입증한다.