Character identification on multiparty dialogue is a task to identify the character that each personal noun or noun phrase (e.g. she, dad) represents in multiparty dialogue. For this task, datasets have been constructed on drama scripts, and many studies are conducted based on these datasets. However, these studies can solve the problem mainly in the form of classification on pre-defined characters. Thus, these modules cannot be applied directly to arbitrary script with the characters that have not appeared in the training dataset. Thus, In this thesis, we approach the character identification task with the method based on the coreference resolution which does not utilize pre-defined character information so that could be applied to arbitrary script. However, coreference resolution on all types of text is considered as difficult problem in natural language processing. In this thesis, we show a method to improve the performance by utilizing the video information and common sense logic rules that are specialized for this task.
다중 화자 대화 속 인물 식별이란 여러 등장인물이 나오는 대본에서 ‘그녀’, ‘아버지’ 등 인물을 지칭하는 명사 또는 명사구가 실제 어떤 인물을 나타내는지 파악하는 문제이다. 이 문제를 풀기 위하여, 여러 연구에서 드라마 대본 주석 말뭉치를 구축하고 이에 기반하여 연구가 진행되어 왔다. 이러한 드라마 대화 속 인물 식별 문제는 대부분 미리 분류할 인물 대상을 정해놓고 분류하는 방식이었다. 이런 방식으로 학습된 모델은 학습에 사용되지 않았던 인물이 나오는 임의의 다른 드라마 대본이나 대화 등에 바로 적용될 수 없다. 이에 본 연구에서는 임의의 대본에 적용될 수 있도록 미리 정의된 인물 정보를 학습 과정에 활용하지 않는 상호참조해결 기반 방식으로 다중 화자 대화 속 인물 식별 문제에 접근한다. 그러나 일반적인 모든 유형의 자연언어 텍스트를 대상으로 하는 상호참조해결은 자연언어처리에서 어려운 문제이다. 이에 본 연구에서는 이 문제에 특화된 성질인 발화가 되는 시점의 영상 장면 정보와 상식 논리 규칙을 모델에 결합하여 성능을 향상시키는 법을 제시한다.