Recently, the performance of Machine Reading Question Answering (MRQA) models has surpassed humans on datasets like SQuAD. For further advances in MRQA techniques, new datasets are being introduced. However, they are rarely based on a deep understanding of the QA capabilities of the existing models tested on the previous datasets. In this study, we analyze the SQuAD and triviaQA dataset quantitatively and qualitatively to show how the MRQA models answer the questions. It turns out that the current MRQA models rely heavily on the use of wh-words and Lexical Answer Types (LAT) in the questions instead of attempting to make use of the meanings of the entire questions and the evidence documents. Based on this analysis, we present the directions for new datasets so that they can help advancing the current QA techniques centered around the MRQA models.
최근, 질의응답 독해모델의 성능이 SQuAD등의 데이터셋에 대하여 사람의 성능을 넘어섰다. 질의응답 독해모델의 향상을 위해서 새로운 데이터 셋들이 제안되고 있다. 하지만, 대부분 기존 질의 응답 모델이 기존 데이터 셋에서 파악되는 역량에 대한 깊은 이해없이 제안된다. 이 연구에서는, SQuAD와 triviaQA 데이터셋을 대상으로 질의응답 독해모델이 정성적, 정량적으로 어떻게 정답을 내는지에 대해 분석한다. 현재 질의응답 독해모델은 질문의 전체 의미보다는 정답유형이라고 말할 수 있는 wh-단어와 어휘적 정답 유형에 의존을 하고 있는 것이 밝혀졌다. 이러한 분석을 바탕으로 우리는 새로운 질의응답 데이터셋의 방향과 질의응답 모델의 향상을 위한 기술들을 제안한다.