Question answering (QA) aims to build a machine that answers natural language questions. Recent approaches in QA have focused on semantic alignment between a question and the context that contains the answer, such as sentences and passages. An intensive reasoning process is required to find the most relevant context, and QA models need large-scale training data to learn this reasoning process. However, constructing training data for QA is costly. In this thesis, I investigate a long-standing problem in QA, a lack of supervision signals, with three sub-topics in QA. The first is machine reading comprehension (MRC). Machine reading comprehension aims to find the answer in the given passage, and this is done by matching the semantics of the question and the surrounding context of the answer. However, MRC models sometimes predict irrelevant context. I enhance the context modeling capability of extractive QA models with our distant supervision method that weakly annotates word-level semantic similarity between the question and words in the context. The second is multi-hop QA. In multi-hop QA, questions consist of multiple sub-questions, and one of the goals is to find a set of passages that contains all the necessary information to answer the question. Recent multi-hop QA models iteratively retrieve a passage at a time and return the passage set. In this iterative retrieval process, question encoders are required to match the semantics of the given question and the context of passages. However, this task requires a complex reasoning process, leading to a lack of scalability in building training data in multi-hop QA. I propose a weakly-supervised pre-training method and a synthetic data generation method to increase the robustness of multi-hop retrievers when train data is insufficient. The third is question retrieval. Question retrieval is a recently proposed real-time QA model.
This approach answers the given question by searching the most similar question in the pre-indexed question-answer database. However, training data for question retrieval is unavailable. I suggest a distant-supervision method that leverages the answers to the questions.
질의응답은 질문에 자동으로 답하는 기계를 만드는 자연어처리연구의 한 분야이다. 최근 질의응답연구는 질문과 문장의 의미를 비교하여 정답을 찾는다. 질문과 연관된 문장을 찾기위해서는 복잡한 추론과정이 필요하고 질의응답시스템이 추론과정을 학습하기위해서는 큰 데이터를 필요로한다. 하지만 이런 데이터는 구축하기 어렵다. 본 연구는 질의응답분야의 오래된 문제중 하나인 학습데이터 부족에 대해 연구한다. 첫째로, 질의응답의 한 분야인 기계독해에서 발생하는 학습데이터 부족에 대해 다룬다. 기계독해는 주어진 문서에서 질문의 답을 찾는 분야이다. 가장 대표적인 기계독해모델은 정답과 연관된 문맥과 주어진 질문의 의미론적 비교를 통해 추론한다. 하지만 기계독해모델은 정확한 문맥을 예측하지 못하는 경우가 있다. 본 연구에서는 기계독해모델의 문맥예측성능을 향상시키기위해 추가적인 데이터 구축없이 단어간의 의미론적 유사도를 학습하는 방법을 소개한다. 두번째로 다중홉 질의응답시스템에서 나타나는 데이터 부족에 대해 연구한다. 다중홉질의응답은 복잡한 질문에 답하는 모델을 연구한다. 복잡한 질문에 답하기 위해서는 많은 문서에서 근거를 수집하는 과정이 필요하다. 최근 다중홉 질의응답시스템은 질문벡터와 문서벡터간의 순차적 비교를 통해 근거를 수집한다. 하지만 이런 추론과정은 복잡하고 데이터 구축을 더 어렵게 만든다. 본 연구에서는 데이터가 부족한 상황에서 다중홉질의응답모델의 성능감소를 완화하기위한 사전학습 방법을 소개한다. 세번째로 본 연구에서는 질문검색분야에 있는 데이터 부족에 대해 연구한다. 질문검색은 사전에 구축된 질문-정답 쌍 데이터베이스에서 주어진 질문과 가장 비슷한 질문을 찾아 정답을 예측하는 방법이다. 가장 비슷한 질문을 찾기위해서는 비슷한 질문쌍 데이터가 필요하다. 하지만 이런 데이터는 찾기 힘들고 본 연구에서는 이를 해결하기위해 정답의 유사도를 이용해 모델을 학습하는 방법을 소개한다.