서지주요정보
Distant-supervision for question answering = 질의응답 시스템을 위한 원격 지도학습
서명 / 저자 Distant-supervision for question answering = 질의응답 시스템을 위한 원격 지도학습 / Yeon Seonwoo.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039590

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DCS 22023

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Question answering (QA) aims to build a machine that answers natural language questions. Recent approaches in QA have focused on semantic alignment between a question and the context that contains the answer, such as sentences and passages. An intensive reasoning process is required to find the most relevant context, and QA models need large-scale training data to learn this reasoning process. However, constructing training data for QA is costly. In this thesis, I investigate a long-standing problem in QA, a lack of supervision signals, with three sub-topics in QA. The first is machine reading comprehension (MRC). Machine reading comprehension aims to find the answer in the given passage, and this is done by matching the semantics of the question and the surrounding context of the answer. However, MRC models sometimes predict irrelevant context. I enhance the context modeling capability of extractive QA models with our distant supervision method that weakly annotates word-level semantic similarity between the question and words in the context. The second is multi-hop QA. In multi-hop QA, questions consist of multiple sub-questions, and one of the goals is to find a set of passages that contains all the necessary information to answer the question. Recent multi-hop QA models iteratively retrieve a passage at a time and return the passage set. In this iterative retrieval process, question encoders are required to match the semantics of the given question and the context of passages. However, this task requires a complex reasoning process, leading to a lack of scalability in building training data in multi-hop QA. I propose a weakly-supervised pre-training method and a synthetic data generation method to increase the robustness of multi-hop retrievers when train data is insufficient. The third is question retrieval. Question retrieval is a recently proposed real-time QA model. This approach answers the given question by searching the most similar question in the pre-indexed question-answer database. However, training data for question retrieval is unavailable. I suggest a distant-supervision method that leverages the answers to the questions.

질의응답은 질문에 자동으로 답하는 기계를 만드는 자연어처리연구의 한 분야이다. 최근 질의응답연구는 질문과 문장의 의미를 비교하여 정답을 찾는다. 질문과 연관된 문장을 찾기위해서는 복잡한 추론과정이 필요하고 질의응답시스템이 추론과정을 학습하기위해서는 큰 데이터를 필요로한다. 하지만 이런 데이터는 구축하기 어렵다. 본 연구는 질의응답분야의 오래된 문제중 하나인 학습데이터 부족에 대해 연구한다. 첫째로, 질의응답의 한 분야인 기계독해에서 발생하는 학습데이터 부족에 대해 다룬다. 기계독해는 주어진 문서에서 질문의 답을 찾는 분야이다. 가장 대표적인 기계독해모델은 정답과 연관된 문맥과 주어진 질문의 의미론적 비교를 통해 추론한다. 하지만 기계독해모델은 정확한 문맥을 예측하지 못하는 경우가 있다. 본 연구에서는 기계독해모델의 문맥예측성능을 향상시키기위해 추가적인 데이터 구축없이 단어간의 의미론적 유사도를 학습하는 방법을 소개한다. 두번째로 다중홉 질의응답시스템에서 나타나는 데이터 부족에 대해 연구한다. 다중홉질의응답은 복잡한 질문에 답하는 모델을 연구한다. 복잡한 질문에 답하기 위해서는 많은 문서에서 근거를 수집하는 과정이 필요하다. 최근 다중홉 질의응답시스템은 질문벡터와 문서벡터간의 순차적 비교를 통해 근거를 수집한다. 하지만 이런 추론과정은 복잡하고 데이터 구축을 더 어렵게 만든다. 본 연구에서는 데이터가 부족한 상황에서 다중홉질의응답모델의 성능감소를 완화하기위한 사전학습 방법을 소개한다. 세번째로 본 연구에서는 질문검색분야에 있는 데이터 부족에 대해 연구한다. 질문검색은 사전에 구축된 질문-정답 쌍 데이터베이스에서 주어진 질문과 가장 비슷한 질문을 찾아 정답을 예측하는 방법이다. 가장 비슷한 질문을 찾기위해서는 비슷한 질문쌍 데이터가 필요하다. 하지만 이런 데이터는 찾기 힘들고 본 연구에서는 이를 해결하기위해 정답의 유사도를 이용해 모델을 학습하는 방법을 소개한다.

서지기타정보

서지기타정보
청구기호 {DCS 22023
형태사항 v, 45 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 선우연
지도교수의 영문표기 : Haeyun Oh
지도교수의 한글표기 : 오혜연
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 41-45
주제 Question answering
Distant-supervision
Open-domain QA
Multi-hop QA
Question retrieval
Machine reading comprehension
Deep learning
Document retrieval
질의응답
다중홉질의응답
질문검색
기계독해
딥러닝
문서검색
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서