서지주요정보
Enhancing the design of retriever for open-domain question answering = 오픈 도메인 질의 응답을 위한 검색기 설계 개선
서명 / 저자 Enhancing the design of retriever for open-domain question answering = 오픈 도메인 질의 응답을 위한 검색기 설계 개선 / Sohee Yang.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040549

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23024

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The state-of-the-art in open-domain question answering relies on a retrieve & read approach, which uses an efficient bi-encoder retriever to retrieve the documents relevant to the question from a large knowledge source and then uses a cross-encoder reader to the retrieved documents to find out the answer. This thesis covers various ways to enhance the design of retrievers for open-domain question answering systems. The main part of the thesis consists of how to reduce the size of a retriever-and-reader system for open-domain question answering and enhance accuracy. Here, we propose a combination of various approaches to size down a conventional retrieve & read system, and explore the trade-off between the storage budget and the accuracy. By applying our strategies to a recent extractive retrieve & read system, DPR, we reduce its size by 160x with little loss of accuracy, which is still higher than the performance of a purely parametric T5 baseline with a comparable docker-level storage footprint. The thesis also contains two additional small chapters which describe a knowledge distillation-based method for performance improvement and a new retriever approach that competes with the bi-encoder retriever approach. First, we talk about how to perform knowledge distillation from cross-encoder reader to bi-encoder retriever to overcome the performance limitations of the bi-encoder architecture. Second, we introduce a generative retrieval approach that solves search tasks by generating relevant documents from the model parameters based on input queries, taking up a smaller system footprint compared to the existing bi-encoder retrievers that select related documents from the index of the text corpus, which is often large in size.

대부분의 고성능 최신 오픈 도메인 질의 응답 시스템은 검색 및 읽기 접근 방식을 채택하고 있다. 해당 방식은 효율적인 바이-인코더 검색기를 사용하여 대규모 지식 베이스에서 질문과 관련된 문서를 검색한 다음 답을 찾기 위해 크로스-인코더 리더를 이용하는 것이다. 본 논문은 이러한 오픈 도메인 질의 응답 시스템을 위한 검색기의 설계를 개선시키는 여러 방법을 다룬다. 우선, 본 논문에서 주로 다루는 내용은 오픈 도메인 질의 응답을 위하여 어떻게 검색 및 읽기 시스템의 크기를 줄이면서 성능을 높일 수 있을 것인가에 대한 것이다. 여기서, 우리는 기존 검색 및 읽기 시스템의 크기를 줄이기 위한 다양한 방식을 제안하고 크기과 정확도 사이의 절충점을 탐색한다. 우리는 제안된 방식을 최신 검색 및 읽기 시스템인 DPR에 적용해 비슷한 크기를 가지는 베이스라인인 파라메트릭 T5 모델보다 훨씬 높은 정확도를 달성하며, 기존 시스템에서부터 거의 정확도 손실 없이 크기를 160배 줄일 수 있음을 보인다. 또한, 본 논문은 추가적으로 검색기의 지식 증류 기반 성능 향상 방법과 기존 바이-인코더 검색기를 대체하는 새로운 검색 방식에 대하여 작은 두 챕터에 걸쳐 서술한다. 첫째로, 바이-인코더 검색기의 성능적 한계를 극복하기 위하여 크로스-인코더로부터 지식 증류를 수행하는 방법에 대해 이야기한다. 둘째로, 입력 쿼리를 바탕으로 모델 파라미터로부터 관련 문서를 생성하여 검색 문제를 해결하는 생성 검색 방식을 소개한다. 해당 방식은 크기가 큰 문서 집합의 색인으로부터 관련 문서를 선택하는 기존의 바이-인코더 검색기 대비 적은 시스템 공간을 사용한다.

서지기타정보

서지기타정보
청구기호 {MAI 23024
형태사항 v, 27 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 양소희
지도교수의 영문표기 : Minjoon Seo
지도교수의 한글표기 : 서민준
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 23-26
주제 Deep learning
Natural language processing
Open-domain question answering
Information retrieval
Retriever
딥러닝
자연어 처리
오픈 도메인 질의 응답
정보 검색
검색기
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서