서지주요정보
Generative multi-hop retrieval = 생성 다중 홉 검색
서명 / 저자 Generative multi-hop retrieval = 생성 다중 홉 검색 / Amy Hyunji Lee.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040541

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23016

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A common practice for text retrieval is to use an encoder to map the documents and the query to a common vector space and perform a nearest neighbor search (NNS); multi-hop retrieval also often adopts the same paradigm, usually with a modification of iteratively reformulating the query vector so that it can retrieve different documents at each hop. However, such a bi-encoder approach has limitations in multi-hop settings; (1) the reformulated query gets longer as the number of hops increases, which further tightens the embedding bottleneck of the query vector, and (2) it is prone to error propagation. In this paper, we focus on alleviating these limitations in multi-hop settings by formulating the problem in a fully generative way. We propose an encoder-decoder model that performs multi-hop retrieval by simply generating the entire text sequences of the retrieval targets, which means the query and the documents interact in the language model's parametric space rather than L2 or inner product space as in the bi-encoder approach. Our approach, Generative Multi-hop Retrieval (GMR), consistently achieves comparable or higher performance than bi-encoder models in five datasets while demonstrating superior GPU memory and storage footprint.

텍스트 정보 검색의 일반적인 관행은 인코더를 사용하여 문서와 쿼리를 공통 벡터 공간에 매핑하고 가장 가까운 이웃 검색을 수행하는 것입니다. 다중 홉 검색 또한 일반적으로 위와 동일한 패러다임을 채택하며 쿼리 벡터를 반복적으로 재구성하여 각 홉에서 다른 문서를 검색할 수 있도록 수정합니다. 그러나 이러한 이중 인코더 방식은 다중 홉 설정에 한계가 있습니다. (1) 재구성된 쿼리는 홉 수가 증가함에 따라 길어지고 이로 인해 쿼리 벡터의 임베딩 병목 현상이 더욱 심해지고 (2) 오류 전파가 발생하기 쉽습니다. 이 논문에서는 이러한 문제점을 완화하기 위해 정보 검색을 생성 방식을 통해 진행하는 것을 제안하고, 멀티 홉 세팅에서 해당 방식이 이중 인코더 방식에 비해 큰 장점이 있는 것을 보입니다. 우리는 검색 대상의 전체 텍스트 시퀀스를 단순히 생성하여 다중 홉 검색을 수행하는 인코더-디코더 모델을 제안하고 이는 쿼리와 문서가 L2 또는 내적 공간에서 상호 작용이 일어나는 이중 인코더 방식과 달리 언어 모델의 매개변수 공간에서 상호 작용을 한다는 장점이 있습니다. 우리의 접근 방식인 생성 다중 홉 검색은 5개의 데이터 세트에서 이중 인코더 방식의 모델과 동등하거나 더 높은 성능을 보이며 GPU 메모리 및 스토리지 사용량을 상당량 줄일 수 있음을 보입니다.

서지기타정보

서지기타정보
청구기호 {MAI 23016
형태사항 iv, 28 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이현지
지도교수의 영문표기 : Minjoon Seo
지도교수의 한글표기 : 서민준
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 26-28
주제 Natural language processing
Information retrieval
Generative retrieval
자연어처리
정보 검색
생성 검색
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서