A common practice for text retrieval is to use an encoder to map the documents and the query to a common vector space and perform a nearest neighbor search (NNS); multi-hop retrieval also often adopts the same paradigm, usually with a modification of iteratively reformulating the query vector so that it can retrieve different documents at each hop. However, such a bi-encoder approach has limitations in multi-hop settings; (1) the reformulated query gets longer as the number of hops increases, which further tightens the embedding bottleneck of the query vector, and (2) it is prone to error propagation. In this paper, we focus on alleviating these limitations in multi-hop settings by formulating the problem in a fully generative way. We propose an encoder-decoder model that performs multi-hop retrieval by simply generating the entire text sequences of the retrieval targets, which means the query and the documents interact in the language model's parametric space rather than L2 or inner product space as in the bi-encoder approach. Our approach, Generative Multi-hop Retrieval (GMR), consistently achieves comparable or higher performance than bi-encoder models in five datasets while demonstrating superior GPU memory and storage footprint.
텍스트 정보 검색의 일반적인 관행은 인코더를 사용하여 문서와 쿼리를 공통 벡터 공간에 매핑하고 가장 가까운 이웃 검색을 수행하는 것입니다. 다중 홉 검색 또한 일반적으로 위와 동일한 패러다임을 채택하며 쿼리 벡터를 반복적으로 재구성하여 각 홉에서 다른 문서를 검색할 수 있도록 수정합니다. 그러나 이러한 이중 인코더 방식은 다중 홉 설정에 한계가 있습니다. (1) 재구성된 쿼리는 홉 수가 증가함에 따라 길어지고 이로 인해 쿼리 벡터의 임베딩 병목 현상이 더욱 심해지고 (2) 오류 전파가 발생하기 쉽습니다. 이 논문에서는 이러한 문제점을 완화하기 위해 정보 검색을 생성 방식을 통해 진행하는 것을 제안하고, 멀티 홉 세팅에서 해당 방식이 이중 인코더 방식에 비해 큰 장점이 있는 것을 보입니다. 우리는 검색 대상의 전체 텍스트 시퀀스를 단순히 생성하여 다중 홉 검색을 수행하는 인코더-디코더 모델을 제안하고 이는 쿼리와 문서가 L2 또는 내적 공간에서 상호 작용이 일어나는 이중 인코더 방식과 달리 언어 모델의 매개변수 공간에서 상호 작용을 한다는 장점이 있습니다. 우리의 접근 방식인 생성 다중 홉 검색은 5개의 데이터 세트에서 이중 인코더 방식의 모델과 동등하거나 더 높은 성능을 보이며 GPU 메모리 및 스토리지 사용량을 상당량 줄일 수 있음을 보입니다.