Generative retrieval has recently gained significant amount of recognition by the research community for its simplicity, high performance, and the ability to fully leverage the power of autoregressive models. However, the majority of prior work on generative retrieval does not consider realistic applications where temporal knowledge is accumulated over time. In this paper, we present DynamicGR, a parameter-efficient continual pre-training method that integrates dynamically changing corpora into the generative retrieval model. We conduct a comprehensive evaluation of the performance and efficiency of generative retrieval models against strong bi-encoder baselines on the StreamingQA benchmark. With the DynamicGR pretraining strategy, we demonstrate a promising performance in generative retrieval, showing an improvement of 7% over conventional parameter-efficient updates with low-rank adaptation (LoRA) on attention parameters. Furthermore, we show that DynamicGR can make generative retrieval as competitive as the bi-encoder approaches when considering performance and efficiency in dynamic scenarios. Our work will be open-sourced.
최근에 생성 검색 방법이 그 간결함, 우수한 성능, 그리고 심층 자가 회귀 모델의 장점을 극대화하는 능력으 로인해연구계에서큰관심을받고있다. 그러나,이전의생성검색연구는주로고정된평가환경위에서 진행되었으며, 이는 지식이 시간에 따라 축적되고 다양한 감독 수준에서 종종 변화하는 실질적인 검색 애플 리케이션을 충분히 반영하지 못한다. 이러한 불일치를 해결하기 위해, 본 연구에서는 DYNAMICGR이라는 지속적 학습 방식을 제안한다. 이 방식은 파라미터 효율적인 방법론으로써, 생성 검색 방법에게 가장 적합한 지속 학습 방식이다. 우리는 StreamingQA에서 유래한 동적으로 변화하는 말뭉치로 서로 다른 검색 방법의 적응성을 정량화하였고, 지속 학습이 이루어지는 문제를 세팅하였다. 우리가 제안한 DynamicGR 방법론을 사용한다면, 우리는 생성 검색 모델에서 파라미터 효율적인 방법을 단지 어텐션에만 적용하였을 때보다 7% 높은 성능을 보여주었으며, 성능과 효율성 두 가지 측면으로 봤을 때 DYNAMICGR은 양방향 인코더보다 더 효과적인 것을 실험적으로 증명했다.해당 연구는 동적 환경에서 생성 검색의 잠재력을 강조하며 이 분야에서 더욱 깊은 탐구를 촉진한다. 본 연구의 구현체와 데이터셋은 오픈소스로 제공된다.