Continually updating generative retrieval on dynamic corpora = 동적 환경에서의 생성 검색 방법론
서명 / 저자 Continually updating generative retrieval on dynamic corpora = 동적 환경에서의 생성 검색 방법론 / Soyoung Yoon.
발행사항 [대전 : 한국과학기술원, 2023].
Generative retrieval has recently gained significant amount of recognition by the research community for its simplicity, high performance, and the ability to fully leverage the power of autoregressive models. However, the majority of prior work on generative retrieval does not consider realistic applications where temporal knowledge is accumulated over time. In this paper, we present DynamicGR, a parameter-efficient continual pre-training method that integrates dynamically changing corpora into the generative retrieval model. We conduct a comprehensive evaluation of the performance and efficiency of generative retrieval models against strong bi-encoder baselines on the StreamingQA benchmark. With the DynamicGR pretraining strategy, we demonstrate a promising performance in generative retrieval, showing an improvement of 7% over conventional parameter-efficient updates with low-rank adaptation (LoRA) on attention parameters. Furthermore, we show that DynamicGR can make generative retrieval as competitive as the bi-encoder approaches when considering performance and efficiency in dynamic scenarios. Our work will be open-sourced.

최근에 생성 검색 방법이 그 간결함, 우수한 성능, 그리고 심층 자가 회귀 모델의 장점을 극대화하는 능력으 로인해연구계에서큰관심을받고있다. 그러나,이전의생성검색연구는주로고정된평가환경위에서 진행되었으며, 이는 지식이 시간에 따라 축적되고 다양한 감독 수준에서 종종 변화하는 실질적인 검색 애플 리케이션을 충분히 반영하지 못한다. 이러한 불일치를 해결하기 위해, 본 연구에서는 DYNAMICGR이라는 지속적 학습 방식을 제안한다. 이 방식은 파라미터 효율적인 방법론으로써, 생성 검색 방법에게 가장 적합한 지속 학습 방식이다. 우리는 StreamingQA에서 유래한 동적으로 변화하는 말뭉치로 서로 다른 검색 방법의 적응성을 정량화하였고, 지속 학습이 이루어지는 문제를 세팅하였다. 우리가 제안한 DynamicGR 방법론을 사용한다면, 우리는 생성 검색 모델에서 파라미터 효율적인 방법을 단지 어텐션에만 적용하였을 때보다 7% 높은 성능을 보여주었으며, 성능과 효율성 두 가지 측면으로 봤을 때 DYNAMICGR은 양방향 인코더보다 더 효과적인 것을 실험적으로 증명했다.해당 연구는 동적 환경에서 생성 검색의 잠재력을 강조하며 이 분야에서 더욱 깊은 탐구를 촉진한다. 본 연구의 구현체와 데이터셋은 오픈소스로 제공된다.


청구기호 {MAI 23030
형태사항 iv, 20 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤소영
지도교수의 영문표기 : Minjoon Seo
지도교수의 한글표기 : 서민준
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 16-18
주제 Information retrieval
Generative retrieval
Temporal information retrieval
Knowledge update
Parameter-efficient pre-training
Incremental learning
Dynamic corpora
Search efficiency
정보 검색
생성 기반 검색
시간적 정보 검색
지식 업데이트
효율적인 사전 학습
점진적 학습
동적 말뭉치
검색 효율성





