The thesis deals with the template-based query generation method for documents and the performance improvement of the dense information retrieval system. Dense retrieval searches the closest document to the query vector in the vector space by pairwise learning a query and relevant documents in neural network. Since a large amount of data is required for learning, data augmentation that generates synthetic queries is being attempted. Compared to human-annotated queries, synthetic queries have limitations in that they are simple because only simple queries based on only target documents that do not require external knowledge are generated. Therefore, in this thesis, we propose a template that can contain external information and documents at the same time, and a query generation method, in order to make synthetic queries similar to these directly annotated by humans. The generated queries are experimentally proven to be helpful in improving the performance of dense retrieval, and it is shown through unique word analysis and manual evaluation that generated query are similar to those directly annotated by a human.
이 논문에서는 템플릿에 기반한 문서 대상 질의 생성 방식과 이를 통한 밀집 정보 검색 성능 향상에 대해 다룬다. 밀집 정보 검색은 인공 신경망에 질의와 관련 문서를 쌍으로 학습하여 벡터 공간에서 질의 벡터에 가장 가까운 문서를 찾는다. 학습을 위해 방대한 양의 데이터가 필요하기 때문에 인조 질의를 생성하는 데이터 증강이 시도되고 있다. 인조 질의는 사람이 주석한 질의와 비교하였을 때 외부 지식이 필요 없는 대상 문서에만 기반한 단순한 질의들만 생성되었기에 단순하다는 한계가 있다. 따라서, 본 논문에서는 인조 질의가 사람이 직접 주석한 질의와 유사해지기 위해 외부 정보와 문서를 동시에 담을 수 있는 템플릿과 이를 통한 질의 생성 방안을 제시한다. 생성된 질의는 밀집 정보 검색 성능 향상에 도움이 됨을 실험적으로 입증하였고, 사람이 직접 주석한 질의와 유사함을 단어 분석과 수동 평가를 통해 보였다.