서지주요정보
Template-based document labeling for dense retrieval = 밀집 정보 검색을 위한 템플릿 기반 문서 레이블링
서명 / 저자 Template-based document labeling for dense retrieval = 밀집 정보 검색을 위한 템플릿 기반 문서 레이블링 / Sukmin Cho.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039913

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 22057

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The thesis deals with the template-based query generation method for documents and the performance improvement of the dense information retrieval system. Dense retrieval searches the closest document to the query vector in the vector space by pairwise learning a query and relevant documents in neural network. Since a large amount of data is required for learning, data augmentation that generates synthetic queries is being attempted. Compared to human-annotated queries, synthetic queries have limitations in that they are simple because only simple queries based on only target documents that do not require external knowledge are generated. Therefore, in this thesis, we propose a template that can contain external information and documents at the same time, and a query generation method, in order to make synthetic queries similar to these directly annotated by humans. The generated queries are experimentally proven to be helpful in improving the performance of dense retrieval, and it is shown through unique word analysis and manual evaluation that generated query are similar to those directly annotated by a human.

이 논문에서는 템플릿에 기반한 문서 대상 질의 생성 방식과 이를 통한 밀집 정보 검색 성능 향상에 대해 다룬다. 밀집 정보 검색은 인공 신경망에 질의와 관련 문서를 쌍으로 학습하여 벡터 공간에서 질의 벡터에 가장 가까운 문서를 찾는다. 학습을 위해 방대한 양의 데이터가 필요하기 때문에 인조 질의를 생성하는 데이터 증강이 시도되고 있다. 인조 질의는 사람이 주석한 질의와 비교하였을 때 외부 지식이 필요 없는 대상 문서에만 기반한 단순한 질의들만 생성되었기에 단순하다는 한계가 있다. 따라서, 본 논문에서는 인조 질의가 사람이 직접 주석한 질의와 유사해지기 위해 외부 정보와 문서를 동시에 담을 수 있는 템플릿과 이를 통한 질의 생성 방안을 제시한다. 생성된 질의는 밀집 정보 검색 성능 향상에 도움이 됨을 실험적으로 입증하였고, 사람이 직접 주석한 질의와 유사함을 단어 분석과 수동 평가를 통해 보였다.

서지기타정보

서지기타정보
청구기호 {MCS 22057
형태사항 iv, 28 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 조석민
지도교수의 영문표기 : Jong Cheol Park
지도교수의 한글표기 : 박종철
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 22-26
주제 Information Retrieval
Document Labeling
Query Generation
Template
정보 검색
문서 레이블링
질의 생성
템플릿
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서