서지주요정보
Improving performance of quantitative question answering by reducing distraction in argument recognition = 인수 인식에서의 산만 감소를 통한 정량적 질의응답 성능 향상
서명 / 저자 Improving performance of quantitative question answering by reducing distraction in argument recognition = 인수 인식에서의 산만 감소를 통한 정량적 질의응답 성능 향상 / Jinsu Lim.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042274

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 24034

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Quantitative question answering, which utilizes long-form documents containing tables and textual data, is being actively studied in finance. To deal with long-form documents, such as financial statements, an architecture combining a retriever and a generator is typically used. The retriever finds evidence sentences in a given document, while the generator recognizes the proper arguments and produces an answer program. However, argument recognition suffers from a distraction problem since evidence sentences retrieved from financial statements contain many numerical data that could be candidate arguments. To address this problem, it is necessary to supervise which of the candidate arguments are required to the answer program during the generator's training process. In this paper, we propose an approach for training a generator in argument recognition by focusing on the probabilities in a candidate generation so that the arguments comprising the ground-truth have higher weights. The proposed approach consists of an argument aggregator to model the probabilities in each candidate generation, and an argument set loss to compute the cross-entropy between that probabilities and the candidates' existence in the ground-truth in terms of the argument set. In our experiments, we show performance improvements of 3.62% and 3.98% in execution accuracy and program accuracy, respectively, over the existing FinQANet model based on a financial quantitative question answering dataset. Also, we observed that the similarity of argument sets between the generated program and the ground truth improved by about 2.9%, indicating a mitigation of the distraction problem.

정량적 질의응답 연구는 표와 자연어가 포함된 장문 문서를 활용하여 금융 분야에서 활발하게 연구되고 있다. 재무제표와 같은 장문 문서를 다루기 위해, 일반적으로 검색기와 생성기가 결합된 구조를 사용한다. 검색기는 주어진 문서에서 증거 문장을 검색하고, 생성기는 적절한 인수를 인식하여 답변 프로그램을 생성한다. 그러나, 재무제표로부터 검색된 증거 문장에는 후보 인수가 될 수 있는 수치형 데이터가 많기 때문에 인수 인식이 어려운 산만 문제가 있다. 이를 해결하기 위해서, 생성기의 학습 과정에서 후보 인수 중 답변 프로그램에 필요한 인수가 어떤 것인지 감독하는 것이 필요하다. 본 논문에서는 인수 인식에서 후보들의 생성확률에 집중함으로써 ground-truth의 정답을 구성하는 인수가 더 높은 가중치를 가지도록 생성기를 학습하는 방법론을 제안한다. 제안기법은 각 후보 인수의 생성확률을 모델링하기 위한 `인수 집계기'를 추가하고, 인수 집합의 관점에서 후보들의 생성확률과 정답 존재 여부 간의 교차 엔트로피를 계산하는 `인수 집합 손실'로 구성된다. 실험에서는 금융 정량적 질의응답 데이터셋을 기반으로 기존의 FinQANet 모델 대비 실행 정확도와 프로그램 정확도에서 각각 3.62\%, 3.98\% 성능 향상을 보였다. 또한, 생성된 프로그램과 정답 간의 인수 집합 유사도가 약 2.9\% 향상되어 산만 문제가 완화되었음을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 24034
형태사항 iv, 36 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 임진수
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 28-33
주제 정량적 질의 응답
산만 문제
금융 도메인
수학적 추론
혼합형 데이터
Quantitative question answering
Distraction problem
Financial domain
Mathematical reasoning
Hybrid data
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서