서지주요정보
Capturing ambiguity in natural language understanding tasks with information from internal layers = 내부 계층의 정보를 이용한 자연어 이해 태스크에서의 애매성 포착
서명 / 저자 Capturing ambiguity in natural language understanding tasks with information from internal layers = 내부 계층의 정보를 이용한 자연어 이해 태스크에서의 애매성 포착 / Hancheol Park.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042681

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DCS 24001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In natural language understanding (NLU) tasks, there are a large number of ambiguous samples where veracity of their labels is debatable among annotators. Recently, researchers have found that even when additional annotators evaluate such ambiguous samples, they tend not to converge to single gold labels. It has been also revealed that, even when they are assessed by different groups of annotators, the degree of ambiguity is similarly reproduced. Therefore, it is desirable for a model used in an NLU task not only to predict a label that is likely to be considered correct by multiple annotators for a given sample but also to provide information about the ambiguity, indicating whether other labels could also be correct. This becomes particularly crucial in situations where the outcomes of decision-making can lead to serious problems, as information about ambiguity can guide users to make more cautious decisions and avoid risks. In this dissertation, we discuss methods for capturing ambiguous samples in NLU tasks. Due to the inherent ambiguity in NLU tasks, numerous samples with different labels can exist among those that share similar features. Therefore, it is highly likely that the model has learned information within its internal layers about which features are associated with various labels, and consequently, whether or not they exhibit ambiguity. Based on this assumption, our investigation of the representations for samples at each internal layer has revealed that information about the ambiguity of samples is more accurately represented in lower layers. Specifically, in lower layers, ambiguous samples are represented closely to samples with relevant labels in their embedding space. However, this tendency is no longer observed in the higher layers. Based on these observations, we propose methods for capturing ambiguous samples using the distribution or representation information from lower layers of encoder-based pre-trained language models (PLMs) or decoder-based large language models (LLMs). Recently, these two types of models have been predominantly used for NLU tasks. More specifically, we introduce various approaches, including using layer pruning that removes upper layers close to the output layer to utilize information from lower layers, knowledge distillation that distills distribution knowledge from lower layers, and methods utilizing internal representations from lower layers. Through experiments with NLU datasets from various domains and tasks, we demonstrate that information from internal layers, particularly from lower layers, is valuable for capturing the ambiguity of samples. We also show that our proposed methods, which use the information from lower layers, significantly outperform existing methods.

자연어 추론 및 감정 분석과 같은 자연어 이해 태스크에는 정답 레이블이 무엇인지에 있어 주석자들 간 의견이 불일치하는 샘플들이 다수 존재하는 것으로 알려져 있다. 최근 연구에 따르면 이러한 애매성을 지닌 샘플들은 더 많은 주석자들에 의해 평가되더라도 여전히 하나의 정답으로 수렴되지 않는 경향이 있으며, 다른 주석자 그룹에서 평가를 하더라도 애매성의 정도가 유사하게 재현되는 것으로 밝혀졌다. 따라서 자연어 이해 태스크를 위해 개발된 모델들은 주어진 샘플에 대해서 다수의 주석자들로부터 정답으로 평가될 가능성이 가장 높은 레이블을 예측하는 것뿐만 아니라, 다른 레이블들 또한 정답이 될 수 있는지 여부를 나타내는 애매성에 관한 정보도 함께 제공하는 것이 바람직하다. 특히 의사결정의 결과가 심각한 문제를 야기할 수 있는 상황에서 이러한 애매성에 관한 정보는 사용자가 좀 더 신중하게 의사 결정을 하도록 유도하여 위험을 회피하는데 도움을 줄 수도 있다. 본 학위논문에서는 자연어 이해 태스크에서 샘플들의 애매성 여부를 포착할 수 있는 방법론에 대해서 논의한다. 자연어 이해 태스크의 특성 상 애매성을 지닌 샘플이 다수 존재하기 때문에, 유사한 특징을 공유하는 샘플들 사이에도 서로 다른 레이블로 주석된 샘플들이 다수 존재할 수 있다. 따라서 모델은 어떤 특징을 가진 샘플들이 다양한 레이블들과 관련되어 있으며, 결과적으로는 애매성을 지녔는지에 관한 정보를 모델 내부 계층 어딘가에서 학습했을 가능성이 높다. 이러한 가정을 토대로 모델의 각 계층에서 샘플들의 표현들을 조사한 결과, 샘플들의 애매성에 관한 정보가 하위 계층에서 보다 정확하게 표현되고 있음을 관찰할 수 있었다. 다시 말해, 실제로 애매성이 높은 샘플들은 관련있는 레이블들의 샘플들과 하위 계층에서 가깝게 표현되지만, 출력 계층에 가까워질 수록 이러한 경향성은 더 이상 관찰되지 않는다는 사실을 알 수 있었다. 본 연구에서는 이러한 관찰을 기반으로 하여 최근 자연어 이해 태스크를 위해 주로 사용되는 인코더 기반 사전 학습된 언어 모델과 디코더 기반의 대규모 언어 모델에서 하위 계층의 분포 혹은 표현 정보를 활용하여 샘플의 애매성 여부를 추론하는 방법론을 제안하고 그 효과성을 검증한다. 특히 하위 계층의 정보를 사용하기 위해서 출력 층에 가까운 상위 계층을 제거하는 레이어 프루닝 기법, 하위 계층으로부터의 분포 지식을 증류하는 지식 증류 기법, 그리고 하위 계층의 내부 표현을 이용하는 기법을 적용한 다양한 방법론들을 제안한다. 다양한 태스크와 도메인에서의 자연어 이해 데이터를 이용한 실험을 통해 내부 계층, 특히 하위 계층에서의 정보는 샘플의 애매성을 판단하는데 유용하며, 이러한 정보를 활용하는 본 방법론은 기존 방법론과 비교했을 때 상당히 효과적임을 입증한다.

서지기타정보

서지기타정보
청구기호 {DCS 24001
형태사항 v, 52 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박한철
지도교수의 영문표기 : Jong Cheol Park
지도교수의 한글표기 : 박종철
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 43-48
주제 natural language understanding
ambiguity
internal layer
layer pruning
knowledge distillation
large language model
자연어 이해
애매성
내부 계층
레이어 프루닝
지식 증류
대규모 언어 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서