서지주요정보
Neural language models with multi-sense representations for natural language understanding system = 자연어 이해 시스템을 위한 다의어가 표현된 신경망 언어모델 연구
서명 / 저자 Neural language models with multi-sense representations for natural language understanding system = 자연어 이해 시스템을 위한 다의어가 표현된 신경망 언어모델 연구 / Jihyeon Roh.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038481

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 22007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Language models (LMs) is the most basic technology in the field of natural language processing, and is essential in various fields for natural language understanding or text generation. Existing LMs represent each word with only a single representation, which is unsuitable for processing words with multiple meanings. Past studies related on the multi-sense words were attempted to resolve word ambiguity through a rule-based system. As a large amount of text data became available, learning-based systems have been proposed. Expensive human annotated data and its tagging errors have led to research on unsupervised learning methods without annotated data. In this dissertation, we propose a sense-aware framework that can process multi-sense word information without relying on annotated data. In contrast to the existing multi-sense representation models, which handle information in a restricted context, our framework provides context representations encoded without ignoring word order information or long-term dependency. The proposed framework consists of a context representation stage to encode the variable-size context, a sense-labeling stage that involves unsupervised clustering to infer a probable sense for a word in each context, and a multi-sense LM (MSLM) learning stage to learn the multi-sense representations. Particularly for the evaluation of MSLMs with different vocabulary sizes, we propose a new metric, i.e., unigram-normalized perplexity (PPLu), which is also understood as the negated mutual information between a word and its context information. Additionally, there is a theoretical verification of PPLu on the change of vocabulary size. Furthermore, we adopt a method of estimating the number of senses, which does not require further hyperparameter search for an LM performance. For the LMs in our framework, both unidirectional and bidirectional architectures based on long short-term memory (LSTM) and Transformers are adopted. We conduct comprehensive experiments on three language modeling datasets to perform quantitative and qualitative comparisons of various LMs. Our MSLM outperforms single-sense LMs (SSLMs) with the same network architecture and parameters. It also shows better performance on several downstream natural language processing tasks in the General Language Understanding Evaluation (GLUE) and SuperGLUE benchmarks.

언어 모델은 자연어 처리 분야에서 가장 기본이 되는 기술로서 자연어를 이해하거나 텍스트를 생성하는 여러 분야에서 필수적으로 활용되고 있다. 기존의 언어 모델들은 한 단어는 하나의 임베딩을 입력으로 하는 모델을 사용하고 있다. 이러한 모델은 단어의 중의성에 대해 고려하지 않아 여러 의미를 가지는 단어가 각각의 뜻 마다 학습되기 어렵다는 한계를 가지고 있다. 다의어 관련 과거 연구에서는 규칙에 기반한 시스템을 통하여 단어의 모호성을 해결하려 했다. 이후 대용량의 텍스트 데이터를 사용하게 되면서 학습 기반의 연구들이 제안되었다. 대부분의 텍스트 데이터는 의미별로 표기 되어 있지 않고 사람이 표기한 데이터는 비싸면서 또한 오류가 존재할 수 있기 때문에, 주어진 텍스트로부터 의미를 추론하는 비지도 학습법 기반의 알고리즘과 모델이 개발되었다. 따라서 본 학위 논문에서 단어 의미가 표기되지 않은 데이터로부터 다중 의미 단어 정보를 처리할 수 있는 의미 인식 프레임워크를 제안한다. 제한된 문맥 정보를 기반으로 하는 기존의 다의어 표현 모델과는 다르게 우리의 프레임워크는 단어 순서 정보 혹은 단어 장기적 연결성을 고려한 문맥 표현을 제공한다. 제안하는 프레임워크는 다양한 길이의 문맥을 인코딩하는 문맥 표현 단계, 비지도 클러스터링을 통해 각 문맥에서 단어에 대한 의미를 추론하는 의미 라벨링 단계와 다의어 표현을 학습하는 다중 의미 언어모델 학습 단계로 구성된다. 특히 서로 다른 단어사전의 크기를 가지는 다중 의미 언어모델을 평가하기 위해 새로운 측정항목-유니그램으로 정규화된 펄플렉서티(PPLu)-을 제안한다. 제안된 측정항목은 단어와 그 단어의 문맥 사이의 상호의존정보로 이해 가능하다. 어휘 크기 변화에 따른 PPLu의 이론적 검증도 진행했다. 추가적으로 제안하는 프레임워크에 단어의 의미 개수를 예측하는 방법을 적용하여 언어 모델 성능을 위한 추가적인 파라미터 탐색이 필요하지 않도록 했다. 프레임워크 내의 언어모델에는 단방향/양방향 구조의 LSTM과 Transformer이 모두 적용되었다. 우리는 다양한 언어모델의 양적 및 질적 비교를 수행하기 위해 세가지 언어모델링 데이터 세트에 대한 포괄적인 실험을 수행하였다. 제안하는 다중 의미 언어모델은 동일한 네트워크 구조로 단일 의미 언어모델보다 성능이 뛰어남을 보인다. 또한 일반 언어 이해 평가(GLUE)와 SuperGLUE 벤치마크의 여러 자연어 이해 작업에서 더 나은 성능을 보여준다.

서지기타정보

서지기타정보
청구기호 {DEE 22007
형태사항 vii, 100 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 노지현
지도교수의 영문표기 : Dae-Shik Kim
지도교수의 한글표기 : 김대식
공동지도교수의 영문표기 : Soo-Young Lee
공동지도교수의 한글표기 : 이수영
수록잡지명 : "Unsupervised multi-sense language models for natural language processing tasks". Neural Networks, v.142, pp.397-409(2021)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 89-97
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서