서지주요정보
Unsupervised domain adaptation in neural machine translation = 기계 번역 모델에서의 비지도 학습 방법
서명 / 저자 Unsupervised domain adaptation in neural machine translation = 기계 번역 모델에서의 비지도 학습 방법 / Changmin Lee.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036996

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 21028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Domain mismatch between the training and test data is a well-known challenge in neural machine translation and leads to performance degradation. As the domain shifted, unknown words come out, certain words represent different meanings, and word co-occurrence statistics are changed. We focus on the problems mentioned earlier on the source language side and suggest two unsupervised domain adaptation methods that utilize an additional source language monolingual data. First, we propose a Joint Masked Sequence to Sequence (JMSS) model that shares the parameter of the conditional masked language model’s encoder and masked language model’s encoder. JMSS exploits a masked language model, and it ensures that the latent representation of the source sentence becomes robust to the source language. Next, we introduce the Sequence Margin Disparity Discrepancy (SMDD), a conditional masked language model with an auxiliary classifier for learning domain invariant representation using adversarial training. SMDD attempts to extend the unsupervised domain adaptation algorithm previously limited to classification problem to sequential problem. We also suggest the model selection method in domain adaptation in neural machine translation. We conduct domain adaptation experiments in five domains and demonstrate performance improvement in the domain adaptation tasks. Finally, we show that we can surpass Domain Adaptation by Lexicon Induction (DALI) using only source-side monolingual data.

학습 데이터와 테스트 데이터 간의 도메인 불일치는 신경 기계 번역에서 잘 알려진 문제이며 성능 저하로 이어진다. 도메인이 바뀜에 따라, 알 수 없는 단어가 등장하고, 특정한 단어가 다른 의미를 나타내며, 단어 동시 발생 통계가 변경된다. 소스 언어 측면에서 앞서 언급한 문제에 초점을 맞추고 추가 소스 언어 단일 언어 데이터를 활용하는 두 가지 비지도 도메인 적응 방법을 제안한다. 먼저,조건부 마스킹 언어 모델의 인코더와 마스킹 된 언어 모델의 인코더의 매개변수를 공유하는 JMSS(Joint Masked Sequence to Sequence) 모델을 제안한다. JMSS는 마스킹 된 언어 모델을 이용하여 소스 문장의 잠재 표현이 소스 언어에 대해 강력해 지도록 한다. 다음으로, 우리는 적대적 훈련을 사용하여 도메인 불변 표현을 학습하기 위한 보조 분류자를 가진 조건부 마스크 언어 모델인 SMDD(Sequence Margin Disparity Discrepancy) 모델을 소개한다. SMDD는 이전에 분류 문제로 제한되었던 비지도 도메인 적응 알고리즘을 순차적 문제로 확장하려고 시도한다. 우리는 또한 신경 기계 번역에서 도메인 적응에서의 모델 선택 방법을 제안한다. 우리는 다섯개 도메인에서 도메인 적응 실험을 수행하고 도메인 적응 작업에서 선응[성능] 향상을 보여준다. 마지막으로, 소스 측 단일 언어 데이터만 사용하여 DALI(Domain Adaptation by Lexicon Induction)를 능가할 수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {MCS 21028
형태사항 iv, 27 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이창민
지도교수의 영문표기 : Alice Oh
지도교수의 한글표기 : 오혜연
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 24-26
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서