서지주요정보
MaghBERT: pre-trained language models for the Maghrebi dialects = 마그베르트: 마그레브 방언의 사전 훈련된 언어 모델
서명 / 저자 MaghBERT: pre-trained language models for the Maghrebi dialects = 마그베르트: 마그레브 방언의 사전 훈련된 언어 모델 / Abdel ilah Zakaria Khiati.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040070

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DCS 22028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Random Masked Language Models have brought a significant performance boost to various natural language processing tasks. However, their performance is bounded by the raw corpus domain. As such, target domains that shift notably from the source domain generally perform poorly, even if they share a considerable amount of semantics. A particular case of such a paradigm can be seen with Modern Standard Arabic Language and the Arabic Dialects. Although both share a large proportion of semantics, a pre-trained model on the standardized variant fails to perform adequately on the latter. A typical solution to address this problem is to introduce the pre-trained model to the target domain through another round of pre-training, a process known as domain adaptation. However, recent domain adaptation techniques fail to deal with noisy target data. Thus limiting their learnability, all while harming the representation of the source domain. To address these issues, we propose a semi-supervised masking strategy that leverages a relatively small set of supervised signals to extract various Term Weighting schemes such as Information Gain and Odds Ratio. During domain adaptive pre-training, sentence-level weights are merged using an ensemble ranking approach and then used to pick masking candidates over a non-uniform distribution. Furthermore, we show that at inference level, a pre-trained model and a target test corpus can be effectively used to find adequate collection frequencies before any domain adaptation or pre-training. The overall effectiveness of our approach is further reflected in various downstream tasks against multiple pre-trained dialectal models, as well as current domain-adaptation strategies.

랜덤 마스크 언어 모델은 다양한 자연어 처리 작업에 상당한 성능 향상을 가져왔습니다. 그러나 그 성능은 원시 코퍼스 도메인에 의해 제한됩니다. 따라서 소스 도메인과 현저히 다른 타겟 도메인은 상당한 양의 의미 체계를 공유하더라도 일반적으로 성능이 좋지 않습니다. 그러한 패러다임의 예시는 현대 표준 아랍어와 마그레비 방언에서 볼 수 있습니다. 두 언어는 의미론의 많은 부분을 공유하지만 아랍어 사전 훈련 모델은 일반적으로 아랍어 방언에서 좋은 성능을 내지 못합니다. 또한, 최근의 도메인 적응 접근 방식은 저 자원 데이터 도메인의 노이즈를 처리하지 못하여 모델의 학습 가능성을 저하시킵니다. 이러한 문제를 해결하기 위해 우리는 지도 신호의 작은 하위 집합을 활용하여 정보 이득과 같은 용어 가중치 통계를 추출하는 반 지도 마스킹 전략을 제안합니다. 이 통계는 후보 토큰에 대한 불균일 분포로 사용됩니다. 이 방법론의 효과는 여러 사전 훈련된 방언 모델에 대한 다양한 다운스트림 태스크에서도 나타납니다.

서지기타정보

서지기타정보
청구기호 {DCS 22028
형태사항 vi, 59 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 키아티자카리아
지도교수의 영문표기 : Hae Yun Oh
지도교수의 한글표기 : 오혜연
수록잡지명 : "A Semi-supervised Domain Adaptation of Pre-trained Arabic Language Models on Maghrebi Dialects". The 2022 Conference on Empirical Methods in Natural Language Processing, (2022)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 49-59
주제 Arabic dialects
Language modeling
Domain adaptation
Term weighting
Cloze task
아랍어 방언
언어 모델링
영역적응
용어가중치
빈칸메우기 과제
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서