Random Masked Language Models have brought a significant performance boost to various natural language processing tasks. However, their performance is bounded by the raw corpus domain. As such, target domains that shift notably from the source domain generally perform poorly, even if they share a considerable amount of semantics. A particular case of such a paradigm can be seen with Modern Standard Arabic Language and the Arabic Dialects. Although both share a large proportion of semantics, a pre-trained model on the standardized variant fails to perform adequately on the latter. A typical solution to address this problem is to introduce the pre-trained model to the target domain through another round of pre-training, a process known as domain adaptation. However, recent domain adaptation techniques fail to deal with noisy target data. Thus limiting their learnability, all while harming the representation of the source domain. To address these issues, we propose a semi-supervised masking strategy that leverages a relatively small set of supervised signals to extract various Term Weighting schemes such as Information Gain and Odds Ratio. During domain adaptive pre-training, sentence-level weights are merged using an ensemble ranking approach and then used to pick masking candidates over a non-uniform distribution. Furthermore, we show that at inference level, a pre-trained model and a target test corpus can be effectively used to find adequate collection frequencies before any domain adaptation or pre-training. The overall effectiveness of our approach is further reflected in various downstream tasks against multiple pre-trained dialectal models, as well as current domain-adaptation strategies.
랜덤 마스크 언어 모델은 다양한 자연어 처리 작업에 상당한 성능 향상을 가져왔습니다. 그러나 그 성능은 원시 코퍼스 도메인에 의해 제한됩니다. 따라서 소스 도메인과 현저히 다른 타겟 도메인은 상당한 양의 의미 체계를 공유하더라도 일반적으로 성능이 좋지 않습니다. 그러한 패러다임의 예시는 현대 표준 아랍어와 마그레비 방언에서 볼 수 있습니다. 두 언어는 의미론의 많은 부분을 공유하지만 아랍어 사전 훈련 모델은 일반적으로 아랍어 방언에서 좋은 성능을 내지 못합니다. 또한, 최근의 도메인 적응 접근 방식은 저 자원 데이터 도메인의 노이즈를 처리하지 못하여 모델의 학습 가능성을 저하시킵니다. 이러한 문제를 해결하기 위해 우리는 지도 신호의 작은 하위 집합을 활용하여 정보 이득과 같은 용어 가중치 통계를 추출하는 반 지도 마스킹 전략을 제안합니다. 이 통계는 후보 토큰에 대한 불균일 분포로 사용됩니다. 이 방법론의 효과는 여러 사전 훈련된 방언 모델에 대한 다양한 다운스트림 태스크에서도 나타납니다.