Deep neural networks have achieved remarkable performance on various natural language processing tasks --- text classification, machine translataion, and question answering to name a few. Although pretraining a model on large unlabeled corpora and finetuning it on labeled data is sample efficient method, it still requires a large amount of annotate data. Data augmentation is known to be one of the most effective method for tackling few labeled data problem. However, it is challenging to construct a well-defined data augmentation for NLP, which preserves semantic of the original data with diversity. In this thesis, we propose three data augmentation methods for question answering and conditional text generation task. First, we leverage probabilistic generative models regularized with information maximization to sample diverse and consistent question answer pairs. Second, we propose adversarial perturbation to generate negative examples for text generation and train a text generation model to push away negative examples from given source sentences. Last, we propose a stochastic word embedding perturbation to regularize QA model for domain generalization. With stochastic word embedding perturbation, we can transform original question and context without any semantic drift.
심층 신경망은 텍스트 분류, 기계 번역 및 질문 답변과 같은 다양한 자연어 처리 작업에서 놀라운 성능을 달성했습니다. 레이블이 없는 큰 말뭉치에 대해 모델을 사전 훈련하고 레이블이 지정된 데이터에서 모델을 미세 조정하는 것이 샘플 효율적인 방법이지만 여전히 많은 양의 레이블 데이터가 필요합니다. 데이터 증강은 레이블이 적은 문제를 해결하는 가장 효과적인 방법 중 하나로 알려져 있습니다. 그러나 원본 데이터의 의미를 다양성으로 보존하는 잘 정의된 NLP용 데이터 증대를 구성하는 것은 어렵습니다. 본 논문에서는 질의응답과 조건부 텍스트 생성 작업을 위한 3가지 데이터 보강 방법을 제안합니다. 첫째, 정보 극대화로 정규화된 확률적 생성 모델을 활용하여 다양하고 일관된 질문 답변 쌍을 샘플링합니다. 둘째, 텍스트 생성을 위한 부정적인 예를 생성하기 위해 적대적 교란을 제안하고 주어진 소스 문장에서 부정적인 예를 밀어내기 위해 텍스트 생성 모델을 훈련합니다. 마지막으로 도메인 일반화를 위한 QA 모델을 정규화하기 위해 확률적 단어 임베딩 섭동을 제안합니다. 확률적 단어 임베딩 섭동으로 의미적 드리프트 없이 원래 질문과 컨텍스트를 변환할 수 있습니다.