Although a large number of studies have demonstrated the ability of deep neural networks to solve challenging tasks, it behave abnormally given the target data generated from shifted distribution. For example, the networks trained with data from a specific domain is prone to over-fitting, which makes it difficult to transfer to other domains. Moreover, the trained network is vulnerable to the human-imperceptible adversarial noise, questioning its stability. In this study, two adversarial regularization algorithms are proposed to solve the aforementioned problems. The main contributions of this thesis are as follows. First, we situate the domain adaptation in the context of information theory based on the mutual information between the domain label variable and representations. Based on the findings, we propose the adversarial training algorithm which can exploit the domain-shared information with a single discriminator. Moreover, inspired from the noise distribution experimentally found in the brain, the adversarial training algorithm is proposed to make the networks robust to the adversarial noise.
딥러닝은 다양한 과제에서 좋은 성능을 보이고 있지만, 학습에 활용된 데이터 분포와 다른, 새로운 분포에서 생성된 데이터에는 불안정한 문제를 갖고 있다. 가령, 특정 도메인 데이터를 활용해 학습시킨 신경망은 곧 과적합되어, 타 도메인에 적용이 어렵다. 또한, 신경망은 학습 데이터와 유사하지만, 의도적으로 왜곡 신호를 포함하고 있는 적대적 데이터에 민감하게 반응하여, 사회적으로 그 안정성에 의문이 제기되고 있다. 본 학위논문에서는 상기한 문제들을 해결하기 위해 적대적 학습에 기반한 두 규제 알고리즘을 제안한다. 본 학위 논문의 주요 기여는 다음과 같다. 첫째, 도메인 변수와 데이터의 표상 간의 상호 정보량을 활용해 정보 이론의 관점에서 신경망의 도메인 적응 과정을 설명한다. 둘째, 이를 기반으로 다양한 도메인에서 공통적으로 활용 가능한 정보를 단일 판별자를 이용해 추출하는 적대적 학습 알고리즘을 제안한다. 셋째, 인간의 뇌에 존재하는 왜곡 신호의 분포에서 영감을 받아 적대적 학습 기반 규제 알고리즘을 제안하여, 왜곡된 신호에 대한 신경망 성능의 안정성을 높인다.