A large variety of labeled datasets in practice are often severely imbalanced class-wise and it is well-known that modern deep neural networks poorly generalize from such datasets due to overfitting classes of majority training samples. To address the issue, we explore the recent state-of-the-art regularization method, called Mixup, and found that it is also very effective for class imbalanced training. Motivated by this, we propose a novel, yet simple advanced alternative, coined Boundary-Mixup. It also generates synthetic training samples by following the original Mixup principle, but our main idea beyond it is to balance the uncertainty level between classes by generating mixed samples near the decision boundary of the classifier. We demonstrate the effectiveness of Boundary-Mixup for image classification, natural language processing and continual learning tasks, improving the prior baseline methods including the original Mixup.
실제로 사용되는 다양한 종류의 라벨된 데이터는 클래스 간 불균형을 가지고 있는 경우가 있으며, 이러한 데이터로 학습한 경우 딥 뉴럴 네트워크가 과반의 클래스에 오버피팅되어 일반화가 잘되지 않는 것이 널리 알려져 있다. 이러한 문제를 해결하기 위해 본 논문에서는 최근에 좋은 성능을 보여준 일반화 방법인 믹스업을 계량하여 경계 믹스업을 제안하였다. 경계 믹스업은 기존의 믹스업과 동일하게 가상의 학습 데이터 샘플을 만들어내지만 이를 분류기의 판단 경계선에 생성하여 클래스 간의 불확실성의 비대칭성을 완화한다. 클래스 간 불균형이 존재하는 이미지 분류, 자연 언어 처리 그리고 연속 학습 과정에서 경계 믹스업은 기존 방법론들에 비해 탁월한 성능을 보여주었다.