In this thesis, techniques on deep novelty detection on various data domains are discussed. The thesis consists of two parts.
For the first part of the thesis, deep novelty detection on image datasets is discussed. Specifically, we deal with the situation where the dataset is unlabeled. Compared to the previous works, the contribution of our work is summarized as follows. First, we analyze the pathological phenomenon where the conventional deep novelty detection models often assign lower uncertainty on the out-of-distribution data. For the analysis, we propose a novel metric, an effective rank, that measures the complexity of the data. Second, based on our analysis, we propose a novel out-of-distribution detection model, SVD-RND, that explicitly discriminates over blurred images. Experiment results show that SVD-RND greatly improves over conventional novelty detection methods. Finally, we show that SVD-RND can be applied in various scenarios that include when there is no OOD validation data.
For the second part of the thesis, deep novelty detection on general datasets is discussed. Specifically, we research the computationally efficient data augmentation method for self-supervised learning in the general data domain. First, we show that conventional self-supervised learning methods require an excessive number of augmentations to perform. Furthermore, we propose a novel data augmentation method, PCA-PER, that employs principal component analysis and permutation for efficient data augmentation. Experiment results show that PCA-PER can perform robustly with the number of augmentations from 4 to 8 times less than the conventional data augmentation methods. In addition, when the dimension of data is very small, PCA-PER can be merged with conventional data augmentation techniques to show better results.
본 논문에서는 다양한 데이터 도메인에 대한 이상치 탐지 기술들을 다룬다. 본 논문은 서로 다른 데이터 도메인을 다루는 두 개의 연구로 구성된다.
첫 번째 부분에서는 이미지 데이터셋에 대한 이상치 탐지 기술을 다룬다. 특히, 해당 논문은 이미지 데이터 정보 이외의 정보가 주어져 있지 않은 상황을 가정한다. 기존 연구들에 차별화되는 본 논문의 내용은 다음과 같다. 첫 번째로 본 논문에서는 기존 심층 이상치 탐지 기술들이 이상치 데이터에 더 낮은 불확실성을 보이는 현상을 진단한다. 분석을 위해서 우리는 데이터의 복잡도를 측정하는 실효 랭크 메트릭을 제안한다. 두 번째로, 분석을 통하여, 우리는 블러링된 데이터를 직접적으로 구별하는 SVD-RND라는 모델을 제안한다. 우리는 SVD-RND가 기존 심층 이상치 탐지 기술들보다 더 좋은 이상치 탐지 성능을 보이는 것을 실험적으로 증명한다. 마지막으로, 우리는 SVD-RND가 검증 이상치 데이터가 없는 등의 다양한 시나리오에서 적용될 수 있음을 보인다.
논문의 두 번째 부분에서는 일반적인 데이터 도메인에서의 심층 이상치 탐지 기술을 다룬다. 특히, 우리는 자가 지도 학습 방법들을 일반 데이터 도메인에서 연구한다. 첫 번째로, 우리는 실험적으로 기존 자가 지도 학습 방식들은 많은 개수의 데이터 증강을 필요로 함을 증명한다. 우리는 주성분 분석과 퍼뮤테이션을 기반으로 한 PCA-PER이라는 효과적인 데이터 증강 기법을 제안한다. 우리는 PCA-PER이 기존의 데이터 증강 기법에 비해서 4배에서 8 배는 적은 데이터 증강 개수에서도 손실 없이 동작함을 실험적으로 밝혔다. 추가적으로, 데이터의 차원 수가 굉장히 적을 때에도 PCA-PER은 기존의 데이터 증강 기법과 합쳐져서 더 좋은 성능을 낼 수 있다.