For machine learning systems, anomaly detection which detects samples that are vastly different from the dataset is essential for achieving robust training and reliable results. Although it has been actively studied for the last several years, performing accurate detection on high-dimensional data remains a challenge. Conventional reconstruction-based methods have shown good performance, but they rely on the heuristic that reconstruction error of the anomalous data is larger than that of the normal data. Thus, these methods are not trained by optimizing a detection based objective function and show suboptimal performances. To tackle this problem, we propose an autoencoder-based method which is capable of regularizing the latent space for better detection by scoring anomalies through a distance metric. The proposed method leverages the additional distance loss function which makes the data close to the center along with the original reconstruction loss function. The effectiveness of our method is evaluated on several high-dimensional network intrusion detection datasets. Our method outperforms existing reconstruction-based methods and is also robust to hyperparameter selection.
이상 현상 탐지는 데이터셋에서 비정상 데이터를 탐지하는 연구로, 머신러닝 시스템이 견고한 훈련 및 신뢰할 수 있는 결과를 얻는데 필수적이다. 지난 몇 년간 이상 현상 탐지 연구는 활발히 이루어졌지만, 높은 차원의 데이터에 대한 정확한 탐지는 여전히 쉽지 않은 과제로 남아있다. 기존의 복원 기반 이상 현상 탐지 방법론들은 좋은 성능을 보이지만, 비정상 데이터의 복원 오차가 정상 데이터의 복원 오차 보다 클 것이라는 점에 의존한다. 이 방법론들은 탐지 기반의 목적 함수를 최적화함으로써 훈련하는 방식이 아니며, 이에 최적의 성능을 달성하지 못하고 있다. 따라서 이 논문에서는 잠재공간을 제한함을 통해서 보다 나은 성능을 보이는 오토인코더 네트워크 기반의 알고리즘을 제안하며, 이 알고리즘은 거리 메트릭을 통해 비정상 수치를 측정한다. 제안한 알고리즘은 본래의 복원 오차 함수에 추가로 데이터를 중심으로 모이게 하는 거리 오차 함수를 사용한다. 제안한 알고리즘의 성능은 높은 차원을 가지는 여러 가지 네트워크 침입 탐지 데이터셋에서 평가하였다. 제안한 알고리즘은 기존의 복원 기 반 이상 탐지 방법론들보다 좋은 성능을 보이며, 초매개변수의 변화에도 견고한 모습을 보인다.