Despite the recent advances in out-of-distribution(OOD) detection, anomaly detection, and uncertainty estimation tasks, there do not exist a task-agnostic and post-hoc approach. To address this limitation, we design a novel clustering-based ensembling method, called Task Agnostic and Post-hoc Unseen Distribution Detection (TAPUDD) that utilizes the features extracted from the model trained on a specific task. Explicitly, it comprises of TAP-Mahalanobis, which clusters the training datasets' features and determines the minimum Mahalanobis distance of the test sample from all clusters. Further, we propose the Ensembling module that aggregates the computation of iterative TAP-Mahalanobis for a different number of clusters to provide reliable and efficient cluster computation. Through extensive experiments on synthetic and real-world datasets, we observe that our approach can detect unseen samples effectively across diverse tasks and performs better or on-par with the existing baselines. To this end, we eliminate the necessity of determining the optimal value of the number of clusters and demonstrate that our method is more viable for large-scale classification tasks.
최근 분포 외 감지, 이상 감지 및 불확실성 추정 작업의 발전에도 불구하고, 작업에 구애받지 않으면서 사후로 검증하는 접근 방식은 존재하지 않는다. 이러한 한계를 해결하기 위해, 우리는 특정 작업에서 학습된 모델로부터 추출된 특성들을 활용하는 TAPUDD (Task Agnostic and Post-hoc Unseen Distribution Detection) 라는 새로운 군집화 기반 앙상블 방법을 제안한다. 명시적으로, TAPUDD는 훈련 데이터 세트의 특성을 군집화하고 모든 군집으로부터 테스트 표본의 최소 마할라노비스 (Mahalanobis) 거리를 결정하는 TAP-Mahalanobis로 구성된다. 또한, 안정적이고 효율적인 군집 계산을 위해 서로 다른 수의 군집에 대한 반복적인 TAP-Mahalanobis의 계산을 집계하는 앙상블 모듈을 제안한다. 합성 및 실제 데이터 세트에 대한 광범위한 실험을 통해, 우리의 접근 방식이 다양한 작업에서 본 적 없던 표본을 효과적으로 감지하고 기존 방법론들보다 더 우수하거나 동등하게 수행할 수 있음을 관찰한다. 이를 위해 군집 수의 최적값을 결정할 필요성을 제거하고 대규모 분류 작업에 우리의 방법론이 더 실행 가능하다는 것을 입증한다.