In real-world applications, tabular data often suffer from distribution shifts due to their widespread and abundant nature, leading to erroneous predictions of pre-trained machine learning models. However, addressing such distribution shifts in the tabular domain has been relatively underexplored due to unique challenges such as varying attributes and dataset sizes, as well as the limited representation learning capabilities of deep learning models for tabular data. Particularly, with the recent promising paradigm of test-time adaptation (TTA), where we adapt the off-the-shelf model to the unlabeled target domain during the inference phase without accessing the source domain, we observe that directly adopting commonly used TTA methods from other domains often leads to model collapse. We systematically explore challenges in tabular data test-time adaptation, including skewed entropy, complex latent space decision boundaries, confidence calibration issues with both overconfident and under-confident, and model bias towards source label distributions along with class imbalances. Based on these insights, we introduce AdapTable, a novel tabular test-time adaptation method that directly modifies output probabilities by estimating target label distributions and adjusting initial probabilities based on calibrated uncertainty. Extensive experiments on both natural distribution shifts and synthetic corruptions demonstrate the adaptation efficacy of the proposed method.
실제 응용 분야에서 테이블 데이터는 그 접근성 때문에 광범위하게 사용되고 있어 분포 변화를 겪는 경우가 많은데, 이는 사전 훈련된 기계 학습 모델들의 잘못된 예측을 야기한다. 그러나 테이블 도메인에서 이러한 분포 변화에 대응하는 것은 테이블 데이터셋의 다양한 특성과 크기, 그리고 테이블 데이터에 대한 딥 러닝 모델의 부족한 표현 학습 능력과 같은 생소한 어려움으로 인해 상대적으로 탐구되지 않았다. 특히 최근에 주목받고 있는 패러다임인 테스트 단계 적응은 학습 도메인에 접근하지 않고 추론 단계에서 라벨이 없는 타겟 도메인에 기성 모델을 적응시키는 방법으로, 다른 도메인에서 일반적으로 사용되는 테스트 단계 적응 방법을 직접 테이블 도메인에 적용할 경우 모델 붕괴로 이어지는 것을 관찰하였다. 테이블 데이터의 테스트 단계 적응에 대한 한계점을 체계적으로 분석한 결과, 치우친 엔트로피 분포, 복잡한 잠재 공간의 결정 경계, 확신 보정 문제, 학습 데이터 라벨 분포에 대한 모델의 편향과 라벨 분포 불균형 등을 발견하였다. 이러한 발견을 바탕으로 우리는 어뎁테이블이라는 새로운 테이블 테스트 시간 적응 방법을 제안, 이 방법은 타겟 라벨 분포를 추정하고 보정된 불확실성에 기반하여 초기 확률을 조정함으로써 출력 확률을 직접 수정한다. 테이블 데이터의 현실 상황의 분포 변화와 인위적으로 생성된 분포 변화에서 모두 효과를 보였다.