Probabilistic imputation for time-series classification with missing data = 결측치가 존재하는 시계열 데이터 분류를 위한 확률적 대체
서명 / 저자 Probabilistic imputation for time-series classification with missing data = 결측치가 존재하는 시계열 데이터 분류를 위한 확률적 대체 / Seunghyun Kim.
발행사항 [대전 : 한국과학기술원, 2024].
MAI 24031

Multivariate time series data for real-world applications typically contain a significant amount of missing values. The dominant approach for classification with such missing values is to impute them heuristically with specific values (zero, mean, values of adjacent time-steps) or learnable parameters. However, these simple strategies do not take the data generative process into account, and more importantly, do not effectively capture the uncertainty in prediction due to the multiple possibilities for the missing values. In this paper, we propose a novel probabilistic framework for classification with multivariate time series data with missing values. Our model consists of two parts; a deep generative model for missing value imputation and a classifier. Extending the existing deep generative models to better capture structures of time-series data, our deep generative model part is trained to impute the missing values in multiple plausible ways, effectively modeling the uncertainty of the imputation. The classifier part takes the time series data along with the imputed missing values and classifies signals, and is trained to capture the predictive uncertainty due to the multiple possibilities of imputations. Importantly, we show that na ̈ıvely combining the generative model and the classifier could result in trivial solutions where the generative model does not produce meaningful imputations. To resolve this, we present a novel regularization technique that can promote the model to produce useful imputation values that help classification. Through extensive experiments on real-world time series data with missing values, we demonstrate the effectiveness of our method.

현실 세계에서 발생하는 다변량 시계열 데이터는 일반적으로 상당량의 결측치가 포함되어 있다. 이러한 결측치가 포함된 시계열 데이터를 분류하기 위한 주요한 방법들은 구체적인 값(0, 평균, 인접한 관측값) 이나 학습 가능한 매개변수를 통해 휴리스틱하게 결측치를 채우는 것이다. 그러나 이러한 단순한 방법은 데이터의 생성 과정을 고려하지 않으며, 더 중요한 것은 결측치가 가질 수 있는 다양한 가능성으로 인한 예측의 불확실성을 효과적으로 포착하지 못한다는 점이다. 이 논문에서는 결측치가 포함된 다변량 시계열 데이터에 대한 분류를 위한 새로운 확률 모델을 제안하였다. 우리의 모델은 결측치 대체를 위한 생성 모델 과 분류모델이 합쳐진 형태로 구성되었다. 기존의 생성 모델이 시계열 데이터의 구조를 더 잘 포착하도록 확장하면서, 생성 모델 부분은 결측값을 여러 가지 타당한 방법으로 생성하도록 훈련하여 결측값으로 인해 발생하는 불확실성을 효과적으로 모델링한다. 분류모델은 결측값이 채워진 시계열 데이터를 이용하여 데 이터를 분류하며, 결측치 대체의 여러 가능성으로 인한 예측의 불확실성을 포착하도록 학습된다. 중요한 것은, 생성 모델과 분류모델을 단순히 결합하는 경우에는 생성 모델이 무의미한 결측값을 생성할 수 있다는 것이다. 이를해결하기위해이논문에서는유용한결측값대체를할수있도록하는새로운정규화기술을 제안하였다. 결측값이 포함된 실제 시계열 데이터에 대한 실험을 통해 우리의 방법의 효과를 입증하였다.


청구기호 {MAI 24031
형태사항 iii, 19 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김승현
지도교수의 영문표기 : Juho Lee
지도교수의 한글표기 : 이주호
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 16-17
주제 Time series classification
Missing data
Probabilistic methods
Uncertainty quantification
시계열 분류
확률 모델
불확실성 측정





