Time series representation learning is to transform input time series data into vector representation for classification, clustering, and anomaly detection. Since there is not enough labeled data in real-world time series data, unsupervised methods or semi-supervised methods are preferred to solve the problems about time series. Recently, unsupervised time series representation learning was based on negative sampling, one of the natural language processing techniques. However, if the number of classes on given data is few, the class of anchor and the class of negative samples can be the same in unsupervised negative sampling and this would make distortion in training. We suggest a semi-supervised negative sampling with a small amount of labeled data. We make a semi-supervised negative sampling loss function based on true negative samples with different classes. The proposed algorithm was shown to have similar accuracy to the accuracy of the supervised classifier when using 20~50% of labeled data. We conduct experiments on 8 representative univariate and multivariate time series datasets and experimental results show our method outperforms previous unsupervised representation learning, achieving improvements 1~49.8% in accuracy.
시계열 데이터 표현학습은 주어진 시계열 데이터를 분류, 군집, 이상치 탐지 등의 특정 목적을 이루기 위해 벡터 표현으로 바꾸는 학습을 말한다. 시계열 데이터는 레이블링 된 데이터의 양이 충분하지 않기 때문에 비지도 학습이나 준지도 학습 방법이 선호되어 왔다. 최근에는 자연어 처리 기법 중 하나인 네거티브 샘플링을 활용하여 시계열 데이터에 대해 비지도 표현학습을 하였다. 하지만, 클래스의 숫자가 적을 때 비지도 방법으로 네거티브 샘플링을 사용할 경우, 클래스가 같은 데이터를 네거티브 샘플로 학습할 확률이 높기 때문에 인코더를 트레이닝할 때 왜곡이 생길 수 있다. 우리는 소량의 레이블 데이터를 사용한 준지도 학습 환경에서의 네거티브 샘플링 방법을 제안한다. 본 논문에서 제안하는 방법은 레이블링 된 데이터에서 다른 클래스를 가진 경우에 대해 네거티브 샘플링 손실 함수를 추가하였다. 제안한 알고리즘은 20~50%의 레이블링 된 데이터를 사용하였을 때 지도학습으로 훈련된 분류기와 비슷한 정확도를 가짐을 실험을 통해 보였다. 8 종류의 대표적인 일변수 및 다변수 시계열 데이터를 활용한 분류 실험에서 레이블링된 데이터를 사용하였을 때 기존의 비지도 학습 방법보다 1~49.8% 높은 정확도를 보였다.