시계열 데이터 분류를 위한 준지도 표현학습 = Semi-supervised representation learning for time series classification
서명 / 저자 시계열 데이터 분류를 위한 준지도 표현학습 = Semi-supervised representation learning for time series classification / 김세원.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

MKSE 20009

휴대폰 전송







Time series representation learning is to transform input time series data into vector representation for classification, clustering, and anomaly detection. Since there is not enough labeled data in real-world time series data, unsupervised methods or semi-supervised methods are preferred to solve the problems about time series. Recently, unsupervised time series representation learning was based on negative sampling, one of the natural language processing techniques. However, if the number of classes on given data is few, the class of anchor and the class of negative samples can be the same in unsupervised negative sampling and this would make distortion in training. We suggest a semi-supervised negative sampling with a small amount of labeled data. We make a semi-supervised negative sampling loss function based on true negative samples with different classes. The proposed algorithm was shown to have similar accuracy to the accuracy of the supervised classifier when using 20~50% of labeled data. We conduct experiments on 8 representative univariate and multivariate time series datasets and experimental results show our method outperforms previous unsupervised representation learning, achieving improvements 1~49.8% in accuracy.

시계열 데이터 표현학습은 주어진 시계열 데이터를 분류, 군집, 이상치 탐지 등의 특정 목적을 이루기 위해 벡터 표현으로 바꾸는 학습을 말한다. 시계열 데이터는 레이블링 된 데이터의 양이 충분하지 않기 때문에 비지도 학습이나 준지도 학습 방법이 선호되어 왔다. 최근에는 자연어 처리 기법 중 하나인 네거티브 샘플링을 활용하여 시계열 데이터에 대해 비지도 표현학습을 하였다. 하지만, 클래스의 숫자가 적을 때 비지도 방법으로 네거티브 샘플링을 사용할 경우, 클래스가 같은 데이터를 네거티브 샘플로 학습할 확률이 높기 때문에 인코더를 트레이닝할 때 왜곡이 생길 수 있다. 우리는 소량의 레이블 데이터를 사용한 준지도 학습 환경에서의 네거티브 샘플링 방법을 제안한다. 본 논문에서 제안하는 방법은 레이블링 된 데이터에서 다른 클래스를 가진 경우에 대해 네거티브 샘플링 손실 함수를 추가하였다. 제안한 알고리즘은 20~50%의 레이블링 된 데이터를 사용하였을 때 지도학습으로 훈련된 분류기와 비슷한 정확도를 가짐을 실험을 통해 보였다. 8 종류의 대표적인 일변수 및 다변수 시계열 데이터를 활용한 분류 실험에서 레이블링된 데이터를 사용하였을 때 기존의 비지도 학습 방법보다 1~49.8% 높은 정확도를 보였다.


청구기호 {MKSE 20009
형태사항 iv, 44 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Sewon Kim
지도교수의 한글표기 : 이재길
지도교수의 영문표기 : Jae-Gil Lee
학위논문 학위논문(석사) - 한국과학기술원 : 지식서비스공학대학원,
서지주기 참고문헌 : p. 41-43





이 주제의 인기대출도서