서지주요정보
Mitigating label sparsity for time series analysis = 시계열 데이터 부족을 위한 레이블 부족 완화
서명 / 저자 Mitigating label sparsity for time series analysis = 시계열 데이터 부족을 위한 레이블 부족 완화 / Yooju Shin.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042469

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DDS 24002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A time series is a sequential set of data points, collected from various sources such as sensor, mobility, and finance. It takes a large cost to annotate every timestamp in a time series because of length and complexity, making hard to recognize patterns in a time series. Label sparsity in time-series data is regarded as a hurdle for its broad applicability, especially in deep learning where huge amount of labels are required. To overcome label sparsity, this dissertation research aims to suggest improve efficiency of few labels in a time series for time series analysis such as classification. The first chapter introduces an active learning algorithm called as TCLP using temporal coherence. Active learning trains an initial model and then queries informative labels to human annotators for re-training the model with the additional labels. As a time series is temporally coherent and the same class lasts for a duration, TCLP propagates the annotated instantaneous label for timestamps in the duration. Propagated labels accelerate model re-training so the model converges faster than before. TCLP estimates the duration of temporal coherence for each newly annotated label and accurately propagate given labels. The second chapter suggests CrossMatch, a method of semi-supervised learning when there is no additional labels but only initial labels. CrossMatch is a consistency regularization framework that trains a model with unlabeled data points by minimizing the difference between the output of a data point and the output of its augmentation. CrossMatch suggests a novel data augmentation method called as context-additive augmentation, which exploits the surrounding contexts of a given sampled instance from a time series. As the length of surrouding contexts can be varied, multiple instances can be augmented and the original instance does not perturbed. Using this property, CrossMatch conducts consistency regularization in more stable manner along. Also reliability-weighted mixing in CrossMatch generates more accurate pseudo-labels that become the target of each augmented instance. The third chapter proposes a change point detection algorithm called as RECURVE that finds class change when there is no available label for further analysis. A recent change point detection algorithm leverages a representation model that outputs a representation at each timestamp. It detects change points by measuring the distance between two representations at consecutive timestamps. However, RECURVE computes curvature of representation trajectory, focusing on more sequential aspect of representations. By using curvature, class change can be detected where neighboring timestamps has similar representation due to temporal coherence. The effectiveness of curvature is proven theoretically using random walk theory and empirically verified by extensive experiments using real datasets. This dissertation is expected to pave a way to employ sparse labels as much as possible and mitigates cost burden for annotating every timestamp in a time series for efficient time-series analysis.

시계열 데이터는 시간 순서대로 연속적으로 배열된 데이터 점들의 집합으로 센서, 교통, 금융 등 다양한 분야에서 생성된다. 시계열 데이터는 길이가 길고 차원이 크며 패턴을 알기 어렵기 때문에 사람의 손으로 일일이 모든 데이터 점에 레이블을 달기가 매우 어렵다. 이로 인해 레이블을 활용한 시계열 데이터의 모델 학습이 어려워져 여러 작업에 대한 활용 가능성이 떨어지는 문제점이 있다. 특히, 딥러닝을 활용한 모델은 더욱 많은 레이블이 필요하기 때문에 레이블 부족 문제가 더욱 심각하다. 이를 위해서, 본 연구에서는 레이 블이 거의 없거나 적은 수로 존재해도 시계열 데이터의 특성을 이용하여 이를 최대한으로 활용할 수 있는 방법을 제안한다. 첫 번째로, 사람에게 추가적인 레이블을 얻을 수 있는 상황에서 시간적 일관성을 이용한 능동학습 방법인 TCLP를 제안한다. 능동학습은 처음에 가지고 있는 소량의 레이블을 이용하여 초기 모델을 학습한 뒤, 이 모델을 재차 이용하여 모델에 필요한 레이블을 사람에게 얻어내고 다시 얻어낸 레이블까지 모두 이용하여 후속 모델을 학습한다. 이 때, 시간적 일관성을 이용하면 얻어진 레이블을 일관성이 유지되는 부분 모두에 전파시켜 데이터 레이블의 수를 증폭하여 후속 모델 학습을 가속화할 수 있다. TCLP는 이러한 특성을 이용하여 시계열 데이터에서 일관성이 유지되는 부분을 추정하여 추가된 레이블을 추정된 구간 안 에서 전파하고 그 수를 증폭시킨다. 두 번째로, 추가적인 레이블은 더 이상 없고 소량의 초기 레이블만 있는 상황에서 준지도학습 방법인 CrossMatch를 제안한다. 준지도학습 방법 중 하나인 일관성 정규화는 데이터 증강을 이용하여 증강된 데이터와 원본 데이터와의 모델 결과값을 줄여나가는 손실함수를 이용하여 레이블 이 되어있지 않은 데이터도 학습에 활용한다. CrossMatch는 시계열 데이터의 양 쪽에 다양한 컨텍스트를 붙일 수 있다는 점에 착안하여 컨텍스트 덧댐 증강이라는 새로운 데이터 증강방식을 일관성 정규화에 이용 한다. 컨텍스트 덧댐 증강은 다양한 시계열 데이터에 적용가능하며 원본 데이터는 바뀌지 않는다는 장점이 있어 일관성 정규화로 모델을 안정적으로 학습시킬 수 있다. 또한 신뢰도 기반의 의사라벨링을 통해서 증강 된 두 데이터로부터 신뢰도가 높은 의사레이블을 생성해 이를 각 증강 데이터의 목표 레이블로 활용한다. 세 번째로, 아예 레이블이 없는 상황에서는 클래스가 어디서 바뀌는지 알아내는 변화 감지 모델인 RECURVE 를 제안한다. 변화 감지 모델은 비지도학습으로 표현을 학습한 모델을 이용해 각 타임스탬프의 표현을 모두 얻어낸 뒤에 연속한 두 점의 표현 사이의 거리를 측정하여 이 거리가 멀어지는 곳을 변화점으로 감지한다. 그러나 RECURVE는 기존 방법과는 다르게 두 점의 표현만 고려하는 것이 아니라 연속된 타임스탬프에 존재하는 표현 궤적의 곡률을 측정하여 클래스가 바뀌는 순간을 감지한다. 이러한 곡률을 이용하면 어떤 타임스탬프와 그 근처의 데이터가 비슷한 시계열 데이터에서도 변화를 잘 감지할 수 있게 된다. 이를 무작위 행보를 이용한 이론을 통해 증명하고 실험에서도 기존 방법 대비 높은 감지 정확도를 얻음을 보였다. 본 연구를 통해 레이블이 부족한 상황에서 시계열 데이터를 더욱 효율적으로 분석하는 방법을 제시하여 여러 실제 응용에서 레이블링 비용의 부담을 덜 수 있을 것으로 기대한다.

서지기타정보

서지기타정보
청구기호 {DDS 24002
형태사항 vi, 74 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신유주
지도교수의 영문표기 : Jae-Gil Lee
지도교수의 한글표기 : 이재길
수록잡지명 : "Context Consistency Regularization for Label Sparsity in Time Series". Proceedings of the 40th International Conference on Machine Learning, v.202, pp.31579-31595(2023)
수록잡지명 : "Coherence-based Label Propagation over Time Series for Accelerated Active Learning". International Conference on Learning Representations, (2022)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 데이터사이언스대학원,
서지주기 References : p. 63-73
주제 Time series
Active learning
Semi-supervised learning
Change point detection
시계열
능동학습
준지도학습
변화점감지
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서