Recently, various regularization techniques for deep neural network based video models have been studied. From the perspective of supervised learning, it is known that deep neural network models for video action recognition are easily prone to overfitting to training data due to a large number of parameters, and regularization techniques can be one solution to alleviate the problem. From the perspective of unsupervised learning (or self-supervised learning), a group of data augmentation methods, which is a type of regularization method, is used in various ways as an essential element of the contrastive learning method that is being actively studied.
In this study, we propose frequency-selective regularization techniques for supervised/unsupervised learning of video models. First, in order to solve the overfitting problem of the video action recognition model, we propose a regularization technique in which small random changes are made to low-frequency signals in the feature stage. Second, we propose a data augmentation method in which the video model arbitrarily filters the spatiotemporal low-frequency signal from the input video signal to learn a better representation through contrastive learning.
Through these frequency-selective regularization techniques, it can be confirmed that the video model improves the action recognition performance in the target task without using additional training data.
최근 심층 신경망 기반의 비디오 모델을 위한 정규화 기법이 다양하게 연구되고 있다. 지도 학습 관점에서 비디오 행동 인식을 위한 심층 신경망 모델은 많은 양의 파라미터로 인해 학습 데이터에 쉽게 과적합되는 것으로 알려져 있는데, 정규화 기법이 문제를 완화하기 위한 한 가지 해결책이 될 수 있다. 비지도 학습 (혹은 자기 지도 학습) 관점에서는 최근 활발하게 연구되고 있는 대조 학습 방법의 필수 요소로 정규화 기법의 일종인 데이터 증강법이 다양하게 사용되고 있다.
본 연구에서는 비디오 모델의 지도/비지도 학습을 위한 주파수 선택적 정규화 기법들을 제안한다. 첫째로 비디오 행동 인식 모델의 과적합 문제를 해결하기 위하여 특징단에서 저주파 신호에 무작위로 작은 변화를 주는 형태의 정규화 기법을 제안한다. 둘째로 비디오 모델이 대조학습을 통하여 보다 좋은 표상을 학습하기 위해 입력 비디오 신호에서 임의로 시공간적 저주파 신호를 필터링하는 형태의 데이터 증강법을 제안한다.
이러한 주파수 선택적 정규화 기법들을 통하여 비디오 모델이 추가적인 학습 데이터 사용 없이 목표 작업에서 행동 인식 성능이 향상됨을 확인할 수 있다.