Human action recognition (HAR) aims to understand human behaviors and predict the correct answer to each action using various visual information such as RGB video, infrared video, depth information video, or skeleton information as input data. In action recognition, the action may be expressed by different movements depending on the performers or interpreted as different actions in a specific domain. Such expressions make it challenging to prepare sufficient data for the learning of action recognition models. Thus, we consider an efficient method that can be trained with few samples and applied its potential features to other domains such as knowledge distillation. In this paper, we propose a teacher-student network to learn the representations from the given actions based on the skeleton sequences and textual information describing each action. Our teacher network consists of two encoders: a skeleton encoder, which is a graph-based model to fit the structure of skeletons, and a text encoder which is pre-trained with large-scale datasets. The teacher network uses the skeleton sequences and additional textual information of the synonyms of the action labels to provide cross-modality to the student network. Furthermore, the student network contains only a skeleton encoder same as the teacher to learn the semantic relationships guided by the knowledge of the teacher. Experiments on one-shot HAR using the public dataset NTU RGB+D120 demonstrate the state-of-the-art performance of the proposed method.
행동 인식 기술은 RGB 비디오, 적외선 비디오, 깊이 정보 비디오, 또는 관절 정보 등 다양한 시각 정보를 입력 데이터로 사용하여 사람의 행동을 이해하고 각 행동의 정답을 예측하는 것을 목표로 한다. 행동 인식에서 행동은 수행자에 따라 다른 동작으로 표현되거나 도메인에 따라 다르게 해석될 여지가 있어 특정한 항목의 행동 데이터를 수집하기 어렵게 만든다. 따라서 우리는 적은 샘플로도 학습이 가능하며 효율적인 학습을 위해 지식 증류 기법과 같이 다른 도메인의 데이터를 활용할 수 있는 방법을 고안한다. 본 논문에서는 각 행동을 설명하는 관절 정보와 텍스트를 기반으로 주어진 행동 샘플을 학습하는 교사-학생 네트워크를 활용하는 크로스 모달 지식 증류 기법을 제안한다. 교사 네트워크는 관절 정보의 구조 정보를 활용하는 그래프 모델인 관절 인코더와 대규모 데이터셋으로 사전 학습된 텍스트 인코더의 두 가지 인코더로 구성된다. 교사 네트워크는 관절 정보와 행동 라벨의 동의어에 대한 추가적인 텍스트를 활용하여 학습 네트워크에 크로스 모달리티를 제공한다. 또한 학생 네트워크는 교사와 동일한 관절 인코더만 포함하며 교사의 지식으로 부터 받은 의미적 관계를 학습한다. 우리는 공개 데이터셋인 NTU RGB+D 120 을 통해 원샷 행동 인식 실험을 진행하여 기존의 행동인식 기법에 비해 더 높은 성능을 달성했다.