서지주요정보
Cross-modal knowledge distillation for one-shot human action recognition = 원샷 행동 인식을 위한 크로스 모달 지식 증류 방법
서명 / 저자 Cross-modal knowledge distillation for one-shot human action recognition = 원샷 행동 인식을 위한 크로스 모달 지식 증류 방법 / Jong-Whoa Lee.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041342

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 23051

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Human action recognition (HAR) aims to understand human behaviors and predict the correct answer to each action using various visual information such as RGB video, infrared video, depth information video, or skeleton information as input data. In action recognition, the action may be expressed by different movements depending on the performers or interpreted as different actions in a specific domain. Such expressions make it challenging to prepare sufficient data for the learning of action recognition models. Thus, we consider an efficient method that can be trained with few samples and applied its potential features to other domains such as knowledge distillation. In this paper, we propose a teacher-student network to learn the representations from the given actions based on the skeleton sequences and textual information describing each action. Our teacher network consists of two encoders: a skeleton encoder, which is a graph-based model to fit the structure of skeletons, and a text encoder which is pre-trained with large-scale datasets. The teacher network uses the skeleton sequences and additional textual information of the synonyms of the action labels to provide cross-modality to the student network. Furthermore, the student network contains only a skeleton encoder same as the teacher to learn the semantic relationships guided by the knowledge of the teacher. Experiments on one-shot HAR using the public dataset NTU RGB+D120 demonstrate the state-of-the-art performance of the proposed method.

행동 인식 기술은 RGB 비디오, 적외선 비디오, 깊이 정보 비디오, 또는 관절 정보 등 다양한 시각 정보를 입력 데이터로 사용하여 사람의 행동을 이해하고 각 행동의 정답을 예측하는 것을 목표로 한다. 행동 인식에서 행동은 수행자에 따라 다른 동작으로 표현되거나 도메인에 따라 다르게 해석될 여지가 있어 특정한 항목의 행동 데이터를 수집하기 어렵게 만든다. 따라서 우리는 적은 샘플로도 학습이 가능하며 효율적인 학습을 위해 지식 증류 기법과 같이 다른 도메인의 데이터를 활용할 수 있는 방법을 고안한다. 본 논문에서는 각 행동을 설명하는 관절 정보와 텍스트를 기반으로 주어진 행동 샘플을 학습하는 교사-학생 네트워크를 활용하는 크로스 모달 지식 증류 기법을 제안한다. 교사 네트워크는 관절 정보의 구조 정보를 활용하는 그래프 모델인 관절 인코더와 대규모 데이터셋으로 사전 학습된 텍스트 인코더의 두 가지 인코더로 구성된다. 교사 네트워크는 관절 정보와 행동 라벨의 동의어에 대한 추가적인 텍스트를 활용하여 학습 네트워크에 크로스 모달리티를 제공한다. 또한 학생 네트워크는 교사와 동일한 관절 인코더만 포함하며 교사의 지식으로 부터 받은 의미적 관계를 학습한다. 우리는 공개 데이터셋인 NTU RGB+D 120 을 통해 원샷 행동 인식 실험을 진행하여 기존의 행동인식 기법에 비해 더 높은 성능을 달성했다.

서지기타정보

서지기타정보
청구기호 {MCS 23051
형태사항 iii, 29 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이종화
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 24-27
주제 human action recognition
skeleton-based human action recognition
skeleton information
one-shot learning
cross-modal knowledge distillation
teacher-student networks
행동 인식
관절 기반 행동 인식
관절 정보
원샷 기반 학습
크로스 모달 지식 증류
교사-학생 네트워크
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서