Recently, the interests over human-robot interaction are increasing. Especially, human gesture recogni-tion task is still a hot topic. To deal with gesture recognition, 3D convolutional neural network (3DCNN) is generally used. That is why, temporal differences of human poses make the gesture, so the analysis over the time domain is essential for gesture recognition. However, using all frames among the video sequence is inefficient. Temporally adjacent frames are similar to each other, so the overlap of informa-tion may occur. To solve this problem, we propose skeleton-based key-frame selection module. We use skeleton joint points data, which is much smaller scale compared to video sequence data, to choose the key-frame among the video sequence. By using the module, we can clarify which frame is fundamental to recognize the human gesture, and can recognize the human gesture efficiently. Also, we suggest a network which maintains the key-frame feature well during learning process. To evaluate the perfor-mance of the module, human gesture datasets with skeleton data, such as Chalearn dataset, were used. As a result of experiments, skeleton based key-frame selection module and suggested network improved gesture recognition accuracy.
최근, 사람과 로봇 사이의 상호작용에 대한 관심이 집중되고 있다. 특히, 행동 인식 분야는 여전히 뜨거운 주제로 여겨진다. 행동 인식을 하기 위해서는 일반적으로 삼차원 합성곱 신경망을 사용한다. 그것은, 시간에 따른 사람의 움직임이 행동을 만들어내기 때문에 시간의 차원에서 분석하는 것이 중요하기 때문이다. 그러나, 행동 인식을 할 때에 비디오의 모든 프레임을 사용하는 것은 비효율적이다. 한 프레임을 기준으로 바로 전, 후의 프레임은 원래의 프레임과 비슷한 정보를 가지고 있을 확률이 높기 때문이다. 이것을 해결하기 위하여, 스켈레톤 정보를 이용한 행동 내의 중요 프레임을 뽑는 모듈을 제안한다. 스켈레톤 정보는 비디오 정보보다 훨씬 작아서, 적은 연산량의 증가를 가지고도 비디오 내의 중요프레임을 효과적으로 뽑아낼 수 있다. 이 모듈을 이용하여 더 효율적으로 행동을 나타내는 특징들을 추출할 수 있었으며, 행동 인식의 성능을 개선할 수 있었다. 또한, 중요 프레임에 대한 특징을 잘 유지하는 네트워크를 제안하여, 더 정확한 행동 인식이 가능하게 했다. 모듈을 평가하기 위하여 Chalearn 데이터 셋과 같은 스켈레톤이 포함된 행동 인식 데이터셋을 사용하였다. 결과적으로, 스켈레톤을 이용한 중요 프레임 선정 모듈과 제안된 네트워크는 행동 인식을 더 효율적으로 가능하게 했다.