With the recent development of high-performance central processing units (CPUs) and graphics processing units (GPUs), and the use of many types of datasets, deep learning technology has evolved significantly, allowing deep learning to be utilized in various fields. However, constructing and learning a neural network with high accuracy requires a large amount of computation, which makes it difficult to use neural networks on low-power devices such as smartphones and mobile robots. Therefore, in this study, an event camera generating only a small amount of data and a spiking neural network which is suitable for processing event data are used for gesture recognition with a small computation. For gesture recognition, a spiking neural network with spiking convolutional layers is used, and for increasing gesture recognition performance, three kinds of spiking attention mechanisms are proposed. The network’s performance is evaluated on N-MNIST dataset, a public event data set. Experimental results show that the proposed spiking attention mechanism accurately performs gesture recognition with low computational complexity.
최근 고성능 중앙 처리 장치(CPU, Central Processing Unit), 그래픽 처리 장치 (GPU, Graphics Processing Unit)의 발달과 많은 종류의 데이터셋 사용이 가능해지면서 딥러닝 기술이 크게 발전하였으며 이에 따라 다양한 분야에서의 활용을 가능케 하였다. 하지만 높은 정확도의 뉴럴 네트워크를 구성, 학습하기 위해서는 많은 양의 계산량을 필요로 하며 이는 스마트 폰, 모바일 로봇 등과 같은 저전력 기기에서 뉴럴 네트워크의 활용을 어렵게 하였다. 따라서 본 연구에서는 데이터 양이 적은 이벤트 카메라와, 이를 처리하기에 적합한 스파이킹 뉴럴 네트워크를 이용하여 적은 양의 계산으로 제스쳐 인식을 수행한다. 제스쳐 인식을 위하여 컨볼루션 구조의 스파이킹 뉴럴 네트워크를 사용하였고, 높은 정확도의 제스쳐 인식을 위해 3가지 종류의 스파이킹 어텐션 메커니즘을 제안하였다. 성능 평가를 위해서는 퍼블릭 이벤트 데이터 셋인 N-MNIST 데이터셋을 사용하였다. 실험 결과, 제안된 스파이킹 어텐션 메커니즘을 사용해 적은 계산량으로 정확하게 제스쳐 인식을 수행하는 것을 확인할 수 있었다.