We consider a soft attention based model for the task of action recognition in videos. We used C3D 3d cnn network for feature extractor and multi-layered Recurrent Neural Networks (RNNs) with bi-directional Long Short-Term Memory (bi-LSTM) units which are deep both spatially and temporally as a classifier. Our model learns to focus selectively on parts of the video frames and important frames and classifies videos. The model essentially learns which parts and frames are relevant for the task and attaches higher importance to them. We evaluate the model on UCF-101 (YouTube Action)datasets and compare the result without attention mechanism. The result show that it's accuracy is 93% which acurracy is comparable to other state of the art result.
이 논문에서는 비디오 행동 인식에서 소프트 집중에 기반한 모델을 다룬다. 우리는 삼차원 합성곱 네트워크를 특징 피쳐를 뽑는 것으로 사용하였고 시공간적인면을 모두 학습할 수 있는 양방향 장단기 기억 순환 신경망을 분류기로 사용하였다. 우리의 모델은 한 피쳐 내에서는 중요한 부분을 학습하고 영상 전체에서는 중요한 프레임을 선택적으로 학습한다. 행동을 인식하는 것과 관련 있는 부분과 프레임에 중요성을 더한다. 우리는 UCF-101 데이터셋에서 성능을 평가하였고 어텐션이 없을 때와 성능을 비교하였다. 우리의 모델의 정확도는 93.8%로 state of the art 모델들과 성능을 비교 할만 하다.