In recent years, research on first-person images has become increasingly important in the field of computer vision due to the development of wearable cameras and the interest in life logging. However, it is difficult to analyze the first-person image because the user 's hand is represented in various ways as well as the camera motion is mixed. As a general approach, Convolutional Neural Network (CNN) based learning methods are used primarily for vision tasks such as classification and recognition, because they better represent the latent features of an image. However, for vision work involving video data, the CNN-based model has the disadvantage that it is difficult to learn the long-time dependence between sequence data. In order to overcome such limitations, we propose a deep network structure consisting of CNN and LSTM (Long short term memory) for action recognition in first-person image data. Our model has two main concepts: First, each object information and motion information is learned through a convolution network divided into two streams. The next step is to learn the temporal dependence of multi-task learning in the LSTM model through the latent features obtained from each stream. We evaluated the performance of the GTEA dataset and compared it with other studies.
최근에는 웨어러블 카메라의 개발 및 라이프 로깅에 대한 관심으로 인해 컴퓨터 비전 분야에서 1 인칭 이미지에 대한 연구가 점차 중요해지고 있다. 하지만 일인칭 영상은 사용자의 손이 다양한 모습으로 표현될 뿐만 아니라 카메라 모션이 혼합되어 있어 이를 분석하는데 많은 어려움이 있다. 일반적인 접근 방법인 CNN (Convolutional Neural Network) 기반 학습은 이미지의 잠재적 인 특징을 보다 잘 나타내기 때문에 분류 및 인식과 같은 비전 작업에 주로 사용된다. 하지만 비디오 데이터를 다루는 비전 작업의 경우, CNN 기반의 모델은 시퀀스 데이터 사이의 긴 시간 의존성을 학습하기 어려운 단점이 있다. 이 연구에서는 그러한 한계를 극복하기 위해, 일인칭 영상 데이터에서의 행동 인식을 위한 CNN과 LSTM (Long Short Term Memory)로 구성된 깊은 네트워크 구조를 제안한다. 우리 모델은 두 가지 주요한 컨셉으로 되어 있다. 먼저, 두 스트림으로 나눠지는 컨볼루션 네트워크를 통해 각 물체 정보와 모션 정보를 학습한다. 다음 단계로서 각 스트림에서 얻어진 잠재 특성을 통해 LSTM 모델에서 멀티 태스크 학습으로 시간적 의존성을 학습하게 한다. 우리는 GTEA 데이터 셋을 성능을 평가하고 다른 연구와 비교한 결과를 보여준다.