서지주요정보
Convolutional recurrent neural networks for first-person action recognition = 일인칭 행동 인식을 위한 컨볼루션 순환 신경망 연구
서명 / 저자 Convolutional recurrent neural networks for first-person action recognition = 일인칭 행동 인식을 위한 컨볼루션 순환 신경망 연구 / Byeong-Uk Bae.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030734

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 17014

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In recent years, research on first-person images has become increasingly important in the field of computer vision due to the development of wearable cameras and the interest in life logging. However, it is difficult to analyze the first-person image because the user 's hand is represented in various ways as well as the camera motion is mixed. As a general approach, Convolutional Neural Network (CNN) based learning methods are used primarily for vision tasks such as classification and recognition, because they better represent the latent features of an image. However, for vision work involving video data, the CNN-based model has the disadvantage that it is difficult to learn the long-time dependence between sequence data. In order to overcome such limitations, we propose a deep network structure consisting of CNN and LSTM (Long short term memory) for action recognition in first-person image data. Our model has two main concepts: First, each object information and motion information is learned through a convolution network divided into two streams. The next step is to learn the temporal dependence of multi-task learning in the LSTM model through the latent features obtained from each stream. We evaluated the performance of the GTEA dataset and compared it with other studies.

최근에는 웨어러블 카메라의 개발 및 라이프 로깅에 대한 관심으로 인해 컴퓨터 비전 분야에서 1 인칭 이미지에 대한 연구가 점차 중요해지고 있다. 하지만 일인칭 영상은 사용자의 손이 다양한 모습으로 표현될 뿐만 아니라 카메라 모션이 혼합되어 있어 이를 분석하는데 많은 어려움이 있다. 일반적인 접근 방법인 CNN (Convolutional Neural Network) 기반 학습은 이미지의 잠재적 인 특징을 보다 잘 나타내기 때문에 분류 및 인식과 같은 비전 작업에 주로 사용된다. 하지만 비디오 데이터를 다루는 비전 작업의 경우, CNN 기반의 모델은 시퀀스 데이터 사이의 긴 시간 의존성을 학습하기 어려운 단점이 있다. 이 연구에서는 그러한 한계를 극복하기 위해, 일인칭 영상 데이터에서의 행동 인식을 위한 CNN과 LSTM (Long Short Term Memory)로 구성된 깊은 네트워크 구조를 제안한다. 우리 모델은 두 가지 주요한 컨셉으로 되어 있다. 먼저, 두 스트림으로 나눠지는 컨볼루션 네트워크를 통해 각 물체 정보와 모션 정보를 학습한다. 다음 단계로서 각 스트림에서 얻어진 잠재 특성을 통해 LSTM 모델에서 멀티 태스크 학습으로 시간적 의존성을 학습하게 한다. 우리는 GTEA 데이터 셋을 성능을 평가하고 다른 연구와 비교한 결과를 보여준다.

서지기타정보

서지기타정보
청구기호 {MCS 17014
형태사항 iii, 25 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 배병욱
지도교수의 영문표기 : Sungho Jo
지도교수의 한글표기 : 조성호
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 21-23
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서