서지주요정보
LSTM을 이용한 짧은 동작 기반 특징과 결합을 활용한 1인칭 행동인식 = Egocentric activity recognition based on short-movements aggregation using LSTM and fusion
서명 / 저자 LSTM을 이용한 짧은 동작 기반 특징과 결합을 활용한 1인칭 행동인식 = Egocentric activity recognition based on short-movements aggregation using LSTM and fusion / 박준우.
저자명 박준우 ; Park, JoonWoo
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031862

소장위치/청구기호

학술문화관(문화관) 보존서고

MRE 18001

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

There have been many human action recognition studies over the last few decades. However, they mostly have used the third person videos, not the 1st person videos which have not been studied long. In that it is about action recognition even they have a difference between third person videos and first person videos, there can be a question: "Can not they be approached in the same direction in terms of behavior recognition?" However, if we approach in the same direction, we cannot get high performance because of the nature of first person videos, mainly shot by a device on head. In a limited environment of unique first person videos, a different approach was needed. A number of researchers have processed the time information of first person videos to create a first-person-specific optical flow or they have used other camera information, such as depth cameras. However, I want to show the result of high performance by using one wearable device camera information and using existing time information using the tv-l1 optical flow, so that I suggest a first-person customized deep learning network structure. To do this, I try to use information by paying attention to information about short movements, and propose a custom fusion technique to match RGB information. And I achieve 9% higher than the previous paper.

지난 몇십년간 많은 행동인식 연구가 존재했다. 하지만 여기서 행동 인식은 3인칭에서의 행동인식이며 1인칭에서의 행동인식 연구는 오래되지않았다. "3인칭과 1인칭의 차이가 존재하지만 행동인식이라는 관점에서 같은 방향으로 접근할 수 있지 않을까?" 라는 의문이 있을 수 있다. 하지만 같은 방향으로 접근하게 되면 1인칭의 큰 특징인 주로 머리에 착용하고 찍는 장비라는 차이에서 높은 성능을 얻을 수 없었다. 특유의 1인칭이라는 제한된 환경에서는 다른 접근 방법이 필요했으며 수많은 연구자들이 시간정보를 1인칭에 맞춰 잘 가공하여 1인칭에 특화된 옵티컬 플로우(optical flow)를 만들어 내거나 다른 카메라 정보들 예를 들면 깊이(depth)카메라을 혼합하여 사용하였다. 하지만 나는 웨어러블 디바이스 카메라 정보 하나만을 사용하며 시간정보를 기존의 tv-l1 옵티컬 플로우(optical flow) 그대로 사용하되 1인칭 맞춤형 딥러닝 네트워크 구조를 제안하여 높은 성능으로 그 결과를 보여주고자 한다. 그러기 위해 나는 짧은 움직임이라는 정보에 주목해서 정보를 이용하고자 했으며, RGB정보와 잘 어울리기 위한 맞춤형 결합(fusion) 기법을 제시하였고 기존의 논문보다 9퍼센트 높은 성능을 보이고 있다.

서지기타정보

서지기타정보
청구기호 {MRE 18001
형태사항 ii, 24 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : JoonWoo Park
지도교수의 한글표기 : 양현승
지도교수의 영문표기 : HyunSeung Yang
학위논문 학위논문(석사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 참고문헌 : p. 20-23
주제 1인칭 카메라
액션카메라
행동인식
딥러닝
LSTM
결합(Fusion)
짧은 움직임
옵티컬 플로우
투 스트림
Egocentric video
first person video
wearable device camera
action recognition
behavior recognition
deep learning
LSTM
Fusion
short movement
optical flow
two stream
QR CODE qr code