서지주요정보
관심 부분 집중과 물체 학습을 통한 사람 행동 인식 = Human action recognition by attention and object network
서명 / 저자 관심 부분 집중과 물체 학습을 통한 사람 행동 인식 = Human action recognition by attention and object network / 심봉근.
저자명 심봉근 ; Sim, Bong-Guen
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029170

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 16059

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

For the recent decades, action recognition has become one of the most interesting issues in computer vision area. Action recognition can be used for many applications such as abnormal behavior detection from surveillance cameras or camera-based mobile robots. However, there are no clear winner on video analysis until now. Most researchers use hand-crafted features extracted from tracking algorithm with Fisher vector until 2010s. Nowadays, deep-learning has been proven for many cases and various approaches are used to discover tendency of deep-learning. Consequentially pros and cons of deep-learning came out, therefore, many researches that strengthen the strength and make up for the weakness are investigated. Especially CNN is a powerful way to analyze images. Many researchers are using CNN, but using CNN to analyze video is not available because CNN has no relationship between input sequences. Therefore RNN, which has strong relationship between input sequences is very useful to describe video. Thus, in order to analyze video, CNN which is strong on images is usually combined with LSTM which is strong on sequences. Two-stream CNN divides video sequence into RGB as spatial stream and optical flow as temporal stream. This algorithm is motivated from human visual system based on two-stream hypothesis. By utilizing two-stream CNN, the performance of action recognition can be improved. In this paper, we focus on the human actions which interact with objects. We use objects and visual attention to recognize human action better. Considering object-interactive human action, most actions have their own matching object. Sometimes one can predict the action with the interacting object alone without any information of the action itself. For example, if a knife and carrots are given as objects, we can easily think the person is cutting carrots with the knife. Also, we pay more attention to the region of interest to recognize the human action. First, we extract temporal streams from a video sequence. Second, we train RGM and optical flow frames with CNN separately. Third, we estimate action tube to use attention network. Fourth, we utilize PCA to reduce dimension from CNN vectors. Lastly, we train all CNN vectors with LSTM. We show that attention network gives more accurate results from optical flow CNN and that long sequences are better than short sequences. The proposed architecture is small owing to PCA and we can obtain good results in 8  10 fps speed. The performance and speed are compared with the previous methods.

최근, 행동 인식이 많은 부분에서 관심을 받고 있다. 행동 인식은 이상 행동 검출이나 카메라 기반 로봇에서 사용될 수 있다. 그러나 비디오를 분석하는 방법은 아직까지는 확실히 가장 좋다라고 알려진 것이 없다. 2010년즈음 대부분의 연구자들은 손으로 만든 피쳐와 트래킹 알고리즘을 이용하여 피셔 벡터를 이용한 방법으로 진행되어왓다. 그러나 최근 딥러닝의 출시로 인해 딥러닝의 경향이 증명되고있다. 현재는 딥러닝의 장점과 단점이 나와있으며 따라서 많은 연구자들이 딥러닝의 장점을 살리고 단점을 죽이는 방법을 연구하고 있다. 특히 CNN은 이미지를 분석하는데 강력하다. 많은 연구자들이 CNN을 사용하고 있지만 이는 비디오 분석은 힘들다. 왜냐하면 CNN은 입력 시퀀스간의 관계가 없기 때문이다. 따라서 입력 시퀀스간의 관계가 있는 RNN을 사용하면 비디오 분석에 유용하다. 따라서 비디오를 분석하기 위해서는 CNN으로 입력 이미지를 분석한 후에 그 시퀀스를 LSTM으로 분석하는 방향이 필요하다. 투 스트림 CNN은 비디오 시퀀스를 RGB와 Optical Flow를 각각 공간 정보와 임시 정보로 활용하게 된다. 이 알고리즘은 사람의 시각 시스템을 차용한 것인데, 이 투 스트림 CNN을 통해서 행동 인식을 더 잘 하고자 한다. 이 논문에서는 사람의 행동은 물체들과 관련이 있다는 생각으로 집중한다. 우리는 물체와 관심 부분 집중을 통해 사람의 행동을 더 잘 분석하고자 한다. 행동과 관련있는 물체를 생각해보면, 대부분의 행동은 각 행동과 연관이 있는 물체가 있다. 가끔은 주어진 물체 만으로도 사람의 행동을 예측할 수 있는데, 예를 들어 칼과 당근이 있다면 이를 통해 그 사람은 당근을 썬다는 행동을 예측할 수 있다. 또한 사람의 행동에 보다 더 집중하게 된다면 행동을 더 잘 인식할 수 있을 것이다. 나의 연구는 첫째로 비디오에서 임시 정보를 추출하고, 그 두 가지로 CNN을 학습한다. 그리고 관심 부분 집중을 한 뒤에 PCA를 통해 정보를 압축한다. 마지막으로 추출된 CNN으로 LSTM을 학습한다. 우리는 이처럼 관심 부분 집중과 물체를 이용하여 보다 정확한 결과를 얻었으며, LSTM의 특성으로 인해 짧은 시퀀스보다 긴 시퀀스에서 보다 정확한 결과를 얻어낸다는 사실을 알았다. 도한 약 8~10fps의 빠른 속도로 결과를 얻을 수 있다. 따라서 이전에 결과에 비해 좋은 성능과 빠른 속도로 결과를 얻어낼 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 16059
형태사항 v, 42 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Bong-Guen Sim
지도교수의 한글표기 : 권인소
지도교수의 영문표기 : In So Kweon
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 38-40
주제 행동인식
CNN
LSTM
집중
물체
Action recognition
CNN
LSTM
attention
object
QR CODE qr code