서지주요정보
Unified spatio-temporal neural networks for contextual action understanding = 맥락적 행동 이해를 위한 시공간 통합 신경망
서명 / 저자 Unified spatio-temporal neural networks for contextual action understanding = 맥락적 행동 이해를 위한 시공간 통합 신경망 / Minju Jung.
저자명 Jung, Minju ; 정민주
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033269

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19031

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Context is important to understand human action because the same action can be interpreted in different ways, depending on context. Specifically, context works in a bottom-up or a top-down manner. On the one hand, context is formed by observing a series of actions in a bottom-up manner and affects to the recognition of the next action. On the other hand, context is predefined or planned before action execution and then used to execute an intended series of actions in a top-down manner. The type of actions that require contextual information is called contextual action. Contextual action should be comprehensively understood including bottom-up and top-down contexts. To do that, a mechanism for long-term information processing should be considered for maintaining contextual information over a long period of time. Despite the importance of contextual action understanding, the studies for contextual action understanding have not been active. Therefore, in this dissertation, we cover contextual action understanding, especially for contextual action recognition and planning, from deep neural network modeling to practical problems related to the training of deep neural networks. The contributions of this dissertation are the following. First, we propose a unified spatio-temporal network to overcome the existing neural networks for action recognition having the difficulty in contextual action recognition. The proposed unified spatio-temporal neural network combines a spatial hierarchy and a temporal hierarchy of individual neural networks into a single neural network having a spatio-temporal hierarchy. Through the spatio-temporal hierarchy, the proposed neural network can extract low-level motion features in lower layers and high-level motion features in higher layers. Thanks to long-term processing capability, the proposed neural network shows robust recognition performance under severe dynamic occlusion, and successfully recognizes contextual action, which cannot be done by the existing neural networks. Second, we propose a temporal normalization method to enhance the contextual processing capability and the learning speed of the unified spatio-temporal neural network. Although the unified spatio-temporal neural network has the rich spatio-temporal processing capability required for contextual action recognition, saturation functions cause a vanishing gradient problem limiting long-term processing capability and the network training is very slow because of the model complexity. Compared with existing normalization methods, the proposed temporal normalization method shows better learning acceleration and contextual processing capability. In addition, the improvement of the proposed method is further boosted by using the proposed method with existing spatial normalization methods. Finally, we propose a unified spatio-temporal neural network based on stochastic predictive coding for planning and executing an appropriate series of actions when a specific context is given. Predictive coding framework is able to encode multimodal information, but it should predict high-dimensional sensory information, which requires huge computation. Also, in the case of the networks under deterministic predictive coding, a huge amount of training samples is required for good generalization. The proposed network reduces the computational cost by using dynamic visual attention and improves the planning performance by maintaining long-term visuospatial information on an external visuospatial memory. Furthermore, the proposed network provides good generalization with a small amount of training samples thanks to stochastic predictive coding using variational Bayes.

같은 행동도 맥락에 따라 다르게 해석될 수 있기 때문에 맥락은 사람 행동 인식에 매우 중요하다. 맥락은 상향식 또는 하향식 방식으로 작동할 수 있다. 한편으로는, 맥락은 일련의 행동들을 관찰함으로써 상향식 방식으로 형성되고 이는 다음 행동의 인식에 영향을 미친다. 다른 한편으로는, 맥락은 행동 수행 전에 사전 정의되거나 계획된 다음 하향식 방식으로 의도된 일련의 행동들을 수행하는데 사용된다. 이렇게 맥락적 정보가 필수적인 행동들을 맥락적 행동이라 부른다. 맥락적 행동은 상향식과 하향식 맥락이 포괄적으로 이해되어야만 한다. 이를 위해 맥락적 정보를 장기간 유지하기 위한 장기 정보 처리 메커니즘이 고려되어야 한다. 맥락적 행동은 그 중요성에도 불구하고 연구가 활발히 이루어지지 않고 있다. 본 학위 논문에서는 신경망 모델 개발부터 모델 학습에 관련된 현실적인 문제들에 이르기까지 맥락적 행동 인식 및 계획 관련 문제 전반에 관해 다룬다. 본 학위 논문이 기여한 부분은 다음과 같다. 첫째, 맥락적 행동 인식에 어려움을 갖는 기존 행동 인식 신경망 모델들을 극복하기 위해서 시공간 통합 신경망 모델을 제안하였다. 제안 시공간 통합 신경망 모델은 각각 공간 및 시간 계층 구조만을 가진 신경망 모델들을 단일 모델로 통합하여 시공간 (spatio-temporal) 계층 구조를 획득하였다. 시공간 계층 구조를 통해 제안 신경망 모델은 하위 층에서는 저수준의 행동 특징을 상위 층에서는 고수준의 행동 특징을 추출할 수 있다. 제안 신경망 모델은 장기간 시간 정보 처리 능력을 통해 동적 가림에 강건한 행동 인식 성능을 보였고 기존 모델들에서는 불가능했던 맥락적 행동 인식을 성공적으로 수행함을 보였다. 둘째, 시공간 통합 신경망 모델의 맥락적 정보처리 능력 및 학습 속도를 향상시키기 위한 시간 영역 정규화 방법을 제안하였다. 시공간 통합 신경망 모델은 맥락적 행동 인식에 필수적인 뛰어난 시공간 정보처리 능력을 가지고 있지만 포화함수가 기울기 소실 문제를 야기하여 맥락적 표현 능력을 제한하고 모델의 복잡도가 높기 때문에 학습 시간이 많이 소요된다. 제안 시간 영역 정규화 방법은 기존 공간 영역 정규화 방법 대비 시공간 통합 신경망 모델의 학습 속도를 가속시킬 뿐만 아니라 시공간 통합 신경망 모델의 맥락적 정보처리 능력을 향상함을 보였다. 또한, 제안 방법은 기존 공간 영역 정규화 방법들과 같이 사용함으로써 개선폭이 더욱 증가하였다. 마지막으로, 특정 맥락을 제공하였을 때 상응하는 일련의 행동들을 계획하고 수행할 수 있는 확률론적 예측 부호화 기반 시공간 통합 신경망을 제안하였다. 예측 부호화는 다중감각 정보를 통합적으로 인코딩할 수 있는 장점이 있지만 이를 위해 많은 계산량이 요구되는 고차원 감각 정보를 예측해야 한다. 또한, 결정론적 예측 부호화 기반 신경망의 경우 좋은 일반화 성능을 위해 많은 학습 샘플들이 필요하다. 제안 신경망은 시각적 주의 집중을 통해 시각 예측을 위한 계산량을 줄였고 외부 시공간 (visuospatial) 메모리를 통해 시공간 정보가 장기간 보존됨으로서 목표지향적 행동 계획 성능을 향상시킴을 보였다. 더욱이, 제안 신경망은 변분 베이지안을 이용한 확률론적 예측 부호화 덕분에 적은 학습 샘플들만으로도 뛰어난 일반화 성능을 보였다.

서지기타정보

서지기타정보
청구기호 {DEE 19031
형태사항 vii, 71 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정민주
지도교수의 영문표기 : Jinwoo Shin
지도교수의 한글표기 : 신진우
수록잡지명 : "Adaptive Detrending to Accelerate Convolutional Gated Recurrent Unit Training for Contextual Video Recognition". Neural Networks, v.105, pp.356-370(2018)
수록잡지명 : "Self-Organization of Spatio-Temporal Hierarchy via Learning of Dynamic Visual Image Patterns on Action Sequences". PLOS ONE, v.10.no.7, pp.1–16(2015)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 64-69
주제 Contextual action
unified spatio-temporal neural networks
normalization
goal-directed action planning
visual attention
external visuospatial memory
variational Bayes
맥락적 행동
시공간 통합 신경망
정규화
목표지향적 행동 계획
시각 주의집중
외부 시공간 메모리
변분 베이지안
QR CODE qr code