The current thesis proposes a novel neural network model for categorizing pixel level dynamic visual patterns of human actions. Proposed multiple spatio-temporal scales recurrent neural network (MSTRNN) adds recurrent connectivity to a prior model, the multiple spatio-temporal scales neural network (MSTNN). By developing improved categorical memories than the prior model, the MSTRNN can learn to extract latent spatio-temporal structures from its visual input stream more effectively than MSTNN. In the first experiment using a relatively simple human action video dataset, differences between MSTNN and MSTRNN are examined both qualitatively and quantitatively. The second experiment examines how MSTRNN can learn to categorize video image patterns that can be represented by compositions of several objects and object-directed actions by using a newly prepared human action video dataset for this purpose. The third experiment further examines the categorization capacity of the MSTRNN and its characteristics in more complex situations where human actions are composed of objects, object-directed actions, and action modifiers with newly prepared action dataset for this purpose. The analysis across these different classes of experiments demonstrates that the MSTRNN can deal with human action videos that have different levels of compositionality by developing adequate categorical memories.
이 논문은 인간행동의 픽셀 레벨 동적영상패턴 분류를 위한 새로운 신경망 모델을 제안한다. 제안된 다중 시공간 스케일 회귀 신경망은 전 모델인 다중 시공간 스케일 신경망에 회귀 연결성을 더한다. 다중 시공간 회귀 신경망은 전 모델보다 향상된 분류적 기억을 만듦으로써 전 모델보다 효과적으로 동영상에 내재된 시공간 구조를 추출할 수 있다. 첫 번째 실험에서는 비교적 간단한 인간행동 데이터세트를 갖고 실험하여 다중 시공간 스케일 회귀 신경망과 그 전 모델에 대해 정성분석과 정량분석을 한다. 두 번째 실험에서는 새롭게 준비한 인간 행동 데이터세트를 사용하여 다중 시공간 회귀 신경망이 물체와 물체에 관련된 행동의 조합으로 표현될 수 있는 인간행동 동영상을 분류할 수 있는지 본다. 세 번째 실험에서는 새롭게 준비한 데이터세트를 통해 인간행동이 물체, 물체에 관련된 행동, 행동을 수식하는 단어들로 이루어진 더 복잡한 상황에서 다중 시공간 회귀 신경망의 분류 성능과 특징을 살펴본다. 이렇게 여러 실험을 통한 분석을 통해 다중 시공간 스케일 회귀 신경망이 적절한 분류적 기억을 만듦으로써 합성성 정도가 다른 인간행동 동영상들을 분류할 수 있다는 것을 보인다.