서지주요정보
Improving perceptual and planning capabilities of robots : Algorithms for human action classification and future prediction = 로봇의 계획 수립 및 지각 능력 향상 : 인간 행동 구별과 미래 예측 알고리즘
서명 / 저자 Improving perceptual and planning capabilities of robots : Algorithms for human action classification and future prediction = 로봇의 계획 수립 및 지각 능력 향상 : 인간 행동 구별과 미래 예측 알고리즘 / Naila Ramzan.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032966

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18135

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

We as humans can rely on our extensive knowledge and experience accumulated over our lifetime to perceive what is happening around us; recognize actions and gestures, interpret intentions, anticipate the future and act accordingly. How do we give prediction models in robots access to such common sense knowledge. One solution is to employ deep learning algorithms, which have made it possible for robots to learn computational models for various tasks directly from raw data without. In this study, this non-trivial task is focused on two main areas; namely action classification, and future prediction. In the first part, a deep Convolutional Neural Network which uses the ResNext Architecture as the backbone and employs 3D spatiotemporal convolutional kernels is proposed for human activity classification. The network also employs a spatio-temporal attention mechanism which softly weights the learned features at each stage of the network to the salient features. To further enhance the representational power and accuracy of the network, the ResNeXt modules are replaced by Squeeze and Excitation ResNeXt modules which implement channel wise feature recalibration. To prevent overfitting due to the large number of parameters in 3D kernels, ImageNet pretraining is used to initialize the weights of the network. A computationally efficient variant, which uses separable spatial and temporal convolutions instead of using 3D convolutions, is also proposed. Transferability of the features learnt by the network to similar action datasets is also demonstrated by fine tuning the network on the UCF101 dataset. The second part of this proposes an end-to-end unsupervised predictive network for future generation, that, instead of generating the raw pixel values for the future frame directly, outputs a set of transformation which are then applied to the input frames to generate frames. The architecture is adversarially trained using standard generative adversarial networks(GAN) as well as Wasserstein GAN and is evaluated on the moving mnist, UCF101 and robot pushing dataset.

행동과 제스쳐를 구별하고 숨겨진 의도를 짐작하며 미래를 예측하는 것과 같은 상황 인식을 위해 인간은 각자 겪었던 경험과 지식을 이용한다. 로봇이 이와 같은 지식을 효율적으로 활용할 수 있도록 하기 위해 적절한 예측 모델을 세워야 할 필요가 있다. 하나의 예측 모델로, 가공되지 않은 데이터로부터 다양한 과제를 바로 로봇이 수행 가능하게 하는 심층 학습 알고리즘이 있다. 로봇이 현실 세계에서 자율적이고 지능적으로 작업을 수행 할 수 있도록 학습 해야 하는 내부 모델에 주요한 2 가지 목표가 있다. 행동을 구별하고, 미래를 예측하는 것이다. 첫번째로 ResNext 구조를 기반으로한 심층 컨벌루션 신경망 네터워크에 3D 공간.시간 컨볼류션 커널을 적용하여 사람의 행동을 인식할 것이다. 제시한 네트워크는 부분적으로 중요한 요소에 집중하고 상대적으로 덜 중요한 요소는 적게 고려하는, 시간 공간적 Attention 메카니즘을 사용한다. 제시한 네트워크가 특징을 더 잘 나타내고, 더 정확하게 동작하기 위해, ResNext 모듈이 channel-wise feature 재조정에 이용하는 Squueze*Excitation ResNext 모듈로 대체된다. 또한 3d 컨볼류션 커널의 방대한 양의 매개 변수로 인한 overfitting 을 방지하기 위해, 이미 학습 되어진 ImageNet 의 매개 변수로 제시한 네트워크롤 초기화한 후, Kinetics dataset 으로 학습하였다. 비디오 구별 구조에서 컴퓨팅 속도의 효율성을 위해 3D 컨볼류션을 사용하는 대신 시간 공간적으로 분리한 콘볼류션을 사용하였다. 네트워크에서 학습한 feature 의 유사한 행동 데이터 집합으로 이전 가능 여부도 UCF 101 데이터를 기반으로 적절히 Tuning 한 네트워크롤 통해 확인하였다. 두번째로, 미래 생성을 위한 End-to-end unsupervised 네트워크를 제안한다. 미래 프레임의 가공되지 않는 픽셀 값을 곧바로 생성하는 대신, transformation을 출력값으로 생성한다. 그 후, Transformation 이 입력 프렙임으로 적용되어 최종 프레임을 생성한다. 이 구조는 일반적인 생산.적대 네트워크(GAN; WGAN)으로 학습을 진행했으며, mnist 와 UCF101, Kinetics dataset 의 움직이는 영상으로 확인하였다.

서지기타정보

서지기타정보
청구기호 {MEE 18135
형태사항 viii, 81 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 나이라 람잔
지도교수의 영문표기 : Jong-Hwan Kim
지도교수의 한글표기 : 김종환
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 76-79
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서