Building a generative model that can generate highly-structured data such as speech or gesture has been one of the crucial problems in application field including Human-Robot Interaction (HRI). In this paper, autoencoding adversarial autoencoder (AAAE) is proposed as a conditional probabilistic autoencoders showing capability of generating conditioned highly-structured data including spatio-temporal information. The proposed AAAE framework is consisted of an autoencoder embedding adversarial autoencoder (AAE) that is a type of probabilistic generative autoencoder model for generating conditional results by matching aggregated posterior distribution to user-defined prior distribution with adversarial training. By embedding an AAE into an autoencoder, the AAAE can provide intuitive 2D latent space distribution including label information to users. Besides, the AAAE can increase capability of the overall architecture while avoiding direct training of deep networks that leads overfitting. As a result, the AAAE can be trained with highly-structured data such as speech or gesture and thus can generate such data in a probabilistic manner. To show capability of the AAAE, semi-supervised classification accuracy results of AAAE and other generative models are compared. The proposed model is tested with various data types including gesture data. The reconstructed, generated and synthesized conditional probabilistic outputs are suggested.
인간-로봇 상호작용과 같은 적용 분야에서는 담화, 제스처와 같이 시·공간 정보를 포함하여 구조화된 데이터를 학습하고 생성할 수 있는 능력을 가진 생성 모델의 필요성이 강조되고 있다. 본 학위논문에서는 이러한 구조화된 데이터를 학습하여 확률 기반 조건부 데이터를 생성 할 수 있는 확률 기반 조건부 생성 모델인 오토엔코딩 대립적 오토엔코더(AAAE; Autoencoding Adversarial Autoencoder) 구조를 제안한다. AAAE 구조는 오토엔코더에 대립적 오토엔코더를 내장한 구조를 가지며, 대립적 학습을 통해 사용자 정의 사전 확률 분포에 사후 확률 분포 집합을 매칭하여 확률 기반 조건부 결과를 생성하기 위해 활용한다. 이러한 내장형 구조를 통해 네트워크의 성능 저하 없이 사용자에게 레이블 정보를 포함한 2차원의 직관적인 잠재 공간 분포를 제공하는 것이 가능하다. 또한, 과적합 현상을 일으키는 깊은 구조를 가지는 네트워크의 직접적인 학습을 피하며 전체 네트워크의 복잡도를 증가시키는 것이 가능하여, 높은 복잡도와 신호-대비-잡음 비율을 가져 과적합 현상에 취약한 담화 및 제스처와 같은 구조화된 데이터를 학습하고 생성하는 것이 가능하다. AAAE의 내장형 구조의 유효성을 보이기 위하여 기존 모델과 AAAE의 준지도학습 분류 정확도를 제시하여 비교하였으며, 제스처 데이터를 포함한 다양한 데이터셋으로 확률 기반 조건부 결과를 복원, 생성 및 합성하는 시뮬레이션을 진행하였다.