Problems that can be easily found in real life examples can usually be modeled as sequential decision problems. However they have the disadvantage that reward design is difficult when trying to solve problems using reinforcement learning methodology. In the case of Imitation learning, sequential decision problems are solved by imitating optimal behaviors using limited optimal action rather than reward. In this study, we modified the structure of VAEGAN, which is a recently developed deep generative model, to obtain the information of state efficiently when a limited amount of states and optimal action as learning data. and suggests a model that can reproduce the information as an optimal behavior. In addition, we proposed a method to conditionally learn the information about the object style and to create an action for each purpose under the same state.
실생활 예시에서 쉽게 찾을 수 있는 문제들은 대개 순차적 의사 결정 문제로 모델링 될 수 있으나, 강화학습 방법론을 사용하여 해당 문제를 해결하려 할 때 reward design이 어렵다는 단점을 가진다. Imitation learning의 경우, reward가 아닌 한정된 optimal action을 활용하여 최적 행동을 모방하여 순차적 의사 결정 문제를 해결한다. 본 연구에서는 최근 제안된 deep generative model인 VAEGAN의 구조를 활용한다. MDP로 정의된 순차적 의사 결정 문제에 대해 한정된 양의 state와 이에 해당되는 optimal action이 학습 데이터로 주어졌을 때, state의 정보를 효율적으로 함축하고 해당 정보를 최적 행동으로 재생성 할 수 있는 모델에 대해 제안하였다. 또, 개체 스타일에 대한 정보를 conditional 하게 학습시켜 같은 state가 주어질 때 개체의 스타일에 맞는 행위를 생성할 수 있는 방법을 제시하였다.