When reinforcement learning is used to solve sequential decision-making problems, it is helpful to express the problem with the Markov decision model. This is because the Markov Decision Model(MDP) is a mathematical model that expresses the decision-making process for a dynamic environment using stochastic characteristics. To construct MDP, an expression of the state space and a state transition model are required, and reward for a given state must be defined. In reality, however, since there is often no information about state transitions or rewards, model-based reinforcement learning that allows learning them using inference models can be used. In addition, if a given data has insufficient information to represent the state space, the world model can be learned through dimensionality reduction based on variational inference, thereby expressing the dynamics of interactions on the latent space. We show that the Recurrent State Space Model(RSSM) representing reinforcement learning based on a world model, as it is influenced dominantly by Recurrent Neural Network(RNN) path, induces bias in the world model. To address this problem, we propose a method using a decoder utilizing skip connections and a method to provide the loss of the reward model as an intrinsic reward. As a result, we show that our method requires little additional computation compared to existing models, and improves the final cumulative reward in the robot simulation environment.
순차적 의사 결정 문제를 풀기 위하여 강화 학습을 이용하는 경우, 마르코프 결정 모델로 해당 문제를 표현 하는 것이 도움이 된다. 마르코프 결정 모델은 동적인 환경에 대한 의사 결정 과정을, 확률적 특성을 이용해 표현한 수학적 모델이기 때문이다. 이를 구성하기 위해서는 상태 공간의 표현과 상태 전이 모델이 필요하며, 주어진 상태에 대한 보상이 정의되어야 한다. 하지만 현실적으로는 상태의 전이나 보상에 대한 정보가 없는 경우가 많기 때문에, 이를 추론 모델을 이용해 학습시키는 모델 기반의 강화 학습이 사용될수있다. 또한 주어진 데이터가 상태 공간을 표현하기에 불충분한 정보를 가지고 있는 경우, 변분 추론에 기반한 차원 축소를 통해 월드 모델을 학습시켜, 잠재 공간 상에서 상호작용에 대한 역학을 표현할 수 있다. 우리는 이를 대표하는 순환 상태 공간 모델이, 순환 신경망에 대해 지배적으로 동작함에 따라 월드 모델의 편향을 유발하는 것을 보인다. 이러한 문제를 해결하기 위하여 스킵 커넥션을 활용한 디코더를 사용하는 방법과 보상 모델의 손실을 내부적 보상으로 제공하는 방법을 제안한다. 결과적으로 우리의 방법이 기존의 모델에 비교해서 추가적인 연산을 거의 필요로 하지 않으며, 로봇 시뮬레이션 환경에서 최종적인 누적 보상을 향상시킨다는 것을 보인다.