At an early age, human infants are able to learn and build a model of the world very quickly by constantly observing and interacting with objects around them. One of the most fundamental intuitions human infants acquire is intuitive physics. Human infants learn and develop these models which later serve as a prior knowledge for further learning. Inspired by such behaviors exhibited by human infants, we introduce a graphical physics network integrated with reinforcement learning. Using pybullet 3D physics engine, we show that our graphical physics network is able to infer object's positions and velocities very effectively and our reinforcement learning network encourages an agent to improve its model by making it continuously interact with objects only using intrinsic motivation. In addition, we introduce a reward normalization trick that allows our agent to efficiently choose actions that can improve its intuitive physics model the most. We experiment our model in both stationary and non-stationary state problems, and measure the number of different actions agent performs and the accuracy of agent's intuition model.
영아들은 주위의 대상을 지속적으로 관찰하고 상호 작용함으로써 실세계 모델을 매우 빠르게 학습하고 구축할 수 있습니다. 영아들이 구축하는 가장 근본적인 직감 중 하나는 직관적 물리입니다. 인간 유아는 추후 학습을 위한 사전 지식으로 사용되는이 모델을 배우고 개발합니다. 인간 유아가 보여준 그러한 행동에 영감을 받아 강화 학습과 통합된 물리 네트워크를 소개합니다. pybullet 3D 물리 엔진을 사용하여 물리 네트워크가 객체의 위치와 속도를 매우 효과적으로 추론 하고, 강화 학습 네트워크는 에이전트가 내재적 동기만을 사용하여 객체와 지속적으로 상호 작용함으로써 모델을 개선 하는 것을 보여주고자 합니다. 또한 직관적 물리 모델을 가장 효과적으로 개선 할 수있는 작업을 효율적으로 선택할 수있는 보상 정규화 트릭을 소개합니다. 우리는 고정 및 비 고정 상태 문제 모두에서 모델을 실험하고 에이전트가 수행하는 다양한 작업의 수와 직관 모델의 정확성을 측정하여, 본 연구의 우수성을 보이고자 합니다.