To be deployed in a household environment to assist a human, a robot must be able to make decisions under partial observability. A robot can cope with the uncertainty of its observation by making sensing actions such as clearing an object in front of a shelf that occludes the target behind and estimating its shape. Partially Observable Markovian Decision Process (POMDP) is the principled framework that enables the robot to perform such information-gathering actions. However, robot manipulation domains involve high-dimensional and continuous observation and action spaces, yet most POMDP solvers have been limited to discrete spaces. Recently, POMCPOW, a continuous POMDP solver that resorts to sampling and progressive widening, has been proposed, yet it is too slow to be practical in robot manipulation problems that incorporate camera observations and multiple objects. To facilitate a more efficient search, we propose a framework that learns to guide the search from past planning experience. Our method specifically adopts preference learning that can leverage both success and failure trajectories to learn effective heuristics for search even with a small number of past experiences. We demonstrate the efficacy of our framework in several continuous partially observable robotics domains, such as light-dark room domain and real-world robot manipulation.
가정 환경에서 인간을 돕기 위해서 로봇은 관측이 완전하지 않더라도 의사결정을 수행할 수 있어야 한다. 가령, 선반 위에 다른 물체가 목표 물체를 가리고 있을 때, 로봇은 앞에 놓인 물체를 치우는 등의 행위들을 통해 관측의 불확실성을 줄일 수 있으며, 이러한 문제들은 부분 관측 마르코프 결정 프로세스 (Partially Observable Markovian Decision Process, POMDP)로 모델링될 수 있다. 그러나, 로봇의 물체 조작 작업 에 있어서 관측 및 행동 공간은 고차원적이고 연속적인데 반해, 기존의 POMDP 해결 알고리즘들은 이산 공간만을 다룰 수 있어서 적용에 어려움이 있었다. 최근, 연속 공간의 POMDP를 위해 샘플링과 점진적 확대 (Progressive Widening)을 활용한 POMCPOW라는 알고리즘이 제시되었지만, 2차원 이미지 형식의 관측과 다수의 물체를 조작하는데 있어서 매우 느리다는 단점이 있다. 따라서, 이 논문에서는 더 효율적인 탐색을 위해 과거의 경험을 활용하여 트리 탐색을 가이드하는 방법을 제시하고자 한다. 제시된 알고리즘은 선호 학습을 활용하여 적은 양의 과거 경험을 이용하여도 효과적인 가이드를 가능케하며, 이를 Light-dark room 문제나 실제 로봇의 물체 조작 문제등으로 통해 적은 데이터로도 더 높은 성공률을 달성함을 보였다.