In this paper, we propose a method of combining generalized neural network-based policy and the existing search-based planner when solving probabilistic planning problems with large states and action spaces. The policy based on the graph neural network structure is learned by mimicking the existing search-based planner in small-sized planning problems, and the learned policy guides the search direction of the planner in large planning problems that the original planner cannot solve. Comparing the proposed framework with the original planner and policy learning based on reinforcement learning, the proposed methodology has been shown to help improve the performance of the planner. Also, our work can be used as a baseline in the field of automatic planning based on deep learning.
본 논문에서는 상태 및 행동 공간의 크기가 큰 확률적 계획 문제를 풀 때 기존 검색 기반 플래너와 신경망 기반 정책을 활용하는 방법론을 제안한다. 그래프 신경망 구조에 기반한 정책 함수를 공통된 도메인을 가지 는 작은 크기의 계획 문제에서는 존재하는 검색 기반 플래너를 모방하는 방식으로 학습하고, 학습된 정책은 기존 플래너가 풀지 못하는 큰 계획 문제에서 플래너의 검색 방향을 안내한다. 제안한 프레임워크를 기존 계획 방법 및 강화학습 기반의 정책 학습과 비교하여 제안된 방법론이 학습 효율 및 성능향상에 도움이 됨을 보였으며, 이는 딥러닝 기반 자동 계획법 분야에서 좋은 베이스라인으로 활용될 수 있다.