Although deep reinforcement learning (RL) has succeeded in simple tasks, deep RL has failed in completing missions that require a long sequence of actions. Prior knowledge such as the hierarchical structure and task planning techniques were adopted in RL to solve such complicated missions. However, RL, which adopted such prior knowledge, could not give optimal solution owing to the inherited inefficiency in prior knowledge. The existing methodology that combines hierarchical RL and task planning also suffers from this problem. In this study, a method for learning interrupted policy, named interrupt enabled hierarchical planning with reinforcement learning (IE-HiP-RL), which improves each option's terminal condition to complete a mission efficiently, was proposed. Particularly, option selection was performed only after a specific task plan output action for the task plan execution option. The single-agent experiments indicated that the proposed IE-HiP-RL successfully addressed the option's inefficiency issue because it reduced the makespan by approximately 37$\%$ and had at a 6$\%$p higher success rate than the baselines in single-agent environment. The multi-agent experiments showed the possibility of IE-HiP-RL through a higher reward and success rate than baselines.
강화학습은 간단한 임무들은 근래에 성공적으로 수행했으나 임무 수행을 위해 일련의 긴 행동들이 필요한 복잡한 임무 수행을 위해서는 계층적 구조나 기존의 작업 계획과 같은 사전지식이 반드시 필요하였다. 그러나 계층적 구조나 사전 지식이 내재한 비효율성으로 인해 이들을 도입한 강화학습이 최적의 해를 내놓지 않을 수 있다. 계층적 구조와 작업 계획을 결합한 탐색 및 작업 계획을 옵션으로 두고 이를 강화학습으로 선택하게 하는 기존에 제시되었던 방식에서도 최적의 해를 내놓지 못하는 문제가 있었다. 본 연구에서는 기존의 방식을 그대로 이용하여 문제를 해결하되, 옵션의 종결 조건을 개선하는 중단 정책을 학습하는 방안을 제시하였다. 작업 계획은 특정 의미론적인 행동을 할 때 마다 옵션을 다시 선택하게 하여 미지 환경에서의 임무 수행 중 발생하는 정보의 변화에 대응할 수 있게 하여 더 효율적으로 임무를 수행하게 하는 방안을 제시하였다. 제시한 방법을 단일 에이전트 및 여러 에이전트 상황에서의 수색 및 구조 문제에 적용하여 그 성능을 살펴보았다. 실험 결과, 제안한 중단 정책 학습 방법을 기존 방법론과 비교하였을 때, 단일 에이전트 환경에서 임무 수행에 걸리는 총 시간은 약 37% 감소하였고, 임무 성공률은 약 6%p 더 높은 결과를 보여주었다.