Recently, There have been many efforts to make Course Of Actions(COAs) agent based on reinforcement learning for war-game. The learning structure which reflects characteristic of COAs is required to make efficient COAs agent. In this thesis, we study learning structure which reflects characteristic of COAs and show that our new structure based on multi-agent universal successor feature can implement COAs agent.
최근 인공지능의 대두에 따라 워게임에서 적용되는 강화학습 기반의 전술방책 에이전트를 구현하기 위한 노력들이 이어지고 있다. 효과적인 전술방책 에이전트를 구현하기 위해서는 방책의 특징이 반영된 학습방법의 적용이 필요하다. 본 학위논문에서는 방책의 특징이 고려된 학습방법의 모습을 제시하고, 다중에이전트 보편적 연계변수 기반으로 한 새로운 구조를 제시하여 전술방책 에이전트를 구현할 수 있음을 확인한다.