This paper explores defense methodologies based on reinforcement learning in a target defense game. The scenario involves a defending aircraft seeking to protect a target from an attacker. We assume the attacker is a fixed-wing vehicle with a speed advantage, while the defender is a slower multirotor aircraft capable of varying its flight speed and agile turns. In this context, the reinforcement learning agent develops a guidance strategy that capitalizes on the maneuverability differences between the attacker and the defender. The paper discusses strategies such as reward shaping to ensure stable convergence of the agent. Simulations, considering various performance and strategies of attacking aircraft, demonstrate the feasibility and success of the proposed reinforcement learning-based approach.
본 논문은 방어기로써 공격기로부터 목표물을 보호하는 목표물 방어 게임에서 강화 학습을 활용한 방어 전략을 다룬다. 목표물 방어 시나리오에서 공격기는 최대 속도에서 우위를 갖는 고정익기를 가정하고, 방어기는 공격기에 비해 최대 속력이 열등하나 속도를 변화시킬 수 있고 선회 능력이 우수한 회전익기를 가정하며, 강화학습 에이전트는 두 기체의 기동 특성 차이를 활용하여 목표물을 보호하는 방어 전략을 학습한다. 또한, 본 논문은 목표물 방어 게임 상황에 적합한 보상의 설계를 통한 학습의 안정적인 수렴 방법을 논의하고, 다양한 성능과 전략을 갖는 공격기에 대한 방어 시뮬레이션을 통해 제시한 방법론을 통해 성공적으로 전략을 학습하고 목표물 방어를 수행할 수 있음을 보인다.