Today, UAVs play a pivotal role in the field of military operations, and related research continues to be carried out due to the operational benefits of UAVs, especially at sea. However, for the operation of the UAVs at sea, a guidance algorithm with autonomy guaranteed while considering the motion of the ship in the landing phase to the carrier is required. Recently, many studies have been conducted using machine learning techniques as a way to ensure the autonomy of unmanned power, and this paper intends to implement UAV's autonomous shipboard landing guidance algorithm using Reinforcement Learning(RL), which is one of the representative machine learning techniques. The proposed method uses the Twin Delayed Deep Deterministic Policy Gradient(TD3) algorithm, which is a RL algorithm that can be applied to the continuous action domain, and designs the guidance law considering the heave motion, which is the vertical motion of the ship by the waves. In addition, the algorithm is improved by designing a safety filter to supplement the constraint factor compared to the existing RL method. Compared to the guidance method based on the prediction model of the ship motion applied in the existing shipboard landing problem, proposed shipboard landing guidance algorithm has a relative advantage in terms of computational time for calculating the guidance command. In addition to this, there is a relative advantage in that the prediction model of the ship motion is not required, which is demonstrated by comparison with the Nonlinear Model Predictive Control(NMPC)-based guidance algorithm in the same environment. The results and excellence of this study are shown through simulation.
오늘날 무인항공기는 군사 작전 분야에서 중추적인 역할을 수행하고 있으며, 특히 해상에서 UAV의 운용을 통한 작전적 이점으로 인해 관련 연구가 지속적으로 수행되고 있다. 그러나 해상에서 UAV의 운용을 위해서는 우선적으로 모함으로의 착륙 단계에서 선박의 운동을 고려함과 동시에 자율성이 보장된 유도 기법이 요구된다. 최근 무인 전력의 자율성을 확보하기 위한 방안으로 기계학습 기법을 활용한 많은 연구가 이루어지고 있으며, 본 연구에서는 대표적인 기계학습 기법 중 하나인 강화학습을 활용하여 UAV의 자율 함상착륙 유도 기법을 구현하고자 한다. 제안된 기법은 연속적인 행동 영역에 적용이 가능한 강화학습 기법인 TD3 알고리듬을 이용하여 파도에 의한 선박의 상하 운동인 heave 운동을 고려한 유도 법칙을 설계하며, 기존 강화학습 기법 대비 제약조건에 대한 요소를 보완하기 위해 세이프티 필터를 설계하여 알고리듬을 개선하였다. 또한, 제안하는 기법의 경우 기존 함상착륙 문제에서 적용된 선박 운동의 예측 모델에 기반한 유도 기법과 비교하여, 유도 명령 산출을 위한 연산 시간 측면 및 선박 운동의 예측 모델에 의존되지 않는다는 점에서 상대적인 이점이 있다. 이는 동일한 환경에서 비선형 모델예측제어 기반 유도 기법과의 비교를 통해 입증되며, 본 연구의 결과 및 우수성은 시뮬레이션을 통해 보여진다.