This paper presents a novel methodology for designing the flight control system of a micro aerial vehicle (MAV); it allows the MAV physical model to learn how to fly by itself, without the risk of damage. The proposed methodology utilizes a magnetic levitation based safety-guaranteed flight test environment and deep reinforcement learning techniques to avoid the current problems in flight control system design procedures, such as the reality gap issue of computational simulations, and the safety issues inherent to real flight testing. The safety-guaranteed flight test environment was achieved using a developed magnetic suspension and balance system (MSBS), which dynamically adjusts magnetic forces interacting with a magnetically levitated MAV. As a result, the MAV can perform either a free flight test for reinforcement learning, or can be constrained for safety. This learning environment was developed to permit safe reinforcement learning of MAV, since trial-and-error based learning typically makes the MAV unstable. In this regard, the MAV can learn to fly itself based on trial-and-error, by interacting with the emulated free flight test environment. Notably, the entire learning process can be conducted without numerical models for both the MAV itself and the flight environment, and the safety of the MAV is guaranteed, even when attempting undesirable actions which might cause the model to become unstable. This approach has unique advantages to permit the effective design of a flight control system, by reducing the modeling errors typical of computational simulations, and preventing the risk of damage in real flight tests. This could eventually enhance the benefits of reinforcement learning for developing advanced flight control systems, which has shown the great potential based on its outstanding control performance with adaptability to mutable dynamics and environments.
강화학습은 학습 대상인 에이전트가 주변 환경과 상호작용하는 과정에서 시행착오를 통해 보상을 최대화하는 정책을 학습하는 기계학습의 일종으로, 특별한 지도나 사전 지식 없이도 비행체 스스로 주어진 문제를 해결하는 정책을 학습할 수 있다는 점에서 지능형 제어 시스템 개발을 위한 핵심적인 방법으로 대두되고 있다. 하지만 강화학습 과정에서 비행체는 추락을 야기할 수 있는 위험한 행동을 시도할 수 있기 때문에, 시행착오에 기반한 이 학습 방법을 실제 기체에 적용하기 어렵다. 이에 따라 가상 환경에서 시뮬레이션 기반의 학습이 주로 시도되고 있으나, 실제 기체 및 그 비행 환경을 정확히 모델링 하는 것은 불가능하기 때문에 가상 환경에서 학습된 정책이 실제 환경에서는 목표한 성능을 내지 못하곤 한다. 본 논문에서는 비행체가 추락 및 파손 위험 없이, 스스로 최적의 비행 제어 정책을 찾는 방법을 제시한다. 자기부상 원리에 기반하여 초소형 비행체를 공중 부양하고, 위치 및 자세를 기계적인 접촉 없이 넓은 영역에서 제어할 수 있는 자기부상장치를 개발하였으며, 더 나아가 자기력 제어를 통해 자유 비행 상태를 모사함과 동시에, 기체의 안전을 보장할 수 있는 비행시험 환경을 개발하였다. 이 환경은 초소형 비행체의 실제 비행 상황을 모사하면서도, 시행착오 과정에서 위험한 행동을 시도하더라도 기체의 안전을 보장할 수 있다는 점에서 실물 기반의 강화학습을 가능하게 한다. 또한 초소형 비행체 스스로 최적의 비행 방법을 찾을 수 있도록, 강화학습에 인공신경망 기반의 심층학습이 결합된 심층 강화학습 기반의 자가 학습 시스템을 개발하였다. 이를 통해 초소형 비행체 실물 모델이 개발된 비행시험 환경과 상호작용하는 과정에서, 시행착오를 통해 주어진 제어 목표 달성을 위한 최적 정책을 스스로 학습할 수 있음을 시연하였다. 따라서 기체 및 비행 환경을 가상 환경으로 모델링 하는 과정에서 발생하는 오류를 배제하여, 실제 기체 및 구동기의 동특성이 반영된 정책을 학습하는 것이 가능하다.