서지주요정보
(An) expert data-driven self-supervised learning of air combat maneuver model = 전문가 데이터 기반 기동 모델 자기 지도 학습
서명 / 저자 (An) expert data-driven self-supervised learning of air combat maneuver model = 전문가 데이터 기반 기동 모델 자기 지도 학습 / Su-Jeong Park.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037994

소장위치/청구기호

학술문화관(문화관) 보존서고

MAE 21021

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis address a model learning problem that imitates air combat maneuver given expert trajectory data. To learn an imitation model from given data, the challenges of constructing models to represent air combat maneuver and control techniques need to be taken into consideration. The World Models, one of the approaches of self-supervised learning, is adopted to model the unknown system and to learn controller from the data. The World Models is a probabilistic representation learning framework that represents the internal model as a mixture of Gaussian Recurrent Neural Network using time series images given in a real environment and enables system model learning using time series data and controller learning through hidden states. While the controller trained based on reinforcement learning, a reward function for state-action pair is required. Such a reinforcement learning method is difficult to apply to our problem where the reward function is unknown. To overcome this difficulty, a self-supervised learning approach termed Imitative World Models(IWM) is proposed that incorporates World Models and imitation learning methods. The proposed framework learns the internal model to represent air combat and also learns expert-like policies without a reward function. The controller of the proposed model enables predictive control by receiving future prediction information from the internal model as well as the current states. Furthermore, a dreaming process makes it possible to create trajectories similar to expert data and take challenging actions without any interaction with the real environment. The proposed model-based imitation learning framework cannot generate an appropriate maneuver due to the uncertainty of the model when a large deviation occurs between the training and test data. In this paper, this distribution mismatch problem is tackled by measuring the degree of uncertainty using a mixed Gaussian network and modifying the control value with that of another controller. Numerical experiments show the similarity of reconstructed trajectories from the proposed method and expert trajectories. The performance of the IWM is verified through comparison with existing model-free imitation learning.

본 학위 논문에서는 전문 조종사의 궤적 데이터가 주어졌을 때의 공중전 기동을 모방하는 모델 학습 문제를 다룬다. 주어진 전문가 데이터만 가지고 모방 모델을 학습하려면 공중전 기동을 표현하는 모델 및 제어 기법을 구성해야 한다는 난점을 해결해야 한다. 알려지지 않은 시스템을 모델링하고 데이터로부터 제어기를 학습하기 위해 자기 지도 학습의 접근법 중 하나인 월드 모델을 활용한다. 월드 모델은 실제 환경에서 주어지는 시계열 이미지를 이용해 내부 모델을 혼합 가우시안 순환 신경망을 통해 확률적으로 표현하는 학습 프레임워크로써, 시계열 데이터를 이용한 시스템 모델 학습 및 은닉 상태를 통한 제어기 학습을 가능하게 한다. 하지만 제어기는 강화 학습을 기반으로 학습하기 때문에 상태-행동 쌍에 대한 보상 함수가 필요하다. 그러한 강화 학습 방식은 보상 함수를 알 수 없는 우리 문제에서 적용하기 어렵다. 이러한 문제를 해결하기 위해, 본 논문에서는 월드 모델과 모방 학습을 결합한 자기 지도 학습 접근법을 제안하고 모방 월드 모델이라 칭한다. 제안된 프레임워크는 공중전을 표현하는 내부 모델을 학습할 수 있으며, 보상 함수 없이도 전문가와 유사한 정책을 학습할 수 있다. 제안한 모델의 제어기는 현재 상태 뿐만 아니라 내부 모델로부터 미래 예측 정보를 받아 예측 제어를 가능하게 한다. 더불어, 꿈꾸는 과정을 통해 실제 환경과의 상호작용 없이도 전문가 데이터와 유사한 궤적을 생성해 낼 수 있고 도전적인 행동을 취해볼 수 있다. 제안된 모델 기반 모방 학습 프레임워크는 학습 데이터와 테스트 데이터 간의 큰 편차가 발생할 경우 모델의 불확실성이 커져 적절한 기동을 생성할 수 없다. 본 논문에서는 혼합 가우시안 네트워크를 이용하여 불확실의 정도를 측정하고 다른 제어기의 출력값으로 제어를 수정함으로써 위와 같은 분포 불일치 문제를 해결한다. 전문가의 궤적과 모방 월드 모델을 통해 재구성한 궤적의 유사성을 보여 제안된 기법을 확인한다. 또한, 기존의 모델 프리 모방학습과의 비교를 통해 제안한 기법의 성능을 확인한다.

서지기타정보

서지기타정보
청구기호 {MAE 21021
형태사항 v, 55 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박수정
지도교수의 영문표기 : Han-Lim Choi
지도교수의 한글표기 : 최한림
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 항공우주공학과,
서지주기 References : p. 50-52
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서