In this paper, autonomous reconnaissance mission planning process of a single UAV is formalized as a Markov Decision Process(MDP). A state space and action space suitable for the UAV mission is defined. A transition probability model and reward model that reflect mission uncertainties including altitude change, fuel consumption, kill probability and reconnaissance success probability are also presented. By conducting Value Iteration on the MDP model, the optimal value and optimal policy are obtained, and various simulation results are presented to check their validity. In addition, we propose an efficient waypoint sampling algorithm based on the transition probability model and reward model to reduce the computational complexity of the MDP problem.
본 논문에서는 단일 무인기(single UAV)의 자율적인 정찰 임무 계획 과정을 마르코프 의사 결정 과정(Markov Decision Process, MDP)로 정식화 한다. 무인기 임무에 적합한 상태 집합(state space)과 행동 집합(action space)을 정의하고, 고도 변화, 연료 소모, 격추 확률, 정찰 성공 확률 등 임무 불확실성(mission uncertainties)이 종합적으로 반영된 천이 확률 모델(transition probability model)과 보상 모델(reward model)을 제시한다. 그 후 가치 반복(Value Iteration)을 통해 본 MDP 모델의 최적 가치(optimal value)와 최적 정책(optimal policy)을 산출하고, 그 타당성을 확인하기 위해 다양한 무인기 임무 시뮬레이션 결과를 제시한다. 이와 함께 본 MDP 문제의 계산량을 줄이기 위해 천이 확률 모델과 보상 모델을 바탕으로 한 효과적인 경로점 샘플링 알고리즘을 제시한다.