Modeling combat behavior is an important, yet complicated task because the combat behavior emerges from the rationality as well as the irrationality. For instance, when a soldier confronts a dilemma on ac-complishing his mission and saving his life, it is difficult to model his ongoing thoughts with a simple model. This paper presents 1) how to reconstruct a realistic combat environment with a virtual-constuctive simulation, and 2) how to model such combat behavior with the inverse reinforcement learn-ing. The virtual-constuctive simulation is a well-known simulation application for soldier training. Previ-ous works on this virtual-constructive simulation focuse on a small number of entities and mission phas-es, so it was difficult to observe the frequent behavior dilemma in the field. This work presents a large scale and a complete brigade-level operation to provide such synthetic environment to human player. Then, our second work is observing the combat behavior through the virtual-constructive simulations, and modeling the behavior with the inverse reinforcement learning. Surely, we can observe the descriptive statistics of the observed behavior, but the inverse reinforcement learning provides calibrated weights on the valuation on hypothetical rewards from conflicting goals. Our study is the first attempt on merging the large-scale virtual constructive simulation and the inverse reinforcement learning on such massive scale.
전투 개체의 모델링은 중요하나, 전투 개체의 행위는 이성적인 요소와 비이성적인 요소가 결합되어 있기 때문에 어려운 일이다. 예를 들면, 전투 개체는 임무 완수와 생존 간의 딜레마에 직면 할 때가 있는데 이에 대하여 간단한 모델로 묘사하기는 어렵다. 본 논문은 1) 현실적인 전장 상황을 버추얼-컨스트럭티브 시뮬레이션으로 재현하고, 2) 전장 상황 내 전투 개체의 행위를 역 강화학습 기법을 통해 묘사하고자 한다. 버추얼-컨스트럭티브 시뮬레이션은 군인의 훈련에 잘 활용되는 방안이다. 기존의 버추얼-컨스트럭티브 시뮬레이션은 작은 규모의 개체와 임무에 대한 묘사가 주를 이루었지만, 이는 위의 예와 같은 딜레마를 발생시키기 힘들었다. 본 논문은 여단 급의 작전에 대해 시뮬레이션을 구현하였다. 또한, 전투 개체의 행위를 시뮬레이션을 통해 관측함으로써 역강화학습 기법을 통하여 묘사해내었다. 이를 통해, 상충되는 여러 목표에 대해 어떤 가치관을 가지는지 볼 수 있다.