Systems, in systems engineering, are characterized by a large number of interrelated elements to achieve predefined objectives. Therefore, the general purpose of the sequential decision problem defined in the engineering system is to operate the system according to the predefined objectives through decision making based on the recognized information at each decision epoch. Because a system consists of many components that are related to each other, many decision problems in a system often need to be treated as sequential decision-making problems with multiple agents.
In this dissertation, we study various sequential decision-making problems with multiple agents, using the emergency medical service system as a major application domain. Markov Decision Processes (MDP), decentralized-Partially Observable MDP (dec-POMDP), stochastic game (SG) models are mainly used, and multi-agent reinforcement learning (MARL) and imitation learning algorithms are used to solve difficult problems to solve. A typical problem we used is a selective patient admission problem at an ED after a mass-casualty incident. In Chapter 2, we formulate and analyze the MDP model for the selective patient admission problem by focusing on a single ED. The structural properties of the optimal policy of MDP model are reviewed and we identify the variation of an optimal policy according to the characteristics of the input functions that represent the external factors affecting decision making.
We propose the solution method for partially-observable multi-agent problems in disaster response operations in Chapter 3. A Dec-POMDP model is suitable for the sequential decision-making problems in disaster response because it assumes the situation where multiple decision-makers choose actions based on partial information. We propose a solution method for dec-POMDP problems in disaster response by combining MARL and behavior cloning (BC) technique of imitation learning. The proposed solution method uses reference policies from the previous research on disaster response through the imitation learning method. We utilize the domain knowledge about the problem through BC to pretrain policy network and value network which will be used in reinforcement learning. As a case of using the proposed solution method, we generalize the mathematical model for the selective patient admission problem to the dec-POMDP model. The proposed solution method significantly reduces the computation time than the MARL algorithm which does not use pretraining and can obtain a near optimal dec-POMDP policy in which performance is close to the upper bound value of a problem. Besides, we find through various numerical experiments that the proposed method is still effective in inherently partially observable environments and the cases when decisions at the prehospital phase effects on the performance of selective patient admission strategy.
In Chapter 4, we propose a method to improve a cooperative MARL algorithm using the imitation learning method. This method is using the reference policy obtained from the decision environment with more information than the situation assumed in a dec-POMDP problem to find a solution to a dec-POMDP problem. It collects the demonstrations from the solution of an multi-agent MDP (MMDP) or multi-agent POMDP (MPOMDP) model to mix these demonstrations when training a policy network in an MARL algorithm. We discover that the baseline MARL algorithm can obtain a better dec-POMDP policy when we mix demonstrations from a solution of a centralized model through the experiments in benchmark dec-POMDP problems. A comparison test shows that the method of mixing demonstration is more effective than the another method of using demonstrations to improve an MARL algorithm. We also find that investing a computational budget to learn a centralized policy in the earlier training steps is effective when a reference centralized policy is not provided.
시스템 공학 분야에서의 시스템은 정해진 목적을 달성하기 위해 서로 연관되어 있는 다수의 구성 요소들로 이루어진 집합으로 정의한다. 따라서 공학적 시스템 내에서 정의되는 순차적 의사 결정 문제의 일반적인 목적은 매 의사결정시점에 파악된 정보를 바탕으로 내리는 의사 결정을 통해 시스템을 정해진 목적에 맞게 운영하는 것이라 할 수 있다. 특히 시스템은 서로 연관되어 있는 다수의 구성 요소들로 이루어져 있기 때문에 다수의 에이전트들이 존재하는 순차적 의사 결정 문제로 다루어져야 하는 상황이 종종 발생한다.
본 논문에서는 대표적인 complex system인 응급의료시스템을 주요 사례로 삼아 다중 에이전트가 존재하는 순차적 의사 결정 문제에 대해 다룬다. Markov Decision Processes (MDP), decentralized-Partially Observable MDP (dec-POMDP), stochastic game (SG) 모델들이 주로 사용되었으며, 다중 에이전트 강화학습과 모방학습 알고리즘을 통해 풀기 어려운 문제들을 해결하였다. 대표적으로 사용된 문제는 재난 발생 시에 응급실에서 발생 가능한 선택적인 환자 수용 결정 문제이다. 2장에서는 선택적인 환자 수용 결정 문제에 대한 수리 모델을 단일 응급실의 관점에서 설계하고 분석한다. 제안하는 MDP 모델을 통해 최적 의사결정 방침이 갖는 구조적인 특징에 대해 확인하고, 외부적인 요인을 대체한 함수의 특성에 따라 최적 의사결정 방침이 어떻게 변화하는지를 파악하였다.
3장에서는 부분적으로 관찰이 가능한 다수의 에이전트가 존재하는 재난 환경에서의 의사결정 문제를 해결하기 위한 방법을 제안한다. Dec-POMDP 모델은 공동의 목표를 가진 다수의 의사결정자가 한정된 정보를 가지고 의사결정을 내리는 상황을 가정하기 때문에 재난 대응 시스템에서의 순차적 의사 결정 문제들에 적용하기에 적합하다. 본 논문에서는 모방학습의 행동 복제 기법과 다중 에이전트 강화학습을 접합하여 재난 상황에서의 dec-POMDP 모델에 적용할 수 있는 풀이 방법을 제안한다. 이는 기존에 존재하는 다중 에이전트 강화학습 알고리즘을 적용함에 있어 재난 대응 분야에서 이미 이뤄어진 연구로부터의 지식을 모방학습을 통해 활용하는 방식이다. 행동 복제 기법을 통해 강화 학습에서 사용되는 정책 네트워크와 가치 네트워크를 사전 학습시킴으로써 문제에 대한 지식을 이용하고자 한다. 풀이 방법의 적용 사례로 선택적인 환자 수용 결정 문제를 다수의 응급실이 존재하는 dec-POMDP 모델로 확장하여 사용하였다. 그 결과, 제안하는 풀이 방법이 기존 다중 에이전트 강화학습 알고리즘의 연산 시간을 대폭 감소시키며 문제의 상한 값에 가까운 해를 찾을 수 있다는 것을 확인하였다. 추가적으로 태생적으로 부분 관측만이 가능한 환경과 현장에서의 의사결정이 병원 단계에서의 의사결정의 효과에 영향을 미치는 경우에 대한 다양한 실험들을 통해 제안하는 풀이 방법이 효과적임을 확인하였다.
4장에서는 협력적인 다중 에이전트가 존재하는 문제에 대한 강화학습 알고리즘을 모방학습을 활용하여 개선하는 방법을 제안한다. 이 방법은 dec-POMDP 문제에 비해 더 많은 정보를 바탕으로 의사 결정을 내리는 상황에서 얻어진 해를 참조 정책으로 삼아 dec-POMDP 문제의 해를 찾는데 활용하는 방식이다. 중앙 집중적인 관점에서 풀어낸 multi-agent MDP (MMDP), multi-agent POMDP (MPOMDP) 모델들의 해로부터 다수의 시범들을 생성한 후 다중 에이전트 강화학습 알고리즘에서 정책 네트워크를 학습할 때 사용한다. 학습할 때 중앙 집중형 의사결정자 모델에서 얻어진 시범들을 섞어서 사용하면, 기존의 다중 에이전트 강화학습 알고리즘만 사용하는 것보다 더 나은 dec-POMDP 해를 찾을 수 있다는 것을 대표적인 dec-POMDP 문제들에 적용하여 확인하였다. 시범들을 다른 방식으로 활용하여 다중 에이전트 강화학습 알고리즘을 개선시키는 방법과 비교했을 때, 시범들을 섞어서 사용하는 제안하는 방식이 더 효과적인 것을 확인하였다. 또한 참고할 수 있는 중앙 집중적인 해가 없는 상황의 경우, 전체 학습 중 초기 일부 단계에서 중앙 집중적인 해를 얻어서 참조 정책으로 사용하는 것도 효과적이라는 것을 확인하였다.