In this dissertation, the online planning algorithm is proposed for a multi-goal mission in multiple domains. Real systems require online planning due to the uncertainty of information. However, the lack of computational power made it difficult to apply the existing planning methods to real systems. To overcome this limitation, research on learning a planning method based on a deep learning technique
has recently been proposed. Although deep learning has been successfully implemented to solve many planning problems in a domain-specific setting, developing a learning method to solve multi-goal/domain planning problems is still a challenging task. The presence of multiple targets and domains increases the state space. The dilated state space of multi-goal/domain problems diminishes planning and learning efficiency.
This dissertation aims to develop a dimensionality reduction framework for multi-goal mission planning problems in multi-domain. A state-space can be divided into a domain state and a system state. The domain state refers to information about the domain in which the mission is performed, such as obstacles, threats, and terrain. In many cases, the domain state is high dimensional but sparse. Inspired
by observations, the abstraction is adopted in this dissertation to reduce the dimensions of domain space into a compact form. The system state consists of information indicating the current system, such as position and health, and information indicating the completion of goals. As the number of goals increases, the size of the system state grows exponentially in multi-goal problems. Some types of tasks in robotics can be treated as episodic sparse reward tasks. This fact makes it possible to deal efficiently with complex multi-goal problems. The approximation method for the value of a multi-goal problem is proposed by combining the value of single-goal problems. Based on the aforementioned dimensional reductions, a network structure that can efficiently learn the value function of multiple goals/domains is proposed. Numerical studies and simulations are conducted to demonstrate the efficiency and effectiveness of the proposed framework.
본 학위 논문은 다양한 도메인에서 사용할 수 있는 다중 목표 온라인 계획 알고리즘을 제안한다. 실제 환경에서 운용되는 시스템들은 정보의 불확실성에 대응하기 위해 온라인 계획이 필요하다. 그러나 기존 계획 기법을 사용하기에는 시스템의 계산 능력이 부족한 경우가 많아 적용이 어렵다. 최근 이러한 한계를 극복하기 위해 심층 학습 기술을 활용하여 계획 기법을 학습하는 연구들이 제안되어 왔다. 다양한 최적 계획 문제들이 학습 기법을 통해 효율적으로 해결되었지만 특정 환경에서만 작동된다는 한계로 인해 여전히 다수 목표/환경의 계획 문제를 위한 학습 기법은 도전적인 과제로 남아있다. 다수 목표와 도메인을 다루기 위해서는 상태 공간이 커지게 되며 이러한 확장 공간은 계획 및 학습의 효율성을 저하시킨다.
본 학위 논문 목표는 다양한 도메인에서 다수 목표의 계획을 학습하기 위한 차원 감소 프레임워크 개발이다. 상태 공간은 도메인 상태와 시스템 상태로 나눌 수 있다. 도메인 상태란 임무를 수행하는 임무 환경에 존재하는 장애물, 위협, 지형 등과 같은 환경적인 정보를 나타낸다. 많은 경우 도메인 상태는 높은 차원을 가지지만 희소한 데이터를 가지고 있다. 이 특징으로부터 본 학위논문에서는 추상화 기법을 적용해 도메인 상태 공간의 차원을 감소시켜 압축된 형태로 표현한다. 시스템 상태란 임무를 수행하는 시스템이나 목표의 상태를 나타낸다. 시스템 상태 공간 또한 목표의 수가 증가함에 따라 기하급수적으로 커진다는 문제가 존재 한다. 로보틱스 분야에서 다루는 임무들은 대부분 일회성 희소 보상 임무로 표현 될 수 있다. 이러한 사실을 바탕으로 다수 목표 문제를 단일 목표 문제의 조합으로 근사하는 기법을 제안한다. 위와 같은 차원 감소들을 기반으로 다수 목표 및 도메인의 가치 함수를 효율적으로 학습할 수 있는 네트워크 구조를 제안한다. 수치적 사례 연구와 시뮬레이션을 통해 제안한 프레임워크의 효율성과 효과성을 보였다.