서지주요정보
Bayesian learning and planning methods for partially observable dynamical systems = 부분 관측 가능 동적 시스템을 위한 베이지안 학습 및 계획 기법
서명 / 저자 Bayesian learning and planning methods for partially observable dynamical systems = 부분 관측 가능 동적 시스템을 위한 베이지안 학습 및 계획 기법 / Soon-Seo Park.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036337

소장위치/청구기호

학술문화관(문화관) 보존서고

DAE 20021

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis addresses a learning and planning problems of partially observable dynamical systems. The Gaussian process state-space model (GP-SSM) is adopted to model the latent dynamical systems and learn systems from the partially observable measurements. GP-SSM is a probabilistic representation learning scheme that represents unknown state transition and/or measurement models as Gaussian processes (GPs). While the majority of prior literature on learning of GP-SSM are focused on processing a given set of time series data, data may arrive and accumulate sequentially over time in most dynamical systems. Storing all such sequential data and updating the model over entire data incur large amount of computational resources in space and time. To overcome this difficulty, a practical method termed onlineGPSSM is proposed that incorporates stochastic variational inference (VI) and online VI with novel formulation. The proposed method mitigates the computational complexity without catastrophic forgetting and also support adaptation to changes in a system and/or a real environments. Furthermore, application of onlineGPSSM into the reinforcement learning (RL) of partially observable dynamical systems is presented by integrating onlineGPSSM with Bayesian filtering and trajectory optimization algorithms. The proposed GP-SSM-based RL framework is applied not only to control of partially observable dynamical systems, but also to active sensing of a mobile sensor. Comparative numerical experiments show the validity and efficiency of the proposed methods compared with the existing methods. To extend the proposed learning and planning methods to the multi-agent systems, several important challenges need to be taken into consideration. This thesis focuses on tackling multi-agent path planning for sensing problems, one of the challenges. Non-myopic path planning of mobile sensors has posed a high computational complexity issue and/or the necessity of high-level decision making. Existing works tackle these issues by heuristically assigning targets to each sensing agent and solving the split problem for each agent. However, such heuristic methods reduce the target estimation performance in the absence of considering the changes of target state estimation along time. This work detour the task-assignment problem by reformulating the general non-myopic planning problem to a distributed optimization problem with respect to targets. By combining alternating direction method of multipliers (ADMM) and local trajectory optimization method, the problem is solved and consensus (i.e., high-level decisions) is induced automatically among the targets. In addition, a modified receding-horizon control (RHC) scheme and edge-cutting method are proposed for efficient real-time operation. The proposed algorithm is validated through simulations in various scenarios.

본 학위 논문에서는 부분 관측 가능 동적 시스템의 학습과 계획 문제를 다룬다. 잠재 동적 시스템을 모델링하고 부분 관측 데이터들로 부터 시스템을 학습하기 위해 가우시안 과정 상태공간 모델 (GP-SSM, Gaussian Process State-Space Model)을 활용한다. GP-SSM은 알려지지 않은 시스템의 천이 모델과 측정 모델을 가우시안 과정 (GP, Gaussian Process)를 통해 표현하는 확률적 표현 학습 방식으로써 적은 수의 부분 관측 가능 시계열 데이터를 이용하여 강건한 시스템 모델 학습하는 것을 가능하게 한다. GP-SSM의 학습을 위한 대다수의 접근법들은 이미 주어진 시계열 데이터를 다루는데 중점을 두고 있다. 하지만 대부분의 동적시스템에서 모델 학습에 필요한 데이터는 순차적으로 얻어지며 시간에 지남에 따라 지속적으로 축적된다. 그러한 순차적 데이터를 모두 저장하고 모델 업데이트에 이용하는 것은 시공간적으로 많은 양의 연산 부하를 야기시킨다. 이러한 문제를 해결하기 위해, 본 논문에서는 스토케스틱 변분 추론과 온라인 변분 추론을 결합한 GP-SSM의 온라인 학습 기법을 제안하고 onlineGPSSM이라 칭한다. 제안된 기법은 과거 경험에 대한 심각한 망각 없이 연산시간 문제를 완화할 수 있으며, 환경 또는 시스템의 변화에 대한 적응을 가능하게 한다. 더불어, onlineGPSSM을 베이지안 필터링 및 궤적 최적화 알고리즘과 결합하는 방식의 모델 기반 강화학습 프레임워크를 제안한다. 제안된 GP-SSM 기반의 강화학습 프레임워크는 부분 관측 가능 동적 시스템의 제어 뿐만 아니라 모바일 센서의 능동적 센싱 문제에 적용된다. 다수의 수치 실험 결과 및 분석을 통하여 제안한 기법들이 기존의 기법들에 비하여 성능 및 효율성 측면에서 뛰어남을 보인다. 제안된 학습 및 계획 기법들을 다중에이전트 시스템으로 확장하려면 몇가지 난점들이 해결되어야 한다. 본 학위 논문에서는 난점들 중 하나인 센싱 문제에서의 다중에이전트 경로 계획 문제를 다루는데 중점을 둔다. 모바일 센서의 비근시 경로 계획은 높은 계산 복잡성 문제와 상위 레벨 의사 결정의 필요성을 제기한다. 기존의 방법들은 이러한 문제점들을 휴리스틱한 방식으로 표적들을 각 모바일 센서에 할당하여 각 에이전트에 대한 분할된 문제를 푸는 방식으로 해결한다. 하지만 그러한 휴리스틱 방법들은 시간에 따른 표적의 상태 추정 변화를 고려하지 못함에 따라 표적 추적 성능을 저하시킨다. 본 논문에서는 일반적인 비근시 경로 계획 문제를 각 표적에 대한 분산 최적화 문제로 재구성함으로써 임무 할당 문제를 해결하는 것을 우회한다. Alternating direction method of multipliers (ADMM)와 부분 궤적 최적화 밥벙을 결합하여 문제는 해결되고 표적들간의 합의 과정이 자동적으로 유도된다. 추가적으로 제안 기법의 실제 활용을 위한 변형된 receding-horizon control (RHC) 방법과 그래프-절단 기법을 제시한다. 기존 기법들과의 비교를 통해 제안 기법들의 타당성과 효율성을 검증한다.

서지기타정보

서지기타정보
청구기호 {DAE 20021
형태사항 v, 108 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박순서
지도교수의 영문표기 : Han-Lim Choi
지도교수의 한글표기 : 최한림
학위논문 학위논문(박사) - 한국과학기술원 : 항공우주공학과,
서지주기 References : p. 92-101
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서