서지주요정보
Dynamic value gradient control using Gaussian process reinforcement learning with hyper-parameter optimization = 상위 모수 최적화된 가우시안 과정 강화 학습을 이용한 동적 가치 경사 제어
서명 / 저자 Dynamic value gradient control using Gaussian process reinforcement learning with hyper-parameter optimization = 상위 모수 최적화된 가우시안 과정 강화 학습을 이용한 동적 가치 경사 제어 / Seung-Yong Shin.
저자명 Shin, Seung-Yong ; 신승용
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022670

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 11057

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

When a system works in dangerous materials or on hazardous area, is fault, then we cannot immediately repair the system. Therefore fault-tolerant design concept is very useful to obtain system`s reliability. This thesis gives an optimal control algorithm which can control system with fault. We can detect system`s fault as differences between model output and real output, and also from these differences a new model for system can be generated with on-line learning algorithm. With a new model, the controller can be generated as form of reinforcement learning on continuous state and action. Firstly, we use online sparse Gaussian Process (GP) regression for system modeling. Using that regression algorithm we can model the system in real time experiment. However, it is hard to choose the hyper-parameters of current GP. We propose new optimization algorithm based on information aspect, using that we can handle bias and variance trade-off. Secondly, using model-based value gradient control scheme with GP Reinforcement Learning (RL), we can obtain the optimal control algorithm which reduced time consuming. we use dynamic-framework which fully use simulation from learned model and real experiment from given environment. Using BEB-algorithm, we can make much strict algorithm which could solve exploration and exploitation trade-off. Simulation result shows performance of proposed algorithm which is superior to others. Our study of learning method for unknown system can be expected to stimulate research about fault tolerant design of intelligence robot.

일반적으로 시스템이 고장 날 경우 기존에 가지고 있던 제어기로는 제어가 불가능 하다. 만약 위험한 물질을 대상으로 작업하거나 제어기의 수리 및 대체가 매우 어려운 공간에서 작동하는 시스템이라면 그 시스템의 신뢰성(Reliability) 또는 내고장 설계(Fault-Tolerant Design)가 매우 중요하다. 본 논문은 고장 난 시스템의 제어를 위한 빠르고 강인한 제어기 학습 방법을 다룬다. 지금까지 연구되어온 고장에 대한 검출 방법(Fault Detection)과 그에 따른 제동기(Break)의 대응을 통한 방법론이 아니라 시스템 모델의 출력과 실제 출력 사이의 오차를 바탕으로 고장을 검출하고, 그 시스템의 입출력 데이터로부터 새로운 시스템 모델을 온라인(On-Line)으로 학습하는 동시에 그 모델을 바탕으로 한 연속 상태, 행동 공간 상에서의 강화 학습을 통해 시스템 스스로가 제어기를 설계하는 제어구조를 제안하였다. 첫째로, 시스템의 모델링을 위한 가우시안 과정 (Gaussian Process) 의 온라인 학습 구조를 제안하여 실시간으로 들어오는 데이터를 이용해 시스템을 모델링 하는 방법을 제안했다. 하이퍼 파라미터 (Hyper Parameter) 의 최적화를 통해 모델의 Bias와 Variance사이의 상충관계(Trade-Off)를 완화 시켰다. 둘째로, 연속 상태, 행동 공간에서의 Model-Based Value Gradient 강화학습 방법을 이용해 빠른 시간 안에 제어기를 구축할 수 있도록 하였다. 함수 근사를 위해 RBF-Network와 가우시안 과정을 이용하였고, Dynamic구조를 이용해 실제 경험과 모델을 바탕으로 한 시뮬레이션 결과를 동시에 이용하여 Value를 학습하는 제어구조를 제안했고, Explolation 과 Exploitation 사이의 상충관계를 해결하기 위한 방법론을 고안하였다. 시뮬레이션을 통해 제안된 설계구조의 성능을 보이고, 이미 이용되는 다른 학습 설계 구조와의 차이점을 분석해 봄으로써, 제안된 구조의 장 단점을 비교하였다. 고장에 대비한 강인한 내고장 제어에 대한 본 연구는 가까운 미래의 지능적이고 자율적인 로봇의 내고장 또는 신뢰 시스템 설계에 대한 연구를 활성화 시키고 촉진하는데 많은 도움이 되리라 기대한다.

서지기타정보

서지기타정보
청구기호 {MEE 11057
형태사항 vi, 43 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 신승용
지도교수의 영문표기 : Ju-Jang Lee
지도교수의 한글표기 : 이주장
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 38-39
주제 Machine Learning
Reinforcement Learining
Gaussian Process
Fault Tolerant Design
기계 학습
강화 학습
가우시안 과정
내고장 설계
QR CODE qr code