서지주요정보
Online actor-critic method based on incrementally generated radial basis functions = 점진적으로 생성되는 방사형 기저함수 기반 온라인 액터-크리틱 방법
서명 / 저자 Online actor-critic method based on incrementally generated radial basis functions = 점진적으로 생성되는 방사형 기저함수 기반 온라인 액터-크리틱 방법 / Dong-Hyun Lee.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8024808

소장위치/청구기호

학술문화관(문화관) 보존서고

DRE 13001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Reinforcement learning is learning what to do so as to maximize a numerical reward signal. The reinforcement learning agent is not told which actions to take, as in most forms of machine learning, but instead must discover which actions yield the most reward through interaction with its environment. The detailed information about the environment is not given to the agent as well. Because of these properties, reinforcement learning is a natural approach to deal with sequential decision problems. Direct methods of the reinforcement learning, such as Q-learning and SARSA, are widely used because of their simplicity, but it is difficult to deal with the continuous state and action problems using them. To use those methods, the discretization process is needed in advance, and it could bring the curse of dimensionality problem. In addition, the discontinuity of action selection in those methods could result in oscillations or divergence in the learning process. An alternative is the actor-critic method using the policy gradient. The policy gradient method guarantees convergence to a local optimal policy. In this thesis, a novel actor-critic method using an incrementally constructed radial basis function network is developed to deal with continuous state and action problems. There exists one local model for each basis function and the number of local models is increased as the basis function network grows. The normalized weighted sum of their outputs is used to estimate the value function for the critic, and the models are updated with a heuristic method, which uses the local temporal difference error in the receptive field of the corresponding basis function. A Gaussian policy is used for continuous action, and it is parameterized by the mean and the standard deviation. The parameters are determined by the normalized weighed sum of the corresponding sub-parameters assigned to the basis functions, and the regular policy gradient method is used for their update process. A new error is introduced for the online shape adaptation of basis functions. Reducing this error prevents some of the basis functions from dominating the value function approximation and the policy, and improves the performance when the incrementally constructed basis function network is used. Simulation results for three benchmark problems show the performance and effectiveness of the proposed method in comparison to other methods. And the simulations for a two-wheeled inverted pendulum robot, which has a complex nonlinear dynamics, show the good balancing and tracking control performance. Additionally, some simulation results for mountain car problem and maze problems are presented to demonstrate that the proposed algorithm can be applied to discrete action problems. Good results of the simulation and the experiment with the two-link robot manipulator control and simulation results of PUMA 560 arm show that the proposed algorithm can be used to real-world applications.

강화학습은 최대의 보상신호를 얻기 위해 무엇을 해야하는 지를 학습하는 방법이다. 일반적인 기계학습 방법에서는 에이전트에게 어떤 행동을 해야하는지를 알려주지만, 강화학습에서는 정답이 주어지지 않고 에이전트가 어떻게 행동해야 하는지를 주변환경과의 상호교류를 통해 스스로 학습한다. 환경에 대한 자세한 정보는 에이전트에게 주어지지 않는다. 이런 특징들때문에 강화학습은 복잡하고 연속적인 의사결정문제 해결을 위한 자연스럽고 훌륭한 접근방법이다. Q-learning 이나 SARSA와 같은 직접적인 방법은 그 간략한 구조때문에 널리 사용되어왔다. 하지만 연속적인 상태나 행동 문제를 다루기 어려운 단점이 있다. 이런 문제들을 다루기 위해서는 이산화처리가 선행되어야 하고, 자칫하면 차원의 저주문제를 야기할 수 있다. 또한 행동 선택에 있어서는 불연속성때문에 전체 학습과정에서 불안정한 요동이나 발산 문제가 발생할 가능성이 있다. 이에 대한 대안으로 정책 기울기를 이용한 액터-크리틱 방법이 있다. 정책 기울기 방법은 로컬의 최적의 정책으로의 수렴성을 보장한다. 본 논문에서는 연속적인 상태공간과 연속 행동 문제를 다루기 위해서 점진적으로 생성되는 방사형 기저함수 기반의 온라인 액터-크리틱 방법을 새로이 제안하였다. 각각의 방사형 기저함수에는 하나의 로컬 모델이 존재하고 이 모델들은 기저함수 네트워크의 크기가 증가할 수록 갯수가 증가한다. 정규화된 로컬 모델들의 출력의 가중합은 크리틱의 상태 가치함수를 추정하는데 사용한다. 그리고 이 모델들은 해당 기저함수의 수용영역 안에서의 로컬 TD 오차를 이용하여 휴리스틱하게 업데이트된다. 가우시안 정책이 연속적인 행동을 만들어내기 위해 사용되며, 평균값과 표준편차를 파라미터로 갖는다. 이 파라미터들은 각각의 기저함수에 할당된 하위 파라미터들의 정규화된 가중합으로 결정된다. 그리고, 일반적인 정책 기울기 방법으로 하위 파라미터값들이 업데이트된다. 기저함수의 모양을 변화시키기 위해여 새로운 오차를 정의했다. 이 오차를 줄이면 몇몇 기저함수가 전체 상태 가치함수를 결정하고, 정책을 좌우하는 것을 막게 된다. 또한, 점진적으로 증가되는 기저함수 네트워크가 사용될때 분해능을 스스로 조절할 수 있게 하기 때문에 성능향상을 이룰 수 있다. 세개의 벤치마크 문제들과 인버티드 펜들럼 로봇에 대한 시뮬레이션 결과를 통해 제안된 방법의 성능과 효용성을 입증하였다. 또한 이산적인 값을 갖는 행동이 필요한 문제들에도 적용해봄으로써 연속적인 행동문제 뿐만 아니라 이산적인 행동문제에도 제안된 방법이 쉽게 적용될 수 있음을 보였다. 실제 로봇 머니퓰레이터에 대해서 제안된 방법을 사용한 제어기로 추적 제어 문제를 실험해본 결과 좋은 성능을 얻었고 이를 통해 제안된 방법이 실질적인 어플리케이션들에 적용가능함을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DRE 13001
형태사항 vii, 100 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이동현
지도교수의 영문표기 : Ju-Jang Lee
지도교수의 한글표기 : 이주장
학위논문 학위논문(박사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 91-96
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서