서지주요정보
Two mode Q-learning using failure experience of the agent and its application to biped robot = 개체의 실패 경험을 활용한 Two mode Q-학습과 이족보행 로봇에의 적용
서명 / 저자 Two mode Q-learning using failure experience of the agent and its application to biped robot = 개체의 실패 경험을 활용한 Two mode Q-학습과 이족보행 로봇에의 적용 / Kui-Hong Park.
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015552

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 04024

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, a two mode Q-learning method is proposed for fast convergence, extending Q-learning, a well-known scheme in reinforcement learning. It employs a separate failure Q value that keeps track of failure experiences and uses this to modify the exploratory behavior of a learning agent. The effectiveness of the pro-posed two mode Q-learning method is verified in a grid world environment. Its performance is also evaluated against conventional Q-learning in training a soccer agent to perform goalkeeping. The acquired knowledge of two mode Q-learning is implemented on the goalie robot of the NaroSot soccer system. The effects of varying parameters in two mode Q-learning is investigated. Also, a biped robot, called HSR-IV, is used as a test bed to compare the performance of both algorithms. An external force that is generated in the sagittal plane, is applied to the HSR-IV and its standing posture is investigated. Q and two mode Q-learning are employed to select an action for resisting the external force. In the frontal plane, an external force is generated and impacts the HSR-IV. In this situation, more than two actuators that were considered in this thesis, exist for resisting the external force. For implementing Q and two mode Q-learning in this situation, a curse of dimensionality must be considered. To solve this problem, a module-based scheme is adopted. The effectiveness of module-based two mode Q-learning is verified by real experiments using HSR-IV.

본 논문에서는 개체가 과거에 겪은 실패경험을 이용하여 기존의 Q-학습의 성능을 개선시킨 Two mode Q-학습을 제안한다. 실패경험으로부터 새로운 Q 값을 계산하고, 기존의 Q-학습에서 얻은 Q 값과 더불어 개체가 행동을 선택할 때 이용한다. 개체가 행동선택시에 과거에 실패를 경험하게 한 행동의 선택 확률을 낮게 함으로써 학습을 통해 이루고자 하는 최적의 행동과 관련된 Q 값의 수렴속도를 개선시킨다. 실패경험을 이용한 Q 값을 계산하기 위해서는 실패경험을 일으킨 행동에 대한 실패확률을 설정한다. 개체가 경험한 실패의 종류를 시간제한 실패경험과 실패상태 경험을 나누며, 이를 이용하여 특정 행동에 대해 실패확률을 설정한다. 시간제한 실패 경험을 이용하는 Two mode Q-학습에서 과거 개체가 경험한 상태-행동 궤적에 실패확률을 적용하는 방식과 상태공간에서의 엔트로피 변화량을 이용하는 방법을 제안한다. 실패상태 경험을 이용한 Two mode Q-학습에서는 실패상태를 기준으로 몇 단계에 해당하는 상태-행동 공간에 실패확률를 적용하는 방법을 이용한다. 본 논문에서 제안한 Two mode Q-학습을 격자세계의 최단 경로를 찾는 문제와 로봇축구의 골키퍼 로봇이 공을 막는 능력에 대해 기존의 Q-학습과 성능 비교를 한다. 기존의 Q-학습에 비해 Two mode Q-학습은 연산량과 메모리 사용이 많으며 이를 개선하기 위해 Two mode Q-학습에 사용되는 파라미터들에 대해서 고찰한다. 시간제한 실패를 결정하는 시간제한 값의 최저 값을 사용함으로써 메모리와 연산량을 줄인 방법, 기존의 Q-학습에서 얻은 Q값과 실패경험에서 얻은 Q 값 사이에 비율팩터를 도입함으로써 수렴속도를 개선시킨 방법, 실패상태 경험을 이용하는 Two mode Q-학습에서 최대실패확률 부분만을 사용하여 연산량과 메모리 사용량을 줄인 방법을 제안한다. Two mode Q-학습의 성능을 알아보기 위해, 이족보행 로봇이 서 있는 자세에서 외란이 발생하는 경우에 ZMP 보상에 관련된 실험을 수행한다. 측면에서 외란이 발생하는 경우와 정면에서 외란이 발생하는 경우, 각각에 대한 실험을 통해 Two mode Q-학습의 학습성능을 입증해 주고 있다. 특히, 정면에서 외란이 발생하는 경우에 상태-행동 공간을 줄이기 위해 모듈기반 학습기법을 도입한다.

서지기타정보

서지기타정보
청구기호 {DEE 04024
형태사항 ix, 154 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박귀홍
지도교수의 영문표기 : Jong-Hwan Kim
지도교수의 한글표기 : 김종환
수록잡지명 : Robotics and Autonomous Systems, v.35 no.2, 109-122(2001)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 142-149
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서