In this thesis, a two mode Q-learning method is proposed for fast convergence, extending Q-learning, a well-known scheme in reinforcement learning. It employs a separate failure Q value that keeps track of failure experiences and uses this to modify the exploratory behavior of a learning agent. The effectiveness of the pro-posed two mode Q-learning method is verified in a grid world environment. Its performance is also evaluated against conventional Q-learning in training a soccer agent to perform goalkeeping. The acquired knowledge of two mode Q-learning is implemented on the goalie robot of the NaroSot soccer system. The effects of varying parameters in two mode Q-learning is investigated. Also, a biped robot, called HSR-IV, is used as a test bed to compare the performance of both algorithms. An external force that is generated in the sagittal plane, is applied to the HSR-IV and its standing posture is investigated. Q and two mode Q-learning are employed to select an action for resisting the external force. In the frontal plane, an external force is generated and impacts the HSR-IV. In this situation, more than two actuators that were considered in this thesis, exist for resisting the external force. For implementing Q and two mode Q-learning in this situation, a curse of dimensionality must be considered. To solve this problem, a module-based scheme is adopted. The effectiveness of module-based two mode Q-learning is verified by real experiments using HSR-IV.
본 논문에서는 개체가 과거에 겪은 실패경험을 이용하여 기존의 Q-학습의 성능을 개선시킨 Two mode Q-학습을 제안한다. 실패경험으로부터 새로운 Q 값을 계산하고, 기존의 Q-학습에서 얻은 Q 값과 더불어 개체가 행동을 선택할 때 이용한다. 개체가 행동선택시에 과거에 실패를 경험하게 한 행동의 선택 확률을 낮게 함으로써 학습을 통해 이루고자 하는 최적의 행동과 관련된 Q 값의 수렴속도를 개선시킨다.
실패경험을 이용한 Q 값을 계산하기 위해서는 실패경험을 일으킨 행동에 대한 실패확률을 설정한다. 개체가 경험한 실패의 종류를 시간제한 실패경험과 실패상태 경험을 나누며, 이를 이용하여 특정 행동에 대해 실패확률을 설정한다. 시간제한 실패 경험을 이용하는 Two mode Q-학습에서 과거 개체가 경험한 상태-행동 궤적에 실패확률을 적용하는 방식과 상태공간에서의 엔트로피 변화량을 이용하는 방법을 제안한다. 실패상태 경험을 이용한 Two mode Q-학습에서는 실패상태를 기준으로 몇 단계에 해당하는 상태-행동 공간에 실패확률를 적용하는 방법을 이용한다. 본 논문에서 제안한 Two mode Q-학습을 격자세계의 최단 경로를 찾는 문제와 로봇축구의 골키퍼 로봇이 공을 막는 능력에 대해 기존의 Q-학습과 성능 비교를 한다.
기존의 Q-학습에 비해 Two mode Q-학습은 연산량과 메모리 사용이 많으며 이를 개선하기 위해 Two mode Q-학습에 사용되는 파라미터들에 대해서 고찰한다. 시간제한 실패를 결정하는 시간제한 값의 최저 값을 사용함으로써 메모리와 연산량을 줄인 방법, 기존의 Q-학습에서 얻은 Q값과 실패경험에서 얻은 Q 값 사이에 비율팩터를 도입함으로써 수렴속도를 개선시킨 방법, 실패상태 경험을 이용하는 Two mode Q-학습에서 최대실패확률 부분만을 사용하여 연산량과 메모리 사용량을 줄인 방법을 제안한다.
Two mode Q-학습의 성능을 알아보기 위해, 이족보행 로봇이 서 있는 자세에서 외란이 발생하는 경우에 ZMP 보상에 관련된 실험을 수행한다. 측면에서 외란이 발생하는 경우와 정면에서 외란이 발생하는 경우, 각각에 대한 실험을 통해 Two mode Q-학습의 학습성능을 입증해 주고 있다. 특히, 정면에서 외란이 발생하는 경우에 상태-행동 공간을 줄이기 위해 모듈기반 학습기법을 도입한다.