The classic and almost recent robots still rely on fixed behavior based control. So the recent models of robots focus on increasing the robot`s ability to deal with any uncertainty from the environment. One approach of the paradigm is learning from experience and creating an appropriate control system from it. This approach is called Reinforcement Learning(RL). RL is a class of intelligent control methods that develop or improve the actions of the agent in an uncertain environment. By interacting with the environment, the agent learns and finds an optimal solution. To find the optimal solution, RL uses the value function. The value function is calculated using Bellman equation which is a nonlinear Lyapunov equation. But it usually requires knowledge of the system dynamics in order to solve for the value function. To avoid it, Q-Learning method for discrete space was introduced by Watkins. Another method is action dependent heuristic dynamic programming(AD HDP). AD HDP is based on an actor-critic structure that was introduced by Werbos. But the actor-critic structure involves training of two or more function approximators. This makes the training and the analysis of the results difficult. If it fails, it is unclear whether this is a result of the settings of the training parameters, the choice of function approximators or insufficient exploration in generating the data.
In contrast, Neural Q-Learning which involves the training of a function approximator was introduced by S. Hagen to apply Q-Learning for continuous space. This approach is based on Q-Learning for Linear Quadratic Regulation(LQR). But the learning time of Neural Q-Learning is very slow when it learns very complex systems such as Multi Input Multi Output (MIMO) system etc. Furthermore, batch learning cannot adapt in other environments without using a large data set for the training process. To solve these problems, we propose three contributions. First, we apply this learning to online learning to be able to adapt in any type of environment. Second, we propose a heuristic algorithm to quickly assign appropriate weights of Neural Q-Learning. Lastly, we propose a modified process of calculating the linear control policy $\bar{u}$. We apply this modified Q-Learning to the Cart-Pole system, and Two-Wheeled Inverted Pendulum(TWIP), and prove that the modified algorithm indeed addresses the previously mentioned.
전통적인 로봇 혹은 최근의 로봇들은 여전히 고정된 행동기반의 제어에 의존하여 연구되어왔다. 그리하여 최근의 로봇은 어떠한 환경에서도 불확실성을 다룰 수 있는 능력을 키우는 것을 목표로 연구가 진행되고 있다. 이 중 하나의 접근방법이 강화학습(Reinforcement Learning)을 이용한 방법이다. 강화학습은 지능제어의 방법들 중 하나의 방법으로 불확실성이 존재하는 환경 속 agent의 행동을 적절한 방향으로 학습시킬 수 있는 방법이다.
강화학습은 환경과의 상호작용을 통해 agent가 최적화 된 행동 혹은 방법을 학습하는데 이를 위해서 value function을 이용한다. value function은 하나의 Lyapunov equation인 Bellman equation을 이용하여 계산되어지는데, 이를 계산하기 위해서는 반드시 시스템의 동역학에 관한 정보가 있어야한다는 단점이 존재한다. 이를 극복하기 위하여 Watkins는 discrete space에서 사용가능한 Q-Learning을 제안하였고 비슷한 시기에 Werbos는 행동기반의 휴리스틱 다이나믹 프로그래밍(AD HDP)을 제안하였다. AD HDP의 경우는 actor-critic 구조를 기반으로 하며 두개 이상의 함수 approximator를 training해야 한다. 만약 AD HDP가 학습을 실패하게 될 경우 어떤 것이 원인인지에 대한 분석이 명확하게 되지 못하는데 이렇듯 이 방법은 결과분석이 어렵다는 단점이 존재한다. 또한 두개 이상의 함수 approximator를 사용하므로 연산량이 많아지고 많은 training을 위해 많은 data를 필요로 한다.
이와는 반대로 함수 approximator 단 하나 만으로 Q-Learning을 구현할 수 있는 방법이 S. Hagen에 의해 제안 되었는데 이 방법이 Neural Q-Learning이다. 이 방법은 Linear Quadratic Regulation(LQR)과 신경망을 기반으로 학습하는 방법이다. 그러나 이 방법을 복잡한 시스템에 적용할 경우 매우 느리다는 단점이 있다. 또한 Batch 학습을 하기 때문에 큰 date set을 필요로 한다. 이 논문에서는 이러한 단점을 극복한 Neural Q-Learning을 소개한다. 이 Neural Q-Learning에는 세가지의 방법을 제안하는데 다음과 같다. 먼저 다양한 환경에서도 제어기 스스로 환경에 적응할 수 있도록 online 학습을 하였다. 두번째로 학습시간을 줄이기 위하여 신경망의 가중치를 잘 배당할 수 있는 휴리스틱한 가중치 배당방법을 제안한다. 마지막으로 선형제어 policy $\bar{u}$를 계산하는 과정 대신 최적화 기법과 interpolation을 이용한 새로운 방법을 제안한다. 그리고 제안한 Q-Learning을 Cart-Pole 시스템과 Two-Wheeled Inverted Pendulum에 적용하여 그 결과를 통해 성능을 검증한다.