서지주요정보
Design of multiobjective fuzzy control system using reinforcement learning = 강화 학습을 이용한 다목적 퍼지 제어 시스템의 설계
서명 / 저자 Design of multiobjective fuzzy control system using reinforcement learning = 강화 학습을 이용한 다목적 퍼지 제어 시스템의 설계 / Dong-Oh Kang.
저자명 Kang, Dong-Oh ; 강동오
발행사항 [대전 : 한국과학기술원, 2001].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8012578

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 01048

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In practical control area, there are many examples with multiple objectives which may conflict or compete with each other like overhead crane control, automatic train operation, and refuse incinerator plant control, etc. These kinds of control problems are called multiobjective control problems, where it is difficult to provide the desired performance with control strategies based on single-objective optimization. Because the conventional control theories usually treat the control problem as the single objective optimization problem, the methods are not adequate to treat the multiobjective control problems. Particularly, in case of large scale systems or ill-defined systems, the multiple objective control problem is more difficult to solve due to the uncertainty in them. Therefore, the efficient method is required to solve the multiobjective control problem in large scale or ill-defined uncertain systems. The multiobjective control method that uses the conventional multi-objective optimization method required the exact model of the plant. However, the requirement is difficult to satisfy in large scale or ill-defined uncertain systems. On the other hand, the reinforcement learning changes the control rule on the basis of the evaluative information about the control results rather than the exact information about the environment. Therefore, the paper proposes the multiobjective controller design method using reinforcement learning for the multobjective control in large scale or ill-defined uncertain systems. In large scale or ill-defined uncertain systems, the traditional control methods are not applicable due to uncertainty. However, in many cases, human operators operate the system well based on their experience and knowledge. These mean it is necessary to design the controller using the human operator`s experience and knowledge in large scale or ill-defined uncertain systems. Fuzzy logic makes it easy to convert the human knowledge to the fuzzy rules. Therefore, in the paper, the fuzzy controller is used for the multiobjective control in large scale or ill-defined uncertain systems because the fuzzy controller is suitable to use the human knowledge and experience. The fuzzy controller enables us to get more satisfactory multiobjective control result together with reinforcement learning. For the fuzzy controller to be designed, the fuzzy inference system is used in the paper, which has multiple consequent singletons for the consequent fuzzy set. The fuzzy inference system has the structure similar to the fuzzy controller with inconsistent rule base. Among the multiple consequent singletons, one singleton is selected as the consequent fuzzy set for the fuzzy rule. This is the process of the design of the fuzzy controller of the multiobjective control problem. Reinforcement learning is how to learn the optimal policy based on the reward from environment. In conventional reinforcement learning, the reward is in scalar value. However, since the multiple rewards are given corresponding multiple objectives in the multiobjective control, the conventional reinforcement learning should be modified. In the paper, the multiple reward reinforcement learning is proposed to deal with multiple rewards in the multiobjective reinforcement learning. The method uses the concept of Pareto optimality in optimizing the policy. Among the conventional multiobjective optimization, the max-min optimization produces one of Pareto optimal solutions, which maximizes the objective with minimum value among the objectives. In the paper, the max-min optimization is applied to reinforcement learning. For the multiobjective optimization with uncertainty, the model-based multiple reward reinforcement learning and the model-free multiple reward reinforcement learning are proposed. For the model-based reinforcement learning, multiobjective dynamic programming is proposed, and Pareto optimality of the solution of the method is scrutinized. Using the model of the plant or environment, the results of the possible control actions are predicted, and the max-min optimization is applied. For the fuzzy controller design, one among the multiple consequent singletons is selected for each fuzzy rule using the proposed multiobjective dynamic programming. For the model-free reinforcement learning, the multiple reward adaptive critic and multiple reward Q-learning structure is proposed. These methods make on-line multiobjective fuzzy control possible in spite of lack of information about the plant. Rather than using the model of the plant, temporal difference learning is applied to get the prediction of the control results. Also, the stochastic selection is adopted rather than the greedy selection considering the error of the prediction. For the fuzzy controller design, one among the multiple consequent singletons is chosen for each fuzzy rule using the proposed model-free method. The proposed multiple reward reinforcement learning technique is applied to the multiobjective satisfactory fuzzy logic controller design with the fuzzy subcontrollers derived from human experts. The decision maker, that is, who designs the controller, expresses the satisfaction degree using the satisfaction degree function. Then, the proposed method derives the satisfactory solution which is satisficing and Pareto optimal. In the multiobjective satisfactory fuzzy logic controller, each fuzzy subcontroller is designed to optimize one objective. The overall output is the weighted sum of the outputs of the fuzzy subcontrollers. To vary the weights gives the compromise among the subcontrollers. The supervisory fuzzy controller determines the weights of the subcontrollers, which coordinates each fuzzy subcontroller to produce the satisfactory result. The proposed multiple reward reinforcement learning for fuzzy controller design determines one of the multiple consequent singletons for each fuzzy rule of the supervisory fuzzy controller. Some simulation results are given in order to show the effectiveness of the proposed method. The proposed method of multiobjective fuzzy control system design using reinforcement learning gives the solution of the multiobjective control problem in large scale or ill-defined uncertain systems. Together with the human experience and knowledge, the on-line optimization is performed to get the optimized multiobjective fuzzy controller using reinforcement learning. The proposed method needs some further improvements for the general usage. For example, we need how to guarantee fast convergence, and solution to and analysis about dependency on the learning parameters and initial value, etc.

많은 실제적인 제어 문제는 소각로의 제어, 천정 크레인의 제어, 열차의 자동운전과 같이 다목적 제어 문제이다. 다목적 제어 문제란 동시에 복수의 목적을 만족하는 제어기를 설계하는 것이다. 전통적인 제어기 설계 방법은 한가지의 목적에 적합한 제어기를 설계하는 방법이기 때문에 다목적 제어문제에는 적합하지 않다. 더구나 제어 대상이 대규모이거나 명확하지 않은 불확실한 시스템인 경우는 전통적인 제어기 설계 방법으로 다목적 제어 문제를 해결하기가 쉽지 않다. 따라서, 대규모이거나 명확하지 않은 불확실한 시스템에 대한 다목적 제어문제를 효과적으로 해결할 수 있는 방법이 필요하다. 기존에 연구된 다목적 최적화를 이용한 다목적 제어 방법은 제어 대상에 대한 정확한 모델을 요구한다. 이러한 요구 사항은 대규모이거나 명확하지 않은 불확실한 시스템에서는 만족시키기 어렵다. 이에 반하여 강화 학습은 제어 대상인 환경에 대한 정확한 정보가 아닌, 제어 결과에 대한 평가적인 정보를 이용하여 제어 규칙을 변화 시킬 수 있다. 따라서, 본 논문에서는 대규모이거나 명확하지 않은 불확실한 시스템에서의 다목적 제어를 위하여 강화 학습 방법을 이용한 다목적 제어기 설계 방법을 제안한다. 대규모이거나 명확하지 않은 불확실한 시스템에서는 전통적인 제어 방법이 잘 적용되지 않는다. 반면에 인간 운전자는 경험을 바탕으로 이러한 시스템을 잘 제어하고 조작한다. 따라서, 대규모이거나 명확하지 않은 불확실한 시스템에서는 인간 운전자의 지식과 경험을 바탕으로 제어기를 설계하는 것이 필요하다. 퍼지 논리의 경우는 이러한 인간 운전자의 지식을 퍼지 규칙으로 변환하여 비교적 쉽게 제어기의 설계를 가능하게 한다. 따라서, 본 논문에서는 대규모이거나 명확하지 않은 불확실한 시스템에서의 다목적 제어를 위한 제어기로 인간 운전자의 지식을 이용하기 용이한 퍼지 제어기를 이용한다. 본 논문에서는 다목적 퍼지 제어기를 강화학습을 이용하여 설계하는 방법을 제안한다. 인간 운전자의 지식과 겸험을 바탕으로 하고, 강화 학습을 통한 최적화 과정을 거쳐 보다 만족스러운 다목적 제어가 가능하다. 본 논문에서는 설계 대상인 퍼지 제어기로 복수의 후건부 퍼지 싱글톤을 가지는 퍼지 추론 시스템을 사용하였다. 이것은 모순된 규칙을 가지는 퍼지 제어기와 같은 구조로 각 퍼지 규칙에 대한 한 개의 후건부 퍼지 싱글톤을 선택하는 과정이 필요하다. 결론적으로 다목적 퍼지 제어기의 설계는 각 퍼지 규칙의 후건부 퍼지 싱글톤을 다목적 제어에 적합하게 선택하는 문제가 된다. 강화 학습은, 환경으로부터 주어지는 동작에 대한 보상을 기준으로, 환경에 대한 동작을 결정하는 규칙인 정책을 최적화시켜 학습하는 방법이다. 일상적으로 환경으로부터 주어지는 보상은 스칼라양이지만 다목적 제어에서는 각 목적에 해당하는 보상이 주어지므로, 기존의 강화 학습으로는 다목적 제어를 해결하기 힘들다. 본 논문에서는 복수 보상 강화 학습 방법을 제안하여 복수의 목적에 해당하는 복수의 보상을 이용하여 다목적 퍼지 제어기를 설계한다. 이를 위하여 파레토 최적화의 개념을 바탕으로 에이전트의 정책을 최적화하는 방법을 이용한다. 기존의 다목적 최적화 방법 중 최대-최소 최적화 방법은 복수의 목적들 중 가장 최소의 값을 가지는 목적을 최대화하는 해를 선택하는 최적화로 이 방법에 의한 해는 파레토 최적해 중 하나이다. 본 논문에서는 이러한 최대-최소 최적화 방법을 강화 학습에 적용하여 최대-최소 최적화를 수행하는 복수 보상 강화 학습 방법을 제안한다. 본 논문에서는 복수 보상 강화 학습 방법으로 모델 기반 복수 보상 강화 학습 방법과 무모델 복수 보상 강화 학습 방법을 제안한다. 모델 기반 강화 학습에서는 다목적 동적 프로그래밍을 제안하고, 이 방법의 해의 파레토 최적성을 증명하였다. 제어 대상에 대한 모델을 이용하여 각 제어 규칙에 대한 결과를 예측하고 각 목적들 중 최소에 해당하는 목적이 최대가 되는 최대-최소 최적화를 이용하였다. 퍼지 제어기의 설계에 모델 기반 강화 학습을 적용한 경우는 다목적 동적 프로그래밍 방법을 이용하여 퍼지 제어기의 각 퍼지 규칙의 후건부 퍼지 싱글톤을 선택한다. 무모델 강화 학습 방법은 제어 대상의 모델이 없이 temporal difference 학습방법을 이용하여 각 규칙에 대한 각 목적의 값을 예측하고 이를 바탕으로 정책을 수정한다. 이 때 각 목적의 값이 불확실하기 때문에 예측된 목적의 값이 가장 큰 행동을 선택하는 것이 아니라 확률적인 선택 방법으로 규칙을 수정한다. 적응 비판자 구조와 Q 학습 구조의 두 가지 무모델 강화 학습 구조를 사용하여 이러한 무모델 복수 보상 강화 학습 방법을 구현하였다. 퍼지 제어기에서는 각 퍼지 규칙의 후건부 퍼지 싱글톤을 제안된 무모델 복수 보상 강화 학습으로 선택한다. 본 논문에서는 제안된 다목적 퍼지 제어기 설계 방법을 다목적 만족 퍼지 제어기에 적용하였다. 사용자의 각 목적에 대한 만족도를 만족도 함수를 통하여 표시하고, 충분해이면서 동시에 파레토 최적해인 만족해를 구하는 만족 제어기를 설계한다. 다목적 만족 퍼지 제어기에서는 각각의 목적에 대하여 최적화된 복수의 퍼지 제어기의 출력을 가중치를 주어 더한 것을 출력으로 한다. 이 가중치를 적당히 조절함으로 각 목적 간의 타협을 이루게 된다. 이러한 가중치를 결정하는 감독 퍼지 제어기를 설계함에 있어서 제안된 복수 보상 강화 학습을 적용하였다. 복수 보상 강화 학습은 각 목적의 값을 예측하고 이를 바탕으로 감독 퍼지 제어기의 후건부 퍼지 싱글톤을 결정한다. 제안된 다목적 만족 퍼지 제어기를 천정 크레인의 제어에 적용하고 기타 다른 방법과 비교하였다. 제안된 강화학습을 이용한 다목적 퍼지 제어기 설계 방법은 실제 제어 문제에서 많이 사용되는 대규모이거나 명확하지 않은 불확실한 시스템에서의 다목적 제어 문제를 해결하는 방법을 제시한다. 축적된 인간 운전자의 경험을 이용할 수 있을 뿐 아니라 강화 학습을 통하여 최적화된 다목적 퍼지 제어기를 구할 수 있다. 본 연구의 추후의 과제로는 보다 빠른 수렴을 보장하는 방법과 각종 학습 계수들에 따른 결과의 의존성에 대한 분석과 해결이 필요하다.

서지기타정보

서지기타정보
청구기호 {DEE 01048
형태사항 xi, 154 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 강동오
지도교수의 영문표기 : Zeung-Nam Bien
지도교수의 한글표기 : 변증남
수록잡지명 : "Multiobjective navigation of a guide mobile robot for the visually impaired based on intention inference of obstacles.". Autonomous robots., v.10, no.2, pp. 213-230 (2001)
수록잡지명 : "Design of multiobjective satisfactory fuzzy logic controller using reinforcement learning". International journal of fuzzy systems., v. 2, no. 2, pp. 139-152 (2000)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 138-147
주제 reinforcement learning
multiobjective fuzzy control system
multiple reward reinforcement learning
Pareto optimal
강화 학습
다목적 퍼지 제어 시스템
다보상 강화 학습
파레토 최적화
QR CODE qr code