서지주요정보
Artificial learning and evolving brain for robots : synaptic plasticity models for hebbian learning and reinforcement learning = 진화/학습이 가능한 인공 로봇 두뇌 개발 : 헤비안 및 강화 학습을 위한 시냅스 가소성 모델
서명 / 저자 Artificial learning and evolving brain for robots : synaptic plasticity models for hebbian learning and reinforcement learning = 진화/학습이 가능한 인공 로봇 두뇌 개발 : 헤비안 및 강화 학습을 위한 시냅스 가소성 모델 / Kyoo-bin Lee.
저자명 Lee, Kyoo-bin ; 이규빈
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018760

소장위치/청구기호

학술문화관(문화관) 보존서고

DME 08004

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The ultimate goal of this research is developing an artificial brain for robots. On the proposed hypothesis that the fundamental functions of animals’ intelligence are auto-classification and reinforcement learning, several basic synaptic plasticity models have been developed. Researchers believe that STDP (Spike Timing Dependent Plasticity) is an essential brain function for auto-classification and that dopamine system plays an important role for reinforcement learning. A rate-coded STDP (Activity-Variation-Timing Dependent Plasticity, AVTDP) has been derived from the kinetic STDP model of Senn. AVTDP is a simple and efficient model and preserves the timing dependent property. A method to interpret the plasticity mechanism has been proposed in graphical manner. The similarity between AVTDP and STDP is shown through a series of simulations. It is shown that several conditions exist for the parameters that allow the similarity to become valid. Because the formula simply consists of differentiation, multiplication, addition and subtraction, the model is suitable for implementation not only in computer programs but also in electric circuits. It is believed that the proposed model effectively capitalizes on both the rate code and the timing dependent plasticity of the spike code. A synaptic reinforcement algorithm has been developed. The algorithm determines which synapses are to be potentiated or depressed by reward signals. A simulation is conducted to demonstrate how the interaction between the synaptic eligibility and the reward signal influences synaptic plasticity. The use of the pre- and postsynaptic spike correlator (PPSC) is proposed for reinforcement learning in a spiking neural network. The PPSC is used to determine the synaptic pathway eligible for reward. It represents the synaptic eligibility that increases only if the postsynaptic spike occurred shortly after a presynaptic spike. The magnitude of the synaptic eligibility exponentially decreases as a function of time. The proposed method was evaluated through a simulation with 85 neurons and 324 synapses for a goal-finding task based on the input from the 9X9 pixel array of a vision sensor. Training the neurons for 1000 seconds resulted in the propensity of the neurons to drive the mobile unit of the robot to the goal. A dopamine reward prediction model for spiking neural network has been developed and compared to other animal experiments. A simulation using the proposed dopamine model shows a promising result identical to the experiment of Schultz et al. When a reward is given without a conditional stimulus, dopamine neurons fire at time of the reward. After repeated training in which a conditional stimulus is displayed before a reward is given, the time of the dopamine firing is shifted to the time of the conditional stimulus, and dopamine neurons do not fire at time of the reward. If the predicted reward is not given, the activity of the dopamine neurons is depressed at the time when the reward is given. Another simulation under the conditions identical to the animal experiment of Hollerman et al. was conducted. The simulation result shows that dopamine neurons can predict the exact timing of a reward as the experimental results of Hollerman et al. In the learning stage, the dopamine neuron predicts that the reward will be given at that time. When the reward is given at a different time, the activity of the dopamine neuron becomes irregular. If the reward comes earlier, the dopamine neuron bursts at the time of the unpredicted reward and then becomes depressed at the regular reward time. If the reward comes later, the dopamine neuron becomes depressed at the regular reward time and then bursts at the time of the unpredicted reward. As a further work, self-organizing mechanism induced by STDP will be studied. After the self-organizing mechanism is developed, the integration of self-organization, dopamine reinforcement and dopamine reward prediction can be initiated. For the ultimate goal of this research, building an artificial brain, the further works will require researchers from several different areas: neuro-biologists, computer-scientists, electronic engineers, and robotic engineers. If this research can be well organized, it will be a good challenge of an interdisciplinary field.

로봇을 위한 인공 두뇌를 개발하기 위한 기초 연구로서 실제 생물의 지능은 자가조직화와 강화학습의 동시 작용에 의해 발현될 것이라는 가설을 바탕으로 신경 세포 단위의 기본 모델들을 개발하였다. 동물이 학습하는 과정은 크게 [ 인식 → 판단 → 행동 → 평가 → 수정 ] 의 단계로 단순화 할 있다. 동물은 새로운 자극을 반복적으로 경험하게 되면 그 새로운 자극과 기존에 알고 있던 자극을 구분할 수 있게 되고 그 자극에 대한 반응을 결정하여 행동한 후, 그 행동의 결과에 따라 학습해 나가는 일련의 과정을 지속적으로 거치게 된다. 이와 같은 과정을 동물의 두뇌에서 발생하는 현상과 비교하여 단순화 하면 자가조직화 (self-organization)와 강화학습 (reinforcement learning)으로 재분류할 수 있다. 자가 조직화는 주어진 자극으로부터 신경세포 (neuron)의 발화 패턴이 점차적으로 특정한 패턴으로 수렴해 가는 과정으로 해석할 수 있고 강화학습은 뇌의 신호 처리 결과가 초래하는 보상이나 손실에 따라 기존의 행동 패턴이 강화되거나 약화되는 과정으로 해석할 수 있다. 자가 조직화와 강화 학습은 동물이 학습하는 각 과정에서 항상 동시에 작용할 것으로 보인다. 현재로서는 자가 조직화와 강화 학습만으로 지능이 발현될 수 있을 지에 대한 명확한 해답은 없으나 자가 조직화와 강화 학습이 뇌를 모방하여 구현할 인공 지능 알고리즘의 필수 요소라는 것은 분명하다. 비교적 최근에 생물 실험을 통해 발견된 발화 시간 기반 가소성 (Spike-Timing Dependent Plasticity, STDP)은 동물 두뇌에서 자가조직화를 일으키는 원동력이 될 것으로 여겨진다. Senn이 제안한 Spike-code 기반의 STDP 모델로부터 시간 기반 특성이 보존되는 Rate-code인 활성도 변화 시간 기반 가소성 (Activity-Variation-Timing Dependent Plasticity, AVTDP) 모델을 제안하고, AVTDP의 연접 효율 변화량 특성을 치환적분법을 응용하여 도식적으로 설명하였다. 강화 학습을 위해 동물의 뇌는 도파민이라는 신경전달물질을 이용한다. 도파민에 의해 연접 효율이 변화할 때는 도파민이 분비된 영역의 모든 연접이 변화되는 것이 아니라 특정한 규칙에 따라 선택된 연접만이 변화하는 것으로 보인다. 본 연구에서는 어떤 신경 연접들이 도파민 보상 신호에 의해 강화 또는 약화 되어야 하는지, 그리고 어떤 방식으로 학습할 지에 대한 모델을 제시하고 있다. 제안된 모델에서, 보상 신호에 의해 변화하는 연접을 적격 연접 (Eligible Synapse)로 정의 하였고 적격 연접은 연접 이전 신경 세포가 발화한 후 짧은 시간 이내에 연접 이후 신경 세포가 발화할 때 적격도 (Eligibility)가 증가하도록 하였다. 비전 센서를 장착하고 2자유도의 평면 움직임이 가능한 가상의 로봇에 85개의 신경세포와 324개의 연접으로 이루어진 인공신경망을 이용하여 제안한 모델을 적용한 결과 목표 지점을 찾아 움직이는 행동 특성이 발현됨을 시뮬레이션으로 보였다. 제안한 모델은 등가의 Rate-code로 변환되었다. 도파민 시스템은 단지 보상 신호를 전달하는 역할만 하는 것이 아니라 미래에 받게 될 보상을 예측하거나 보상이 주어지는 시간을 예측하는 기능을 가지고 있다는 증거가 잇따른 동물 실험 연구 결과로부터 입증된 바 있는데, 본 연구에서는 보상 예측 및 보상 시간 예측이 가능한 도파민 신경 세포 모델과 신경 연접 가소성 모델을 Spike-code와 Rate-code 두 가지 방식으로 제안하였고 시뮬레이션을 통해 Schultz와 Hollerman이 수행한 원숭이를 이용한 동물 실험 결과와 동일한 보상 예측 결과를 얻을 수 있었다. 향후 연구로서, 제안된 모델의 생물 실험을 통한 분석 및 수정, STDP를 이용한 자가조직화 구현, 자가조직화와 강화학습이 동시에 이루어지는 통합 모델 개발, 통합 모델의 SoC 구현을 수행하고자 한다.

서지기타정보

서지기타정보
청구기호 {DME 08004
형태사항 ix, 116 p. : 삽도 ; 26 cm
언어 영어
일반주기 Appendix : A, Neuron model using a second order differnetial equation. - B, Multiplicative neuron model. - C, Slow update of synaptic efficacy
저자명의 한글표기 : 이규빈
지도교수의 영문표기 : Dong-Soo Kwon
지도교수의 한글표기 : 권동수
수록잡지정보 : "Synaptic plasticity model of a spiking neural network for reinforcement learning". Neurocomputing, accepted, accepted(2008)
학위논문 학위논문(박사) - 한국과학기술원 : 기계공학전공,
서지주기 References : p. 99-105
주제 synaptic plasticity;Spike-Timing Dependent Plasticity (STDP);dopamine system;;
시냅스 가소성;발화 시간 기반 가소성;도파민 시스템;;
QR CODE qr code