서지주요정보
Development of flexible reinforcement learning algorithms using model-based fMRI analyses = 모델 기반 fMRI 분석을 통한 일반화 가능한 강화학습 알고리즘 개발
서명 / 저자 Development of flexible reinforcement learning algorithms using model-based fMRI analyses = 모델 기반 fMRI 분석을 통한 일반화 가능한 강화학습 알고리즘 개발 / Dongjae Kim.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037440

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DBCE 21002

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Reinforcement learning (RL) has been successfully used to model the value-based learning of human decision-making processes. Humans employ two distinctive RL strategies: model-based and model-free learning. Model-based learning shows excellent performance through fast adaptation to environmental context changes, but it involves large cognitive loads. In contrast, model-free learning is very efficient and involves much smaller cognitive loads; however, it is prone to failure due to dynamic changes in the environmental context. Because the human brain has limited cognitive resources, an appropriate arbitration control between RL strategies is required for humans to make efficient and high-performance decisions. In this work, we investigated how humans perform the arbitration control due to the two essential factors, which are never dealt. The factors that make adaptive behaviors much difficult due to environmental context changes include: 1) changes in task context, which directly increase cognitive loads, and 2) uncertain RL model’s baseline performance due to the environmental context changes, which makes the arbitration control even harder because we cannot precisely estimate the expected performance of the RL model. To do so, a computational model of human RL with arbitration control for context changes was developed. Consequently, fMRI signals were analyzed to understand how human RL functions. First, a computational model for arbitration control incorporating task complexity, which directly affects cognitive load, was developed. By analyzing fMRI signals with the model, it was found that humans employ model-based learning to resolve task complexity. In addition, behavioral analysis showed that the RL strategies have different levels of performance expectation and distributions of prediction error due to changes in task context, and a computational model with adaptive updating of the prediction error baseline was developed. Model-based fMRI analysis showed how the human brain has arbitration control that is adaptive to context changes. Based on the aforementioned findings, it was possible to develop a human RL algorithm that has flexible arbitration control responsive to changes in task context. For large-scale simulations, the computational model for human RL was found to outperform state-of-the-art RL algorithms presented in the artificial intelligence (AI) literature. Finally, using the computational model for human RL, a deep neural network was constructed, classifying the two learning strategies based on electroencephalography (EEG). Surprisingly, reading out the learning strategy is meaningful for classifying decisions through shared informative features in the neural network. In this dissertation, we provide not only full descriptions of flexible human RL algorithm development but also neural evidence for them. Moreover, the findings could possibly be applied to brain-inspired AI and brain–computer interfaces (BCI).

강화학습은 인간의 의사결정과정을 모델링하기 위한 수단으로 성공적으로 활용되어온 가치기반 학습 알고리즘이다. 인간의 강화학습은 모델-기반과 모델-프리의 두 종류의 학습 전략으로 명확히 구분할 수 있다. 모델-기반 학습은 환경의 문맥 변화에 빠르게 적응하는 성질을 통해 고성능을 보이지만, 인지 부하가 높다. 반면 모델-프리 학습은 매우 효율적이기 때문에 인지 부하가 낮으나 환경의 문맥 변화에 빠르게 대응하지 못하는 단점을 갖는다. 다양한 문맥의 변화는 인간이 두 강화학습 전략 중 하나의 전략만 활용하는 것이 아닌, 두 학습 전략 간의 적절한 중재 조절의 필요성을 야기한다. 본 학위 논문에서는 인간이 어떻게 이러한 학습 전략 간 중재 조절을 하는지 기존에 다루어지지 않은 두 가지 핵심적 요인의 효과를 검증하였다. 문맥 변화에 따른 적응 행동에 어려움을 끼치는 핵심 요소로는 상황 복잡도와 강화학습 모델의 기저 성능 변화가 있다. 상황 복잡도는 인지 부하를 직접적으로 증가시킴으로써 중재 조절의 필요성을 야기하고, 강화학습 모델의 기저 성능 변화는 불확실한 환경의 변화에 대한 적절한 대처로서 적절한 중재 조절을 어렵게 만드는 요인이다. 이 두 요인이 어떻게 두 학습 전략 간의 중재 조절을 포함한 인간 강화학습에 영향을 끼치는 지 알기 위해 계산 모델을 만들고, 이를 통해 fMRI 신호를 분석하였다. 먼저, 인지 부하를 직접적으로 높이는 상황 복잡도가 변화하는 환경에서 강화학습 전략의 중재 조절이 어떻게 일어나는 지 분석하기 위한 계산 모델을 만들고 fMRI를 분석함으로써 인간은 상황 복잡도의 변화에 빠르게 적응하기 위해 모델-기반 학습을 활용하는 것을 알아냈다. 또한 문맥 상황의 변화에 따라 변화하는 각 강화학습 전략의 기저 성능과 그에 따른 예측 오류의 변화가 존재함을 밝히고, 유연성을 갖는 중재 조절 계산 모델을 개발하여 fMRI 분석을 통해 인간의 뇌가 실제로 문맥 상황의 변화에 예측 오류의 기저값을 조절하는 방식을 통해 영민히 적응하고 반응하여 중재 조절을 한다는 것을 밝혔다. 우리는 이러한 핵심 요인을 반영한 계산 모델이 기존의 인간 강화학습 모델 대비 인간의 행동에 존재하는 추가적 변동성을 더 잘 설명한다는 것을 확인할 수 있었고, 그 요인들이 어떻게 중재 조절 과정 및 인간 강화학습에 영향을 끼치는지 모델 기반 fMRI 분석을 통해 분석해 낼 수 있었다. 이러한 발견을 토대로, 우리는 기존의 인간의 강화학습의 특징인 문맥 변화에 적절히 반응하는 일반성을 갖는 알고리즘을 개발할 수 있었다. 우리는 대규모의 시뮬레이션 실험을 통해, 이 인간 강화학습 모델이 최근의 인공지능 연구에서 최고 성능을 보이는 강화학습 알고리즘과 비교했을 때도 성능면에서 뛰어남을 확인할 수 있었다. 마지막으로, 인간 강화학습 모델과 딥 러닝 심층신경망 분류기를 활용하여 비교적 간단한 신호인 뇌파로부터 인간의 학습전략을 읽어낼 수 있음을 보였다. 뿐만 아니라 이 학습전략 분류 심층신경망을 통한 뇌파 디코딩 과정이 선택을 분류하는 데 있어서 공유되는 정보 특징을 포함함으로써 의미 있는 성능의 향상을 보임을 확인할 수 있었다. 본 박사 학위 논문에서는 인간의 유연한 강화학습 과정을 반영한 계산모델의 개발과 이를 통한 뇌 신호의 분석을 진행하였다. 더 나아가, 이를 통해 뇌-기반 인공지능이나 뇌-기계 인터페이스로의 응용 연구에 대한 가능성을 제시하였다.

서지기타정보

서지기타정보
청구기호 {DBCE 21002
형태사항 vii, 93 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김동재
지도교수의 영문표기 : Sang Wan Lee
지도교수의 한글표기 : 이상완
공동지도교수의 영문표기 : Jaeseung Jeong
공동지도교수의 한글표기 : 정재승
수록잡지명 : "Task complexity interacts with state-space uncertainty in the arbitration between model-based and model-free learning". Nature communications, v.10, pp.1-14(2019)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 뇌인지공학프로그램,
서지주기 References : p. 80-89
QR CODE qr code