서지주요정보
(A) BCI-guided human-robot value alignment framework with action-goal inference = 행동-목표 추론을 통한 BCI 기반 인간-로봇 가치 정렬 프레임워크
서명 / 저자 (A) BCI-guided human-robot value alignment framework with action-goal inference = 행동-목표 추론을 통한 BCI 기반 인간-로봇 가치 정렬 프레임워크 / Xin Xu.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041226

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MBIS 23019

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Achieving value alignment in human-robot collaboration is of great importance for improving the performance of robots through realistic engagement with humans. One critical issue is that action-goal mapping is not injective; e.g., one action can be associated with different goals. This makes it hard to decode human goals based on observed actions solely. Previous studies on human reinforcement learning (RL) show that humans evaluate one’s or others’ actions based on the difference between expectations and actual observations with respect to situations (state) and/or outcomes (rewards), each of which is called state prediction error (SPE) and reward prediction error (RPE). Here, we hypothesize that these two key variables in human RL, SPE and RPE, could facilitate value alignment through brain-computer interface (BCI) at both the action and goal levels. To demonstrate that SPE and RPE could be dissociated from human electroencephalography (EEG) data, we designed and conducted three independent evaluation games in which a robot navigates in the GridWorld environment. The first and second game is intended to examine the effect of SPE and RPE on actions and goals, respectively. The third game aims to evaluate their combined effect under various contexts. By analyzing the EEG data, we successfully demonstrated the significant differences in decoding accuracy between SPE and RPE across diverse frequency bands and distinct brain regions. An optimized online decoding system, built to enhance real-time computing speed by integrating the advantage of EEG-Conformer with the simple linear discriminant analysis decoder, achieved exceptional decoding speed without compromising accuracy. Furthermore, through simulations of flexible value alignment under conditions of contextual variability, we envision a promising future where the synergy between human SPE and RPE can be effectively harnessed to enhance efficacy in human-robot collaboration.

인간과 로봇의 가치를 정렬하는 문제는 현실적인 인간-로봇 협업 시나리오에서 로봇 성능을 개선하는 데 중요합니다. 이 문제에서의 가장 중요한 부분은 목표와 작업들이 일대일 대응이 아니라는 것입니다. 예를 들어 하나의 작업에 대해 여러가지 목표를 설정할 수 있습니다. 이로 인해 관찰된 행동만으로 인간의 목적을 추정하기 어렵습니다. 인간의 강화 학습에 대한 이전 연구에서는 인간이 상황 및/또는 결과에 대한 기대치와 실제 관찰된 결과 사이의 불일치(각각 상태 예측 오류 및 보상 예측 오류라고 함)를 기반으로 자신의 의사결정 전략을 수정하거나 타인의 행동을 평가하는 과정을 규명하였습니다. 본 연구에서는 인간 강화 학습의 이 두 가지 핵심 변수를 추정하는 뇌-컴퓨터 인터페이스를 통해 행동 수준 및 목표 수준에서의 가치 정렬 문제를 풀 수 있다는 가설을 세웁니다. 상태 예측 오류와 보상 예측 오류가 인간 뇌파 데이터와 분리될 수 있음을 입증하기 위해 로봇이 격자형 환경을 탐색하는 세 가지 독립적인 평가 게임을 설계하고 인간대상의 실험을 수행하였습니다. 첫 번째와 두 번째 게임은 상태 예측 오류와 보상 예측 오류가 각각 행동과 목표에 미치는 영향을 조사하는 것을 목표로 설계되었습니다. 세 번째 게임은 서로 다른 맥락에서 두가지 오류신호가 결합된 효과를 평가하는 것을 목표로 합니다. 실험과 기계학습 기반의 뇌파 데이터 분석을 통해 서로 다른 주파수 대역과 서로 다른 뇌 영역에서 상태 예측 오류와 보상 예측 오류 사이의 디코딩 정확도의 유의미한 차이를 입증했습니다. 이어서 보다 효율적인 뇌-컴퓨터 인터페이스를 위해 최적화된 온라인 디코딩 시스템을 설계하였고, 컨벌루션 변환기와 간단한 선형 판별 분석 디코더의 장점을 결합하여 디코딩 정확도를 손상시키지 않으면서 실시간 계산을 가속화할 수 있다는 것을 보였습니다. 끝으로, 상황에 따라 달라지는 변수 조건에서 유연한 가치 정렬 시뮬레이션을 통해 인간 상태 예측 오류와 보상 예측 오류 간의 시너지 효과를 입증하였습니다. 인간과 로봇의 목표, 행동, 가치를 일치시키는 본 연구는 뇌파 기반의 인간-로봇 협업을 다루는 다양한 분야에 적용될 수 있습니다.

서지기타정보

서지기타정보
청구기호 {MBIS 23019
형태사항 v, 35 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 서흔
지도교수의 영문표기 : Sang Wan Lee
지도교수의 한글표기 : 이상완
학위논문 학위논문(석사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 32-33
주제 Value Alignment
Brain-Computer Interface
Prediction Error
einforcement Learning
가치 정렬
뇌-컴퓨터 인터페이스
예측 오류
강화 학습
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서