서지주요정보
내부적 보상을 이용한 재구성 기반의 월드 모델 편향 완화 = Bias mitigation of reconstruction-based world model using intrinsic rewards
서명 / 저자 내부적 보상을 이용한 재구성 기반의 월드 모델 편향 완화 = Bias mitigation of reconstruction-based world model using intrinsic rewards / 박지훈.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040756

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23049

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

When reinforcement learning is used to solve sequential decision-making problems, it is helpful to express the problem with the Markov decision model. This is because the Markov Decision Model(MDP) is a mathematical model that expresses the decision-making process for a dynamic environment using stochastic characteristics. To construct MDP, an expression of the state space and a state transition model are required, and reward for a given state must be defined. In reality, however, since there is often no information about state transitions or rewards, model-based reinforcement learning that allows learning them using inference models can be used. In addition, if a given data has insufficient information to represent the state space, the world model can be learned through dimensionality reduction based on variational inference, thereby expressing the dynamics of interactions on the latent space. We show that the Recurrent State Space Model(RSSM) representing reinforcement learning based on a world model, as it is influenced dominantly by Recurrent Neural Network(RNN) path, induces bias in the world model. To address this problem, we propose a method using a decoder utilizing skip connections and a method to provide the loss of the reward model as an intrinsic reward. As a result, we show that our method requires little additional computation compared to existing models, and improves the final cumulative reward in the robot simulation environment.

순차적 의사 결정 문제를 풀기 위하여 강화 학습을 이용하는 경우, 마르코프 결정 모델로 해당 문제를 표현 하는 것이 도움이 된다. 마르코프 결정 모델은 동적인 환경에 대한 의사 결정 과정을, 확률적 특성을 이용해 표현한 수학적 모델이기 때문이다. 이를 구성하기 위해서는 상태 공간의 표현과 상태 전이 모델이 필요하며, 주어진 상태에 대한 보상이 정의되어야 한다. 하지만 현실적으로는 상태의 전이나 보상에 대한 정보가 없는 경우가 많기 때문에, 이를 추론 모델을 이용해 학습시키는 모델 기반의 강화 학습이 사용될수있다. 또한 주어진 데이터가 상태 공간을 표현하기에 불충분한 정보를 가지고 있는 경우, 변분 추론에 기반한 차원 축소를 통해 월드 모델을 학습시켜, 잠재 공간 상에서 상호작용에 대한 역학을 표현할 수 있다. 우리는 이를 대표하는 순환 상태 공간 모델이, 순환 신경망에 대해 지배적으로 동작함에 따라 월드 모델의 편향을 유발하는 것을 보인다. 이러한 문제를 해결하기 위하여 스킵 커넥션을 활용한 디코더를 사용하는 방법과 보상 모델의 손실을 내부적 보상으로 제공하는 방법을 제안한다. 결과적으로 우리의 방법이 기존의 모델에 비교해서 추가적인 연산을 거의 필요로 하지 않으며, 로봇 시뮬레이션 환경에서 최종적인 누적 보상을 향상시킨다는 것을 보인다.

서지기타정보

서지기타정보
청구기호 {MEE 23049
형태사항 iii, 28 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Jihoon Park
지도교수의 한글표기 : 이동환
지도교수의 영문표기 : Donghwan Lee
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 23-27
주제 모델 기반 강화 학습
월드 모델
잠재 공간 역학
내부 보상
Model-based reinforcement learning
World model
Latent dynamics
Intrinsic reward
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서