서지주요정보
Addressing double sampling issue by learning dynamics model = 모델 학습을 통한 이중 샘플링 문제 해소
서명 / 저자 Addressing double sampling issue by learning dynamics model = 모델 학습을 통한 이중 샘플링 문제 해소 / Kihong Park.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042176

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24064

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the recent advancements in deep neural networks, reinforcement learning has demonstrated remarkable performance in various fields such as games, language models, and robotics. However, currently prevalent reinforcement learning algorithms employ the target network to address the double sampling issue, which necessitates an additional Q-network and delays the update. In this thesis, we tackle the aforementioned problem by training the dynamics model instead of using the target network, aiming to resolve the double sampling issue. Specifically, our approach modified deep Q-network by sampling another independent next state from the learned dynamics model and introducing a new loss function that takes into account the double sampling issue. With the proposed method, we aim to optimize the Q-network through a more precise gradient closer to the true gradient of mean squared Bellman error. In experiments, the proposed algorithm robustly achieved higher undiscounted returns and predicted action-values more stably compared to deep Q-network.

최근 심층 신경망의 발달과 함께, 강화학습 또한 게임, 언어모델, 로봇 등 다양한 분야에서 인간에 범접하는 놀라운 성능을 보이고 있다. 하지만 현재 널리 사용되고 있는 강화학습 알고리즘은 이중 샘플링 문제를 해결하기 위해 타겟 네트워크를 사용하는데, 이는 추가적인 큐 네트워크를 필요로 하며, 지연을 통해 업데이트 한다는 문제가 있다. 이 논문에서는 이러한 문제를 해결하기 위해 타겟 네트워크를 사용하지 않고, 전이 모델을 학습하여 이중 샘플링 문제를 해결하고자 한다. 구체적으로 말하자면, 학습된 전이 모델을 통하여 독립적인 다음 상태를 추가로 추출하고, 이중 샘플링 문제를 고려한 새로운 손실 함수를 도입하여 변형된 심층 큐 네트워크를 제안한다. 이를 통해 우리는 평균 제곱 벨만 오차의 실제 기울기와 더 가까운 정확한 기울기를 통해 큐 네트워크를 최적화하고자 한다. 실험 환경에서, 제안된 알고리즘은 심층 큐 네트워크 알고리즘에 비해 강건하게 더 큰 보상의 총합을 달성하였으며, 안정적으로 행동가치 값을 예측하였다.

서지기타정보

서지기타정보
청구기호 {MEE 24064
형태사항 iii, 20 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박기홍
지도교수의 영문표기 : Donghwan Lee
지도교수의 한글표기 : 이동환
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 16-18
주제 Reinforcement learning
Model-based reinforcement learning
Deep Q-network
Double sampling issue
강화학습
모델기반 강화학습
심층 큐 네트워크
이중 샘플링 문제
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서