서지주요정보
Value-instilled diffusion for offline goal-conditioned reinforcement learning = 오프라인 목표조건부 강화학습을 위한 가치관입 디퓨전
서명 / 저자 Value-instilled diffusion for offline goal-conditioned reinforcement learning = 오프라인 목표조건부 강화학습을 위한 가치관입 디퓨전 / Sungyoon Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041151

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23034

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This paper discusses an approach to offline Goal-Conditioned Reinforcement Learning(GCRL) using a diffusion model. GCRL is a problem of learning policies that depend on given goals, and it is important to extract useful information from sparse reward signals. To address this, the proposed methodology introduces a planning-based approach using a conditional diffusion model to generate trajectories for taking actions. Specifically, a goal relabeling method is proposed to overcome sparse rewards, and a conditional diffusion model is tasked to generate trajectories that satisfy certain action value level. The proposed methodology demonstrates high performance in various GCRL experimental environments, as demonstrated through qualitative and quantitative evaluations.

이 논문에서는 오프라인 목표 지향 강화학습을 디퓨전 모델을 사용해 접근하는 방법론을 다루었다. 목표 지향 강화학습은 주어진 목표에 의존하는 정책을 학습하는 문제이며 희소한 보상 시그널로부터 유익한 정보를 추출하는 것이 중요하다. 이를 해결하기 위해 조건부 디퓨전 모델을 사용해 궤적을 생성하여 행동을 취하도록 하는 플래닝 기반의 방법론을 제안한다. 특히, 희소한 보상을 극복하기 위한 목표 리레이블 방법을 제안하고, 특정 행동 가치 값을 만족하는 궤적을 생성하도록 디퓨전 모델을 학습한다. 제안한 방법론이 여러 목표 지향 강화학습 실험 환경에서 높은 성능을 보임을 정성적인 방법과 정량적인 방법으로 보였다.

서지기타정보

서지기타정보
청구기호 {MAI 23034
형태사항 iii, 19 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김성윤
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 15-17
주제 Offline goal-conditioned reinforcement learning
Diffusion model
Planning
오프라인 목표지향 강화학습
디퓨전 모델
플래닝
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서