This paper discusses an approach to offline Goal-Conditioned Reinforcement Learning(GCRL) using a diffusion model. GCRL is a problem of learning policies that depend on given goals, and it is important to extract useful information from sparse reward signals. To address this, the proposed methodology introduces a planning-based approach using a conditional diffusion model to generate trajectories for taking actions. Specifically, a goal relabeling method is proposed to overcome sparse rewards, and a conditional diffusion model is tasked to generate trajectories that satisfy certain action value level. The proposed methodology demonstrates high performance in various GCRL experimental environments, as demonstrated through qualitative and quantitative evaluations.
이 논문에서는 오프라인 목표 지향 강화학습을 디퓨전 모델을 사용해 접근하는 방법론을 다루었다. 목표 지향 강화학습은 주어진 목표에 의존하는 정책을 학습하는 문제이며 희소한 보상 시그널로부터 유익한 정보를 추출하는 것이 중요하다. 이를 해결하기 위해 조건부 디퓨전 모델을 사용해 궤적을 생성하여 행동을 취하도록 하는 플래닝 기반의 방법론을 제안한다. 특히, 희소한 보상을 극복하기 위한 목표 리레이블 방법을 제안하고, 특정 행동 가치 값을 만족하는 궤적을 생성하도록 디퓨전 모델을 학습한다. 제안한 방법론이 여러 목표 지향 강화학습 실험 환경에서 높은 성능을 보임을 정성적인 방법과 정량적인 방법으로 보였다.