With the recent advancements in deep neural networks, reinforcement learning has demonstrated remarkable performance in various fields such as games, language models, and robotics. However, currently prevalent reinforcement learning algorithms employ the target network to address the double sampling issue, which necessitates an additional Q-network and delays the update. In this thesis, we tackle the aforementioned problem by training the dynamics model instead of using the target network, aiming to resolve the double sampling issue. Specifically, our approach modified deep Q-network by sampling another independent next state from the learned dynamics model and introducing a new loss function that takes into account the double sampling issue. With the proposed method, we aim to optimize the Q-network through a more precise gradient closer to the true gradient of mean squared Bellman error. In experiments, the proposed algorithm robustly achieved higher undiscounted returns and predicted action-values more stably compared to deep Q-network.
최근 심층 신경망의 발달과 함께, 강화학습 또한 게임, 언어모델, 로봇 등 다양한 분야에서 인간에 범접하는 놀라운 성능을 보이고 있다. 하지만 현재 널리 사용되고 있는 강화학습 알고리즘은 이중 샘플링 문제를 해결하기 위해 타겟 네트워크를 사용하는데, 이는 추가적인 큐 네트워크를 필요로 하며, 지연을 통해 업데이트 한다는 문제가 있다. 이 논문에서는 이러한 문제를 해결하기 위해 타겟 네트워크를 사용하지 않고, 전이 모델을 학습하여 이중 샘플링 문제를 해결하고자 한다. 구체적으로 말하자면, 학습된 전이 모델을 통하여 독립적인 다음 상태를 추가로 추출하고, 이중 샘플링 문제를 고려한 새로운 손실 함수를 도입하여 변형된 심층 큐 네트워크를 제안한다. 이를 통해 우리는 평균 제곱 벨만 오차의 실제 기울기와 더 가까운 정확한 기울기를 통해 큐 네트워크를 최적화하고자 한다. 실험 환경에서, 제안된 알고리즘은 심층 큐 네트워크 알고리즘에 비해 강건하게 더 큰 보상의 총합을 달성하였으며, 안정적으로 행동가치 값을 예측하였다.