In this thesis, we proposed a goal-oriented navigation reinforcement learning network called GRU- Attention based TD3 network, which takes Lider measurements, the distance between target position, and yaw toward the target as state inputs. The policy in the network will output continuous action: forward velocity and yaw angular velocity. Our proposed network can perform obstacle avoidance navigation without prior knowledge of the environment. We train our network in a simulation environment. To show that our proposed network is better in navigation tasks, we compare the performance with two other networks: the pure TD3 network and the GRU-based TD3 network in multiple simulation worlds. The experiments show that our proposed network can bypass the obstacles safely and arrive at the goal positions as fast as possible.
본 논문에서는 라이더 측정, 목표 위치 간 거리 및 목표물을 향한 요를 상태 입력으로 취하는 GRU-Attention 기반 TD3 네트워크라는 목표 지향 내비게이션 강화 학습 네트워크를 제안하였다. 네트워크의 정책은 전진 속도및요각속도라는연속동작을출력합니다. 우리가제안한네트워크는환경에대한사전지식없이 장애물 회피 항해를 수행할 수 있다. 우리는 시뮬레이션 환경에서 네트워크를 훈련시킨다. 우리가 제안한 네트워크가 탐색 작업에서 더 낫다는 것을 보여주기 위해, 우리는 성능을 두 개의 다른 네트워크, 즉 다중 시뮬레이션 세계의 순수 TD3 네트워크와 GRU 기반 TD3 네트워크와 비교한다. 실험은 우리가 제안한 네트워크가 장애물을 안전하게 우회하고 가능한 한 빨리 목표 위치에 도달할 수 있다는 것을 보여준다.