We propose in this thesis a novel Reinforcement Learning based approach implemented in mobile robots to perform path planning task autonomously. The approach is titled “TD3 network embedded with Attention-based Identity Recurrent Neuron Network (AIRNN)”, since its structure is using TD3 network as a baseline model added to it a vanilla RNN model as a memory-based model denoted as IRNN and supported by attention mechanism. This model was trained and tested in a simulation environment that only use 2D LiDAR data points, distance to the target and final orientation as states and forward and angular velocities as actions. The main study focuses on investigating the feasibility of the model to find a path in an environment that has a target close to an obstacle without collision. We compared our model with TD3 network as a pure base structure and Attention-based Gated Recurrent Unit (AGRU) network as a competing structure that has similar structure to our model. The results showed that our model has surpassed the other models in terms of finding the shortest path with low computation time and ensuring the least collision occurrence.
본 논문에서는 자율적으로 경로 계획을 수행하기 위해 이동식 로봇에 구현된 새로운 강화학습 모델을 제안한다. 본 모델은 “AIRNN(어텐션기반 아이덴티티 순환신경망) 탑재형 TD3 네트워크”라 명명했으며 TD3 네트워크를 기본 구조로 하며 어텐션 기법을 지원하는 IRNN메모리기반 순환신경망(RNN)모델을 활용하여 구축하였다. 본 연구에서는 목표 지점까지의 거리와 최종 방향을 상태값으로 하고 정면 및 각 속도를 동작값으로 하여 2차원의 LiDAR 데이터 포인트 정보만으로 생성된 시뮬레이션 환경에서 학습 및 테스트하였다. 연구의 주 목적은 로봇이 장애물 근처에 위치한 최종 목표지점까지 충돌없이 이동할 수 있는 경로를 찾을 수 있는지를 확인하기 위한 모델 타당성 분석이다. 또한 논문의 모델과 유사 구조를 갖는 기본형 TD3 네트워크와 어텐션 기반 게이트 순환 유닛(Attention-based Gated Recurrent Unit (AGRU)) 네트워크를 활용한 대조군의 성능을 함께 비교하였다. 실험 결과 본 논문에서 제안한 모델은 기존에 발표된 기법들 대비 충동 발생 가능성을 최소화하며 최단 시간 내 최단 경로를 산출하는 우수한 성과를 보였다.