서지주요정보
(A) path planning RL based on TD3 network embedded with AIRNN model = AIRNN 모델이 내장된 TD3 네트워크 기반의 경로 계획 강화학습
서명 / 저자 (A) path planning RL based on TD3 network embedded with AIRNN model = AIRNN 모델이 내장된 TD3 네트워크 기반의 경로 계획 강화학습 / Adil Mohammad M Aloufi.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040708

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

We propose in this thesis a novel Reinforcement Learning based approach implemented in mobile robots to perform path planning task autonomously. The approach is titled “TD3 network embedded with Attention-based Identity Recurrent Neuron Network (AIRNN)”, since its structure is using TD3 network as a baseline model added to it a vanilla RNN model as a memory-based model denoted as IRNN and supported by attention mechanism. This model was trained and tested in a simulation environment that only use 2D LiDAR data points, distance to the target and final orientation as states and forward and angular velocities as actions. The main study focuses on investigating the feasibility of the model to find a path in an environment that has a target close to an obstacle without collision. We compared our model with TD3 network as a pure base structure and Attention-based Gated Recurrent Unit (AGRU) network as a competing structure that has similar structure to our model. The results showed that our model has surpassed the other models in terms of finding the shortest path with low computation time and ensuring the least collision occurrence.

본 논문에서는 자율적으로 경로 계획을 수행하기 위해 이동식 로봇에 구현된 새로운 강화학습 모델을 제안한다. 본 모델은 “AIRNN(어텐션기반 아이덴티티 순환신경망) 탑재형 TD3 네트워크”라 명명했으며 TD3 네트워크를 기본 구조로 하며 어텐션 기법을 지원하는 IRNN메모리기반 순환신경망(RNN)모델을 활용하여 구축하였다. 본 연구에서는 목표 지점까지의 거리와 최종 방향을 상태값으로 하고 정면 및 각 속도를 동작값으로 하여 2차원의 LiDAR 데이터 포인트 정보만으로 생성된 시뮬레이션 환경에서 학습 및 테스트하였다. 연구의 주 목적은 로봇이 장애물 근처에 위치한 최종 목표지점까지 충돌없이 이동할 수 있는 경로를 찾을 수 있는지를 확인하기 위한 모델 타당성 분석이다. 또한 논문의 모델과 유사 구조를 갖는 기본형 TD3 네트워크와 어텐션 기반 게이트 순환 유닛(Attention-based Gated Recurrent Unit (AGRU)) 네트워크를 활용한 대조군의 성능을 함께 비교하였다. 실험 결과 본 논문에서 제안한 모델은 기존에 발표된 기법들 대비 충동 발생 가능성을 최소화하며 최단 시간 내 최단 경로를 산출하는 우수한 성과를 보였다.

서지기타정보

서지기타정보
청구기호 {MEE 23001
형태사항 iv, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 알루피 아딜
지도교수의 영문표기 : Dong Eui Chang
지도교수의 한글표기 : 장동의
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 24-25
주제 Reinforcement Learning
TD3 nework
IRNN
Attention
Path Planning
강화 학습
TD3 네트워크
IRNN
어텐션
경로 계획
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서