Subtask aware policy network for long-horizon home service robot tasks = 길고 복잡한 홈 서비스 로봇 작업을 위한 하위 작업 인식 정책 네트워크
서명 / 저자 Subtask aware policy network for long-horizon home service robot tasks = 길고 복잡한 홈 서비스 로봇 작업을 위한 하위 작업 인식 정책 네트워크 / Youngho Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄





학술문화관(도서관)2층 학위논문

DEE 23080

휴대폰 전송







Interactive and intelligent service robots that can understand the environment in various situations, decide the actions required to achieve task goals, interact with humans, and perform diverse tasks that help human life has emerged in various forms along with the development of machine learning and deep learning. Among these service robots, home service robots used in domestic environments require 1) understanding the surrounding environment and knowing where to focus and 2) being able to infer what to do to achieve complex long-horizon task goals. Recent studies have been conducted to replace the traditional methodologies for making decisions for intelligent service robots with AI technologies. While some studies to train policies for performing given tasks through end-to-end learning manner have demonstrated successful results, they have shown limitations to the learning performance for long-horizon and interactive tasks. As a result, research has been developed using a modular approach, in which pre-trained modules specialized in some of the necessary functions of given tasks or classical methods are separately constructed and used to create a policy model. These modular policies infer the causality of the actions based on prior knowledge to improve task performance. In this paper, we propose a network that can learn behavior policies that perform complex and long-horizon tasks with high performance through end-to-end learning while reducing the effort of building separate modules for different goal tasks or robot functionalities. We propose an Online Subtask Prediction Network (OSPNet) that can predict subtasks needed at each time step to achieve a given task goal by inferring causal relationships between actions. OSPNet predicts subtask goals based on environmental information and previous subtask prediction history. We also propose a Subtask Aware Policy Network (SAPNet) that predicts appropriate actions for performing tasks based on predicted subtask goals. The proposed policy network is designed to perform complex long-term tasks through end-to-end learning successfully. We verify the feasibility and performance of the proposed network by applying it to a room rearrangement task, one of the long-horizon home service robot tasks, and conducting experiments.

다양한 환경에서 환경을 이해하여 작업 수행을 위한 행동을 판단하고 사람과 상호작용하여 인간의 삶을 도와주는 다양한 작업을 수행할 수 있는 로봇을 의미하는 인터랙티브하고 지능적인 서비스 로봇은 최근 기계 학습과 심층 학습등의 발전과 함께 다양한 형태로 등장하고 있다. 이러한 서비스 로봇 중에서 가정 환경에서 활용되는 홈 서비스 로봇이 주어진 홈 서비스 작업들을 성공적으로 수행하기 위해서는 1) 주변 환경을 이해하고 어느 부분에 집중해야 할지 알아야 하며 2) 길고 복잡한 작업 목표를 달성하기 위해서 현재 어떤 행동을 해야할 지 추론할 수 있어야 한다. 인공지능 기술들의 발전에 말미암아 지능형 서비스 로봇의 행동을 결정하는 정책을 기존 방법론에서 벗어나 인공지능 기술로 대체하고자 하는 연구들이 이루어져왔다. 종단간 학습을 통해 주어진 작업을 수행하기 위한 정책을 학습시키는 연구들은 일부 작업들에서는 성공적인 결과를 보였으나, 보다 긴 시간이 소요되는 작업과 환경과 상호작용이 포함되는 작업에 대해서는 학습 성능이 낮아지는 한계를 보였다. 이로 인해 주어진 작업에 필요한 일부 기능에 특화된 사전 학습된 모듈이나 고전적인 방식의 모듈을 별도로 구성하여 사용하여 정책 모델을 구성하는 모듈형 방식의 연구가 발전되었다. 이러한 방식의 정책 모델에는 사전 지식을 바탕으로 로봇이 취하는 행동의 인과관계를 추론하여 행동 순서를 추론하는 행동 계획 모듈을 통해 작업 성능을 향상시켰다. 본 논문에서는 이러한 점에 착안하여, 목표 작업이나 로봇의 기능에 따라 서로 다른 별개의 모듈을 설계해야 하는 수고를 줄이고 종단간 학습 방식을 통해 복잡하고 장기적인 작업에 대해서도 높은 성능을 보이는 행동 정책을 학습할 수 있는 네트워크를 제안한다. 우선, 행동간의 인과관계를 추론하기 위해 주어진 작업 목표를 수행하기 위해 매 시점에서 수행해야 하는 하위 작업을 예측할 수 있는 Online Subtask Prediction Network (OSPNet)을 제안한다. 해당 네트워크는 환경 정보와 지난 하위 작업 예측 이력을 바탕으로 현재 수행해야 할 하위 작업을 예측한다. OSPNet을 통해 하위 작업 목표를 예측함과 동시에, 하위 작업 목표를 바탕으로 작업 수행을 위한 적절한 행동을 예측하는 행동 정책 네트워크인 Subtask Aware Policy Netwok (SAPNet)을 제안한다. 제안하는 네트워크로 구성된 행동 정책은 종단간 방식 학습을 통해 복잡한 장기 작업을 성공적으로 수행하는 것을 목표로 한다. 홈 서비스 로봇 작업의 일종인 방 정리 작업에 적용하여 실험을 통해 제안하는 네트워크의 타당성과 성능을 검증하였다.


청구기호 {DEE 23080
형태사항 v, 53 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김영호
지도교수의 영문표기 : Jong-Hwan Kim
지도교수의 한글표기 : 김종환
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 49-52
주제 Service Robot
Embodied AI
Long-horizon Tasks
Imitation Learning
Task Planning
3D Environment Understanding
Reinforcement Learning
서비스 로봇
체화된 인공지능
장기 작업
모방 학습
작업 계획
3차원 환경 이해
강화 학습





이 주제의 인기대출도서