서지주요정보
Tree search in partially observable markovian decision process with preference learning for object manipulation = 물체 조작을 위한 연속 공간 부분 관측 마르코프 결정 프로세스 및 선호 학습을 이용한 트리 탐색
서명 / 저자 Tree search in partially observable markovian decision process with preference learning for object manipulation = 물체 조작을 위한 연속 공간 부분 관측 마르코프 결정 프로세스 및 선호 학습을 이용한 트리 탐색 / Dongryung Lee.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041919

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 24030

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

To be deployed in a household environment to assist a human, a robot must be able to make decisions under partial observability. A robot can cope with the uncertainty of its observation by making sensing actions such as clearing an object in front of a shelf that occludes the target behind and estimating its shape. Partially Observable Markovian Decision Process (POMDP) is the principled framework that enables the robot to perform such information-gathering actions. However, robot manipulation domains involve high-dimensional and continuous observation and action spaces, yet most POMDP solvers have been limited to discrete spaces. Recently, POMCPOW, a continuous POMDP solver that resorts to sampling and progressive widening, has been proposed, yet it is too slow to be practical in robot manipulation problems that incorporate camera observations and multiple objects. To facilitate a more efficient search, we propose a framework that learns to guide the search from past planning experience. Our method specifically adopts preference learning that can leverage both success and failure trajectories to learn effective heuristics for search even with a small number of past experiences. We demonstrate the efficacy of our framework in several continuous partially observable robotics domains, such as light-dark room domain and real-world robot manipulation.

가정 환경에서 인간을 돕기 위해서 로봇은 관측이 완전하지 않더라도 의사결정을 수행할 수 있어야 한다. 가령, 선반 위에 다른 물체가 목표 물체를 가리고 있을 때, 로봇은 앞에 놓인 물체를 치우는 등의 행위들을 통해 관측의 불확실성을 줄일 수 있으며, 이러한 문제들은 부분 관측 마르코프 결정 프로세스 (Partially Observable Markovian Decision Process, POMDP)로 모델링될 수 있다. 그러나, 로봇의 물체 조작 작업 에 있어서 관측 및 행동 공간은 고차원적이고 연속적인데 반해, 기존의 POMDP 해결 알고리즘들은 이산 공간만을 다룰 수 있어서 적용에 어려움이 있었다. 최근, 연속 공간의 POMDP를 위해 샘플링과 점진적 확대 (Progressive Widening)을 활용한 POMCPOW라는 알고리즘이 제시되었지만, 2차원 이미지 형식의 관측과 다수의 물체를 조작하는데 있어서 매우 느리다는 단점이 있다. 따라서, 이 논문에서는 더 효율적인 탐색을 위해 과거의 경험을 활용하여 트리 탐색을 가이드하는 방법을 제시하고자 한다. 제시된 알고리즘은 선호 학습을 활용하여 적은 양의 과거 경험을 이용하여도 효과적인 가이드를 가능케하며, 이를 Light-dark room 문제나 실제 로봇의 물체 조작 문제등으로 통해 적은 데이터로도 더 높은 성공률을 달성함을 보였다.

서지기타정보

서지기타정보
청구기호 {MAI 24030
형태사항 iii, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이동령
지도교수의 영문표기 : Beomjoon Kim
지도교수의 한글표기 : 김범준
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 21-23
주제 POMDP
POMCPOW
Preference learning
Object manipulation
부분 관측 마르코프 결정 프로세스
선호학습
물체 조작
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서