Inverse constraint learning and generalization by transferable reward decomposition = 전이 가능한 보상 분해를 통한 역제약 조건 학습 및 일반화
서명 / 저자 Inverse constraint learning and generalization by transferable reward decomposition = 전이 가능한 보상 분해를 통한 역제약 조건 학습 및 일반화 / Jaehwi Jang.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄





학술문화관(도서관)2층 학위논문

MAI 24027

휴대폰 전송







We present the problem of inverse constraint learning (ICL), which recovers constraints from demonstrations to autonomously reproduce constrained skills in new scenarios. However, ICL suffers from an ill-posed nature, leading to inaccurate inference of constraints from demonstrations. To figure it out, we introduce a transferable constraint learning (TCL) algorithm that jointly infers a task-oriented reward and a task-agnostic constraint, enabling the generalization of learned skills. Our method TCL additively decomposes the overall reward recovered from an inverse reinforcement learning into a task reward and its residual as soft constraints, minimizing policy divergence between task-oriented policies and the demonstration to obtain a transferable constraint. Evaluating our method and five baselines in three simulated environments, we show TCL outperforms state-of-the-art IRL and ICL algorithms, achieving up to a 72% higher task-success rates with accurate decomposition compared to the next best approach in novel scenarios. Further, we demonstrate the robustness of TCL on two real-world robotic tasks.

이 논문은 시연으로부터 제약 조건을 추론하여 새로운 환경에서 제약 조건이 적용된 동작을 재현하는 역제약 조건 학습의 문제를 다루었다. 기존 역제약 조건 학습 방법들로 시연으로부터 추론된 제약 조건은 다른 환경으로 전이 가능성이 부족한 한계가 있다. 이 문제를 해결하기 위해 작업 보상과 제약 조건을 동시에 추론하여 일반화할 수 있는 전이 가능한 제약 조건 학습 알고리즘인 TCL을 제안한다. TCL은 역강화학습을 통해 얻은 전체 보상을 작업 보상과 제약 조건으로 보상 분해한다. 이 때, 작업 보상으로 얻어지는 작업 정책과 시연 데이터 간의 행동 차이를 최소화하는 작업 보상과 제약 조건 쌍을 얻는다. 세 가지 시뮬레이션 환경에서 우리의 방법과 다섯 가지 비교 대상 방법들을 평가한 결과, TCL은 새로운 환경에서 차선책에 비해 최대 72% 더 높은 작업 성공률을 달성하여 최첨단 역강화학습 및 역제약 조건 학습 알고리즘보다 뛰어난 성능을 보였다. 또한 두 가지 실제 세계 로봇 실험에서 TCL의 실용성을 보여준다.


청구기호 {MAI 24027
형태사항 v, 34p : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 장재휘
지도교수의 영문표기 : Daehyung Park
지도교수의 한글표기 : 박대형
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 28-32
주제 Learning from demonstration
Inverse constraint learning
Constrained motion planning
시연 학습
역제약 조건 학습
제약된 동작 계획법





이 주제의 인기대출도서