We present the problem of inverse constraint learning (ICL), which recovers constraints from demonstrations to autonomously reproduce constrained skills in new scenarios. However, ICL suffers from an ill-posed nature, leading to inaccurate inference of constraints from demonstrations. To figure it out, we introduce a transferable constraint learning (TCL) algorithm that jointly infers a task-oriented reward and a task-agnostic constraint, enabling the generalization of learned skills. Our method TCL additively decomposes the overall reward recovered from an inverse reinforcement learning into a task reward and its residual as soft constraints, minimizing policy divergence between task-oriented policies and the demonstration to obtain a transferable constraint. Evaluating our method and five baselines in three simulated environments, we show TCL outperforms state-of-the-art IRL and ICL algorithms, achieving up to a 72% higher task-success rates with accurate decomposition compared to the next best approach in novel scenarios. Further, we demonstrate the robustness of TCL on two real-world robotic tasks.
이 논문은 시연으로부터 제약 조건을 추론하여 새로운 환경에서 제약 조건이 적용된 동작을 재현하는 역제약 조건 학습의 문제를 다루었다. 기존 역제약 조건 학습 방법들로 시연으로부터 추론된 제약 조건은 다른 환경으로 전이 가능성이 부족한 한계가 있다. 이 문제를 해결하기 위해 작업 보상과 제약 조건을 동시에 추론하여 일반화할 수 있는 전이 가능한 제약 조건 학습 알고리즘인 TCL을 제안한다. TCL은 역강화학습을 통해 얻은 전체 보상을 작업 보상과 제약 조건으로 보상 분해한다. 이 때, 작업 보상으로 얻어지는 작업 정책과 시연 데이터 간의 행동 차이를 최소화하는 작업 보상과 제약 조건 쌍을 얻는다. 세 가지 시뮬레이션 환경에서 우리의 방법과 다섯 가지 비교 대상 방법들을 평가한 결과, TCL은 새로운 환경에서 차선책에 비해 최대 72% 더 높은 작업 성공률을 달성하여 최첨단 역강화학습 및 역제약 조건 학습 알고리즘보다 뛰어난 성능을 보였다. 또한 두 가지 실제 세계 로봇 실험에서 TCL의 실용성을 보여준다.