Modular Reinforcement Learning, where the agent is assumed to be morphologically structured as a graph, for example composed of limbs and joints, aims to learn a policy that is transferable to a structurally similar but different agent. Compared to traditional Multi-Task Reinforcement Learning, this promising approach allows us to cope with inhomogeneous tasks where the state and action space dimensions differ across tasks. Graph Neural Networks are a natural model for representing the pertinent policies, but a recent work has shown that their multi-hop message passing mechanism is not ideal for conveying important information to other modules and thus a transformer model without morphological information was proposed. In this work, we argue that the morphological information is still very useful and propose a transformer policy model that effectively encodes such information. Specifically, we encode the morphological information in terms of the traversal-based positional embedding and the graph-based relational embedding. We empirically show that the morphological information is crucial for modular reinforcement learning, substantially outperforming prior state-of-the-art methods on multi-task learning as well as transfer learning settings with different state and action space dimensions.
모듈 강화학습은 그래프 형태의 에이전트가 구조적으로 비슷하지만 다른 에이전트에 전이될 수 있는 정책을 학습하는 것을 목표로 한다. 전통적인 다중 작업 강화학습과 비교하여, 이러한 접근은 상태-행동 공간 차원이 불균일한 상황에 대처할 수 있다. 그래프 신경망은 그래프 구조를 반영한 정책을 표현하기에 자연스러운 모델이지만, 최근의 연구는 멀티홉 메시지 전달 매커니즘이 다른 모듈에 중요한 정보를 전달하기에 부족함을 지적하고 구조 정보를 배제한 트랜스포머 모델을 제안했다. 본 논문에서는 구조 정보를 효과적으로 활용하기 위해 트리 순회 기반의 위치 임베딩과 그래프 기반의 관계 임베딩을 통한 구조 임베딩을 사용하는 트랜스포머 모델을 제안한다. 그리고, 제안한 모델이 기존의 방법론보다 다중 작업 학습과 전이 학습에서 성능이 향상되는 것을 통해 구조 정보가 모듈 강화학습에 중요하다는 것을 실험적으로 보인다.