This paper proposes novel reinforcement learning-based routing techniques for various practical tasks. Firstly this research proposes learning $\textit{collaborative policies}$ (LCP), which is a novel hierarchical reinforcement learning method for traveling salesman problem (TSP) and its' variants. Then, this paper extends TSP to hardware routing problems to optimize two-DIMM-per-Channel (2DPC) and PAM-4 interconnection. For hardware routing problems, this paper suggests a novel imitation learning framework. Extensive experiments show our method significantly outperforms baseline reinforcement learning methods.
이 연구는 다양한 실용적인 라우팅 문제를 해결하기 위한 새로운 강화학습 방법론들을 제안한다. 먼저, 이 연구는 $\textit{협동 정책 학습}$ 이라는 새로운 계층적 강화학습 방법론을 제안하여 외판원 문제와 그 관련 문제를 해결한다. 그 후, 이 연구는 외판원 문제를 two-DIMM-per-Channel (2DPC) 와 PAM-4 연결을 최적화 하기 위해, 하드웨어 라우팅 문제로 확장한다. 하드웨어 라우팅 문제를 위해서, 이 연구는 새로운 모방학습 알고리즘을 제안한다. 다양한 실험을 통해 제안된 방법론들이 기존 강화학습 방법들을 뛰어 넘는 다는 것을 입증하였다.