As network architecture becomes complex and the user requirement gets diverse, the role of ecientnetwork resource management becomes more important. However, existing network scheduling algo-rithms such as the max-weight algorithm suer from poor delay performance. In this paper, we presenta reinforcement learning-based network scheduling algorithm that achieves both optimal throughput andlow delay. To this end, We rst formulate the network optimization problem as a dynamic programmingproblem. Then we introduce a new state-action value function called W-function and develop a rein-forcement learning algorithm called W-learning that guarantees little performance loss during a learningprocess. Finally, via simulation, we verify that our algorithm shows delay reduction of up to 40.8%compared to the max-weight algorithm over various scenarios.
본 논문에서는 최적의 처리량과 낮은 지연을 동시에 달성 할 수있는 강화 학습 기반 네트워크 스케줄링 알고리즘을 제시한다. 이를 위해 우선 네트워크 최적화 문제를 동적계획법 형태로 변형 하였다.그런 다음 W-function이라는 새로운 상태-행동 함수와 학습 과정에서 최소 성능을 보장하는 W-learning이라는 강화 학습 알고리즘을 제안하였다. 마지막으로, 시뮬레이션을 통해 우리 알고리즘이 max-weight 알고리즘에 비해 최대 40.8 %의 지연 감소를 달성 할 수 있음을 보였다.