Safe and reliable electricity transmission in power grids is crucial for modern society. It is thus quite natural that there has been a growing interest in the automatic management of power grids, exemplified by the Learning to Run a Power Network Challenge (L2RPN), modeling the problem as a reinforcement learning (RL) task. However, it is highly challenging to manage a real-world scale power grid, mostly due to the massive scale of its state and action space. In this paper, we present an off-policy actor-critic approach that effectively tackles the unique challenges in power grid management by RL, adopting the hierarchical policy together with the afterstate representation. Our agent ranked first in the latest challenge (L2RPN WCCI 2020), being able to avoid disastrous situations while maintaining the highest level of operational efficiency in every test scenario. This paper provides a formal description of the algorithmic aspect of our approach, as well as further experimental studies on diverse power grids.
전력망에서 안전하고 신뢰할수 있는 전력 전송은 현대 사회에서 매우 중요하다. 따라서 전력망 전송 문제를 강화 학습으로 모델링하는 전력망 운영 관리 대회와 같이, 전력망의 자동 관리에 대한 관심이 증가하고 있는 것은 매우 자연스러운 일이다. 그러나 상태 및 작업 공간의 규모가 엄청나기 때문에 실제 규모의 전력망을 관리하는 것은 매우 어렵다. 이 논문에서 우리는 이후 상태 표현과 함께 계층적 폴리시를 활용하여, 전력망 관리의 고유한 문제를 효과적으로 해결하는 오프-폴리시 액터 크리틱 방법을 제안한다. 우리의 에이전트는 모든 테스트 시나리오에서 최고 수준의 운영 효율성과 안전성을 보여주며 최신 전력망 운영 관리 대회에서 1위를 차지했다. 이 논문은 우리의 알고리즘뿐만 아니라 다양한 전력망에 대한 추가 실험에 대한 설명을 제공한다.