As the network structure becomes more complex and the requirements of network users get diverse, autonomous network technology using artificial intelligence becomes more important. However, successful autonomous network requires a large amount of learning data, which is difficult to collect due to personal privacy issues. In this paper, we propose a method that can achieve the same learning performance with less learning data in the reinforcement learning-based network scheduling algorithm that can achieve minimum average delay. Generative Adversarial Networks (GAN) algorithm was used to generate virtual data similar to the real training data. It was shown that only with the channel data and the arrival data of the network users, we can generate the training data for reinforcement learning regardless of the scheduling policy. Finally, the simulation shows that when using virtual data for training, the amount of training data to achieve the same learning performance was reduced by about 48.7% compared to using only real data for training.
네트워크 구조가 복잡해지고 네트워크 사용자의 요구사항이 다양해짐에 따라, 인공 지능을 이용한 자율네트워크 기술이 주목을 받고 있다. 하지만 성공적인 자율 네트워크 학습을 위해서는 많은 양의 학습 데이터가 필요한데, 개인의 사생활 문제 등으로 인해 이러한 네트워크 데이터를 수집하기 어려운 점이 있다. 본 논문에서는 평균 지연 시간을 최소화하는 강화 학습 기반 네트워크 제어에서 좀 더 적은 학습데이터를 갖고도 동일한 학습 성능을 내는 방법을 제시한다. 실제 학습 데이터와 비슷한 가상의 데이터를 생성하기 위해 데이터 생성에서 뛰어난 성능을 보인 생성적 적대 신경망 알고리즘을 사용하였으며 스케줄링 정책에 상관없이 각 네트워크 사용자의 채널 상태와 도착 데이터만으로도 강화 학습에 필요한 학습 데이터를 생성해 낼 수 있음을 보인다. 마지막으로 시뮬레이션을 통해 가상 데이터를 학습에 사용했을 때, 실제 데이터만을 학습에 사용했을 때에 비해 동일한 학습 성능을 내기 위한 학습 데이터의 양이 약 48.7% 줄었음을 보인다.