서지주요정보
On developing a realtime learning-based control framework for network resource management = 네트워크 자원 관리를 위한 실시간 학습 기반 제어 프레임워크 개발
서명 / 저자 On developing a realtime learning-based control framework for network resource management = 네트워크 자원 관리를 위한 실시간 학습 기반 제어 프레임워크 개발 / Jeongmin Bae.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041586

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23107

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As network environments become more complex and user demands become more diverse, the limitations of rule-based network management techniques are becoming apparent. Therefore, learning-based network resource management techniques that can learn optimal policies without human intervention have been actively researched in recent years. However, under time-varying network environments, policies learned in an offline manner with limited environments cannot guarantee optimal performance. In this study, we investigate realtime learning-based control for network resource management that can learn the given network environment quickly and data-efficiently with minimal performance loss. Specifically, we propose a realtime learning-based control framework for the downlink scheduling algorithm and a realtime learning-based control framework for the congestion control technique. We first present a reinforcement learning-based network scheduling algorithm for a single-hop downlink scenario that achieves throughput optimality and converges to minimal delay. To this end, we first formulate the network optimization problem as a Markov decision process (MDP) problem. Then, we introduce a new state-action value function called $Q^+$-function and develop a reinforcement learning algorithm called $Q^+$-learning with UCB (Upper Confidence Bound) exploration which guarantees small performance loss during a learning process. We also derive an upper bound of the sample complexity in our algorithm, which is more efficient than the best known bound from Q-learning with UCB exploration by a factor of $\gamma^2$ where $\gamma$ is the discount factor of the MDP problem. Furthermore, we propose a novel realtime learning-based control framework for downlink scheduling under time-varying environments. We first transform a problem with the objective of optimal throughput and queueing delay under time-varying environments into a piece-wise non-stationary MDP problem and design modules needed to enable real-time learning with the transformed problem. Specifically, we propose a novel method to leverage prior experiences in order to learn new optimal policies more efficiently compared to the random exploration algorithm. Finally, we consider a realtime learning-based control framework for congestion control. Though ideas of exploiting learning-based controls have been tried, none of them has succeeded in realizing such an ideal control due to the following fundamental challenges: 1) While time-varying network states require a learning-based control to keep learning the environment and optimal actions, it is unknown how to let it learn the optimal action without performing poorly during the learning process, and 2) it is under-explored how to identify and classify such time-varying states that have not been encountered before (i.e., unseen environments) in a detailed manner, which is crucial for learning the environment continually. To provide an answer to these challenges, in this work, we propose a new learning-based congestion control, namely CLINE, with the following two techniques: 1) CLINE predicts best-projected actions under an unseen environment by exploiting and extrapolating its inductive bias on the mapping structure between current observable network states and optimal states, which is learned during its offline training process with a finite set of environments and further improved by an online calibration process. 2) CLINE identifies and classifies the given network much more precisely by utilizing packet timing information and makes it possible for the mapping structure to expand by accumulating the experiences in each unseen environment over time.

네트워크 환경이 복잡해지고 사용자의 요구 사항이 다양해짐에 따라 기존의 룰 기반 네트워크 관리 기법은 한계가 있음이 드러나고 있다. 이에 최근 사람의 개입 없이 스스로 최적의 정책을 학습하는 학습 기반 네트워크 자원 관리 기법이 활발하게 연구되어 오고 있다. 그러나 시시각각 변하는 네트워크 환경에서 제한된 환경의 오프라인 방식으로 학습된 정책은 최적의 성능을 보장할 수 없다. 본 연구에서는 성능 손실을 최소화하면서 주어진 네트워크 환경을 빠르고 효율적으로 학습할 수 있는 네트워크 자원 관리를 위한 실시간 학습 기반 제어에 대해 살펴본다. 구체적으로는 다운링크 스케줄링 알고리즘과 혼잡 제어 기법을 위한 실시간 학습 기반 제어 프레임워크를 제안한다. 먼저 단일 홉 다운링크 시나리오에서 처리량 최적화를 달성하고 최소 지연으로 수렴하는 강화학습 기반 네트워크 스케줄링 알고리즘을 제시한다. 이를 위해 먼저 네트워크 최적화 문제를 마코프 결정 프로세스 문제로 정의하고 $Q^+$-함수라는 새로운 상태-행동 가치 함수를 도입하여 학습 과정에서 최소 손실을 보장하는 UCB (Upper Confidence Bound) 탐사를 통한 $Q^+$-학습이라는 강화학습 알고리즘을 개발한다. 또한, 본 논문에서는 위 알고리즘의 샘플 복잡도 상한값을 유도하고 기존 UCB 탐사를 사용한 Q-학습의 상한값보다 마코프 결정 과정에서 정의되는 감가율 $\gamma$에 대해 $\gamma^2$만큼 더 효율적임을 보인다. 또한 시간에 따라 변하는 환경에서 다운링크 스케줄링을 위한 새로운 실시간 학습 기반 제어 프레임워크를 제안한다. 먼저 시변 환경에서 최적의 처리량과 큐잉 지연을 목표로 하는 문제를 조각 단위의 비정적 MDP 문제로 변환하고, 변환된 문제로 실시간 학습을 가능하게 하는 데 필요한 모듈을 설계한다. 특히, 무작위 탐색 알고리즘에 비해 새로운 최적 정책을 보다 효율적으로 학습하기 위해 이전 경험을 활용하는 새로운 방법을 제안합한다. 마지막으로 혼잡 제어를 위한 실시간 학습 기반 제어 프레임워크를 제안한다. 최근까지 심층 강화 학습과 같은 학습 기반 제어를 활용하는 아이디어가 시도되었지만, 다음과 같은 한계로 인해 이상적인 제어를 실현하는 것을 성공하지 못했다. 1) 시간에 따라 변화하는 네트워크 상태는 학습 기반 제어가 환경과 최적의 정책을 계속 학습해야 하는데, 학습 과정에서 심각한 성능 손실을 일으키지 않고 최적의 정책을 학습하는 방법에 대해 연구가 충분히 이루어지지 않았다. 2) 지속적으로 새로운 환경을 학습 해 나가는 데에 중요한 이전에 경험해 보지 못한 시변하는 환경을 어떻게 구체적으로 식별하고 분류할 것인지에 대한 방법이 충분히 연구되지 않았다. 본 논문에서는 이러한 문제에 대한 해결책으로 다음 두 가지 기술을 기반으로 하는 새로운 학습 기반 혼잡 제어인 CLINE을 제안한다: 1) CLINE은 오프라인 훈련 과정에서 유한한 환경 집합에 대해 학습 된 현재 관측 가능한 네트워크 상태와 최적 상태 간의 매핑 구조에 대한 귀납적 편향을 이용 및 확장하여 최적의 컨트롤을 예측하고, 온라인 보정 과정에서 이를 더 개선한다. 2) CLINE은 패킷 타이밍 정보를 활용하여 주어진 네트워크를 더욱 정확하게 식별하고 분류하며, 학습과정에서 겪어보지 못한 환경이 주어질 때 해당 환경에서의 경험을 시간이 지남에 따라 축적하여 매핑 구조를 확장할 수 있게 한다.

서지기타정보

서지기타정보
청구기호 {DEE 23107
형태사항 vi, 87 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 배정민
지도교수의 영문표기 : Song Chong
지도교수의 한글표기 : 정송
수록잡지명 : "Learning to Schedule Network Resources Throughput and Delay Optimally Using $Q^+$-Learning". IEEE/ACM Transactions on Networking, v. 29, no. 2, pp. 750 - 763
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 80-85
주제 Realtime learning
Reinforcement learning
Continual learning
Network resource management
Congestion control
실시간 학습
강화 학습
연속 학습
네트워크 자원 관리
혼잡 제어
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서