(A) study on deep reinforcement learning-based dynamic enhanced inter-cell interference coordination scheme in dense heterogeneous networks = 밀집 이종 네트워크에서 심층 강화학습 기반의 동적 셀간 간섭 제어 기법 연구
서명 / 저자 (A) study on deep reinforcement learning-based dynamic enhanced inter-cell interference coordination scheme in dense heterogeneous networks = 밀집 이종 네트워크에서 심층 강화학습 기반의 동적 셀간 간섭 제어 기법 연구 / Hyungwoo Choi.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄





학술문화관(도서관)2층 패컬티라운지(학위논문)

DICE 21002

휴대폰 전송







In order to overcome the problem of improving spectrum efficiency, which has reached a fundamental limit in a situation where wireless network traffic increases, various technologies such as massive multiple-input and multiple-output, mm-Wave, beamforming, have emerged. Cell densification is also an inevitable trend for this purpose, and the cells of mobile communication are increasingly dense and irregular. The heterogeneous network refers to a network in which low-power nodes (LPNs) are called small cells existing on top of an existing macrocell. A dense heterogeneous network with more small cells attracts attention as an economically practical solution to improve network capacity in 5G networks. However, there are still critical technical problems to be solved, such as Interference Coordination (IC) and Self-organizing network (SON) to improve spectral efficiency and energy efficiency. Meanwhile, the 5G network has three core service characteristics represented by mobile broadband service (eMBB), ultra-reliability and low-latency service (URLLC), and large-scale Internet of Things (mMTC) service. To this end, 13 performance targets that the 5G network must satisfy are defined, and among them, the eight-core performances are peak data rate, user experienced data rate, spectrum efficiency, mobility, latency, connection density, energy efficiency, and area traffic capacity. In the 5G network, services with various requirements can exist by combining the three core service characteristics. Accordingly, it is necessary not only to consider how to satisfy the user's QoS requirements but also to evaluate whether the user's QoS requirements are well satisfied. Therefore, we study a load balancing technique that maximizes the QoS satisfaction ratio in dense heterogeneous networks (QoS satisfaction rate) and further research the enhanced inter-cell interference (eICIC) method considering the QoS satisfaction ratio and the energy efficiency. In a dense heterogeneous network, as the distance between the BS and the user decreases, the radio channel quality and the data rate are improved. On the other hand, as the distance between small cells decreases, the interference between cells and the operation for load balancing affect the performance of the other BSs. To solve this problem, a cooperative multi-agent load balancing technique based on online reinforcement learning is proposed. The proposed method operates with the goal of maximizing the QoS satisfaction ratio, and a QoS satisfaction indicator (QSI) is defined to evaluate the QoS satisfaction. QSI is an index that can confirm whether the current user is sufficiently guaranteed QoS through the user's requirements defined by the data rates, the maximum delay bound, and the delay violation probability. Using this indicator, the QSI utility, which can represent the utility of the network in terms of QoS, is defined. In the proposed method, load balancing is achieved by adjusting the Bias offset (BO) parameter of Cell range expansion (CRE), a component of eICIC, and the network environment is modeled as a Markov decision process (MDP) for online reinforcement learning. MDP is designed to define the state of each cell through the previously defined QSI statistics. Each cell has BO as action and has a QSI utility value as a reward according to the action. On the other hand, a coordination graph (CG) was used to represent the cooperative relationship of neighboring cells. The Q function was decomposed according to the cooperative relationship in a given CG and expressed as a cooperative Q function according to the contribution of each cell. When the Q function of each cell and the cooperative Q function are given, a message-passing-based algorithm is also proposed to find the optimal behavior through cooperation. Therefore, cooperative multi-agent online reinforcement learning operates so that the sum of the rewards of each cell, that is, the sum of the QSI utility, is maximized, and in the end, performs load balancing in which the users who are guaranteed QoS in each cell are maximized. Through simulation, the effectiveness of the proposed method was verified in terms of throughput, QoS satisfaction rate, and fairness. As energy consumption increases as the number of small cells increases in a dense heterogeneous network, we propose an energy-efficient eICIC technique based on deep reinforcement learning for energy-efficient network operation. The proposed method utilizes deep reinforcement learning to determine the optimal values of all parameters of eICIC (ABS ratio, transmission power intensity of MBS in ABS, BO, channel quality indicator (CQI) threshold for classifying victim UE) and sleep mode. To find the optimal values, we first model all parameters of eICIC, SINR, and instantaneous service speed according to sleep mode and energy consumption of BSs. In addition, the energy-utility efficiency function is defined so that the QSI utility and energy consumption of the network can be considered together. The energy-utility efficiency function is designed so that the influence of QSI utility or energy efficiency varies according to weighting parameters. The MDP model is designed to apply deep reinforcement learning. At this time, the state is defined according to QSI statistics, all parameters and sleep mode of eICIC are defined as the behavior of each BS, and it is designed to have energy-utility efficiency as a reward. It is designed to find the optimal behavior of each BS through the well-known deep q-network (DQN). A DQN agent exists for each BS. At this time, the input of DQN is defined as the state vector of the BSs so that multiple agents can share the environment, and training is performed by having the energy-utility efficiency of the entire network as a reward. Through simulation, we verify the effectiveness of the proposed method in terms of energy-utility efficiency, energy efficiency, and QoS satisfaction rate according to learning convergence and weighting parameters. Through the previously proposed methods, we are able to implement the eICIC method that is energy efficient and maximizes the QoS satisfaction rate in a dense heterogeneous network, and by applying reinforcement learning, a SON-enabled network can be realized. Through this thesis, it is expected that energy efficiency can be improved while maximally satisfying QoS requirements of various users in 5G network.

무선 네트워크 트래픽이 증가하는 상황에서 근본적인 한계에 이른 스펙트럼 효율 향상 문제를 극복하고자 대량 다중 입출력, mm-Wave, 빔 포밍, 등과 같은 여러 기술들이 등장하였다. 셀의 소형화 또한 이를 위한 불가피한 트렌드로서, 이동 통신의 셀은 점점 더 밀집화되고, 불규칙해지고 있는 추세이다. 이종 네트워크는 기존의 매크로 셀 위에 스몰 셀이라고 불리우는 저전력 노드들이 (LPN) 존재하는 네트워크를 일컫는다. 스몰 셀들이 더욱 밀집된 밀집 이종 네트워크는 5G 네트워크에서 네트워크 용량을 향상시키기 위한 경제적이로 효과적인 솔루션으로 각광받고 있다. 하지만 여전히 스펙트럼 효율성 및 에너지 효율성을 개선하기 위해 Interference Coordination (IC), Self-organizing network (SON) 등 해결해야할 중요한 기술적인 문제가 있다. 한편, 5G 네트워크는 모바일 광대역 서비스 (eMBB), 초신뢰성 및 저지연 서비스 (URLLC), 대규모 사물 인터넷 서비스 (mMTC)로 대표되는 3대 핵심 서비스 특성을 가지고 있다. 이를 위해 5G 네트워크가 만족해야 하는 13개의 성능 목표값들을 정의하고 있으며, 그 중에 8대 핵심 성능은 Peak data rate, User experienced data rate, Spectrum efficiency, Mobility, Latency, Connection density, Energy efficiency, Area traffic capacity이 포함되어 있다. 5G 네트워크는 3개의 핵심 서비스 특성을 조합함으로써 요구사항이 다양한 서비스가 존재할 수 있다. 이에 따라 사용자의 QoS 요구사항을 어떻게 만족시킬지에 대한 고민 뿐만 아니라, 사용자의 QoS 요구사항이 잘 만족되고 있는지 평가할 수 있는 방법 또한 필요하다. 따라서 밀집 이종 네트워크 내의 QoS를 만족하는 사용자의 비율 (QoS 만족율)이 최대화하는 부하 분산 기술을 연구하였고, 더 나아가 QoS 만족율 뿐만 아니라 에너지 효율성도 함께 고려한 Enhanced inter-cell interference (eICIC) 방법을 연구를 진행하였다. 밀집 이종 네트워크는 BS와 사용자 사이의 거리가 가까워짐에 따라 무선 채널 품질이 개선되고 데이터 전송율도 향상되지만, 한편으로 스몰 셀간의 거리도 가까워지면서 셀 간 간섭 및 부하 분산을 위한 동작이 BS들 서로에게 미치는 영향도 커지게 된다. 이 문제를 해결하기 위하여 온라인 강화 학습 기반의 협력하는 다중 에이전트 부하 분산 기법을 제안 하였다. 제안된 기법은 QoS 만족율을 최대화 하는 것을 목표로 동작하며, QoS 만족도를 평가하기 위해 QoS satisfaction indicator (QSI)를 정의하였다. QSI는 데이터 전송률, 최대 지연 시간, 지연 시간 위반 확률로 정의되는 사용자의 요구사항을 통해, 현재 사용자가 QoS를 충분히 보장받고 있는지를 확인할 수 있는 지표이다. 이 지표를 활용하여, 네트워크의 Utility를 QoS 측면에서 나타낼 수 있는 QSI utility를 정의하였다. 제안한 방식에서 부하 분산은 eICIC의 한 요소인 Cell range expansion (CRE)의 Bias offset (BO) 파라미터를 조정함으로써 달성하였으며, 온라인 강화 학습을 위해 네트워크 환경을 Markov decision process (MDP)로 모델링하였다. MDP는 앞서 정의한 QSI의 통계를 통해 각 셀의 상태를 정의하고, 각 셀들은 BO를 행동으로 가지며, 액션에 따라 QSI utility값을 보상으로 갖도록 설계하였다. 한편, 이웃한 셀들의 협력 관계를 나타내기 위해 Coordination graph (CG)를 활용하였고, 주어진 CG에서 협력 관계에 따라 Q함수를 분해하고, 각 셀들의 기여도에 따라 협력 Q함수로 나타내었다. 각 셀의 Q함수와 협력 Q함수가 주어졌을 때, 협력을 통해 최적의 행동을 찾아낼 수 있도록 메세지 전달 기반의 알고리즘도 제안하였다. 따라서 협력 다중 에이전트 온라인 강화 학습은 각 셀들의 보상의 합, 즉 QSI utility의 합이 최대가 되도록 행동하게 동작하여 결국 각 셀에 QoS를 보장받는 사용자들이 최대가 되는 부하 분산을 수행한다. 모의 실험을 통해 처리량, QoS 만족율 및 공정성 측면에서 제안된 기법의 효과를 검증하였다. 밀집 이종 네트워크에서 소형셀이 많아짐에 따라 에너지 소비량도 증가하기 때문에, 이에 따라 에너지 효율적인 네트워크 운용을 위해 심층 강화 학습 기반의 에너지 효율적인 eICIC 기법을 제안하였다. 제안된 기법은 심층 강화 학습을 활용하여 eICIC의 모든 파라미터들(ABS 비율, ABS에서 MBS의 전송 파워 세기, BO, 희생 UE를 분류하기 위한 Channel quality indicator (CQI) threshold)과 sleep mode의 최적값을 찾는다. 이를 위해 먼저 eICIC의 모든 파라미터들과 sleep mode에 따른 SINR 및 순간 서비스 속도와 BS들의 에너지 소비량을 모델링 하였다. 또한 네트워크의 QSI utility와 에너지 소비량을 함께 고려할 수 있도록 Energy-utility efficiency 함수를 정의하였다. Energy-utility efficiency 함수는 가중 파라미터에 따라 QSI utility 또는 에너지 효율의 영향력이 달라지도록 설계하였다. 심층 강화 학습을 적용할 수 있도록 MDP 모델을 설계하였으며, 이때 상태는 QSI 통계에 따라 정의되며, eICIC의 모든 파라미터들과 sleep mode는 각 BS들의 행동으로 정의하였고, Energy-utility efficiency를 보상으로 갖도록 설계하였다. 잘 알려진 Deep q-network (DQN)을 통해 각 BS들의 최적의 행동을 찾도록 설계하였다. 각 BS들에 대해 DQN 에이전트가 존재하며, 이 때 다중 에이전트들이 환경을 공유할 수 있도록 DQN의 인풋은 BS들의 상태 벡터로 정의하였고, 네트워크 전체의 Energy-utility efficiency를 보상으로 갖도록하여 학습을 시켰다. 모의 실험을 통해 학습 수렴 여부와 가중 파라미터에 따른 Energy-utility efficiency 및 에너지 효율성과 QoS 만족률 측면에서 제안된 기법의 효과를 검증하였다. 앞서 제안된 기법들을 통해 밀집 이종 네트워크에서 에너지 효율적이면서 QoS 만족율을 최대화할 수 있는 eICIC 기법을 구현할 수 있었고, 강화 학습을 적용함으로써 SON이 가능한 네트워크를 실현할 수 있었다. 본 학위 논문을 통해 5G 네트워크에서 다양한 사용자의 QoS 요구사항을 최대한 만족시키면서 에너지 효율를 제고할 수 있을것으로 기대된다.


청구기호 {DICE 21002
형태사항 v, 100 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최형우
지도교수의 영문표기 : Jun Kyun Choi
지도교수의 한글표기 : 최준균
공동지도교수의 영문표기 : Hong-Shik Park
공동지도교수의 한글표기 : 박홍식
수록잡지명 : "A Cooperative Online Learning-Based Load Balancing Scheme for Maximizing QoS Satisfaction in Dense HetNets". IEEE Access, Early Access, Early Access(2021)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 정보통신공학과,
서지주기 References : p. 89-97
QR CODE qr code