The future mobile infrastructure is expected to become a multi-resource environment where various re-
sources participate in user's services. Moreover, as users' needs become diversied, network manager
requires algorithms to allocate resources eciently and fairly. However managing multi-resource envi-
ronment is challenge due to time varying nature and complex correlation among service requirement and
existing algorithm have shown poor performance in metric like queuing delay. In this paper, we aim to
overcome these limitations through learning based algorithm. We modeled the multi-resource manage-
ment problem in multi-resource environment with computing/networking resources as utility maximiza-
tion problem, and reformulate the problem to appropriate form to apply the reinforcement learning. As
a result, the algorithm we proposed can achieve utility optimal without any trade-o parameter and does
not cause high queuing delay unlike existing algorithms.
미래 모바일 인프라 환경은 다양한 자원이 사용자의 서비스에 참여하는 다중 자원 환경이 될 것으로 예상되고 있다. 또한 사용자의 요구사항이 다양화 됨에 따라 네트워크 관리자는 자원을 효율적이고 공평하게 할당하는 알고리즘을 필요로 하고 있다. 하지만 다중 자원 환경은 시변하는 특성과 서비스 요구사항 간의 복잡한 상관 관계로 인해 기존 자원 관리 알고리즘들은 대기열 지연과 같은 측면에서 좋지 않은 성능을 보여왔다. 본 연구에서는 이러한 한계점을 학습 기반 알고리즘을 통해 극복하고자 하였다. 네트워크 자원과 컴퓨팅 자원이 존재하는 환경에서 다중 자원 관리 문제를 네트워크 만족도 최대화 문제로 모델링 하고 강화 학습 기반 알고리즘을 적용할 수 있도록 적절히 문제를 변형 하였다. 그 결과 본 연구에서 제안하는 알고리즘은 트레이드 오프 변수 없이 최적의 만족도 성능을 달성할 수 있으며, 기존 알고리즘과 달리 높은 대기열 지연을 유발하지 않는다.