Optimizing for user quality of experience (QoE) is a prevailing approach to improving Internet video streaming. The effectiveness of adaptive bitrate (ABR) algorithms is often measured by a weighted combination of conflicting objectives, such as video quality, delay, and smoothness. We highlight the subjectivity of QoE reward formulation, which prevails, but results in various and discrete QoE metrics that assume a correct knowledge of user preferences. We propose MARVEL (A multi-objective approach to reinforcement “video experience” learning), a framework for reformulating QoE as a generalized multi-objective problem with dynamic weights, discarding the assumption of prior knowledge of user preferences. We employ a multi-objective reinforcement learning (MORL) based module within the framework, demonstrating an applied solution that adapts to dynamic user preferences (both across users and within the same session). In an experimental trial with randomized across possible user preferences weights, we show MARVEL learned the frontier solutions of different preferences on the two-dimensional metric. MARVEL outperforms previous RL-based approaches to ABR by 16% ∼ 39% in both adaptations and single objective analysis.
사용자 경험 품질(QoE)을 위한 최적화는 인터넷 비디오 스트리밍 개선에 대한 일반적인 접근방식이다. 적응 비트레이트(ABR) 알고리즘의 효과는 종종 비디오 품질, 지연 및 부드러움과 같은 상충되는 목표의 가중 조합에 의해 측정된다. 우리는 QoE 보상 제정의 주관성을 강조하는데, 이는 우세하지만, 사용자 선호에 대한 정확한 지식을 가정하는 다양하고 이산적인 QoE 메트로 이어진다. 사용자 선호에 대한 사전 지식의 가정을 버리고 동적 가중치로 QoE를 일반화된 다목적 문제로 개편하기 위한 프레임워크인 MARVEL("비디오 경험" 학습을 강화하기 위한 다목적 접근법)를 제안한다. 프레임워크 내에서 다목적 강화 학습(MORL) 기반 모듈을 채택하여 동적 사용자 선호(사용자 전체 및 동일한 세션 내에서)에 적응하는 적용 솔루션을 제시한다. 가능한 사용자 선호 가중치에 걸쳐 무작위화된 실험에서 우리는 MARVEL이 2차원 메트릭스에 대해 서로 다른 선호도의 프런티어 솔루션을 학습했음을 보여준다. MARVEL은 ABR에 대한 기존 RL 기반 접근방식을 적응과 단일 목표 분석에서 모두 16%~39% 앞섰다.