We address a veiled expected reward multi-slot machine problem. Object of this problem is to select the
highest expected reward arm which is called optimal arm. This problem is usually called Multi-armed
Bandit problem which is famous for reinforcement learning problem about exploration and exploitation
problem. In order to extend the MAB problem, we consider Unimodality correlation between arm and
additionally observable conditions. In the proposed framework, we prove the asymptotic fundamental
limit and suggest an algorithm which is achieving limit.
이 논문에서는 기대이익을 모르는 여러개의 슬롯머신이 존재하는 상황에서 가장 기대 이익이 높은 슬롯
머신을 선택하는 문제에 관한 연구를 다루고 있다. 이는 Multi-armed Bandit(MAB)으로 불리는 대표적인
강화학습의 문제로 탐사와 이용간의 균형을 맞추는데 목적을 두고 있다. 특히 이 논문에서는, 기본적인 MAB
문제에 각 슬롯머신간의 단봉 상관관계와 추가적인 관찰을 할 수 있는 기회가 주어진 경우를 다루고 있다.
두가지 조건이 주어진 상황에서 이론적인 한계를 제시하고 있고, 그 이론적 한계를 점근적으로 달성하는
알고리즘을 제시하고 있다.