서지주요정보
Multi-armed bandit problem with intra- and inter- correlations = 슬롯머신들 간의 내/외부 상관관계가 주어진 다중 슬롯머신 문제에 관한 연구
서명 / 저자 Multi-armed bandit problem with intra- and inter- correlations = 슬롯머신들 간의 내/외부 상관관계가 주어진 다중 슬롯머신 문제에 관한 연구 / Su Myeong Ahn.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031392

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 17117

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

We address a veiled expected reward multi-slot machine problem. Object of this problem is to select the highest expected reward arm which is called optimal arm. This problem is usually called Multi-armed Bandit problem which is famous for reinforcement learning problem about exploration and exploitation problem. In order to extend the MAB problem, we consider Unimodality correlation between arm and additionally observable conditions. In the proposed framework, we prove the asymptotic fundamental limit and suggest an algorithm which is achieving limit.

이 논문에서는 기대이익을 모르는 여러개의 슬롯머신이 존재하는 상황에서 가장 기대 이익이 높은 슬롯 머신을 선택하는 문제에 관한 연구를 다루고 있다. 이는 Multi-armed Bandit(MAB)으로 불리는 대표적인 강화학습의 문제로 탐사와 이용간의 균형을 맞추는데 목적을 두고 있다. 특히 이 논문에서는, 기본적인 MAB 문제에 각 슬롯머신간의 단봉 상관관계와 추가적인 관찰을 할 수 있는 기회가 주어진 경우를 다루고 있다. 두가지 조건이 주어진 상황에서 이론적인 한계를 제시하고 있고, 그 이론적 한계를 점근적으로 달성하는 알고리즘을 제시하고 있다.

서지기타정보

서지기타정보
청구기호 {MEE 17117
형태사항 iv. 30 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 안수명
지도교수의 영문표기 : Yung Yi
지도교수의 한글표기 : 이융
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 Including references
주제 Reinforcement learning
Multi-armed Bandit problem
Exploration exploitation tradeoff
sequential decision problem
Unimodal condition
강화학습
다중 슬롯머신 문제
탐사 이용 균형
순차적 결정 문제
단봉 상관관계
QR CODE qr code