서지주요정보
민감도분석을 이용한 보상함수가 불확실한 MDP의 미니맥스 후회값 행동정책 탐색기법 = Minimax regret policy search in reward-uncertain MDPs using sensitivity analysis
서명 / 저자 민감도분석을 이용한 보상함수가 불확실한 MDP의 미니맥스 후회값 행동정책 탐색기법 = Minimax regret policy search in reward-uncertain MDPs using sensitivity analysis / 오은수.
저자명 오은수 ; Oh, Eun-Soo
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022761

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 11022

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The specification of a Markov Decision Process(MDP) can be difficult. In many case, a specified MDP problem has uncertainty on reward function or transition function. It is important to know the sensitivity of an optimal policy given a uncertain MDP. I propose how to calculate the range of uncertainty of MDP model parameters such that a current optimal policy is still optimal after the MDP has changed. It is known that the precise specification of reward functions of MDPs is often extremely difficult. Recent works show that minimax regret decision criterion is suitable for computing a robust policy of a reward-uncertain MDP. I propose an novel algorithm to compute a robust policy in reward-uncertain MDPs using nondominated policies over the feasible reward space. My algorithm uses the result of sensitivity analysis of a given rewarduncertain MDP, and finds the nondominated policy set exactly and faster than previous works. I also suggest approximation algorithm to compute the approximated nondominated policy set. My experimental results suggest that by using the result of sensitivity analysis, it is possible to get (near-)optimal minimax regret policy very quickly.

Markov Decision Processes(MDPs)는 확률적인 환경에서 연속적인 의사 결정을 필요로 하는 문제를 다루는 데에 매우 효과적인 모델이다. MDP로 모델링 한 문제는 value iteration, policy iteration과 같은 알고리즘을 통해 최적행동정책을 구함으로써 효과적인 의사 결정을 할 수가 있다. 그러나 해결하고자 하는 문제를 MDP 모델로 구체화 하는 일은 상당히 어려운 일이다. 또한 모델링한 MDP의 매개변수의 값들은 불확실성을 포함하고 있을 수 있으며 그 불확실성에 의해 최적행동정책이 변할 수 있다. MDP의 민감도분석이란 모델링한 MDP의 매개변수들이 불확실성에 의해서 모델링한 값과 실제 값에 차이가 존재할 경우 그 차이가 최적행동정책의 변화에 미치는 영향을 분석하는 것이다. MDP의 민감도분석을 통해 주어진 문제의 구체화에 불확실성이 포함되어 있어서 전이확률함수 혹은 보상함수의 값이 실제 값과 차이가 존재하더라도 현재 구체화한 모델의 최적행동정책이 여전히 최적일 수 있는 차이의 범위를 알 수 있게 된다. 그리고 그 결과를 통해 모델의 불확실성에 대해 안정적인(robust) 행동정책을 구할 수 있다. 본 논문에서는 보상함수에 불확실성이 존재하는 MDP에 대해서 민감도분석을 수행하는 방법을 제안할 것이다. 또한 이를 통해 안정적인 행동정책을 구하는 데에 있어서 기존에 제안된 알고리즘보다 속도가 빠른 새로운 알고리즘을 제안할 것이다.

서지기타정보

서지기타정보
청구기호 {MCS 11022
형태사항 iv, 33 p. : 삽도 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Eun-Soo Oh
지도교수의 한글표기 : 김기응
지도교수의 영문표기 : Kee-Eung Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 참고문헌 : p. 32-33
주제 마르코프 의사 결정
민감도 분석
안정적인 행동정책
미니맥스 후회값
Markov Decision Process
MDP
Sensitivity Analysis
Robust Policy
Minimax Regret
QR CODE qr code