서지주요정보
Use of lagged information in partially observablemarkov decision process = 간접관측이 가능한 마코브 의사 결정과정의 지연정보 이용
서명 / 저자 Use of lagged information in partially observablemarkov decision process = 간접관측이 가능한 마코브 의사 결정과정의 지연정보 이용 / Byung-Ho Jeong.
발행사항 [서울 : 한국과학기술원, 1989].
Online Access 원문보기 원문인쇄

소장정보

등록번호

4105422

소장위치/청구기호

학술문화관(문화관) 보존서고

DIE 8904

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis studies the control of a finite state, discrete time Markov process with only incomplete state observation. This problem is generally called by Partially Observable Markov Decision Process(POMDP). The performance of such system is affected by the measurement quality of state observation, i.e., uncertainty of state. Thus, in order to reduce the uncertainty of state, we have better to obtain additional information concerning every state of Markov process if possible and valuable. Among various cases with different additional information structure, this study focuses on the case that we can obtain uncertain delayed observation of state after one transition. In other words, our interest exists in reducing state uncertainty inherent in general POMDP by using a lagged information and in controlling Markov process with two types of observation obtained from each other information sources. That is, this study could be considered as Markov Decision Process(MDP) with lagged and current partial observations. This thesis consists of three main parts. First, a finite horizon POMDP with lagged and current partial observations is considered. An algorithm for finding an optimal policy and minimum expected total cost of the policy is developed. Second, the thesis considers a POMDP with only the current observation for the case in which the system has an infinite number of time period. An algorithm finding an optimal stationary policy that minimizes the expected discounted cost. The algorithm is a modified version of the well known policy iteration algorithm. The modification focuses on the value determination routine of the policy iteration algorithm. Some properties of the approximated functions for the expected discounted cost of a stationary policy are investigated. The expected discounted cost of a stationary policy is approximated based on theses properties. That is, the value determination step adopts with the successive approximation concept. Lastly, this study deals with an infinite horizon POMDP with both of lagged and current information. The characteristics of the problem seems to be similar to that of the current observation. Thus, this thesis shows that some properties to be developed for a general POMDP without lagged observation is to be applied to infinite horizon POMDP with lagged observation. The algorithm for the general POMDP is modified to solve the problem with lagged observation.

추계적 과정(stochastic process)에 따르는 시스템의 최적화 문제에 있어서, 시스템의 상태(state)를 직접적으로 관측할 수 없는 경우, 혹은 가능하긴 하나 높은 비용이 발생 하는 경우가 많다. 이러한 시스템에 있어서 시스템의 간접적인 관측을 통해서 얻어진 상태의 정보를 이용하여 시스템을 제어할 수 있다(이러한 문제를 POMDP라 한다). 이러한 경우에 상태의 불확실성을 줄이려는 노력이 필요하다. 본 논문은 상태의 불확실성을 감소 시키는 방법의 일환으로 한 기간전의 상태에 관한 정보를 현제의 상태에 관한 정보와 함께 이용함으로써 시스템의 조절기능을 향상 시키고자 하는 것이다. 첫째로, 이러한 지연정보를 이용하는 POMDP를 유한 기간을 대상으로 제어하는 문제를 다루었다. 시스템의 기대비용을 최소화하는 최적정책을 구하는 알고리즘을 제시하였다. 이 알고리즘은 기대비용함수가 Piece-wise Linear Concave 함수라는 사실을 근간으로 개발되었다. 둘째, 지연정보를 갖지 않는 경우에, 무한기간 POMDP의 최적정책을 구하는 알고리즘을 제안하였다. 본 논문에서는 기존의 Policy Iteration 알고리즘의 가치결정단계를 수정함으로써 좀 더 효율적인 알고리즘이 되도록 하였다. 새로이 제안된 가치결정단계는 기대비용함수의 Piece-wise Linearity를 이용하여 효과적으로 수행되어 질 수 있다. 셋째, 지연정보를 갖는 경우에, 무한기간 POMDP의 최적정책을 구하는 알고리즘을 제안하였다. 이 알고리즘은 앞 부분에서 제안된 지연정보를 갖지않는 경우의 알고리즘을 수정보완하여 제시한 것이다. 이상에서 제시한 두가지 경우의 모델을 비교함으로써 지연 정보의 이용이 의사결정자에게 유리하다는 사실도 보였다.

서지기타정보

서지기타정보
청구기호 {DIE 8904
형태사항 [iv], 124 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 정병호
지도교수의 영문표기 : Soung-Hie Kim
지도교수의 한글표기 : 김성희
학위논문 학위논문(박사) - 한국과학기술원 : 산업공학과,
서지주기 Reference : p. 118-124
주제 Informations.
Markov process.
의사 결정. --과학기술용어시소러스
정보. --과학기술용어시소러스
제어. --과학기술용어시소러스
확률 과정. --과학기술용어시소러스
Decision-making.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서