서지주요정보
시간차 학습에서 신뢰도 추정에 기반한 가치 함수 업데이트에 관한 연구 = (A) study on confidence based value function update in temporal difference learning
서명 / 저자 시간차 학습에서 신뢰도 추정에 기반한 가치 함수 업데이트에 관한 연구 = (A) study on confidence based value function update in temporal difference learning / 탁진형.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031342

소장위치/청구기호

학술문화관(문화관) 보존서고

MIE 17025

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A number of temporal difference learning algorithms finding the optimal policy have been proposed. Most of the algorithms update only the estimation at the time when the temporal difference error occurs. However, the estimation at the next time is also uncertain, thus the estimation at the next time need to be updated. In this thesis, we proposed a method to update the value function at the both time by introducing confidence function and estimating it. We made a simple example to compare and analyze the performance which the proposed method performed better than the existing one in finding the optimal policy. Furthermore, it was confirmed that the difficulty of setting the learning rate can be solved by using the ratio of the confidence function.

최선의 정책을 구하는 많은 시간차 학습 알고리즘들이 제안되어왔다. 대부분의 알고리즘들은 시간차 에러가 발생하면 해당 시점의 추정치만을 업데이트 하는 방식을 취했다. 그러나 다음 시점의 추정치도 불확실하기 때문에 다음 시점의 추정치도 함께 업데이트 할 필요가 있을 것이다. 본 학위 논문에서는 두 시점의 추정치를 동시에 업데이트 하되, 신뢰도 함수를 도입하여 그 것을 추정한 결과로 가치 함수를 업데이트하는 방식을 제안하였다. 간단한 예제를 만들어 성능을 기존 방식과 비교 및 분석을 해보았고, 그 결과 최선의 정책을 구하는데 더 좋은 성능을 가짐을 확인하였다. 또한 신뢰도 함수의 비율을 이용해 학습 비율을 설정하는 어려움을 해결할 수 있음을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MIE 17025
형태사항 iii, 30 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Jin Hyung Tak
지도교수의 한글표기 : 신하용
지도교수의 영문표기 : Ha Yong Shin
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 참고문헌 수록
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서