서지주요정보
Sequential decision making with only return and action = 보상반환값과 행동만이 주어진 상황에서의 순차적 의사결정
서명 / 저자 Sequential decision making with only return and action = 보상반환값과 행동만이 주어진 상황에서의 순차적 의사결정 / Haebin Seong.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041176

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23059

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As recent success of transformer architectures have shown superior performance in sequence modeling, several approaches have been proposed to apply transformers in various fields, including sequential decision-making and reinforcement learning, such as the prior work on Decision Transformers. However, Markov Decision Processes (MDPs), the standard problem setting in sequential decision making and reinforcement learning, require information on the transition sequence of state, action, and reward. This information is not always available in real-world problems. In this paper, we propose a new problem setting for decision making, which is a relaxation of the MDP that requires fewer conditions, thus making it easier to apply in many real-world situations, such as robotic control or experimental design. By extending the approach used in Decision Transformers, we suggest a decision making method that leverages the sequence modeling power of transformers in this new problem setting. Additionally, we propose an active learning framework that could enable goal-oriented active learning in this new problem setting, using uncertainty modeling and sequence generation.

최근의 트랜스포머 구조의 성공은 순차적 모델링에서 우수한 성능을 보여주었으며, 이로 인해 의사결정 트랜스포머와 같이 순차적 의사결정 및 강화학습을 포함한 다양한 분야에서 트랜스포머를 적용하는 접근 방법들이 등장하였다. 마르코프 의사결정 과정이라는 순차적 의사결정 및 강화학습의 표준적인 문제 설정이 상태, 행동 및 보상의 전이 순서에 대한 정보를 필요로 하지만, 이러한 정보들이 현실세계 문제들을 푸는 데 있어 항상 접근 가능하지는 않다. 본 논문에서는 실제 상황에서의 적용을 보다 용이하게 하기 위해 마르코프 의사결정 과정의 조건을 대폭 완화한 의사결정에 대한 새로운 문제 설정을 제안한다. 의사결정 트랜스포머의 접근 방법을 확장하여 우리가 제안한 새로운 문제 설정에서 트랜스포머의 시퀀스 모델링 능력을 활용하는 의사결정 방법을 제안한다. 또한, 불확실성 모델링과 시퀀스 생성을 이용한 목표 지향적인 액티브 러닝을 가능하게 하는 프레임워크도 제안한다.

서지기타정보

서지기타정보
청구기호 {MAI 23059
형태사항 i, 17 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 성해빈
지도교수의 영문표기 : Sung Ju Hwang
지도교수의 한글표기 : 황성주
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 15-17
주제 Sequential decision making
Reinforcement learning
Decision transformer
Transformer architecture
GPT architecture
Self-supervised learning
Uncertainty modeling
Active learning
Experimental design
순차적 의사 결정
강화 학습
의사결정 트랜스포머
트랜스포머 구조
지피티 구조
자기주도학습
불확실성 모델링
액티브 러닝
실험계획법
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서