서지주요정보
적대적 생성신경망을 통한 이종 행위자 스타일의 모방학습 = Imitation learning for different player style using generative adversarial networks
서명 / 저자 적대적 생성신경망을 통한 이종 행위자 스타일의 모방학습 = Imitation learning for different player style using generative adversarial networks / 김도형.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031916

소장위치/청구기호

학술문화관(문화관) 보존서고

MIE 18006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Problems that can be easily found in real life examples can usually be modeled as sequential decision problems. However they have the disadvantage that reward design is difficult when trying to solve problems using reinforcement learning methodology. In the case of Imitation learning, sequential decision problems are solved by imitating optimal behaviors using limited optimal action rather than reward. In this study, we modified the structure of VAEGAN, which is a recently developed deep generative model, to obtain the information of state efficiently when a limited amount of states and optimal action as learning data. and suggests a model that can reproduce the information as an optimal behavior. In addition, we proposed a method to conditionally learn the information about the object style and to create an action for each purpose under the same state.

실생활 예시에서 쉽게 찾을 수 있는 문제들은 대개 순차적 의사 결정 문제로 모델링 될 수 있으나, 강화학습 방법론을 사용하여 해당 문제를 해결하려 할 때 reward design이 어렵다는 단점을 가진다. Imitation learning의 경우, reward가 아닌 한정된 optimal action을 활용하여 최적 행동을 모방하여 순차적 의사 결정 문제를 해결한다. 본 연구에서는 최근 제안된 deep generative model인 VAEGAN의 구조를 활용한다. MDP로 정의된 순차적 의사 결정 문제에 대해 한정된 양의 state와 이에 해당되는 optimal action이 학습 데이터로 주어졌을 때, state의 정보를 효율적으로 함축하고 해당 정보를 최적 행동으로 재생성 할 수 있는 모델에 대해 제안하였다. 또, 개체 스타일에 대한 정보를 conditional 하게 학습시켜 같은 state가 주어질 때 개체의 스타일에 맞는 행위를 생성할 수 있는 방법을 제시하였다.

서지기타정보

서지기타정보
청구기호 {MIE 18006
형태사항 iii, 35 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Do-Hyeong Kim
지도교수의 한글표기 : 문일철
지도교수의 영문표기 : Il-Chul Moon
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 참고문헌 : p. 29-30
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서