서지주요정보
Self-imitation learning algorithms for goal-oriented dialogues = 목적지향 대화를 위한 자기 모방 학습 알고리즘 연구
서명 / 저자 Self-imitation learning algorithms for goal-oriented dialogues = 목적지향 대화를 위한 자기 모방 학습 알고리즘 연구 / Youngsoo Jang.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039593

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DCS 22026

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Reinforcement learning (RL) aims to learn a policy that maximizes reward through interaction with the environment. Task-oriented dialogues could be naturally formulated by RL problems. However, when we consider applying the standard RL algorithm to real-world task-oriented dialogues, there are three main challenges to consider: (1) task-oriented dialogues assume offline learning that the agent optimizes the policy from the only previously collected dataset without online environment interaction, (2) standard policy-gradient-based RL methods easily fail and generate responses diverging from human language, and (3) optimizing the task-oriented dialogue agent is very challenging because of the enormous action space of natural language actions. In this thesis, to address these challenges, we present three different RL algorithms based on self-imitation learning that the agent learns the policy to imitate the agent’s own past good decisions generated by itself. First, we present a model-based offline RL algorithm that combines RNN-based dialogue generation and MCTS-based Bayesian planning. Secondly, we present a Monte-Carlo planning algorithm that combines Monte-Carlo tree search with language-driven exploration, then introduce RL algorithm built on this planning algorithm. Lastly, we present a model-free offline RL algorithm that is built upon GPT-2 with fine-tuning the language model through behavior cloning of critic-guided self-generated dialogues.

강화학습은 환경과의 상호작용을 통해 보상을 최대화하는 행동 정책을 학습하는 것을 목표로 한다. 목적지향 대화 역시 강화학습 문제로 자연스럽게 표현될 수 있다. 하지만, 표준적인 강화학습 알고리즘을 실세계 목적지향 대화로 적용하는 것을 고려하면 세가지 중요 어려움이 있다: (1) 목적지향 대화는 에이전트가 환경과의 온라인 상호작용 없이 오직 사전에 수집된 데이터셋으로부터 행동 정책을 최적화해야하는 오프라인 학습을 가정한다, (2) 표준적인 행동정책 경사 (policy-gradient) 기반 강화학습 알고리즘들은 학습에 쉽게 실패하며, 사람의 언어로부터 발산하는 답변을 생성한다, (3) 목적지향 대화 에이전트를 최적화하는 것은 자연어 행동들의 방대한 행동 공간 때문에 매우 어렵다. 본 학위논문에서는 이러한 어려움을 해결하기 위해, 에이전트가 자신이 과거에 생성했던 결정들 중 좋았던 것을 모방하는 방식으로 학습하는 자기 모방 학습 기반의 세가지 강화학습 알고리즘을 제시한다. 첫째, 순환신경망 기반 대화 생성 모델과 몬테카를로-트리서치 기반 베이지안 계획법 을 결합한 모델 기반 오프라인 강화학습 알고리즘을 제시한다. 두번째, 언어기반 탐험과 몬테카를로-트리서치를 결합한 몬테카를로 계획 알고리즘을 제시하고, 이 계획 알고리즘을 기반으로 한 강화학습 알고리즘을 제시한다. 마지막으로, 비평가 안내로 자가 생성된 대화들의 행동 복제를 통해 언어 모델을 미세조정하는 GPT-2 기반의 모델이 없는 강화학습 알고리즘을 제시한다.

서지기타정보

서지기타정보
청구기호 {DCS 22026
형태사항 v, 70 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 장영수
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 60-66
주제 Reinforcement learning
Goal-oriented dialogues
Self-imitation learning
Offline reinforcement learning
강화학습
목적지향 대화
자기 모방 학습
오프라인 강화학습
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서