한국과학기술원 도서관

서지주요정보
언어-비디오 생성에서 Autoencoder Loss와 Loosen GAN Architecture를 사용한 학습속도의 개선 = Improving learning speed in language-video generation using Autoencoder Loss and Loosen GAN Architecture
서명 / 저자	언어-비디오 생성에서 Autoencoder Loss와 Loosen GAN Architecture를 사용한 학습속도의 개선 = Improving learning speed in language-video generation using Autoencoder Loss and Loosen GAN Architecture / 이동건.
발행사항	[대전 : 한국과학기술원, 2018].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8032974

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 18047

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Generating video in a language is a challenging field in the GAN video generation model. Recently a language-video model using WGAN has been proposed as a breakthrough to solve this problem. However, the existing WGAN language - video generation model has a disadvantage that learning is unstable and learning time is longer than other generation models. In this paper, we propose a new GAN language - video architecture called WAGAN, a Loosen auto - encoder to overcome the problems of the existing GAN language - video generation model. Loosen - auto encoder WGAN improves the learning speed of WGAN video model by Loosening GAN's classification model structure and using autoencoder loss as a new loss function. Experiments through 2D game character video show that the proposed method improves learning speed at the expense of some of the static elements in the video. It also shows that the coupling the language model is improved without separate input preprocessing.

언어에서 비디오를 생성하는 것은 GAN(Generative Adversarial Network, GAN) 비디오 생성모델에서 도전적인 분야이다. 최근에는 GAN의 일종인 WGAN(Wasserstein GAN)을 사용한 언어-비디오 모델이 해당 문제를 해결하는 돌파구로 제안되었다. 그러나 기존의 WGAN 언어-비디오 생성모델은 다른 생성모델에 비해 학습이 불안정하고 학습 시간이 비교적 길다는 단점이 있다. 본 논문에서는 이러한 기존 GAN 언어-비디오 생성모델의 문제점을 개선하기 위해 느슨한-오토인코더 WGAN라 불리는 새로운 GAN 언어-비디오 아키텍처를 제안한다. 느슨한-오토인코더 WGAN은 기존 3차원 비디오 GAN 모델의 분류모델 구조를 느슨하게 하고 오토인코더 로스라 불리는 새로운 로스 함수를 생성모델에 결합하는 구조로써 WGAN 비디오 모델의 학습 속도를 개선시킨다. 2차원 게임 캐릭터 비디오를 학습한 실험을 통해서 제안 방법이 비디오에 존재하는 다소의 정적 요소의 일치성을 희생하고 학습 속도를 개선시키는 것을 보인다. 또한, 별도의 입력 전처리 없이 언어모델과의 결합이 개선되었다는 것을 보인다. 비디오를 생성하는 것은 기존의 이미지 생성이나 비디오 캡셔닝 문제에 비해 잘 다루어지지 않는 영역으로 새로운 연구의 지표를 열 수 있을 것을 기대한다.

서지기타정보

서지기타정보
청구기호	{MCS 18047
형태사항	iv, 35 p. : 삽화 ; 30 cm
언어	한국어
일반주기	저자명의 영문표기 : Dongkun Lee 지도교수의 한글표기 : 최호진 지도교수의 영문표기 : Ho Jin Choi 부록 수록
학위논문	학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기	참고문헌 : p. 27-29

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서