In this thesis, we investigate the problem of unpaired video-to-video translation for domain adaptation. Given a video in the source domain, we aim to learn the conditional distribution of the corresponding video in the target domain, without seeing any pairs of corresponding videos. While a lot of progress has been made on the unpaired translation of images, directly applying these methods to an input video leads to a low visual quality due to an additional time dimension. In particular, the previous methods suffer from semantic inconsistency (i.e., semantic label flipping) and temporal flickering artifacts. To alleviate these issues, we propose a new framework that is composed of carefully-designed generators and discriminators, coupled with two core objective functions: 1) content preserving loss and 2) temporal consistency loss. Extensive qualitative and quantitative evaluations demonstrate the superior performance of the proposed method against the previous approaches. We further apply our framework to a domain adaption task and achieve favorable results.
본 학위 논문에서는 도메인 적응을 위한 비디오 간 변환을 다룬다. 소스 도메인의 비디오에 대해 해당 비디오 쌍을 보지 않고도, 목표 도메인으로의 조건부 확률을 학습하고자 한다. 그 동안 이미지 간 변환에 많은 발전이 있었지만, 이러한 방법을 입력 비디오에 곧바로 적용할 경우, 추가적인 시간 차원으로 인해 시각적인 품질이 떨어진다. 특히, 이전의 방법들은 영상의 내용 불일치 및 시간적인 깜박거림을 겪는다. 이러한 문제를 해결하기 위해 새롭게 설계된 GAN 기반의 프레임 워크와 두 가지 핵심 목적 함수 1) 내용 보존 함수 및 2) 시간적 일관성 함수를 제안한다. 다양한 실험을 통해, 이전 방법에 비해 제안된 방법의 우수한 성능을 입증하였다. 끝으로 도메인 적응 과제에서도 제안한 프레임 워크를 적용하였고 더 좋은 결과를 보임을 증명하였다.