Since various objects in anime have their own unique styles, anime style transfer can be seen as an object-to-object multi-style transfer problem. However, the state-of-the-art generative adversarial networks (GAN) for anime style transfer fails to transfer each real-world object to the corresponding anime object style properly. This is because the unsupervised learning cannot provide the semantic mappings between the multi-style objects. In this paper, we propose a new learning framework, called pseudo-supervised learning with a new GAN model, called AnimeGAN. Pseudo-supervised learning utilizes pseudo ground truths for multi-style anime objects so that our AnimeGAN can stably learn the semantic mappings between the real-world and multi-style anime objects. Moreover, we propose a novel single generator network that can embrace the multiple styles of various anime objects. For this, our generator is specifically designed to have three effective processing blocks: densely-connected channel attention block (DCCAB), down-scaling channel attention block (DSCAB), and up-scaling channel attention block (USCAB). Qualitative and quantitative evaluations show that our AnimeGAN generates much more pleasing anime-styled images than the state-of-the-art models.
일본 애니메이션 (anime) 에는 고유의 스타일을 가진 여러 물체들이 등장하기 때문에 anime 스타일 변환은 각 물체에서 물체로의 멀티 스타일 변환 문제로 볼 수 있다. 그러나 기존의 적대적 생성 신경망 (GAN) 을 이용한 anime 스타일 변환 연구는 자연 영상에서의 각각의 물체들을 해당되는 anime 스타일 물체들로 제대로 변환하지 못한다. 그 이유는 기존 GAN 을 이용한 모델들은 비지도 학습을 사용하는데, 이 비지도 학습이 자연 영상의 물체들과 anime 영상의 물체들 사이의 다양한 의미론적 매핑을 학습하기에 부족하기 때문이다. 본 연구에서는, 이러한 의미론적 다중 매핑을 학습할 수 있는 새로운 학습 체계와 이에 기반한 새로운 GAN 모델을 제안하며, 제안하는 새로운 학습 체계를 가(假)지도 학습이라 하고, 제안하는 새로운 GAN 모델을 AnimeGAN 이라 한다. 가(假)지도 학습이란 지도학습에서 사용하는 인풋 영상과 정답 영상 페어가 없는 경우에 인풋 영상에 따른 가(假)정답을 만들고 이를 이용하여 비지도 학습으로는 학습하지 못했던 의미론적 매핑들을 학습할 수 있는 학습 체계이다. 또한, 다양한 anime 물체들의 스타일들을 수용할 수 있는 단일 생성 신경망 구축을 위해, 다음과 같이 3개의 효과적인 공정 블록을 제안한다: 밀집-연결 채널 집중 블록 (DCCAB), 다운스케일링 채널 집중 블록 (DSCAB), 업스케일링 채널 집중 블록 (USCAB). 정량적, 정성적 평가를 통해 본 연구에서 제안하는 AnimeGAN 이 가장 우수한 anime 스타일 영상들을 만들어낸다는 것을 알 수 있다.