We propose Neural Crossbreed, a feed-forward neural network that can learn a semantic change of input images in a latent space to create the morphing effect. Because the network learns a semantic change, a sequence of meaningful intermediate images can be generated without requiring the user to specify explicit correspondences. In addition, the semantic change learning makes it possible to perform the morphing between the images that contain objects with significantly different poses or camera views. Furthermore, just as in conventional morphing techniques, our morphing network can handle shape and appearance transitions separately by disentangling the content and the style transfer for rich usability. We prepare a training dataset for morphing using a pre-trained BigGAN, which generates an intermediate image by interpolating two latent vectors at an intended morphing value. This is the first attempt to address image morphing using a pre-trained generative model in order to learn semantic transformation. The experiments show that Neural Crossbreed produces high quality morphed images, overcoming various limitations associated with conventional approaches. In addition, Neural Crossbreed can be further extended for diverse applications such as multi-image morphing, appearance transfer, and video frame interpolation.
본 논문에서는 모핑 효과를 만들어내기 위해서 입력 이미지 사이 잠재 공간에서의 의미적 변화를 학습할 수 있는 피드 포워드 신경망 Neural Crossbreed를 제안하였다. 사용자가 명시적으로 이미지 사이 대응점을 지정하지 않고도 의미있는 연속된 중간 이미지들을 생성해낼 수 있다. 서로 다른 자세와 카메라 뷰가 크게 다른 개체가 포함된 이미지 사이에서도 모핑하는 것도 가능하다. 이뿐만 아니라, 제안한 모핑 네트워크를 이미지의 콘텐츠와 스타일을 해석 가능하게 학습함으로써 기존 전통적인 모핑과 마찬가지로 모양과 외형을 분리해서 전환할 수 있기 때문에 유용성을 높일 수 있다. 미리 학습된 BigGAN에서 잠재 벡터를 모핑 파라미터로 보간하여 생성한 중간이미지로 이미지 모핑을 위한 학습 데이터를 구성하였다. 이것은 미리 학습된 생성 모델에서 이미지의 의미 변환을 학습하여 모핑 문제를 해결하는 최초의 시도이다. 본 논문에서 실험을 통해서 Neural Crossbreed는 기존 모핑 연구의 한계들을 극복하여 모핑 이미지를 생성하는 것을 보여준다. 게다가 Neural Crossbreed의 방법론을 확장하여 다중 이미지 모핑, 외형 변환, 비디오 프레임 보간 등 다양하게 응용될 수 있다.