Image-to-image translation is an important problem in computer vision, in both theoretically and practically. Recently, image-to-image translation have shown a remarkable success, even for the case where the domain pair data is not provided. However, previous approaches have several limitations, that they mistranslate objects, unable to control which object to translate, and fail to modify the shape of objects. To address this problem, we propose a method that utilize the attention of target objects for imageto-image translation. First, we propose a novel neural network architecture composed of the attention network and the translation network. Second, we propose a novel loss function that promotes the prior knowledge of attention. In addition, we propose two novel modifications and data augmentation scheme to improve the attention. As a result, our proposed method not only reduced the previous limitations of translation algorithms, but also improved the performance of previous attention algorithms. We present the experiment results in both qualitatively and quantitatively.
이미지-이미지 번역은 컴퓨터 비전 분야의 대표적인 문제로 최근 많은 주목을 받고 있다. 특히, 도메인 쌍 데이터가 없는 경우에도 뛰어난 성과를 보여 학계 뿐만 아니라 산업계에서도 활발히 응용되고 있다. 그러나 기존 알고리즘은 물체 오역, 대상 물체 제어 불가능, 모양 변형 실패 등의 문제가 있다. 이러한 문제를 해 결하기 위해, 본 논문에서는 대상 물체에 대한 집중 정보를 활용하여 이미지-이미지 번역 성능을 개선하는 알고리즘을 개발하였다. 먼저 집중 신경망과 번역 신경망으로 구성된 새로운 신경망 구조를 제안하였으며, 집중 정보에 대한 사전 지식을 활용하기 위한 새로운 손실 함수를 제안하였다. 또한, 집중 성능을 향상하기 위한 두 가지 개선안을 제안하고, 번역 신경망을 통한 데이터 증가 방안을 제안하였다. 그 결과, 제안한 알고리즘은 기존 번역 알고리즘의 세 가지 문제를 모두 해소하였을 뿐만 아니라, 기존 집중 알고리즘의 성능 또한 개선하였다. 실험 결과를 통해 제안한 알고리즘이 효과적임을 정성적 및 정량적으로 검증하였다.