Facial attribute editing aims to manipulate the image with the desired attribute while preserving the other details. Recently, generative adversarial networks along with the encoder-decoder architecture have been utilized for this task owing to their ability to create realistic images. However, the existing methods for the unpaired dataset cannot still preserve the attribute-irrelevant regions properly due to the absence of the ground truth image. This work proposes a novel, intuitive loss function called the CAM-consistency loss, which improves the consistency of an input image in image translation. While the existing cycle-consistency loss ensures that the image can be translated back, our approach makes the model further preserve the attribute-irrelevant regions even in a single translation to another domain by using the Grad-CAM output computed from the discriminator. Our CAM-consistency loss directly optimizes such a Grad-CAM output from the discriminator during training, in order to properly capture which local regions the generator should change while keeping the other regions unchanged. In this manner, our approach allows the generator and the discriminator to collaborate with each other to improve the image translation quality. In our experiments, we validate the effectiveness and versatility of our proposed CAM-consistency loss by applying it to several representative models for facial image editing, such as StarGAN, AttGAN, and STGAN.
얼굴 이미지 변환은 다른 세부 사항들을 유지하며 원하는 속성으로 이미지를 수정하는 것을 목표로 한다. 최근에는 현실적인 이미지를 생성하는 능력을 갖춘 것으로 알려진 인코더-디코더 구조의 적대적 생성 신경망이 해당 작업에 활용되고 있다. 그러나, 쌍을 이루지 않는 데이터 세트 하에서 기존의 방법론은 관측 가능한 이미지의 부재로 속성과 무관한 영역을 온전히 보전할 수 없다. 본 연구는 이미지 변환 과정에서 입력 이미지의 일관성을 향상하기 위한 직관적인 손실 함수를 새로이 제안한다. 기존의 순환 일관성 손실 함수는 이미지가 다시 변환될 수 있도록 보장하지만, 제시하는 방법론은 판별자가 계산한 마스크를 활용하여 모델이 다른 도메인에 대한 단일 변환에서도 속성과 무관한 영역을 보존하도록 한다. 제시된 방법론은 생성자가 변화시킨 부위를 정확히 포착하기 위해 판별자가 계산한 마스크를 직접 최적화한다. 이러한 접근 방식은 생성자와 판별자가 서로 협력하여 이미지 변환의 품질을 높이도록 한다. 제시한 실험에서, 제안한 손실 함수의 효과와 다용성을 다양한 이미지 편집을 위한 대표 모델들을 통해 검증한다.