Cross-domain disentanglement is the problem of learning representations partitioned into domain-invariant and domain-specific representations, which is a key to successful domain transfer or measuring semantic distance between two domains. Grounded in information theory, we cast the simultaneous learning of domain-invariant and domain-specific representations as a joint objective of multiple information constraints, which does not require adversarial training or gradient reversal layers. We derive a tractable bound of the objective and propose a generative model named Interaction Information Auto-Encoder. Our approach reveals insights on the desirable representation for cross-domain disentanglement and its connection to Variational Auto-Encoder. We demonstrate the validity of our model in the image-to-image translation and the cross-domain retrieval tasks. We further show that our model achieves the state-of-the-art performance in the zero-shot sketch based image retrieval task, even without external knowledge.
도메인 간 분리는 도메인 불변 및 도메인 특정 표현으로 분리 된 표현을 학습하는 문제로, 성공적인 도메인 전이 또는 두 도메인 간의 의미상 거리 측정의 핵심이다. 본 연구는 정보 이론을 바탕으로 도메인 불변 및 도메인 특정 표현의 동시 학습을 여러 정보 제약에 대한 공동 최적화 문제로 정의하며, 이는 적대적 훈련이나 그라디언트 반전 레이어를 필요로 하지 않는다. 또한 최적화 문제에 대한 다루기 쉬운 목적 함수를 도출하고 상호 작용 정보 오토인코더라는 생성 모델을 제안한다. 본 논문의 접근 방식은 도메인 간 분리에 대한 바람직한 표현과 Variational Auto-Encoder와의 관계에 대한 이해를 돕는다. 실험을 통해 도메인 간 이미지 변환 및 이미지 검색 작업에서 본 논문이 제시한 생성 모델의 유효성을 보인다. 또한 제시한 모델이 외부 지식이 없어도 제로 샷 스케치 기반 이미지 검색 작업에서 최첨단 성능을 달성함을 보인다.