Learning disentangled representation of a sentence aims to discover a representation which separates explanatory generative factors in a sentence. Existing methods extract a disentangled representation via independence constraints such as statistical independence between latent variables. We observed that previous approaches fail to encode enough information into low-dimensional latent variables and generator neglects that latent variables. In this paper, we propose two auxiliary losses to address this issue: the mutual information loss that encourages the encoder to maximize mutual information of a latent variable and data, and the Bag-of-Words similarity loss that controls and measures the influence of the permutation of single latent variable to the generator. Through the experiments on a sentiment transfer task, we prove the sentence representation can be disentangled and all latent variables involve in the sentence generation. We also show our framework can successfully learn disentangled jointly continuous and discrete representations in a semi-supervised manner.
본 논문은 해석가능한 문장 생성 요소를 분리할 수 있는 엉킴없는 문장 표현을 학습하는 방법에 대해 다룬다. 기존의 통계적 독립 제약을 통한 문장 표현 분리 방법론은 저차원 잠재 변수에 인코더가 충분한 정보를 담지 못하거나, 디코더가 해당 변수를 무시하는 문제가 존재한다. 이를 해결하기 위해, 본 논문에서는 2가지 보조 손실 함수를 제안한다. 상호 정보량 손실 함수는 모든 잠재 변수에 데이터와 관련된 정보가 학습될 수 있도록 보조하며, 단어 가방 유사도 손실 함수는 생성된 문장과 잠재 변수 사이의 의존 관계를 조절할 수 있도록 설계하였다. 본 논문에서는 문장의 감정을 다른 감정으로 변경하는 실험을 통해 문장 요소가 감정과 이를 제외한 다른 요소로 분리될 수 있음을 보였으며, 모든 잠재 변수가 감정이 변경된 문장의 생성에 활용되는 것을 실험적으로 확인하였다. 더 나아가, 문장 요소를 준 지도 학습하에서 분리할 수 있는 학습 방법을 제안하였다.