A disentangled representation separates the explanatory generative factors of data within the representation, offering desirable properties such as interpretability and controllability. Recent methods for unsupervised disentanglement learning show their promise on simple data but often yield unsatisfactory results on real-world complex data. This issue can be alleviated by incorporating human prior knowledge or additional learning objectives into the disentangling process, which is explored in this dissertation. We propose two disentanglement learning methods with (1) shape supervision and (2) category supervision and employ them for image synthesis. For virtual clothing try-on (VTO) applications, the first method synthesizes clothing segments via disentangling their underlying factors (i.e., shape and style). An encoder separates style features from shape features that are defined as the foreground masks of segments. A generator combines these features to produce clothing segments, which are further superimposed on person images for try-on. Moreover, we propose an evaluation metric to assess how well the generator synthesizes styles. Unlike recent VTO works with full-image synthesis, our disentangling strategy enables segment-level synthesis and yields several benefits including accurate style expression and easy data collection. Experiments on fashion-parsing datasets and a VTO benchmark show the generation of high-quality clothing segments and the superiority of our method over existing synthesis methods. Additionally, we compare our method with neural style transfer and visualize the different concepts of style.For controllable image synthesis, the second method separates the generative factors of images (i.e., content and style) into two latent vectors in a variational autoencoder. Under class supervision with partially available labels, one vector captures content factors relevant to the classification. The other vector captures style factors related to the remaining variation. This separation is boosted by a learning objective to encourage statistical independence between the vectors, called vector independence. We reveal that (i) this independence term exists in decomposing the evidence lower bound with two latent vectors, and (ii) penalizing this term along with the total correlation leads to good disentanglement learning. Experiments on MNIST and Fashion-MNIST datasets demonstrate the effectiveness of our method for improving image classification and synthesis. Furthermore, experiments on dSprites dataset quantitatively show the relation between vector independence and disentanglement. We believe that this research contributes to the advancement of learning disentangled representations and improving controllability of machine learning methods.
분해 표현은 표현 내에서 데이터의 설명가능 생성요소를 분리하며, 해석성과 제어성 같은 바람직한 속성을 제공한다. 비지도 분해표현 학습 최근연구들은 간단한 데이터에 대해 장래성을 보여주지만, 실세계 복잡한 데이터에 대해 만족스럽지 못한 결과를 자주 초래한다. 이 문제는 인간 사전지식 또는 추가적 학습목표 함수를 분해과정에 포함시켜 완화시킬 수 있으며, 이 방향을 본 학위연구에서 탐구한다. 우리는 (1) 형태 지도와 (2) 분류 지도를 각각 이용한 분해표현 학습방법들을 제안하고, 이를 이미지 합성에 활용한다.가상옷입히기 활용을 위해, 첫번째 방법은 의류 세그먼트의 기본요소(형태와 스타일)를 분리하여 합성에 이용한다. 인코더는 스타일 특징과 세그먼트 전경마스크로 정의된 형태 특징을 분리시킨다. 생성기는 이 특징들을 결합하여 세그먼트를 합성하며, 세그먼트는 옷입히기를 위해 사람이미지에 덧붙여진다. 전체이미지 합성 기반의 최근 가상옷입히기 방법과 달리, 우리의 분리전략은 세그멘트 합성을 가능하게 하며 여러 이점(예: 정확한 스타일 표현, 쉬운 데이터 수집)을 제공한다. 패션 파싱 데이터셋들과 옷입히기 벤치마크셋에 대한 실험은 고품질 의류 세그먼트 합성결과 및 기존방법 대비 우리방법의 우수성을 보여준다. 또한, 우리방법과 기존 신경망 스타일전달의 비교를 통해, 서로 다른 개념의 스타일을 시각화한다.제어가능 이미지 합성을 위해, 두번째 방법은 이미지의 생성인자(범주와 스타일)를 변분 오토인코더 내 2개의 잠재 벡터로 분리한다. 부분적 사용가능 레이블이 있는 인식 지도하에서, 하나의 벡터는 범주와 관련된 내용 요소를 포착한다. 다른 벡터는 나머지 정보와 관련된 스타일 요소를 포착한다. 이 분리는 벡터 간의 통계적 독립(벡터 독립성)을 장려하는 학습 목적함수에 의해 강화된다. 우리는 (i) 이 독립성항이 2개의 잠재 벡터를 이용한 데이터확률하한증거수식 분해과정에서 존재하며, (ii) 이 항을 총상관관계항과 같이 줄이는 것이 좋은 분리학습을 초래함을 보여준다. MNIST 및 Fashion-MNIST 데이터셋에 대한 실험은 이미지 분류 및 제어가능 합성 향상을 위한 우리방법의 우수성을 보여준다. 또한, dSprites 데이터셋에 대한 실험은 벡터독립과 분해표현학습의 관계를 수치적으로 보여준다. 우리는 본 학위연구가 분해표현학습 및 기계학습방법의 제어능력 향상 발전에 기여한다고 믿는다.