Few-shot TTS is a useful but challenging task where we have to mimic a new style given a short reference speech. A popular approach for tackling this problem is to rely on architecture bottleneck for extracting style embedding. However, this approach may have robustness issues if the extracted embedding is not independent of text input, or relevance to speaker identity might be limited due to the bottleneck. In this study, we propose to use adversarial contrastive learning to extract style independent of text. Furthermore, we propose to use supervised contrastive learning to reinforce relevance to speaker identity and utilize rich representation learned by contrastive learning. Quantitative evaluation on benchmark dataset is performed in order to show that our method indeed improves robustness and relevance to speaker identity.
짧은 음성 샘플만으로 새로운 목소리를 모방하는 퓨샷(few-shot) TTS는 유용하지만 어려운 문제이다. 이 문제를 딥러닝으로 해결하는 최근 연구들은 모델 아키텍쳐상의 병목에 의존하여 스타일을 추출하는 방식을 많이 사용한다. 다만, 이러한 방식으로는 텍스트와 독립적인 스타일을 추출하지 못하여 안정성 문제가 생기거나, 병목으로 인해 화자와의 연관성 또한 떨어질 수 있다. 본 연구에서는 적대적인 대조학습을 통해 텍스트와 독립적인 스타일을 추출하는 것을 제안한다. 또한, 지도 대조학습을 통해 화자와의 연관성이 높은 스타일을 추출하도록 유도하고 대조학습의 표현학습 역량을 사용하는 것을 제안한다. 벤치마크 데이터셋 실험과 정량적 평가를 통해 제시된 방법이 퓨샷 TTS에서의 안정성 및 화자 연관성 개선에 도움이 된다는 것을 확인한다.