서지주요정보
Extracting TTS style via adversarial and supervised contrastive learning = 적대적 및 지도 대조 학습을 통한 TTS 스타일 추출
서명 / 저자 Extracting TTS style via adversarial and supervised contrastive learning = 적대적 및 지도 대조 학습을 통한 TTS 스타일 추출 / Eunhyouk Shin.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039057

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 22008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Few-shot TTS is a useful but challenging task where we have to mimic a new style given a short reference speech. A popular approach for tackling this problem is to rely on architecture bottleneck for extracting style embedding. However, this approach may have robustness issues if the extracted embedding is not independent of text input, or relevance to speaker identity might be limited due to the bottleneck. In this study, we propose to use adversarial contrastive learning to extract style independent of text. Furthermore, we propose to use supervised contrastive learning to reinforce relevance to speaker identity and utilize rich representation learned by contrastive learning. Quantitative evaluation on benchmark dataset is performed in order to show that our method indeed improves robustness and relevance to speaker identity.

짧은 음성 샘플만으로 새로운 목소리를 모방하는 퓨샷(few-shot) TTS는 유용하지만 어려운 문제이다. 이 문제를 딥러닝으로 해결하는 최근 연구들은 모델 아키텍쳐상의 병목에 의존하여 스타일을 추출하는 방식을 많이 사용한다. 다만, 이러한 방식으로는 텍스트와 독립적인 스타일을 추출하지 못하여 안정성 문제가 생기거나, 병목으로 인해 화자와의 연관성 또한 떨어질 수 있다. 본 연구에서는 적대적인 대조학습을 통해 텍스트와 독립적인 스타일을 추출하는 것을 제안한다. 또한, 지도 대조학습을 통해 화자와의 연관성이 높은 스타일을 추출하도록 유도하고 대조학습의 표현학습 역량을 사용하는 것을 제안한다. 벤치마크 데이터셋 실험과 정량적 평가를 통해 제시된 방법이 퓨샷 TTS에서의 안정성 및 화자 연관성 개선에 도움이 된다는 것을 확인한다.

서지기타정보

서지기타정보
청구기호 {MAI 22008
형태사항 iii, 21 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신은혁
지도교수의 영문표기 : Eunho Yang
지도교수의 한글표기 : 양은호
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 16-19
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서