서지주요정보
시간적 적응 정규화와 전역 스타일 토큰을 이용한 비병렬 음색변환 = Non-parallel voice conversion using temporally adaptive normalization and global style token
서명 / 저자 시간적 적응 정규화와 전역 스타일 토큰을 이용한 비병렬 음색변환 = Non-parallel voice conversion using temporally adaptive normalization and global style token / 엄지섭.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037186

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21050

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Voice conversion (VC) converts speaker characteristics of the source speaker to ones of target speaker without modifying the linguistic content. Recently many researchers have studied non-parallel voice conversion to relax the burden of collecting parallel data and one-shot voice conversion to overcome the limitation that conversion is possible only for the speakers seen during the training. Although many researches improve performance of the converted speech, they are still insufficient in both similarity and naturalness. To enhance the quality of the generated speech, we implement global style tokens as style encoder to generate a sound more close to the target speaker's voice and a temporally adaptive normalization method to propagate the speaker information as well as the linguistic information through the model network. These methods are applied to ASR-based non-parallel voice conversion. We attempt to expand it to one-shot VC by using pre-trained speaker recognition model. We evaluated our proposed model through the subjective and objective evaluation, and these evaluations show that speech quality is better than the previous baseline methods in terms of the speaker similarity and the naturalness. We conducted an ablation study to check how the proposed methods affect the performance, and it shows that GSTs enhance the performance in terms of the speaker similarity, and a temporally adaptive normalization increases performance a lot in terms of naturalness.

음색변환은 언어 정보를 담고 있는 내용은 그대로 유지하면서 소스 화자의 화자 특성을 목표 화자의 특성으로 변환시켜주는 시스템이다. 최근 들어 소스 화자와 목표 화자의 발화 내용이 전부 같게 구성된 코퍼스를 구하는 것이 어려워 이를 해결하고자 비병렬 음색변환이 주로 연구되고 있다. 또한, 훈련 과정에서 본 화자에 대해서만 변환이 가능하다는 한계를 해결하고자 훈련 과정에서 본 적이 없는 화자에 대해서도 하나의 발화만을 이용해 변환하는 원샷 음색변환이 등장하였다. 다방면으로 연구가 발전되면서 성능이 향상되었지만 여전히 원음과 비교했을 때 음색 유사도와 자연성 측면 모두에서 여전히 부족함을 보이고 있다. 본 연구에서는 음성인식기 기반의 비병렬 음색변환 시스템에 2가지 방법을 적용하여 음색 유사도와 자연성 측면에서 성능을 높이고자 한다. 음의 높낮이와 같은 말하는 스타일 정보를 전역 스타일 토큰을 통해 임베딩으로 추출하고 이를 모델에 추가 정보로써 활용하여 좀 더 목표 화자에 가까운 소리가 나도록 했으며 화자 정보뿐만 아니라 언어 정보에 대해서도 모델 네트워크에 전달해주는 시간적 적응 정규화 기법을 적용하여 자연성 부분에서 개선하였다. 추가로 본 연구에서는 선행 학습된 화자 인식기를 사용하여 원샷 음색변환으로 확장을 시도한다. 객관 평가와 주관 평가를 통해 본 연구에서 제안한 모델을 평가하고 이 평가들은 기존의 모델보다 음색 유사도와 자연성 측면 모두에서 더 좋은 성능을 보인다는 것을 입증하였다.

서지기타정보

서지기타정보
청구기호 {MEE 21050
형태사항 iv, 43 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Ji Sub Um
지도교수의 한글표기 : 김회린
지도교수의 영문표기 : Hoirin Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 40-42
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서