서지주요정보
Synthetic speech detection using self-supervised learning and variational information bottleneck = 자기지도 학습과 변분 정보 병목을 활용한 합성음성 탐지에 관한 연구
서명 / 저자 Synthetic speech detection using self-supervised learning and variational information bottleneck = 자기지도 학습과 변분 정보 병목을 활용한 합성음성 탐지에 관한 연구 / Youngsik Eom.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040768

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23061

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Synthetic speech detection is a task that decides whether an input speech is from human or synthetic speech system such as a text-to-speech (TTS) or voice conversion (VC). Recent advances in sophisticated synthetic speech generated from TTS or VC systems cause threats to the existing automatic speaker verification (ASV) systems. Also, there is a possibility for abuse of human-like synthetic speech in crimes such as impersonation or fake news. Since such synthetic speech is generated from the diverse algorithms, generalization ability with using limited training data is indispensable for a robust synthetic speech detection system. In this thesis, we propose a self-supervised learning scheme based on the wav2vec 2.0 pretrained model with variational information bottleneck (VIB) for the synthetic speech detection task to improve the generalization ability. Evaluation on the ASVspoof 2019 logical access (LA) database shows that our method improves the performance of distinguishing unseen synthetic speech and genuine speech, outperforming current state-of-the-art synthetic speech detection systems. Furthermore, we show that the proposed system improves performance in low-resource and cross-dataset settings of the synthetic speech detection task, demonstrating that our system is also robust in terms of data size and data distribution. Finally, we also propose a Korean synthetic speech detection system using self-supervised learning by constructing corresponding dataset.

합성음성 탐지는 주어진 입력 음성이 사람으로부터 나온 것인지, 또는 음성 합성 (text-to-speech)이나 음색 변환 (voice conversion) 시스템으로부터 생성된 것인지 판단하는 시스템을 의미한다. 최근 음성 합성 또는 음색 변환 시스템으로부터 생성된 정교한 합성음성들의 발전은 기존의 자동 화자 검증 시스템에 위협을 가하고 있다. 또한 이러한 사람과 유사한 합성음성은 사칭이나 가짜 뉴스와 같은 범죄에 악용될 여지가 있다. 이러한 합성음성들은 다양한 알고리즘으로부터 생성되기 때문에, 강건한 합성음성 탐지 시스템을 위하여 제한된 훈련 데이터로 일반화 하는 능력이 필수적이다. 본 학위 논문에서는 합성음성 탐지 시스템의 일반화 능력을 향상시키기 위하여, 사전 훈련된 wav2vec 2.0 모델을 기반으로 한 자기지도 학습과 함께 변분 정보 병목의 활용을 제안한다. ASVspoof 2019 logical access 데이터베이스로 평가하였을 때, 제시한 방법이 훈련 중에 본 적 없는 합성음성을 구별하는 성능을 증가시켰고 기존 최고 성능 모델의 성능을 상회함을 보였다. 나아가, 제안한 시스템이 합성음성 탐지의 low-resource 세팅과 cross-dataset 세팅에서 성능을 증가시킴을 보이며 데이터 양과 분포에 강인함을 보여주었다. 최종적으로, 한국어 데이터셋을 구성하여 자기지도 학습을 활용한 한국어 합성음성 탐지 시스템 또한 제안하였다.

서지기타정보

서지기타정보
청구기호 {MEE 23061
형태사항 iv, 38 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 엄영식
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 31-36
주제 Synthetic speech detection
Variational information bottleneck
Self-supervised learning
합성음성 탐지
변분 정보 병목
자기지도 학습
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서