Synthetic speech detection is a task that decides whether an input speech is from human or synthetic speech system such as a text-to-speech (TTS) or voice conversion (VC). Recent advances in sophisticated synthetic speech generated from TTS or VC systems cause threats to the existing automatic speaker verification (ASV) systems. Also, there is a possibility for abuse of human-like synthetic speech in crimes such as impersonation or fake news. Since such synthetic speech is generated from the diverse algorithms, generalization ability with using limited training data is indispensable for a robust synthetic speech detection system. In this thesis, we propose a self-supervised learning scheme based on the wav2vec 2.0 pretrained model with variational information bottleneck (VIB) for the synthetic speech detection task to improve the generalization ability. Evaluation on the ASVspoof 2019 logical access (LA) database shows that our method improves the performance of distinguishing unseen synthetic speech and genuine speech, outperforming current state-of-the-art synthetic speech detection systems. Furthermore, we show that the proposed system improves performance in low-resource and cross-dataset settings of the synthetic speech detection task, demonstrating that our system is also robust in terms of data size and data distribution. Finally, we also propose a Korean synthetic speech detection system using self-supervised learning by constructing corresponding dataset.
합성음성 탐지는 주어진 입력 음성이 사람으로부터 나온 것인지, 또는 음성 합성 (text-to-speech)이나 음색 변환 (voice conversion) 시스템으로부터 생성된 것인지 판단하는 시스템을 의미한다. 최근 음성 합성 또는 음색 변환 시스템으로부터 생성된 정교한 합성음성들의 발전은 기존의 자동 화자 검증 시스템에 위협을 가하고 있다. 또한 이러한 사람과 유사한 합성음성은 사칭이나 가짜 뉴스와 같은 범죄에 악용될 여지가 있다. 이러한 합성음성들은 다양한 알고리즘으로부터 생성되기 때문에, 강건한 합성음성 탐지 시스템을 위하여 제한된 훈련 데이터로 일반화 하는 능력이 필수적이다. 본 학위 논문에서는 합성음성 탐지 시스템의 일반화 능력을 향상시키기 위하여, 사전 훈련된 wav2vec 2.0 모델을 기반으로 한 자기지도 학습과 함께 변분 정보 병목의 활용을 제안한다. ASVspoof 2019 logical access 데이터베이스로 평가하였을 때, 제시한 방법이 훈련 중에 본 적 없는 합성음성을 구별하는 성능을 증가시켰고 기존 최고 성능 모델의 성능을 상회함을 보였다. 나아가, 제안한 시스템이 합성음성 탐지의 low-resource 세팅과 cross-dataset 세팅에서 성능을 증가시킴을 보이며 데이터 양과 분포에 강인함을 보여주었다. 최종적으로, 한국어 데이터셋을 구성하여 자기지도 학습을 활용한 한국어 합성음성 탐지 시스템 또한 제안하였다.