서지주요정보
(A) unified deep learning framework for short-duration speaker verification in adverse environments = 열악한 환경에서의 짧은 발화 화자 검증을 위한 딥러닝 기반 통합 프레임워크에 관한 연구
서명 / 저자 (A) unified deep learning framework for short-duration speaker verification in adverse environments = 열악한 환경에서의 짧은 발화 화자 검증을 위한 딥러닝 기반 통합 프레임워크에 관한 연구 / Youngmoon Jung.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038498

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 22024

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Speaker verification (SV) has recently attracted considerable research interest due to the growing popularity of speech-based virtual assistants. At the same time, there is an increasing requirement for an SV system: it should be robust to short speech segments, especially in noisy and reverberant environments. In this dissertation, we consider one more important requirement for practical applications: the SV system should be robust to an audio stream containing long non-speech segments, where a voice activity detection (VAD) is not applied. To meet these requirements, we propose Group Speaker, feature pyramid module (FPM)-based multi-scale aggregation (MSA), and self-adaptive soft VAD (SAS-VAD). To deal with short speech segments in noisy and reverberant environments, we present the Group Speaker and FPM-based MSA. At first, in the Group Speaker, deep speaker embedding learning incorporates the group information of speakers into a speaker embedding by learning group embeddings. After aggregating multiple group embeddings into a single embedding vector, we combine this with a deep speaker embedding to generate the final speaker embedding called group-aware speaker embedding. With this additional group information, we can reduce the set of speaker candidates that need to be recognized by a speaker embedding, thus effectively handling short utterances. Second, the MSA, which utilizes multi-scale features from different layers of the feature extractor, has recently been introduced and shows superior performance for variable-duration utterances. To further increase the robustness dealing with utterances of arbitrary duration, we improve the MSA by using the FPM. The module enhances speaker-discriminative information of features from multiple layers via a top-down pathway and lateral connections. We extract speaker embeddings using the enhanced features that contain rich speaker information with different time scales. Third, we use the SAS-VAD to increase the robustness to long non-speech segments. The SAS-VAD is a combination of soft VAD and self-adaptive VAD. The soft VAD performs a soft selection of frame-level features extracted from a speaker feature extractor. The frame-level features are weighted by their corresponding speech posteriors estimated from the DNN-based VAD, and then aggregated to generate a speaker embedding. The self-adaptive VAD fine-tunes the pre-trained VAD on the speaker verification data to reduce the domain mismatch. Fourth, we apply a masking-based speech enhancement (SE) method to further improve the robustness to acoustic distortions (i.e., noise and reverberation). Finally, we combine SV, VAD, and SE models in a unified deep learning framework and jointly train the entire network in an end-to-end manner. To the best of our knowledge, this is the first work combining these three models in a deep learning framework. We conduct experiments on Korean indoor (KID) and VoxCeleb datasets, which are corrupted by noise and reverberation. The results show that the proposed method is effective for SV in the challenging conditions and performs better than the baseline i-vector and deep speaker embedding systems.

최근 음성 기반 가상 비서(virtual assistant)의 인기가 점점 높아짐에 따라, 화자검증(speaker verification) 기술의 연구가 많은 각광을 받고 있다. 그와 동시에 화자검증 시스템에 대한 요구 사항이 증가하고 있는데, 이는 화자검증 시스템이 잡음 및 잔향이 심한 열악한 환경에서 짧은 발화에 대한 강건성이 높아야 한다는 것이다. 본 학위 논문에서는 이러한 요구 사항 뿐 아니라, 실제 애플리케이션 관점에서 중요한 요구 사항을 한 가지 더 고려한다. 그것은 화자 검증 시스템이 음성 검출(voice activity detection, VAD)이 적용되지 않은 상황에서 긴 비음성 구간이 포함된 입력 음성에 대해 높은 강건성을 가져야 한다는 것이다. 이러한 요구 사항들을 충족시키기 위하여 그룹 화자(Group Speaker) 방식, 특징 피라미드 모듈(feature pyramid module) 기반의 다중 스케일 통합(multi-scale aggregation) 방식, 그리고 자기 적응 소프트 음성 검출(self-adaptive soft VAD) 방식을 제안한다. 우선, 잡음 및 반향이 심한 환경에서 짧은 발화에 대한 강건성을 높이기 위하여 그룹 화자 방식과 특징 피라미드 모듈 기반의 다중 스케일 통합 방식을 제시한다. 첫번째 방식인 그룹 화자 방식은 심층 화자 임베딩 학습(deep speaker embedding learning) 기반의 시스템이 그룹 임베딩을 학습하도록 하며, 이를 통해 화자의 그룹 정보를 화자 임베딩에 주입한다. 여러 그룹 임베딩들을 하나의 임베딩 벡터로 취합한 후 이것을 심층 화자 임베딩(deep speaker embedding)에 더해줌으로써, 최종적인 화자 임베딩인 그룹 인지 화자 임베딩(group-aware speaker embedding)을 생성한다. 이러한 추가적인 그룹 정보를 통해 화자 임베딩이 나타내는 화자 후보의 집합을 줄일 수 있으며, 이를 통해 짧은 발화를 효과적으로 다룰 수 있다. 두번째 방식인 다중 스케일 통합 방식은 특징 추출기의 여러 레이어로부터 추출된 다중 스케일의 특징을 이용하는 방식으로, 최근에 화자 검증 분야에 도입되어 다양한 길이의 발화에 대해 좋은 성능을 보여주고 있다. 본 학위 논문에서는 임의의 길이를 갖는 발화에 대한 강건성을 더 높이기 위하여, 특징 피라미드 모듈을 제안한다. 특징 피라미드 모듈은 하향식 경로와 측면 연결을 통해 여러 레이어로부터 추출된 특징들의 화자 변별 정보를 향상한다. 이러한 풍부한 화자 정보를 담은, 다양한 시간 스케일의 개선된 특징들을 이용하여 화자 임베딩을 추출한다. 세번째, 긴 비음성 구간에 대한 강건성을 위해 자기 적응 소프트 음성 검출 방식을 제시한다. 이 방식은 소프트 음성 검출(soft VAD)과 자기 적응 음성 검출(self-adaptive VAD)의 결합이다. 소프트 음성 검출은 화자 특징 추출기로부터 추출된 프레임 단위의 특징을 소프트 선택(soft selection)하는 방식으로, 프레임 단위의 특징과 각각의 음성 확률의 가중합을 통해 화자 임베딩을 생성한다. 자기 적응 음성 검출은 도메인 불일치를 줄이기 위하여 기훈련된 음성 검출기를 화자 검증 데이터로 미세 조정한다. 네번째로 잡음 및 반향과 같은 음성 왜곡에 대한 강건성을 더욱 증진시키기 위하여 마스킹 기반의 음질 개선(speech enhancement) 방식을 적용한다. 최종적으로 화자 검증, 음성 검출 그리고 음질 개선 모델을 하나의 통합된 딥러닝 프레임워크로 결합하며, 통합된 전체 네트워크를 엔드 투 엔드(end-to-end) 방식으로 통합 학습시킨다. 확인한 바에 따르면, 이 연구는 세 가지 모델을 딥러닝 프레임워크로 결합한 최초의 연구이다. 잡음 및 반향에 오염된 데이터셋인 Korean indoor (KID) 데이터셋과 VoxCeleb 데이터셋을 이용하여 실험을 수행하였다. 실험 결과를 통해 제안한 방식이 열악한 환경에서 화자 검증에 효과적임을 확인할 수 있었으며, 베이스라인 i-vector 및 심층 화자 임베딩 시스템들보다 더 좋은 성능을 보인다는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DEE 22024
형태사항 iv, 59 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정영문
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
수록잡지명 : "A unified deep learning framework for short-duration speaker verification in adverse environments". IEEE Access, v.8, pp. 175448-175466(2020)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 49-55
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서