서지주요정보
Embedding approach based speech enhancement robust for noise and speaker variability = 임베딩 접근 기반의 잡음과 화자 변이에 강인한 음성 향상에 관한 연구
서명 / 저자 Embedding approach based speech enhancement robust for noise and speaker variability = 임베딩 접근 기반의 잡음과 화자 변이에 강인한 음성 향상에 관한 연구 / Joohyung Lee.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037205

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21069

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Noise and speaker variations can degrade the performance of deep learning-based speech enhancement (SE) system. One of the ways to overcome these issues is that the SE model is adaptively trained by covering information about background noise or speaker in training stage so that then the SE model can produce the result optimal to unseen noise or speaker in inference stage. To make SE system robust to these variations, we propose 2 types of embedding that represent the information about background noise and speaker. Also, to improve the representation ability of each embedding, voice activity detection (VAD) is used ahead of SE. The speech presence probability obtained from VAD is used to focus on non-speech frames when extracting the noise-related embedding, the dynamic noise embedding (DNE), and speech frames when extracting the speaker-related embedding, the deep speaker embedding (DSE). This approach also flexibly resolves the chicken-and-egg problem associated with the order of use of the VAD and SE. In VAD, 3 types of attention module are proposed to improve the performance of VAD. The temporal attention (TA) and frequential attention (FA) can make attention vector containing temporal and frequential attention, respectively. These attention vectors can improve the performance of VAD by concentrating on important components of hidden states. The dual attention (DA) using both modules shows the best results and is used to show the correlation of VAD and SE. Experiments are conducted on TIMIT dataset for single-channel denoising task and convolutional recurrent neural network (CRNN) is used as baseline. Experimental results show that the DNE and DSE play an important role in the SE model by increasing the quality and the intelligibility of corrupted speech signal even if the noise and speaker are unseen. In addition, through ablation studies, we show that not only the performance of VAD but the performance of SE is improved by applying proposed attention module to VAD model.

잡음과 화자 변이는 음성 향상(speech enhancement, SE) 시스템의 성능을 하락시키는 주된 요인들이다. 이를 극복하기 위한 방법 중 하나는 배경 잡음과 화자에 관한 정보를 포함시켜서 음성 향상 시스템을 적응적으로 훈련시킨 뒤 시험 단계에서도 새로운(unseen) 잡음과 화자에 대해서도 최적의 결과를 보일 수 있게 하는 것이다. 본 학위 논문에서는 이러한 변이들에 강인한 음성 향상 시스템을 만들기 위하여 배경 잡음과 화자의 정보를 나타내는 2 종류의 임베딩(embedding)을 제안하였다. 또한 각 임베딩들의 표현 능력을 증가시키기 위해 음성 검출기(voice activity detection, VAD)를 음성 향상 시스템보다 먼저 사용하였다. 음성 검출기를 통해 얻은 음성 존재 확률은 잡음 관련 임베딩인 동적 잡음 임베딩(dynamic noise embedding, DNE)을 추출할 때에는 비음성 구간에 집중하고, 화자 관련 임베딩인 깊은 화자 임베딩(deep speaker embedding, DSE)을 추출할 때에는 음성 구간에 집중하도록 사용되었다. 이러한 접근을 통해 음성 검출기와 음성 향상 시스템의 사용 순서와 관련된 닭과 달걀의 문제도 유연하게 대처하였다. 음성 검출기의 경우 3 종류의 어텐션 모듈(attention module)을 제안하였다. 시간 어텐션(temporal attention, TA)과 주파수 어텐션(frequential attention, FA)은 각각 시간과 주파수와 관련된 어텐션 벡터(attention vector)를 추출한다. 이러한 어텐션 벡터들을 은닉 상태(hidden states) 내 중요한 성분에 집중하며 음성 검출기의 성능을 향상시킨다. 두 방식을 모두 이용하는 이중 어텐션(dual attention, DA)은 가장 우수한 성능을 보이며 음성 검출기의 성능과 음성 향상 시스템의 성능 사이의 상관관계를 보이기 위해 사용된다. 실험은 TIMIT 데이터 상에서 단일 채널 잡음 제거를 중점적으로 다루었으며 기준으로는 합성곱 순환 신경망을 사용하였다. 실험 결과를 통해 제안된 동적 잡음 임베딩과 깊은 화자 임베딩 모두 새로운 잡음과 화자임에도 불구하고 손상된 음성 신호의 음질과 명료도를 향상시키는데 중요한 역할을 하였다. 또한 실험(ablation study)을 통해 임베딩들을 추출할 때 음성 검출기의 영향을 확인하였고 제안된 어텐션 기법을 적용한 음성 검출기를 사용하였을 때 음성 검출기의 성능뿐만 아니라 음성 향상 시스템의 성능도 향상시킬 수 있었다.

서지기타정보

서지기타정보
청구기호 {MEE 21069
형태사항 iv, 52 p : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이주형
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 41-49
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서