서지주요정보
Voice activity detection and speech enhancement based on deep neural network with improved utilization of context information = 심층 신경망의 문맥 정보 활용 향상 기법을 통한 음성 검출기 및 음성 향상에 대한 연구
서명 / 저자 Voice activity detection and speech enhancement based on deep neural network with improved utilization of context information = 심층 신경망의 문맥 정보 활용 향상 기법을 통한 음성 검출기 및 음성 향상에 대한 연구 / Juntae Kim.
저자명 Kim, Juntae ; 김준태
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8034740

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19092

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Automatic speech recognition (ASR) is a one of key techniques for human-machine interaction through human’s voice and has recently been deployed in voice search, car navigation and artificial intelligence speaker. Although ASR accuracy has been greatly improved by deploying deep-learning-based techniques, its consistency still cannot be guaranteed in real environment owing to unpredictable speaking timing, background noise, reverberation and interfering speakers. To build the robust ASR for real environment, various front-end systems have been studied for decades such as voice activity detection, speech enhancement, de-reverberation and source separation. Conventionally, most of them depend on signal processing techniques and contributed to the robustness for ASR, however, still have some limitations due to their modeling assumptions to the speech and noise environments. In recent, deep-learning-based front-end systems have outperformed the signal processing ones. In this dissertation, we study and develop deep-learning-based techniques for two major sub-disciplines of front-end systems: single-microphone voice activity detection (VAD) and single-microphone speech enhancement (SE). Specifically, we focus on improving the utilization of context information within speech signal for our models for VAD and SE, as context information has been known to a crucial asset for deep-learning-based, speech-related applications. For VAD, the context information (CI) of speech signal has considered to one of key information to detect the speech from noisy signal. Although CI of speech signal is a relevant VAD asset, its usefulness can vary in unpredictable noise environments i.e. according to noise types, the importance of long-short term CI can be changed. Therefore, its usage should be adaptively adjustable to the noise type. This dissertation improves the use of context information by using an adaptive context attention model (ACAM) with a novel training strategy for effective attention, which weights the most crucial parts of the context for proper classification. Experiments in real-world scenarios demonstrate that the proposed ACAM-based VAD outperforms the other baseline VAD methods. For SE, a novel neural network architecture called two-stage network (TSN) with a multi-objective learning method (MOL) for an efficient boosting strategy (BS) is proposed to deploy various CI with reasonable computational cost. BS is an ensemble method using multiple base predictions (MBPs) for better final prediction. Due to the necessity of MBPs, the computational cost and model size of BS based methods are excessive than that of a single model. In this regard, TSN firstly obtains MBPs from different CI by using a single deep neural network. Then, to obtain better final prediction, the convolution layers of TSN aggregate not only MBP but also some auxiliary information such as contextual information, while adaptively filtering out some unnecessary information e.g., poor base predictions. At the training phase, MOL enables all stages of TSN to learn jointly, while allowing the TSN framework to embed a BS. Our experimental results confirm that the embedded BS leads the TSN to outperform other baseline methods with a reasonably low computational cost and model size. Further, we propose auxiliary methods to lead the improvement of VAD to that of ASR. As VAD is frame-level classifier, it should be changed to utterance-level classifier for ASR. To achieve this, additional state transition model (STM) that cooperating with VAD is proposed and VAD with STM is often referred to as end-point detection (EPD). Finally, we carry out in-depth empirical analysis of the effect of proposed EPD and SE to the speech recognition performance.

음성인식은 인간과 기계가 인간의 목소리를 통해 소통하기 위한 중요한 기술 중 하나이다. 음성인식 기술의 활용 사례로는 음성 검색, 차량 네비게이션 그리고 인공지능 스피커 등이 있다. 최근 각광받는 심층 신경망 기술을 기반으로 음성인식의 성능이 이전에 비해 많이 향상 되었지만 실제 환경에서 높은 성능을 일정하게 얻는 것은 화자의 불규칙한 발화하는 시점, 예측할 수 없는 잡음 및 다른 화자의 발화 간섭 문제 때문에 여전히 도전적인 과제이다. 이러한 실제 환경에서 강건한 음성인식 성능을 얻기 위해 다양한 전처리 기술들이 연구되어왔다. 대표적으로 음성 검출기, 음질 향상, 반향 제거 및 음원 분리 기술 등이 있다. 전통적으로, 전처리 기술들은 신호 처리 기술에 기반하여 연구되어왔다. 전처리 기술을 통해 실제 환경에서 음성인식 성능이 어느정도 개선 되었지만, 신호처리 기술들의 음성과 환경에 대한 여러 가정들 때문에 특정 환경에서만 음성 인식 성능이 개선되는 등의 한계가 남아있었다. 최근에는 전처리 기술에도 심층 신경망을 활용하여 신호처리 기술들이 가지고 있던 고질적인 문제를 해결하려는 시도가 이루어 지고 있다. 기존의 여러 심층 신경망 기반 전처리 연구에 따르면, 음성 신호의 문맥 정보가 전처리 기술들의 성능 향상에 있어서 중요한 정보로 알려져 있다. 따라서 문맥 정보를 잘 활용할 수 있는 모델을 구축하는 것이 전처리 기술들의 성능 향상에 있어 중요한 요점이 될 수 있다. 본 학위 논문에서는 여러 전처리 기술들 중 심층 신경망 기반의 음성 검출기와 음질 향상을 위한 음성 신호의 문맥 정보 활용 향상 기법에 대한 연구를 주로 수행하였다. 음성 검출기에서 음성 신호의 문맥 정보는 잡음 신호로부터 음성을 검출하는 데 있어 중요한 정보이다. 하지만 모든 문맥 정보가 항상 음성 검출기에 도움이 되는 것은 아니다. 잡음 환경에 따라 단 시간 문맥 정보가 중요할 수도 있고 장 시간 문맥 정보가 중요할 수도 있기 때문이다. 따라서 이러한 문맥 정보의 활용은 잡음 환경에 따라 적응적으로 변해야 한다. 이러한 기능이 가능하도록 본 학위논문에서는 적응적 문맥 주의 모델 (ACAM)을 제안하였다. 실제 환경에서 실험 결과 ACAM 기반의 음성 검출기가 다른 최신의 음성검출기보다 성능이 뛰어난 것을 관측할 수 있었다. 음질 향상을 위해서는 두 단계 신경망 (TSN)과 다중 목적 학습 기법 (MOL)이 제안 되었다. TSN과 MOL은 계산 비용은 최소화 하면서 다양한 문맥 정보를 활용하기 위해서 연구된 모델이다. TSN은 먼저 다양한 문맥 정보를 통해 여러 개의 음질 향상 예측 결과를 도출한다 (MBP). 그리고 MBP는 한번의 과정을 더 거쳐 최종적인 음질 향상 예측 결과를 얻는다. 이러한 과정은 기계학습 분야에서 boosting 기법으로 알려져 있으며 boosting은 통상적으로 성능 향상은 있으나 계산 비용이 증가하는 단점이 있다. TSN과 MOL은 boosting을 통해 성능 향상은 유지하면서 계산 비용은 증가하지 않도록 설계되었다. 실험 결과 TSN은 여러 최신의 음성 향상 기법들 보다 성능이 우수할 뿐만 아니라 낮은 계산 비용을 보였다. 추가적으로, 음성 검출기의 수행이 문장 단위로 이루어 지도록 상태 전이 모델을 제안하였다. 왜냐하면 음성 검출기는 프레임 단위로 음성과 비음성이 구별되기 때문에 직접적으로 음성 인식기의 전처리 기술로써 사용되기에는 적합하지 않기 때문이다. 따라서 음성 검출기 이후, 상태 전이 모델등을 통한 후처리 기법이 필요하다. 최종적으로, 본 학위 논문에서는 제안한 음성 검출기와 음질 향상이 음성 인식 성능에 미치는 영향을 다양한 환경에서 조사하였으며 잡음 환경에서 음성 검출기와 음질 향상 기법을 적용하는 것이 음성 인식 성능을 개선시킬 수 있는 것을 실험적으로 증명하였다.

서지기타정보

서지기타정보
청구기호 {DEE 19092
형태사항 iv, 83 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김준태
지도교수의 영문표기 : Minsoo Hahn
지도교수의 한글표기 : 한민수
수록잡지명 : "Voice Activity Detection Using an Adaptive Context Attention Model". IEEE Signal Processing Letters, v. 25. no. 8, pp. 1181-1185(2018)
수록잡지명 : "Speech Enhancement Using a Two-Stage Network for an Efficient Boosting Strategy". IEEE Signal Processing Letters, v. 26. no. 5, pp. 770-774(2019)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 71-80
주제 voice activity detection
end-point detection
speech enhancement
speech recognition
음성 검출기
음질 향상
음성인식
QR CODE qr code