서지주요정보
(A) speech separation from multi-speaker dialogues under reverberant environment based on enhanced interaural coherence = 잔향이 있는 다중 화자 환경에서의 두 개의 마이크로폰을 이용한 코히런스 기반 음성 분리 기법
서명 / 저자 (A) speech separation from multi-speaker dialogues under reverberant environment based on enhanced interaural coherence = 잔향이 있는 다중 화자 환경에서의 두 개의 마이크로폰을 이용한 코히런스 기반 음성 분리 기법 / Seong-Hu Kim.
저자명 Kim, Seong-Hu ; 김성후
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033534

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MME 19008

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The degenerate unmixing estimation technique (DUET) and model-based expectation-maximization source separation and localization (MESSL) separate the spectrogram based on the histogram. However, accurate histogram separation is difficult because the histogram is distributed around the actual source location and overlap due to the reverberation effect. In addition, since speech recognition performance is lower than that of speech without reverberation, only a direct speech having less reverberation influence should be extracted. In order to solve this problem, the interaural coherence proposed in the previous study is used to isolate spectrogram bins which have a large influence of reverberation. However, it does not apply sufficient ensemble averaging, so we can not exactly see the effect of reverberation. In this research, we tried to apply sufficient ensemble averaging by determining the quasi-steady state interval of speech and the Canny edge detection algorithm, which is used in image processing, is applied to the spectrogram image to determine this interval. Based on the determined interval, the optimal interaural coherence calculation method is applied so that the effect of the reverberation can be seen more accurately for the same resolution. In order to extract only the direct sound source with less effect of reverberation, we proposed a model in which the coherence is applied as a sigmoid function to the MESSL. As a result, we improve the speech separation performance by reducing the distribution of the histogram and extract only the spectrogram bins with less influence of the reverberation, so that the speech recognition performance deteriorates. As a result of this research, it is possible to improve the performance of multiple direct speech separation in a reverberant environment with a small number of microphones and apply it to a mobile device or a companion robot so as to provide better service through improved speech recognition performance.

음성인식 기술에서 언어 처리에 해당하는 후처리 과정의 연구는 인공지능 알고리즘과 연관되어 활발히 진행됨으로써 인식 성능이 매우 향상되었으나 실제 환경에서는 여러 잡음과 다중 화자의 발화, 그리고 잔향으로 인해 제대로 작동하지 못한다. 그러므로 잡음 및 잔향 제거와 잔향이 있는 환경에서의 음성 분리 등에 해당하는 전처리 과정이 필요하다.. 또한, 최근 기술의 동향은 디바이스의 소형화와 모바일 기기 개발에 집중하고 있는 상황이므로 물리적인 한계가 존재하여 최소한의 마이크로폰을 이용해야만 한다. 따라서 본 연구에서는 다중 채널을 이용하는 기술 중 마스크 기반의 음성 분리 기술을 이용하여 마이크 2개만으로 잔향이 있는 환경에서의 음성 분리 모델을 제안하고자 한다. 대표적인 마스크 기반의 음성 분리 기술인 비혼합 추정 기법과 모델 기반의 기댓값-최대화 음원 분리 기법은 분포 그래프를 기반으로 시간-주파수 정보를 분리한다. 하지만 잔향의 영향으로 분포 그래프가 실제 음원 위치를 중심으로 분산된 형태를 나타내기 때문에 서로 겹쳐서 정확한 음성 분리를 하기 어렵다. 또한 잔향이 있는 음성은 없는 음성에 비해 음성인식 성능이 낮아지기 때문에 잔향의 영향이 적은 직접 음성만을 추출해야 한다. 이를 해결하기 위해 기존 연구에서 제안된 코히런스를 이용하여 잔향의 영향이 큰 시간-주파수 구간을 최대한 제외하여 분리하고자 한다. 하지만 기존의 코히런스 계산법은 충분한 시간 구간에 대해 평균을 적용하지 않기 때문에 잔향의 영향을 정확히 볼 수 없다. 본 연구에서는 음성이 안정된 시간 구간을 결정하여 충분한 평균을 적용하고자 하였고 음성은 시간에 따라 변하기 때문에 짧은 시간 구간 내에서는 안정되어 있다고 판단하였다. 이 구간을 결정하기 위해 영상 처리에서 주로 사용하는 캐니의 모서리 감지 알고리즘을 음성의 시간-주파수 영상에 적용하였다. 결정된 구간을 기반으로 최적의 코히런스 계산법을 적용하여 동일한 분해능에 대해 더 정확하게 잔향의 영향을 볼 수 있도록 하였다. 그리고 잔향의 영향이 적은 직접 음원만을 추출하기 위해 모델 기반의 기댓값-최대화 음원 분리 기법에 코히런스를 굽은 형태의 비선형 함수로써 적용한 모델을 제안하였다. 그 결과로 분포 그래프의 분산을 줄임으로써 음성 분리 성능을 향상시키고, 잔향의 영향이 적은 시간-주파수 정보만을 추출하기 때문에 잔향의 영향이 적은 직접 음성만을 분리하여 음성 인식 성능이 저하되는 문제점 또한 해결하고자 한다. 본 연구의 결과로서, 적은 개수의 마이크로폰을 이용하여 잔향이 있는 환경에서 다중 직접 음성 분리 성능을 높이고, 이를 기반으로 모바일 디바이스 또는 컴패니언 로봇에 적용하여 향상된 음성인식 성능을 통해 더 나은 서비스를 제공할 수 있도록 활용할 수 있다.

서지기타정보

서지기타정보
청구기호 {MME 19008
형태사항 iv, 50 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김성후
지도교수의 영문표기 : Yong-Hwa Park
지도교수의 한글표기 : 박용화
Including reference
학위논문 학위논문(석사) - 한국과학기술원 : 기계공학과,
서지주기 References : p. 42-44
주제 Time-frequency masking
speech separation
speech enhancement
reverberation
coherence
시간-주파수 마스킹
음성 분리
음성 품질 향상
잔향
코히런스
QR CODE qr code