서지주요정보
Speech enhancement utilizing input correlation matrix characteristics for dual- and speech presence probability for multi-channel = 입력 상관행렬의 특성과 음성존재확률을 이용한 멀티채널 음성강화에 관한 연구
서명 / 저자 Speech enhancement utilizing input correlation matrix characteristics for dual- and speech presence probability for multi-channel = 입력 상관행렬의 특성과 음성존재확률을 이용한 멀티채널 음성강화에 관한 연구 / Jungpyo Hong.
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029835

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 16047

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The ultimate goal of speech enhancement should be ‘maximal noise reduction with minimal speech distortion.’ Since Norbert Wiener proposed an optimum filter derived from the unconstrained optimization problem by minimizing the total estimation error, speech enhancement technology has exceedingly progressed. However, single channel-based speech enhancement techniques inevitably cause signal distortion in return for noise reduction. In particular, the performance degradation becomes much worse in case for nonstationary noises. As for the remedy of the problem of the nonstationary noise, researches on microphone array-based noise reduction area have achieved great advances in blind source separation (BSS) and adaptive beamforming (ABF). Nonetheless, still BSS methods have to be improved in their practicality more in order to be used for real-time noise reduction and ABF methods need an effort to overcome the signal cancellation caused by inaccurate time-alignment in adverse noisy environments. Recently, some researchers have reported that especially for nonstationary noise reduction, multiple-input-multiple-output (MIMO)-based methods are superior to the generalized sidelobe canceller which is the representative ABF method. Hence, it becomes very natural that our work is focused on the performance improvement of the MIMO-based speech enhancement methods. MIMO-based noise reduction methods are primarily based on the SNR estimation with second-order statistics of noise-corrupted inputs and estimated noises without any additional information. In general, they can be largely classified into the parameterized multichannel Wiener filter (PMWF) and multi-channel subspace-based filters (MSFs). The PMWF is comparatively efficient and easy to implement whereas MSFs are computationally demanding due to the data-dependent transformation, i.e., singular value decomposition or eigenvalue decomposition. Nevertheless, MSFs have great potential to surpass the PMWF in noise reduction performance due to the optimal signal decomposition. In addition, as a special case of the MIMO-based methods, a dual-microphone noise reduction method based on the phase difference of two microphones presented outstanding noise reduction performance. However, the phase-based method extrinsic to magnitude information can become vulnerable in reverberant and adverse noisy environments. In order to contribute to solve the above problems, we proposed two methods. First, an MSF named as an optimal filter in spatiospectral domain (OFSS) is derived, the MC-SPP in that domain is also defined, and gain modification of the OFSS using the MC-SPP is proposed. In this method, we decompose each frequency bin of the multichannel inputs (a power spectral density matrix) into smaller units such as eigenvectors or subspaces in order to perform more delicate and efficient noise reduction. Especially, the proposed OFSS alleviates computational burden and improves the viability of MSFs compared to the existing MSF methods. This approach is proved to be effective by the simulation results although it still needs further improvements. Second, , a novel dual-microphone-based noise reduction method based on the determinant analysis on the input correlation matrix is proposed. Through the analysis, an equation established between determinants of the noise-corrupted input and noise correlation matrices is derived. Using the equation, a prominent feature for speech activity detection to update noise statistics and SNR estimation to obtain the Wiener filter is extracted. Through the evaluation with the database collected in a real car environment, it is proved that the proposed dual-microphone-based method outperforms the state-of-the-art dual-microphone noise reduction method.

음성강화의 궁극적인 목적은‘최소의 음성왜곡을 갖는 최대 잡음제거’이어야 한다. Norbert Wiener가 전체 추정 오류를 최소화하는 비제한적 최적화 문제로부터 파생된 최적 필터를 제안한 이래로, 음성강화 기술은 상당한 진보를 해왔다. 그러나, 단채널 기반의 음성강화 기술들은 잡음제거의 반대급부로 불가피하게 신호왜곡을 야기시켰다. 특히, 잡음이 비정상적일 경우, 성능 저하가 더욱 뚜렷하여, 이러한 비정상성 잡음에 대한 해결책으로 마이크로폰 배열 기반의 잡음제거 연구자들은 암묵신호분리와 적응형 빔포밍 기술에서 괄목할만한 성과를 이룩하였다. 그럼에도 불구하고, 여전히 암묵신호분리 기술은 실시간 잡음제거를 위해 활용되기 위해서는 실용성을 향상 시켜야 하며, 적응형 빔포밍 기술은 열악한 잡음환경에서 부정확한 위상정합으로부터 기인하는 신호 감쇄를 극복하기 위해 노력해야 한다. 최근에, 몇몇의 연구자들이 특히 비정상성 잡음제거에서, 다채널 입력 다채널 출력 기반의 기술들이 대표적인 적응형 빔포밍 기술인 GSC 의 성능보다 우수하다는 결과를 발표하였다. 이런 이유로, 본 논문은 다채널 입력 다채널 출력 기반의 음성강화 기술의 성능향상에 대하여 주안점을 두었다. 다채널 입출력 기반의 잡음제거 기술은 부가정보 없이 잡음 섞인 입력신호와 추정된 잡음의 2차 통계치를 이용한 신호대잡음비 추정을 주요 기반으로 하며, 일반적으로, 파라미터 내장형 다채널 위너필터와 다채널 부공간 기반 필터로 구분된다. 파라미터 내장형 다채널 위너필터는 비교적 효율적이고 구현하기 쉬운 반면에 다채널 부공간 기반 필터는 특이값 분해 또는 고유값 분해와 같은 입력신호 종족적 신호 변환 때문에 계산량에 대한 부담이 크다. 그럼에도 불구하고, 다채널 부공간 기반 필터들은 신호의 최적 분해를 통해 파라미터 내장형 위너필터 보다 잡음제거 성능 측면에서 능가할 수 있는 거대한 잠재력을 지니고 있다. 또한, 다채널 입력 다채널 출력 기반의 방법들의 특별한 경우라고 간주 할 수 있는 2채널 마이크로폰 잡음제거 분야에서, 두 마이크간의 위상차이를 이용한 방법이 뛰어난 잡음제거 성능을 보여주었다. 그러나, 크기정보와 무관한 위상 기반의 방법은 반향이 있고 열악한 잡음환경에서 취약할 가능성이 있다. 따라서, 본 연구에서는 위의 문제점을 개선하기 위해서 두가지 방법을 제안하였다. 첫째, 공간주파수 영역 최적필터를 도출하고, 공간주파수 영역에서의 다채널 음성존재확률을 정의하였으며, 공간주파수 영역 최적필터의 이득을 정의된 다채널 음성존재확률을 이용하여 조정하였다. 이러한 방법은 다채널 입력의 주파수 빈을 고유벡터 또는 부공간과 같은 더욱 작은 단위로 분할하여 더욱 섬세한 잡음제거를 수행하기 위해 제안되었다. 특히, 제안한 공간주파수 최적필터는 계산부담을 덜어주고 다채널 부공간 필터의 실행가능성을 향상시켜주는 효과가 있다. 이 방법은 비록 더욱 발전이 필요하지만, 시뮬레이션을 통해 그 유효성을 입증하였다. 두번째로, 입력 상관 행렬의 행렬식 분석을 이용한 새로운 2 채널 마이크로폰 기반의 잡음제거 방법을 제안하였다. 행렬식 분석을 통하여, 잡음 섞인 입력과 잡음의 상관행렬 사이에 성립하는 관계식을 도출 하였고, 관계식을 이용하여 잡음통계치의 갱신을 위한 음성구간 검출 및 위너 필터를 구하기 위한 신호대 잡음비 추정에 유용한 특징을 추출하였다. 실제 차량환경에서 수집한 데이터베이스를 사용하여 잡음제거 성능평가를 수행한 결과, 제안한 2채널 마이크로폰 기반의 방법이 최신의 잡음제거 방법 보다 더 향상된 결과를 나타내었다.

서지기타정보

서지기타정보
청구기호 {DEE 16047
형태사항 v, 82 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍정표
지도교수의 영문표기 : Minsoo Hahn
지도교수의 한글표기 : 한민수
수록잡지명 : "Dual-Microphone Noise Redcution in Car Environments With Determinant Analysis of Input Correlation Matrix". IEEE Sensors Journal, v.16,no. 9, pp.3131-3140 (2016)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 75-78
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서