The performance of speech interfaces tend to severely degraded by interfering noises. The generalized sidelobe canceller (GSC), one of the microphone array-based noise reduction algorithms, is widely used for non-stationary noise reduction. The GSC consists of the fixed beamforming, the blocking matrix (BM), and the multichannel noise canceller (NC). The BM and the NC filter coefficients should be alternatively updated in order not to cancel the target speech signals from the desired direction. The adaptation mode controller (AMC) decides the adaptation of the NC filter coefficients only for noise intervals where the target speech signals do not exist. The GSC performance largely depends on the AMC accuracy because target speech signals would be distorted by the incorrect adaptation. Thus, in this dissertation, we try to improve the performance of the AMC in the GSC. In the proposed algorithm, a probabilistic AMC is designed and adopted to the GSC. To detect target speech intervals, the proposed AMC calculates the inter-channel normalized cross correlation and estimates the speech absence probability (SAP). Based on the estimated SAP, the adaptation mode of the NC filter is decided. The other reason of the performance degradation is the channel mismatch including the path differences from the target source to the microphone array. This mismatch would decrease the signal-to-noise ratio (SNR) of the target speech signal after beamforming. That is mainly why we propose an efficient channel mismatch compensation method to improve the performance of the beamforming-based noise reduction algorithm. In the proposed method, the channel mismatch is compensated through two steps. At the first step, the fixed channel compensator, for which the transfer function is pre-estimated in a noiseless condition, compensates for the overall channel mismatch. At the second, the time-varying channel mismatch is compensated in real-time by the adaptive channel compensator somewhat precisely.
For the performance evaluation, the noisy speech databases were collected in real home robot environment, car environment and a building lobby. Speech recognition accuracies, SNRs, and speaker identification accuracies were measured to confirm the validity of the proposed algorithm. Our experimental results confirm that the considerable improvements of the speech recognition and speaker identification performances in real noisy environments. As the input SNR becomes lower, the performance improvement becomes more noticeable. By using the proposed channel compensation, higher output SNRs are achieved. Thus, the usefulness of the speech interfaces can be improved by using the proposed GSC-based speech enhancement technique in the real noisy environments.
음성 인터페이스는 인간과 기계간의 상호작용에서 가장 편리하면서 자연스러운 방법이다. 하지만 이런 음성 인터페이스의 성능은 잡음이 존재하는 환경에서 급격히 저하되는 특징을 보인다. 특히 음성이나 음악이 존재하는 비정적 잡음 환경에서의 성능 저하는 더욱 크다. 따라서, 연구자들은 GSC (Generalized Sidelobe Canceller) 빔포밍을 이용한 마이크로폰 배열기반 잡음 제거 기법을 제안하였다. GSC는 크게 FBF (Fixed BeamForming), BM (Blocking Matrix), NC (Noise Canceller)의 3부분으로 구성되어 있다. 이중에서 NC 필터는 목적 신호가 존재하는 구간에서는 목적 신호를 왜곡시키지 않기 위해서 적응을 수행하면 안 된다. AMC (Adaptation Mode Controller)는 NC 필터의 업데이트 여부를 결정하게 되며, 이것은 GSC 성능에 큰 영향을 미친다. 잘못된 적응이 이뤄지게 되면 목적신호에 왜곡이 생기게 되기 때문이다. 따라서, 본 논문에서는 AMC 성능 향상을 통해 GSC의 성능을 향상시키는 방법을 제안하였다. 제안된 AMC는 확률적 모델을 이용하는 방법으로, 목적 음성 구간을 탐지하기 위하여 입력 채널 사이에 INCC (Inter-channel Normalized Cross Correlation)을 LP (Linear Predictive) 여기 신호를 이용하여 계산한다. 그리고 잡음 INCC와 목적음성 INCC에 대해 가우시안 모델링을 통해서 SAP (Speech Absence Probability)를 계산하게 된다. 계산된 SAP에 의해 GSC에서 NC 필터의 업데이트 여부가 결정된다. 제안된 방법은 기존의 NCC 기반 기법과 에너지 기반 기법과 비교되었다. GSC 성능을 저하시키는 또 다른 요인은 목적음성과 마이크로폰 배열 사이에 존재하는 경로 차이에 의한 채널 불일치이다. 이 불일치는 빔포밍 후의 목적음성의 SNR (Signal-to-Noise Ratio)를 저하시키게 되므로 성능을 저하시킨다. 이런 채널 불일치를 보상하기 위하여 본 논문에서는 효과적인 채널 불일치 보상 알고리즘을 제안한다. 제안된 보상 방법은 크게 2단계를 거쳐 이뤄지게 된다. 첫번째 단계에서 FCC (Fixed Channel Compensator)는 잡음 없는 환경에서 미리 예측된 FCC-TF (FCC-Transfer Function)를 이용하여 채널간 불일치를 보상한다. 두번째 단계에서 ACC (Adaptive Channel Compensator)는 시간에 따라 변화하는 채널 불일치를 보상하기 위해 실시간으로 보상을 수행한다. 이러한 채널 보상을 통해 FBF 후의 SNR을 향상시킬 수 있으며, 향상된 SNR은 최종적인 잡음 제거 성능 향상을 가져온다. 이는 높은 SNR을 가지는 입력 신호를 이용하여 잡음 제거를 수행할 때 일반적으로 낮은 SNR을 가지는 입력 신호를 이용할 때보다 잡음 제거 성능이 우수하기 때문이다.
성능 평가를 위해 잡음 DB는 실제 가정 로봇환경과 차량환경 및 반향이 큰 건물의 로비에서 수집되었다. 목적음성과 잡음음성은 분리되어 수집되었으며, 원하는 SNR에 맞춰 합성되었다. 제안된 AMC 방법과 채널 보상 방법의 성능 평가를 위해 음성 인식률, SNR, 화자 인식률이 평가되었다. 음성 인식 평가를 위한 목적음성으로는 한국어 PBW (Phonetically Ba-lanced Word)가 사용되었고, 화자 인식 평가를 위해서는 화자인식용 문장이 발성되었다. 음성 인식 평가를 위해 잡음 신호로는 가사 있는 음악이 사용되었다. 화자 인식 평가를 위해서는 가사 있는 음악 2종류와 TV 프로그램 잡음 2종류가 각각 사용되었다. 실험 결과 제안된 잡음 제거 기법은 큰 성능 향상을 가져왔다. 제안된 SAP기반 AMC를 적용했을 때 음성인식률과 화자인식률에서 평균적으로 에너지 기반 AMC와 correlation 기반 AMC에 비해 18.6%와 17.2%의 ERR (Error Reduction Rate)을 얻었다. 특히, 낮은 입력 SNR에서 더 큰 성능 향상을 보임을 알 수 있었다. 제안된 채널 보상 기법을 적용했을 때도 성능의 향상을 보였다. FCC를 이용한 채널 보상 기법을 적용하면 20.8%의 ERR을 얻었으며, 추가적으로 ACC를 같이 적용하게 되면 FCC만 적용했을 때보다4.8%의 ERR을 얻었다. 이는 채널 보상 기법에 의해 SNR이 향상되었기 때문이다. 평균적으로 FCC를 적용하면 8.16 dB, FCC와 ACC를 같이 적용하면 8.43 dB의 SNR 이득을 얻었다. 따라서, 제안된 GSC 기반의 잡음 제거 기법은 음성 인터페이스의 잡음 제거를 위해 유용하게 사용될 수 있을 것으로 판단된다.