Robust speech recognition based on partial information technique = 부분 정보 기법에 기반한 강인한 음성인식
서명 / 저자 Robust speech recognition based on partial information technique = 부분 정보 기법에 기반한 강인한 음성인식 / Hoon-Young Cho.
발행사항 [대전 : 한국과학기술원, 2003].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

DCS 03019

휴대폰 전송







Automatic speech recognition (ASR) systems in real environments may have to cope with various noise signals that corrupt some time-frequency regions of speech more severely than other regions. Though great progress has been achieved in the area of robust ASR, most techniques have focused on reasonably stationary wide-band noise and, therefore, are limited in their ability to achieve robustness in real noisy environments. Partial information technique, a developing area of research, models the human ability of emphasizing reliable partial information in time-frequency regions. As one of its main approaches, the multi-band ASR scheme splits the whole frequency range into several sub-bands. Sub-bands recognition results are then recombined by exploiting sub-band reliabilities to make a final decision. This dissertation aims at improving the ASR performance on partially corrupted speech based on the partial information technique. In the frequency domain, three limitations of the multi-band recognition system are addressed. First, the multi-band scheme cannot maximally utilize the uncorrupted parts because sub-band boundaries are fixed. The sub-band boundaries should be adaptive to localize the noise and better utilize partial information. Second, because sub-band feature vectors are processed independently in this method, the information contained in a global spectral structure may be lost. Finally, the whole ASR system must be rebuilt because of the architectural differences from a full-band ASR system. This study proposes a weighted filter bank analysis and model adaptation (WFBA-MA) method to resolve these problems. The proposed scheme estimates reliability weights of Mel filter bank channels and extracts a weighted Mel frequency cepstral coefficient by suppressing unreliable log filter bank energies. The same weights are also applied to an entire set of HMM parameters. An environment selective processing (ESP) method is also proposed, which determines whether an input signal contains wide-band noise or band-limited noise by using the weight vector of WFBA-MA. It also applies a noise robust processing that can yield best performance. The performances of full-band, 3-band, 4-band, and 12-band recognition systems were compared with the proposed WFBA-MA system using the TIDIGITS database contaminated by two kinds of band-limited noises and wide-band noises such as car, factory, F16 cockpit and babble noises. The results indicated that the proposed scheme utilizes the partial information much better than the multi-band systems and significantly improves the performance. Also, the ESP was shown to be very effective when half of the test utterances were added by band-limited noise and the other half by wide-band noise. In the time domain, a segmental reliability weighting (SRW) is proposed, which extends the utterance verification technique to intra-word level speech segments. It measures log likelihood ratios (LLR) of HMM state level segments and uses normalized segmental LLRs as weights in a modified Viterbi algorithm. The SRW method improved the recognition performance on partially corrupted speech without requiring an explicit noise estimation. However, since the improvement was not significant, a model-based frame reliability weighting (MFRW) scheme is proposed. It approximates the clean speech spectrum by utilizing the spectral information contained in HMM parameters. It searches the closest HMM state sequence corresponding to an input utterance and calculates frame by frame differences of filter bank energies between an input feature vector and a corresponding mean vector. These values are normalized and used as frame weights. Experimental results on 100 Korean isolated word recognition system using several types of white burst noise indicated that the MFRW utilizes the uncorrupted regions much better than the compared methods and significantly improves the performance. In summary, this dissertation incorporated the human ability of emphasizing reliable partial information into the conventional full-band hidden Markov model (HMM) based ASR and significantly improved the recognition performance on partially corrupted speech.

음성인식 기술의 실용화를 위해서는 실생활에 존재하는 다양한 종류의 잡음에 의한 인식기의 성능저하 문제를 해결해야 한다. 이를 위해 과거 이십 여 년 간 잡음에 강한 특징 추출, 잡음 제거, 모델 보상 및 후처리 등에 관한 방대한 연구가 이루어져 왔다. 이러한 연구들은 음성의 시간 및 주파수 영역을 비교적 일정하게 손상시키는 잡음에 중점을 두어왔으며, 이 경우 상당한 성능 개선을 얻을 수 있었다. 그러나, 실제 응용 환경에는 시간 및 주파수 영역을 부분적으로 손상시키는 잡음이 흔히 존재하며 이러한 종류의 잡음에 강한 인식 방법에 관한 연구가 필요하다. 한편, 인간은 음성 신호에서 신뢰도가 높은 시간-주파수 영역의 부분 정보를 최대한 활용하여 음성인식기에 비해 월등한 인식성능을 얻는다고 알려졌다. 부분 정보 기법(partial information technique)은 신뢰도가 높은 부분 정보를 가중하는 인간의 인식 원리를 활용하는 최근의 연구분야로서 손실 데이터 기법(missing data technique) 및 다중대역 음성인식(multi-band speech recognition) 방식이 연구되어 왔다. 이 중에서 다중대역 음성인식은 Fletcher의 다중독립 채널(multi-independent channel) 모형에 기반하여 전체 주파수 대역을 다수의 부대역으로 구분하여 독립적인 인식을 수행하고, 각 부대역의 신뢰도를 반영하여 부대역 인식결과를 통합한 후 최종 인식결과를 얻는 방식이다. 이 방식은 주파수 영역의 일부분이 상대적으로 심하게 오염된 경우에 대해서 기존에 널리 사용되어 온 전대역(full-band) 음성인식에 비해 효과적인 방법임이 밝혀졌다. 본 연구는 인간의 부분 정보 가중 능력을 기존의 전대역 음성인식 시스템에 부여하여 주파수 및 시간 영역의 일부가 심하게 손상된 음성을 효과적으로 인식하고자 한다. 먼저, 주파수 영역에서 부분 정보의 최대 활용을 위해 다양한 대역제한(band-limited) 잡음에 대해 기존의 다중대역 시스템의 성능을 조사한 결과, 이 방식의 몇 가지 한계점을 확인하였다. 첫째, 이 방식은 각 부대역들 간의 경계선이 고정되어 있어 입력 잡음이 특정 부대역의 일부분만을 손상시키는 경우, 부대역 내부의 손상되지 않은 부분 정보를 보다 효과적으로 활용하지 못한다. 이를 개선하기 위해 부대역의 경계선이 입력 잡음의 특성에 따라 적응하여 손상 영역을 최대한 국한 (localization)하도록 할 필요가 있다. 둘째, 각 부대역 특징벡터가 독립적으로 추출되어 처리되므로 스펙트럼의 전체적인 형태 또는 부대역들 간의 상관 정보(correlation information)를 활용하기 어렵다. 셋째, 기존의 전대역 인식방식과 인식기 구조의 큰 차이로 인해 부분 정보 가중을 위해 전체 시스템을 새로 구축해야 하므로 비용 부담이 크다. 이를 해결하기 위해 본 연구에서는 기존의 멜 켑스트럼(Mel frequency cepstral coefficient; MFCC) 추출 과정의 필터뱅크 분석 단계에서 각 채널의 신뢰도를 추정하여 채널의 로그 에너지에 가중하고, 이 가중치를 학습된 HMM (hidden Markov model)에 동일하게 부여하는 가중 필터뱅크 분석 및 모델 적응(weighted filter bank analysis and model adaptation; WFBA-MA) 기법을 제안하였다. 이 방식에서 필터뱅크 가중치는 각 채널의 신호대 잡음비를 sigmoid 함수를 사용하여 0에서 1사이의 값으로 정규화한 값이다. 또, MFCC로 학습된 HMM 파라미터에 동일한 가중을 적용하기 위해 DCT (discrete cosine transform) 역변환에 의해 파라미터 영역을 로그 스펙트럼 영역으로 변환하고 가중치를 적용한 후, 다시 켑스트럼 영역으로 변환하였다. 이때 DCT 역변환행렬, 가중 행렬 및 DCT 변환 행렬의 곱으로 표현되는 적응행렬을 구하여 모델의 파라미터 영역 변환을 수행하지 않고 켑스트럼 영역에서 동일한 가중을 적용할 수 있다. 실제 응용환경에는 주파수 영역을 부분 또는 전체적으로 손상시키는 잡음이 공존하며, 후자의 경우 기존의 잡음처리 방식이 좋은 성능을 보인다고 알려졌으므로, 본 연구에서는 WFBA-MA 방식에서 구한 각 주파수 채널의 가중치를 환경 검출기로 활용하여 입력 잡음의 특성에 적합한 잡음처리를 적용하는 환경 선택적 처리(environment selective processing) 방식을 제안하였다. TIDIGITS 데이터베이스의 평가 자료에 1500-1800Hz 백색 대역제한 잡음, 500-800Hz 및 2500-2800Hz 두 영역을 손상시키는 백색 대역제한 잡음, 그리고 Volvo 자동차, 공장, F16 조종실 잡음 등의 광대역 잡음을 첨가하여 기존의 전대역 인식, 3-band, 4-band 및 12-band 등의 다중대역 인식 및 제안한 WFBA-MA 방법을 비교한 결과, 제안한 방법은 비교한 방식들에 비해 주파수 영역의 일부분이 손상된 경우에 월등한 성능을 나타내어 주파수 대역의 부분 정보를 매우 효과적으로 활용함을 알 수 있었고, 대역제한 및 광대역 잡음을 평가자료의 각 절반에 추가한 경우 제안한 환경 선택적 처리로 높은 인식성능을 얻을 수 있었다. 시간 영역에서 부분 정보 가중을 위해서 본 연구에서는 기존의 발화 검증(utterance verification)을 응용하였다. 기존의 발화 검증은 인식된 단어열에 대해 로그 우도비를 계산하고, 미리 정해진 임계치와 비교하여 거절 혹은 수락의 이진 결정을 수행한다. 제안한 분절 신뢰도 가중(segmental reliability weighting; SRW) 방식은 발화 검증을 단어 이하의 HMM 상태 단위에 적용하는 방식으로서, 먼저 입력 음성을 상태 단위로 구분하고 각각의 구간에서 구한 로그 우도비를 0에서 1사이의 연속값으로 정규화하여 분절 구간의 가중치를 얻었다. 기존의 Viterbi에 각 분절의 신뢰도를 반영하도록 수정한 바이터비 알고리즘(modified Viterbi algorithm)을 사용하여 인식 실험을 수행한 결과, 음성의 일부분이 손상된 경우에 대해서 잡음에 대한 별도의 가정 및 잡음 추정이 없이도 성능을 개선할 수 있었으나, 개선 정도는 크지 않았다. 따라서, 두번째로 프레임 수준에서 신뢰도를 추정하고 이를 바이터비 알고리즘에서 가중하는 모델기반 프레임 신뢰도 가중(model-based frame reliability weighting; MFRW)을 제안하였다. 이 방법은 입력 신호에 가장 가까운 HMM 상태 공간을 탐색하여, 입력과 가장 유사한 상태열을 얻는다. 이 상태열에 포함된 스펙트럼 정보와 입력에서 추출한 특징 벡터열을 정합하여 이 둘의 필터뱅크 에너지 벡터간 거리를 계산하고, 그 값을 정규화하여 가중치로 사용한다. 100 단어 규모의 한국어 고립단어 인식시스템에 대해 다양한 백색 버스트 잡음(white burst noise)을 가산하여 실험한 결과, 이 방법이 시간 영역에서 부분적으로 손상된 음성에 대해 기존 방법보다 매우 효과적임을 확인할 수 있었다. 본 연구는 인간의 부분 정보 가중 원리를 기존의 전대역 HMM 음성인식 방식에 추가하였다. 향후에는 구문, 의미 해석 등 상위 수준에서 이루어지는 인간의 문맥정보(contextual information) 활용 원리를 인식기에 적용하는 연구노력이 필요하다.


청구기호 {DCS 03019
형태사항 ix, 88 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 조훈영
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "Segmental reliability weighting for robust recognition of partly corrupted speech". IEE electronics letters, v.38 no.12, pp. 611-612 (2002)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 79-88





이 주제의 인기대출도서