서지주요정보
Real-time speech enhancement by simplified kalman filtering = 간략화된 칼만필터를 이용한 실시간 음성개선
서명 / 저자 Real-time speech enhancement by simplified kalman filtering = 간략화된 칼만필터를 이용한 실시간 음성개선 / Sang-Bae Jeong.
발행사항 [대전 : 한국정보통신대학교, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000259

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS02-65 2002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Speech enhancement has wide application areas such as speech recognition, coding, hearing aids, etc. Among various speech enhancement algorithms, Kalman filter-based ones have been known to show reliable performances in stationary noisy conditions and have advantages in DSP implementation aspects. In this thesis, we proposed a simplified version of the Kalman filter. The simplification was performed by utilizing only the diagonal components of the error covariance matrix to calculate the Kalman gain and the motivation of the simplification was also included. Required memory units and computation load were analyzed and compared quantitatively with those of the original Kalman filter and the well-known spectral subtraction algorithm. The analysis results show that the proposed algorithm can save a lot of memory units and computation amount and thus our proposed algorithm can be easily implemented on a conventional DSP chip. We could see that our simplified Kalman filter requires only about 0.3 MIPS when the fast convergence property of the Kalman gain is also utilized. The MMSE of our simplified algorithm was also analyzed mathematically. Although the MMSE was increased a little compared with that of the original Kalman filter, the degree of the improvement in speech quality and recognition performances for synthetic and real noises is very similar. Addition to this, our algorithm outperforms the prevailing spectral subtraction algorithm in most cases. Finally, it can be concluded that our simplified Kalman filtering algorithm can be successfully applicable to various speech application areas in adverse noisy conditions.

음성개선의 목적은 음성신호를 왜곡시키는 잡음 신호의 제거에 목적이 있다. 이러한 잡음신호는 실제 환경에서 가산성 또는 복적분의 형태로 음성신호를 왜곡시킨다. 예를 들어, 주행중인 차량에서 발성된 음성신호는 가산성 차량잡음에 의해서 왜곡되며 음성신호가 전화망과 같은 채널을 통할 때는 복적분의 형태로 왜곡된다. 가산성 잡음은 크게 시변 통계량을 가지는 것과 시불변 통계량을 가지는 것으로 나눌 수 있다. 본 연구의 목적은 시불변 가산성 잡음의 제거를 목적으로 하고 있다. 많은 알고리즘들이 시불변 가산성 잡음을 제거하기 위해서 연구되어 왔다. 이러한 알고리즘들은 음성인식기의 성능향상, 음성 이해도의 향상, 청취 피로도의 감소를 위한 선처리기로 사용될 수 있으며, 구체적으로 차량잡음 및 사무실 환경 잡음의 제거, 보청기, 음성검출기를 이용하는 통한 음성통신 시스템 등에 응용될 수 있다. 시불변 가산성 잡음을 제거하기 위해서 단구간 스펙트럼 차감법, 반복적 위너 필터법, 마스킹 효과를 이용한 오디오 기반 필터법등이 제안되었다. 위의 알고리즘들을 사용하여 왜곡된 음성을 만족할 만큼 향상시킬 수 있었으나 대부분 저가의 정수연산 기반의 DSP에 구현되기에는 적절하지 못하였다. 왜냐하면 많은 계산량 뿐만 아니라 제곱근 및 나누기 같은 정수연산 기반의 DSP에 최적화 되지 않은 연산들을 사용하기 때문이다. 칼만필터는 효율적인 구조 및 신뢰할 만한 성능으로 신호처리 분야에서 널리 쓰이는 알고리즘이다. 또한, 칼만필터는 대부분 덧셈, 곱셈 연산으로 이루어지기 때문에 정수연산 기반의 DSP 구현이 효율적인 장점이 있다. 칼만필터에서는 칼만이득이 입출력 신호와 무관하게 구해질 수 있으므로 잡음에 의해 열화된 신호의 향상과 이득을 구하는 과정을 병렬적으로 수행할 수 있다. 본 논문에서는 칼만필터에 기반한 음성개선 알고리즘이 제안되었다. 연구의 주 내용은 오차 공분산 행렬의 대각성분만을 이용한 칼만이득의 추정을 통한 계산량의 감축 및 성능 측정이다. 칼만필터 알고리즘을 범용 DSP에 구현할 때는 아무런 문제가 없겠지만, ASIC 기술로 구현되는 특수 목적 DSP에 구현할 경우에는 계산량 및 필요한 메모리의 양이 생산되는 칩의 단가와 직접적으로 연관된다. 칼만필터를 수행시킨 후에 오차 공분산 행렬의 원소를 살펴보면, 대각 성분에 비해서 비대각 성분의 값이 상대적으로 매우 작음을 확인할 수 있다. 따라서, 비대각 성분은 칼만필터에의 기여도가 작을 것으로 가정하고 칼만이득을 계산할 때, 대각 성분만을 사용하였다. 그렇게 함으로써, 계산량의 감축 및 소요되는 메모리의 양이 줄어들게 되었다. 제안된 알고리즘은 표준 칼만필터에 비해서 51.4 %의 메모리를 감축할 수 있으며, 음성신호를 6차의 전극형태로 모델링 했을 때, 0.316 MIPS의 연산 속도를 필요로 한다. 그리고, 스펙트럼 차감법에 비해서 연산속도의 4.21배를, 필요 메모리양의 5.73배를 감소시킬 수 있었다. 간략화된 칼만필터는 필연적으로 성능의 저하를 일으키게 되는데, 수식적으로 최소 평균 자승 오차의 열화 정도를 계산하여 분석하였다. 적절한 예를 통해서 최소 평균 자승 오차의 값이 오차 공분산 행렬을 간략화 시켰을 때 열화됨을 알 수 있었다. 그렇지만, 백색 잡음, 사무실 환경 잡음, 차량 잡음 등에 대해서 잡음 제거 후의 음질 및 음성인식률 평가를 수행하였을 때는 성능의 저하가 크게 나타나지 않았다. 음질 평가를 수행하기 위해서 SNR, sgSNR, SD, CD, Voran's PSQM 측정법(1, 2), BSD 등 인지적, 비인지적 측정 알고리즘들을 사용하였다. 대부분의 측정법에 대해서 제안된 알고리즘으로 음질이 향상되었으며, 향상량은 표준 칼만필터의 것과 유사하였다. 백색 정규잡음에 대해서 본 알고리즘에 의해 약 5 dB의 SNR 이득을 얻을 수가 있었으며, 약 0.5 정도의 MOS 향상을 기대할 수 있음을 확인하였다. 음성인식률 평가에서는 HTK 및 한국어 PBW-452 데이터베이스를 사용하여 HMM을 생성하고 인식률을 측정하였다. 음성인식의 특징 파라미터로는 MFCC, LPC 켑스트럼, RASTA, PLP, RASTA-PLP, SMC, OSA-LPC 등이 사용되었는데, 전반적으로 OSA-LPC가 높은 성능을 보였다. OSA-LPC는 SNR 5 dB의 백색잡음에 대해서 본 알고리즘에 의한 잡음제거 후에 약 70 %의 인식률을 보였다. 본 연구에서는 GSM-EFR 코덱에서 사용되었던 고역통과 필터를 선처리로 사용하였는데, 칼만필터의 동작에 효과적임을 알 수 있었다. 본 논문에서 제시한 알고리즘은 많은 분야에서 선처리기로 사용될 수 있다. 더욱이, 감축된 계산량 및 메모리양에 의해서 하드웨어 구현에도 용이하다고 하겠다. 먼저, 음성코덱에서는 정확한 피치 검출에 의한 음질 개선 및 정밀한 음성 검출에 의한 전송률 감소에 기여할 수 있다. 음성 인식 엔진에서의 선처리기로서의 본 알고리즘은 더욱 우수하다고 하겠다. HMM 기반 인식기 및 OSA-LPC 특징 파라미터를 사용하였을 때, 만족할만한 성능을 얻을 것으로 판단된다. 향후 연구로서, 먼저, 제안된 구조의 칼만필터가 주파수 영역에서 입출력 신호에 어떠한 효과를 나타내는지 살펴봐야 한다. 그것이 가능하다면, 본 연구에서 수행한 여러 가지 상황에서의 음질 및 인식 실험결과에 대해서 고차원적인 분석이 가능할 것이다. ASIC 기술로 제작된 칩에서 동작할 수 있도록 정수연산 버전으로의 프로그램 전환 역시 필요하다. 그것을 이루기 위해서는 각 변수에 허용 가능한 비트 수 및 정밀도의 설정이 선행되어야 할 것이다. 본 알고리즘이 음성코덱의 피치 검출 정확도 향상 및 그에 따른 음질 향상에의 기여도와 음성 검출 알고리즘의 선처리기로서 성능도 연구 조사의 가치가 있다고 하겠다.

서지기타정보

서지기타정보
청구기호 {ICU/MS02-65 2002
형태사항 x, 124 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 정상배
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(박사) - 한국정보통신대학원대학교 : 공학부,
서지주기 References : p. 113-118
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서