서지주요정보
독립 성분 분석 기법과 최대치 해석에 기반한 내장형 잡음 하 음성 인식 시스템에 관한 연구 = Study on embedded noise-robust speech recognition system based on independent component analysis and peak analysis
서명 / 저자 독립 성분 분석 기법과 최대치 해석에 기반한 내장형 잡음 하 음성 인식 시스템에 관한 연구 = Study on embedded noise-robust speech recognition system based on independent component analysis and peak analysis / 김창민.
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015529

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 04001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

For the application in the real world, Noise Eliminated Speech Stream (NESS), embedded Cochlear with Peak Analysis(eCPA), Speech Recognition Accelerator (SRA) and speech recognition system (CALM_EAR) are proposed in this paper. The NESS is noise cancelling processor base on the Independent Component Analysis (ICA) technology. Speech enhancement has two approaches, i.e, Adaptive Noise Canceling (ANC) and Blind Signal Separation (BSS). ANC is an approach to reduce noise based on reference noise signals while no reference signal is known for BSS. The performance of ICA based algorithm is more better than the Least Mean Square (LMS) for ANC noise, also applicable to BSS. In this paper, the delayed learning is proposed to reduce the memory operation and the NESS chip is implemented. The NESS chip is designed in modular concept for the extension in various noise environment. It can be extended in not only number of noise source but also time delays. The speech can be enhance by 20 dB in ANC noisy environment and 10 dB in BSS. The eCPA is speech feature extraction processor for embedded system. It is based on the mammalian cochlear system. It is composed with cochlear filter banks and feature extraction with peak analysis. To reduct the computation complexity of filter bank in the time domain, the de-sampler is proposed. The peak analysis by the de-sampler is the peak detector from not all data but decimated data. The computation complexity is reduced remarkably without drop in recognition performance. Although the eCPA requires only 128 word memory and 3 MHz clock bandwidth, the recognition performance is comparable with MFCC that is wide used feature extraction method. Although the eCPA analyze the peak from the decimated samples, the result is similar the peak from the whole samples. So, it can be used as representation of power spectrum. The eCPA is used to 2 state Wiener filter to suppress the noise. The 2 stage Wiener filter base on the eCPA is more suitable for embedded system than FFT, because the eCPA requires only 128 word memory and 3 MHz clock bandwidth. The 2 stage Wiener filter shows the good performance in noisy environments. The CALM_EAR is the speech recognition system include NESS, eCPA, SRA, and RISC processor. In the CALM_EAR, the noise canceling, feature extraction and noise suppression are done in NESS, eCPA, 2 stage Wiener filter base eCPA, individually. The final procedure, recognition is done in the RISC processor. The general purpose processor is essential for the various application but it is poor at high speed recognition. The SRA is proposed to accelerate the execution that is major computation in the recognition task. It performs multiplication and accumulation, Gaussian pump response and absolute distance computation. Proposed speech recognition system show the good performance which is good enough for the robust speech recognition system in the real world.

본 논문에서는 실세계 적용을 위한 잡음 제거 시스템(NESS), 최대치 해석에 기반한 내장형 음성 특징 추출 모델(eCPA), 인식 가속기와 이를 융합한 음성 인식 시스템(CALM_ESR)을 제안하였다. NESS 시스템은 Independent Component Analysis (ICA) 기법을 이용하여 잡음을 제거하는 방법으로 기존의 Least Mean Squqre (LMS) 방법에 비해 그 성능이 뛰어나며 기존의 방법들은 그 잡음원이 알려져 있는 Adaptive Noise Canceling (ANC) 잡음원만을 제거할 수 있는데 반해 Blind Source Separation (BSS) 잡음원도 제거할 수 있는 장점이 있다. 본 논문에서는 지연 학습을 통하여 필요 메모리 연산을 대폭 저하시켜 효율적 하드웨어 구성을 가능토록 하였다. 또한 실세계 적용을 위하여 다양한 잡음 환경에 대처할 수 있도록 잡음원의 수 뿐만아니라 잡음 환경의 허용 시간 지연까지 자유롭게 확장가능토록 하였다. 실세계 적용 결과 BSS 잡음원은 10 dB 이상 ANC 잡음원은 20 dB 이상 SNR이 향상됨을 알 수 있었다. 청각 모델 기반의 특징추출 방법은 잡음에 강인한 특징을 보이는 것은 이미 잘 알려진 사실이다. 본 논문에서는 내장형 특징 추출을 위하여 그 구조가 간단한 시간 영역에서의 필터 뱅크 접근 방법을 사용하였다. 그 구조를 최소화 하기 위하여 최대치 해석이라는 하드웨어 구현에 매우 용이한 해석 방법을 도입하였으며 그 인식률이 크게 저하되지 않음을 알 수 있었다. 또한 시간 영역에서의 필터 뱅크 접근 방법의 큰 문제점인 계산량 문제를 해결하기 위하여 부분 최대치 해석을 제시하여 매우 적은 파워를 소모하면서도 기존의 MFCC와 비슷한 성능을 보임을 알 수 있었다. eCPA 모델은 부분 최대치 해석만으로 에너지 분포를 예측함에도 불구 하고 그 오차가 상대적으로 적어 신호의 에너지 분포를 예측하는데 매우 적합하다. 따라서 본 논문에서는 이를 이용하여 2 단계 위너 필터를 구성하여 잡음 억제기를 구성하고 잡음 환경에서 FFT 기반의 잡음 억제기와 비슷한 성능을 얻을 수 있었다. 본 논문에서 제안된 CALM_EAR 시스템은 NESS, eCPA를 이용한 2 단계 위너 필터, eCPA, 인식 가속기를 내장하여 실세계 적용에 적합한 음성 인식 시스템을 제안하였다. 다양한 적용 분야를 위해서 16 비트 RISC 프로세서를 내장하였으며 고속 인식 과정을 위하여인식기에서 주로 사용되는 거리 연산 과정인 곱셈 덧셈기, 을 하드웨어로 구성한 인식 가속기를 내장하여 고속 음성 인식을 가능토록 하였다. 제안된 음성 인식 시스템은 다양한 잡음이 존재하는 실세계에서도 인식률 저하가 적어 다양한 분야에 적용 가능할 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {DEE 04001
형태사항 xi, 101 p. : 삽화 ; 26 cm
언어 한국어
일반주기 부록 : 주변 기기 제어 주소 및 특징
저자명의 영문표기 : Chang-Min Kim
지도교수의 한글표기 : 이수영
지도교수의 영문표기 : Soo-Young Lee
수록잡지명 : "FPGA implementation of ICA Algorithm for blind signal separation and active noise canceling". IEEE transactions on neural networks, v.14, pp. 1034-1046(2003)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 참고문헌 : p. 97-101
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서