서지주요정보
Improved speech recognition in digital mobile communication environments = 디지털 이동통신 환경에서의 향상된 음성인식
서명 / 저자 Improved speech recognition in digital mobile communication environments = 디지털 이동통신 환경에서의 향상된 음성인식 / Seung-Ho Choi.
발행사항 [대전 : 한국과학기술원, 1999].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

8010257

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 99059

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This work considers the problems of speech recognition in digital mobile communication environments, and presents several methods to improve the speech recognition performance. In digital mobile communication networks, speech recognition systems conventionally first reconstruct speech and then extract feature parameters. In this work, we introduce an efficient approach of incorporating speech coding parameters into the speech recognizer and show the advantages of this approach by the measures of spectral distortion and recognition accuracy. Most speech coders employed in modern digital mobile communication systems represent line spectrum pairs (LSPs) as spectral parameters and the LSPs are quantized for transmission over a channel. We introduce two ways to improve the recognition performance when the speech recognizer uses the quantized LSPs. One is to devise weighted distance measures of LSPs based on spectral sensitivity and mel-frequency warping. The other is to transform LSPs into cepstral domain features including LPC cepstrum, mel-frequency cepstral coefficients, and pseudo-cepstrum (PCEP). The speech recognition experiments are performed for several databases including connected Korean digits and phonetically-balanced isolated words. The recognition results show that the proposed LSP weighting methods provide recognition accuracies considerably higher than the unweighted ones do. Also, the cepstral features converted from LSPs give more improved performances. Among the proposed methods, the mel-scale PCEP gives the best performance in view of both recognition accuracy and complexity. Moreover, we present the performance of several speech coders in view of speech recognition under the adverse environments such as tandem, frame erasure and background noise. The recognition results show that the speech recognition performances are much affected by coder specifications such as bit-rates and an optional scheme. These comparative results can provide a guideline for selecting and/or designing a speech coder when a speech recognition service is needed in digital communication networks.

본 연구는 디지털 이동통신 환경에서의 음성인식에 관한 것으로서, 효율적인 인식 방식과 인식성능 향상을 위한 기법들을 다루었다. 디지털 이동통신 환경에서 음성인식을 수행할 경우 고려해야 할 사항들은 주변 소음, 음성코덱에 의한 스펙트럼 왜곡, frame erasure와 같은 채널왜곡 등이다. 단말기나 서버에서 음성인식을 수행할 때 음성코덱에서 재생된 음성을 이용하는 인식방식은 저전송률의 음성코덱을 사용하는 디지털 이동통신 환경에서 심한 성능 저하를 보인다. 본 연구에서는 이를 극복하기 위한 대안으로서 음성코덱의 양자화된 LSP 파라미터를 이용하는 인식방식을 도입하였으며, 이 방식의 향상된 성능을 스펙트럼 왜곡과 인식률로써 보였다. 이 방식은 음성의 재생 및 기본적인 스펙트럼 파라미터를 추출하는 과정이 필요 없으므로 계산량 및 메모리를 최소화할 수 있는 효율적인 것이다. 또한, 본 연구는 이와 같은 양자화된 LSP를 기반으로 하는 음성인식기의 성능을 향상시키기 위해 다음과 같은 기법들을 개발하였다. 첫째, LSP 벡터간의 유클리디언 거리척도 (Euclidean distance measure)에서 음성인식에 적합한 가중 함수를 설계하였다. LSP 파라미터를 이용하여 정확한 스펙트럼의 거리를 구하기 위해서는 유클리디언 거리척도 식에 차수별로 적절한 가중치를 주어야 한다. 그래서 각 LSP의 변이가 스펙트럼의 변이에 주는 민감성 (sensitivity)에 기반을 두어 가중치를 구하였으며, 이들 기법들은 LPC 스펙트럼 가중 기법, 역 조화 평균 가중 기법 (Inverse harmonic mean weighting) 및 Gardner 가중 기법 등이다. 그리고, 음성인식 관점에서 개발된 가중 기법으로서 인간의 인지특성을 고려한 멜 주파수 워핑 (mel-frequency warping) 기법을 도입하였다. 또한, 스펙트럼 민감성에 기반한 가중 기법들과 멜 주파수 워핑 기법을 결합한 하이브리드 기법을 제안하였다. 이들 가중 기법들은 HMM 기반의 음성인식 시스템에 적용되었다. 이산분포 HMM에서는 코드북 설계 및 codeword indexing 과정에서의 거리 척도식에 이들 가중 기법들을 적용하였다. 그리고, 연속분포 HMM에서는 segmental K-means 알고리즘에서 clustering 및 Gaussian mixture의 파라미터들을 추정할 때와 Viterbi decoding 과정에서의 확률값 계산할 때 이들 가중기법들을 적용하였다. 본 연구에서 제안되고 구현된 위와 같은 LSP 가중기법들은 화자독립 인식실험에서 향상된 인식 성능을 보였으며, 이들 기법들 중에서 하이브리드 방식이 최고의 성능을 주었다. 둘째, LSP를 켑스트럼 영역의 특징 파라미터로 변환하여 인식성능을 향상시킬 수 있었다. 우선, LSP 파라미터를 LPC 계수로 변환하여, 이로부터 LPC 켑스트럼을 구하였다. 또한, LSP에서 변환된 LPC 계수로부터 LPC 스펙트럼을 구하고, 이로부터 비선형적으로 19 개의 filter bank 출력을 근사적으로 구하였다. 이들 filter bank 출력을 DCT하여 MFCC 벡터를 구하였다. 또한, LSP 파라미터로부터 간단한 변환식에 의해 직접적으로 구한 켑스트럼의 근사화된 형태인 의사 켑스트럼 (pseudo-cepstrum)을 도입하였다. 의사 켑스트럼의 특징은 스펙트럼의 포만트 성분이 강조되는 경향이 있으며, LPC 켑스트럼과의 스펙트럼 거리가 작다. 화자종속 및 화자독립의 음성인식 실험 결과, 의사 켑스트럼이 LSP 보다 향상된 인식성능을 그리고 LPC 켑스트럼과 유사한 성능을 보였다. 특히, 켑스트럼 영역으로 변환된 파라미터를 평균 및 분산 정규화 기법을 적용하여 잡음 환경에서 우수한 성능을 얻었다. 또한, 본 연구에서는 현재 표준으로 채택되고 있는 음성코덱들을 디지털 통신망에서의 음성인식의 관점에서 성능 평가를 수행하였다. 특히, 인식성능 저하의 주요 요인인 tandeming, frame erasure 및 주변 소음 환경에 대해서 성능평가를 하여, 실제 디지털 이동통신망에서 인식을 수행할 경우 음성코덱의 선택 및 설계를 위한 기본 자료를 얻었다. 인식 실험 결과 코덱에 따라 인식성능이 커다란 차이를 보였으며, 여러 음성코덱 중에서 GSM-EFR이 가장 우수한 성능을 보였다. 그리고, EVRC의 noise suppression과 같은 음성코덱의 옵션을 선택한 경우 심한 잡음 환경에서는 향상된 인식 성능을 보인 반면, 비교적 조용한 환경에서는 인식 성능의 저하를 초래하였다. 본 연구에서는 디지털 이동통신 환경에서의 음성인식시 고려해야할 사항들, 음성코덱의 파라미터를 사용하는 효율적인 인식방식, 그리고 양자화된 LSP에 기반한 음성인식의 성능을 향상시키기 위한 기법들 등에 대해 다루었다. 또한, 음성코덱의 종류 및 옵션 선택 등이 디지털 이동통신 환경에서의 음성인식 성능에 주는 영향에 대해 다루었다. 화자종속 및 화자독립 인식 실험 결과, 본 연구에서 제안한 기법들이 디지털 통신 환경에서 우수한 성능을 보임이 입증되었다.

서지기타정보

서지기타정보
청구기호 {DEE 99059
형태사항 iii, 102 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : A, Bilinear transform for mel-frequency warping. - B, Properties of Rn in pseudo-cepstral warping. - C, Hypothesis test for the recognition accuracies
저자명의 한글표기 : 최승호
지도교수의 영문표기 : Hwang-Soo Lee
지도교수의 한글표기 : 이황수
수록잡지명 : "Speech recognition using quantized LSP parameters and their transformations in Digital Communications (accepted)". Electronics Letters, , ()
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 95-102
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서