서지주요정보
Pole-zero modeling of speech = Pole-zero model을 이용한 음성 신호의 분석
서명 / 저자 Pole-zero modeling of speech = Pole-zero model을 이용한 음성 신호의 분석 / Kil-Ho Song.
저자명 Song, Kil-Ho ; 송길호
발행사항 [서울 : 한국과학기술원, 1982].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

4001549

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 8201

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In this dissertation, pole-zero modeling of clean and noisy speech has been investigated. The purpose of this work is to improve the quality of the conventional linear prediction vocoder by studying the following two aspects : accurate representation of spectral valleys, especially those of nasal or consonant sound, and accurate spectral estimation of speech corrupted by noise. Four types of pole-zero modeling methods have been studied. They are the method of modified Yule-Walker (MYW) with time domain inverse linear prediction, the modified least square (MLS) method, the method of modified least square with autocorrelation compensation (MLSAC) and the autocorrelation prediction (AP) method. Of those, the first three have been newly proposed. These four algorithms have been derived in a unified approach that is based on high-order pole model fitting and decomposition method. Since these algorithms need only linear operations to get solutions, they are computationally more efficient than any other pole-zero modeling methods that usually resort to iterative algorithms. Those algorithms studied require far less computations than other previously proposed iterative algorithms. When these algorithms are used, one needs to have only 4 to 7 times more computations than that required for the all-pole analysis. The MYW method derived based on the AP method yields accurate spectral estimate for nasal sound. Also, it yields the most accurate spectral estimate for noisy synthetic speech than the other methods. However, when noisy natural speech is used as the input signal, the method does not yield a spectral estimate any better than the all-pole method. The MLS method that can be regarded as a subclass of the MLSAC method is similar in concept to those methods studied by Kalman, and Mullis and Roberts. Although the MLS method is computationally efficient, it appears that the performance improvement over the all-pole modeling method is not significant. On the other hand, MLSAC method yields a significant improvement in spectral envelope estimation for nasal sound and also in vocoded quality for noisy speech over the all-pole linear prediction method. When signal to noise ratio of the input speech is in the range of 10 dB or less, a performance improvement of about 5 dB can be achieved by using the MLSAC method. Next, three application areas of the proposed pole-zero modeling methods have been investigated. These are dynamic filtering, pole-zero vocoding and multi-rate robust vocoding. For dynamic filtering and pole-zero vocoding applications, accurate spectral estimation is of interest. In these applications the AP, MYW and MLSAC methods are all applicable. As for multi-rate robust vocoding, it is desirable to develop an algorithm that is not only accurate in spectral envelope estimation but also less susceptible to environmental noise than the all-pole linear prediction vocoding. The MLSAC method that meets such requirements simultaneously appears to be the best pole-zero modeling algorithm. It yields a pole-zero model that is accurate in spectral estimation and robust to input noise while not loosing computational efficiency. Finally, a high speed pole-zero vocoder hardware with microprogrammed structure has been studied for real time operation. When bit-slice microprocessors and a hardware multiplier are used, it is feasible to build a practical system that can be operated in real time.

선형예측은 많은 응용분야에서 성공적으로 사용되고 있지만 아직 몇가지 문제점을 지니고 있어 이의 개선이 필요하다. 이들 문제점으로는 비음이나 무성음의 spectrum 추정시의 부정확성 및 잡음으로 인한 급격한 성능열화를 들 수 있다. Pole-zero model 은 비음이나 무성음의 spectrum 추정시 spectral valley를 보다 정확히 표시할 수 있다. 더 나아가서 pole-zero model 을 사용하면 선형예측 부호화기를 잡음이 있는 환경에서 동작시켰을 경우 보다 개선된 음성합성을 기대할 수 있다. 이러한 두 가지 이점을 보이기 위하여 modified least square 방법에 의거한 두 가지pole-zero modeling 방법이 연구되었고, modified Yule-Walker equation 에 의거한 또한 방법이 연구되었다. 이 세 방법들은 모두 high order pole model fitting 과 decomposition 방법에 의거한 것으로 그중 modified least square with autocorrelation compensation (MLSAC) 방법이 가장 뛰어난 것으로 판명되었다. MLSAC 방법에 의하면 비음의 spectrum 추정시 보통의 선형예측 방법에 비하여 훨씬 정확할 뿐 아니라 잡음이 있을 경우 그 영향을 가장 적게 받는 것으로 나타났다. 잡음이 있을 경우 MLSAC 방법에 의하면 합성된 음성신호의 성능향상은 입력신호대 잡음비 10dB 이하에서 대략 입력측에서 5dB 의 개선이 이루어진 정도로 얻어졌다. 이상의 결과에 의거하여 새로히 개발된 pole-zero modeling 방법의 세 응용분야를 열거하였다. 이들은 dynamic filtering, pole-zero vocoding 그리고 multi-rate robust vocoding 이다. 그중 multi-rate robust vocoding가 가장 기대되는 응용분야이다. 마지막으로 개발된 새로운 pole-zero modeling 기법을 실제로 구현하기 위한 hardware 설계에 관하여 간략히 기술하였다.

서지기타정보

서지기타정보
청구기호 {DEE 8201
형태사항 xii, 145 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 송길호
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 139-145
주제 Speech processing systems.
Computer algerithms.
Prediction theory.
Spectrum analysis --Computer programs.
음성 합성. --과학기술용어시소러스
극영점 배치. --과학기술용어시소러스
스펙트럼 분석. --과학기술용어시소러스
음성 신호. --과학기술용어시소러스
예측 부호화. --과학기술용어시소러스
Vocoder.
QR CODE qr code