In this thesis, we study a multirate vocoding algorithm that is compact and yields good quality of speech at bit rates of 2.4, 4.8 and 9.6 kbits/s. The resulting multirate algorithm utilizes the conventional LPC algorithm with the adaptive pre-/de-emphasizer based on V/UV decision as a 2.4 kbits/s coder, and the improved RELP algorithm as 4.8 and 9.6 kbits/s coders.
First, we suggest the adaptive pre-/de-emphasis scheme based on V/UV decision. This scheme is incorporated in the LPC algorithm. The resulting synthetic speech with the scheme is more intelligible and natural than that without it. Next, we propose a new coding scheme that incorporates the values of minimum and maximum step sizes obtained by the average residual error energy (ERA) of each frame. The new coding scheme increase the dynamic range and results in increased SNR. Also, three full-band residual reconstruction schemes are proposed to improve the speech quality of the RELP vocoder. These include the multiband spectral folding scheme, the scheme of using both the spectrally folded signal and LPC excitation signal, and the scheme of using the multiband spectrally folded signal and LPC excitation signal. It has been found that among the three schemes, the last one has the best performance. It produces no roughness and little tonal noise. Finally, the hardware implementation of the resulting multirate algorithm using the TMS320 digital signal processor family is considered.
본 논문에서는 2.4, 4.8 그리고 9.6 kbits/s의 전송 속도들에서 각각 가장 우수한 성능을 가지면서, 통합된 시스템의 구조가 간단하고 효율적인 multi-rate vocoding algorithm에 관한 연구가 행하여졌다. 통합된 시스템의 2.4 kbits/s에서 동작하는 부호화기로는 유성음/무성음 판단에 바탕을 둔 적응 pre-/de-emphasizer를 이용한 LPC algorithm을 사용하고, 4.8과 9.6 kbits/s에서 동작하는 부호화기로는 음질이 향상된 RELP 방식을 채택하였다.
먼저, 적응 pre-/de-emphasis 방식을 적용한 LPC algorithm은 종전의 방법보다 무성음의 선형예측계수들을 더 정확히 나타낼 수 있기 때문에, 이 방식을 이용한 LPC vocoder는 보다 쉽게 알아들을 수 있고 자연스런 합성음을 만든다. 다음으로 RELP vocoder에서 음질을 향상시킬 수 있는 방법으로 baseband residual 신호를 부호화하는 방법과 full-band residual 신호를 재구성하는 방법들이 새로이 제안되었다. 새롭게 제안된 baseband residual 신호의 부호화 방법은 step size의 minimum과 maximum 값들을 평균된 residual error energy를 이용하여 정하는 방법이다. 이 방법을 이용하면 이 방법을 이용하지 않는 경우보다 부호화기의 dynamic range와 SNR이 증가되기 때문에, 이 부호화기는 baseband residual 신호를 보다 효율적으로 부호화할 수 있다. 또한 세가지의 fullband residual 신호를 재구성하는 방법이 새로이 제안되었는데, 이 방법들은 다음과 같다. 즉, 첫번째 방법은 한개의 baseband 신호 대신 여러개의 baseband 신호들을 이용한 spectral folding 방법이며, 두번째 방법은 spectral folding 방법으로 얻어진 residual 신호와 LPC vocoder의 excitation 신호를 조합한 방법이고, 마지막 방법은 위의 두 방법을 조합하는 방법이다. 이 방법들을 사용할 경우 합성 음성에 아무런 roughness 도 없고, spectral duplication 방법을 사용한 RELP vocoder에 의해 합성된 음성의 공통적인 특징인 tonal noise도 거의 들을 수 없었다. 이들 세가지 방법중에서는 마지막 방법이 가장 우수한 음질을 나타냈다.
마지막으로 TMS320 디지탈 신호 처리기를 사용하여 제안된 multi-rate algorithm을 hardware system으로 구성하는 것을 고려하였다.