서지주요정보
Very low bit rate speech coding based on temporal decomposition of line spectral frequencies = 선스펙트럼 주파수의 시간적 분해법에 기반한 극저전송률 음성부호화
서명 / 저자 Very low bit rate speech coding based on temporal decomposition of line spectral frequencies = 선스펙트럼 주파수의 시간적 분해법에 기반한 극저전송률 음성부호화 / Sung-Joo Kim.
저자명 Kim, Sung-Joo ; 김승주
발행사항 [대전 : 한국과학기술원, 2000].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8010596

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 00006

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

등록번호

9006411

소장위치/청구기호

서울 학위논문 서가

DCS 00006 c. 2

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Very low bit rate (VLBR) speech coding technology digitizes speech signal at bit rate about 1 kbps and below, so that it can transfer or store speech signal effectively. To develop a VLBR speech coder, it is essential to remove the temporal redundancy of spectral information of speech. Most of VLBR speech coders analyze the input speech as a sequence of phonetically meaningful segments like phonemes and then quantize them to remove the spectral redundancy. In this case, it is expected that the coded speech can be utilized by several interesting applications such as client-server model speech recognition, spoken document retrieval, speaker transformation, speaking rate change, and so on. It is because the VLBR speech coder abstracts the essential information of the input speech more efficiently compared with a fixed-frame speech coding system. In this paper, two important aspects of a VLBR speech coding are studied: 1) development of a novel method for quantizing spectral information of speech and 2) application of a VLBR speech coder output. Thus a VLBR speech coder is implemented and its applications are discussed. The implemented vocoder adopts temporal decomposition method, which does not requires training or matching patterns. For representing spectral information of input speech, line spectral frequency (LSF) parameters are used since several merits of LSF parameter are very applicable to a low bit rate speech coder, such as their robustness in quantization and transmission error. However, they also have an inherent property called LSF''s ordering property and this prohibits the temporal decomposition of LSF parameters. In order to solve this problem, a restricted temporal decomposition is proposed. Finally, a VLBR speech coder at the average bit rate of 996 bps is developed, and performance tests prove that the proposed vocoder reproduces a similar quality of the 2400 bps LPC-10E vocoder. As an application of the implemented VLBR speech coder, an automatic speech recognition system using coded speech is designed. Since the restricted temporal decomposition of LSF parameters segments the input speech into phone-like units and then quantizes them, it is able to extract the compact information from the input speech and to reduce the burden of processing massive data. During the experiment of a small vocabulary isolated word recognition task, the implemented recognizer worked perfectly and recognized all the test words. It implies that the proposed VLBR vocoder is a candidate speech compressor which will be adopted by a speech archiving system, or spoken document retrieval system, or a client-server model speech recognition system as a recognizer front-end module.

극저전송률 음성부호화 기술은 음성을 1Kbps정도의 전송률로 부호화 하여 전송 및 저장 시에 효율을 극대화한다. 또한 이 기술은 입력 음성을 음성학적으로 의미 있는 기본 단위로 분석하고 이를 양자화 하여, 음성의 활용성 및 가공성을 높인다. 극저전송률 음성 부호기의 개발을 위해서는 스펙트럼 정보의 시간적인 반복성을 제거하는 것이 중요하다. 대부분의 극저전송률 음성 부호기는 스펙트럼 정보의 반복성 제거를 위해 입력 음성을 음성학적으로 의미 있는 단위로 분석한 후에 이를 양자화하고 있다. 따라서 이와 같이 부호화된 입력 음성은 클라이언트-서버 모델의 음성 인식, 음성 자료 검색, 음성 압축 저장 시스템 등의 여타 흥미로운 활용분야에 이용될 수 있다. 이것은 극저전송률 음성 부호기가 입력 음성의 필요한 정보를 잘 축약해 주기 때문이다. 본 연구에서는 극저전송률 음성부호화 기술의 두 가지 중요한 의미를 검증하고자 한다. 즉, 음성의 스펙트럼 정보를 보다 효과적으로 양자화 할 수 있는 새로운 방법을 모색한다. 또한 극저전송률 음성 부호기의 활용 방안에 대해 연구한다. 극저전송률 음성부호기의 설계를 위해서는 학습과정이나 패턴정합을 사용하지 않는 시간적 분해법을 사용한다. 또한 현재 저전송률 음성부호기에서 널리 사용되고 있는, 선스펙트럼 주파수를 파라미터로 사용할 수 있도록 변형된 시간적 분해법도 제안한다. 제안된 선스펙트럼 주파수의 시간적 분해법을 바탕으로 평균 996 bps의 전송률로 양질의 합성음을 제공하는 극저전송률 음성부호기를 개발한다. 음질 평가 결과 제안된 극저전송률 부호기는 2400 bps LPC-10E 음성 부호기와 대등한 수준의 음질을 생성함을 확인하였다. 제안된 부호기의 응용 예로, 부호화된 음성을 입력으로 하는 음성 인식 시스템을 구현하였다. 제한된 시간적 분해법은 스펙트럼 정보를 음소 수준의 단위로 분할하며, 양자화 하므로 입력 음성의 불필요한 부분을 제거하고, 인식에 필요한 정보를 압축해 주는 효과가 있다. 적은 어휘의 고립 단어 인식 실험 결과, 구현된 인식기는 실험 단어를 오류 없이 모두 인식하였다. 이는 제안된 극저전송률 음성부호기가 앞으로 음성 압축 저장 시스템, 음성 자료 검색 시스템, 또는 클라이언트-서버 모델의 음성 인식 시스템 등의 전단에서 음향학적 파라미터의 계산 및 정규화 과정을 대체할 수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {DCS 00006
형태사항 iv, 101 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김승주
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지정보 : "Split vector quantization of LSF parameters with minimum dLSF constraint". Electronics letters, vol. 6, no. 9, pp. 227-229 (1999)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 97-101
주제 very low bit rate
speech coding
temporal decomposition
LSF
극저전송률
음성부호기
음성압축
시간적 분해법
선스펙트럼 주파수
QR CODE qr code