서지주요정보
Waveform interpolation-based wideband speech compression for the text-to-speech database = 음성합성기의 데이터베이스를 위한 파형보간 기반의 광대역 음성신호 압축
서명 / 저자 Waveform interpolation-based wideband speech compression for the text-to-speech database = 음성합성기의 데이터베이스를 위한 파형보간 기반의 광대역 음성신호 압축 / Kyung-Jin Byun.
저자명 Byun, Kyung-Jin ; 변경진
발행사항 [대전 : 한국정보통신대학교, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000669

소장위치/청구기호

문지도서관2층 학위논문

ICU/DS06-07 2006

휴대폰 전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

This thesis presents the low bitrate wideband speech compression techniques for the corpus-based TTS (Text-to-Speech) system. In recent years, a variety of speech coding techniques have been proposed and evolved for various applications mainly in communication areas. However, these coding approaches are not appropriate for the storage applications such as the compression of the TTS database. There are some differences between the speech coders for communication areas and those for storage applications. Therefore, the speech coders developed for communication applications have some restrictions to be adopted directly into the storage applications. On the other hand, the corpus-based TTS systems generally use a database consisting of a great number of natural speech segments in order to synthesize a decent quality speech. Therefore, it is indispensable to compress it for the practical implementation of the embedded TTS system. To comply with these necessities, we propose several new features which are more efficient and eligible to compress the TTS database. These are a dimension conversion technique for the quantization of the spectrum vectors with a variable dimension, an efficient decoding scheme for the segmented frame decoding, and a complexity reduction method. The proposed dimension conversion method provides a practical way to quantize the variable dimension vectors with a small codebook memory. The efficient decoding scheme for the segmented frame decoding is an essential technique for the reconstruction of the decent quality speech segments needed as an input signal to the TTS system. The segmented frame decoding scheme can reconstruct a good quality speech by using the previous parameters and the pre-obtained phase estimates. The presented computational complexity reduction of the decoder is also one of the critical factors to realize an embedded TTS system. The decoder complexity reduction is realized by removing the characteristic waveform realignment procedure from the decoder. By employing these novel features we design and implement the wideband SF-WI (Segmented Frame-Waveform Interpolation) speech coder at a bitrate of 6.0 kbps, suitable for the compression of the TTS database. The quality evaluation of our SF-WI coder shows that the reconstructed speech decoded by the SF-WI coder is gracefully improved especially for the segmented frame decoding compared to other reference coders. Moreover, we investigate the possibility of employing the scalable coding structure to the SF-WI speech coder. It is expected that the scalable coding scheme provides a good solution to make a compromise between quality and compression ratio for implementing an embedded TTS system.

본 논문에서는 음성 합성기의 데이터베이스를 압축하기 위하여 파형보간 기반의 광대역 음성신호 압축 기술을 제안하였다. 현재까지 다양한 응용분야에 적용하기 위한 많은 종류의 음성압축 (음성코딩) 기술들이 제안되고 개선되어 왔으나 이러한 음성코딩 기술의 대부분은 통신분야를 위하여 개발되어져 왔다. 하지만 이러한 코딩 방법들은 본 논문에서 다루고 있는 음성합성기의 데이터베이스 압축과 같은 저장분야에 적용하기에는 적합하지 않다. 통신분야를 위한 음성코더와 저장분야를 위한 음성코더는 각 응용분야에서의 음성코더의 성능을 좌우하는 요소가 서로 다르기 때문에 통신분야를 위해 개발된 음성코더를 저장분야에 직접 적용하기에는 많은 제약이 따른다. 한편, 최근의 음성합성기들은 자연스러운 음성을 합성하기 위하여 대용량의 음성 데이터베이스를 사용하기 때문에 내장형 음성합성기의 실용적인 구현을 위해서는 이러한 대용량의 음성 데이터베이스를 압축하는 것이 필수적이다. 이러한 필요성에 의해 본 논문에서는 음성합성기의 데이터베이스를 압축하는데 효과적이고 보다 적합한 새로운 방법으로써 스펙트럼 벡터의 차원변환 기술, 부분적인 프레임에 대한 효과적인 디코딩 기술, 디코더의 연산량 감소 방법들을 제안하였다. 먼저 가변차원을 갖는 스펙트럼벡터의 양자화을 위한 차원변환 방법은 벡터 양자화기의 코드북 메모리를 절약할 수 있는 장점을 제공한다. 이 방법은 협대역 음성에 비해 광대역 음성에서는 스펙트럼 벡터의 차원이 두배가 되기 때문에 광대역 음성신호의 코딩에 더욱 유용하다. 음성합성기의 데이터베이스 압축을 위한 새로운 디코딩 기술은 음성합성기에서 필요로하는 부분적인 프레임을 디코딩하였을 때 복원된 음성신호의 연결부분에서 왜곡을 현 저히 감소시켜주는 방법이다. 부분적인 프레임을 디코딩하는 방법은 본 논문의 주요한 부분으로써 음성합성기의 입력으로 사용될 음성신호가 좋은 음질을 갖도록 복원될 수 있는 방법을 제공한다. 그리고 디코더의 연산량을 줄이기 위한 방법도 내장형 음성합성기를 구현하는데 있어서 중요한 요소 중의 하나이다. 디코더의 연산량 감소는 인코더에서 추가적인 계산을 통해 디코더에서 특성파형의 재정렬 과정을 생략할 수 있도록 음성코더를 설계 함으로써 구현되었다. 통신분야와 달리 본 논문에서와 같은 저장분야에서 인코더의 동작은 실시간으로 수행될 필요가 없으므로 인코더의 연산량은 중요치 않다. 본 논문에서는 새로이 제안된 방법들을 적용하여 음성합성기의 데이터베이스를 압축하는데 효율적인 6 kbps의 비트율을 갖는 광대역 SF-WI (Segmented Frame Waveform Interpolation) 음성코더를 설계하였다. 구현된 SF-WI 음성코더의 성능평가를 위해 SNR 측정 및 MOS 시험을 수행하고 AMR-WB 표준코더 및 기존의 WI 코더와 성능비교 시험을 하였다. 평가결과 SF-WI 코더는 다른 두가지 음성코더에 비해 부분적인 프레임 디코딩의 경우에서 많은 성능 개선을 보였다. 또한 SNR 측정을 통해서도 부분프레임의 디코딩에 대해서 SF-WI 코더의 성능이 우수함을 확인하였다. 또한 본 논문에서는 SF-WI 음성코더에 비트율 신축성을 갖는 코딩구조를 적용하기 위한 연구를 수행하였다. 비트율 신축성을 갖는 음성코더는 4.05 kbps에서 8.25 kbps 까지의 네가지 비트율을 갖도록 구현되었다. 이러한 비트율 신축성을 갖는 음성코더는 추가적인 증강기능을 사용하지 않고 몇가지 파라미터의 전송률을 변화시켜서 비트율 신축성을 제공할 수 있도록 하는 간단한 구조로 구현되었다. 이러한 비트율 신축성을 갖는 코딩구조를 SF-WI 음성코더에 적용할 경우 내장형 음성합성기의 구현 시 성능과 압축율 사이의 타협점을 찾는데 유용한 해결책을 제공할 것으로 기대된다. 본 논문에서는 음성합성기의 데이터베이스 압축에 효율적인 코딩 알고리즘들을 제안하고 그것들을 적용하여 SF-WI 코더를 구현하였다. 하지만 아직 추가적인 연구를 통해 개선해야 할 점들로는 다음과 같은 것들을 생각해 볼 수 있다. 우선 음성코더의 설계에 있어서 프레임 크기는 성능과 비트율에 직접적인 영향을 미치므로 보다 다양한 크기의 프레임에 대한 실험을 통해 적은 비트율에서 최적의 성능을 갖는 음성코더에 대한 충분한 연구가 필요하다. 그리고 본 논문 에서 사용한 파라미터의 양자화 방법들은 기존의 기본적인 방법들을 적용한 것이므로 보다 효과적인 양자화 방법에 대한 연구는 음성코더의 성능개선에 많은 도움이 될 것이다. 특히 SEW 파라미터는 복원된 음성신호의 음질에 주요한 영향을 주는 파라미터 이므로 SEW의 양자화 방법을 중점적으로 개선하는 것이 효과적일 것으로 생각된다. 그리고 신축성을 갖는 코딩구조에 대한 추가적인 연구도 성능과 비트율 측면에서 융통성을 갖는 내장형 음성합성기의 구현에 많은 도움이 될 것으로 판단된다. 또한 음성합성기와 음성코더를 실제로 연계하여 동작시켰을 때 음성합성기의 전체적인 성능에 영향을 미치는 요소들에 대한 추가적인 연구도 필요하다고 생각된다. 본 논문에서 제안한 SF-WI 음성코더를 음성합성기의 데이터베이스 압축에 직접 적용하기에는 아직 부족한 부분들이 있지만, 이러한 음성코더는 내장형 음성합성기의 실질적인 구현에 대한 충분한 가능성을 보였다고 생각한다.

서지기타정보

서지기타정보
청구기호 {ICU/DS06-07 2006
형태사항 xii, 138 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 변경진
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(박사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 121-130
주제 Speech Coding
Waveform Interpolation
TTS
Wideband Speech
음성코딩
파형보간
음성합성기
광대역음성
QR CODE qr code