서지주요정보
Voice conversion based on formant frequency shift technique = 포만트 주파수 이동 기술에 기반한 음성변환
서명 / 저자 Voice conversion based on formant frequency shift technique = 포만트 주파수 이동 기술에 기반한 음성변환 / Jae-Min Kim.
발행사항 [대전 : 한국정보통신대학원대학교, 2000].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000074

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS00-50 2000

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, two new speech-related algorithms are proposed. One is a fully automated systematic formant estimation algorithm while the other is a voice conversion one based on the formant shift concept practically implemented by shifting LSFs (Line Spectrum Frequency). The former algorithm can be considered as a modified version of the peak-picking one. The modification comes from the basic idea that the closer the distance between an LSF pair, the higher the probability that a formant exists between them. This formant information is directly utilized in the voice conversion algorithm. For voice conversion, two methods are investigated. The first is based on the formant shift and can change the formant frequencies and their bandwidths. The second transforms an input speech uttered by a specific speaker into another target speaker's voice by applying the formant shift technique. Our formant shift algorithm is tested and shows that perceptually different voice color can be produced. The XAB and the MOS (Mean Opinion Score) tests are performed for voice conversion with target voice and the results show 95% of correct response and 4.2, respectively. As a conclusion, it can be said that, by using the proposed algorithms, an automatic formant estimation and voice conversion can be achieved with relatively successful results.

음성변환이란 화자의 개인성 정보를 수정하거나 치환하는 기술을 말한다. 즉, 한 화자에 의해 발성 된 음성이 다른 화자에 의해 발성 된 것처럼 음성을 변환하는 것을 의미한다. 이 기술은 데이터 베이스 구축에 많은 시간과 노력이 필요한 문서음성변환(Text-to-Speech)시스템에서 대화시스템과 같이 구성된 음성 데이터 베이스 이외의 음성을 출력하고자 할 때와 화자의 개인성을 포함하도록 할 때에 필수적인 조건이 된다. 본 논문에서 제안한 음성변환방법은 포만트 주파수에 관련되어 있는 LSF를 옮김으로써 음성을 특징짓는 포만트 주파수를 변환하는 것이다. 이때 포만트 주파수를 변환하여 음성변환을 하는 이유는 포만트가 화자의 개인성을 특징짓는 중요한 요소일 뿐만 아니라 음성 생성을 제어하는 파라미터에 기초를 둔 물리적인 의미를 갖기 때문이다. 그러나 포만트 주파수는 자동적으로 추출하기가 어렵고 그것의 변환 규칙을 자동적으로 적용하는 것 또한 어렵다. 따라서 본 논문에서는 간단하고 규칙적이면서도 자동적으로 포만트의 예측이 가능한 방법을 제안한다. 이 알고리즘은 LPC 스펙트럼에서 피크를 검출하는 방법을 보완하는 방법으로써 LSFs를 이용한 포만트 예측 규칙을 이용하는데, 그 과정은 다음과 같다. 먼저, 피크-검출 방법이 LPC 스펙트럼에 적용되고, 그 다음 피크-검출 방법에 의한 결과를 기반으로 하여 LSFs를 이용한 포만트 예측 규칙을 적용한다. 포만트 예측에 이용된 기본 개념은 LSF pair의 사이 간격이 좁을수록 그 간격 내에 포만트 주파수가 존재할 확률이 높다는 것이다. 이러한 포만트 예측 방법의 결과는 음성변환방법에 적용된다. 본 논문은 두 가지 음성변환방법을 수행했다. 그 첫 번째 방법은 LSFs를 옮김으로써 음성변환을 하는 것인데, 그 과정은 다음과 같다. 먼저 전체 LSFs를 임의적으로 결정된 주파수만큼 선형적으로 옮기고, 포만트 정보에 의해서 선택된LSFs만을 포만트가 원하는 대역폭을 가질 수 있도록 한번 더 이동시킨다. Figure 4.1과 Figure 4.2는 위의 방법에 의한 결과를 나타내는데, shift value ($S_1$) 와sharpness factor ($\alpha_l$)에 의하여 포만트 주파수와 대역폭이 조정될 수 있음을 알 수 있다. 여기에서 주목할 만한 사항은 shift value ($S_1$) 와sharpness factor ($\alpha_l$)의 부호와 관련된 상관 관계 인데, 만약 두 부호가 같은 경우에는 음성변환에 의한 합성음에서 음질 저하가 무시할 만 하나, 그렇지 않은 경우에는 합성음의 음질 저하가 심각한 문제로 대두된다. 현재 예측된 6개의 포만트 주파수에 대하여 shift value ($S_1$) 와sharpness factor ($\alpha_l$)가 모두 일정한 값을 가지는 것에 대하여 실험이 이루어졌는데 향후에는 서로 다른 값을 가지도록 하여 다양한 실험을 행할 예정이다. 본 논문에서 제안한 두 번째 음성변환 방법은 임의의 한 화자(여자A)에 의하여 발성 된 음성을 목적하는 음성(여자B)의 특성으로 변환하는 것이다. 이 알고리즘의 과정은 수동으로 얻어진 subspace(예: '와')에 대하여 포만트 주파수 변환 규칙을 정한다. 현재 이 과정에서 수동으로 얻어지는 subspace를 차후에는 음성 CORPUS로부터 벡터 양자화(VQ)를 이용하여 자동적으로 구할 예정이다. 음성변환과정은 LSFs의 이동을 통하여 수행되는데 이동하는 주파수 값은 임의의 한 화자(여자A)의 평균 포만트 주파수($F^{ori_av}_l$) 와 목적 화자(여자B)의 평균 포만트 주파수($F^{tar_av}_l$) 사이의 차에 의해서 결정된다. Figure 4.4를 살펴보면, 변환된 음성의 spectrogram이 변환되기 전의 원래 음성의 spectrogram 보다 목적 음성의 spectrogram에 더 유사함을 알 수 있다. 그리고 제안한 알고리즘의 음색변환 정도를 평가하기 위해서 주관적 청취 평가인 XAB 평가와 유사성 평가를 시행하였는데, 이때 XAB 평가 결과는 95퍼센트였고 유사성 평가 결과는 4.17이었다. 이러한 결과는 제안한 알고리즘이 화자의 개인성을 변환할 수 있음을 보여주는 것이다. 향후에는 이 알고리즘을 벡터 양자화와 더불어 사용함으로써 LPC 혹은 LSP 형식의 문서음성변환(Text-to-Speech)시스템에 적용할 것이다.

서지기타정보

서지기타정보
청구기호 {ICU/MS00-50 2000
형태사항 viii, 61 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김재민
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(석사) - 한국정보통신대학원대학교 : 공학부,
서지주기 References : p. 58-59
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서