서지주요정보
A study on male-to-female voice conversion = 남녀 음성변환 기술연구
서명 / 저자 A study on male-to-female voice conversion = 남녀 음성변환 기술연구 / Jung-Kyu Choi.
발행사항 [대전 : 한국정보통신대학원대학교, 2000].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000091

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS00-67 2000

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Voice conversion technology is essential for TTS systems because the construction of speech database takes much effort. In this paper, male-to-female voice conversion technologies in Korean LPC TTS system have been studied. In general, the parameters for voice color conversion can be categorized into acoustic and prosodic parameters. Our technique adopts LSF(Line Spectrum Frequency) for acoustic parameter while, pitch period and duration for prosodic parameters. For male-to-female conversion, pitch period is shortened by the half, duration is reduced by 25%, and LSFs are shifted perceptually using bark frequency. Finally, the synthesized speech is post-filtered by a high-pass filter. The proposed algorithm is simpler than other algorithms, for example, VQ or Neural Net based methods. Our algorithm don’t even need to estimate the formant information. The MOS(Mean Opinion Socre) test for naturalness and female closeness shows 2.58 and 3.32, respectively. As a conclusion, we can say that, by using the proposed algorithm, male-to-female voice conversion system can be simply implemented with relatively successful results.

음성변환(Voice Conversion)이란 화자의 개인성정보를 수정하거나 치환하는 기술로서 정의되는데 일반적으로 입력음성을 목적화자가 들리는 것처럼 변환하는 것을 말한다.[14] 최근 문서 음성 변환(Text-to-Speech)시스템의 급증하는 수요로 인해 그 중요성이 커지고 있는데 일반적인 문서 음성 변환 시스템은 한 화자의 음성 DB를 구축하고 무제한 합성을 하는데 음성 DB의 구축은 많은 시간과 노력이 필요하므로 하나 이상의 DB를 작성한다는 것은 매우 힘든 일이다. 따라서 대화시스템과 같이 구성된 음성 DB 이외의 음성을 출력하고자 하는 경우에는 음성 변환 기술이 필수적인 조건이 된다. 본 논문에서는 20대 남성화자의 DB로 구성된 LPC합성기에서 동일연령층의 여성으로의 음성변환 기술에 관하여 연구하였는데 기존의 VQ나 신경망을 이용한 방법에 비해 연산량이 적고 메모리를 절약할 수 있는 음성변환 필터를 구현해 보았다. 음성변환을 위해 고려해야 할 화자의 개인성 요소는 크게 음향학적인 요소와 운율적 요소로 나뉘는데 음향학적인 요소는 발성기관의 해부학적인 차이나 발성 기관의 조음 방법 차이에서 나타나는 포만트 주파수나 , 대역폭 등이 있으며 운율적 요소는 기본 주파수 궤적, 지속시간, 피치 등이 있다. 일반적인 음성변환 시스템은 크게 분석부, 변환부, 합성부로 나뉘는데 분석부에서는 매 분석구간마다 변환을 수행할 특징 파라미터를 추출하고 변환부에서는 추출된 파라미터를 목적화자의 특징 파라미터로 변환시키며 합성부에서는 변환부에서 변환된 파라미터들을 이용하여 음성으로 재합성하는 일을 수행한다. 변환방법에 있어서 일반적으로 화자의 모델링을 위해서 VQ(Vector Quantization) 기반의 Codebook이 주로 사용되어져 왔다. 하지만 이러한 방법은 효율적인 사상학습과 학습데이터의 선정에 어려움이 있고 양자화 오류가 발생한다. 이러한 단점들을 해결하기 위해 GMM(Gaussian Mixture Model)이나 신경망(Neural Network) 등에 의한 화자 모델링 방법이 제안되기도 하였으나 복잡한 연산을 수행하게 된다. 본 논문에서는 남녀 음성변환을 위해 채택한 파라미터는 본 논문에서 이미 서술한 바와 같이 피치주기, 지속시간, LSF이고 단계별로 살펴보면 - 파라미터 검색단계: 음성변환을 위한 파라미터들, 즉 피치주기, 지속시간, LSF를 프레임별로 검색한다. - 음성변환단계: 검색된 파라미터들을 변환하는 단계로 피치주기는 0.5배, 지속시간 0.75배, LPC계수를 LSF로 구하고 Bark sclae로 nolinear하게 shift시킨다. shift된 LSF를 다시 LPC계수로 계산한다. - 합성단계: 변환된 파라미터로부터 음성을 합성한다. - 후처리 단계: 저주파 영역에서의 남성특성을 제거하기 위해 High-Pass Filtering한다. 음성변환의 정도와 자연성을 평가하기 위하여 주관적인 MOS 평가를 하였는데 우선 남녀 10인을 선정하여 MOS평가에 대한 기준을 상세히 설명하고 5문장에 대해 원래 남성음성의 합성음과 변환된 합성음을 random하게 배열하여 들려주고 평가하였다. 첫번째 평가에서는 들려주는 합성음이 남성에 가까운지 여성에 가까운지를 평가하는 실험이었는데 실험 결과, 합성음은 1.46, 변환된 음성은 3.32으로 나타났는데 변환된 음성이 여성음성에 가까운 것을 나타내었다. 두 번째 자연성 평가에서는 원래 합성음 2.92, 변환음 2.58로 음질의 열화가 발생하는 것을 알 수 있었다. 본 논문의 결과에서 비교한 바와 같이 VQ나 GMM기반의 방법들은 많은 Memory와 계산량을 필요로 하는 반면, 제안된 알고리즘으로 이러한 단점을 극복하면서도 상대적으로 좋은 음질을 얻을 수 있다. 본 논문에서 제안된 알고리즘에 의해 LPC나 LSP기반의 합성기에서 간단하게 남녀 음성변환을 구현 할 수 있을 것이다.

서지기타정보

서지기타정보
청구기호 {ICU/MS00-67 2000
형태사항 x, 57 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 최정규
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(석사) - 한국정보통신대학원대학교 : 공학부,
서지주기 References : p. 53-54
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서