서지주요정보
A study on the emotional speech conversion = 감정이 실린 음색변환에 관한 연구
서명 / 저자 A study on the emotional speech conversion = 감정이 실린 음색변환에 관한 연구 / Kwang-Ki Kim.
발행사항 [대전 : 한국정보통신대학교, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000392

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS04-04 2004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, a system that is capable of transforming neutral speech into emotional one is developed. At first, emotional speech data are collected and analysed. Analysed feature parameters for emotional speech are duration, average amplitude, amplitude range, average pitch, pitch range, etc. Conversion rules are formed based on the analysed feature parameters of emotional speech, and these rules are directly applied to transform neutral speech into emotional speech. Each feature parameter is modified in time-domain. Duration modification is performed by duplication or deletion of speech signal of one pitch or of specific duration according to the corresponding speech type, i.e., voiced or unvoiced, relatively. Amplitude of speech is controlled by multiplying amplitude of original speech by amplitude ratio. The TD-PSOLA with triangular window is used for pitch modification. In this thesis, two conversion systems are implemented. One is a dependent conversion system and the other one is an independent one. In the dependent conversion system, emotionless speech is converted into target emotional speech by imitating the feature parameters of emotional speech. On the contrary, the independent conversion system transforms emotionless speech into emotional one by using the conversion rules that are previously obtained by the emotional speech database analysis. For the performance evaluation of conversion system, the MOS test is adopted. The test result shows that angry and sad speech conversions are relatively more successful than joyful speech conversion.

기존의 음색변환에 관한 연구는 화자 A의 음색을 화자 A가 아닌 다른 사람의 음색처럼 느끼게 하는 불특정 화자로의 음색변환 또는 화자 B의 음색으로 변환시키는 특정 화자로의 음색변환에 관한 것들이 대부분이었으며, 본 논문에서 다루는 음성의 감정 변환에 대한 연구는 TTS 합성기의 합성음에 감정 정보를 추가하려는 연구와 음성 신호로부터 감정 정보를 추출하려는 연구 등이 있었다. 본 논문에서는 이러한 연구들을 바탕으로 보통 상태의 음성에 감정 정보를 부여하여 '기쁨', '화남', '슬픔' 등의 감정 음성을 얻을 수 있는 감정이 실린 음색변환에 대해 다루고 있다. 본 연구에서 사용된 감정이 실린 음성 DB는 20대 후반의 남성 화자로부터 4개의 문장을 직접 수집하였으며, 각 문장마다 '중성', '기쁨', '슬픔', '화남' 등의 감정별로 3번씩 녹음하였다. 수집된 음성 DB를 가지고 각 감정별 음성의 지속시간, 크기의 평균값, 크기의 변동 범위, 평균 피치 주파수, 피치 주파수의 변동 범위 등에 대한 특징을 비교 분석하였다. 분석을 통해서 중성의 음성을 감정이 실린 음성으로 변환 시키는 변환 규칙을 정하였으며, 이에 따라 음성의 감정 변환을 수행하였다. 피치 주파수에 있어서, 화난 음성은 큰 평균 피치와 변동 범위를 가지며, 슬픈 음성은 작은 값, 기쁜 음성은 중간 정도의 값을 가진다. 또한 화난음성은 음성의 평균 크기 및 변동 범위에서도 큰 값을 가지며, 슬픈 음성은 작은 값, 기쁜 음성은 중간의 값을 갖는다. 지속 시간에 있어서는, 슬픈 음성이 가장 길며, 화난 음성은 매우 짧다. 각각의 특징 파라미터는 시간 영역에서 조절을 수행하였으며, 지속시간은 피치 정보의 유무에 따라서 피치가 있는 음소는 음소의 중앙에 위치한 피치부터 조절하려는 피치 수만큼, 피치가 없는 음소는 음소의 중앙을 중심으로 조절하고자 하는 길이만큼 반복/삭제 하였다. 음성의 크기는 변화율을 음소별로 직접 곱해서 변환시켰으며, 피치 주파수는 삼각창을 이용한 TD-PSOLA를 통해서 조절하였다. 본 논문에서는 두 가지의 감정이 실린 음색변환 시스템을 구현하였다. 첫 번째는 중성의 원시 음성과 감정을 지닌 목적 음성의 비교 분석을 통한 원시 음성을 목적 음성으로 변환 시키는 비독립적 변환 시스템이며, 두 번째는 위에서 설명한 각각의 감정별 음성의 특징 분석을 통해 정한 변환 규칙에 따라서 중성의 음성을 감정이 실린 음성으로 변환 시키는 독립적 변환 시스템이다. 이렇게 구현된 변환 시스템을 통해 음성의 감정 변환을 수행하였으며, 수행 결과를 가지고 MOS 평가를 실시하여 부여된 감정과 변환된 정도를 측정하였다. 비독립적 시스템에서는 화난 음성의 경우 모든 실험대상이 감정이 부여되었다고 선택하였으며, MOS 3.5 이상으로 좋은 결과를 보였지만, 나머지 감정의 경우에는 감정의 부여 여부 및 MOS 모두에서 좋지 않은 결과를 보였다. 독립적 시스템에서는 화난 음성과 슬픈 음성의 경우 감정의 부여 여부에서는 좋은 결과를, MOS 2.5 정도로 조금 나쁜 결과를 보였다. 기쁜 음성의 경우에는 비독립적 시스템에서와 마찬가지로 결과가 좋지 못했다. 수행된 음성의 감정 변환은 결과에 나타났듯이 화난 음성과 슬픈 음성처럼 특징 파라미터의 변화가 큰 감정에 대해서는 변환이 잘 되었으며, 변화가 크지 않은 기쁜 음성의 경우에는 변환이 잘 되지 않았다. 이런 결과를 보완하기 위해서는 더 많은 음성 DB의 수집을 통한 각 감정별 특징의 정확한 분석이 필요하며, 시간 영역에서의 변환뿐만 아니라 포만트 주파수와 같은 주파수 영역에서의 변환에 대한 연구도 필요하다.

서지기타정보

서지기타정보
청구기호 {ICU/MS04-04 2004
형태사항 viii, 52 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김광기
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(석사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 50
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서