서지주요정보
유성/무성/묵음 분류기와 스펙트럼 정보를 이용한 음소 경계 검출 = Phoneme segmentation using voiced/unvoiced/silence classifier and spectral information
서명 / 저자 유성/무성/묵음 분류기와 스펙트럼 정보를 이용한 음소 경계 검출 = Phoneme segmentation using voiced/unvoiced/silence classifier and spectral information / 이상래.
발행사항 [대전 : 한국정보통신대학원대학교, 1999].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000005

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS99-5 1999

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this study, a Voiced/unvoiced/silence(V/U/S) classification algorithm and a phoneme segmentation algorithm with the aid of a V/U/S classification system have been studied. Segmentation of speech into its corresponding phonemes has been a very important issue in many speech processing areas such as speech recognition, speech synthesis, speech analysis, and speech database. By using a V/U/S classification system, speech can be classified into two distinct categories, that is, voiced and unvoiced intervals. After V/U/S classification, we may consider the voiced intervals only. The modified Itakura-Saito distance for LPC vectors and the Euclidean distance for MFCC(Mel Frequency Cepstrum Coefficient) are used for the detection of spectral envelope variation of the voiced sound. The energy difference of two frames is introduced to Itakura-Saito distance measure as a weighting factor because the energy contour of speech plays an important role in phoneme segmentation. Some of the local peaks can be eliminated by applying the modified Itakura-Saito distance measure. And the result of the measurement between two frames having one intervening frame is superior to that of measurement between two adjacent frames. Finally, the average duration of a phoneme information is used to correct errors. Our proposed V/U/S classifier and phoneme segmentizer are able to classify correctly 94.27 % and 72.8 % of the 120 words in our database, respectively.

일반적으로 음소 분할은 음성인식, 음성 합성, 음성 분석 등의 음성신호 처리 분야에서 중요한 문제 중의 하나이다. 현재 다양한 분야에서 음성 응용 시스템들이 이용되고 있으며 이러한 음성 응용 시스템에서 가장 큰 문제 중의 하나는 입력 음성 신호를 정확하게 음소 단위로 분할하는 것이다. 즉, 음성 인식기의 인식률은 음소의 경계를 얼마나 정확하게 판별하느냐에 크게 의존하게 된다. 일반적으로 고립단어인식 시스템은 음성 검출기를 사용한다. 음성 검출기는 입력 신호에서 음성 신호를 분리해 내는 역할을 하며 표준 패턴 작성 시에는 전문가의 수작업에 의하여 행해지므로 소어휘 화자종속 인식 시스템의 경우에는 손쉽게 실현 가능하나 대어휘 인식 시스템의 경우는 구현이 거의 불가능하다. 대어휘 인식 시스템의 경우는 표준 패턴의 양이 많아지므로 단순히 음성 검출기 만을 이용하여 고립단어인식 시스템을 구현한다면 단어의 수에 따라 표준 패턴의 수는 비례해서 증가하므로 매우 비효율적일 것이다. 따라서 대어휘 인식 시스템의 경우는 음소단위 인식 시스템이 효율적이다. 음소단위 인식 시스템의 장점은 표준 패턴의 개수가 어휘 개수와 상관없이 일정하다는 것이다. 즉, 음소 또는 변이음에 대한 표준 패턴만 저장하고 있으면 어휘의 개수를 증가시켜도 새로운 어휘에 대한 표준 패턴을 추가할 필요가 없다. 그러나 음소 단위 인식시스템의 경우는 표준 패턴 작성 시나 인식 시 모두 입력 음성을 음소 단위로 분할하는 작업이 필요하다.음성을 음소 단위로 정확하게 분할한다는 것은 수작업으로 하는 경우에도 쉽지 않은 작업이다. 따라서 음성을 정확히 음소 단위로 분할 할 수 있는 자동 음소 분할기를 구현한다면 음성 인식기의 인식률을 높일 수 있을 뿐만 아니라 음성합성 기술의 구현 시 기본 합성단위 DB 도 손쉽게 구축할 수 있을 것이다. 본 논문에서는 한국어 고립단어 음성신호를 음소 단위로 분할하는 알고리즘을 제안하였다. 유성/무성/묵음 분류기의 경우는 확실한 유성음, 무성음, 묵음 구간에 대해 각 특징 변수들의 평균값과 분산을 구하고 1 차로 유성음,무성음,묵음을 분류하였다. 1 차로 분류된 결과에 대해 다시 각 특징 변수들의 평균값과 분산을 구한 뒤 최종적으로 유성,무성,묵음을 분류하였다. 이 결과는 1 차로 분류한 유성,무성,묵음 결과보다 우수하였다. 음소 경계 검출기를 스펙트럼 비교법 만을 이용하여 구현한다면 적용 범위가 넓기 때문에 에러가 발생할 확률이 높다. 따라서 본 논문에서는 이러한 음소 경계 검출기를 유성/무성/묵음 분류를 이용하여 1 차로 분류한 뒤 스펙트럼 비교법을 이용하여 구현하였다. 즉, 유성/무성/묵음 분류기로 분류된 결과 중 유성음 구간에 대하여 서만 스펙트럼 비교법을 이용하여 세분화 하는 방식을 사용하였다. 스펙트럼 비교법은 modified Itakura-Saito distance measure 와 Euclidean MFCC distance measure 를 사용하였다. Modified Itakura-Saito distance measure 는 Itakura-Saito distance measure 에 비교 프레임 간의 에너지 차를 곱해 줌으로써 많은 로컬 피크를 제거하였다. 최종 성능 평가 결과 유성/무성/묵음 분류기의 성능은 94.25%였으며, 음소 경계 검출기의 성능은 72.8%였다. 이러한 음소 경계 검출 성능은 실제 사용하기에는 아직 많은 개선이 필요하며 이를 위해서는 유성/무성/묵음 분류기의 성능을 향상 시킬 필요가 있다고 판단된다. 본 논문에서 구현한 유성/무성/묵음 분류기의 경우 확실 한 유성음, 무성음, 묵음 구간을 찾는 과정에서 발성 고립단어에 유성음 구간이 약한 에너지를 갖는 경우 에러가 발생할 확률이 높 았다. 따라서 이런 경우에 대한 개선책의 연구가 더 필요하다. 유성/무성/묵음 분류기의 성능을 향상시킬 수 있다면 자연스럽게 음소 경계 검출기의 성능도 향상시킬 수 있을 것이다. 한편 본 실험을 위하여 사용된 어휘 수가 아직 적으므로 어휘수를 확장하여 성능 개선을 할 필요가 있으며 고립단어 만이 아닌 연속음성에 대한 연구도 향후 이루어져야 할 것이다. 그리고 향상된 음소 경계 검출기를 이용하여 음소 단위 인식 시스템에 적용해 볼 것이다.

서지기타정보

서지기타정보
청구기호 {ICU/MS99-5 1999
형태사항 vii, 47 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Sang-Rae Lee
지도교수의 한글표기 : 한민수
지도교수의 영문표기 : Min-Soo Hahn
학위논문 학위논문(석사) - 한국정보통신대학원대학교 : 공학부,
서지주기 참고문헌 : p. 43-44
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서