서지주요정보
A study on Korean connected digit recognition and short-term cepstral mean normalization = 한국어 연속 숫자 음성 인식과 단구간 켑스트럼 평균 정규화에 관한 연구
서명 / 저자 A study on Korean connected digit recognition and short-term cepstral mean normalization = 한국어 연속 숫자 음성 인식과 단구간 켑스트럼 평균 정규화에 관한 연구 / Sang-Jin Kim.
발행사항 [대전 : 한국정보통신대학원대학교, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000203

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS02-09 2002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Although many researchers have studied about digit recognition, it is still away from commercial applications in Korea. It is well known that Korean digit recognition is more difficult than English digit recognition, even worse in continuous digits. In this paper, I studied about various techniques to improve the recognition, especially one of the environmental compensation preprocessing methods, called the cepstral mean normalization, with some acoustic-phonetic models. I found that the recognition results varied depending on the windows size for the cepstral mean normalization, and not always the long-term cepstral mean normalization produces the best results. This can be interpreted as if we use the short-term cepstral mean normalization technique with a proper window size for Korean digit recognition, we can get the better results than the conventional cepstral mean normalization. The reason could be the variation of the phone length caused by the short-term cepstral mean normalization, and this variation is believed to improve the recognition rate. Monophone, triphone, whole-word, tri-word, and phonological-rule- considered digit models in Korean pronunciation, are tested in various numbers of states and mixtures. Mel-frequency cepstral coefficients (MFCC) and perceptual linear prediction (PLP) cepstral coefficients are extracted as the feature vectors. Long-term and short-term cepstral mean normalization/ subtraction(CMN/CMS) processing, and relative spectral (RASTA) processing is used for the channel noise compensation. Kalman filtering is applied for additive noise reduction. Linear discriminant analysis (LDA) transformation for the digit recognition is also tested in the end.

실생활에 음성인식 기술을 이용한 많은 서비스/제품 등이 이미 개발되었고, 지금도 개발되고 있다. 숫자음성 인식은 오래 전부터 연구되어온 음성인식 기술 중 하나이다. 숫자음성은 단독 숫자 음성과 연속 숫자 음성으로 나눌 수 있다. 연속 숫자 음성 인식은 음성 다이얼링이나 비밀번호 확인 등 실생활의 여러 분야에 사용되어질 수 있으나, 아직도 상용화하기엔 불충분한 인식율을 보인다. 일반적으로 연속 숫자는 "공/영, 일, 이, 삼, 사, 오, 육, 칠, 팔, 구"의 조합으로 이루어진다. 실생활에서의 활용 측면에서 보면 단독 숫자 인식보다는 자연스럽게 발성하는 연속 숫자 인식이 더 자연스럽고 바람직하다. 하지만 연속으로 발음하게 되면 /35:사모/, /82:파리/와 같이 각 숫자들의 경계가 모호해지고, /666:융늉뉵/, /73:칠쌈/과 같이 인접 숫자들 사이의 상호 조음현상에 의해 원래 각 숫자들이 가지고 있는 고유의 발음이 변하게 된다. 또한 한 숫자를 길게 발음하거나 짧게 발음한다면 인식율이 저하되기도 한다. 더구나 연속으로 발성한 숫자가 모두 몇 개인지 모르는 경우에는, 발성하지도 않은 숫자를 삽입하거나, 발성한 숫자를 인식하지 못하고 빼먹을 수도 있다. 이렇게 일반인이 자연스럽게 발음한 연속 숫자음성의 인식결과를 보면 빈번히 잘못 인식되는 숫자 쌍이 발견된다. 기본 인식 시스템을 유지하면서 숫자 인식율 향상을 위한 몇 가지 접근방법을 살펴보면, 첫째로 앞서 언급한 오인식이 빈번히 일어나는 숫자 쌍들의 변별력 향상에 효과적인 특징파라미터 추출을 꼽을 수 있으며, 둘째, 숫자를 표현하기 위한 모델인 음소 모델이나 단어 모델의 분석을 통해 인식율이 향상되는 새로운 숫자 모델을 구현할 수도 있다. 셋째, 가산잡음이나 채널잡음으로 인한 왜곡을 최소화하거나 보상함으로써 인식율의 향상을 가져오거나, 넷째, 신호공간의 특징 벡터들을 보다 변별력이 좋은 공간으로 선형 변환함으로써 향상시킬 수도 있다. 본 논문에서는, 먼저 LPCC, MFCC, PLP와 같은 특징벡터들의 인식결과를 기존에 연구된 몇 가지 숫자 인식을 위한 음향모델들에 대하여 비교해 보았다. 또한, 잘 알려진 두 가지 대표적인 채널 왜곡 보상방법인 켑스트럼 평균 정규화/차감법(CMN/CMS) 방법과 RASTA 필터링 방법을 적용해 보았다. 특히, 숫자 인식의 경우 켑스트럼 평균 차감법을 조금 변형한, 단구간 켑스트럼 평균 정규화(ST-CMN)을 적용하면, 일반적으로 많이 사용되는 켑스트럼 평균 정규화보다 좋은 결과를 보임을 알 수 있었다. 최적화된 길이의 단구간으로 켑스트럼 평균 정규화를 특징벡터에 대해 적용하면, 숫자 음향모델의 길이에 변화를 가져옴을 발견하였으며, 이 변화가 숫자인식에 늘 거론되는 오인식 쌍의 인식 개선에 좋은 결과를 보임을 발견하였다. 즉, ST-CMN은 채널보상의 효과이외의 작용을 한다고 볼 수 있다. 이는 단구간 켑스트럼 평균 정규화가 특징벡터의 동적 특징을 강조하며, 자음성분의 약화로 여러 변이음들이 약화되기 때문이라 여겨진다. 이에 대해서는 추가적인 연구가 필요하다고 할 수 있겠다. 또한, 일반 사무실 환경의 가산잡음을 제거하기 위한 Kalman 필터링과, 위에서 언급한 CMS, ST-CMN와 같은 채널보상 전처리를 병행한 실험을 수행해 보았으며, 마지막으로 선형 판별 분석(LDA)을 이용한 선형변환을 통해 변별력이 강화된 신호공간에서의 음성인식 향상도 실험해 보았다. 실험결과 인식율이 모두 조금씩 향상되었으나, 실시간 처리에는 접합하지 않을 정도로 Kalman 필터링과 선형 판별 분석에 시간이 많이 소요되었다.

서지기타정보

서지기타정보
청구기호 {ICU/MS02-09 2002
형태사항 xi, 97 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김상진
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(석사) - 한국정보통신대학원대학교 : 공학부,
서지주기 References : p.91-94
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서