서지주요정보
Audio-visual speech recognition : stochastic optimization of hidden markov models, modeling of interframe correlations, and integration with neural networks = 시청각 음성인식 : 은닉 마르코프 모델의 확률적 최적화, 프레임간 상관관계의 모델링 및 신경회로망을 이용한 통합
서명 / 저자 Audio-visual speech recognition : stochastic optimization of hidden markov models, modeling of interframe correlations, and integration with neural networks = 시청각 음성인식 : 은닉 마르코프 모델의 확률적 최적화, 프레임간 상관관계의 모델링 및 신경회로망을 이용한 통합 / Jong-Seok Lee.
저자명 Lee, Jong-Seok ; 이종석
발행사항 [대전 : 한국과학기술원, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8017684

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 06057

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Automatic speech recognition has become a popular and important technique for the man-machine interface service nowadays. Although many existing speech recognition systems show high recognition performance in controlled situations, their performance is not satisfactory in noisy circumstances yet. The problem of overcoming this limitation and achieving noise-robust recognition performance is important but difficult in the automatic speech recognition field. Audio-visual speech recognition (AVSR) is to recognize speech by observing both acoustic and visual signals for robust recognition in such circumstances; a microphone records the voice signal, a camera captures the speaker’s lip movement, and the two signals are combined for recognition of the speech. Although speech recognition using the visual signal shows rather low accuracy compared to the conventional acoustic speech recognition in low-noise environments, it is not affected by the acoustic noise and, thus, can be a powerful solution which compensates for the performance degradation of the acoustic speech recognition in noisy environments. In this dissertation, we focus on improving robustness of AVSR by considering the three parts composing the recognition system: acoustic speech recognition, visual speech recognition and integration of the two modalities. First, we propose a novel stochastic optimization algorithm of hidden Markov models (HMMs) used for the recognizer to improve the visual speech recognition performance. We combine the powerful stochastic search algorithm, simulated annealing, with the local optimization technique to develop the hybrid simulated annealing algorithm for improving speed and performance of the algorithm. While the conventional learning algorithm of HMMs, the expectation-maximization method, only performs local optimization of the likelihood function, the proposed algorithm can perform global search and, thus, improve the recognition performance of the HMMs. It is mathematically proven that, by the proposed algorithm, the solution converges to the global optimum in probability. Second, we develop a method of modeling correlations between observation frames in the HMM framework to enhance robustness of the acoustic speech recognition. Dynamic characteristics of speech are known to be helpful for robustness in human speech recognition but not usually considered in the speech modeling by the conventional HMMs. We explicitly model the joint probability distribution of different frames with the Gaussian mixture models to consider the conditional dependence between frames. We develop the training algorithm of the proposed model based on the EM approach. Third, we effectively utilize the complementary nature of the two modalities by using a neural network at the stage of the modality integration to obtain robust final recognition results. For a given audio-visual speech data contaminated by some noise, the neural network receives the reliabilities of the acoustic and the visual recognition results through the input nodes and automatically produces an appropriate weighting factor which is used for integration the two recognition results. While the conventional reliability ratio-based method sometimes fails to perform robust integration, the proposed method integrated recognition results which are at least better than the results by any modality and also show the improved synergy effect of the two modalities. We demonstrate the performance of the proposed methods via speaker-independent isolated word recognition experiments. The results show that the proposed system consistently improves robustness over the conventional system for various noise conditions without a priori knowledge about the noise contained in speech.

음성인식은 인간과 기계의 인터페이스 서비스를 위한 중요한 기술이다. 현재까지 개발된 많은 음성인식 시스템은 제어된 환경에서는 높은 인식율을 보이지만, 잡음 환경에서는 성능이 크게 저하되는 한계가 있다. 이러한 한계를 극복하기 위한 방법의 하나인 시청각 음성인식은 잡음이 존재하는 환경에서 강인한 인식을 위해 마이크로 녹음한 음성신호(목소리)와 카메라로 기록한 영상신호(입술의 움직임)를 모두 이용하여 음성을 인식하는 기술이다. 영상신호를 이용한 인식은 잡음이 적은 상황에서는 기존의 음성인식에 비해 낮은 인식 성능을 보이지만 소리잡음에 영향을 받지 않기 때문에 잡음 환경에서 음성인식을 보완하는 유용한 방법이 된다. 본 논문에서는 시청각 음성인식 시스템을 구성하는 청각신호를 이용한 인식, 시각정보를 이용한 인식, 그리고 두 정보의 통합 등의 세 부분을 고려하여 각 부분의 성능을 향상시킴으로써 잡음환경에서의 강인함을 향상시키고자 한다. 첫째, 시각정보를 이용한 인식의 성능을 향상시키기 위해 인식기인 은닉 마르코프 모델(hidden Markov model)의 확률적인 최적화 알고리즘을 제안한다. 알고리즘의 성능과 수렴속도를 개선하기 위해 확률적인 최적화 알고리즘의 하나인 모의 담금질 기법(simulated annealing)과 지역 탐색 연산자를 결합한 하이브리드 모의 담금질 기법을 개발한다. 기존의 은닉 마르코프 모델의 학습 알고리즘인 기대-최대(expectation-maximization) 알고리즘은 가능도(likelihood) 함수에 대해 지역 최적화만을 수행하는 반면, 제안하는 알고리즘은 전 영역에서 탐색을 수행하며 결과적으로 은닉 마르코프 모델의 인식 성능을 높인다. 제안하는 알고리즘이 전역최적해에 확률로써 수렴하는 것을 수학적으로 증명한다. 둘째, 청각정보를 이용한 인식을 강인하게 하기 위해 은닉 마르코프 모델에서 관측 프레임간의 상관관계를 모델링하는 기법을 개발한다. 음성의 동적 특성은 사람이 잡음환경에서 강인한 인식 성능을 보이는데 도움을 주는 것으로 알려져 있으나 기존의 은닉 마르코프 모델을 이용한 음성 모델링에서는 충분히 고려되지 않고 있다. 본 논문에서는 가우시안 혼합 모델(Gaussian mixture model)로 서로 다른 프레임의 결합 확률분포를 모델링하여 프레임간의 조건부 의존관계를 다루는 기법을 제안한다. 또한, 기대-최대 알고리즘에 기반하여 제안하는 모델의 학습 알고리즘을 개발한다. 제안하는 모델을 이용함으로써 청각정보를 이용한 인식에서 잡음에 더욱 강인한 성능을 얻도록 한다. 셋째, 시각정보와 청각정보의 상호보완성을 효과적으로 이용하여 잡음에 강인한 최종 인식결과를 얻기 위해 정보 통합 단계에서 신경회로망을 이용하는 기법을 제안한다. 정보통합 단계에서는 시각정보와 청각정보를 각각 따로 인식한 결과를 가중치 기법을 통해 최종 결과를 얻는데, 학습된 신경회로망은 잡음의 종류와 수준을 알 수 없는 주어진 시청각 데이터에 대해 적절한 가중치를 출력함으로써 최적의 인식결과를 얻도록 한다. 이를 통해 통합 인식 결과가 시각 또는 청각정보만을 이용한 인식결과보다 최소한 같거나 좋을 뿐 아니라 두 정보에 의한 시너지 효과를 최대화하도록 한다. 제안하는 시스템을 화자독립 고립단어 인식문제에 적용하여 그 성능을 보인다. 실험 결과 제안하는 시스템이 기존의 시스템에 비해 다양한 잡음 환경에서 더욱 강인한 성능을 보이는 것을 확인한다.

서지기타정보

서지기타정보
청구기호 {DEE 06057
형태사항 x, 113 p. : 삽도 ; 26 cm
언어 영어
일반주기 Appendix : Derivation of (5.9)
저자명의 한글표기 : 이종석
지도교수의 영문표기 : Cheol-Hoon Park
지도교수의 한글표기 : 박철훈
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 103-113
주제 Audio-visual speech recognition
lipreading
robustness speech recognition
hidden Markov model
neural network
시청각 음성인식
립리딩
강인음성인식
은닉 마르코프 모델
신경회로망
QR CODE qr code