서지주요정보
Adaptation strategies based on error back-propagation for improved speech recognition = 음성 인식 성능 향상을 위한 오차 역전파에 기반한 적응 기법에 대한 연구
서명 / 저자 Adaptation strategies based on error back-propagation for improved speech recognition = 음성 인식 성능 향상을 위한 오차 역전파에 기반한 적응 기법에 대한 연구 / Jung-Hui Im.
발행사항 [대전 : 한국과학기술원, 2012].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8023206

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 12001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The performance of automatic speech recognition system needs improvements under both clean and noisy environments. Adaptation scheme used error back-propagation is useful to achieve high recognition accuracy. We can consider this strategies with two aspects. One is the test phase and the other is the training phase for speech recognition. In the test phase, we present the selective attention scheme especially with audio-visual integration. And the unified training scheme is proposed in the training phase. Speech is inherently bimodal, relying on cues from the acoustic and visual speech modalities for perception and production. The McGurk effect demonstrates that when humans are presented with conflicting acoustic and visual stimuli, the perceived sound may not exist in either modality. This effect has formed the basis for modeling the complementary nature of acoustic and visual speech by encapsulating them into the relatively new research field of audio-visual speech recognition (AVSR). Especially, for acoustically noisy speech recognition a new algorithm is presented to integrate audio and visual information for better recognition performance. Actually human begins utilize the visual cues such as lips` movements in acoustically noisy environments in order to understand speech better. In order to improve the performance of audio-visual speech recognition systems many works have been reported. These efforts may be categorized into two approaches such as research on robust feature extraction espcially for visual signals and that on audio-visual integration. Here we are interested in the latter. The developed algorithm utilizes top-down selective attention, which is an important information processing module of human perception. Selective attention model which are brought from psychological researches is proposed to recognize isolated word in noisy environments. This model is applied to Hidden Markov Models (HMM) as classifiers. The selective attention process may over-adapt the attention cue and hallucinate a pattern of the attended class. Without any restrictions the attended input pattern may move toward the most likely pattern of the attended class, which has nothing to do with the actual input pattern. It needs some restrictions to reduce the degree of freedom of the attention filter. It can be easily achieved by limiting the maximum and minimum values of the attention filters. Also, the slowly-varying property of the attention filters allows us to use a low-resolution grid. For the audio features a time-frequency moving average is implemented, while only time-domain moving average is done for visual features. With the given attention cue to a class the top-down attention model estimates the most-likely sensory input and a confidence measure. The proposed approach is based on decision fusion used score of each modality as final fusion value. But McGurk effect suggests that the audio-visual integration is more complex than the integration of two classifier decisions simply to combine output values of two classifiers. It suggests some relationships between the acoustic and visual cues of top level (score level) and low level (feature level). Separate HMM classifiers are trained for speech and lip-motion video, and an inversion algorithm performs the top-down estimation through the trained HMM classifiers. Then, an integrated confidence measure is calculated from the audio and visual confidence values. These processes are repeated for a few candidate classes, and a final classification decision is made as the class with maximum confidence. In audio-visual integration step, it has a critical effect on recognition performances to determine the relative importance between two modalities. In proposed AVSR system only acoustic noise is considered. Therefore it is natural that weight factor $\gamma$ is close to acoustic modality at high SNR condition while $\gamma$ is close to visual modality at low SNR condition because for audio recognition we can get quite good performance under high SNR condition but as SNR become lower recognition performance gets worse steeply while that of video is independent on SNR value. Therefore, it is important to determine $\gamma$ value automatically according to SNR level for acoustic signals. First of all, we find the mapping of SNR onto proper $\gamma$ value from several SNR levels and estimate SNR level using end point detection with pre-trained single layer perceptrons and finally find the proper $\gamma$ value for test data by interpolation of the mapping. The developed integration algorithm provides explanation for McGurk effect, and demonstrates much better speech recognition performance than the baseline audio-visual speech recognizer in noisy environments. And we also presents the new training scheme for fusion of feature extractor and classifier. Both feature extractor and classifier are trained together to minimize proposed approximated discriminative criteria related to recognition performance directly. we can easily implement feature extractor using multi layer structure based on mel-frequency cepstral coefficients(MFCC), and optimize the whole parameters contained feature extraction part and classification part using the gradient desent method. The experiments for phoneme classification with TIMIT provide better recognition performances.

근래에 들어 스마트 폰 등의 발달로 날로 음성인식에 대한 필요성이 크게 요구되고 있다. 이러한 음성 인식의 성능을 향상 시키기 위해서 오차 역전파에 기반한 적응 기법을 두 가지 측면에 대해서 각각 연구하였다. 첫째는 음성 인식 테스트 시 주의 집중 알고리즘을 이용하여 성능을 향상시킨다. 특히 이 경우에는 사람의 말이 발화 되거나 인지 될 때 음성 언어 뿐만 아니라 영상 언어도 함께 영향을 끼치는 bimodal임을 이용하여 음성 언어 뿐 아니라 영상 언어까지 이용한 영상 음성 언어 인식에 주의 집중 알고리즘을 적용한다. McGurk 효과는 사람에게 서로 다른 음성 언어와 영상 언어가 주어졌을 때, 주어진 음성언어도 영상언어도 아닌 새로운 말로 인지하게 된다는 사실을 알려 주고 있다. 또한 음성과 영상의 상호 보완적인 관계는 음성 영상 언어 인식이라는 새로운 연구 영역의 가능성을 보여준다. 특히 소리에 관련된 잡음이 있는 환경에서는 이러한 음성 영상 언어 인식이 성능 향상을 이끌 수 있다. 실제 사람 역시 잡음 환경 하에서는 사람의 입술 움직임을 읽어서 인식에 도움을 얻는다. 성능 향상을 위해서 두 가지 부분에서 중점적 연구가 이루어 지고 있다. 첫째는 특징 추출에 대한 것이다. 이 부분은 특히 영상 언어 특징 추출에 힘쓰고 있다. 둘째는 음성 영상 언어 통합에 관한 것으로 본 논문에서는 이 부분을 중점적으로 다루겠다. 제안된 알고리즘은 사람의 인지과정에서 중요한 정보 처리 모듈인 하향식 주의 집중 방식을 이용한다. 기존 연구에서 이 주의 집중 모델을 이용하여 잡음 환경하에서 고립단어인식에 성능 향상을 얻을 수 있었다. 여기서는 음성 영상 언어 통합에 하향식 주의 집중 모델을 사용하고자 한다. 인식기로는 HMM이 사용된다. 주의 집중 과정은 일정한 제한을 두지 않으면 집중하고자 하는 class의 환영을 보게 되는 경우가 종종 생긴다. 주의 집중 과정은 집중하고자 하는 class의 가장 그럴듯한 패턴으로 변하는 것이므로 이는 실제 얻고자 하는 것과는 다른 것일 수 있다. 가장 간단히 제한을 두는 방법은 attention filter에 직접적으로 가장 큰 값과 가장 작은 값을 제한 하는 것이다. 또는 시간이나 주파수 등과 같은 물리적 양들이 실제 빠르게 변화하지 못한다는 점을 이용하는 것이다. 음성 특징에 대해서는 시간, 주파수 이차원 moving average로, 영상 특징에 대해서는 시간 축으로만 moving average을 이용하여 구현할 수 있다. 하향식 주의 집중을 통해 가장 그럴듯한 패턴을 구하였다면 confidence measure을 통해서 실제 이 패턴이 얼마나 믿을 만 한 것인가를 따져 봐야 한다. 제안된 통합 방식은 기존적으로 음성 영상 두 모델의 최종 결과값을 사용하여 합치는 decision fusion방식을 개선하고자 한다. McGurk 효과에서도 알 수 있듯이 음성 영상 언어 통합은 단순히 두 모델의 최종 결과값을 합치는 방식보다 더 복잡하다. 음성 언어와 영상 언어를 각각의 HMM 인식기로 학습하고 하향식 주의 집중을 적용한다. 그리고 confidence measure을 통해 얻을 값을 음성 영상 언어 통합에 사용한다. 음성 영상 언어 통합 과정에서 어느 모델에 얼마만큼의 중요함을 둘 것인가 하는 것은 성능 향상에 있어 매우 중요한 문제이다. 이는 잡음의 정도에 따라서 이 weight factor가 달라지게 되기 때문이다. 일반적으로 높은 SNR 상황에서는 음성 언어 쪽에 중점을 두게 되고, SNR이 낮아져서 음성 언어를 신뢰할 수 없게 될수록 영상 언어가 중요하게 된다. 따라서 음성 쪽의 잡음 정도를 파악하여 자동으로 이 weight factor을 결정해 주는 루틴이 필요하다. 이는 우선 SNR과 weight factor 사이의 함수 관계를 미리 구하고, 미리 학습된 single layer perceptron으로 end point detection을 수행하여 주어진 입력 신호의 SNR값을 예상하고 미리 구한 함수관계를 통해서 적절한 weight factor을 산출하는 것이다. 이러한 제안된 음성 영상 언어 통합 방식을 통해 McGurk 효과를 실험적으로 확인해 보고, 잡음 환경하에서 baseline보다 더 좋은 성능을 얻을 수 있다. 둘째는 음성 인식기 훈련시 HMM 인식기와 특징 추출부를 동시에 학습시키는 방법을 통해 인식 성능 향상을 꾀한다. 이는 특징 추출부를 필터뱅크 부분, feature transformation 부분, 그리고 시간에 따른 정보를 얻을 수 있는 delta, acceleration 부분 으로 나누어 생각하고 이를 멀티 레이어 구조로 구현함으로써 효율적인 학습 알고리즘을 얻을 수 있게 된다. 또한 이를 학습하는데 있어서 전체적인 인식 성능 향상을 도모하기 위해 분별 학습을 진행한다. 이를 TIMIT 데이터 베이스를 이용한 61개의 음소 인식 실험에 적용하여 상당한 음소 인식 성능 향상을 얻을 수 있다.

서지기타정보

서지기타정보
청구기호 {DEE 12001
형태사항 ix, 107 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 임정희
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 References : p. 100-105
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서