There are many researches on speech recognition rate improvement in noisy environments using multi-modal information such as shape of lips and movement of eyes. Among the multi-modal information, the shape of lips plays an important role in improving speech recognition performance.
This thesis focuses on feature extraction and recognition of lip images in bi-modal isolated digits recognition system. Experiments have been performed to extract more suitable feature sets using PCA and ICA varying the sizes of Basis sets for each method. And also the recognition rates using dynamic features and static features are compared to each other. Throughout theses experiments, this thesis proposes ICA-2 + PCA feature extraction method using small Basis set by compensating the drawbacks of ICA-2 method by removing the variations except actual pronunciation parts from ICA-2 Basis images utilizing PCA method.
입술 영상의 정보를 사용하는 바이모달(Bi-modal) 음성 인식 시스템에서 좋은 인식 성능을 나타내는 입술의 특징을 찾는 것은 중요하다. 본 발명에서는 영상에서 잡영(noise) 제거 효과가 좋은 ICA 방법과 클래스 내에서 일반화 성능이 뛰어난 PCA 방법의 장점을 살린 새로운 특징추출 방법을 찾는다. 입술 영상으로부터 ICA Basis 들을 추출한 뒤, 이 Basis 들로부터 다시 PCA Basis를 추출한다. ICA 상수 값과 PCA 상수 값의 곱을 입술의 특징으로 사용하여 인식을 수행하게 된다.