In recent years, the speech recognition technology has been extensively advanced with the developments of powerful computing devices, pattern recognition techniques, signal processing techniques, and so on, but its performance is not still perfect. The most critical reasons of the imperfection are mainly the absence of the explicit solutions to the unexpected noise corruption and the unknown speech understanding mechanism in human brain, and these will not be solved in near future. Thus, to apply the state-of-the-art speech recognition technology to commercial products we have to take care of the speech recognition errors. Especially, for the speech-based man-machine interface to be more natural, it is important to in advance estimate the degree of recognition confidence that implies how much a recognition result is credible. If the recognition results were turned out to be incorrect based on a confidence score, it would be desirable to ask the user to speak again or to ignore the recognition results by doing nothing rather than executing the corresponding unexpected action. To realize this functionality for natural man-machine interface (MMI), the recognizer should have an ability to determine whether the recognition result is correct or not by measuring a confidence score. This is called utterance verification.
In this thesis, we propose confusion-based confidence measures for the utterance verification. Most conventional confidence measures are mainly based on likelihood ratio test (LRT). The drawback of the LRT-based confidence measures is that those are not robust to noise corruptions and require large amount of computations in calculating the likelihood of an alternative model. The proposed method finds momentary best-scored state (MBS) frame-by-frame during the Viterbi search, and the MBSs are compared with the state sequences of the recognition result from the Viterbi decoding to measure the recognition confidence, which is called confusion-based confidence measure. Additionally, this confusion-based approach can be improved by tracing multiple MBSs, which is called N-best approach of confusion-based confidence measure. Next, the speech segmental boundaries of the recognition result are not exactly correct because the phone duration model in HMM uses implicitly exponential distribution, while actual speech duration model is associated with Gamma distribution[42][43]. To cope with the boundary mismatches, we also propose a time-relaxation technique for the confusion-based approach. Experiments show that our approach is superior to the conventional LRT-based approach in that our approach requires less computation and is more robust to various types and levels of the noise corruptions.
The search confusability among models can be applied to text-independent speaker recognition. Since frame likelihood errors from noise corruptions in the conventional GMM-based speaker identification approach are multiplied over all frames, utterance likelihood could be easily affected by noise. The multiplication over the noise corrupted frames causes the performance degradation of speaker identification in noisy environments. To cope with this problem, a multiple segmental-level decision approach is proposed, and it is also based on the confusability among speaker models. Moreover, since the proposed score used for text-independent speaker identification can be directly applied to speaker verification, our approach is very useful in detecting imposter in noisy environments without any increase of system complexity.
음성인식이나 화자인식 기술이 많이 발전했음에도 불구하고 여전히 그 성능이 완벽한 것은 아니다. 완벽한 음성인식기술에 장애가 되는 원인은 여러 가지가 있겠지만, 대표적인 이유는 첫째, 잡음에 대한 명확한 해결책이 없고, 둘째, 음성인식 알고리즘이 아직까지 완전하지 못하다는 것에 가장 큰 원인이 있다. 하지만, 가까운 미래에는 완벽하게 해결되긴 어려울 것이라고 대부분의 전문가들은 예상하고 있다. 그렇기 때문에 음성인식 기술로 제품을 만들기 위해서는 항상 오인식에 대한 적절한 대응을 고려해야만 한다. 특히 자연스러운 음성 인터페이스를 위해서는 음성인식결과를 신뢰할 수 있는지의 여부를 미리 알아내는 것이 중요하다. 음성인식결과의 신뢰도에 따라 화자에게 다시 한번 발성하도록 유도하거나 화자의 요구를 거절하는 것이 잘못된 반응을 하는 것보다 바람직하다. 이를 현실화 하기 위해서는 인식결과의 신뢰도를 측정하여 인식결과가 틀렸는지 맞았는지를 예측할 수 있어야만 한다. 이를 발화검증이라고 하며, 본 학위 논문에서는 발화검증의 성능을 높이기 위하여 혼돈기반 신뢰도 측정법을 제안한다. 기존의 방법들은 주로 우도비 테스트(LRT) 기반의 신뢰도 측정법들을 사용하였는데, 이 방법의 특성상 잡음에 민감한 특징이 있다. 계산량 측면에서도 정밀한 alternative model를 계산해낼 때에도 계속 확률값을 계산해야만 하기 때문에 처리시간이 많이 걸린다는 단점이 있다. 제안된 방법의 신뢰도 측정방식은 최종 인식 결과를 찾는 도중에 경쟁되는 모델들을 찾아내고 혼돈되는 모델들간의 순서정보를 이용하기 때문에 잡음에 대한 영향이 적다는 장점이 있다. 또한, 성능은 향상시키면서 계산량은 줄어든다는 장점이 있다. 제안된 방식의 성능을 높이기 위하여 여러 개의 혼돈되는 모델을 찾아내는 N-best 방식을 적용하여 성능을 높였으며, 또한 time relaxation을 적용하여 HMM의 지속시간모델의 오차로 인한 영향을 줄여줘서 추가적으로 성능을 향상시켰다.
이러한 모델간의 혼잡도를 이용하여 본 학위논문에서는 화자식별과 화자검증에 적용하였다. 기존의 GMM기반의 화자식별 알고리즘은 최대 우도를 갖는 화자를 찾아내는데, 이때 프레임단위의 우도를 계산하여 전체 프레임에 대하여 그 우도값을 곱하여 전체 발성된 음성에 대한 우도를 계산한다. 이때 각 프레임단위의 우도를 서로 곱하는 특성 때문에 에러가 급격히 누적된다는 문제가 있다. 이를 극복하기 위하여 다양한 길이의 세그먼트 별로 최적의 화자 모델을 추정하고 이를 기반으로 화자 모델간의 혼잡 기반의 스코어를 구하여 그 값의 평균을 계산하였다. 제안된 방법을 이용하여 잡음환경에서의 화자식별뿐만 아니라 화자 검증에서도 모두 성능을 향상시킬 수 있었다. 제 안된 혼잡도를 화자인식에 적용한다면 화자식별에 사용된 스코어를 그대로 화자검증에 이용할 수 있다는 큰 장점이 있어서 등록되지 않은 사용자를 검출하거나 오인식을 예측하는데 추가적인 모델이나 계산이 필요치 않아 시스템의 복잡도를 줄일 수 있다는 큰 장점이 있다.