Over the last few decades, speech recognition has been adopted to various commercial products and applications. Despite of the recent progress on speech recognition, the performance of the speech recognition in real usage still falls behind human level performance. Currently, the state-of-the-art acoustic model for speech recognition called DNN-HMM is composed of hidden Markov model (HMM) and deep neural network (DNN) which can capture complex patterns of the data due to its hierarchical and nonlinear structure. However, HMM cannot model the long term dependency between frame-level features, and the performance would be increased once it is resolved. In this research, we propose a new acoustic model called DNN-SMM composed of DNN and semi-Markov model (SMM) which models long term dependency between frame-level features. In the result, we show that DNN-SMM outperforms than DNN-HMM in terms of PER on TIMIT corpus.
과거 수십년 간 지속적으로 연구가 되어왔던 음성인식 기술은 많은 발전을 거뒀고, 최근 스마트폰, 태블릿 PC, 컴퓨터 등 각종 디바이스에서 음성인식 기술을 어렵지 않게 접할 수 있다. 하지만, 실생활에서 이용되는 음성 인식 기술은 제한된 조건에서 이용이 가능하며 사람의 음성 인식 능력에 비해서는 많이 부족하다. 현재, 최고의 성능을 보이고 있는 음성인식 기술은 깊은 신경망과 은닉마르코프 모델을 결합한 형태의 음향 모형이 이용되고 있다. 하지만, 은닉마르코프 모델의 경우, 한 음소 내에 시간적으로 떨어져 있는 음향 신호의 관계를 모델링하기에 부적합하다는 단점이 있다. 이러한 단점을 극복하기 위해서, 본 논문에서는 준마르코프 모델을 이용하여 시간적으로 떨어져 있는 음향 신호들의 관계를 모델링하는 음향 모델을 제안하였다. 실험 결과, TIMIT 데이터베이스에 대해서 제안한 음향 모델이 더욱 높은 성능을 보이는 것을 확인하였다.