In recent years, many automatic speech recognition (ASR) systems are using deep learning approaches, and ASR systems based on Convolutional Neural Network (CNN) and Recurrent Neural Network (RNN) are achieving the state-of-the-art results in various ASR benchmarks. Especially, due to their strength in capturing local features, the CNNs are broadly used in relatively short time dependency tasks such as phoneme level recognition or command recognition. However, the CNNs still have limitation that they do not consider any spacial relationship between low-level features. We applied the capsule network to overcome this problem. We compared our proposed capsule networks based SR systems with CNN based SR systems on one-second speech command dataset, and achieved a significantly better result than baseline CNN models in both clean and noisy environment. We also analyze the result by labels and noise types.
최근 딥러닝을 이용한 방법은 다양한 음성인식 과제에서 널리 이용되고 있으며, Convolutional Neural Network (CNN)과 Recurrent Neurla Network (RNN)을 이용한 음성인식 시스템은 다양한 음성인식 벤치마크에서 최고의 성능을 내고 있다. 특히 CNN을 이용한 방식은 지역적인 특징을 효과적으로 잡아낼 수 있기 때문에 비교적 짧은 시간 의존도를 가지는 음절 단위의 음성인식이나 음성 단어 인식 과제에서 활발히 사용되고 있다. 그러나 CNN은 낮은 레벨의 특징들 간의 공간적 관계성을 고려하지 않는다는 한계점이 있다. 본 논문에서는 이를 극복하기 위해 캡슐 네트워크 구조를 도입하였다. 약 1초 길이의 음성 단어 인식에서 본 논문에서 제안한 캡슐네트워크 음성인식 시스템의 성능을 기존 CNN 기반의 음성인식 시스템과 비교하였으며, 깨끗한 환경과 잡음 환경 모두에서 캡슐 네트워크 기반의 시스템이 월등히 좋은 성능을 보임을 관측하였다. 이 밖에도 라벨과 잡음 환경에 따른 CNN과 캡슐 네트워크의 결과를 비교 분석하였다.