Recently, deep neural networks replace all stages of state-of-the-art automatic speech recognition (ASR) algorithms. Also, current segregated modules for voice activity detection (VAD) and speech recognition (SR) are highly area-inefficient. Therefore, we propose the first end-to-end neural network reconfigurable real-time ASR hardware architecture using a CNN-LSTM dual core system. The aggregation of separated modules and adaptation of the Winograd algorithm to CNN core both drastically reduce the overall area overhead. We further improve the energy efficiency by frame packaging scheme and partial power/clock gating onto the core. The proposed architecture achieves 61.2% area reduction and 93.6% energy reduction of always-on process.
최근, 깊은 신경회로망은 최신의 자동화된 음성인식의 모든 단계들을 대체하고 있다. 한편, 목소리 활동 감지나 음성인식을 위한 모듈들이 모두 독립적으로 존재하고 분리되어 있끼 때문에 면적 비용 면에서 매우 비효율적이다. 우리는 신경회로망으로만 이루어진 실시간 음성인식 시스템을 위한 재구성 가능한 CNN-LSTM 듀얼 코어 하드웨어 구조를 최초로 제안한다. 분리되어 있던 모듈들의 통합과 위노그라드 알고리즘의 CNN 코어에의 적용을 통해 전체 면적 비용을 크게 감소시킨다. 더 나아가, 프레임 패키징 방법과 코어상에서의 부분적 파워/클락 게이팅을 통해 에너지 효율성도 향상시킨다. 제안된 하드웨어 구조는 61.2%의 면적을 감소시키고, 항상 켜져있는 음성 검출 프로세스에서 93.6%의 에너지를 감소시킨다.