서지주요정보
(A) VLSI architecture for HMM-based large-vocabulary speech recognition = Hidden markov model을 이용한 대용량 음성인식을 위한 VLSI 구조
서명 / 저자 (A) VLSI architecture for HMM-based large-vocabulary speech recognition = Hidden markov model을 이용한 대용량 음성인식을 위한 VLSI 구조 / Yun-Seok Cho.
발행사항 [대전 : 한국과학기술원, 1994].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8004312

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 94013

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Hidden Markov Model (HMM)-based algorithms have been used successfully in many speech recognition systems, especially in large vocabulary systems. Although general purpose processors can be employed for those systems, they inevitably suffer from the computational complexity and enormous data required in HMM. Therefore, it is desirable for real-time speech recognition to develop a specialized hardware to accelerate the recognition steps in HMM. In this dissertation, we develop a VLSI architecture which can expedite the HMM scoring steps for large vocabulary recognition systems. First, we examine the properties of HMM which can lead to a simple and efficient hardware structure. In HMM, most states are locally connected to only three of fewer preceding states and thus the number of states to be stored for later use is very small, and those irregular patterns of transitions between states make it inefficient to use the regular structures which have been developed for such as the Viterbi decoder and the ring-connected systolic array. In addition, we change the original Viterbi scoring algorithm into a logarithmically quantized version for finite precision hardware implementation and show experimental results on the effect of quantization. Second, with the properties of HMM and the logarithmic version of the Viterbi scoring algorithm, we propose a new and very simple processing element (PE) to be used in the scoring phase of HMM, which is modular and regular in structure. The complexity of managing the irregular transitions between states can be overcome by employing the elastic storage implemented by four pairs of multiplexers (MUXs) and D registers. The proposed PE is not customized to a particular HMM topology, which can incorporate various HMM topologies by modifying four 1-bit signals that control MUXs in the elastic storage. Third, we propose pipelining and parallel processing technique that can provide more throughput by employing multiple PEs in a 1-D or 2-D array. When W PEs are pipelined in a 1-D array, the throughput increases W-fold while frequencies of memory accesses for state metrics, transition metrics, and MUX-control signals are reduced by a factor of W. One problem associated with cascading many PEs in the 1-D array is that the output metrics for each PE must be provided by separate storage elements. Thus we propose another structure to compute the trellis with a 2-D PE array so that many PEs can be employed for higher throughput with a moderate amount of storage for output metrics. In the proposed 2-D PE array structure, several state metrics can be supplied simultaneously, which can improve the I/O performance. Also, we present a proper memory management method for each of PE configurations: the single PE, the 1-D PE array, and the 2-D PE array. Further trade-off between computational speed and memory I/O bandwidth is achieved by employing the digit-serial approach. The proposed PE is synthesized using the most significant digit (MSD)-first digit-serial operators. Finally, we implement the proposed architecture using three field-program-mable gate array (FPGA) chips and develop a prototype isolated word recognition system which operates in real-time. The prototype speech recognition system consists of a host computer (PC), a DSP board, and a prototype Viterbi scoring board. Feature vectors of speech signal are extracted on the DSP board. The Viterbi scoring board performs the Viterbi scoring operations for HMM. At the clock rate of 10 MHz, the system can update 100,000 states within a single frame of 10 ms.

HMM을 이용한 알고리즘은 대용량 음성인식 시스템을 비롯하여 많은 시스템에 적용되어 왔다. 음성인식 시스템을 범용의 프로세서 (general purpose processor)들을 가지고 구현할 경우, 많은 계산량과 데이타들로 말미암아 실시간의 성능을 얻을 수 없다. 따라서 실시간 음성인식을 위해서는 인식을 가속화 시키기 위한 전용 하드웨어를 개발하는 것이 요구되어진다. 본 논문에서는 HMM을 이용한 대용량 격리단어 인식시스템에서 Viterbi scoring 과정을 가속화 시킬 수 있는 VLSI 구조를 제안하고, 이를 이용한 음성인식 시스템을 개발한다. 이를 위해 진행된 연구 분야는 다음의 네 가지로 요약될 수 있다. 첫째, 간단하면서도 효율적인 하드웨어 구조를 제안하게 해주는 HMM의 특성에 관한 유용한 관찰들을 조사하였다. 대부분의 스테이트(state)들이 세 개 또는 그보다 적은 선행(preceding) 스테이트들에 국부적으로 연결되어 있기 때문에 나중에 사용하기 위해 저장 되어야 할 스테이트 수가 매우 적다는 사실과, 스테이트들 간의 천이 (transition)의 불규칙한 패턴은 Viterbi 복호기와 같은 규칙적인 구조를 위해 개발된 하드웨어 사용을 매우 어렵게 한다는 사실을 관찰했다. 그리고 부동 소수점을 사용하는 Viterbi scoring 알고리즘을 유한정도 (finite precision)의 하드웨어로 구현하기 위해 상용대수를 취하고 양자화된 값을 사용하는 알고리즘으로 변환하는 과정을 나타내었고, 또한 양자화 영향에 대해 실험한 결과를 나타내었다. 둘째, 제시된 HMM의 특성과 변환된 scoring 알고리즘을 가지고 인식단계에서 사용되어질 매우 간단하면서도 효율적인, 그리고 구조면에 있어서 규칙적인 연산소자(processing element, PE)를 제안했다. 스테이트들 간의 불규칙한 천이를 관리하는데 따르는 어려움은 네 쌍의 멀티플렉서와 레지스터로 구현된 elastic storage를 사용함으로써 해결할 수 있었다. 제안된 PE는 특정한 HMM 구조에만 국한되어 있지 않고, elastic storage를 구성하는 멀티플렉서를 가지고 스테이트들의 흐름을 제어함으로써 다양한 HMM 구조들을 구현할 수 있다. 세째, 여러개의 PE를 일차원 또는 이차원의 배열로 구성하여 높은 처리결과 (throughput rate)를 얻을 수 있는 파이프라인과 병렬처리 방법을 제시하였다. W 개의 PE가 일차원 배열로 파이프라인 되었을때, 처리결과는 W 배로 증가하고 반면에 스테이트값(state metric)들과 천이값(transition metric)들 그리고 멀티플렉서 제어신호들에 대한 메모리 입출력 빈도는 W 배 만큼 감소하게 된다. 일차원의 배열로 여러개의 PE들을 직렬 연결할 경우에 생기는 한가지 문제점은 각 PE에 대한 출력값(output metric)들을 서로 다른 메모리에서 공급을 해야 한다는 것이다. 그래서 높은 처리결과를 얻기 위해 많은 PE를 사용할 경우 적절한 양의 출력값에 대한 메모리를 가지고도 할 수 있도록 이차원 배열로 PE를 구성하여 트렐리스(trellis)를 계산하는 방법을 제안하였다. 이차원으로 PE를 배열할 경우 여러개의 스테이트값들이 동시에 PE로 공급되어져야 함으로, 이를 위해 새로운 연산소자를 제안하였다. 또한 한개의 PE, 일차원의 PE 배열, 그리고 이차원의 PE 배열 각 경우에 대해서 메모리를 관리하는 방법을 나타내었다. 일차원과 이차원의 PE 배열을 통해 메모리 입출력 빈도수를 줄였는데, 연산 속도와 메모리 입출력간의 trade-off가 더 요구되어질 경우는 디지트직렬(digit-serial) 방식이 적용될 수 있음을 제시하였다. 제안된 PE는 최상위 디지트를 먼저 보내는 디지트직렬 연산자들을 사용해 합성되었다. 네째, 제안된 구조를 세개의 FPGA 칩을 사용하여 구현하여 실시간으로 동작하는 프로토타입 격리단어 인식시스템을 제작하였다. 프로토타입 음성인식 시스템은 호스트 컴퓨터(PC)와 DSP 보드 그리고 프로토타입 Viterbi scoring 보드로 이루어져 있다. 음성 신호로 부터 특징 벡터 (feature vector)들을 추출하는 과정은 DSP 보드에서 이루어지고, Viterbi scoring 보드는 음성인식을 위한 Viterbi 알고리즘을 수행한다. 제작된 프로토타입 시스템은 10 MHz롤 동작하고, 한 프레임(frame) 즉 10ms동안에 100,000 스테이트를 처리할 수 있다.

서지기타정보

서지기타정보
청구기호 {DEE 94013
형태사항 xv, 118 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : Speech data corpus
저자명의 한글표기 : 조윤석
지도교수의 영문표기 : Chong-Min Kyung
공동교수의 영문표기 : Hwang-Soo Lee
지도교수의 한글표기 : 경종민
공동교수의 한글표기 : 이황수
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 110-114
주제 Speech perception.
Integrated circuits --Very large scale integration.
Computers, pipeline.
Gate array circuits.
음성 인식. --과학기술용어시소러스
Markov 과정. --과학기술용어시소러스
VLSI. --과학기술용어시소러스
파이프라인 연산. --과학기술용어시소러스
배열 회로. --과학기술용어시소러스
Markov processes.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서