In this thesis work, an isolated word recognition system on the NOVA 4/x minicomputer has been studied. Three methods, that is, linear predictive coding (LPC), vector quantization (VQ) and matrix quantization (MQ) have been used to extract speech features, and a dynamic time warping (DTW) technique has been used for time alignment. These algorithms have been tested using 10 digits (0-9).
Experiments have been conducted using a data base prepared for testing. The data base consists of two speech groups; clean (or ideal) speech recorded in a noiseless room and non-ideal speech in a real environment. The clean speech which is composed of two utterances each of 10 digits with a male speaker has been used for speaker-dependent experiments. And the non-ideal speech which is made of eleven utterances each of 10 digits with three male speakers has been used both in speaker-dependent and speaker-independent tests.
In the first part of this thesis we review speech feature extraction methods and various speech recognition systems. In the second part we compare the performance of the three methods in recognition accuracy, computation time and memory requirement.
본 논문에서는 NOVA 4/x minicomputer 를 사용한 격리단어 음성 인식에 관해서 연구하였다. 음성의 특징 추출 방법으로 LPC, VQ 및 MQ의 세가지 방법을 사용하였으며 time alignment 방법으로는 DTW 방법을 사용했다. 음성 인식 test 를 위한 어휘로는 0에서 9 까지의 한글 발음을 사용하였다.
Simulation 은 방음장치된 방에서 녹음한 clean speech 및 일상환경에서 녹음한 일반 speech 에 대해서 수행하였다. Clean speech는 일인의 남자아나운서가 매 숫자를 두번 발음한 것으로 구성하였으며 화자 종속 ( speaker - dependent ) 인식에 이용되었다. 반면 일반 speech 로서는 임의의 3인의 남자가 매 숫자를 열한번 발음한 것으로 구성하였고 화자 종속 ( speaker - dependent ) 및 화자 독립 ( speaker - independent ) 을 위한 data 로 사용하였다.
본 논문의 전반부에서는 음성 특징 추출 및 인식 시스템에 대하여 설명하였고 이어서 clean speech 와 일반 speech로서 LPCDTW, VQ 및 MQ의 세가지 방법에 대한 simulation 을 수행하였으며, 이것을 인식률과 distortion 계산량 및 reference pattern memory 양을 중심으로 성능을 비교하였다.