서지주요정보
Speech recognition using hybrid time-delay neural network/hidden markov model = 혼성 time-delay 신경회로망/hidden markov model을 이용한 음성인식
서명 / 저자 Speech recognition using hybrid time-delay neural network/hidden markov model = 혼성 time-delay 신경회로망/hidden markov model을 이용한 음성인식 / Choon-Seo Jang.
발행사항 [대전 : 한국과학기술원, 1993].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

8003430

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 93032

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation, we propose a hybrid modular time-delay neural network (TDNN)/hidden Markov model(HMM) architecture and a new parameter smoothing method to increase the recognition accuracy of a speech recognition system. In order to obtain the benchmark performances of the proposed methods, we implemented two kinds of baseline speech recognition systems. One is based on HMM and the other is based on TDNN. The database consists of 75 phonetically balanced Korean words, and 44 context-independent phonemes are chosen as the recognition unit. Speaker-independent phoneme-based word recognition was done in our experiments. First, a new hybrid modular TDNN/HMM architecture for the speech recognition system is proposed. In this architecture, TDNN and HMM are effectively integrated using the fuzzy mapping concept. Modular construction of TDNN is used in our system to expand the TDNN to handle all phonemes. To deal with the temporal structure of phonemic features, we divide the input layer of our modular TDNN into two states in a time sequence. The first hidden layer of each phoneme subclass network has also a tied-connected window for each state to preserve the time-shift invariance property. This structure allows the networks to capture the temporal structure of phonemic features with two feature detectors. Our system consists of 11 phoneme subclass networks and a vowel/consonant classification network. Each phoneme subclass network is trained separately using the training data from its own set only, and connection weights between layers of subclass networks are retrained. TDNN and HMM are integrated in our system by feeding output vectors from the second hidden layer of each phoneme subclass network to HMM. The HMM algorithm is modified to accommodate these outputs. Therefore, our system takes advantage of both TDNN and HMM, and it can treat the temporal structure of phonemic features. Simulation results shows that dividing each layer of subclass networks into two states and separately feeding the HMM with the outputs of each state improves the recognition rate. According to our experimental results, the error rate is reduced by 68.5% as compared to the HMM baseline system. Next, we present a new parameter smoothing method which can be applied to the proposed TDNN/HMM network, thereby improving the performance of the speech recognition system. This method can smooth the output symbol observation probability of HMM in the hybrid modular TDNN/HMM framework. The average values of the activation vectors from the second hidden layer of the modular TDNN are used to generate the smoothing matrix from which smoothed output symbol observation probability is obtained. In this method, the smoothing effect can be controlled by the degree of smoothing. By experiments, we show that the proposed smoothing method yields a better smoothing effect in the TDNN/HMM framework than the floor smoothing method, and results in the improvement of the recognition accuracy of the speech recognition system. Applying this algorithm to our hybrid modular TDNN/HMM system, we can increase the recognition rate of the system to 94.1%. The error rate is reduced by 44.9% as compared to that of the hybrid modular TDNN/HMM system which is trained using the floor smoothing method.

본 논문에서는 음성인식 시스템의 인식 정확도를 높이기 위하여 time-delay 신경회로망(TDNN)과 HMM이 결합된 혼성 모듈 TDNN/HMM 구조와 이 구조에 적용시킬 수 있는 새로운 parameter smoothing 방법을 제안하였다. 기존의 알고리즘들과 본 연구에서 제안된 알고리즘들의 비교 평가를 위해서, HMM을 이용한 기준 시스템과 TDNN을 이용한 기준 시스템등 두 종류의 기준 시스템들을 구현하였다. 데이타 베이스는 75개의 음성학적으로 균형 잡힌 한국어 단어들로 구성되고, 묵음을 포함한 44개의 음소들이 인식단위로 사용되었다. 첫째로 음성 인식 시스템을 위한 새로운 혼성 모듈 TDNN/HMM 시스템의 구조를 제안하였다. 이 방식에서는 TDNN과 HMM을 효과적으로 결합하기위해 fuzzy mapping 개념을 사용하였으며 모든 음소를 처리하기 위해 모듈 방식의 TDNN을 사용하였다. 그리고 음소 특성의 시간적 구조를 잘 처리하기위해 모듈 구조의 TDNN의 입력층을 시간적으로 2개의 상태로 나누었다. 각 음소 subclass 신경회로망의 입력층과 첫번째 은닉층 모두 각 상태에서만 이동하는 윈도우를 갖게하여 시간에 대한 불변성을 유지하도록 하였다. 이 구조에 의해 신경회로망은 음소 특성의 시간적 구조를 각 상태마다 할당된 특성 감지기에의해 잘 파악할수 있게된다. 전체 시스템은 11개의 음소 subclass 신경회로망과 하나의 모음/자음 분류 신경회로망으로 구성되었고 각 subclass 신경회로망은 각각 독자적으로 학습된다. TDNN과 HMM은 각 음소 subclass 신경회로망의 제2은닉층의 출력 벡터를 HMM에 입력시킴으로써 결합된다. 이때 HMM은 이러한 입력들을 처리할수 있도록 알고리즘이 변형되었다. 이와같은 결합 방법에의해 이 시스템은 TDNN과 HMM의 장점을 취할 수있고 음소 특성의 시간적 구조에 잘 적응 할수 있게 된다. 실험결과에 의하면 오인식율을 HMM 기준 시스템에 비해 68.5% 감소시킬수 있었다. 다음으로 앞에서 제안된 혼성 모듈 TDNN/HMM 시스템에 적용 시켜 음성인식 시스템의 성능을 향상시킬수 있는 새로운 parameter smoothing 방법을 제안하였다. 이 방법은 TDNN/HMM 시스템에서의 HMM의 출력 심볼 관찰 확률을 평활화 시킨다. 여기서는 모듈 구조 TDNN의 두번째 은닉층 출력 벡터들의 평균값으로 smoothing 매트릭스를 구하고 이를 이용하여 평활화된 출력 심볼 관찰 확률을 구한다. 실험결과에 따르면 제안된 smoothing 방법이 floor smoothing 방법에 비해 우수한 성능을 나타내었고, 이 방법을 적용하여 94.1%의 음성인식률을 얻었다. 오인식률은 floor smoothing 방법으로 학습시킨 경우와 비교하여 44.9% 감소하였다.

서지기타정보

서지기타정보
청구기호 {DEE 93032
형태사항 v, 104 p. : 삽화 ; 26 cm
언어 영어
일반주기 Includes appendix
저자명의 한글표기 : 장춘서
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 으종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 92-103
주제 Speech perception.
Markov processes.
Phonemics.
Delay lines.
Neural networks (Computer science)
음성 인식. --과학기술용어시소러스
시간 지연 시스템. --과학기술용어시소러스
Markov 과정. --과학기술용어시소러스
신경 회로망. --과학기술용어시소러스
음운. --과학기술용어시소러스
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서