서지주요정보
Continuous speech recognition systems based on non-uniform unit neural network and a fuzzy expert system = 불균일 단위 신경회로망과 퍼지전문가 시스템에 기반한 연속음성인식 시스템
서명 / 저자 Continuous speech recognition systems based on non-uniform unit neural network and a fuzzy expert system = 불균일 단위 신경회로망과 퍼지전문가 시스템에 기반한 연속음성인식 시스템 / Ha-Jin Yu.
발행사항 [대전 : 한국과학기술원, 1997].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8007244

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 97017

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9003980

소장위치/청구기호

서울 학위논문 서가

DCS 97017 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

It is necessary for a computer to recognize continuous speech, to provide the most convenient way of communication for users. The major problem addressed in this study is the difficulty of segmenting continuous speech into primitive units for recognition. The exact segmentation of phonemes is almost impossible, especially when the speech is spoken without restrictions. Most of the recognizers search for optimal positions of the units during recognition by using dynamic programming or by shifting windows. Such processes usually take much more time than segmenting the speech before classification. As a solution, we define a non-uniform unit and propose a segmentation method for the unit. A unit is defined as a segment which is cut out at stationary points of the speech, and have a transition part in the middle of it. It is segmented by using spectral transition measure without iterations or exhaustive search. A unit can have an arbitrary number of phonemes so it can absorb co-articulation effects which span for several phonemes. To show the effectiveness of the unit, we implemente two recognition systems based on a knowledge-based and a connectionist approaches. In the knowledge-based system, the rules for recognizing units are represented by frames which describe the dynamic structures of the units. Then, fuzzy concepts are used for speech recognition in two ways. First, fuzzy reasoning is applied to the recognition of the basic unit. The second application of fuzzy concepts in this study is estimating fuzzy phoneme similarity relation for word spotting. We propose a method to evaluate the similarities of the pairs of Korean phonemes based on the similarities of the articulatory features. The similarities of the places and the manners of articulations of phoneme pairs are estimated and then the results are combined by using fuzzy operations to calculate the similarities of the phonemes. In the neural network system, the segmentation and classification of the units are implemented by separate network modules, whereas conventional networks do the two processes simultaneously consuming large amount of time. The lexicon for word recognition is also implemented by a network module which can memorize all transcription variations in the training utterances. The system is tested by a task of speaker-independent continuous word recognition with 1000 words.

음성을 이용하여 컴퓨터와 대화하기 위해서는 불특정 화자가 자유롭게 발성한 연속음성을 인식할 수 있어야 한다. 이러한 연속음성은 음소와 같이 작은 인식단위로의 분할이 거의 불가능한 문제점이 있다. 대부분의 음성인식 시스템에서는 동적정합법을 이용하거나 일정한 크기의 창을 움직여 음성구간의 모든 점을 탐색하므로, 인식과정이 복잡해지고 많은 시간을 필요로 하게 된다. 이에 대한 해결방법으로, 본 연구에서는 불균일 단위와 음성의 분할방법을 제안한다. 음성은 주파수천이척도(spectral transition measure)의 값이 극소값인 곳을 경계로 하여 분할 되며, 반복계산이나 탐색과 같이 시간이 많이 소요되는 처리를 하지 않는다. 제안한 인식단위는 음성 특징의 변화가 적은 부분에서 분할되어 경계지점의 오차가 상대적으로 적게되는 장점이 있으며, 천이구간을 내부에 포함한다. 또한, 하나의 인식단위는 불규칙한 개수의 음소를 포함하므로, 여러개의 음소에 걸쳐 나타나는 조음결합 현상을 흡수할 수 있다. 제안한 인식단위의 유효성을 증명하기 위하여 지식기반 인식방법과 신경회로망을 각각 이용한 두 가지의 시스템을 구현하였다. 지식기반 시스템에서는 인식단위의 동적인 특성에 관한 지식을 인식단위의 구조에 따라 프레임의 형태로 표현하여, 규칙의 자동생성이 가능하도록 한다. 또한 퍼지이론을 적용하여 음성의 애매한 부분을 처리한다. 기본단위의 인식에 퍼지 추론을 사용하며, 단어 추출에 음소간의 퍼지유사도관계를 이용한다. 먼저 음소를 구성하는 작은 기본단위인 조음위치와 조음방법간의 유사도를 구한 후, 퍼지 연산자를 이용하여 음소간의 유사도관계를 추정하는 방법을 제안한다. 기존의 신경회로망을 이용한 연속음성인식 시스템에서는 음성의 분할과 인식이 동시에 진행되는데 반하여, 본 연구에서는 음성의 분할과 인식을 각각 독립된 신경회로망으로 구현하여 구현을 용이하게 하고 인식 및 학습 시간을 단축시킨다. 단어를 인식하기 위한 발음사전도 신경회로망으로 구현하여 학습자료에 포함된 모든 발성의 변이를 학습할 수 있게 한다. 구현한 시스템을 화자독립의 음성자료를 이용한 1000단어 연속음성인식에 적용하여 제안한 단위와 시스템의 유효성을 검증한다.

서지기타정보

서지기타정보
청구기호 {DCS 97017
형태사항 ix, 133 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 유하진
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록 잡지명 : "Fuzzy Expert System for Continuous Speech Recognition". Expert Systems with Applications. Elsevier Science Ltd., vol. 9, no. 1, pp. 81-89 (1995)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 Reference : p. 125-133
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서