서지주요정보
(A) study on the use of perceptual information for speech recognition = 음성인식을 위한 인지정보의 이용에 관한 연구
서명 / 저자 (A) study on the use of perceptual information for speech recognition = 음성인식을 위한 인지정보의 이용에 관한 연구 / Hyung-Soon Kim.
발행사항 [서울 : 한국과학기술원, 1989].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

4105442

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 8907

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Speech recognition by machines has applications in many areas, but it has been achieved with only a limited success. This is due to the fact that the current template-matching-based speech recognition approach relies heavily on the general-purpose pattern recognition algorithms and utilizes little of speech-specific knowledge. The main objective of this dissertation work is the development of a speech recognition system which can yield improved recognition accuracy by attending to constraints imposed by the knowledge of human speech perception, while maintaining the advantages of the template matching approach. For this purpose, we first propose a spectral representation of the speech signal based on the human peripheral auditory system. In this representation, a bank of band-pass filters with filter characteristics that produce cochlear-like frequency mapping is used for the spectral analysis. The frequency characteristics of filter bank are designed so that they may reflect faithfully the knowledge of peripheral auditory processing and psychophysical relations. We compare the performances of various filter-bank-oriented features including the proposed filter bank feature with respect to the recognition accuracy. From the isolated word recognition experiments, we show that the proposed feature outperforms other existing features, especially for the speaker-independent case. Second, we propose a modified distance measure that is insensitive to perceptually irrelevant spectral variations. The proposed method may be realized simply by applying a nonlinearity to the conventional distance measure which computes the acoustic dissimilarity between two spectra. We examine several realization schemes for the modified distance measure, and show that the discriminability of phonetically similar words is significantly improved even by a very simple, threshold-type nonlinearity applied to the conventional distance measure. Since the optimal choice of the threshold is independent of the vocabularies used, it is not required to reselect the appropriate threshold value based on the recognition experiment with different threshold values whenever a new vocabulary is to be recognized. Third, in order to alleviate the problem that the perceptually-important timing information in the transient sounds tends to be destroyed during the conventional dynamic time warping process, we proposed a modified dynamic time warping algorithm which utilizes the transient information to constrain the warping paths. We also investigate two efficient schemes for detecting and locating the transient sounds, based on the amount of spectral changes in unit time. The proposed algorithm does not require a considerable increase in computational burden during the dynamic time warping process, and reduces about 40 percent of recognition errors in comparison with the conventional dynamic time warping algorithm. Finally, we propose a speech recognition method based on the dual processing nature of speech perception, where average firing rate data are used for many purposes, but interspike intervals are processed to detect peak locations in vowel-like harmonic spectra. In this method, vowel-like portions and non-vowel-like portions of the speech signal are segmented first, and different distance measures are applied to each of them. In order to segment input utterance into vowel-like and non-vowel-like intervals, we also propose a segmentation algorithm based on a set of descriptive features derived from our auditory filter bank output. According to our recognition experiments, a reduction of over 30 percent in recognition errors is possible with the proposed method in comparison with the conventional method, although the segmentation performance for vowel-like and non-vowel-like segments is not very successful. This method is particularly useful when a broad phonetic classifier is employed as a front-end stage for reducing the number of candidate words.

음성인식은 다양한 응용 분야를 가지고 있음에도 불구하고 현재까지 제한된 성공을 얻는 데 그치고 있다. 이는 기존의 template matching에 의한 음성인식 방식이 범용 패턴인식 알고리즘들에 크게 의존할 뿐, 음성 특징에 관한 지식을 별로 이용하지 못하고 있는 데에 기인한다. 본 논문의 목적은 기존의 template matching에 의한 음성인식 방식에 사람의 음성 인지 과정에 관한 지식들을 적용함으로써 음성인식 시스템의 성능을 향상시키는 데 있다. 이를 위하여, 본 논문에서는 첫째로 사람의 청각 기관에 근거를 둔 음성 신호의 표현 방법을 제시하였다. 이 방법에서는 청각 기관 중 달팽이관에서 이루어지는 주파수 분석과 유사한 필터 특성을 갖도록 설계된 대역필터군이 사용되었다. 제안된 대역필터군의 성능을 기존의 여러 가지 대역필터군에 의한 음성 특징 추출 방법들의 성능과 격리 단어 인식 실험을 통해 비교해 본 결과, 제안된 대역필터군의 성능이 기존의 방법들의 경우보다 우수함을 보였다. 둘째로, 인지과정과 관계 없는 spectral variation에 의한 영향을 별로 받지 않는 변형된 거리 척도(distance measure)를 제안하였다. 제안된 방법은 기존의 거리 척도에 단순히 어떤 비선형기를 적용시킴으로써 구현될 수 있다. 본 논문에서는 몇 가지 구체적인 구현 방법들이 검토되었으며, 매우 단순한 threshold 형태의 비선형기를 이용하더라도 음성학적으로 유사한 단어들 사이의 변별력이 현저하게 개선될 수 있음을 보였다. 뿐 만 아니라, 최적 threshold 값이 사용되는 어휘에 종속되지 않기 때문에, 새로운 어휘를 인식하고자 할 경우에도 threshold 값의 재조정이 요구되지 않는다. 세째로, 기존의 dynamic time warping 과정을 수행하는 도중에 인지 정보로서 중요한 역할을 하는 transient sound의 시간적 정보가 유실되는 문제를 해결하기 위하여, transient sound에 관한 정보를 경로 선택 과정에서의 제한 요인으로 활용하는 변형된 dynamic time warping algorithm을 제안하였다. 또한 transient sound의 위치를 찾기 위한 두 가지 방법을 검토하였다. 제안된 algorithm은 dynamic time warping 과정에서의 계산량을 거의 증가시키지 않으면서도 기존의 algorithm들에 비해 인식 error를 40 퍼센트 가량이나 감소시킬 수 있었다. 마지막으로, 음성의 인지과정에서의 이원적인 처리 특성에 근거를 둔 음성 인식 방법을 제안하였다. 이 방법에서는 먼저 음성 신호를 vowel-like sound와 nonvowel-like sound로 분할한 다음, 이들 각각에 대해 서로 다른 거리 척도를 사용하여 인식 과정을 수행한다. 이를 위하여, 본 논문에서는 청각 기관 모델에 의한 대역필터군으로부터 얻어지는 descriptive feature들을 이용한 음성 분할 방법도 제안하였다. 격리 단어 인식 실험을 통해 음성 분할 방법의 성능이 크게 우수하지 않더라도 기존의 인식 방법에 비해 30 퍼센트 이상의 인식 error들이 감소됨을 보였다.

서지기타정보

서지기타정보
청구기호 {DEE 8907
형태사항 x, 148 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : Speech data corpus
저자명의 한글표기 : 김형순
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 131-147
주제 Depth perception.
Pattern recognition systems.
Phonetics.
음성 인식. --과학기술용어시소러스
부호 거리. --과학기술용어시소러스
패턴 인식. --과학기술용어시소러스
단어. --과학기술용어시소러스
주파수 해석. --과학기술용어시소러스
Speech perception.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서