서지주요정보
Performance improvement of CSR using a segmental-feature HMM = 분절 특징 HMM을 이용한 음성 인식 성능의 향상
서명 / 저자 Performance improvement of CSR using a segmental-feature HMM = 분절 특징 HMM을 이용한 음성 인식 성능의 향상 / Young-Sun Yun.
발행사항 [대전 : 한국과학기술원, 2001].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8012379

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 01007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9007666

소장위치/청구기호

서울 학위논문 서가

DCS 01007 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Despite several decades of research activity, speech recognition still retains its appeal as an exciting and growing field of scientific inquiry. The goal of automatic speech recognition is to develop techniques and systems that enable computers to accept speech input. To accomplish the speech recognition, the input speech signal, via a microphone or telephone, is first transformed into a set of useful measurements or features at a fixed rate. These measurements are used to create a pattern representative of the features, or to generate templates or models for the reference patterns in training step. In the recognition step, these features are also used to find the most likely word candidate. If the reference patterns are characterized by the statistics of the features, training data are used to determine the model parameters. In a statistical framework, an acoustic model means an inventory of elementary probabilistic models of basic linguistic units to build word representations. Therefore, the feature measurements and the acoustic models have an important role in speech recognition system. A Hidden Markov model (HMM) is a representative of an acoustic modeling and is the predominant and current best performance speech recognition algorithm. Even though an HMM shows good results in modeling the statistical variations of acoustic speech signals, it is reported that some of its assumptions are not appropriate in practice. Thus, various studies are presented to relax some weakness of HMMs in the feature representations and acoustic modelings. In this point of view, we presented a new feature measurement to represent the set of frame features in detail and an acoustic model for characterizing the proposed features, and developed an algorithm based upon a general framework of HMMs. The proposed feature measurement uses a set of frame features rather than single frame feature because single frame feature cannot describe the temporal dynamics of speech signals. A segmental feature is pointed to the features which are extracted from the several frames and can be represented by parametric or non-parametric approaches. A parametric approach is used to estimate the polynomial trajectory from a specific region, and the distributions of the regions are represented by points along the trajectory. On the other hand, the non-parametric trajectory model has distribution parameters that are estimated for each model region. With adoption of the parametric approach to our work, the segmental features are obtained by a trajectory of observed sequences (frame features) using a polynomial regression function. Because the previous polynomial segmental models cannot correctly handle the boundary problems, we restrict the segment length to the fixed small value. In addition, to include the transitional information for contiguous frames and to solve the align problem, the current observation vector is positioned at the center of segment. To apply the segmental feature in an acoustic model, we select the segmental HMM (SHMM) which provides an efficient representation of a sequence of underlying trajectories for a speech signal. The SHMM describes the observation probabilities in a state by the extra- and intra-segmental variations in detail: extra segmental variations refer to long-term variabilities and intra segmental variations show short-term variabilities within a segment. The frame features are replaced with the trajectories in order to consider the segmental features in the SHMM. In this thesis, the SHMM is modified to reflect the segmental feature as follows: the extra-segmental variations represent the probability distributions of segments, and intra-segmental probabilities are related to trajectory estimation errors. Thus, the observation probability of a given segment is represented as the relation between the segment likelihood and the estimation error of the trajectories. The estimation error of a trajectory is considered to be the weight of the likelihood of a given segment in a state. This weight represents the probability of how well the corresponding trajectory characterizes the segment. The proposed model can be regarded as a generalization of a conventional HMM and a parametric trajectory model in the special case. We conducted several experiments on the TIMIT database to establish the effectiveness of the proposed method and to find the characteristics of the segmental features. At first, we compared the performance of systems using the proposed features with that of conventional HMM using both stationary and dynamic features. By the experimental results, we can find that the proposed segmental features are as effect as the combination of the stationary and dynamic features. Next, to find the characteristics of the SFHMM with different segment length and regression order, we also carried out the phoneme recognition experiments with various segment length and regression order. In these experiments, we concluded that the performance of SFHMM is closely related to the segment length and regression order. Finally, to reduce the number of free parameters of SFHMM, we adopted the fixed variance approach, which considers the all frames share a common variance, rather than the time-varying variance which has a sequence of frame variances in a segment. The recognition results indicated that if there are enough mixtures, the performance difference in two systems is negligible. As a result of experiments, we conclude that the proposed method is valuable, if its number of parameters is greater than that of conventional HMM, in the flexible and informative feature representation and the performance improvement.

음성 인식은 수십 년 동안 연구가 진행되어 왔는데도 과학적인 측면에서 여전히 많은 관심을 가지고 있으며, 계속해서 분야가 확장되고 있는 추세이다. 음성 인식의 목적은 컴퓨터로 하여금 사람의 음성 입력을 받아들일 수 있도록 기술이나 시스템을 개발하는 것이다. 음성을 인식하기 위해서는 먼저 마이크나 전화 등을 통하여 입력된 음성 신호를 고정된 배율의 측정치나 특징으로 변환 (feature measurement)시키는 작업이 필요하다. 이 측정치는 학습과정에서 특징들에 대한 대표 패턴이나 참조 패턴의 모델을 만드는데 사용되며, 인식 과정에서는 가장 비슷한 단어 후보를 찾는데 사용된다. 만약 참조 패턴이 특징 벡터들의 통계적 특성으로 이루어진다면, 학습 데이터는 모델의 변수들을 결정하는 데 사용된다. 통계적 모델에서, 음향학적 모델 (acoustic model)은 단어 표현을 구축하기 위한 기본 언어적 단위의 확률적 모델의 집합을 의미한다. 따라서 음성 인식 시스템에서 특징의 표현과 음향학적 모델은 중요한 역할을 담당한다 할 수 있다. 은닉 마코프 모델 (HMM; hidden Markov model)은 대표적인 음향학적 모델이며 현재의 음성 인식 알고리즘 중 가장 좋은 성능을 보이고 있다. 그러나 HMM이 음향학적인 음성 신호의 통계적 변이를 잘 모델링하여 좋은 결과를 보인다하더라도 몇 가지 약점이 지적되고 있다. 이러한 HMM의 약점을 보완하기 위하여 특징 표현이나 음향학적 모델에서의 다양한 연구 방법들이 제시되었다. 본 연구에서는 이런 관점에서, 여러 프레임으로 구성된 특징 벡터들을 자세히 표현하는 특징 표현 방법을 제안하고, 제안된 특징 방법을 이용하도록 HMM의 기본 구조 위에서 음향학적 모델과 그 알고리즘을 개발하고자 하였다. 제안된 특징 표현은 단일 프레임 특징이 음성 신호의 시간적 동적 특성 (temporal dynamics)을 제대로 표현하지 못하기 때문에, 여러 프레임을 이용하여 음성 특징을 표현하도록 하였다. 이렇게 여러 프레임에서 추출된 특징을 분절 특징 (segmental feature)이라 하며, 모수적 (parametric) 또는 비모수적 (non-parametric) 방법에 의하여 표현될 수 있다. 모수적 방법은 특정 영역을 다항식의 궤적 (polynomial trajectory)으로 표현하고, 이 궤적에 따른 점들로 그 영역의 분포를 나타낸다. 반면에, 비모수적 방법은 각각의 모델 영역에 대하여 분포 변수를 갖는 방법이다. 본 논문에서는 모수적 방법을 채택하여 다항식의 회귀 함수 (polynomial regression function)에 의하여 궤적을 구하고, 그 궤적에 의하여 분절 특징을 계산하였다. 기본의 모수적 방법에 의한 특징 표현 방법에서는 경계 문제를 제대로 해결하지 못하였기 때문에, 본 연구에서는 분절 길이 (segment length)를 고정된 작은 값으로 제한하였다. 또한, 연속된 프레임의 전이 정보를 표현하고, 정렬 문제를 해결하기 위하여 제안된 방법은 분절의 현재의 관측 벡터가 중앙에 오도록 하였다. 분절 특징을 음향학적 모델에 적용하기 위하여, 음성 신호의 궤적을 효과적으로 표현하는 분절 HMM (SHMM; segmental HMM)을 채택하였다. 이 분절 HMM은 상태에서의 관측 확률을 외적 분절 변이와 내적 분절 변이로 세분하였으며, 외적 분절 변이는 장기적인 변화를 표현하며, 내적 분절 변이는 단기적인 변화를 나타내도록 하였다. SHMM에서 분절 특징을 고려하기 위하여 프레임 특징은 궤적 표현으로 대치하였으며, 외적 분절 변이는 분절의 확률 분포로 표현하고, 내적 분절 변이는 궤적의 추정 오차로 표현하도록 SHMM을 수정하였다. 주어진 분절에서의 관측 확률은 분절 우도와 궤적의 추정 오차의 관계로서 표현되며, 여기에서 추정 오차는 상태에서의 분절의 우도에 대한 가중치로 고려될 수 있다. 이 가중치는 추정된 궤적이 분절을 얼마나 잘 표현하는지를 표현하다. 또한, 제안된 방법은 특수한 경우에 일반 HMM과 모수적 궤적 모델의 일반화로 해석될 수 있다. 제안된 방법의 유효성과 분절 특징의 특성을 살펴보기 위하여 TIMIT 자료를 이용하여 몇 가지 실험을 하였다. 먼저 정적 특징 (stationary feature)과 동적 특징 (dynamic feature)을 이용한 HMM과 제안된 특징 표현을 이용한 시스템의 성능을 비교하였다. 실험 결과, 제안된 특징 표현은 정적 특징과 동적 특징을 조합하는 것과 같은 효능이 있음을 파악할 수 있다. 다음으로, 다른 분절 길이와 회귀 차수에 대한 분절 특징 HMM (SFHMM; segmental-feature HMM)의 특성을 파악하기 위하여 다양한 조건 하에서 음소 인식 실험을 하였다. 이들 실험에서, SFHMM의 성능은 분절 길이와 회귀 차수 (regression order)에 밀접하게 관계되어 있음을 알 수 있었다. 마지막으로, 분절 내의 각각의 프레임이 자신의 분산을 갖는 시변 분산 (time-varying variance) 방식을 이용하는 SFHMM의 매개 변수 수를 줄이기 위하여, 분절 내의 모든 프레임이 공통된 분산을 공유하는 고정 분산 (fixed variance) 방식을 채택하였다. 두 시스템을 비교한 결과, 충분한 수의 혼합 밀도 (mixture)가 주어진다면, 두 시스템의 성능 차이는 미미한 것으로 밝혀졌다. 이들 실험으로부터 제안된 방법이 기존의 HMM보다 매개 변수가 많더라도, 성능의 향상과 제안된 특징이 유연하고 정보를 많이 가진다는 점에서 의미가 있다고 하겠다.

서지기타정보

서지기타정보
청구기호 {DCS 01007
형태사항 ix, 112 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 윤영선
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "A segmental-feature hmm for speech pattern modeling". Signal processing letters, v. 7 no. 6, pp. 135-137 (2000)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 107-112
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서