서지주요정보
Nonlinear feature extraction techniques for understanding sensory data with application to speech = 감각 정보 이해를 위한 비선형 특징 추출 방법들과 이의 음성 신호에 대한 응용
서명 / 저자 Nonlinear feature extraction techniques for understanding sensory data with application to speech = 감각 정보 이해를 위한 비선형 특징 추출 방법들과 이의 음성 신호에 대한 응용 / Jae-Hyung Lee.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021936

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 10009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Speech is one of the most preferred way of human communication. Although it can be represented as a one-dimensional time series, the process of its generation and perception is quite nonlinear, and the attempts to model and understand its structure have ended up with limited success. In this thesis, a general framework of understanding sensory data is provided using theories from nonlinear dynamics. More specifically, a number of useful theorems on the recoverability of the dynamical system behind the observed sensory data are presented. Guided by the theoretical results, several recently proposed nonlinear machine learning techniques are improved and applied to speech data to uncover its structure and solve practical problems such as fundamental frequency estimation and speech recognition. Contributions of this thesis can be summarized as follows: First, a theorem on the recoverability of controllable dynamical systems using a delay embedding map is proved by extending Takens` theorem. It is shown that by imposing some constraints on the maximum and minimum periods of the deterministic dynamical system $\It{M}$, one can approximately reconstruct the product manifold of parameters $\It{N}$and the attractors of underlying dynamical systems $\It{M}$ given only one-dimensional observation. This opens up the possibility of estimating hidden parameters of a sensory signal without having too much domain-specific knowledge on it. The theorem provides some guidance about picking the dimensionality of the delay embedding. Also, a theorem bounding the error of the reconstruction is given. The reconstruction error of the delay embedding map is bounded if we assume a $(D,\delta)$-slow parameter trajectory with $\delta$ small enough, and goes to zero as $\delta \rightarrow 0$. In other words, if the parameter governing the passive dynamical system changes slow enough, then we can reconstruct the product manifold. Second, the method of recovering the controllable dynamical system using manifold learning techniques is proposed. Using the proposed method, the manifolds of synthetic and real-world vowels with time varying fundamental frequency ($\It{F}_0$) are analyzed and the $\It{F}_0$ contours are extracted. Also, it is shown that the phase space of the deterministic dynamics can be contracted by utilizing the adjacency relationship in time, which enables the recovery of only the parameter space. Experimental results show that the proposed method shows robust performance under various noise conditions and rapid changes of $\It{F}_0$ compared with the current state-of-the-art $\It{F}_0$ estimation algorithms. Third, a new method called Local Passive Dynamics Alignment (LPDA) and its landmark version are proposed to deal with the passive dynamics with bifurcations, power dissipations, and stochasticity. The parameter manifold of speech is learned by applying landmark LPDA to TIMIT continuous speech corpus. Phoneme recognition experiments on TIMIT database using the extracted features are also performed. LPDA features yield reasonable performance after selecting a feature subset with an extremely small size, which means they represent the phoneme information more compactly than conventional speech features like Mel-frequency cepstral coefficients (MFCC). However, the number of landmarks needed to represent the speech manifold shows the limitation of the proposed methods based on manifold learning techniques. Finally, a recently proposed unsupervised initialization technique for multilayer perceptrons using Restricted Boltzmann Machine (RBM) is applied to obtain internal representation from the speech data. A continuous variant of Restricted Boltzmann Machine (RBM-C) is proposed to deal with continuous-valued sensory data better. With the discriminative fine tuning and substate training, the proposed architecture achieves a phoneme error rate (PER) of 22.6 % on the complete test set of TIMIT speech corpus, and 23.0 % on the core test set. To our knowledge, this is one of the best result available on TIMIT dataset without any domain specific design or knowledge.

음성은 인간 의사 소통의 가장 선호되는 방식 중 하나이다. 1차원 시계열 신호로 나타낼 수 있음에도 불구하고, 음성의 생성과 지각 과정은 매우 비선형적이며, 그 구조를 이해하고자 하는 노력은 제한된 성공만을 거두어 왔다. 본 논문에서는, 비선형 동역학계의 이론을 사용하여 감각 정보를 이해하는 일반적인 토대를 제시하였다. 보다 정확히는, 감각 정보 뒤에 숨겨진 동역학계의 복구 가능성에 대한 몇 가지의 유용한 정리를 증명하였다. 이 이론에 기반하여 최근 제안된 비선형 기계 학습 기법들을 발전시키고, 이를 음성 신호에 적용하여 그 구조를 밝히고 기본 주파수 추정이나 음성 인식과 같은 실용적인 문제를 다루는 데 사용하였다. 본 논문의 기여 내용은 다음과 같이 요약될 수 있다. 첫 번째로, 제어 가능한 인자들을 가지는 동역학계의 복구 가능성에 대한 새 정리가 Takens 의 딜레이 임베딩 정리를 확장하여 증명되었다. 즉, 동역학계의 위상 공간 $\It{M}$의 최대와 최소 주기에 제한을 둠으로써, 1차원 관측 신호만으로 동역학계의 인자 공간 $\It{N}$ 과 결정론적 위상 공간 $\It{M}$ 의 곱 다양체를 근사적으로 복구해낼 수 있음을 보였다. 이는 해당 감각 정보에 대해 한정적인 지식을 명시적으로 가지지 않고도 감각 정보에 숨겨진 인자들의 값을 추정할 수 있는 가능성을 열어 준다. 새 정리는 딜레이 임베딩의 차원을 결정하는 데 대해 지침을 제공한다. 또한, 복구의 에러를 제한하는 정리가 제시되었다. 딜레이 임베딩 맵의 복구 에러는 만일 $(D,\delta)$-느린 인자 궤적의 $\delta$가 충분히 작을 경우 이에 의해 제한되며, $\delta$가 0으로 접근함에 따라 함께 0으로 접근한다. 다시 말하면, 동역학계의 결정론적인 위상 공간을 제어하는 인자들이 충분히 느리게 변할 경우, 인자 공간과 위상 공간의 곱 공간이 복구될 수 있다. 두 번째로, 다양체 학습을 이용하여 제어 가능한 인자들을 가지는 동역학계를 복구하는 방법을 제시하였다. 제시한 방법을 이용하여, 시간에 따라 변하는 기본 주파수를 가지는 합성된 모음과 실제 모음 신호들의 다양체를 분석하고 그 기본 주파수 궤적을 추출하였다. 또한, 시간 이웃 정보를 이용하여 동역학계의 위상 공간이 수축될 수 있음을 보이고, 이를 이용하여 인자 공간만을 복구하였다. 실험 결과로부터 제안한 방법이 기존의 가장 우수한 방법들보다 다양한 잡음 환경과 심한 기본 주파수 궤적의 변화에 강인함을 확인하였다. 세 번째로, 위상 공간의 가지치기, 에너지 감소, 그리고 비결정성을 다룰 수 있는 국소 동역학계 정렬 (LPDA) 이라는 새로운 방법과 그의 지표 확장 버전을 제안하고, 제안한 방법을 TIMIT 음성 데이터베이스에 적용하여 음성의 인자 공간을 학습하였다. 제안한 방법으로 추출한 특징을 이용하여 음소 인식 실험 역시 수행하였다. LPDA로 얻은 특징들은 매우 적은 수의 특징만을 선택한 후에도 적정한 성능을 보였으며, 이는 해당 특징들이 멜 주파수 켑스트럼 계수 (MFCC) 와 같은 기존의 특징들보다 음소 정보를 보다 간결하게 나타냄을 의미한다. 하지만, 음성 다양체를 나타내기 위해 필요한 지표의 수는 다양체 학습 방법에 기반한 제안한 방법의 한계점을 보여 준다. 마지막으로, 음성의 인자 표현을 얻기 위해, 최근 제안된 제한된 볼츠만 머신 (RBM) 을 이용한 다층 신경 회로망의 비교사적 초기화 방법을 적용하였다. 연속적인 값을 가지는 감각 신호를 좀더 잘 다룰 수 있는 제한된 볼츠만 머신의 변종 (RBM-C) 를 제안하였다. 식별력을 강화하는 세부 조절과 음소의 부 상태 표현을 이용하여, 제안된 방법은 TIMIT 음성 데이터베이스의 전체 테스트 집합에 대해 22.6 %, 그리고 핵심 테스트 집합에 대해 23.0 % 의 음소 에러율 (PER) 을 달성하였다. 이는 음소에 대한 특별한 사전 지식이나 설계 없이 TIMIT 데이터베이스 음소 인식에 대해 보고된 가장 좋은 결과 중 하나이다.

서지기타정보

서지기타정보
청구기호 {DBiS 10009
형태사항 xiii, 104 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이재형
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
수록잡지명 : "Learning the Dynamical System Behind Sensory Data". Neural Computation, v.22 no.6, 1615-1645(2010)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References: p. 97-104
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서