서지주요정보
Learning one-to-many mapping with locally linear maps based on manifold structure = 다양체 구조에 기반한 국부적 선형 함수들을 이용한 일대다대응 함수의 학습
서명 / 저자 Learning one-to-many mapping with locally linear maps based on manifold structure = 다양체 구조에 기반한 국부적 선형 함수들을 이용한 일대다대응 함수의 학습 / Do-Kwan Oh.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022904

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 11005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis proposes a new method to realize a nonlinear mapping of one-to-many correspondences. Assuming that a small number of training pairs are given with their actual correspondences, each tangent space is locally constructed on a sub-manifold around each labeled sample. Moreover, the linear transformation between paired tangent spaces is derived by solving an optimization problem, which is designed to bring locally linear maps into closer proximity in each class. This is the natural way of choice of maps. We define the cost function as the matrix norm of weighted covariance of the mapping points via different linear maps in the same class. Finally, a global nonlinear mapping is realized by combining these locally linear maps. This construction makes reasonable generalization of correspondences between two different sets of data. The underlying algorithm is a non-iterative efficient procedure whose complexity mainly depends on the number of matched training samples and the low dimensionality of the each manifold, neither on the number of whole training samples nor on the high dimensionality of the raw data. Also, this data-driven approach complements model-based approaches by their ability to automatically extract intrinsic information and relationship from a large collection of dataset such as images and speeches. In this thesis, we proposed a new algorithm that differs from other dimensionality reduction techniques currently used in multi-modal data processing: our method constructs a direct map between two high-dimensional data sets, and the map generalizes well with a relatively small number of training samples. This proposed mapping algorithm can serve many purposes for applications. In simulations of a S-curve to Swiss-roll mapping, the proposed method shows the remarkable mapping ability with a minimum computational load. Especially, the real experiments were performed to demonstrate the potential of our method in lip-reading and lip-to-speech conversion, even though lip image and speech datasets are inherently difficult to analyze because of their high complexity and different underlying mechanisms that generate them. This lip-to-speech conversion can be designed as a preceding work for Audio Visual Speech Recognition when we only use lip images at the extremely noisy environment. Thus, a Lip-to-Speech conversion is a quite challenging and unexplored research field. The previous mapping algorithm can have multiple candidates as the mapping output. The scheme with multiple candidates has the pros and cons. The merit is that one candidate of this system may have the exact solution or more close solution to target. The demerit is this system has lots of answers, which does not have the information about a correct solution or not. I make a decision that one-to-many mapping algorithm can allow to produce multiple answers, then this ambiguous structure can be solved at the recognizer part. Therefore, I want to put some additional model, which called as state dependent observation transition model, into conventional Viterbi algorithm using time characteristics, and extend from two dimension to three dimension space. Also, I define some contributions of candidates as Gaussian form probability model, and try to add into the state dependent observation transition model. This weighting scheme help to allow lots of candidates into the recognizer without any ambiguity. The derivation and assumption of state dependent observation transition model with the weighting scheme is easily driven from a graphical model and its extension path between two concatenated observations. Newly defined terms can be implemented from the re-estimation step of HMM parameters using Baum-Welch algorithm.

이 학위논문은 일대다대응관계에 있는 두 자료 집합사이의 비선형 연결함수를 구현하기 위한 새로운 방법을 제안한다. 두 자료 집합사이의 실제 대응관계를 기반으로 하는 훈련자료들 중 적은 수의 쌍을 미리 주어진다고 가정하고, 쌍에 대한 정보가 없는 주변 자료들을 이용하여, 이들 각각의 자료를 중심으로 하는 부다양체 위에 각각의 접공간들이 국소적으로 건설되어진다. 게다가, 이들 쌍으로 구성된 접공간들사이에는 국소적으로 선형변형행렬이 정의 되어진다. 이 선형변형행렬은 그들에 의해 변형된 함수값들이 각 그룹안에서 서로 잘 모이도록 설계되어지고, 이러한 최적화 문제를 풀어냄으로써 최종적으로 구해지게 된다. 이러한 설계는 변형함수의 선정을 위한 가장 자연스럽고도 쉬운 하나의 방법이다. 따라서, 우리는 각각의 그룹에서 서로 다른 선형변형함수들에 의한 함수값들의 공분산에 특정 가중치를 적용한 행렬의 놈으로써 비용 함수를 정의한다. 최종적으로, 전체 비선형 연결 함수는 이러한 국소적 선형 함수들을 결합함으로써 구현되어진다. 이러한 최종 비선형 연결 함수의 구성은 두 개의 서로 다른 자료 집합들 사이의 대응관계의 합리적인 일반화를 제공한다. 근간을 이루는 알고리즘은 학습을 위해 반복적이지 않으면서, 계산 복잡도가 주로 전체 훈련 자료의 수와 가공되지 않은 자료의 최초의 높은 차원이 아닌, 각각의 다양체 위에서 미리 알려진 쌍의 훈련 자료의 수와 낮은 차원에 의존하는 효율적인 과정이다. 또한 이런 자료로 부터 유도된 접근 방법은 자동적으로 내부 정보를 유추한다거나 영상과 음성들 같이 큰 규모의 자료집합들로 부터 그들의 관계를 자동적으로파악할 수 있는 능력에 의해, 모델로 부터 유도된 접근 방법을 보완할 수 있다, 이 학위논문에서, 나는 기존의 다양한 형태의 신호처리 분야에서 현재 널리 사용되고 있는 여타 다른 차원 축소 기술과는 접근 자체부터 다른 새로운 방법을 제안한다. 제안된 방법은 두 개의 고차원상의 자료 집합들 사이의 직접적인 연결을 잘 찾아내고, 이 연결 함수는 선행 지식(미리 알고 있다고 가정하는 자료 연결 쌍)이 상대적으로 적을 지라도 잘 일반화 되어짐을 확인하였다. 게다가 그룹 정보의 제약을 추가한 구조때문에 제안된 방법의 계산량이 기존의 비교 대상 방법들 보다 더 줄어든다. 또, 결정하기 어려운 많은 정의 매개 변수들에도 강인한 성능을 보인다. 여기서 제안된 연결 함수를 찾는 방법은 많은 응용 분야에 사용되어 질 수 있다. 제안된 방법의 동작 확인을 위해, 임의로 제작되어진 알파벳 에스 모양의 굴곡에서 스위스 롤 모양으로의 연결이 수행되어 진다. 이 실험에서 제안된 연결 방법은 최소한의 계산량으로 괄목할 만한 연결 능력을 보인다. 또, 실험 결과는 전체 자료의 구조를 파괴시키는 비교 대상 방법과는 달리, 제안된 방법은 전체 구조를 파괴시키지 않고 목표치에 더 가깝게 가고 있음을 보여준다. 한편,독순술이나 입술에서 음성으로의 신호 변환 분야에서 제안된 연결 방법의 가능성을 증명하기 위해, 실제 자료로 부터의 실험도 수행되어 진다. 심지어 이들 실제자료로 사용되어진 입술 사진과 음성 자료 집합들이, 그들의 높은 복잡도와 서로 다른 근간 생성 과정을 가졌기 때문에 그들을 각각 자체적으로 분석하기 힘듦에도 불구하고, 그들 실험의 성능은 좋았다. 이러한 입술에서 음성으로의 변환 기법은 데이터통신에서 오디오 비주얼 음성 인식 기법을 위한 선행 연구로써 설계되어질 수 있다. 이는 극단적으로 시끄러운 환경에서 사용자가 오직 입술 정보만을 이용할 수 있을 때 효과적일 것으로 기대된다. 따라서 제안된 입술에서 음성으로의 변환기법은 상당히 도전적이고 미탐구되어진 연구 분야이다. 제안된 일대다대응 연결 함수 기법의 유일한 단점은 출력으로 발생하는 자료의 형식이 하나의 출력이 아닌 다양한 후보군들로 이루어 진다는 것이고, 인식단에서 이들을 선정하는 데에 있어의 모호함이다. 제안된 관측 자료간의 전이 모델에 기반하여 관측값들의 시간에 따른 변화의 특성을 이용하여, 6장에서 제안된 삼차원 비터비 해독기가 후보군 선정 문제를 풀어 주기를 기대한다. 또한 관련 실험에서 적절한 수의 출력 후보와 제안된 인식기의 조합 성능이, 하나의 출력과 기존의 인식기의 조합 성능에 비해 월등히 높았음을 확인하였다. 이러한 모든 특성들이 제안된 방법의 효율성을 상당히 향상시키고 있음을 확인할 수 있었다.

서지기타정보

서지기타정보
청구기호 {DBiS 11005
형태사항 ix, 98 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 오도관
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p.85-93
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서