서지주요정보
Learning statistically efficient features in time domain for single channel signal separation = 단일채널 신호분리를 위한 시간 영역에서의 통계적으로 효율적인 특징 학습
서명 / 저자 Learning statistically efficient features in time domain for single channel signal separation = 단일채널 신호분리를 위한 시간 영역에서의 통계적으로 효율적인 특징 학습 / Gil-Jin Jang.
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015578

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 04018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

When human listeners hear the sounds from a number of mixed sources, they can remarkably recognize and follow each stream -acoustic object- separately from the other sources. Researchers in signal processing and many other related fields have strived for the realization of this human ability in machines; however, except in limited certain applications, thus far they have failed to produce the desired outcomes. In this thesis, we develop a couple of approaches for the signal separation problem, with a strict restriction that only single sensor observations are available. To derive separation algorithms, an efficient representation of the source signals by a statistical method is proposed. The efficient statistical representation is constructed by assuming a sound signal to be generated by a linear combination of a set of basis functions, and the source distributions are modeled by adapting the basis functions so that each source component is statistically independent. These features are source dependent characteristics and enable to compute probability of signals given the basis functions, by a flexible model known as generalized Gaussian priors for the density estimation of the highly sparse signals such as speech sounds. The basis functions of the source signals are learned a priori from a training data set and play a primary role for the separation algorithms, because the learned basis abstracts the essential information of the source signals more efficiently compared with conventional representations such as Fourier basis. With the given basis functions of the source signals that are mixed in a single channel, an adaptive separation algorithm is derived. The algorithm recovers the original auditory streams in a number of gradient-ascent adaptation steps maximizing the log likelihood of the separated signals. The algorithm performs all relevant adaptation on a single sample basis, which means that the solution is achieved by altering the sampled values of the signal gradually from arbitrary initial values to a certain goal, and the number of unknowns to be estimated equals the number of samples. We make use of not only the basis filters as strong prior information for the source characteristics, but also their associated coefficient pdfs in designing an object function of the adaptation algorithm. The second method is based on subspace decomposition and maximum likelihood filtering. The original source signals are recovered by projecting the input mixture onto the given basis functions, modulating the projections, and re-combining the projected signals. The modulation filters are obtained by the ML estimation derived by the generalized Gaussian expansion of the projection pdf. Although the adaptive separation method works elegantly in an iterative fashion, its intensive computational overhead prevents real-time processing. The projection-based method successfully reduces the required computation by cutting off the number of free parameters and replacing iterative solutions to an algebraic one. Experimental results showed successful separation performances for simulated mixtures as well as real environment recordings employing mixtures of rock and jazz music, and male and female speech signals. The proposed separation methods have additional potential applications including suppression of environmental noise for communication systems and hearing aids, enhancing the quality of corrupted recordings, and preprocessing for speech recognition systems.

다수의 다른 특성을 가지는 음향신호가 혼합되었을 경우, 사람의 청각능력은 쉽게 이들을 구분하고 분리해낼 수 있다. 신호처리 및 많은 다른 분야에서 이러한 사람의 청각능력을 기계로 실현하기 위해 많은 노력을 하였으나, 몇몇 제한된 응용분야를 제외하고는 현재까지 만족스러운 결과를 얻지 못하고 있다. 본 연구에서는 하나의 신호만이 입력으로 주어졌을 때 신호를 분리하는 문제를 해결하는 두 가지 방법을 제안한다. 두 가지 신호분리 알고리즘을 유도하기 위해, 통계적인 방법에 의한 신호의 효율적인 표현방법을 제안하다. 제안된 신호 표현방법에서는 음향신호는 기저함수(basis function)들의 집합의 선형조합으로 표현될 수 있다고 가정하며, 이 과정에서 기저함수로 변환된 영역에서의 신호들의 분포를 통계적으로 독립이 되도록 선형변환을 추정한다. 결과적으로, 입력 신호의 통계적인 특성은 추정된 선형변환으로 기술되어질 수 있다. 또한 음성과 같이 그 크기의 변이가 큰 신호의 분포를 추정하는 데 적합한 일반화된 가우시안 분포(generalized Gaussian distribution)를 사용함으로써, 기저함수들의 집합으로 정의되는 선형변환은 입력신호의 확률의 계산을 가능하게 한다. 주어진 학습자료로부터 미리 얻은 기저함수들은 푸리에 변환(Fourier transform)과 같은 기존의 기저함수들에 비해 보다 효율적으로 신호들의 특성을 기술하는 주요한 정보를 함축하여 표현할 수 있으며, 이는 신호분리 알고리즘이 적절한 해를 갖기 위한 필수조건이 된다. 본 연구에서는 미리 주어진 기저함수들의 집합을 이용하여 적응적(adaptive) 신호분리 알고리즘을 제안한다. 제안된 방법은 현재 추정치의 대수 확률이 증가되도록 경사법(gradient method)을 반복함으로써 최적의 해를 얻는다. 제안된 방법은 음원의 샘플 하나하나에 대하여 추정을 수행하기 때문에 해를 구해야 할 변수의 숫자는 신호의 샘플 수와 일치한다. 기저함수들은 음원들의 특성을 기술하기 위한 선험정보로 사용되며, 각 기저함수들의 계수들의 확률분포는 경사법의 목적함수를 유도하는데 사용된다. 두 번째 신호분리 방법은 부공간으로의 투영과 최대우도(ML; maximum likelihood) 가중을 이용한다. 혼합된 입력신호는 주어진 기저함수들의 부공간으로 투영되고, 투영된 신호들에 적절히 가중치를 주어 합침으로써 음원들을 복원한다. 가중치들은 일반화된 가우시간 분포로부터 유도된 최대우도 추정법에 의해 구한다. 적응적 신호분리 방법은 반복적인 경사법에 의해 신호를 분리해낼 수 있지만, 많은 계산량이 요구되어 실시간 실행이 불가능하다. 하지만, 부공간 투영을 이용한 신호분리 방법은 추정할 변수들의 숫자를 줄이고, 반복적이 아닌 대수적인 해를 구함으로써 소요되는 계산량을 상당히 줄일 수 있다. 제안된 방법들의 유효성을 보이기 위해 락과 재즈 음악, 그리고 남성과 여성 음성의 네 가지 다른 음원들의 혼합신호에 대하여 분리실험을 수행하였으며 모든 경우에 있어서 좋은 결과를 얻을 수 있었다. 제안된 신호분리 방법은 통신시스템의 전송잡음 제거, 왜곡된 녹음기록의 복원 등의 다양한 분야에 적용될 수 있으며, 특히 음성인식 시스템의 전처리 단계에의 적용이 기대된다.

서지기타정보

서지기타정보
청구기호 {DCS 04018
형태사항 ix, 78 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 장길진
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "Single channel signal separation using time-domain basis functions". IEEE signal processing letters, v.10 no. 6, pp. 168-171(2003)
수록잡지명 : "Learning statistically efficient features for speaker recognition". Neurocomputing, v 49 issue 1-4, pp. 329-348(2002)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 75-78
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서