The blind source extraction (BSE) is an advantageous process over blind signal separation in many practical applications. As in the case of speech enhancement and biomedical signal processing, extracting a single desired source signal is preferred instead of extracting all the source signals. Extracting a specific desired source from a mixture of many sources is a difficult process. To overcome the problem of permutation within the process blind source extraction, methods which specify the order of extraction are necessary.
In this dissertation, the blind source extraction algorithms are studied in order to extract the desired source by combining BSE algorithm with two constraint methods. For real-world speech signal processing, the acoustic sources and reverberant room conditions are considered. In the acoustic room, the closest located source to the microphones is defined as the desired source and the others are considered as interferences. The convolutive BSE algorithm is derived by the maximization of non-Gaussinity which is the approximated negentropy based deflationary method developed by Hyvarinen and Oja. The two constrained BSE are proved by several simulated and real simulations.
First, the process of imposing the direction constraint into the BSE algorithm is called direction constrained ICA (dcICA). The direction constraint is derived from the inverse relationship of the mixing and demixing filters. To extract the closest source by dcICA, the direction information of interference is used as the initialization for the demixing filters. From various experiments, the dcICA approach proves to be efficient in extracting the closest source even though the interference has more power than the closest source.
Secondly, the distance-dependent characteristic which is defined from the mixing filters is used to derive the learning rule for closeness constrained ICA. After defining the closeness property of the mixing filter, the closeness constraint from the demixing filter is derived and applied into the convolutive BSE algorithm. While the conventional BSE algorithm usually gives successful results in the signal with the strongest power, ccICA algorithm proved successful in extracting the signal of designated interest, even though the interference is much greater in the mixtures. The performance is proven outstanding in the demonstration of both simulated convolutive mixtures and real recorded mixtures within an office room setting.
Thirdly, the adaptive prewhitening method is explored in order to solve the whitening problem which arises in the feedforward architecture of BSE algorithm. In the case that the spectrum of the original source is different from the spectrum of mixtures, the conventional prewhitening methods using mixtures fails to solve the remaining problem of whitening. For example, when speech is mixed with music or fan noise, there is quite a severe distortion in the process of extracting speech signals. To overcome this problem, adaptive prewhitening filter using the output of the BSE algorithm is suggested. Through the simulations, the radical improvement upon the Signal-to-Distortion (SDR) performance is thoroughly shown.
Finally, the extension of the number of microphones for the suggested constrained BSE methods are derived mathematically and through various experiments, its performance for extracting closet source is proved. Also, the sensitivity of delay parameters of the algorithms are measured from various experimental conditions. Even though the delay used for ccICA has the 1 sample error which represent 15 degree at 8kHz system, ccICA extract the closest source.
암묵 신호 추출이란 여러 음원이 혼합된 신호로부터 원래 음원을 하나씩 추출 하는 방법으로 모든 음원을 동시에 분리하는 암묵 신호 분리 방법이 원하지 않는 신호까지 분리한다는 것을 해결하여 특정 음원만을 추출 하는데 사용될 수 있다. 그러나 암묵 신호 추출 방법은 음원이 어떤 순서로 추출될지 모르는 문제를 가지고 있다. 본 논문에서는 암묵 신호 추출 방법에 제안조건을 이용해서 원하는 신호 하나만을 추출하는 방법을 제안하였다. 반향이 존재하는 실제 방의 환경에서 여러 음원이 마이크에 입력 될 때, 원하는 신호를 마이크에 가장 가까운 음성 신호라고 하고 나머지를 간섭 음원이라고 정의하여 마이크에 가장 가까운 음원만을 추출하는 방법을 제안한다. 암묵 신호 추출에는 비정규성(non-gaussinity)을 최대화 시키는 방법을 이용해서 다중경로 혼합 신호(convolutive mixtures)로 부터 순차적으로 신호를 추출하게 된다. 상대적으로 큰 음원이 먼저 추출 되는 특성을 실험을 통해서 확인하여 간섭 음원이 상대적으로 큰 파워를 가지고 마이크에 섞이면 간섭 음원이 먼저 추출하는 특성을 확인하였다. 기존에는 분리하고자 하는 신호의 특성을 이용하나, 이것 만으로는 원하는 하나의 신호를 규정하기 어렵다. 본 연구에서는 음원의 상대적인 파워 비율에 관계없이 가까운 음원만을 추출 하기 위해, 혼합(mixing) 채널의 특성을 이용하여 마이크에 가까운 음원을 선택적으로 추출하는 기법을 제안하였다. 제안한 방법은 direction constrained Independent Component Analysis (dcICA) 방법과 closeness constraoned ICA(ccICA) 방법으로 구분되는데, dcICA는 혼합 채널이 갖고 있는 소리의 방향 정보를 이용하여 분리(demixing) 채널의 계수를 초기화 하는 방법이다. 음향 소스가 두 마이크로 도착할 때 직접 경로 (direct path)의 시간차이가 음향 소스의 방향 정보라고 할 때, 분리 채널과 혼합 채널의 역행렬 관계를 통해서 간섭 신호 (interference siganl)의 방향 정보가 분리 채널의 계수를 초기화시키기 위해 사용되면 dcICA를 이용해서 가까운 음원이 추출 가능하다. ccICA는 가까운 신호의 channel 특성을 이용하여 학습 과정 중에 filter coefficient를 변경하는 objective function의 constraint로 작용하였다. 반향이 있는 환경에서 직접 도달하는 소리의 세기가 거리의 제곱에 반비례하지만, 반향음의 총 에너지는 큰 차이가 없다는데 착안 하여 혼합 채널의 DRR(Direct-to-Reverberation Ratio)가 최대가 되는 음원을 추출하게 된다. 실지로는 하나의 분리 채널 백터만을 계산하게 되므로, 혼합채널 행렬의 역행렬을 구할 수 없으므로 분리채널 벡터와 관련된 새로운 백터를 정의하고 이의 DRR을 최대화 시킨다. 이 방법은 음원의 방향과 근거리 조건을 복합적으로 사용하는 기술이다. 또한 기존의 음원에 대한 상호독립 조건과 근거리 조건을 복합적으로 사용할 때, 근거리 조건의 상대적 중요성을 모르므로 이를 적응적으로 변화시키는 방법도 제시되었다. 다양한 시뮬레이션 실험을 통해 dcICA와 ccICA 모두 음원의 상대적인 파워 비율에 관계없이 가까운 음원만을 추출하는 것을 확인하였으며, 실제 녹음 데이터에서도 동일한 결과를 얻을 수 있었다. 두 방법 모두 음원의 방향 정보가 필요하며, dcICA는 간섭 음원의 방향 정보를, ccICA는 가까운 음원의 방향 정보가 주어져야 구현이 가능하다. 마이크가 많아 질 때, dcICA는 모든 간섭 음원의 방향이 필요한 반면 지더라도 ccICA는 가까운 음원의 방향 정보만 필요하다는 것을 수식으로 증명하였으며 실험을 통해서 검증할 수 있다. 이때, 방향 정보에 대한오차를 측정한 결과 ccICA는 +/- 15도 오차에도 가까운 소스를 추출하는 것을 확인 할 수 있었다. 두 알고리즘의 적용 분야로서 dcICA는 거실에서 TV, 스피커와 같이 위치를 알고 있는 경우에 적용할 수 있으며, ccICA는 로봇에 적용하여 카메라를 이용해서 가까운 음원의 방향 정보를 이용할 수 있는 경우에 적용 가능하다. 또한, 간섭 신호가 음성과 다른 음악이나 팬(fan) 노이즈인 경우의 성능을 개선하는 adaptive pre-whitening을 제안하여 추출된 신호의 음질이 향상되도록 하였다.