Frequency-domain blind source separation and extraction based on characterization of sounds and mixing channels = 음원과 혼합채널의 특성을 고려한 주파수 영역에서의 신호 분리 및 추출 기법
서명 / 저자 Frequency-domain blind source separation and extraction based on characterization of sounds and mixing channels = 음원과 혼합채널의 특성을 고려한 주파수 영역에서의 신호 분리 및 추출 기법 / Choong-Hwan Choi.
저자명 Choi, Choong-Hwan ; 최충환
발행사항 [대전 : 한국과학기술원, 2012].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

DBiS 12002

휴대폰 전송






Blind Source Separation (BSS) is aiming to separate source signals from a set of mixed signals without prior information about the source signals and the mixing environments. Independent Component Analysis (ICA) is one of the most popular BSS methods based on the statistical independence among sources. For convolutive mixtures, the time-domain ICA algorithms suffer from high computational complexity and slow convergence due to the large number of parameters for convolutive demixing filters. The frequency-domain algorithms overcome these difficulties by solving simpler BSS problems at each frequency bin separately, but have new problems, i.e., scaling indeterminacy and permutation. Independent Vector Analysis (IVA) resolves permutation problem by exploiting dependency among frequency components. In this dissertation, modified version of IVA algorithms are proposed to extract the desired source or to improve the separation performance for various practical environment situations. The desired source to be extracted will be vary depending on the environment situations. Here, we are focusing on two kinds of source of interest. The first one is to extract dominant source to the microphones. The dominant source to the microphones means the source which has the highest power compared to the other source signals from the mixed signals. In general, blind source extraction (BSE) algorithms extract the dominant source in advance. The second one is to extract the closest source to the microphones. Most cases, user is very close to the microphone array and the voice of speaker in front of the robot is much important compare to other source signals. To improve the separation performance, characteristics of the source signals are applied to the IVA model. The valuable signals we are dealing with are mostly speech and music signals. Those signals show harmonic structure in the frequency domain, and strong frequency dependency between harmonic frequency components are used to strengthen the IVA model. To achieve above goals, we have suggested several constraints and new techniques. Contributions of this thesis can be summarized as follows: First one is to introduce a method for selecting a target source of interest from the separated sources. It is slightly different from extracting one source. The target source is assumed to be the closest to sensors among all the other sources regardless of the target source not being the dominant power at the sensors. Our proposed method is a simple method to select the closest source from signals separated by Independent Vector Analysis (IVA). The proposed method is processed in two-stages. Firstly, IVA is used to separate the mixed signals. Secondly, the mixing channel characteristics are used to choose the closest source. The performance of this algorithm is proved by various simulated experiments. However, this algorithm separates all the sources before the selection, so the redundancy of computation occurs. To overcome this problem, we suggest the closeness constraint IVA (ccIVA) later on. Second, a new frequency-domain blind source extraction (BSE) algorithm exploiting dependency among frequency components is introduced. BSE algorithm, which has potential advantage of reduced computation time over BSS, extracts only one source signal from the mixtures. Although blind and semi-blind signal extraction algorithms had been reported to extract a source in time domain, the permutation problem of frequency domain approach becomes more difficult to resolve for BSE. Therefore, only semi-blind approaches with some information on the extracting signal characteristics had been reported. Dependencies between different frequency components are applied to deal with permutation problem in frequency domain approach. The frequency dependency is natural to many real world signals. An important aspect of the proposed algorithm is that it does not requires \textit{a priori} knowledge about the characteristics of sources and mixing channels. Approximated negentropy is used as a cost function to measure non-Gaussianity of extracted signal. Experiments are done by simulated data based on convolutive mixing channels. Experimental results show that proposed algorithm requires shorter computational time in comparison with other approaches. Third, the additional constraint for extracting the signal which has the shortest distance to the microphone is defined from the mixing filters and the learning rule is derived for ccIVA. From the characteristics of the convolutive mixing channel, we have derived a new constraint related to the closeness of sources to the microphones. The closeness constraint is derived using demixing filters and then imposed on the convolutive BSE algorithm in frequency domain approach. The blind source extraction algorithm is based on IVA algorithm and closeness constraint is imposed to extract the closest source to the microphone. We evaluate the performance of proposed ccIVA by various simulated experiments. Experimental results show that ccIVA extracts the closest source, though the closest source power is not dominant in observed signals. Fourth, we derive the update rule for mixing filter in frequency domain. Conventional BSS/BSE algorithm updates demixing filters to separate/extract the sources. To apply the constraints related to the moving source signal, updating mixing filter is more promising. It is because the movement of source is directly related to the mixing filter itself. Fifth, we studied about the properties of mixing channels when the source is moving. Based on the property, modeling the moving constraint needs to be done for further research. With the moving constraints, we might choose the source which is moving. Sixth, an advanced frequency dependence model for IVA is introduced using harmonic clique model. The harmonic clique model for the frequency dependency considers the harmonic structure of speech and music signals by assigning strong dependencies among multiples of fundamental frequencies. The proposed model is more effective in separating music and speech signals than both the original IVA and the sub-band local clique IVA. Various simulated experiment results show that harmonic IVA outperforms the conventional IVA. Finally, multi-frequency resolution (MFR) algorithm to solve the permutation problem in frequency domain BSS is discussed. The basic concept of MFR is using two different frequency resolutions data for solving permutation and scaling problems. Lower frequency resolution data give a solution to determine the alignment of higher frequency resolution data.

암묵신호분리 기법은 혼합된 환경과 혼합되기 이전의 음원신호를 알지 못한채, 오직 혼합된 신호만을 가지고 각각의 음원 신호를 분리하는 기법이다. 독립성분분석 기법(ICA)은 가장 널리 사용된 BSS 알고리즘으로써 음원 신호들이 확률적으로 독립이라는 것을 이용한다. 컨볼루티브 혼합 환경에 대해서, 시간 영역의 ICA 알고리즘은 계산량이 매우 많이 필요하며 컨볼루티브 디믹싱 필터의 파라미터가 많기 때문에 매우 천천히 수렴하게 된다. 따라서 이러한 단점을 극복하기 위하여 주파수 영역의 접근 방법이 제안되었으며, 이 방법은 기본적으로 서로 다른 주파수에 대해서 각각 단순한 BSS 문제를 해결하게 하는 방법이다. 하지만 서로 다른 주파수에 대해서 독립적으로 분리가 이루어지기 때문에, 순서의 뒤바뀜 문제(permutation problem)와 크기의 차이(scale indeterminacy)의 문제가 발생하게 된다. 독립벡터분석 기법(IVA)은 주파수 영역에서의 BSS 알고리즘에서 발생하는 문제를 해결하기 위하여 서로 다른 주파수간에 종속성을 부여하였다. 이 논문에서는, 여러가지 환경에서 원하는 신호를 추출하거나 분리 성능을 향상시키기 위하여 개선된 IVA 알고리즘을 제안하였다. 어떠한 환경에 있느냐에 따라서 추출하고자 하는 신호의 종류는 달라질 수가 있을 것이다. 여기서는 두가지 종류의 음원에 대해서 집중하고자 한다. 첫번째는 마이크로폰에서 측정하였을 때 파워가 가장 큰 신호이다. 즉, 혼합된 신호 가운데서 다른 신호들에 비해서 파워가 가장 높은 신호를 의미한다. 일반적으로 암묵신호추출 기법(BSE)은 파워가 가장 큰 신호를 먼저 추출한다. 두번째는 마이크로폰에서 가장 가까이에 위치한 신호이다. 대부분의 경우에, 사용자는 마이크로폰으로부터 매우 가까이에 위치하고 있으며 로봇으로부터 정면에 있는 사람의 목소리가 다른 신호들에 비해서 중요하다고 여겨지기 때문이다. 분리 성능을 향상시키기 위하여, IVA 모델에 음원 신호의 특성을 반영하였다. 그 이유는 우리가 다루는 신호들은 주로 음성 신호나 음악 신호이기 때문이다. 이 신호들은 주파수 영역의 특성을 살펴보면 하모닉 구조를 보여준다. 이 특성을 이용하여 하모닉 구조 사이에 강한 종속성을 부여하여 기존의 IVA 모델을 강화하였다. 위의 목표들을 이루기 위하여, 몇가지 제한조건과 새로운 기술들을 제시하였다. 본 논문의 기여 내용은 다음과 같이 요약될 수 있다. 첫째로는 분리된 신호로부터 목표로 하는 신호를 선택하는 방법을 소개하였다. 이 방식은 하나의 신호만을 추출하는 것과는 조금 다르다. 목표로 하는 신호는 다른 신호들에 비해서 센서에서 가장 가까이 위치한 신호이며 센서에서 가장 파워가 클 필요는 없다. 우선 독립신호분석 기법을 이용하여 신호들을 분리한 이후에 가장 가까운 신호를 선택하는 방법이다. 제안하는 방법은 크게 두가지 단계로 이루어져있다. 먼저 IVA를 이용하여 혼합된 신호를 각각의 신호로 분리한다. 그 다음으로는 혼합환경의 특성을 이용하여 가장 가까이에 위치한 신호를 선택하는 것이다. 이 알고리즘의 성능을 확인하기 위하여 여러가지 환경에서의 실험을 하였다. 이 알고리즘은 가까운 신호를 선택하기 이전에 관심없는 신호를 포함하여 모든 신호를 분리하기 때문에 계산량에 있어서 손해가 발생한다. 따라서 이러한 문제점을 개선하기 위하여, closeness constraint IVA (ccIVA)를 제안하였고 이에 대해서는 뒤에서 설명할 것이다. 두번째로는 주파수 간에 종속성을 부여함으로써 주파수 영역에서의 암묵신호추출 기법을 새로이 제안하였다. BSS와 비교하였을 때, BSE는 한개의 신호만을 추출하기 때문에 계산량적인 측면에서 장점이 있다. 시간영역에서의 암묵신호추출 기법은 많은 연구가 진행되어 왔지만, 주파수 영역에서의 암묵신호추출 기법은 permutation 문제 때문에 많은 연구가 이루어지지 않고 있다. 추출하고자 하는 신호의 정보들을 활용하여 신호들을 추출하는 기법들이 발표되긴 하였다. 하지만 이 방법들은 엄밀히 말해서 완전한 암묵신호추출 기법은 아니다. 따라서 신호의 정보를 사용하지 않고 보다 일반적으로 적용이 가능한 주파수 영역에서의 암묵신호추출 기법을 제안하였다. 서로 다른 주파수 사이에 종속성을 부여하여 permutation문제를 해결하였다. 이렇게 다른 주파수 사이에 종속성을 부여하는 것이 성공한 이유는 세상의 많은 신호들이 주파수 사이에 종속성이 존재하기 때문이다. 제안한 알고리즘은 기존의 암묵신호분리 기법과 마찬가지로 신호와 혼합채널의 특성에 대해서 알 필요가 없기 때문에 보다 일반적인 방법이라고 할 수 있다. 추출된 신호의 non-Gaussianity를 측정하기 위하여 근사화된 negentropy를 목적함수로 사용하였다. 여러가지 컨볼루티브 혼합 환경에서의 실험을 통하여 제안된 알고리즘의 성능을 확인하였다. 실험 결과를 통해서 다른 접근방법에 비해서 더 짧은 계산시간이 소요된다는 것을 보여주었다. 세번째로는 마이크로폰에서 가장 가까운 거리에 있는 신호를 뽑기 위한 제한 조건을 제시한 것이다. 이 제한 조건은 혼합채널의 특성으로부터 정의되었으며, 주파수 영역에서의 BSE 알고리즘에 삽입되어 새로운 알고리즘인 ccIVA 알고리즘을 위한 학습법칙도 유도되었다. 마이크로폰으로부터 가까운 거리에 위치한 신호의 컨볼루티브 혼합 채널의 특성을 이용하여 새로운 제한 조건을 유도하였다. 암묵신호추출 알고리즘은 기본적으로 IVA 알고리즘과 유사하며, 가까운 제한 조건을 부가하여 마이크로폰에서 가장 가까운 신호를 뽑을 수 있었다. 여러가지 실험환경을 통하여 ccIVA의 성능평가를 수행하였다. 여러 실험을 통하여 가까운 신호가 가장 큰 파워를 가지지 않더라도 ccIVA는 가장 가까운 신호를 추출하는 것을 보일 수 있었다. 네번째로는 주파수 영역에서의 혼합 필터에서의 학습 법칙을 유도하였다. 기존의 BSS/BSE 알고리즘은 신호를 분리/추출하기 위해서 분리 필터에서 학습법칙이 유도된다. 움직이는 신호에 대한 제한 조건을 적용하기 위해서는 분리 필터에 대해서 유도된 학습법칙을 사용하는 것보다 혼합 필터에 대해서 유도된 학습법칙을 사용하는 것이 더 효율적이다. 그 이유는 혼합 필터가 음원이 움직임과 직접적인 관계가 있기 때문이다. 다섯번째로 음원 신호가 움직이는 경우에 대해서 혼합채널의 특성이 어떻게 변화하는지에 대해서 연구하였다. 그 특성에 기초하여 움직이는 신호에 대한 제한 조건을 정의하고 학습법칙을 유도하는 것은 앞으로 할 연구 중에 하나가 될 것이다. 아직 구현은 하지 못했지만, 움직이는 신호에 대한 제한 조건을 이용한다면 분리된 신호 중에서 어떤 신호가 움직이는지 고정인지 알 수도 있을 것이고, 움직이는 신호만을 추출할 수도 있을 것이다. 여섯번째로는 하모닉 클릭 모델을 이용하여 보다 향상된 IVA의 주파수 종속 모델을 제안하였다. 하모닉 클릭 모델은 음성과 음악 신호가 가지고 있는 하모닉 성분 사이의 강한 종속성을 활용한 모델이다. 기존의 IVA 주파수 모델과 비교하였을 때, 음악과 음성 신호를 분리하는데 있어서 제안된 모델은 향상된 분리성능을 보여주었다. 다양한 모의 실험에서 하모닉 IVA가 기존의 IVA의 성능을 압도하였다. 마지막으로 주파수 영역의 BSS에서 발생하는 permutation 문제를 다주파수 해상도(MFR) 알고리즘을 이용하여 해결할 수 있는 방식에 대해서 논의하였다. MFR 알고리즘의 기본 개념은 서로 다른 두개의 주파수 해상도를 이용하여 permutation과 scaling 문제를 해결하고자 하는 것이다. 낮은 주파수 해상도의 데이터를 이용하여 높은 주파수 해상도의 데이터를 제대로 배열할 수 있다.


청구기호 {DBiS 12002
형태사항 ix, 109 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최충환
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
수록잡지명 : "Blind source separation of speech and music signals using harmonic frequency dependent independent vector analysis". IET Electronics Letters, 게재 예정,
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 97-104
주제 Blind Source Separation
Blind Source Extraction
Independent Vector Analysis
Mixing Channel Characteristics
혼합채널의 특성
QR CODE qr code