In this work, pitch tracking technique that adopts Bayesian filters and speech/music pitch classification using recurrent neural networks (RNN) for speech segregation from mixtures of speech and competing sounds are proposed. Conventional speech segregation methods use sub-band masking in which the masks are obtained by modulation at the found speech pitch frequency. Segregation performance, therefore, relies heavily on the quality of the pitch estimation. However, pitch estimation is difficult in severe noise environment. In order to improve the accuracy of estimation, we use Bayesian filters which are popularly used in object tracking from noisy videos. Two types of Bayesian filters, particle filter and ensemble Kalman filter, are adopted for tracking the pitch contours. The particle filter uses a simple first-order Markovian process from the past state to the present, and the ensemble Kalman filter adds a linear transition model to the same Markovian model. As speech and music has similar harmonic structures, the conventional speech segregation methods based on sub-band masking perform badly against music interference. Therefore, we propose speech/music pitch classification which adopts RNNs, which are simple recurrent network, long short-term memory (LSTM) and bidirectional LSTM, for modeling the characteristics of the speech pitch and music pitch. The experiment results conducted on mixtures of speech signals and various types of noise and music sound sources show that the proposed methods achieved significantly better segregation performance than the conventional method in most cases. Among all proposed methods, the segregation method with ensemble Kalman filter and bidirectional LSTM achieved the best performance.
본 논문에서는 효과적인 단일채널 음성분리를 위한 베이지안 필터를 사용하는 피치 트랙 수정 방법과 순환신경망을 사용한 음성/음악 피치 분류 방법을 제안한다. 기존의 부밴드 마스킹 기반 음성분리 알고리즘은 추정된 음성피치에 근거하여 음성을 강조하는 음성분리 마스크를 생성한다. 하지만 잡음이 심한 상황에서 음성 피치를 정확히 추정하기 어렵다. 본 연구에서는 잡음환경에서 대상 추적에 특화된 베이지안 필터를 사용하여 피치 트랙 수정을 진행하였다. 파티클 필터와 앙상블 칼만 필터가 사용되었으며, 두 종류의 필터 모두 피치 트랙을 1차 마르코프 과정으로 가정하고 피치 추적을 진행한다. 음성과 음악은 비슷한 하모닉 구조를 가지기 때문에, 기존의 음성분리는 음악이 잡음으로 입력될 경우 안좋은 성능을 보인다. 본 연구에서는 순환신경망을 사용하는 음성/음악 피치 분류 방법을 제안한다. 음성/음악 피치의 특성을 모델링하기 위해 SRN, LSTM, 양방향 LSTM등 순환신경망이 사용되었다. 다양한 잡음을 사용한 성능평가 실험결과 제안한 알고리즘들이 기존 방법보다 더 좋은 성능을 보였다. 또한, 여러 제안한 알고리즘 중, 앙상블 칼만 필터와 양방향 LSTM이 동시에 적용된 음성 분리 방법이 가장 좋은 성능을 보였다.