서지주요정보
Monaural speech segregation based on pitch track correction using bayesian filters = 베이지안 필터를 사용한 피치 트랙 수정 기반 단일채널 음성분리
서명 / 저자 Monaural speech segregation based on pitch track correction using bayesian filters = 베이지안 필터를 사용한 피치 트랙 수정 기반 단일채널 음성분리 / Han-Gyu Kim.
저자명 Kim, Han-Gyu ; 김한규
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032721

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DCS 18021

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

In this work, pitch tracking technique that adopts Bayesian filters and speech/music pitch classification using recurrent neural networks (RNN) for speech segregation from mixtures of speech and competing sounds are proposed. Conventional speech segregation methods use sub-band masking in which the masks are obtained by modulation at the found speech pitch frequency. Segregation performance, therefore, relies heavily on the quality of the pitch estimation. However, pitch estimation is difficult in severe noise environment. In order to improve the accuracy of estimation, we use Bayesian filters which are popularly used in object tracking from noisy videos. Two types of Bayesian filters, particle filter and ensemble Kalman filter, are adopted for tracking the pitch contours. The particle filter uses a simple first-order Markovian process from the past state to the present, and the ensemble Kalman filter adds a linear transition model to the same Markovian model. As speech and music has similar harmonic structures, the conventional speech segregation methods based on sub-band masking perform badly against music interference. Therefore, we propose speech/music pitch classification which adopts RNNs, which are simple recurrent network, long short-term memory (LSTM) and bidirectional LSTM, for modeling the characteristics of the speech pitch and music pitch. The experiment results conducted on mixtures of speech signals and various types of noise and music sound sources show that the proposed methods achieved significantly better segregation performance than the conventional method in most cases. Among all proposed methods, the segregation method with ensemble Kalman filter and bidirectional LSTM achieved the best performance.

본 논문에서는 효과적인 단일채널 음성분리를 위한 베이지안 필터를 사용하는 피치 트랙 수정 방법과 순환신경망을 사용한 음성/음악 피치 분류 방법을 제안한다. 기존의 부밴드 마스킹 기반 음성분리 알고리즘은 추정된 음성피치에 근거하여 음성을 강조하는 음성분리 마스크를 생성한다. 하지만 잡음이 심한 상황에서 음성 피치를 정확히 추정하기 어렵다. 본 연구에서는 잡음환경에서 대상 추적에 특화된 베이지안 필터를 사용하여 피치 트랙 수정을 진행하였다. 파티클 필터와 앙상블 칼만 필터가 사용되었으며, 두 종류의 필터 모두 피치 트랙을 1차 마르코프 과정으로 가정하고 피치 추적을 진행한다. 음성과 음악은 비슷한 하모닉 구조를 가지기 때문에, 기존의 음성분리는 음악이 잡음으로 입력될 경우 안좋은 성능을 보인다. 본 연구에서는 순환신경망을 사용하는 음성/음악 피치 분류 방법을 제안한다. 음성/음악 피치의 특성을 모델링하기 위해 SRN, LSTM, 양방향 LSTM등 순환신경망이 사용되었다. 다양한 잡음을 사용한 성능평가 실험결과 제안한 알고리즘들이 기존 방법보다 더 좋은 성능을 보였다. 또한, 여러 제안한 알고리즘 중, 앙상블 칼만 필터와 양방향 LSTM이 동시에 적용된 음성 분리 방법이 가장 좋은 성능을 보였다.

서지기타정보

서지기타정보
청구기호 {DCS 18021
형태사항 v, 65 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김한규
지도교수의 영문표기 : Ho-Jin Choi
지도교수의 한글표기 : 최호진
공동지도교수의 영문표기 : Yung-Hwan Oh
공동지도교수의 한글표기 : 오영환
수록잡지명 : "Single channel blind source separation based on probabilistic matrix factorisation". Electronics Letters, v.53.no.21, pp.1429-1431(2017)
학위논문 학위논문(박사) - 전산학부,
서지주기 References : p. 56-61
주제 Monaural speech segregation
pitch track correction
particle filter
ensemble Kalman filter
speech/music pitch classification
recurrent neural network
단일채널 음성분리
피치 트랙 수정
파티클 필터
앙상블 칼만 필터
음성/음악 피치 분류
순환신경망
QR CODE qr code