서지주요정보
Speech segregation from music-mixed speech based on pitch prediction = 피치예측에 기반한 음성 음악 혼재 데이터로부터의 음성 분리
서명 / 저자 Speech segregation from music-mixed speech based on pitch prediction = 피치예측에 기반한 음성 음악 혼재 데이터로부터의 음성 분리 / Han-Gyu Kim.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8023173

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 11059

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The natural sound often contains various kinds of sounds that occur simultaneously. Acoustic source separation is a process that separates the sound mixture into several sounds where each of the sound is produced by a single source. Speech enhancement or noise suppression can be made via source separation by extracting the speech from the mixture or separating the noise signal out of the noise-mixed sound. This process is called speech segregation. The enhanced speech will be used in audio analysis such as speech recognition in order to improve the performance of analysis. Generally, we don`t have any information about the acoustic models of the sources in the mixture sound and the separation without any given information is called blind source separation. The blind source separation can be divided into two categories: monaural (or single channel) source separation and multi-channel source separation, according to the number of microphones used for the recording. The monaural blind speech segregation is widely recognized as a difficult problem. A lot of researches have been made to solve the monaural blind speech segregation problem. The most recent approach is the refiltering technique which decomposes the audio signal into the signals belonging to the different channels and masks these signals so that masked signals have more energy of target speech and less energy of interference than the original decomposed signals. The binary mask is generally used to mask the frames of each channel in speech segregation and is usually constructed from the estimated pitch. When the music signal is mixed into the speech signal, the segregation becomes very difficult because the music signal has similar harmonic structure with speech signal. The music signal not only affects the pitch estimation, but also affects the mask construction as automatic speech segregation process often confuses the music signal and the speech signal. In this dissertation, the music pitch detection method and the missing pitch prediction using nearest pitch streak are proposed to solve the problems described above. The music pitch detection uses the difference that music signal often has short time stationary pitch but that most of the natural speech signal has short time fluctuating pitch. That is because most music is composed of a series of notes which have fixed frequency while speech signal is generated when the instable air flow from lung goes through the vocal tract. To find the music dominant period, the variance of short time dominant pitch is used. The missing pitch prediction using nearest reliable pitch streak improves the conventional pitch tracking method which only works well for the continuous pitch. The period with small variance is classified as music dominant period; otherwise, the period is classified as speech dominant period. The missing pitch prediction using nearest reliable pitch streak attempts to find several reliable pitch streaks from the initially estimated pitch contour and predict the whole pitch with all of the streaks while the conventional method predicts missing pitch by only using one streak, the longest streak. By integrating these two methods into the conventional speech segregation system, we propose a robust monaural speech segregation system for music-mixed speech. The source separation experiment for conventional speech segregation system and segregation system with music pitch detection and missing pitch prediction is made to compare the performance of each method. The natural speech sounds from different speakers which are selected from the TIMIT corpus are used in the experiment. Various music signals from different instruments and non-music noise signals are mixed into the speech signals as the input of the speech segregation system. The result shows that the system with two proposed methods works much better than the conventional system in the music-mixed speech signal. Meanwhile, the proposed system shows slightly better performance than the conventional system for the ordinary noise interfered speech signal.

일반적으로 소리는 단독적으로 존재하지 않고 여러 소리가 같이 섞여있는 형식으로 존재한다. 섞여있는 소리를 음원 별로 분리해내는 과정을 음원분리라고 부른다. 음원분리는 잡음이 섞인 목소리에서의 음성강조 혹은 잡음제거에 사용될 수 있다. 음원분리를 통해 목소리를 잡음에서 추출해내는 과정을 음성분리라고 부른다. 음성분리를 통해 얻어진 목소리는 음성인식과 같은 음성신호분석에 사용되어 분석성능 향상에 도움을 주게 된다. 일반적으로 음원분리전에 입력소리에 어떤 음원들의 소리가 섞여있는지 알지 못하며 따라서 각 소리의 음향 모델을 미리 아는 것도 불가능하다. 이 경우의 음원분리를 암묵음원분리라 부른다. 음원분리는 입력소리를 녹음할 때 사용한 마이크의 개수에 따라서 단일채널 음원분리와 다중채널 음원분리로 나뉘어진다. 단일채널 암묵음원분리는 해결하기 어려운 문제로 알려져 있고, 여러 연구가 이루어졌으나 아직까지 만족스러운 결과를 얻지 못하고 있다. 그 동안 암묵음성분리를 위해서 여러 가지 방법이 제안되었다. 가장 최근에 제안된 방법으로는 리필터링 음성분리 방법이 있다. 리필더링 방법에서는 입력신호를 필터뱅크에 통과시켜 주파수 대역폭 별로 여러 신호로 나눈후 각 신호에 마스킹을 해서 음성신호를 분리해낸다. 이때 사용된 마스크는 음성신호의 에너지를 키워주고 잡음의 에너지를 줄이는 역할을 하게 된다. 이런 암묵음성분리 방법에서는 대체로 0과 1로 이루어진 이진 분리 마스크가 사용된다. 이러한 마스크는 각 대역폭 신호의 각 프레임을 0 혹은 1로 마스킹하게 되고 1로 마스킹된 프레임만 최종 음성합성에 사용된다. 이진 분리 마스크를 만들기 위해서 입력신호에서 예측한 음성피치를 사용하게 된다. 음악신호는 음성신호와 비슷한 하모닉 구조를 가지고 있다. 그래서 일반 잡음이 아닌 음악이 잡음으로 들어가게 되면 음성신호분리가 어려워진다. 음악신호와 음성신호가 비슷한 특징을 가지고 있기 때문에 자동음성분리 시스템은 음악신호를 음성으로 "혼동"하게 되고 그로 인해 우선 음성피치의 예측이 어려워지고 마스크를 만드는 과정에도 큰 영향을 받게 된다. 본 논문에서는 위에 서술된 문제점을 해결하기 위해서 음악피치 검출 방법과 높은 신뢰도의 근접 피치궤적을 이용한 미싱 피치 예측이 제안되었다. 음악은 여러 악기들이 악보에 있는 음을 연주함으로써 만들어지기 때문에 짧은 시간 안에서는 피치의 변화가 상대적으로 거의 없는 특징이 있는 반면 목소리는 폐에서 내쉬는 숨이 성도를 지나며 소리가 나기 때문에 성대의 떨림에 따라 짧은 시간 안에도 피치가 동요하는 특징이 있다. 이러한 차이점을 사용하여 음악피치를 검출해낼 수 있다. 짧은 구간 안에 피치의 변화가 거의 없는 구간은 음악으로 분류된다. 짧은 구간 안 피치변화를 측정하기 위해서 구간 안 피치들의 분산값이 사용된다. 분산값이 작으면 음악구간으로 분류되고 그렇지 않으면 음성구간으로 분류가 된다. 높은 신뢰도의 근접 피치궤적을 이용한 미싱 피치 예측은 기존 피치 예측 방법과는 달리 피치가 끊겨져 있는 상황에서도 좋은 성능을 보여준다. 기존의 단일 가신 피치궤적을 사용한 미싱 피치 예측 방법에서는 구한 높은 신뢰도의 피치궤적 중에서 가장 긴 피치궤적만을 사용해서 나머지 피치를 예측한다. 하지만 제안된 높은 신뢰도의 근접 피치궤적을 이용한 미싱 피치 예측은 구해낸 모든 높은 신뢰도의 피치궤적을 사용해서 피치를 예측하게 된다. 위의 두 가지 방법을 기존 단일채널 암묵 음성분리 시스템에 적용하여 음성 음악 혼재데이터에 강인한 음성분리 시스템을 제안하였다. 본 논문에서는 기존 시스템과 제안된 시스템의 성능비교 실험을 실행하였다. TIMIT 음성 DB에서 얻은 여러 화자의 목소리가 실험에 사용되었다. 다양한 악기를 이용한 여러 음악신호가 잡음으로 사용되었으며 음악이 아닌 잡음들도 성능비교를 위한 실험에 사용되었다. 실험결과 단일채널 음원분리와 높은 신뢰도의 근접 피치궤적을 이용한 미싱 피치 예측 두 가지 방법을 같이 사용한 음성분리 시스템은 음성 음악 혼재데이터에서의 음성분리에서 기존 시스템보다 향상된 성능을 보여주었다. 또한 제안된 시스템은 음악이 아닌 일반 잡음이 섞인 상황에서의 음성분리에서도 기존 시스템보다 약간 향상된 성능을 보여주었다.

서지기타정보

서지기타정보
청구기호 {MCS 11059
형태사항 vi, 32 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김한규
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p.29-30
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서