서지주요정보
On-line speech enhancement by time-frequency masking under prior knowledge of source location = 소스 위치의 선행 정보를 이용한 시간-주파수 마스킹 기반 온라인 음성 개선
서명 / 저자 On-line speech enhancement by time-frequency masking under prior knowledge of source location = 소스 위치의 선행 정보를 이용한 시간-주파수 마스킹 기반 온라인 음성 개선 / Min-Ah Kang.
저자명 Kang, Min-Ah ; 강민아
발행사항 [대전 : 한국정보통신대학교, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000956

소장위치/청구기호

문지도서관2층 학위논문

ICU/MS08-01 2008

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

In this thesis, the target source extraction system using the constraint on the source location is proposed for speech enhancement. The generalized sidelobe canceller(GSC) is considered as the most feasible conventional system because of its simplicity and capability of source extraction. But it has the trade-off between the sound quality and the noise reduction capacity. In case of the high learning rate, although noises are reduced well, the sound quality is good in the low learning rate. The blind source separation(BSS) is also used to extract the target signal. because the independent component component analysis (ICA)-based BSS is effective. But, It is impractical in real environments because of its clustering technique. Also, it is poor in various noise environments including music noises. The proposed system uses the TF masking technique which is one of the BSS methods. Our proposed TF masking technique compensates the shortage of the conventional TF masking technique. It becomes useful and feasible under the constraint on the source location. And our proposed system can run on-line and is possible to extract only the frontal target source corrupted by noise sources, pretty well. The performance of our proposed technique was evaluated by the perceptual evaluation of speech quality (PESQ) score for noisy sentences recorded in real environment. We confirmed that the proposed system increased the PESQ score as 0.4 compared to the conventional system which increased as 0.06 and 0.1 in speech and music noise environments, respectively.

유비쿼터스의 환경 하에서 음성 인식은 사람과 기계간의 인터페이스를 위해 유용한 기술로서, 지능형 로봇, 음성기방 네비게이션 시스템 및 일반 전자 제품등 많은 분야에서 이용될 수 있다. 하지만, 실제 잡음 환경에서 신뢰할 수 없는 성능 때문에, 아직 기대만큼 활용되지 않고 있다. 또한 음성 부호화기는 음성 통신 시스템에서 매우 중요한 부분이다. 음성 부호화기에서 정확한 피치 검출은 전송률을 감소시킬 수 있을 것이다. 음성을 개선 시킴으로써 이러한 음성인식률을 증가시킬 수 있고, 정밀한 음성 검출이 가능하다. 즉, 이는 잡음을 제거하여 신호의 질을 향상시키는 과정과 관련된다. 잡음에는 1~2초간 주파수 특성이 변하지 않는 정적 잡음과 매 순간 변하는 비정적 잡음이 있다. 정적 잡음 제거는 위너 필터와 칼만 필터를 이용하는 알고리즘 비롯하여 많은 연구가 이루어져왔다. 하지만 비정적 잡음 제거는 아직 미흡한 실정이다. 비정적 잡음은 음성과 음악 신호들로 이루어져 있기 때문에, 원하는 음성만 남기고 이들을 제거한다는 것은 잡음이 섞인 소리에서 원하는 음성만 추출해 낸다는 것과 일맥 상통한다. 이러한 점에서 비정적 잡음제거는 목적 신호 추출이라고 불린다. 최근에 이러한 목적 신호 추출 기술로서 마이크로폰 어레이 기반 음성 개선이 각광을 받고 있다. 기존 알고리즘으로 GSC 가 효율성과 단순성 측면에서 가장 실용적 알고리즘이다. 하지만 이것의 성능은 한계가 있다. 학습률이 높을수록 잡음은 잘 제거 되지만 음성을 열화 시키고, 낮을수록 음질은 좋아지지만 잡음은 남아 있게 되기 때문이다. 한편, 목적 신호 추출에 기존의 음원 분리 알고리즘도 이용될 수 있다. 음원 분리는 크게 두 가지 방법으로 접근한다. ICA 기반 알고리즘은 오랫동안 많은 연구가 이루어진 기술이지만, 소스의 개수가 마이크로폰의 개수보다 많은 상황에서 성능이 좋지 않다. 또한 온라인으로 작동하기 위해서는 긴 버퍼링이 필요한다. 이는 긴 시간 지연을 초래한다. 따라서 최근에는 ICA 보다는 시간-주파수 마스킹 기반 알고리즘이 주로 쓰인다. 기존의 시간 주파수 마스킹 기반 알고리즘은 채널간의 이득차이와 시간지연차이를 변수화하여 그룹화 하는 방법이다. 그러나 이 그룹화 방법이 실제 환경에서 작동하기에 비실용적이다. 또한 이 알고리즘은 분리하고자 하는 음원들이 시간-주파수 영역에서 겹치지 않다는 가정하에 작동하므로 비교적 분리된 영역을 갖는 음성 신호들끼리는 분리가 잘 되지만, 음악 신호를 포함하는 잡음환경에서는 성능이 좋지 않다. 본 논문에서는 소스 위치에 대한 선행 정보를 줌으로써 이러한 기존 시간-주파수 마스킹 기반 알고리즘의 단점을 보완한 개선된 알고리즘을 제안하였다. 즉, 우리가 제안한 목적 신호 추출 시스템은 다양한 실제 잡음 환경에서 정면으로 들어오는 신호만을 비교적 완벽하게 추출한다. 또한 온라인으로 쉽게 작동한다. 우리는 PESQ 측정을 통해 제안된 시스템의 결과 두드러지게 향상된 음성을 보여주었다. 여기서 이퀼라이저를 적용하면 성능이 더 좋아짐을 확인했고, hand-decision 방식으로 마스크를 만들었던 방법 대신 soft-decision 방식으로 만들면서 음성 잡음 환경에서는 약 10% 음악 잡음 환경에서는 약 5%정도 더 개선된 성능을 보여주었다. 결론적으로 이퀄라이저를 적용하고, Soft decision 방식의 시간-주파수 기반 시스템이 최적의 제안된 시스템이다. 이 제안된 시스템의 성능을 기존의 GSC의 성능과 비교하였을 때, 음성 잡음 환경에서는 약 6배 정도 좋고, 음악 잡음 환경에서는 약 4배 정도 좋아졌다. 이는 GSC 는 잡음 제거 과정에서 음성을 많이 왜곡 시키기 때문이다. 우리의 시스템은 많은 분야에서 선처리기로 사용될 수 있다. 또한 적은 계산량을 요구하기 때문에 온라인으로 작동하는 시스템의 구현에서 유리하다. 따라서 핸드폰, 네비게이션, 핸즈프리, 음성인식이 쓰이는 로봇 등에 적절하게 구현될 수 있고, 음성 부호화기에도 유용하게 쓰일 수 있다. 향후 연구로서, 이쿼라이저의 적응과정을 추가함으로써 성능을 더욱 높일 것이다. 또한 실제로 음성 부호화기와 음성인식 시스템에 적용해 볼 예정이다.

서지기타정보

서지기타정보
청구기호 {ICU/MS08-01 2008
형태사항 viii, 50 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 강민아
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(석사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 45-47
주제 Speech Enhancement
Noise Reduction
Filter
Beamforming
BSS
음성개선 --음제거 --터 --포밍 --호분리
QR CODE qr code