In this dissertation, we introduce a sub-band feature recombination method and also propose sub-band weighting and sub-band selection. For a more effective feature recombination, the proposed sub-band feature recombination over-comes the ineffective likelihood computation of the conventional feature recombination by using the assumption that each sub-band is independent. In this sub-band feature recombination, sub-band likelihood scores are computed by marginalization from the speaker models given multi-band feature vectors, and it is shown that the performance of this method is shown to be better than the conventional feature recombination for speaker recognition in noisy conditions. For making the sub-band feature recombination more robust to noise, the sub-band weighting and the sub-band selection are proposed. The sub-band weighting coefficients are computed based on the sub-band signal-to-noise ratio which is one of the simple and powerful criteria for sub-band reliability. In the case of applying this sub-band weighting to the sub-band feature recombination, the combination method produces average error reductions of 24.79% and 22.97% over the conventional feature recombination for speaker identification, and also for speaker verification, the average error reduction rates (ERRs) are 29.00% and 24.98% on TIMIT and NTIMIT database. Another method, the sub-band selection, which is based on likelihood scores, is proposed. The likelihood scores can also become a measure of the sub-band reliability. In the case of combining the sub-band selection with the sub-band feature recombination, the error rates are reduced by 25.63% and 9.93% for speaker identification, and for speaker verification, the average ERRs are 30.58% and 25.26% on TIMIT and NTIMIT database, respectively. In previous researches, the relative autocorrelation sequence mel-frequency cepstral coefficient (RAS-MFCC) was proposed as one of the successful features for speaker recognition in noisy environments. However, the conventional RAS-MFCC has two limitations which are the restricted information usage and the residual noise problem. In this dissertation, the multi-streaming approach for dealing with the restricted information problem and the hybrid feature representation method for overcoming the residual noise problem are proposed. In the multi-streaming approach, autocorrelation sequence MFCC is used together with the RAS-MFCC simultaneously to compensate the restricted information problem of the RAS-MFCC. When evaluating this multi-streaming approach, the ERRs are about 15% and 13% over the RAS-MFCC for speaker identification on TIMIT and NTIMIT database, and for speaker verification, the errors are reduced by about 10% and 7% over the RAS-MFCC on TIMIT and NTIMIT database. Furthermore, the hybrid feature representation is proposed and evaluated for speaker recognition. In the hybrid feature representation, the sub-band feature recombination is combined with the multi-streaming approach. In the case of using the hybrid feature representation, the ERRs are 26.96% and 24.15% over the RAS-MFCC for speaker identification on TIMIT and NTIMIT database, and for speaker verification, the errors are reduced by 14.65% and 18.66% over the RAS-MFCC on TIMIT and NTIMIT database. From the experimental results, we know that the proposed sub-band feature recombination method has overcome the drawback of the conventional feature recombination, and as combining the sub-band weight or the sub-band selection, the noise robustness of the sub-band feature recombination become strong. Furthermore, we verify that the multi-streaming approach and the hybrid feature representation also effectively overcome the limitations of the conventional RAS-MFCC.
본 논문에서는 잡음에 강인한 화자인식을 위해 기존의 특징벡터 재결합(feature recombination) 방법이 가지고 있는 전체 특징벡터를 이용한 우도값 (likelihood score) 계산 방법을 marginalization방법을 이용하여 각 서브밴드의 우도값 계산을 가능하게 한 서브밴드 특징벡터 재결합 (sub-band feature recombination)을 제안한다. 뿐만 아니라, 서브밴드 가중치 방법과 신뢰성 높은 서브밴드 선택방법을 제안함으로써 기존의 방법보다 잡음에 보다 강인한 화자인식을 가능하게 하였다. 제안한 서브밴드 가중치방법은 각 서브밴드의 신호 대 잡음비 (signal-to-noise ratio)를 계산한 후, sigmoid 함수를 이용하여 0과 1사이의 값으로 해당 서브밴드에 가중치를 준다. 그리고 신뢰성 높은 서브밴드 선택방법은 테스트 음성을 VAD (Voice Activity Detector)를 이용하여 음성부분과 잡음부분으로 분리 후, 잡음부분으로부터 나오는 잡음 특징벡터들을 MAP (Maximum A Posteriori) 방법을 이용하여 적응형 잡음모델을 생성한다. 생성된 잡음모델과 화자모델의 우도값을 비교하여 신뢰성 높은 서브밴드를 선택한다. 제안된 방법들의 성능을 평가하기 위해 TIMIT database와 NTIMIT database를 사용하였다. 서브밴드 가중치를 서브밴드 특징벡터 재결합방법에 적용하면, 화자인식의 경우는 기존의 특징벡터 재결합방법에 비해 TIMIT database에서 24.79% 그리고 NTIMIT database에서는 22.97%의 에러가 감소하였고, 화자검증에서는 TIMIT 과 NTIMIT database에 대해 29.00% 그리고 24.98%의 에러가 감소하였다. 신뢰성 높은 서브밴드 선택방법의 경우는 TIMIT과 NTIMIT database에 대해 화자식별에서 25.63%와 9.93%의 에러감소율을 보였고, 화자검증에서는 30.58%와 25.26%의 에러가 감소하였다. 본 논문에서는 앞서 설명한 방법들 외에, 기존의 잡음에 강인한 특징벡터인 상대적인 자기상관 계수를 이용한 멜캡스트럼 계수 (RAS-MFCC: Relative Autocorrelation Sequence Mel-frequency Cepstral Coefficient)의 단점을 극복한 multi-streaming approach와 hybrid feature representation을 제안한다. RAS-MFCC는 잡음이 정상 (stationary) 잡음이라는 가정과 시간 필터링 (temporal filtering)을 이용하여 자기상관영역에서 잡음 성분을 제거한 신호를 음성신호 대신 사용하여 특징벡터를 추출한다. 하지만 기존의 RAS-MFCC의 경우는 제한된 정보문제 (restricted information problem)와 잔여잡음문제 (residual noise problem)가 있다. RAS-MFCC추출 시, 시간 필터링된 신호만 사용하기 때문에 발생하는 제한된 정보문제는 자기상관계수를 이용한 멜켑스트럼 계수 (AS-MFCC: Autocorrelation Sequence MFCC)와 RAS-MFCC를 동시에 사용하는 multi-streaming approach를 이용하여 극복하였고, 실제잡음이 비정상잡음 (non-stationary noise) 이므로 정상잡음이라는 가정이 맞지 않아서 생긴 잔여잡음문제는 서브밴드 특징벡터 재결합방법을 multi-streaming approach에 적용한 hybrid feature representation방법으로 극복하였다. 실험결과, multi-streaming approach는 기존의 RAS-MFCC와 비교하여 화자식별에서 TIMIT과 NTIMIT database에서 약 15%와 13%의 에러가 감소하였고, 화자검증에서 약 12%와 9%의 에러를 감소시켰다. Hybrid feature representation는 TIMIT과 NTIMIT database에 대해서 화자식별에서 26.96%와 24.15%의 에러감소율을 보였고, 화자검증에서는 14.65%와 18.60%의 에러가 감소하였다. 실험결과들을 보면, 본 논문에서 제안한 여러 가지 기술들이 기존의 방법들보다 잡음환경에서 우수한 성능을 보여줌을 알 수 있다.