한국과학기술원 도서관

서지주요정보
Performance improvement of automatic pathological voice quality assessment based on higher-order statistics = 고차 통계량에 기반한 자동 장애 음성 평가알고리즘의 성능 개선
서명 / 저자	Performance improvement of automatic pathological voice quality assessment based on higher-order statistics = 고차 통계량에 기반한 자동 장애 음성 평가알고리즘의 성능 개선 / Ji-Yeoun Lee.
발행사항	[대전 : 한국정보통신대학교, 2008].
Online Access	원문보기 원문인쇄

소장정보

등록번호

DM0001097

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/DS08-19 2008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis presents new parameters based on the HOS (Higher-Order Statistics) analysis to improve the classification performance of a multi-stage pathological voice assessment system. Automatic pathological diagnosis is a field which still demands further investigation mainly due to the difficulty in quantifying or standardizing the speech pathologists' diagnoses. In recent years, various speech signal processing techniques have been proposed and applied for the voice disorder diagnosis. The objective is to quantitatively measure the degree of deviation of the pathological from the normal voice patterns with some acoustic analyses. And, objective supports of the diagnostics have some advantages to be adopted directly into the everyday life rather easily with less cost. Although most of the previous researches made novel contributions to the automatic detection of voice disorders and to voice quality assessment, their achievements are not easy to be compared with each other due to the lack of uniformity. Therefore, it is indispensable to compare the various pattern recognition techniques using a rather authorized disordered voice database. To comply with these necessities, we develop several pattern recognition algorithms which are more efficient and eligible to implement the system and propose some new parameters to improve the classification performance. They are the means, the variances, and the variations of the HOS such as the skewness and the kurtosis. Recently, the applications of the HOS to speech processing have been mainly motivated by the properties of Gaussian suppression and phase preservation. Works in this area are focused on the assumption that the HOS properties of speech are different from those of Gaussian noises. The proposed HOS-based parameters show meaningful differences among normal and pathological voices classified in the GRBAS scale. By employing these new parameters we design and implement the algorithm to classify pathological and normal voices and to assess the pathological voice quality. The performance evaluation shows that classification method based on HOS-based parameters is gracefully improved especially in the sense of the reliability and the consistency compared to other reference algorithms. For the classification between normal and pathological voices, the proposed method based on combination of GMM and skewness yields a best accuracy of 99.1%. And the CART algorithm which uses both the conventional and the HOS-based features produces the highest classification performance of 89.7 and 87.8% for assessments of rough/breathy voices and G-based scaled voices, respectively. Finally, it can be concluded that the proposed algorithm using HOS-based parameters might be rather successfully applicable to real clinical environments.

본 논문에서는 장애 음성 평가 알고리즘의 성능을 개선하기 위하여 고차 통계량 (Higher-order statistics, HOS)에 기반한 새로운 파라미터를 제안하였다. 장애 음성 진단은 음성 전문가들의 진단 평가를 표준화하고 정량화하는 어려움 때문에 여전히 많은 연구가 필요한 분야이다. 현재까지 장애 음성을 객관적으로 진단하기 위해 다양한 음성 신호 처리 알고리즘이 제안되고 응용되어 왔다. 그 목적은 음향학적 분석을 통하여 정상 음성 패턴으로부터 장애 음성 패턴의 편차 정도를 정량적으로 측정하는 것이다. 또한 장애 음성을 객관적으로 진단하는 것은 다소 많은 비용을 들이지 않고 일상생활에서 직접적으로 응용할 수 있는 많은 이점을 가진다. 현재, 다양한 음성 신호 처리 알고리즘을 적용한 많은 종류의 장애 음성 진단 기술들이 제안되고 개선되어 왔다. 하지만 이러한 장애 음성 진단 기술은 데이터베이스, 실험 계획, 그리고 성능 측정 방법 등에서의 일관성 부족으로 쉽게 비교할 수가 없다. 그러므로 가장 기본적인 문제로써 공인된 데이터베이스를 사용하여 다양한 장애 음성 진단 알고리즘을 비교하는 것이 필수적이다. 이러한 필요성에 의해 본 논문에서는 효과적이고 능률적인 장애 음성 진단 시스템을 구현하기 위해, 공인된 데이터베이스를 이용하여 다양한 장애 음성 신호 처리 알고리즘의 성능을 측정하고 새로운 파라미터를 제안하여 그 시스템의 성능을 개선한다. 오랫동안, 객관적이고 자동적인 장애 음성 분류를 위해 음향학적 파라미터에 기반을 둔 많은 연구가 진행되어 왔다. 많은 파라미터 중에서 장애 음성 판별에 중요한 역할을 하는 특징 파라미터로는 pitch, jitter, shimmer, harmonics-to-noise ratio (HNR), normalized noise energy (NNE) 등이 있다. 이 특징 파라미터들은 기본 주파수 (fundamental frequency)에 기반을 두고 장애 음성 분류에 큰 분별력이 있다고 발표되었으나 장애 음성은 성대의 손상으로 인한 가산 잡음 등으로 인해 음성이 왜곡되기 때문에 기본 주파수를 정확하게 구하기가 어렵다. 최근 장애 음성 분류 연구는 다양한 패턴 인식 알고리즘을 이용하여 연구되고 있으며, 이 방법들 중에서 Gaussian mixture model (GMM)이 가장 좋은 성능을 보인다고 발표되었다. 장애 음성은 성대의 불균형적인 움직임과 성대의 불완전한 폐쇄 때문에 불안정하고 비주기적인 피치 변화를 보인다. 또한 성대의 불안정한 움직임에 의한 급격한 기류 변화 때문에 고 주파수의 잡음이 증가되어 바람 빠진 듯한 목소리의 특징을 보이기도 한다. 그와는 반대로, 정상 음성은 주기적이고 안정적인 양상을 띤다. 또한 장애 음성과 상대적으로 피치에 관계된 통계치를 정확하게 추측할 수 있다. 고차 통계량 분석은 가우시안 노이즈를 약화시키고 non-Gaussian 정보의 일부를 보존하는 방법으로 널리 알려져 있다. 즉 고차 통계량 분석은 랜덤 과정에서 다소 성공적으로 non-Gaussian 통계치를 추측할 수 있다. 잡음에 의해 일으켜진 장애 음성의 거친 정도는 가우시안 분포로 모델링 될 수 있고, 반면에 본 논문에서 사용된 모음 /ah/의 음성 신호는 non-Gaussian으로 모델링 될 수 있다. 따라서 고차 통계량 분석이 장애 음성에 응용될 때, 그것은 가우시안 잡음을 약화시킬 수 있으므로 불안정적이고 불연속적인 요소들이 쉽게 추측된다. 본 논문에서는 우선 장애 음성과 정상 음성을 분류하는 연구에 초점을 맞추어, GMM, Linear discriminant analysis (LDA), 그리고 Classification and regression tree (CART) 분석을 이용하여 널리 사용되는 주파수 공간의 특징 파라미터인 멜 주파수 켑스트럼 계수 (mel-frequency cepstral coefficient, MFCC)와 시간 영역의 특징 파라미터인 고차 통계량의 3차와 4차 통계변수인 왜도 (skewness)와 첨도 (kurtosis)를 결합하여 성능을 살펴보았다. 제안한 방법의 성능을 측정하기 위해 kay Elemetrics에 의해 배포된 장애 음성 데이터베이스 (53명의 정상 음성과 600명의 장애 음성)가 본 실험에 사용되었다. 실험 결과, 장애 음성과 정상 음성의 분류에 고차 통계량의 특징 파라미터 결합이 좋은 성능을 보임을 알 수 있었으며, 특히 GMM의 후처리 단계에서 고차 통계량을 이용하여 변별 결정을 내린 경우 99.1%로 최고 성능을 보였다. 두 번째 연구로써, 장애 음성의 장애 정도 (voice quality)를 GRBAS의 R과 B 척도로 분류하는 연구에 초점을 맞추어, 고차 통계량 3차 4차 통계 변수인 왜도와 첨도의 평균과 분산 파라미터를 제안하였다. 일본 음향학회에서 배포한 장애 음성 데이터베이스 (R 척도 30명과 B 척도 23명)와 한국인 정상 음성 (30명)을 추가하여 본 실험에 이용하였다. 실험 결과, 왜도와 첨도의 평균, 분산 파라미터, 그리고 기존 파라미터인 jitter, shimmer, HNR를 이용하여 CART 분석을 이용하여 변별 결정을 내린 경우, 89.7%의 분류 성능을 보였으며, 특히 왜도와 첨도의 평균 파라미터가 성능에 좋은 기여를 보였다. 세 번째 연구로써, 장애 음성의 장애 정도를 GRBAS의 G 척도로 분류하는 연구에 초점을 맞추어, 고차 통계량 3차 4차 통계 변수인 왜도와 첨도의 평균, 분산, 변화율 파라미터를 제안하였다. 일본 음향학회에서 배포한 장애 음성 데이터베이스 (17명의 G1 척도, 26명의 G2 척도, 20명의 G3 척도)와 한국인 정상 음성 (30명)을 추가하여 본 실험에 이용하였다. 실험 결과, 왜도와 첨도의 평균, 분산, 변화율 파라미터, 그리고 기존 파라미터인 jitter, shimmer, HNR를 이용하여 CART 분석을 이용하여 변별 결정을 내린 경우, 87.8%의 분류 성능을 보였으며, 특히 왜도의 분산과 변화율 파라미터가 성능에 좋은 기여를 보였다. 이러한 고차 통계량 기반 파라미터들은 실제 임상 환경에서의 장애음성 분류 알고리즘에 적용할 경우 객관적 평가와 전문 음성 평가자들의 주관적 평가 사이의 타협점을 찾는데 유용한 해결책을 제공할 것으로 기대된다. 본 논문에서는 고차 통계량에 기반한 자동 장애 음성 평가 알고리즘의 성능을 효율적으로 개선하기 위한 방법들을 제안하고 그것들을 적용하여 장애 음성 평가 시스템을 구현하였다. 하지만 아직 추가적인 연구를 통해 개선해야 할 점들로는 다음과 같은 것들을 생각해 볼 수 있다. 제안된 고차 통계량 기반 파라미터들은 장애 음성 진단 및 평가, 예측 시스템 등의 다양한 분야에 적용될 수 있으며, 특히 임상에서 의사의 의사결정 과정을 간접적으로 지원하는 전처리 단계에의 적용에 기대된다. 우리는 이 제안된 기술을 적용하여 실제 환경에서 최적의 성능을 갖는 장애 음성 자동 분류에 대한 충분한 연구가 필요하다. 그리고 본 논문에서 연구된 방법들을 결합하여 장애 음성의 장애 정도를 GRBAS 척도로 정량적으로 구분하는 다단계 (multi-stage) 시스템에 대한 연구가 필요하겠다. 즉 우선적으로 장애 음성과 정상 음성을 구분하고 그 다음 장애 음성의 장애 정도를 1에서 3까지의 점수로 GRBAS로 정량화하는 방법에 대한 연구는 장애 음성을 객관적으로 분류하는 시스템의 성능개선에 많은 도움이 될 것이다. 그리고 장애 음성의 병명을 분류하는 추가적인 연구도 실제 임상 환경에 적합한 장애 음성 분류 시스템의 구현에 많은 도움이 될 것으로 판단된다. 또한 자동 장애 음성 평가 시스템을 실제 임상 환경에 연계하여 동작시켰을 때 그 시스템의 전체적인 성능에 영향을 미치는 요소들에 대한 추가적인 연구도 필요하다고 생각된다. 본 논문에서 제안한 고차 통계량에 기반한 자동 장애 음성 평가 알고리즘은실제 환경에 직접 적용하기에는 아직 부족한 부분들이 있지만, 이러한 알고리즘은 객관적 장애 음성 평가 시스템의 실질적 구현에 대한 충분한 가능성을 보였다고 생각한다.

서지기타정보

서지기타정보
청구기호	{ICU/DS08-19 2008
형태사항	ix, 109 p. : 삽화 ; 26 cm.
언어	영어
일반주기	저자명의 한글표기 : 이지연 지도교수의 영문표기 : Min-Soo Hahn 지도교수의 한글표기 : 한민수
학위논문	학위논문(박사) - 한국정보통신대학교 : 공학부,
서지주기	References : p. 91-98

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서