서지주요정보
Online speaker segmentation and clustering of spoken documents = 음성 문서의 온라인 화자분할 및 군집화
서명 / 저자 Online speaker segmentation and clustering of spoken documents = 음성 문서의 온라인 화자분할 및 군집화 / Kyung-Mi Park.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022283

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 11006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As a variety of multimedia data such as broadcast news, entertainments, and education materials, are produced every day and spread over the internet, content retrieval technologies have become essential to search and manage such a large amount of data. In relation to this, people are beginning to take interest in spoken document retrieval, as research on speech and speaker recognition has led to major technical breakthroughs with smart devices. Spoken documents contain speech from various speakers and thus speaker diarization or speaker indexing is important for retrieval. Speaker diarization determines how many speakers are included in a given spoken document and partitions the document into homogeneous segments according to each speaker`s identity. This task replies to the question ``Who spoke when?``, whereas speaker recognition addresses the question ``Who spoke?``. Speaker diarization consists of three processes, speech detection, speaker segmentation, and clustering segments. This dissertation proposes online speaker segmentation and clustering technique of spoken documents for speaker diarization system. Speaker segmentation is to find the change point of the speakers so that each segment contains only one speaker`s speech. It has various applications such as a preprocessing task for audio indexing, speaker tracking, information extraction, and so on. The most popular criterion used in unsupervised speaker segmentation is the Bayesian Information Criterion (BIC). Conventional BIC-based speaker segmentation firstly constructs two single Gaussian models for two divided speech streams respectively, in an analysis window, a regular size of speech data shifted over the audio stream. And then, the dissimilarity between the two independent models is estimated according to the BIC principle. This approach has been successfully applied to speaker segmentation. However, it tends to fail to detect speaker changes for short speech segments since it is hard to represent a speaker`s explicit characteristics as a single Gaussian model with a small amount of speech data. To overcome this drawback, we propose an approach using adapted GMMs instead of single Gaussian models. The proposed method is based on GMM adaptation. In speaker segmentation system, the number of speakers in short speech segment which split from test audio stream by an analysis window is small. Considering that the number of speakers contained in an analysis window is limited, we construct the GMM, called `local UBM`, for speech in an analysis window. Local GMM is then adapted to each of two speech streams divided from the corresponding window. Upon the two adapted GMMs obtained from this adaptation, our criterion based on BIC is used to determine if a speaker change occurs at the point dividing the two streams. As the small number of speakers` speeches are used in local UBM generation, the adapted model from the local UBM will be more specialized for the specific speakers contained in the small speaker set. In speaker segmentation experiments based on HUB4, the broadcast news corpus, the proposed method based on local UBM exhibited superior performance compared to the conventional BIC approach. The proposed method is good to apply to an online speaker segmentation because it does not need any additional training data and information about the test data. Speaker clustering is to classify of all speech segments based on speaker voice characteristics. The most popular clustering is agglomerative hierarchical clustering. In hierarchical clustering system, distances among all segments are computed and the closest pair of two segments are merged. The distance computation and merging process is repeated until the closest pair`s distance become larger than predetermined threshold. The method should compute the distances among all segments to find the closest pair of the data until the stopping criterion is met. In online speaker clustering, we cannot get any information about the number of speakers contained in the data and agglomerative hierarchical clustering is not applicable. The leader-follower algorithm was applied to online speaker clustering. It computes distances between new segments and generated clusters. If the distances with the closest cluster is larger than the predetermined threshold, a new cluster is created with the current segment. Otherwise, the segment is merged with the closest cluster. In online speaker clustering, clustering results are very sensitive to the predetermined threshold. Furthermore, since the cluster characteristics are updated continuously, the globally static threshold cannot reflect the changes of clusters. To overcome these limitations, we propose an approach to determine the threshold of each cluster dynamically. For online speaker clustering, intra-GLR, relative-GLR, and a dynamic threshold were proposed. Because cluster characteristics changes dynamically during clustering progresses, predetermined threshold has limitations. We proposed intra-GLR to represent the characteristics of intra-cluster. Based on intra-GLR, we also proposed relative-GLR to measure the relative distance between a segment and a cluster reflecting intra-cluster characteristics. Finally, we proposed dynamic threshold based on relative-GLR. Proposed dynamic threshold is updated based on the varying and continuously changing intra-cluster characteristics. Since the proposed approach uses a dynamic threshold based on relative-GLR, the threshold is updated continuously reflecting the change of cluster characteristics and cluster increases while keeping the original characteristics. In this dissertation, we propose an approach to determine the threshold of each cluster dynamically. The method proposed herein computes the ratio of the generalized likelihood ratio (GLR) to the intra-GLR. And also, we uses the GLR between each cluster and the closest segment in other cluster as a threshold. With this method, the threshold is updated automatically reflecting the characteristics of each cluster. As the value of GLR is influenced by each cluster`s characteristics, proposed method showed superior performances compared to the conventional approach. Moreover, with the increases of the number of segments in each cluster, the boundary of each cluster will be clearer and the threshold will be estimated more accurately. The proposed speaker segmentation and clustering are useful for online speaker diarization without any prior knowledge and data. Experiments based on the broadcast news corpus showed superior performances compared to the previous approaches. It is expected that the proposed segmentation and clustering can be applied to extract the information speakers of spoken documents for speech recognition system and automatic transcription system.

컴퓨팅 파워의 증가와 인터넷의 발달로 인하여 다양한 오디오와 동영상 등의 멀티미디어 데이터에 쉽게 접근이 가능해졌다. 대표적으로 많은 포털 회사들은 동영상 뉴스나 UCC등의 멀티미디어 데이터를 제공하고 있으며 산업체에서는 커뮤니케이션 수단으로 보이스 메일이나 텔레컨퍼런스들을 널리 활용하고 있는 추세이다. 이로 인해 생성되는 데이터의 양은 급격히 증가하고 있으며 이를 효과적으로 관리하기 위해서 화자, 문장 정보 등의 메타데이터를 이용하는 것이 일반적이다. 그러나 생성되는 데이터의 양이 워낙 방대하여 모든 데이터들을 손으로 태깅하거나 스크립트를 추출하는 것은 거의 불가능하며 이러한 메타 데이터를 자동으로 생성하기 위한 기법들이 현재까지 널리 연구되어 왔다. 화자별 색인(speaker diarization)은 이러한 과제를 해결하기 위한 새로운 연구 분야로서 임의의 음성 데이터로부터 발성 화자의 정보를 추출해내는 목적을 지닌다. 이는 ``누가 발성한 음성인지``를 인식해내는 화자 식별 분야와는 달리 ``누가 언제 발성했는지``에 대한 정보를 추출하는 연구 분야이다. 화자별 색인은 크게 음성 데이터의 발성 화자가 변화하는 부분을 찾아내는 화자 분할과 잘려진 각 세그먼트들을 동일한 화자의 발성별로 나누어 분류하는 군집화 과정의 두 가지 단계로 크게 볼 수 있다. 본 연구에서는 적은 양의 데이터만이 입력되었을 때 적용할 수 있는 온라인 화자분할 및 군집화에 관한 연구를 수행하였다. 화자 분할은 화자 색인을 위해 주어진 음성 데이터의 화자 변환 지점을 찾아서 각각의 세그먼트에 한 화자의 발성만이 포함되도록 분할하는 것으로 자동 받아쓰기 시스템, 화자 식별, 정보 추출, 음성 요약 등의 시스템에서 사전 단계에 널리 활용될 수 있다. 기존 화자 분할 연구는 크게 거리 기반과 모델 기반의 두 가지 방법으로 연구되어 왔다. 거리 기반 기법은 두 음성 세그먼트간의 거리 또는 두 음성 세그먼트로부터 생성한 두 개의 모델간의 거리를 기준으로 하여 화자의 변화 지점을 찾는 기법이고, 모델 기반 기법은 음성 데이터에 포함된 화자들의 학습 데이터가 미리 주어진 경우 적용 가능한 기법으로 사전에 학습 데이터로부터 생성된 각각의 화자 모델과 각 음성 세그먼트간의 우도값을 계산하여 최대 우도값을 갖는 모델이 달라지는 지점을 화자의 변화 지점으로 선택하는 기법이다. 일반적으로 모델 기반 기법이 거리 기반 기법보다 좋은 성능을 보이지만, 화자의 수, 음성 데이터의 환경 등의 사전 정보와 화자 모델을 생성하기 위한 학습 데이터가 필요하다는 단점이 있다. 많은 경우에 음성 데이터의 정보 또는 이에 포함된 화자의 정보와 데이터를 사전에 얻기는 어려운 일이어서 이러한 사전 데이터를 활용한 기법은 적용할 수 있는 분야가 제한적이기 때문에 본 논문에서는 보다 다양한 분야에 널리 적용할 수 있는 거리 기반 기법을 활용한 화자 분할 기법을 연구하였다. 본 연구에서는 하나의 가우시안을 활용하여 모델을 구성하는 기존 방법들로는 화자의 음성 특성을 표현하는데 한계가 있다고 판단하여 보다 복잡한 모델을 활용하여 거리를 계산하는 방법을 제안하였다. 화자 분할하려고 하는 데이터들에 대해 데이터의 임의의 부분에 분석 윈도우를 씌워 작게 자르게 되면 그 짧은 음성 데이터에는 단지 몇명의 화자만이 포함되어 있다는 지역적 특성이 존재하게 된다. 이러한 화자의 지역적 특성에 기반하여 본 연구에서는 local UBM (universal background model)에 기반한 모델을 적응하여 각 화자의 세그먼트들을 잘라내는 기법을 제안하였다. local UBM에 기반하여 적응된 각 세그먼트의 모델은 짧은 세그먼트로부터 보다 정확한 모델을 생성할 수 있다는 장점이 있다. 기존의 화자 분할 기법들의 경우 하나의 가우시안 모델을 사용하는 것이 일반적이었으며 GMM을 사용하는 경우도 있었지만 짧은 세그먼트들이 포함되어 있는 데이터에서는 낮은 성능을 보인다는 한계점이 있었다. 또한 UBM으로부터 적응을 통해 모델을 생성하는 경우에는 분할하려는 데이터와 비슷한 환경 특성에 있는 많은양의 데이터를 사전에 이용해야 한다는 한계점이 존재하였다. 제안한 기법은 적은 양의 데이터만이 들어왔을 때도 local UBM을 생성하여 분할하고자 하는 데이터의 특성을 반영한 초기 모델을 생성하여 보다 정확한 화자 모델을 생성할 수 있다는 장점이 있다. 생성된 local UBM은 현재 분할하고자 하는 매우 적은 수의 화자 데이터만을 포함하여 다른 불필요한 데이터가 전혀 포함되지 않아 실제 화자 모델의 특성을 더 많은 비율로 반영할 수 있다는 장점 또한 존재한다. 화자 분할 실험 결과 분석 윈도우 데이터가 증가한다고 해도 성능이 크게 증가하지 않고 오히려 감소하는 것에 비추어 화자의 지역적 특성에 기반한 local UBM이 정확한 화자 모델을 생성하여 분할을 수행했다는 점을 확인할 수 있었다. 잘려진 화자 데이터의 군집화 과정은 모든 데이터 세그먼트들의 모델을 생성하여 서로간의 거리를 모두 계산한 다음 가장 짧은 세그먼트부터 묶어가는 단계적 군집화 과정과, N개의 화자들이 데이터에 포함되어 있다는 등의 사전 정보를 활용하는 방법이 가장 일반적이다. 이와 같은 방법들은 사전에 테스트 데이터에 대한 정보가 필요하거나 모든 데이터들이 들어왔을 때에서야 군집화를 시작할 수 있다는 한계점이 존재한다. 본 연구에서는 적은 수의 세그먼트만이 입력되었을 때 사전 정보 없이 바로 적용할 수 있는 온라인 화자 군집화 과정에 대한 연구를 수행하였다. 몇 개의 세그먼트만이 주어졌을 때 군집화를 수행하기 위해서는 현재까지 존재하는 어떤 클러스터에 포함되는 데이터 세그먼트인지 아니면 새로운 클러스터의 세그먼트인지를 결정하기 위한 임계치 값이 매우 중요하다. 기존의 연구들은 이러한 임계치를 사전에 미리 고정된 값으로 정해두었으나, 클러스터들 간의 거리들은 데이터의 환경이나 특성에 따라 다양하게 변화하기 때문에 사전에 임계치값을 정하는데에는 어려움이 많았다. 이와 더불어, 각 클러스터의 특성은 군집화가 진행됨에 따라 계속적으로 변화한다는 특성도 존재한다. 본 연구에서는 이러한 문제를 해결하기 위해 클러스터의 내부적인 특성을 활용한 변화하는 임계치를 제안하였다. 제안한 방법은 내부적인 GLR (generalized likelihood ratio)을 구하여 새로 들어온 세그먼트와의 GLR과의 상대적인 거리를 계산하여 어떤 클러스터에 포함될 것인지를 결정한다. 이러한 방법을 통해 클러스터의 내부 특성을 반영한 군집화가 가능하기 때문에 각 클러스터는 본래의 특성을 잃지 않고 군집화를 수행해갈 수 있다는 장점이 있다. 이와 더불어, 제안한 방법은 가장 가까운 다른 클러스터 내의 세그먼트와의 거리를 활용하여 각 클러스터의 임계치를 결정한다. 제안한 방법은 임의적인 임계치가 아닌 상대적인 거리를 기준으로 하여 사전 데이터가 전혀 없을때도 보다 정확한 판단의 기준을 설정할 수 있게 한다는 장점이 있다. 또한 클러스터에 데이터가 점차 증가하게 되면 내부적인 GLR과 새로운 세그먼트간의 상대 거리들이 점점 정확하게 업데이트 되어 가기 때문에 클러스터의 경계를 형성하게 된다. 제안한 군집화 방법은 기존의 기법들보다 적은 정보가 제공되었을 때 적용이 가능하며 계속적으로 변화하는 각 클러스터의 내부적인 특성을 동적으로 반영해가기 때문에 고정된 임계치를 사용할 때보다 좋은 결과를 보이는 것으로 나타났다. 제안한 화자 분할 및 군집화 과정은 사전 데이터가 전혀 없는 환경에서 온라인으로 화자별 색인을 하는데 적용할 수 있으며 기존의 방법에 비해 비교적 안정적인 성능을 보인다. 또한 미팅이나 방송뉴스의 실시간 데이터들로부터 화자 정보를 추출해 내는데 활용하여 자동 받아쓰기 시스템이나 음성 인식 시스템과 연동하면 더 다양한 분야에 활용할 수 있을 것으로 생각된다.

서지기타정보

서지기타정보
청구기호 {DCS 11006
형태사항 ix, 67 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박경미
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "GMM Adaptation based Online Speaker Segmentation for Spoken Document Retrieval". IEEE Transactions on Consumer Electronics, v.56.no.2, pp.1123-1129(2010)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 60-64
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서