서지주요정보
Meta-learning for speaker recognition in practical scenarios = 실제 상황에서의 화자인식을 위한 메타학습 방식에 관한 연구
서명 / 저자 Meta-learning for speaker recognition in practical scenarios = 실제 상황에서의 화자인식을 위한 메타학습 방식에 관한 연구 / Seong Min Kye.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037147

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The goal of this thesis is text-independent speaker recognition where utterances come from 'in the wild' scenarios and may contain insufficient or irrelevant information. In other words, we can consider the speaker recognition for practical scenarios as long-short utterance pair and pair-matching problem. To this end, we first introduce a meta-learning framework for imbalance length pairs. Specifically, we use a Prototypical Networks and train the model with a support set of long utterances and a query set of short utterances of varying lengths. Further, since optimizing only for the classes in the given episode may be insufficient for learning discriminative embeddings for unseen classes, we additionally enforce the model to classify both the support and the query set against the entire set of classes in the training set. By combining these two learning schemes, our model outperforms existing state-of-the-art speaker verification models learned with a standard supervised learning framework on short utterance(1-2 seconds) on the VoxCeleb datasets. We also validate our proposed model for unseen speaker identification, on which it also achieves significant performance gains over the existing approaches. Secondly, for the pair-matching problem of speaker verification, we propose Cross Attentive Pooling(CAP) that utilizes the context information across the reference-query pair to generate utterance-level embedding that contains the most discriminative information for the pair matching problem. Experiments are performed on the VoxCeleb datasets in which our method outperforms comparable pooling strategies.

이 논문에서는 실제 상황에서의 문장 독립 화자인식에 관한 내용을 담고 있다. 여기서 실제 상황에서의 화자인식은 화자에 대해 불충분하거나 관련이 없는 정보를 포함할 수 있는 발화들을 사용하는 상황을 의미한다. 이러한 상황에서 화자인식은 불균형 음성 쌍의 문제 또는 쌍을 일치시키는 문제로 해석할 수 있다. 이러한 문제들을 해결하기 위해 먼저 불균형 길이 쌍에 대한 메타학습 방식을 소개한다. 불균형 길이의 음성 쌍의 문제를 다루기 위하여 프로토티피컬 네트워 (Prototypical Networks)를 사용하였고, 서포트 집합을 긴 길이의 발성으로, 쿼리 집합을 가변길이의 짧은 발성으로 두고 모델을 학습시켰다. 또한, 주어진 배치 내에 있는 클래스간의 최적화는 분별력 있는 임베딩 공간을 만들기에 부족할 수 있기 때문에, 추가적으로 다른 길이의 두 집합의 발성을 학습 데이트셋의 전체 클래스에 대해서 추가적인 분류를 진행하였다. 이러한 두 가지 학습 체계를 결합시키므로써, 제안한 모델은 VoxCeleb 데이터셋에서 짧은 발화(1-2초)에 대한 화자인증에서 최고 성능을 달성하였다. 이와 더불어 오픈셋 화자식별 문제에서도 기존의 방식을 뛰어넘는 결과를 나타내었다. 두 번째로 화자인증의 쌍일치 문제를 위해 교차 주의 풀링(Cross Attentive Pooling)을 제안한다. 이 방식은 등록-테스트 발화 쌍의 프레임별 정보를 모두 활용하여 풀링을 하는 방법으로 가장 분별력 있는 프레임을 찾아 더 높은 가중치를 찾는 방식이다. 실험은 VoxCeleb 데이터셋에서 수행하였으며 비교 가능한 풀링 방식의 성능보다 더욱 우수한 성능을 나타내었다.

서지기타정보

서지기타정보
청구기호 {MEE 21011
형태사항 v, 42 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 계성민
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 34-39
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서