(A) study on the assessment metric for speech foundation models based on minimum description length = 최소 설명 길이를 기반으로 한 음성 기초 모델 평가 지표에 대한 연구
서명 / 저자 (A) study on the assessment metric for speech foundation models based on minimum description length = 최소 설명 길이를 기반으로 한 음성 기초 모델 평가 지표에 대한 연구 / Jahyun Goo.
발행사항 [대전 : 한국과학기술원, 2024].
Automatic speech recognition (ASR), particularly in the context of speech foundation models, has made significant progress in recent years. There are various well-trained models and adequately designed adaptation methods available, making the process of creating an ASR model for a specific domain easier than ever before. However, researchers face the challenge of selecting from a vast number of model and adaptation technique combinationsuited for a specific dataset and task, while considering constraints such as limited resources and time. Adding to this complexity, unsupervised domain adaptation (UDA) poses an issue due to the lack of labeled data for training. Thus, in this thesis, we propose utilizing minimum description length (MDL) as a metric to address this selection problem. MDL is an information-theoretic measure that reflects both model accuracy and training complexity. We suggest it as a solution to efficiently select model and technique combinations for UDA of an ASR model. We conducted proof-of-concept experiments and confirmed that MDL codelength effectively measures the distance between source and target domains, given an ASR model and a task. Additionally, we empirically tested that MDL can effectively select the well-performing combination of models and adaptation techniques. This thesis validates the applicability of MDL and introduces a novel perspective on ASR model selection.

최근 여러 가지 음성 기초 모델의 부상으로 인해 음성인식뿐 아니라 음성처리 분야 전체가 최근 수 년 사이 상당한 발전을 이루었다. 특히 잘 훈련된 다양한 모델이 오픈소스 플랫폼을 통해 공유되고, 섬세하게 설계된 다양한 적응 기법이 제안되면서 특정 도메인에 맞춰진 음성인식 시스템을 만드는 과정이 그 어느 때보다 쉬워졌다고 말할 수 있다. 그러나 연구자들은 제한된 계산 자원과 시간 등의 제약을 고려하면서, 수많은 모델과 적응 기법의 조합 중에서 특정 데이터셋과 작업 분야에 적합한 것을 선택해야 하는 어려움에 직면해 있다. 이러한 복잡성에 더해, 음성인식을 위한 데이터 제작의 어려움이나 저작권 문제 및 개인정보 보호 등의 여러 이유로 인해 비지도 적응에 대한 필요성이 증대되고 있는 추세다. 본 학위논문에서는 이러한, 레이블 없는 상황에서의 모델-적응 기법 선택 문제에 대응하기 위한 성능 평가 지표로 최소 설명 길이를 활용할 것을 제안한다. 최소 설명 길이는 모델 정확도와 학습 복잡도를 모두 반영하는 정보 이론적 척도로, 본 연구에서는 이를 최종 성능을 평가하는 전구체로 활용할 수 있을 것이라고 가정하고 여러 검증을 진행하였다. 우선 개념증명 실험을 통해 원래 환경에서 점진적으로 멀어지는 음향 환경을 구성했을 때, 최소 설명 길이가 이 거리를 잘 반영한다는 것을 보였다. 이후 여러 데이터셋에 대해, 최소 설명 길이가 모델-적응 기법의 선택 문제에 대해 여러 경쟁 가설보다 더 나은 추세를 보임을 확인하였다. 본 학위논문이 음성인식 및 음성처리 분야에서 모델 선택 문제를 소개하고, 이에 대응하는 데 최소 설명 길이를 적용하는 것을 통해 학계에 새로운 관점을 제시하기를 기대한다.


청구기호 {DEE 24045
형태사항 iv, 45 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 구자현
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 37-40
주제 Assessment metric
Automatic speech recognition
Minimum description length
Model selection
Unsupervised learning
모델 선택
모델 평가 지표
비교사 학습
