서지주요정보
Test-time adaptation for automatic speech recognition via sequential-level generalized entropy minimization = 문장 수준의 일반화된 엔트로피 최소화를 통한 음성 인식 모델에 대한 테스트타임 적응
서명 / 저자 Test-time adaptation for automatic speech recognition via sequential-level generalized entropy minimization = 문장 수준의 일반화된 엔트로피 최소화를 통한 음성 인식 모델에 대한 테스트타임 적응 / Changhun Kim.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041924

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 24035

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In real-world scenarios, automatic speech recognition (ASR) models often encounter data distribution shifts, leading to erroneous predictions. To tackle this issue, a recent test-time adaptation (TTA) method has been proposed to adapt the pre-trained ASR model to the unlabeled target domain without source data. Despite decent performance gain, this approach relies solely on naive greedy decoding and performs adaptation across timesteps at the frame level, which may not be optimal given the sequential nature of model outputs. Motivated by this limitation, this thesis introduces a novel Sequential-level Generalized Entropy Minimization (SGEM) framework for general ASR models. To handle sequential output, SGEM first exploits beam search to explore candidate output logits and selects the most plausible one. Then, it utilizes generalized entropy minimization and negative sampling as effective unsupervised objectives to adapt the model. Through extensive experiments, SGEM verifies its state-of-the-art performance across three mainstream ASR models under various distribution shifts.

음성 인식 모델은 실제 배포 환경에서 데이터 분포 변화에 빈번히 노출되며, 이에 따라 모델은 부정확한 예측을 하게 된다. 이러한 문제를 해결하기 위해 이미 학습된 음성 인식 모델을 학습 데이터에 접근하지 않은 채 레이블이 없는 테스트 데이터에 적응시키기 위한 테스트타임 적응 방법이 최근에 제안되었다. 이 방법은 상당한 성능 향상을 이루었지만, 단순한 탐욕적 디코딩에만 의존하고 각각의 타임 스텝에서 독립적으로 모델의 적응을 진행한다. 이러한 테스트타임 적응 방법은 음성 인식 모델 출력의 순차적인 특성을 고려할 때 모델의 전체 출력인 문장 수준에서는 최적이 아닐 수 있다. 이러한 문제에 주목하여 본 논문에서는 일반적인 음성 인식 모델에 적용할 수 있는 테스트타임 적응 프레임워크인 문장 수준의 일반화된 엔트로피 최소화(Sequential-level Generalized Entropy Minimization; SGEM)를 소개한다. 순차적 출력을 고려하기 위해 SGEM은 먼저 빔 서치를 이용하여 후보 출력 로짓을 탐색한 뒤 가장 가능도가 높은 출력 로짓을 선택한다. 선택된 출력 로짓을 바탕으로 SGEM은 일반화된 엔트로피 최소화와 네거티브 샘플링을 비지도 목적 함수로 사용하여 모델의 파라미터를 학습시킨다. 광범위한 실험을 통해 SGEM은 다양한 분포 변화하에서 세 가지 주요 음성 인식 모델에 대해 최고의 성능을 입증한다.

서지기타정보

서지기타정보
청구기호 {MAI 24035
형태사항 iv, 22 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김창훈
지도교수의 영문표기 : Eunho Yang
지도교수의 한글표기 : 양은호
수록잡지명 : "SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization". Conference of the International Speech Communication Association (INTERSPEECH), pp.3367-3371(2023)
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 17-20
주제 Machine learning
Automatic speech recognition
Distribution shift robustness
Test-time adaptation
Beam search
Entropy minimization
Negative sampling
기계 학습
음성 인식
분포 변화 강건성
테스트타임 적응
빔 서치
엔트로피 최소화
네거티브 샘플링
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서