서지주요정보
Deep learning based approach for enhanced non-native speech recognition = 비원어민의 음성인식 향상을 위한 딥러닝을 활용한 접근법
서명 / 저자 Deep learning based approach for enhanced non-native speech recognition = 비원어민의 음성인식 향상을 위한 딥러닝을 활용한 접근법 / Eunseop Yoon.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041298

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23133

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Automatic Speech Recognition (ASR) is a task that converts a spoken language into written text, and these systems have attained unprecedented performance with large speech models pre-trained based on self-supervised speech representation learning. However, these pre-trained speech models suffer from representational bias as they tend to better represent those prominent accents (i.e., native (L1) English accent) in the pre-training speech corpus than less represented accents, resulting in a deteriorated performance for non-native (L2) English accents. Although there have been some approaches to mitigate this issue, all of these methods require updating the pre-trained model weights. In this paper, we propose Information Theoretic Adversarial Prompt Tuning (INTapt), which introduces prompts concatenated to the original input that can re-modulate the attention of the pre-trained model such that the corresponding input resembles a native (L1) English speech without updating the backbone weights. INTapt is trained simultaneously in the following two manners: (1) adversarial training to reduce accent feature dependence between the original input and the prompt-concatenated input and (2) training to minimize CTC loss for improving ASR performance to a prompt-concatenated input. Experimental results show that INTapt improves the performance of L2 English and increases feature similarity between L2 and L1 accents.

음성인식은 주어진 발화를 자연어의 형태로 변환하는 태스크로, 최근 자기지도학습을 통한 음성 표현 학습 기반의 거대 사전학습 모델을 활용하여 큰 발전을 이루었다. 그러나 이런 사전학습 모델들은 원어민의 발화로 구성된 데이터로 학습되어 표현적 편향이 발생하고 이는 비원어민 발화에 대한 음성인식을 수행에 어려움을 유발한다. 기존 연구들은 비원어민 발화의 음성인식을 위해 모델의 미세조정이 요구되어 원어민 발화에 대한 성능 저하와 거대 사전 학습 모델을 사용함에 따라 계산량의 부담이 커지는 문제점이 발생한다. 본 논문에서는 이를 해결하기 위해 사전 학습 모델의 추가 학습 없이 정보이론 기반의 프롬프트를 활용한 적대적 학습기법을 제안한다. 발화와 함께 입력될 프롬프트는 (1) 기존의 비원어민의 억양과의 상호 정보량 적대적 목적함수와 (2) 음성 인식 성능의 향상을 위한 목적함수 두가지를 결합하여 학습한다. 실험을 통해 제안된 기법이 원어민 발화에 대한 음성 인식 성능을 유지하면서 비원어민 발화에 대한 음성 인식이 개선됨을 보인다.

서지기타정보

서지기타정보
청구기호 {MEE 23133
형태사항 v, 35 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤은섭
지도교수의 영문표기 : Changdong Yoo
지도교수의 한글표기 : 유창동
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 27-32
주제 Automatic speech recognition
Prompt tuning
Domain adaptation
음성 인식
프롬프트 튜닝
도메인 적
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서