Automatic Speech Recognition (ASR) is a task that converts a spoken language into written text, and these systems have attained unprecedented performance with large speech models pre-trained based on self-supervised speech representation learning. However, these pre-trained speech models suffer from representational bias as they tend to better represent those prominent accents (i.e., native (L1) English accent) in the pre-training speech corpus than less represented accents, resulting in a deteriorated performance for non-native (L2) English accents. Although there have been some approaches to mitigate this issue, all of these methods require updating the pre-trained model weights. In this paper, we propose Information Theoretic Adversarial Prompt Tuning (INTapt), which introduces prompts concatenated to the original input that can re-modulate the attention of the pre-trained model such that the corresponding input resembles a native (L1) English speech without updating the backbone weights. INTapt is trained simultaneously in the following two manners: (1) adversarial training to reduce accent feature dependence between the original input and the prompt-concatenated input and (2) training to minimize CTC loss for improving ASR performance to a prompt-concatenated input. Experimental results show that INTapt improves the performance of L2 English and increases feature similarity between L2 and L1 accents.
음성인식은 주어진 발화를 자연어의 형태로 변환하는 태스크로, 최근 자기지도학습을 통한 음성 표현 학습 기반의 거대 사전학습 모델을 활용하여 큰 발전을 이루었다. 그러나 이런 사전학습 모델들은 원어민의 발화로 구성된 데이터로 학습되어 표현적 편향이 발생하고 이는 비원어민 발화에 대한 음성인식을 수행에 어려움을 유발한다. 기존 연구들은 비원어민 발화의 음성인식을 위해 모델의 미세조정이 요구되어 원어민 발화에 대한 성능 저하와 거대 사전 학습 모델을 사용함에 따라 계산량의 부담이 커지는 문제점이 발생한다. 본 논문에서는 이를 해결하기 위해 사전 학습 모델의 추가 학습 없이 정보이론 기반의 프롬프트를 활용한 적대적 학습기법을 제안한다. 발화와 함께 입력될 프롬프트는 (1) 기존의 비원어민의 억양과의 상호 정보량 적대적 목적함수와 (2) 음성 인식 성능의 향상을 위한 목적함수 두가지를 결합하여 학습한다. 실험을 통해 제안된 기법이 원어민 발화에 대한 음성 인식 성능을 유지하면서 비원어민 발화에 대한 음성 인식이 개선됨을 보인다.