서지주요정보
Monotonic multihead attention via mutually activating heads for online automatic speech recognition = 모노토닉 멀티헤드 어텐션의 헤드-싱크로너스 디코딩 학습을 통한 실시간 음성인식 기법
서명 / 저자 Monotonic multihead attention via mutually activating heads for online automatic speech recognition = 모노토닉 멀티헤드 어텐션의 헤드-싱크로너스 디코딩 학습을 통한 실시간 음성인식 기법 / Jaeyun Song.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036989

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 21021

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Despite the feature of real-time decoding, Monotonic Multihead Attention (MMA) shows comparable performance to the state-of-the-art offline methods in machine translation and automatic speech recognition (ASR) tasks. However, the latency of MMA is still a major issue in ASR and should be combined with a technique that can reduce the test latency at inference time, such as head-synchronous beam search decoding, which forces all non-activated heads to activate after a small fixed delay from the first head activation. In this paper, we remove the discrepancy between training and test phases by considering, in the training of MMA, the interactions across multiple heads that will occur in the test time. Specifically, we derive the expected alignments from monotonic attention by considering the boundaries of other heads and reflect them in the learning process. We validate our proposed method on the two standard benchmark datasets for ASR and show that our consistently trained version of MMA provides a better trade-off between quality and latency.

모노토닉 멀티헤드 어텐션 (MMA) 은 실시간 모델임에도 불구하고 기계번역 및 음성인식에서 최신 비실시간 모델에 준하는 성능을 보인다. 그러나, 여전히 MMA의 지연 시간은 실시간 음성인식에서 주요한 문제이고 이를 완화하기 위해서는 헤드-싱크로너스 빔 서치 디코딩과 같은 테스트 단계에서 지연 시간을 줄여줄 방법을 함께 사용하여야 한다. 헤드-싱크로너스 빔 서치 디코딩은 처음 활성화된 헤드 이후에 정해진 시간 동안 기다린 이후에도 활성화되지 않은 모든 헤드를 강제로 활성화하는 기법으로 테스트 단계에서만 사용되었다. 이 논문은 헤드-싱크로너스 빔 서치 디코딩을 학습 단계로 확장하여 학습 단계와 테스트 단계의 차이를 줄임으로써 이전 기법에 비교해 성능과 지연 시간 사이에서 개선된 절충점을 제공하는 것을 목표로 한다. 구체적으로 말하면, 우리는 다른 헤드의 얼라인먼트까지 고려한 각 헤드의 얼라인먼트의 기댓값을 도출하여 학습 과정에 사용하였다. 두 개의 음성인식 벤치마크 데이터 세트에서 제안한 모델을 평가하였고, 헤드-싱크로너스 디코딩이 학습된 MMA가 학습되지 않은 MMA에 비교해 일관적으로 음성인식 능력과 지연 시간 사이에서 개선된 절충점을 제공하는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 21021
형태사항 iv, 25 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 송재윤
지도교수의 영문표기 : Eunho Yang
지도교수의 한글표기 : 양은호
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 22-23
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서