서지주요정보
Semantically-driven cut-and-paste data augmentation strategy for automatic speech recognition = 자동 음성 인식을 위한 의미 중심 컷앤페이스트 데이터 증강 전략
서명 / 저자 Semantically-driven cut-and-paste data augmentation strategy for automatic speech recognition = 자동 음성 인식을 위한 의미 중심 컷앤페이스트 데이터 증강 전략 / Kyusung Seo.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041921

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 24032

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A data augmentation technique involving cut-and-paste operations has garnered significant interest within the field of computer vision because of its straightforward nature and its proven effectiveness in enhancing the ability to generalize. However, applying this method to Automatic Speech Recognition (ASR) tasks poses challenges due to the varying lengths of segments corresponding to specific output tokens such as words or sub-words. Furthermore, if speech segments are combined without regard for their meaning, there is a risk of generating incoherent or nonsensical sentences. In this paper, we introduce a method called WeavSpeech, which addresses these challenges by offering a straightforward yet powerful cut-and-paste augmentation approach for ASR tasks. WeavSpeech weaves together pairs of speech data while taking into account their semantics. This method is universally applicable to languages without requiring language-specific knowledge and can be seamlessly incorporated with other verified augmentation techniques such as SpecAugment. Our research demonstrates the superiority of WeavSpeech on well-known ASR benchmark datasets, including LibriSpeech and WSJ.

컷앤페이스트 방식의 데이터 증강 전략은 단순하지만 효과적으로 모델의 일반화 성능을 높일 수 있어 비전 커뮤니티에서 많은 관심을 받고 있다. 하지만 자동 음성 인식(ASR)에서는 결과 토큰에 해당하는 음성 세그먼트의 길이가 가변적이라는 점으로 인해 이러한 데이터 증강을 그대로 적용하기가 어렵다. 또한 의미를 고려하지 않고 무분별하게 섞인 음성 신호는 무의미한 데이터를 생성할 수 있다. 본 연구에서는 이러한 문제를 해결하기 위해 ASR에서 간단하면서도 효과적인 컷앤페이스트 데이터 증강 전략인 WeavSpeech를 제안한다. WeavSpeech는 원시 음성에서 스피치 세그먼트와 레이블 간의 정렬 정보와 의미적 유사도를 기반으로 데이터를 증폭시킨다. 이러한 특징 덕분에 WeavSpeech는 특정 언어에 대한 사전 지식이 필요 없으며, 멜-스펙트로그램을 이용하는 SpecAugment와 같이 검증된 데이터 증강 기법과 결합하여 추가적인 성능을 향상을 할 수 있다. WeavSpeech는 대표적인 ASR 벤치마크 데이터셋인 LibriSpeech와 WSJ 등을 통해 방법론의 우수성이 검증되었다.

서지기타정보

서지기타정보
청구기호 {MAI 24032
형태사항 iii, 17 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 서규성
지도교수의 영문표기 : Eunho Yang
지도교수의 한글표기 : 양은호
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 15-17
주제 Speech recognition
Data augmentation
Cut-and-paste
Cutmix
Mixup
음성 인식
데이터 증강
컷앤페이스트
컷믹스
믹스업
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서