서지주요정보
음성유닛의 발음적 및 이산적 특성을 통한 멀티모달 언어 처리 및 학습 = Multimodal Language Processing by Employing Phonetic and Discrete Characteristics of Speech Unit
서명 / 저자 음성유닛의 발음적 및 이산적 특성을 통한 멀티모달 언어 처리 및 학습 = Multimodal Language Processing by Employing Phonetic and Discrete Characteristics of Speech Unit / Minsu Kim.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042662

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24050

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

When humans communicate with each other, they naturally utilize multimodal information such as visual, audio, and text information. This multimodal information allows humans to understand better the intent and content of ongoing conversations. This is because the human brain has great knowledge in modeling the relationships among different multimodal features. We explore how can we develop the machine to understand the relationships between different modalities. However, as different modalities have different data forms, it is not easy to develop each data-specific module. For example, audio represents a continuous-time signal, while video or images are 2-dimensional signals that may include optional time information, and text is a discrete signal devoid of temporal characteristics. To extract common representations from the audio speech, visual speech, and text modalities, we explore a discretized speech representation, namely speech unit. The speech unit is obtained by clustering (i.e., discretizing) extracted speech features from a pre-trained self-supervised speech model. As it is discretized, now we can express the continuous audio and visual signals with discrete representations. Moreover, it keeps the information of speech, the phonetic information. By employing the characteristics of speech unit, phonetic and discrete, we show that we can improve different multimodal translation systems, visual speech-to-text translation, speech-to-speech translation, and text-to-speech translation. First, in the visual speech-to-text translation, we show that we can learn general visual speech knowledge without depending on a specific language by using the speech unit, and improve the Visual Speech Recognition (VSR) performance for low VSR resource languages. Second, in speech-to-speech translation and text-to-speech translation, we can train a machine translation system as the text system has done by employing the discrete characteristics of speech units. That is, we treat the speech unit as pseudo text and show that speech-to-speech translation for multiple languages can be possible. The effectiveness of the proposed methods is evaluated with extensive experiments including comparisons with state-of-the-art methods, ablation studies, and qualitative analysis.

인간은 서로 의사소통할 때, 시각, 음성 및 텍스트 정보와 같은 멀티모달 정보를 자연스럽게 활용한다. 이러한 멀티모달 정보는 인간들이 진행 중인 대화의 의도와 내용을 더 잘 이해하도록 돕는다. 이것은 인간의 두뇌가 서로 다른 멀티모달 특징 간의 관계를 모델링하는데 효과적인 능력을 가지고 있기 때문이다. 본 논문에서는 인공지능 모델이 서로 다른 모달리티 간의 관계를 이해하고 모델링할 수 있도록 하는 방법을 탐구한다. 하지만 서로 다른 모달리티는 서로 다른 데이터 형식과 정보를 가지고 있기 때문에 각 데이터별 모듈을 독립적으로 개발하는 것이 일반적이다. 예를 들어, 오디오는 연속 시간 신호를 나타내며 비디오나 이미지는 시간 정보가 있거나 없는 2차원 공간신호이며, 텍스트는 시간적 특성이 없는 이산적인 신호이다. 오디오 음성, 시각 음성 및 텍스트 모달리티에서 공통 표현을 추출하기 위해 우리는 이산화된 음성 표현, 즉 음성 단위를 탐구한다. 음성 단위는 기학습된 자기 감독 음성 모델에서 추출된 음성 특징을 클러스터링하여 얻어진다. 클러스터링을 통해 신호를 이산화하였기 때문에 이제 연속적인 오디오와 시각 신호를 텍스트 모달리티와 같이 이산적인 신호로 표현할 수 있게 된다. 또한, 음성 단위는 발음 특성이라는 음성 정보를 유지한다. 우리는 이러한 음성 단위의 특성을 활용하여, 시각 음성 대 텍스트 변형, 음성 대 음성 번역, 문자 대 음성 번역을 포함하는 멀티모달 변형 시스템을 개선할 수 있다는 것을 보여준다. 먼저, 시각 음성 대 텍스트 변형의 경우, 음성 단위를 사용함으로써 특정 언어에 의존하지 않고 일반적인 시각 음성 지식을 습득하고 저자원 언어에 대한 시각 음성 인식 성능을 향상시킬 수 있다는 것을 보여준다. 두 번째로, 음성 대 음성 번역과 문자 대 음성 번역에서는 음성 단위의 이산적인 특성을 활용하여 텍스트 시스템이 발전해온 것처럼 기계 번역 시스템을 교육할 수 있다. 즉, 우리는 음성 단위를 가상의 텍스트로 취급하고 다중 언어에 대한 음성 대 음성 번역이 가능함을 보여준다. 제안된 방법의 효과성은 최첨단 방법과의 비교, 절제 연구 및 정성 분석을 포함한 광범위한 실험을 통해 평가된다.

서지기타정보

서지기타정보
청구기호 {DEE 24050
형태사항 vi, 63 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김민수
지도교수의 영문표기 : Yong Man Ro
지도교수의 한글표기 : 노용만
수록잡지명 : "Lip reading for low-resource languages by learning and combining general speech knowledge and language-specific knowledge". Proceedings of the IEEE/CVF International Conference on Computer Vision 2023, pp. 15359-15371(2023)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 43-59
주제 Multimodal speech processing
multimodal processing
discretized self-supervised representation
speech unit
visual speech recognition
speech-to-speech translation
text-to-speech translation
멀티모달 음성 처리
멀티모달 처리
이산화된 자기 감독 표현
음성 유닛
음성 토큰
시각적 음성 인식
음성 대 음성 번역
문자 대 음성 번역
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서