When humans communicate with each other, they naturally utilize multimodal information such as visual, audio, and text information. This multimodal information allows humans to understand better the intent and content of ongoing conversations. This is because the human brain has great knowledge in modeling the relationships among different multimodal features. We explore how can we develop the machine to understand the relationships between different modalities. However, as different modalities have different data forms, it is not easy to develop each data-specific module. For example, audio represents a continuous-time signal, while video or images are 2-dimensional signals that may include optional time information, and text is a discrete signal devoid of temporal characteristics. To extract common representations from the audio speech, visual speech, and text modalities, we explore a discretized speech representation, namely speech unit. The speech unit is obtained by clustering (i.e., discretizing) extracted speech features from a pre-trained self-supervised speech model. As it is discretized, now we can express the continuous audio and visual signals with discrete representations. Moreover, it keeps the information of speech, the phonetic information. By employing the characteristics of speech unit, phonetic and discrete, we show that we can improve different multimodal translation systems, visual speech-to-text translation, speech-to-speech translation, and text-to-speech translation. First, in the visual speech-to-text translation, we show that we can learn general visual speech knowledge without depending on a specific language by using the speech unit, and improve the Visual Speech Recognition (VSR) performance for low VSR resource languages. Second, in speech-to-speech translation and text-to-speech translation, we can train a machine translation system as the text system has done by employing the discrete characteristics of speech units. That is, we treat the speech unit as pseudo text and show that speech-to-speech translation for multiple languages can be possible. The effectiveness of the proposed methods is evaluated with extensive experiments including comparisons with state-of-the-art methods, ablation studies, and qualitative analysis.
인간은 서로 의사소통할 때, 시각, 음성 및 텍스트 정보와 같은 멀티모달 정보를 자연스럽게 활용한다. 이러한 멀티모달 정보는 인간들이 진행 중인 대화의 의도와 내용을 더 잘 이해하도록 돕는다. 이것은 인간의 두뇌가 서로 다른 멀티모달 특징 간의 관계를 모델링하는데 효과적인 능력을 가지고 있기 때문이다. 본 논문에서는 인공지능 모델이 서로 다른 모달리티 간의 관계를 이해하고 모델링할 수 있도록 하는 방법을 탐구한다. 하지만 서로 다른 모달리티는 서로 다른 데이터 형식과 정보를 가지고 있기 때문에 각 데이터별 모듈을 독립적으로 개발하는 것이 일반적이다. 예를 들어, 오디오는 연속 시간 신호를 나타내며 비디오나 이미지는 시간 정보가 있거나 없는 2차원 공간신호이며, 텍스트는 시간적 특성이 없는 이산적인 신호이다. 오디오 음성, 시각 음성 및 텍스트 모달리티에서 공통 표현을 추출하기 위해 우리는 이산화된 음성 표현, 즉 음성 단위를 탐구한다. 음성 단위는 기학습된 자기 감독 음성 모델에서 추출된 음성 특징을 클러스터링하여 얻어진다. 클러스터링을 통해 신호를 이산화하였기 때문에 이제 연속적인 오디오와 시각 신호를 텍스트 모달리티와 같이 이산적인 신호로 표현할 수 있게 된다. 또한, 음성 단위는 발음 특성이라는 음성 정보를 유지한다. 우리는 이러한 음성 단위의 특성을 활용하여, 시각 음성 대 텍스트 변형, 음성 대 음성 번역, 문자 대 음성 번역을 포함하는 멀티모달 변형 시스템을 개선할 수 있다는 것을 보여준다. 먼저, 시각 음성 대 텍스트 변형의 경우, 음성 단위를 사용함으로써 특정 언어에 의존하지 않고 일반적인 시각 음성 지식을 습득하고 저자원 언어에 대한 시각 음성 인식 성능을 향상시킬 수 있다는 것을 보여준다. 두 번째로, 음성 대 음성 번역과 문자 대 음성 번역에서는 음성 단위의 이산적인 특성을 활용하여 텍스트 시스템이 발전해온 것처럼 기계 번역 시스템을 교육할 수 있다. 즉, 우리는 음성 단위를 가상의 텍스트로 취급하고 다중 언어에 대한 음성 대 음성 번역이 가능함을 보여준다. 제안된 방법의 효과성은 최첨단 방법과의 비교, 절제 연구 및 정성 분석을 포함한 광범위한 실험을 통해 평가된다.