Speech perception is inherently multimodal. In human communication, visual information is generally utilized and readily integrated with auditory speech. Aligned with human perception, machines can also better comprehend human communication by considering multiple modalities. It has been widely known that using complementary information from different modalities is effective in understanding speech. In this research, we deliver several issues that generally occur in speech understanding techniques and provide solutions with a specific task of speech recognition using multimodal audio-visual information. First, we deal with the issue of human communication in noisy environments. Since the visual information is not affected by noisy environments, we design a noise-robust audio-visual speech recognition system that enhances an input noisy audio speech using audio-visual correspondence. Second, we consider the case where both audio and visual information are corrupted; in real life, clean visual inputs are not always accessible and can even be corrupted by occluded lip regions or noises. We firstly analyze that the previous speech recognition models are not robust to the corruption of multimodal input streams. Then, we design multimodal input corruption modeling and develop an audio-visual speech recognition model that is robust to both audio and visual corruption. Third, we further extend to delve into the challenges from a multilingual viewpoint, where the existing multilingual techniques have been facing a critical problem of data imbalance among languages. Motivated by a human cognitive system that humans can intuitively distinguish different languages without any conscious effort or guidance, we design a model that can capture and recognize which language is given as an input speech. Overall, the proposed research aims to bridge the gaps caused by the insufficiency of certain modalities in communication, allowing for a more comprehensive understanding of human communication processes. The effectiveness of the proposed methods is evaluated with comprehensive experiments.
인간의 의사소통에서 상대방의 음성으로만 대화를 이해하는 것이 아니라, 상대방의 입술 모양, 감정 표현, 그리고 제스쳐 등 시각적 정보의 도움을 받아 말을 이해하고 대화를 이어간다. 실제로, 이미지 처리 연구에 따르면 뇌는 오디오 정보와 비주얼 정보를 비슷하게 취급한다고 한다. 인간 지각과 일치하게, 기계도 여러 모달리티를 고려함으로써 인간간의 소통을 더 잘 이해할 수 있고, 다양한 모달리티로부터 보완적인 정보를 사용하는 것이 인간 음성 이해에 효과적임이 널리 알려져 있다. 본 논문에서는 우리는 음성 인식을 위한 다중 모달리티 오디오-비주얼 정보 활용에 특히 중점을 두어 음성 이해 기술에서 일반적으로 발생하는 여러 문제를 다루고 그에 대한 해결책을 제공한다. 첫째로, 우리는 소음이 있는 환경에서의 인간 의사 소통 문제에 대하여 다룬다. 비주얼 정보는 소음이 있는 환경에 영향을 받지 않으므로 오디오-비주얼 상응을 이용하여 소음이 있는 오디오 음성 입력을 강화하는 노이즈 내성 오디오-비주얼 음성 인식 시스템을 설계한다. 둘째로, 우리는 오디오와 비주얼 정보 모두가 손상된 상황을 고려한다. 현실에서는 깨끗한 비주얼 입력이 항상 이용 가능하지 않으며, 얼굴 입술 부분의 가려짐 또는 잡음에 의해 손상될 수 있다. 이전 음성 인식 모델이 다중 모달 입력 스트림의 손상에 취약점을 가지고 있다는 문제를 분석한 후, 다중 모달 입력 손상 모델링 방법을 도입한다. 그 후, 오디오와 비주얼 손상 양쪽에 강건한 오디오-비주얼 음성 인식 모델을 개발한다. 마지막으로, 언어 간 데이터 불균형 문제를 겪는 기존 다국어 기술을 포괄적으로 다루기 위해 확장된 연구를 제안한다. 인간의 인식 시스템이 어떠한 의식적 노력이나 안내 없이 다른 언어를 직관적으로 구별할 수 있는 능력에서 영감을 받아 언어 인식 모델을 설계한다. 총론적으로, 이 연구는 의사 소통에서 일부 모달리티의 불충분함으로 인한 간극을 줄이고, 인간 소통 과정을 보다 포괄적으로 이해하기 위한 목적으로 제안된 방법의 효과를 포괄적인 실험을 통해 평가한다.