Lip reading is to predict the spoken sentence from silent lip movement. However, due to the existence of homophenes that similar lip movement with different sound, lip reading is a challenging task and showing inferior performances than speech recognition. To mitigate the homophenes problem in lip reading, in this paper, we propose a novel Context to Context mapping (C2C) method which is mainly composed of two parts: 1) Audio Context Memory Network is designed to complement insufficient visual information by storing and providing both phoneme- and context-level audio knowledge without audio input during the inference phase, and 2) Visual Feature Decomposition Module (VFDM) is presented to figure out subtle differences in similar lip movements by decomposing visual features into multiple latent features in order to capture the different amounts of temporal information. And reconstructed visual feature from latent features can distinguish subtle difference of lip movement. which also be helpful to reconstruct audio knowledge in viseme to phoneme level due to discriminative visual feature. Through the extensive experiments, we validate the effectiveness of the proposed C2C method achieving state-of-the-art performances on two public word-level lip reading datasets.
독순술은 사람의 입술 변화를 음성을 사용하지 않고 어떤 말을 하는지 예측하는 일이다. 그러나, 같은 입모양을 가지지만 다른 소리로 들리는 호모핀의 존재 때문에, 독순술은 도전적인 과제이고 음성 인식에 비해 좋지 못한 성능을 보여준다. 독순술에서 호모핀 문제를 완화하기 위해서, 이 논문에서 우리는 Context to Context mapping (C2C) 방법을 제안한다. C2C 방법은 두 가지의 주요한 부분으로 구성 되었다. 1) Audio Context Memory Network는 입술 정보의 부족한 점을 보완하기 위해서 음소 정보와 음성 문맥 정보를 저장하고 추론 과정에서 입술 정보와 일치하는 음소 및 문맥 정보를 불러온다. 2) Visual Feature Decomposition Module (VFDM)은 유사한 입술 정보의 미묘한 차이를 구분하기 위해서, 다양한 시간 정보를 포착할 수 있는 더 작은 단위로 분해한다. 그리고 재구성된 입술 정보는 기존 입술 정보에 비해 분별력이 강하고, 음소 단계에서 입술 정보에 해당하는 음성 정보를 불러오는데 도움을 준다. 많은 실험들은 통해서, 우리는 C2C 방법의 효율성을 검증하였고, 문장 기반 데이터 하나와 단어 기반 독순술 데이터셋 두개에서 실험하였으며, 2개의 데이터셋에서 기존 최고 성능과 비교하여 더 나아진 결과를 얻었다.