서지주요정보
C2C : context to context mapping with audio-knowledge for lip reading = 음성 지식을 활용한 문맥 정보 기반 독순술
서명 / 저자 C2C : context to context mapping with audio-knowledge for lip reading = 음성 지식을 활용한 문맥 정보 기반 독순술 / Jeong Hun Yeo.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039863

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22132

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Lip reading is to predict the spoken sentence from silent lip movement. However, due to the existence of homophenes that similar lip movement with different sound, lip reading is a challenging task and showing inferior performances than speech recognition. To mitigate the homophenes problem in lip reading, in this paper, we propose a novel Context to Context mapping (C2C) method which is mainly composed of two parts: 1) Audio Context Memory Network is designed to complement insufficient visual information by storing and providing both phoneme- and context-level audio knowledge without audio input during the inference phase, and 2) Visual Feature Decomposition Module (VFDM) is presented to figure out subtle differences in similar lip movements by decomposing visual features into multiple latent features in order to capture the different amounts of temporal information. And reconstructed visual feature from latent features can distinguish subtle difference of lip movement. which also be helpful to reconstruct audio knowledge in viseme to phoneme level due to discriminative visual feature. Through the extensive experiments, we validate the effectiveness of the proposed C2C method achieving state-of-the-art performances on two public word-level lip reading datasets.

독순술은 사람의 입술 변화를 음성을 사용하지 않고 어떤 말을 하는지 예측하는 일이다. 그러나, 같은 입모양을 가지지만 다른 소리로 들리는 호모핀의 존재 때문에, 독순술은 도전적인 과제이고 음성 인식에 비해 좋지 못한 성능을 보여준다. 독순술에서 호모핀 문제를 완화하기 위해서, 이 논문에서 우리는 Context to Context mapping (C2C) 방법을 제안한다. C2C 방법은 두 가지의 주요한 부분으로 구성 되었다. 1) Audio Context Memory Network는 입술 정보의 부족한 점을 보완하기 위해서 음소 정보와 음성 문맥 정보를 저장하고 추론 과정에서 입술 정보와 일치하는 음소 및 문맥 정보를 불러온다. 2) Visual Feature Decomposition Module (VFDM)은 유사한 입술 정보의 미묘한 차이를 구분하기 위해서, 다양한 시간 정보를 포착할 수 있는 더 작은 단위로 분해한다. 그리고 재구성된 입술 정보는 기존 입술 정보에 비해 분별력이 강하고, 음소 단계에서 입술 정보에 해당하는 음성 정보를 불러오는데 도움을 준다. 많은 실험들은 통해서, 우리는 C2C 방법의 효율성을 검증하였고, 문장 기반 데이터 하나와 단어 기반 독순술 데이터셋 두개에서 실험하였으며, 2개의 데이터셋에서 기존 최고 성능과 비교하여 더 나아진 결과를 얻었다.

서지기타정보

서지기타정보
청구기호 {MEE 22132
형태사항 iii, 22 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 여정훈
지도교수의 영문표기 : Yong Man Ro
지도교수의 한글표기 : 노용만
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 16-20
주제 Lip Reading
Visual Speech Recognition
Context to Context Mapping
Visual Feature Decomposition
독순술
멀티모달 러닝
오디오-비주얼 문맥 정보 연결
메모리
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서