서지주요정보
Local Binary Pattern을 이용한 화자종속 영상음성인식 = Speaker dependent visual speech recognition using local binary pattern
서명 / 저자 Local Binary Pattern을 이용한 화자종속 영상음성인식 = Speaker dependent visual speech recognition using local binary pattern / 주정우.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8025098

소장위치/청구기호

학술문화관(문화관) 보존서고

MPD 13003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Audio-based speech recognition (ASR) system has shown a satisfying performance recently, but its recognition rate rapidly decreases when the audio signal is degraded by acoustic noise which is one of the limitations of ASR. For example, running ASR system inside a car having a lot of noise source (engine, aerodynamic noise and tire) and making sense of a particular person`s speech among crowded people show the limitation of ASR. To tackle this problem, supplementary information should be added to the speech recognition system. In general, a speech is generated by articulators such as tongue, vocal tract and lip which is a highly observable organ. Hence, speaker utterance is partly interpretable from lip movements. For this reason, a lot of works have studied on how to integrate the visual signal and audio signal to enhance speech recognition performance. In this paper, we focus on speech recognition using visual signal obtained from lip movement. A sequence data containing lip first undergoes the elimination process to exclude frames corresponding to non-speaking lip. Theses sequences are normalized with respect to time axis to meet the specified number of frames. The normalized sequences are divided into a number of volumes such that each volume includes a particular lip motion. A feature extraction is conducted individually in each volume using two different features that describes motion, Volume Local Binary Patterns(VLBP) and Local Binary Pattern from three orthogonal planes (LBP-TOP). Classification is done in two different ways. To produce a strong classifier using weak classifiers which are running on individual volumes, Multi-class Adaboost is adopted. Moreover, another new classifier based on least square method is invented that operates on all volumes. We evaluate the suggested methods on OuluVS database which is the most recently available dataset. The experiments were conducted on all possible combination of classifier and a type of feature. Experimental results showed that LBP and least square combination revealed the highest performance, while VLBP and Multi-class pair is the lowest one. Furthermore, it suggests that our algorithm is sensitive to the boundary detection between speaking mouth and non-speaking mouth in terms of performance. For accurate recognition, exact localization between them is strongly required.

소리음성인식은 최근에 매우 만족스러운 성능을 제공하고 있다. 하지만 소리신호가 소음에 의해 오염된 정도에 따라 인식률이 떨어지는 결과가 나온다. 이는 소리음성인식의 가장 큰 취약점중의 하나이다. 예를 들어, 자동차 내 외부에서 나오는 소음들(엔진, 타이어, 공기역학적 소음) 안에서 운전자의 음성을 인식한다거나, 운집한 사람들 사이에서의 특정한 사람의 음성인식은 소리기반 음성인식의 성능이 저하되는 대표적인 상황이다. 이 문제를 해결하기 위해 소음에 영향을 받지 않는 영상정보가 보조역할로 추가가 되어야 한다. 보통 음성은 조음기관(혀, 성대, 입술)을 통해서 생성되는데, 그 중 입술은 매우 관측이 잘되는 기관이다. 그래서 화자의 음성은 부분적으로 입술의 움직임을 통해 추측이 가능하다. 이러한 이유 때문에 많은 연구들이 소리신호와 영상정보를 융합하여 최종 음성인식을 수행하는 데에 주력하였다. 본 논문에서는 입술의 영상정보를 이용해서 영상음성인식을 목적으로 한다. 먼저 입술의 시퀀스 데이터는 말하는 입과 말하지 않는 입으로 구분하고, 시간 축으로 표준화 작업을 거친다. 이 작업을 마친 데이터는 여러 개의 볼륨으로 나뉘어 VLBP 와 LBP-TOP 특징 점이 각각 추출된다. 분류단계에서는 다중클래스 아다부스트와 리스트 스퀘어 방식으로 분류하는 두 가지 기법이 제안된다. 실험단계에서는 OuluVS 데이터베이스에서 성능시험을 하였다. 실험결과상 LBP-TOP 과 리스트스퀘어의 조합이 가장 좋은 성능을 나타내었고, 반대로 VLBP 와 다중클래스 아다부스트 쌍으로 실험한 성능은 매우 낮았다. 또한, 여기서 제안된 알고리즘은 말하는 입과 말하지 않는 입에 해당하는 프레임을 얼마나 정확히 검출하느냐에 따라 성능 면에서 매우 민감한 성질을 갖고 있다.

서지기타정보

서지기타정보
청구기호 {MPD 13003
형태사항 v, 32 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Jeong-Woo Ju
지도교수의 한글표기 : 김준모
지도교수의 영문표기 : Jun-Mo Kim
학위논문 학위논문(석사) - 한국과학기술원 : 미래자동차학제전공,
서지주기 참고문헌 : p. 29-30
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서