서지주요정보
Multimodal speaker identification using deep neural network = 깊은 신경망을 이용한 멀티모달 화자 인식 알고리즘
서명 / 저자 Multimodal speaker identification using deep neural network = 깊은 신경망을 이용한 멀티모달 화자 인식 알고리즘 / Jinwoo Jeon.
저자명 Jeon, Jinwoo ; 전진우
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030696

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 17087

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Speaker identification is fundamentally important for the various purposes such as home device, surveillance or authorization. The main difficulty of speaker recognition is to improve the robust identification accuracy. In this paper, we present a multimodal method based on deep neural networks for speaker identification by using both face recognition and voice identification. Our proposed multimodal model shows more robust speaker identification performance. As a face recognition, we use a convolutional neural network, especially VGG Face descriptor networks. For voice identification, we use Gaussian Mixture Model based on i-vector. After feature extraction, feature vectors from each face and voice information are concatenated and trains multimodal deep neural network in order to get 1024-dimension multimodal embeddings. We validate the performance of our model by new dataset which consists of 281 TED videos. The multimodal DNN model depicts more reliable identification performance than single modality based identification methods like face recognition or speaker recognition.

화자 인식은 홈 디바이스, 감시 및 권한 부여 등 여러 목적으로 쓰일 수 있다. 화자 인식 문제에 있어서 가장 어려운 점은 신호 변동에 강인하도록 인식 정확도를 향상시키는 것이다. 이에 이번 연구에서는, 얼굴 인식과 음성 식별 알고리즘을 이용하여 화자 인식을 위해 깊은 신경망 기반의 멀티모달 모델을 제안한다. 우리의 제안된 멀티모달 모델은 더 강인한 화자 인식 성능을 보인다. 얼굴 인식의 경우, 우리는 VGG Face Descriptor를 이용한 콘볼루션 신경망을 이용하였고, 음성 인식의 경우, i-벡터 기반 가우시안 혼합 모델을 이용하였다. 특징 추출이 끝난 이후, 얼굴과 음성 데이터에서 추출된 특징 벡터들은 연결되고, 1024차원 멀티모달 임베딩을 얻기 위해 멀티모달 깊은 신경망을 학습하게 된다. 우리는 우리의 모델을 검증하기 위해 281개의 TED 강연 동영상으로 이루어진 새 데이터셋을 사용하였다. 멀티모달 깊은 신경망 모델은 얼굴 인식이나 목소리 인식과 같은 단일 모달리티를 이용한 경우보다 더 우수한 결과를 보여주었다.

서지기타정보

서지기타정보
청구기호 {MEE 17087
형태사항 iii, 29 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 전진우
지도교수의 영문표기 : Dae-Shik Kim
지도교수의 한글표기 : 김대식
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 25-26
주제 Speaker Identification
deep learning
multimodal model
i-vector
convolutional neural network
화자 인식
딥 러닝
멀티모달 모델
i-벡터
컨볼루젼 신경망
QR CODE qr code