Speaker identification is fundamentally important for the various purposes such as home device, surveillance or authorization. The main difficulty of speaker recognition is to improve the robust identification accuracy. In this paper, we present a multimodal method based on deep neural networks for speaker identification by using both face recognition and voice identification. Our proposed multimodal model shows more robust speaker identification performance. As a face recognition, we use a convolutional neural network, especially VGG Face descriptor networks. For voice identification, we use Gaussian Mixture Model based on i-vector. After feature extraction, feature vectors from each face and voice information are concatenated and trains multimodal deep neural network in order to get 1024-dimension multimodal embeddings. We validate the performance of our model by new dataset which consists of 281 TED videos. The multimodal DNN model depicts more reliable identification performance than single modality based identification methods like face recognition or speaker recognition.
화자 인식은 홈 디바이스, 감시 및 권한 부여 등 여러 목적으로 쓰일 수 있다. 화자 인식 문제에 있어서 가장 어려운 점은 신호 변동에 강인하도록 인식 정확도를 향상시키는 것이다. 이에 이번 연구에서는, 얼굴 인식과 음성 식별 알고리즘을 이용하여 화자 인식을 위해 깊은 신경망 기반의 멀티모달 모델을 제안한다. 우리의 제안된 멀티모달 모델은 더 강인한 화자 인식 성능을 보인다. 얼굴 인식의 경우, 우리는 VGG Face Descriptor를 이용한 콘볼루션 신경망을 이용하였고, 음성 인식의 경우, i-벡터 기반 가우시안 혼합 모델을 이용하였다. 특징 추출이 끝난 이후, 얼굴과 음성 데이터에서 추출된 특징 벡터들은 연결되고, 1024차원 멀티모달 임베딩을 얻기 위해 멀티모달 깊은 신경망을 학습하게 된다. 우리는 우리의 모델을 검증하기 위해 281개의 TED 강연 동영상으로 이루어진 새 데이터셋을 사용하였다. 멀티모달 깊은 신경망 모델은 얼굴 인식이나 목소리 인식과 같은 단일 모달리티를 이용한 경우보다 더 우수한 결과를 보여주었다.