서지주요정보
Neural audio fingerprinting for broadcast monitoring with source separation = 음원 분리를 적용한 방송 모니터링용 신경망 기반 오디오 핑거프린팅 기법
서명 / 저자 Neural audio fingerprinting for broadcast monitoring with source separation = 음원 분리를 적용한 방송 모니터링용 신경망 기반 오디오 핑거프린팅 기법 / Jongsoo Kim.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041954

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MGCT 24012

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Audio fingerprinting systems have evolved over time through frequency-analysis techniques, and have recently shown significantly improved performance in noisy environments through deep neural networks. However, these systems work well for identifying music played in specific spaces, but show lower performance in broadcast monitoring tasks. A major problem is that both deep neural network-based and frequency analysis-based systems often fail to detect music segments, mistaking them for non-musical content, primarily due to speech noise overpowering the music in broadcast audio. To address this, our study employed a pre-trained source separation model to remove vocals before feeding the query audio into the fingerprint extraction model, enhancing the performance of the broadcast monitoring system. Furthermore, We fine-tuned the source separation model to optimize it for speech removal. To do this, we customized the training dataset by replacing the vocal source with speech source. As a result, we improved the speech removal performance, boosting the performance of the broadcast monitoring system.

오디오 핑거프린팅 시스템은 오래 전부터 주파수 분석 기법을 바탕으로 꾸준히 발전해왔으며, 최근에는 심층신경망을 통해 소음이 많은 환경에서도 좋은 성능을 보이는 시스템으로 발전해왔다. 그러나, 이러한 시스템은 공간 내 음원 식별은 잘 수행하지만, 방송 모니터링 태스크에서는 낮은 성능을 보인다. 또한, 심층신경망 기반과 주파수 분석 기반 시스템 모두 음악이 등장하는 구간을 음악이 없다고 판단하는 경우들이 많다는 큰 문제점이 있었다. 이는 방송 오디오 특성 상 사람들의 목소리가 등장하는 경우가 잦기 때문에 해당 구간에서 지문을 추출하는데 어려움을 겪게 되는 것이다. 따라서 본 연구에서는 쿼리 오디오를 오디오 지문 추출 모델의 입력으로 넣기 전에 사전 학습이 완료된 음원 분리 모델을 이용하여 목소리를 제거하고, 음악적 요소만이 남겨져 있는 오디오를 지문 추출 모델의 입력으로 넣어주어 방송 모니터링 시스템의 성능을 향상시킬 수 있었다. 뿐만 아니라, 음원 분리 모델을 스피치 분리에 최적화시키기 위해 모델의 미세 조정을 진행하였으며, 이를 위한 학습 데이터셋을 구성하는 과정에서 보컬 소스를 스피치 소스로 대체하였다. 그 결과, 스피치 분리 성능을 개선하여 방송 모니터링 시스템의 성능을 함께 향상시켰다.

서지기타정보

서지기타정보
청구기호 {MGCT 24012
형태사항 iv, 35 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김종수
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 30-33
주제 Audio fingerprinting
Deep neural network
Speech removal
Source separation
Fine-tuning
오디오 지문
심층신경망
목소리 제거
음원 분리
미세 조정
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서