서지주요정보
Real-time pitch tracking using weakly supervised convolutional recurrent neural network = 합성곱 순환 신경망을 사용한 실시간 음 높이 추적
서명 / 저자 Real-time pitch tracking using weakly supervised convolutional recurrent neural network = 합성곱 순환 신경망을 사용한 실시간 음 높이 추적 / Soonbeom Choi.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031878

소장위치/청구기호

학술문화관(문화관) 보존서고

MGCT 18011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Existing audio analysis algorithms are focused on using by composers. Performers also use similar techniques, but algorithms should work in real-time without post processing. Pitch tracking is one of the famous technology that is applied to various audio signal processing technologies. Especially for synthesizing new sound real-time high performance pitch tracking is necessary for performers. Digital signal processing(DSP) based pitch tracking algorithms like YIN or probabilistic YIN algorithm shows high accuracy and they are generally used for pitch tracking tasks. Still those algorithms are difficult to cope with various recording environments and have a long analysis time. In this paper, we propose a pitch analysis algorithm using neural network which can learn various recording environments based on data and reduce the number of operations. Especially we adopt convolutional neural network and convolutional recurrent neural network which show high pitch tracking accuracy. Also we applied post processing based on average mean difference function which is used in DSP pitch tracking and help finding fine pitch. The problem of neural network is that it needs large enough data to be trained. Here we propose weakly supervised learning idea which obtain annotation from DSP algorithm especially using PYIN algorithm. We found that the prediction from DSP annotation shows close accuracy compared to the prediction from human annotation. Though these process user can obtain continuous pitches complete automatically. We made our own dataset to train pitch tracking. The dataset is consist of jazz and blues style guitar solo. We compared result among several different setup networks and also compared our method with DSP algorithms in accuracy and computation speed. We mainly focused on voiced samples. Experiment is done using same test set from dataset and computing environment.

기존의 오디오 분석 알고리즘은 작곡가가 사용하는 데에 초점이 맞춰져 있다. 공연자도 비슷한 기술을 요구하지만 같은 알고리즘일지라도 후처리없이 실시간으로 작동해야 한다. 음 추적 알고리즘은 다양한 오디오 처리에 적용되는 기술 중 하나이고 특히 실시간으로 사운드를 합성하기 위해서는 고성능의 음 추적 알고리즘이 공연자에게 필요로 한다. 디지털 신호 처리 기반의 음 추적 알고리즘은 높은 정확도를 보여주어 범용적으로 음 추적 작업에 사용되지만 다양한 녹음 환경에 대처하기 어렵고 분석 시간이 길다. 본 논문에서는 다양한 녹음 환경에 대응할 수 있고, 연산량을 줄일 수 있는 인공 신경망을 이용한 음 분석 알고리즘을 제안한다. 특히 합성곱 인공 신경망과 합성곱 순환 신경망으로 실험을 진행하였다. 문제는 인공 신경망의 훈련을 받기에 충분히 큰 데이터가 필요하다는 것이다. 본 연구에서는 디지털 신호 처리 알고리즘으로부터 생성된 레이블로 학습한 예측이 사람이 제공한 레이블을 바탕으로 학습한 예측에 가까운 정확성을 보임을 발견하여, 디지털 신호 처리 알고리즘으로부터 레이블을 얻는 약한 감독 학습 아이디어를 제안하고자 한다. 학습을 위해 재즈와 블루스 스타일의 기타 솔로로 구성된 데이터셋을 만들어 여러 구조의 네트워크를 비교했다. 또한 디지털 신호 처리 알고리즘과 정확도와 계산 속도를 비교했다.

서지기타정보

서지기타정보
청구기호 {MGCT 18011
형태사항 iv, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최순범
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 24-26
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서