Audio-to-Score alignment refers to matching the notes or symbols in a given performance with the score in time. Precise alignment is essential for a system that extracts or interacts with performance information, and is therefore actively studied. In this paper, we discuss how to employ automatic music transcription result using artificial neural network as a feature for alignment. Even though the results of automatic music transcription are not perfect, the results can be thought of as learned features that can be directly compared to score. In the past, there have been studies using automatic music transcription in alignment. However, only the simplest form was used, and quantitative comparison with the method of using other features or comparison with various transcription method were not made.
In this paper, we compare the performance of automatic music transcription network using three network structures: convolutional neural network, recurrent neural network, and recurrent neural network over convolution layers. Furthermore, we shows the addition of the neural network which predicts only the onset can significantly improve the temporal accuracy of alignment.
For comparison with other methods, we used only dynamic time warping without additional steps, and compared the results with the existing methodology using published data. Experimental results show that the result of the alignment depends on the transcription method and that the accuracy of the transcription and the accuracy of the alignment are not simply proportional. In particular, the best alignment results using the onset showed significantly better performance than those without onset and heuristic features.
오디오-악보 정렬은 주어진 연주에서의 음표나 기호들을 악보와 시간적으로 일치시키는 것을 말한다. 정밀한 정렬은 연주의 정보를 추출하거나 연주와 상호작용하는 시스템에 필수적이며, 때문에 활발히 연구되는 주제이다. 본 논문에서는 인공신경망을 활용한 자동음악채보 결과를 정렬을 위한 특징으로서 이용하는 방법에 대해 다룬다. 자동음악채보의 결과가 완벽하지 않더라도, 채보된 결과는 악보와 바로 비교 가능한 학습된 특징으로 생각 될 수 있다. 과거에도 자동음악채보를 정렬에 이용한 연구들이 있었으나, 가장 단순한 형태의 채보 결과만을 사용하였으며, 다른 특징을 사용하는 방법과의 정량적인 비교, 자동음악채보 방법에 따른 정렬 결과의 비교는 이루어지지 않았다.
본 논문에서는 합성곱 신경망, 순환 신경망, 합성곱 순환 신경망의 세가지 네트워크 구조를 이용한 자동음악채보를 이용하여 각각의 결과가 정렬의 특징으로서 사용될때 성능을 비교하였으며, 특히 일반적인 자동음악채보 결과에 더하여 음의 온셋만을 예측하는 신경망을 추가적으로 이용하면 정렬의 시간적 정밀도를 크게 향상시킬 수 있음을 보였다.
다른 방법과의 비교를 위하여 추가적인 단계 없이 동적 시간 워핑만을 사용하여 정렬하였으며, 공개된 자료들을 이용하여 기존 방법론과 결과를 비교하였다. 실험 결과 자동음악채보 방법에 따라 정렬의 결과가 상당히 달라짐을 보였고, 자동음악채보의 정확도와 정렬의 정확도는 단순한 비례관계에 있지 않음을 보였다. 특히 온셋을 이용한 가장 나은 정렬 결과는 온셋을 이용하지 않은 결과와 학습을 통하지 않고 설계된 특징들에 비해 유의미하게 향상된 성능을 보였다.