서명 / 저자 Effective and compact neural autoregressive models for piano music transcription = 피아노 음악 채보를 위한 효과적이고 간결한 자기회귀 신경망 모델 / Taegyun Kwon.
발행사항 [대전 : 한국과학기술원, 2024].
In this dissertation, I focus on autoregressive model among neural network-based automatic transcription models. The piano has a characteristic that all sounds are generated only by the note onset and the continuation of the note that occurred in advance, so it is expected that the autoregressive model will have an advantage in inducing a causal relationship in frame-by-frame prediction. I designed the autoregressive prediction model based on a model combining acoustic module and music language module. In order to take advantage of the characteristics of the autoregressive model, a model capable of real-time operation was designed using a unidirectional RNN, and methods to overcome the disadvantages of the autoregressive model, which receives less information and is vulnerable to exposure bias compared to models using a bidirectional RNN, were suggested. For stable learning, I propose a network and learning method that expresses the states of notes in more detail and effectively utilizes recursive information. In addition to this, I induce the model to learn the invariance of the pitch shifting of the piano and the independence of each pitch. To this end, in the acoustic module, neurons are separated for each pitch, and each pitch is processed through a shared network. The music language model is also simplified to model the state progression of each pitch note. As a result, it was shown that the autoregressive model can also produce high performance when appropriately adjusted, and the hypothetically presented factors also showed an effect on performance improvement. In order to confirm the practical performance of the proposed model, the model was verified with multiple datasets with varied recording environments. The effectiveness of the proposed elements were examined through a note-level detailed analysis. The proposed model operated in real time with low complexity and showed equivalent performance to non-real-time models.2018

본 논문에서는 자기회귀적 모델에 기반한 자동 채보 모델을 다룬다. 피아노는 모든 음향이 타건과 사전에 발생한 타건의 지속에서만 발생하는 특성이 있어, 자기회귀적 모델이 프레임 단위의 예측에서 인과적 관계를 유도하는데 이점이 있을것이라 기대된다. 이 연구에서는 음향 처리 부분과 음악 언어 처리 부분이 합쳐진 모델을 기반으로 자기회귀적 예측 모델의 관점에서 자동채보 신경망 모델을 설계하였다. 자기회귀적 모델의 특징을 살리기 위하여 단방향 순환신경망을 사용하여 실시간 동작이 가능한 모델을 설계하였으며, 양방향 신경망을 사용하는 모델에 비해 적은 정보를 받고 노출 편향에 취약한 자기회귀 모델의 단점을 극복하기 위한 방법을 제안하였다. 원활한 학습을 위해 음표의 상태를 보다 세분화하여 표현하고, 재귀적 정보를 효과적으로 활용하는 네트워크와 학습 방법을 제안한다. 이에 더하여 피아노의 음고 변환에 대한 불변성, 각 음고의 독립성을 고려하여 각 요소가 학습에서 유도되도록 했다. 이를 위해 음향 처리 부분에서 각 음고별로 뉴런을 분리하고 각각의 음고가 공유되는 네트워크를 통해서 처리되도록 하였으며, 음악 언어 모델 또한 각 음 단위의 상태 진행을 모델링 하도록 단순화 했다. 결과적으로 적절한 조절과 함께하면 자기회귀적 모델도 높은 성능을 낼 수 있음을 보였으며, 가설적으로 제시된 요소들도 성능 향상에 효과가 있음을 보였다. 제안된 모델의 실질적인 효과를 확인하기 위해 서로 다른 환경에서 녹음된 여러 데이터셋에서 성능을 검증하였으며, 음표 단위의 세부적인 분석을 통해 제안된 요소들의 효과를 확인하였다. 제안된 모델는 낮은 복잡도로 실시간으로 동작하면서도 비실시간 모델과 동등한 성능을 보였다.


언어 영어
일반주기 저자명의 한글표기 : 권태균
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
학위논문 학위논문(박사) - 한국과학기술원 : 문화기술대학원,
주제 Piano transcription
Deep learning
Autoregressive model
피아노 채보
자기회귀 모델





