Creating a good drum track to imitate a skilled performer in digital audio workstations (DAWs) can be a timeconsuming process, especially for those unfamiliar with drums. In this work, we introduce PocketVAE, a groove generation system that applies grooves to users’ rudimentary MIDI tracks, i.e, templates. Grooves can be either transferred from a reference track, generated randomly or with conditions, such as genres. Our system, consisting of different modules for each groove component, takes a two-step approach that is analogous to a music creation process. First, the note module updates the user template through addition and deletion of notes; Second, the velocity and microtiming modules add details to this generated note score. In order to model the drum notes, we apply a discrete latent representation method via vector-quantized variational autoencoder (VQ-VAE), as drum notes have a discrete property, unlike velocity and microtiming values. We show that our two-step approach and the usage of a discrete encoding space improves the learning of the original data distribution. Additionally, we discuss the benefit of incorporating control elements - genre, velocity and microtiming patterns - into the model.
디지털 오디오 워크 스테이션 (DAW)에서 숙련된 연주자를 모방하기 위해 좋은 드럼 트랙을 만드는 것은 특히 드럼에 익숙하지 않은 사람들에게는 시간이 많이 걸리는 프로세스이다. 따라서 본 논문에서는 사용자의 기초적인 MIDI 트랙, 즉 템플릿에 자동으로 그루브를 적용하는 그루브 생성 모델인 PocketVAE를 소개한다. 그루브는 주어진 참조 트랙을 참고하거나 무작위로 생성하거나 장르를 비롯한 조건으로부터 생성할 수 있다. 서로 다른 모듈로 구성된 이 모델은 음악제작 과정과 유사한 2 단계 접근 방식을 취한다. 첫째, 노트 모듈은 음표 추가 및 삭제를 통해 사용자 템플릿을 업데이트한다. 둘째, 속도와 타이밍 모듈들이 생성된 드럼 음표에 세부 정보를 추가한다. 드럼 음표를 모델링하기 위해 드럼 음표는 속도 및 마이크로 타이밍 값과 달리 이산 속성을 갖기 때문에 이를 모델링하기 위해서 vector-quantized variational autoencoder (VQ-VAE)를 통해 이산 잠재 표현 방법을 적용한다. 2단계 접근 방식과 이산 인코딩 공간의 사용으로 인해 학습 결과가 향상 되는 것을 보여준다. 또한 장르, 속도 및 마이크로 타이밍 패턴과 같은 제어 요소를 모델에 통합하는 이점에 대해 논의한다.