Real-time lyrics tracking system of singing performance with augmented reality interface = 증강현실 인터페이스를 활용한 가창 공연 실시간 가사 추적 시스템
서명 / 저자 Real-time lyrics tracking system of singing performance with augmented reality interface = 증강현실 인터페이스를 활용한 가창 공연 실시간 가사 추적 시스템 / Jiyun Park.
발행사항 [대전 : 한국과학기술원, 2023].
Real-time lyric tracking aims to track the precise location of the lyrics of a given song in real-time, based on the singing input from a microphone. Current surtitle systems in concert venues are vulnerable to human error due to manual control by operators. Also, frequent eye movements are required for the audience due to current surtitle displays separated from the stage. These factors may degrade the audience’s immersion in the performance-viewing experience. In this study, we propose an automated lyric tracking model that utilizes augmented reality(AR) glasses interface for singing performances with accompaniment. Most audio-to-lyrics alignment research has focused on the separated vocals, which is not suitable for actual live performances. Previous real- time lyric tracking studies for automated surtitle operations included real-time opera tracking, but these focused more on non-musical factors, such as recitatives, noise, and applause, rather than the inherent characteristics of the singing. Additionally, these studies often assumed manual annotation work in the preprocessing stage. The proposed system utilizes a symbolic score to automate the preprocessing step and focuses on robust real-time alignment by extracting features that can capture both pitch and phonetic characteristics suitable for tracking singing performances. In particular, we show that the temporal accuracy of real- time alignment can be significantly improved when the phonetic feature extracted through the phoneme classifier is combined with chroma features. We also verified the effect and usability of the system integrated with the AR glasses interface by conducting user tests in a concert hall.

실시간 가사 추적은 마이크를 통한 가창 입력을 기반으로 주어진 노래 가사의 정확한 위치를 실시간으로 추적하는 것을 목표로 한다. 현재의 공연장 자막 시스템은 사람 오퍼레이터의 수동 제어 방식으로 인해 인적 오류에 취약하며, 무대와 분리된 자막 디스플레이는 관객으로 하여금 무대까지 잦은 시선의 이동이 요구된다. 이러한 요인들은 공연 관람 경험에 있어 관객의 몰입감을 저해하는 요인으로 작용한다. 본 논문에서는 반주가 함께 있는 실시간 가창 공연에 대해 증강현실 안경 인터페이스를 활용한 자동화된 가사 추적 모델을 제안한다. 대부분의 오디오-가사 정렬 연구는 반주가 분리된 가창을 중심으로 이루어졌으나, 이 방식은 실제 라이브 공연 상황에는 적합하지 않다. 따라서 오페라 추적 연구 등 자동화된 자막 운영을 위한 실시간 가사 추적 연구가 진행되었으나 성악 자체의 특성보다는 서창, 정적, 공연장 환경음 등 비음악적인 요소에 더 집중하였다. 또한 이러한 연구들은 대부분 전처리 단계에서 수동 주석작업을 전제로 하고 있다. 제안된 시스템은 자동 악보 추적의 방식을 차용하여 전자악보를 활용함으로써 기존 음성 인식 연구에 쓰이던 언어 모델에 의존하지 않고 오디오-가사 정렬의 전처리 단계를 자동화한다. 또한 피아노 반주 등의 기악이 함께 있는 성악의 특성을 반영하여 음정과 발음적 특성을 종합적으로 인식할 수 있는 특징을 추출하여 견고하게 실시간 정렬이 동작하는 것에 중점을 두었다. 특히, 음소 분류기를 통해 추출한 성악 가창의 발음적 특징을 12음계 특징과 함께 사용했을 때 실시간 정렬의 시간적 정확도를 크게 향상시킬 수 있음을 보였다. 또한 실제 공연장에서 사용자 테스트를 진행하여 증강현실 글래스 자막 인터페이스와 통합된 시스템의 사용성 및 효과를 검증하였다.


청구기호 {MGCT 23028
형태사항 iv, 35 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박지윤
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 31-33
주제 Music information retrieval
Singing voice
Dynamic time warping
Audio-to-lyrics alignment
Score following
Augmented reality
음악 정보 검색
동적 시간 워핑
오디오-가사 정렬
자동 악보 추적





