The melodic similarity is a key concept that helps with analysis and understanding in theoretical areas such as musicology, music cognition, and music psychology, as well as in applied areas such as music copyright, music classification and recommendation, and various fields. The process of determining melodic similarity is inherently intuitive and subjective. Psychological approaches to evaluating melodic similarity have relied on cognitive experimental evaluations, expertise, or music theory-based models, while computational methods derived from natural language processing have generally provided a single value. These fragmented approaches may only reveal task-specific information. Thus, this study aims to develop a quantitative framework for measuring the semantic and qualitative aspects of melodic similarity. The research is organized around three general steps developed for the similarity analysis of symbolic melodies: 1) Representation, which converts the melodic features into a form optimized for computational analysis; 2) Segmentation, which divides the melodic representation into meaningful units; and 3) Computation, which measures and visualizes the semantic similarity of melodies.For melodic representation, this dissertation proposes a text-based representation, Mel2Word. Mel2Word is developed with the intention of facilitating the analysis of melodies through the application of Natural Language Processing. As a textual representation of a melody optimized for NLP technology, it includes important musical features like pitch and rhythm, allowing practical application of music as a language and analytical understanding of various musical features. For melodic segmentation, this dissertation proposes Byte-Pair Encoding (BPE) based melody segmentation using NLP techniques. This is a data-driven method in which a melody is considered a sentence and tokenized into the meaningful melodic vocabulary. This can enable music analysis to be performed as semantic terms with meaning and context, rather than as fragmented melodies with single characters. For similarity calculation, this dissertation proposes two approaches to calculating melodic similarity: 1) Multi-segmental analysis and visualization to understand the hierarchical and structural similarities of melodies; 2) A method of embedding and vectorizing melodies that can quantitatively comprehend the contextual meaning of melodies and qualitative features of similarity. For the former, a Cross-Scape Plot is proposed, which provides a hierarchical visual representation of where and how similar the two melodies are. For the latter, we propose a TV-TF-IDF weighting function that analyzes the word salience, importance, and uniqueness as redefined by psychological models and NLP methods. Through the similarity calculation by applying this weighting method to the vectorized word embedding, we assess the qualitative aspect of "substantial similarity" of melodies for copyright infringement cases.The ultimate goal of this study is to identify the semantic and qualitative meaning of melodic similarity through the integration of MIR, NLP, and psychological models. In particular, it is to build a scientific framework that can treat music as a language so that computational analysis of music can be readily performed using an NLP approach. Beyond melodic similarity, we hope that this contribution will advance the field of music analysis by presenting a qualitative yet quantitative approach to assessing a wider range of high-level musical aspects.
멜로디 유사성은 음악학, 음악인지, 음악심리학 등의 이론적 영역은 물론, 음악 저작권, 음악 분류 및 추천 등의 응용적 영역 등, 다양한 분야에서 음악의 분석과 이해를 돕는 핵심 개념이다. 본 연구는 멜로디 유사성의 의미적, 질적 측면을 측정하기 위한 정량적 틀을 개발하는 것을 목적으로 한다. 이 연구는 멜로디의 유사성 분석을 위한 다음과 같은 세 가지 단계, 1) 멜로디 표현, 멜로디를 계산적 분석에 최적화된 형태로 변환, 2) 멜로디 분할, 멜로디를 의미 있는 단위로 나누고, 3) 유사도 계산, 멜로디의 유사성을 측정하고 시각화하는 계산 방법으로 구성되어 있다.멜로디 표현을 위해, 본 논문에서는 Mel2Word라는 텍스트 기반 표현을 제안한다. Mel2Word는 자연어 처리기법을 적용하여 멜로디 분석이 가능하도록 개발된 텍스트 표현으로 음정, 리듬과 같은 중요한 음악적 특징을 포함하고 있어 음악을 언어로써 적용하고 다양한 음악적 특징을 분석적으로 이해할 수 있도록 한다.멜로디 분할을 위해, 본 논문에서는 자연어처리 기법을 이용한 BPE(Byte-Pair Encoding) 기반의 멜로디 분할을 제안한다. 이것은 멜로디를 문장으로 간주하여 의미 있는 멜로디 어휘로 토큰화하는 데이터 기반 방법이다. 이를 통해 단일 음가들이 아닌 의미와 맥락이 있는 멜로디의 단위로 음악 분석을 수행할 수 있다.유사도 계산을 위해, 본 논문에서는 멜로디 유사도를 계산하는 두 가지 접근 방식을 제안한다. 1) 멜로디의 계층적 및 구조적 유사성을 이해하기 위한 다중 세그먼트 분석 및 시각화; 2) 멜로디의 맥락적 의미와 유사성의 질적 특징을 이해할 수 있는 멜로디를 임베딩과 벡터화 기법. 전자의 경우 Cross-Scape Plot을 제안, 두 멜로디가 실제로 어떻게 유사한지에 대한 계층적 시각적 표현을 제공한다. 후자의 경우 인지심리학 모델과 자연어처리 기법의 모델들을 차용하여 단어의 중요성, 중요도 및 고유성을 분석하는 가중치 함수를 제안한다. 본 연구에서는 벡터화된 단어 임베딩에 가중치를 적용한 유사도 계산을 통해 저작권 침해 사례들에 대한 멜로디의 "실질적 유사성"에 대한 양적인 측면을 평가한다.본 연구는 멜로디를 언어로 취급할 수 있는 과학적인 틀을 구축하여 자연어 처리를 통한 음악의 계산적 분석을 쉽게 수행할 수 있도록 한 데에 큰 의의가 있다. 멜로디의 유사성을 넘어 본 연구는 인간의 음악인지에 대한 상위 레벨의 이해를 돕는 정량적 접근 및 다양한 실용적 목적으로 활용될 수 있을 것이다.