Performance improvement of music mood classification using hyper music features = 상위 레벨 음악 특성을 사용한 음악 감정 분류 성능 향상
서명 / 저자 Performance improvement of music mood classification using hyper music features = 상위 레벨 음악 특성을 사용한 음악 감정 분류 성능 향상 / Ka-Hyun Choi.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

MICE 10005

휴대폰 전송







When people want to find music, they traditionally search it with its related symbolic information, such as title, lyrics, and name of the artist. As the digital music database becomes massive, however, it is not effective to rely only on those conventional queries for finding a specific song from the huge music database, because the user often forget the title or name of the artist. Moreover, it is getting common that the users want to be recommended a contextually proper playlist. Therefore, many polished music information retrieval techniques have developed so far, for instance, query by humming or tapping, finding similar songs to the seed songs, recommend songs with specific mood and genre. It is clear that those automated music search systems are heavily based on automatic music classification. It is almost impossible to manually extract important features and classify them with a database of thousands of songs, which is relatively small size though. This thesis deeply concerns audio music mood classification (AMC) which plays a key role in one of the most promising next generation music exploring systems. In order to take mood into account for the AMC, we should formulate the vague concept, mood. After that, it is required that reliable mappings between songs and moods based on human assessment. To fulfill the requirement for trustworthy research results, we adapt five mood classes, which were defined and verified in MIREX (Music Information Retrieval Evaluation eXchange). Similarly, we also used 600 mood-labeled music data which MIREX offers and uses for the contest. For the similar reasons, we used MARSYAS for the reference system. MAR-SYAS, the most famous music information retrieval system, contains well-known music features and Support Vector Machine (SVM) classifier. It is a universal system, but it ranked the first and second in the MIREX AMC tasks, respectively. In this thesis, mid-level music features are introduced. To explore the necessity of feature extraction process we carefully optimized SVM with barely processed signal, and then compare the results with the introduced features. Then, we expanded the relatively low-level feature set, which is used in MARSYAS, by appending the proposed mid-level features. The newly proposed mid-level features in this thesis are chord tension and rough sound. Chord tension is an important factor, which affects one of the two important axes of emotion plain, arousal. We devise a method for directly extracting the chord tension from the signal, while bypassing the premature chord recognition and transcription system. The next feature we propose is rough sound. Rough sound is the noisy components in the song, like drums or distorted electric guitars. We propose a computationally competitive, but well-performing rough sound extraction method compared to the existing music source separation technology. The newly developed AMC system is evaluated with the combinations of proposed features using the verified MIREX datasets. With the careful exploration and optimization, the proposed AMC system outperforms the whole submitted systems of recent two years' MIREX.

음악을 검색하는 일반적인 방식은, 곡 제목, 가사, 음악가와 같은 텍스트 형식의 정보이다. 그러나, 디지털 음악 기술이 발전하고 음악 데이터베이스 용량이 커짐에 따라, 기존의 음악 검색방식의 한계점이 드러나게 되었다. 곡명이나 가사는 기억나지 않고 멜로디만 생각나는 경우나, 특정 상황에 맞는 음악 리스트가 필요한 경우에는 보다 발전된 음악 검색 기술의 도움이 필요하다. 이런 새로운 요구를 반영한 음악 검색 방식의 예로 허밍을 통한 음악 검색, 유사 음악 검색, 장르나 감정에 기반한 음악 검색을 들 수 있다. 이 중 대량의 음악에서 음악을 분류하는 시스템의 경우, 대량의 음악에 일일이 장르나 감정 태그를 붙이는 것은 거의 불가능하다. 따라서, 자동으로 음악을 분류하는 기술의 필요성이 대두된다. 본 연구에서는 감정에 맞게 음악을 자동으로 분류하는 시스템의 성능 향상을 이룰 수 있는 방법에 대해 고찰한다. 우선 음악 감정 분류 시스템에 대해 연구할 때, 공학적으로 다루기에는 다소 모호한 개념인 '감정'을 형식화할 필요가 있다. 그리고, 특정 음악이 어떤 감정을 유발하는지에 관해, 형식화된 감정 값과 음악 콘텐츠 간의 신뢰할 수 있는 매핑이 필요하다. 본 연구에서는 MIREX 프레임워크가 제공하는 5가지 감정군과 그 감정군에 맞게 태그를 붙인 600곡의 DB를 사용하였다. MIREX에서 대규모의 감정 카테고리로부터 군집화한 감정군과 다수의 사람들이 참여하고 그 중 2/3 이상의 동의를 얻은 음악으로만 구축된 600곡에 대한 음악 감정 관계는 연구의 신뢰성을 높여준다. 또한, 신뢰성 있는 기존 연구인 MARSYAS를 참고 시스템으로 활용하여, MARSYAS가 가지고 있는 우수한 성능과 높은 재현성을 본 연구에 반영하였다. 또한 본 연구에서는, 음악적인 요소를 좀 더 많이 반영하는 새로운 특징 개발의 필요성을 타진하기 위해, 참고 시스템에서 사용한 잘 알려진 특징들과, 특징 추출 과정이 생략된 주파수 영역 데이터를 비교하였으며, 이를 위해 SVM 최적화 과정을 진행하였다. 그 결과, 보다 높은 수준의 음악 특성을 추출하는 특징 벡터 개발의 필요성을 발견하였다. 이러한 검증 결과를 바탕으로, 본 연구에서는 두 개의 중간 수준의 음악 특성을 추출하는 특징 벡터를 개발하였다. 새로 제안한 특징 벡터는 코드의 긴장도와 거친 소리를 뽑아내는 것이다. 코드 긴장도의 경우 감정의 두 축 중 긴장도에 영향을 미치는 요인이다. 본 연구에서는 에러율이 높은 코드 인식 기술이나 자동 채보 기술을 사용하지 않고 주파수 분석 정보로부터 바로 코드의 긴장도를 추출하는 방법을 고안하였다. 다음 특징 벡터는 거친 소리 부분을 추출하는 피쳐로, 거친 소리란 드럼이나 왜곡된 전자 기타처럼 음악에서 노이즈 성분이 강한 부분을 말한다. 본 연구에서는 기존의 음악 음원 분리 기술들에 비하여 계산 복잡도 측면에서 경쟁력있고 잘 동작하는 거친 소리 추출 방법을 제안하였다. 새로운 특징 벡터의 도입을 통해 개선한 음악 감정 분류 시스템은 MIREX에서 제공하는 음악 감정 정답 데이터 베이스로 평가하였다. 평가 결과 본 논문에서 제안한 두 개의 중간 수준 음악 특성을 뽑아내는 특징 벡터를 사용한 음악 감정 분류 시스템은 최근 2년간 MIREX에 출품한 모든 시스템의 성능을 능가하는 결과를 보여주었다.


청구기호 {MICE 10005
형태사항 55 : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 최가현
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(석사) - 한국과학기술원 : 디지털미디어프로그램,
서지주기 Reference: p. 51-53





이 주제의 인기대출도서