서지주요정보
Audio feature extraction methods for multimedia content analysis = 멀티미디어 내용 분석을 위한 오디오 특징 추출 방법
서명 / 저자 Audio feature extraction methods for multimedia content analysis = 멀티미디어 내용 분석을 위한 오디오 특징 추출 방법 / Myung-Jong Kim.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021861

소장위치/청구기호

학술문화관(문화관) 보존서고

MICE 10041

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the rapid distribution of the user created contents (UCCs), a variety of multimedia contents including general contents such as music, movies and malicious contents such as adult videos have been made and shared easily through the Internet. These social trends can negatively affect children or teenagers and cause sexual crimes. Therefore, analyzing the multimedia contents to decide whether the contents are malicious or not has recently received a great attention from many researchers and social groups. This thesis addresses the problem of analyzing the multimedia contents based on audio signals to detect and block the objectionable multimedia contents. The malicious sounds such as sexual scream or moan show the distinctive characteristics that have large temporal variations and fast spectral transitions. Therefore, extracting appropriate features to properly represent these characteristics is important in achieving a better performance. In this thesis, we employ segment-based two-dimensional $\emph{Mel}$-frequency cepstral coefficients and histograms of gradient directions as a feature set to characterize both the temporal variations and spectral transitions within a long-range segment of the target signal. Gaussian mixture model (GMM) is adopted to statistically represent the malicious and non-malicious sounds, and the test sounds are classified by a maximum a posterior probability (MAP) method. Evaluation of the proposed extraction method on a database of several hundred malicious and non-malicious sound clips yielded a classification accuracy of 96.06 %, which was a good performance showing a possibility that could be used as an alternative to the image-based methods.

UCC (user created contents) 멀티미디어가 급속하게 보편화 됨에 따라 음악, 영화 등의 일반적인 멀티미디어 콘텐츠와 성인 비디오 등의 유해 멀티미디어 콘텐츠를 포함하는 다양한 멀티미디어 콘텐츠가 사용자에 의해 쉽게 제작되고 인터넷을 통해 빠르게 공유되고 있다. 이러한 사회적 추세는 아이들이나 청소년에게 악영향을 미칠 수 있으며, 성범죄의 주요한 원인이 되기 때문에 멀티미디어 콘텐츠의 유해성을 판별하는 기술에 대한 관심이 급격하게 증가되고 있다. 본 논문은 유해 멀티미디어 콘텐츠를 효과적으로 차단하기 위해 오디오 신호 기반 멀티미디어 콘텐츠 분석에 대한 문제를 다룬다. 성적인 신음 같은 유해 오디오는 시간에 따라 스펙트럼이 크게 변하는 특성과 프레임 간의 빠른 스펙트럼 변이 특성을 갖는다. 따라서, 이러한 특성을 효과적으로 나타내는 오디오 특징 추출 방법이 성능 개선을 위한 중요한 요소가 된다. 본 논문에서는 시간에 따라 스펙트럼이 크게 변하는 특성을 나타내기 위해 세그먼트 기반의 2차 멜켑스트럼 계수와 프레임 간의 빠른 스펙트럼 변이 특성을 나타내기 위해 기울기 방향의 히스토그램 특징을 제안한다. 유해 오디오와 무해 오디오를 통계적으로 표현하기 위해 가우시안 혼합 모델을 채택하여 모델링 하였고, 실험 데이터는 MAP (maximum a posterior probability) 방식을 이용하여 분류하였다. 제안된 특징 추출 방법의 평가는 실제 인터넷 환경에서 수집된 유해 오디오 클립과 무해 오디오 클립을 이용하여 수행되었고, 분류 실험 결과 96.06 % 의 높은 인식률을 얻었다. 실험 결과를 통해 오디오 기반의 방식이 기존 영상 기반의 멀티미디어 내용 분석 시스템의 대안점으로써 가능성이 있음을 확인할 수 있었다.

서지기타정보

서지기타정보
청구기호 {MICE 10041
형태사항 viii, 48 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김명종
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국과학기술원 : 정보통신공학과,
서지주기 References: p. 42-44
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서