서지주요정보
A study on environmental audio scene and activity recognition = 음향 기반의 주변 환경 및 활동 인식에 대한 연구
서명 / 저자 A study on environmental audio scene and activity recognition = 음향 기반의 주변 환경 및 활동 인식에 대한 연구 / Kyu-Woong Hwang.
저자명 Hwang, Kyu-Woong ; 황규웅
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8024832

소장위치/청구기호

학술문화관(문화관) 보존서고

DBIS 13001

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Environmental audio scene and activity recognition plays an important role in context aware computing, which becomes more important in the user interaction with mobile devices. This is an emerging research area and many independent researches are performed in diverse different research fields. In multimedia retrieval area, MPEG-7 Audio description standard deals with how to represent environmental sounds in view of indexing and retrieval. In environmental protection area, sound maps are created focusing on animal sounds and long term change of the map. For healthcare area, patients indoor activities are monitored based on sound and used to find emergency situation and abnormality. It is also used in music transcription to find out the kind of instruments. If we say previous sound recognition focused on human speech, now that field is matured and it is being extended all non-speech sounds we encounters. Though many researches from diverse areas are performed, most of the them are initiated by needs and used conventional methods from speech recognition and general machine learning. We reviewed these researches and tried to provide good methods at each stage of sound recognition system. One other issue of sound recognition is its diversity and personality. Environmental sounds are different in different locations and for different person. If a person deviates from his daily routine he will encounter new sounds. For this reason, a well designed sound database can help comparing algorithm performance, we need diverse real-world sounds to make a practical system. We proposed crowd sourcing framework to collect these data and instance based classifier that improves with more data incrementally without full retraining. We used bag of words approach that is used for document classification and object recognition in an image. We saw environmental audio scene as set of audio events similar to words in a document. Sequence matching approach originated from speech recognition and general pattern matching algorithms are commonly used in sounds recognition area. This bag of words can be considered as mid point of these two approaches. It identifies each individual events but removes temporal information. Sound events are happen without specific sequence unlike speech. We defined sound recognition system stages as feature extraction, basis learning, temporal pooling, and classifier. For feature extraction we compared mel-frequency cepstral coefficient (MFCC) and mel-filterbank. MFCC without energy feature showed better performance but it is still tailored for human speech. We suggest unsupervised data driven feature learning to get optional feature for sound recognition. For basis learning we compared vector quantization (VQ) and Gaussian mixture model (GMM). Among these, GMM showed best performance. For temporal pooling, we used sum-pooling which is used in document classification domain. Max-pooling that is used in object recognition domain can be used too. We also tested dimension reduction for GMM histogram by non-negative matrix factorization (NMF) and latent semantic analysis (LSA). For classifier we compared instance-based and model-based classifiers and confirmed instance-based classifier is comparable with model-based classifier for diverse sound recognition. For incremental learning and distributed machine learning, we propose instance-based classifier. We experimented several distance metric such as Euclidean distance, Kullback-Leibler divergence (KLD), and cosine similarity and symmetric KLD showed best performance. After comparing accuracy with different train set size, we concluded data size is important to our approach. To get more data, we implemented crowd sourcing framework with acting agents that learns new environmental sounds from user`s help and share the knowledge with other agents through a central server. We also proposed a probable use case which is a messenger that shares user`s current environment and activity estimated by sound.

소리로 주변 상황과 활동을 인식하는 기술은 상황 인지 컴퓨팅에서 중요한 역할을 하는데 최근들어 모바일 기기의 사용자 환경에서 더욱 중요해지고 있다. 새롭게 떠오르는 이 기술에 대해 다양한 연구분야의 많은 연구자들이 연구를 수행하고 있다. MPEG-7 오디오 기술 표준에서는 색인과 검색의 관점에서 주변 음향을 기술하는 방법에 대해 다루고 있고, 환경 보호 분야에서는 특정 지역에 대한 소리 지도를 작성하고 있는데 동물의 소리를 지도에 표시하고 장기적인 변화를 위주로 환경을 감시하고 있다. 의료 분야에서는 환자의 활동을 실내에서 발생하는 소리로부터 인식하여 활동 패턴을 기록하여 응급 상황이나 비정상적인 상황에 대처한다. 음악 분야에서는 악기 종류를 판별하기도 한다. 기존의 소리 인식은 사람의 음성에 집중되어 있었는데 이 분야는 이제 실용화 단계에 접어들고 음성 이외의 소리 인식에 대한 연구로 확대되고 있다. 다양한 분야의 많은 연구자들에 의한 연구가 진행되었지만 대부분 필요에 의해 시작되었고 기존 음성 인식에 사용되었던 기술을 그대로 적용하거나 일반적인 기계 학습 방법을 적용하고 있다. 이 논문에서는 이러한 연구들에 대한 분석과 실험을 통해 환경 음향 인식의 각 단계에 대해 적절한 방법을 제안하였다. 환경 음향 인식의 또 다른 문제는 그 다양함과 개인성이다. 환경 음향은 장소와 사람에 따라 다르다. 한 개인이 일상적인 생활 패턴에서 벗어나면 새로운 소리를 접하게 된다. 잘 설계한 환경 음향 데이터베이스가 알고리즘을 비교 평가하는 면에서는 유용하지만 실용적인 소리 인식기를 만들기 위해서는 다양한 실제 상황에서의 소리가 필요하다. 본 논문에서는 이러한 소리를 모으기 위한 크라우드소싱 방식과 데이터가 증가함에 따라 점진적으로 성능이 개선되는 예제 기반의 인식기를 제안한다. 본 논문에서는 문서 주제 분류와 이미지에서 물체를 인식하는 데 사용되는 bag of words 방식을 음향 환경 인식에 사용하였다. 음향 환경은 여러 소리로 이루어져 있는데 문서가 단어들로 이루어져 있는 것과 같게 볼 수 있다. 음향 환경 인식에는 일반적으로 음성인식에서 유래된 순서열 정합 방식 또는 일반적인 기계 학습 방식이 사용되는데 bag of words 방식은 구성 요소는 구별하지만 순서는 고려하지 않는 것이 두 방식의 중간 방식이라고 할 수 있다. 소리 인식 시스템은 특징 추출, 요소 학습, 시간적 통합, 그리고 인식기의 단계로 구성된다. 특징 추출에 대해서는 Mel-frequency cepstral coefficient (MFCC) 와 Mel 필터뱅크를 비교하여 에너지 성분을 사용하지 않는 MFCC가 성능이 더 좋음을 확인하였다. 그러나 MFCC는 음성에 특화된 특징이므로 비교사 방식의 자료 기반의 특징 추출 학습이 필요하다고 생각된다. 요소 학습에 대해서는 벡터 양자화, 가우시안 복합 모델을 비교하였는데 가우시안 복합 모델이 좋은 성능을 보였다. 비음 행렬 인수 분해, latent sematic 분석을 통해 특징의 갯수를 줄이는 시도를 하였으나 성능 개선을 보지는 못했다. 시간적 통합에 대해서는 문서 주제 분류에 사용되는 합-통합 방식을 사용하였는데 물체 인식에서 사용되는 최대값을 선택하는 통합 방식도 사용이 가능하다. 인식기는 예제기반 방식과 모델 기반 방식을 비교하였는데 다양한 소리를 인식하는 과제에서는 예제 기반 방식이 모델 기반 방식에 뒤떨어지지 않는다는 것을 확인하였고 거리 척도로는 유클리디안 방식과 Kullback-Leibler divergence (KLD), 코사인 유사도를 비교하였는데 KLD가 가장 성능이 좋았다. 소리 인식 시스템의 각 분야에 대한 적절한 방식을 선정한 후 실제로 소리를 인식하는데 사용되는 각 에이전트가 사용자의 도움으로 새로운 소리를 배우고 그 지식을 중앙 서버를 통해 다른 에이전트들과 나누는 크라우드 소싱 방식을 구현하여 제안한 방식을 실생활에서 사용 가능함을 확인하였다. 또, 사용자의 주변 환경 정보를 소리를 통해 인식하여 메신저에 표시하는 사용예와 어플리케이션도 구현하였다.

서지기타정보

서지기타정보
청구기호 {DBIS 13001
형태사항 viii, 75 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 황규웅
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 66-72
주제 context aware computing
sound recognition
instance-based learning
상황 인지 컴퓨팅
음향 인식
예제 기반 학습
QR CODE qr code