We propose an automated laughter detector which can distinguish laughter sound from natural con-versation for the studies of laughter in interaction. Since laughter is one of the most common communicative signals and has indexical meaning, laughter in interaction is an important subject that is studied in many dis-ciplines. Previously, recording or videotaping methods that require manual transcription have been used to study laughter in interaction. But these methods have limitation because people tend to be conscious about the recording and privacy issues. So, in this thesis, we propose an automated real-time laughter detector which can distinguish laughter sound from natural conversation without recording using mobile phones. Our laugh-ter detection consists of two main stages. First, we build two training models from training database: laugh model and non-laugh model. Second, we distinguish laugh and non-laugh for fixed-size input audio data. During training and detection process, we use “MFCC(Mel Frequency Cepstral Coefficients) + GMM(Gaussian Mixture Model)” speech recognition algorithm for real time detection. With volume-topography-based method that can identify speaker-specific turn, we show that it is possible to distinguish unilateral laughter, mutual laughter, and the last turn laughter. We also apply our laughter detector to the conversation on the phone and observe the frequency of turns at the front and rear of the laughter, and the frequency variation after first burst of the laughter. Through these experiments, we show that our system has potential to be applied in practice for studying laughter in interaction.
본 논문에서는 웃음 연구를 위한 자연스러운 생활 속 대화에서의 웃음 소리를 탐지하는 자동화된 웃음 탐지를 제안한다. 웃음은 가장 공통적인 대화 신호 중 하나이며, 그 자체로 표제어적인 역할을 한다. 상호 교류 속 웃음은 다른 많은 분야에서 연구되는 중요한 요소이다. 이전까지의 웃음 연구는 오디오 녹음이나 비디오테이핑과 같은 방법을 사용했는데, 이것을 이용하여 전문가들이 모니터링하여 직접 손으로 대본을 작성하는 방식으로 이루어졌다. 하지만 이런 전통적인 방법은 개인정보에 민감한 사람들에게 적용되기 힘들다는 한계점이 있다. 따라서 이 논문에서는 휴대폰을 이용하여 녹음 없이 자연스러운 대화에서 웃음을 탐지하는 실시간 웃음 탐지를 제안한다. 웃음 탐지는 크게 두 단계로 나뉜다. 첫째는 트레이닝 데이터로부터 웃음 모델과 웃음이 아닌 모델, 두개를 생성한다. 두번째는 모바일 마이크를 통해 들어오는 오디오를 일정한 크기로 잘라 웃음인지를 구별하는 단계이다. 이 두 단계를 실행하는 동안, 우리는 MFCC+GMM 알고리즘을 사용한다. 특정 화자의 말하는 순서를 파악하기 위한 volume-topography-based method를 이용하여, 이 시스템은 같이 웃는 웃음, 혼자 웃는 웃음, 마지막 순서의 웃음까지 탐지할 수 있다. 이 시스템은 또한, 통화 상의 웃음 탐지나 웃음 전후로 웃음 횟수의 변화, 그리고 첫번째 웃음이 발생한 후의 웃음 횟수 변화 또한 탐지할 수 있다. 이러한 응용 실험을 통해, 우리는 이 시스템이 웃음 연구에 실제로 적용될 수 있음을 보였다.