서지주요정보
(A) study on audiovisual deep features for video categorization = 영상 분류를 위한 시청각적 심층 특징에 관한 연구
서명 / 저자 (A) study on audiovisual deep features for video categorization = 영상 분류를 위한 시청각적 심층 특징에 관한 연구 / Sunghun Kang.
저자명 Kang, Sunghun ; 강성훈
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029119

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 16008

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Over the last few decades, many papers about video categorization have been published. Despite of rich information in videos, previous algorithms for video categorization mainly rely on fusing multiple visual features including static and motion information. On the other words, the previous models does not utilize the audio information. In this paper, we propose a framework of video categorization which utilize both visual and auditory information from given videos and investigate diffierent types of deep features. The framework consists of feature extractor for each modality and fusion to generate audiovisual feature. For visual feature, we fine-tuned the AlexNet to obtain better discriminative features and measured the performance. Two methods are used and evaluated for capturing audio information from videos, 1D-CNN and bag of word representation. The highest mean average precision scores are achieved audiovisual features which are consists of fine-tuned AlexNet and bag of word representation for MFCCs. From the results, we proved audiovisual features help to categorize videos without any degeneration of performance.

지난 수십년 간 지속적으로 연구가 되어왔던 영상 분류 기술은 많은 발전을 거뒀으며 영상 정보의 보편화와 함께 그 중요성이 커지고 있다. 현재, 기계학습 분야에서는 심화 신경망을 사용하여, 대향의 학습 데이터로부터 효과적인 특징을 스스로 학습하여 추출하는기법이 사용되고 있다. 영상 분류 연구 역시 심화 신경망 기법을 통하여 큰 성능 향상을 이뤄왔다. 하지만 영상에 풍부한 정보가 존재함에도 불구하고, 영상 분류를 위한 기존의 알고리즘들은 정적, 동적 시각정보에 의존하며 청각정보에 대한 접근은 이루어지지 않았다. 정지영상분류와 다르게 영상 분류에는 시각저옵만을 이용하여 효과적으로 분류할 수 없는 Context 가 존재하며, 이는 분류하기 위해서는 음성정보의 효과적인 이용이 필요하다. 본 연구에서는 영상 분류를 위해서 시각, 청각 특징을 모두 사용하는 새로운 프레임워크를 제안하고, 심화 신경망을 통하여 효과적인 특징을 추출하는 방법에 대해 연구하였다 실험 결과 시청각 특징을 사용한 영상 분류 모델의 경우 단일 모달리티만을 사용한 경우보다 더욱 높은 성능을 보이는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MEE 16008
형태사항 iv, 25 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 강성훈
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 20-21
주제 Video Categorization
Deep Learning
Audiovisual
Multi-modal
Convolutional Neural Network
영상분류
심화학습
시청각
멀티모달
컨볼루션 신경망
QR CODE qr code