Over the last few decades, many papers about video categorization have been published. Despite of rich information in videos, previous algorithms for video categorization mainly rely on fusing multiple visual features including static and motion information. On the other words, the previous models does not utilize the audio information. In this paper, we propose a framework of video categorization which utilize both visual and auditory information from given videos and investigate diffierent types of deep features. The framework consists of feature extractor for each modality and fusion to generate audiovisual feature. For visual feature, we fine-tuned the AlexNet to obtain better discriminative features and measured the performance. Two methods are used and evaluated for capturing audio information from videos, 1D-CNN and bag of word representation. The highest mean average precision scores are achieved audiovisual features which are consists of fine-tuned AlexNet and bag of word representation for MFCCs. From the results, we proved audiovisual features help to categorize videos without any degeneration of performance.
지난 수십년 간 지속적으로 연구가 되어왔던 영상 분류 기술은 많은 발전을 거뒀으며 영상 정보의 보편화와 함께 그 중요성이 커지고 있다. 현재, 기계학습 분야에서는 심화 신경망을 사용하여, 대향의 학습 데이터로부터 효과적인 특징을 스스로 학습하여 추출하는기법이 사용되고 있다. 영상 분류 연구 역시 심화 신경망 기법을 통하여 큰 성능 향상을 이뤄왔다. 하지만 영상에 풍부한 정보가 존재함에도 불구하고, 영상 분류를 위한 기존의 알고리즘들은 정적, 동적 시각정보에 의존하며 청각정보에 대한 접근은 이루어지지 않았다. 정지영상분류와 다르게 영상 분류에는 시각저옵만을 이용하여 효과적으로 분류할 수 없는 Context 가 존재하며, 이는 분류하기 위해서는 음성정보의 효과적인 이용이 필요하다. 본 연구에서는 영상 분류를 위해서 시각, 청각 특징을 모두 사용하는 새로운 프레임워크를 제안하고, 심화 신경망을 통하여 효과적인 특징을 추출하는 방법에 대해 연구하였다 실험 결과 시청각 특징을 사용한 영상 분류 모델의 경우 단일 모달리티만을 사용한 경우보다 더욱 높은 성능을 보이는 것을 확인하였다.