Simple, short, and compact hashtags cover a wide range of information on social networks. Although many works in the field of natural language processing (NLP) have demonstrated the importance of hashtag recommendation, hashtag recommendation for images has barely been studied. In this paper, we introduce the HARRISON dataset, a benchmark on hashtag recommendation for real world images in social networks. The HARRISON dataset is a realistic dataset, composed of 57,383 photos from Instagram and an average of 4.5 associated hashtags for each photo. To evaluate our dataset, we design a baseline framework consisting of visual feature extractor based on convolutional neural network (CNN) and multi-label classifier based on neural network. Based on this framework, two single feature-based models, object-based and scene-based model, and an integrated model of them are evaluated on the HARRISON dataset. Our dataset shows that hashtag recommendation task requires a wide and contextual understanding of the situation conveyed in the image. As far as we know, this work is the first vision-only attempt at hashtag recommendation for real world images in social networks. We expect this benchmark to accelerate the advancement of hashtag recommendation.
소셜 네트워크 상에서 해시태그는 짧고 간단하면서 매우 다양한 정보를 포함하고 있다. 해시태그 추천에 관한 연구는 자연어 처리 분야에서 활발하게 연구되어 그 중요성을 인정 받아 왔지만, 영상 정보를 이용한 해시태그 추천 문제는 거의 연구되고 있지 않다. 본 논문에서는 소셜네트워크 상의 실제 영상들에 대해 해시태그를 추천하는 연구의 기준이 되는 HARRISON 데이터셋을 구축하였다. 이 데이터셋은 57,383 장의 실제 영상들로 이루어져 있으며, 각 영상에는 평균 4.5 개의 해시태그가 달려있다. 또한, 베이스라인 알고리즘은 컨벌루셔널 뉴럴 네트워크를 이용한 영상 특징 추출 단계와 뉴럴 네트워크를 이용한 해시태그 분류 단계로 구성하였고, 이를 바탕으로 물체 기반의 영상 특징과 장면 기반의 영상 특징을 각각 이용한 두 가지 모델과 두 영상 특징을 모두 이용하는 모델을 설계하였다. 본 연구를 통해 해시태그 추천에 관한 연구가 광범위한 영상 정보의 이해와 상황의 맥락에 대한 이해를 필요로 한다는 것을 보여주었다. 본 연구는 영상 정보만을 이용한 첫번째 시도로 이 데이터셋이 해시태그 추천에 관한 연구의 발전에 큰 도움이 될 것으로 기대된다.