In this paper, we classified smartphone customers using Instagram data centered on images, texts, and hashtags. There is a statistical result that Instagram induces a lot of user engagement with image or video content compared to other SNS (www.smartinsight.com. 2020). I would like to propose a method to identify the smartphone brand by conducting personality traits analysis based on word frequency of Instagram posts and image pattern analysis by utilizing the advantages of Instagram. Through the Instagram hashtag usage pattern, we analyzed 2072 smartphone users in the United States, who were identified as smartphone users of a specific brand. We derived personality traits based on the word patterns of the text, and based on this, we performed logistic regression analysis to verify whether the personality traits based on the word patterns could contribute to the machine learning model that classifies the Galaxy S9 and iPhone X, which are representative smartphone brands. In addition, by selecting image objects related to the user behavior pattern, logistic regression analysis was further performed based on the pattern analysis results to confirm whether the image objects are related to the smartphone classification. Finally, two classification models based on ensemble machine learning were created to verify that the proof of this hypothesis works in real business. 1) Various machine learning classification models by combining personality characteristics based on word pattern analysis and user behavior characteristics based on image pattern were evaluated, and smartphone brand classification model based on Random Forest algorithm with the highest accuracy (Predictive accuracy 76%) was created. 2) An ensemble classification model (Random Forest + XGBoost) (Predictive accuracy 77%) was created for a multinomial classification that can simultaneously estimate representative personality traits and smartphone brands based on image pattern-based user behavior characteristics.
본 논문에서는 이미지와 텍스트, 해시태그를 중심으로 하는 인스타그램 데이터를 이용하여 스마트폰 고객 분류를 진행하였다. 인스타그램은 다른 SNS과 비교해서 이미지나 비디오 컨텐츠로 사용자 참여를 많이 유도한다는 통계 결과가 있다 (www.smartinsight.com. 2020). 이와 같은 인스타그램이 가지는 장점을 활용하여 인스타그램 게시글의 단어 빈도수 기반 개인 성향 분석과 이미지 패턴 분석을 진행하여 스마트폰 브랜드를 식별하는 방법을 제안하고자 한다. 인스타그램 해시태그 사용 패턴을 통해 특정 브랜드 스마트폰 사용자로 도출된 2072명의 미국지역 스마트폰 사용자를 분석하였다. 텍스트의 단어 패턴을 기반으로 개인 성향을 도출하고 이를 기반으로 단어 패턴 기반의 개인 성향이 대표적인 스마트폰 브랜드인 갤럭시 S9와 아이폰 X를 분류하는 기계학습 모델에 기여할 수 있는가 검증하기 위해 로지스틱 회귀 분석을 진행하였다. 뿐만 아니라 사용자 행동 패턴과 연관성이 있는 이미지 오브젝트들을 선정하여 이에 대한 패턴 분석 결과를 기반으로 로지스틱 회귀 분석을 추가로 진행하여 스마트폰 분류에 이미지 오브젝트가 연관성이 있는가를 확인하였다. 최종적으로 본 가설의 증명이 실제 비즈니스에서 유의미하게 동작되는지 확인하기 위해 앙상블 기계학습 기반 두가지 분류모델을 만들었다. 1) 단어 패턴 분석 기반의 개인 성향 특성들과 이미지 패턴 기반의 사용자 행동 특성들을 종합하여 여러가지 머신러닝 분류 모델들을 평가하고 가장 정확도가 우위에 있는 랜덤 포레스트 알고리즘 기반의 스마트폰 브랜드 분류모델(예측 정확도 76%)을 생성하였다. 2) 이미지 패턴 기반의 사용자 행동 특성들로 대표 개인 성향과 스마트폰 브랜드를 동시에 추정할 수 있는 다항 분류 앙상블 모델(랜덤 포레스트 + XGBoost)을 (예측 정확도 77%) 생성하였다.