With the advancement of sensor technology, offline data collection has become possible, and many retail analytics companies are beginning to offer solutions that provide data collection and analysis. Thereby, store managers can grasp the status of their stores, thus trying to satisfy the customers' experience. Many of these efforts are carried out in order to secure regular customers for continuous store management and profit generation. To get closer to customers, companies strive to understand customers' interest and profile. Furthermore, they make an effort to predict customers' potential lifetime values, purchasing patterns, revisits, and stickiness. Among these objectives, customer revisit is a feasible and valuable metric to study since it can be recognized by only using customer foot-traffic data. This is very important to note since purchase data and user profiles are considered as proprietary information and difficult to obtain outside the company, but customer mobility becomes relatively easy to obtain through location monitoring technology once we get the customers' permission through their mobile device.
By knowing customers' visitation pattern, store managers can indirectly gauge the expected revenue. Targeted marketing can also be available by knowing customers' revisit intention. By offering discount coupons, merchants can encourage customers to accidentally revisit a store nearby. Also, they can offer a sister brand with finer products to provide new shopping experiences to loyal customers. In this way, they can increase the revenue as well as satisfy their customers. My thesis focuses on these closely related questions---revisit prediction---to capture the potential regular customers of the store. To achieve the goal, we formally design predictive analytics and develop two frameworks using mobility data captured from in-store sensors.
In the first part, we introduce a traditional machine learning model with carefully designed handcrafted features. We design extensive handcrafted features using semantic areas of the stores, and we investigate the predictive powers of feature groups and semantic levels of areas. We confirm the effectiveness of considering customer mobility by showing the performance improvement of 4.7-24.3%. Furthermore, we provide an in-depth analysis regarding the effect of the data collection period as well as missing customers. Throughout this chapter, we look forward to sharing a series of processes to solve the predictive analytics problem by finding the right features.
In the second part, we introduce a survival analysis model powered by a deep architecture. We propose this model to challenge more realistic prediction settings having partial observations with the imbalanced distribution. Unlike the framework in the first part, our new SurvRev model can predict the event rate of the next 365 days for each visit. We are able to handle partial observations by survival analysis, and the underlying deep learning architecture effectively learns the hidden representation of customers and their visits. By optimizing a custom loss function, our SurvRev model can be tuned for various prediction purposes. Throughout this chapter, we introduce our various efforts to refine the model and verify its superiority over other revisit prediction models.
We successfully apply our models to mobility datasets collected from seven flagship stores in downtown Seoul, including more than 5.7 million visits over 2.5 years. For fertilizing research, we also release a benchmark dataset of customer indoor movement patterns. We hope that our research and datasets can be used for offspring studies that require understandings of customers' shopping patterns.
센서 기술의 발전으로 오프라인 환경에서 대량의 고객 데이터 수집이 이루어지고 있다. 수집된 데이터를 기반으로 다방면의 분석 결과를 제공하는 솔루션은 운영하는 매장의 지표들 모니터링을 가능케 하였고, 관리자들은 정량적인 분석을 통해 타깃 마케팅, 매대 배치 변경 등 만족스러운 고객 경험을 위한 조치를 취할 수 있게 되었다. 이러한 노력의 궁극적인 목표는 지속적인 수익 창출인데, 이를 위해서는 고객의 잠재적 가치를 높일 수 있는 재방문을 끌어내는 것이 매우 중요하다.
본 학위 논문에서는 매장 내부에서 수집된 센서 데이터를 활용한 고객의 재방문 예측의 중요성을 설명하고 두 가지 예측 모델링 기법을 제시한다. 재방문이란 지표를 잘 예측하게 되면 상점 관리자는 고객의 방문 패턴을 파악하여 예상 수익을 간접적으로 측정할 수 있다. 또한 고객의 재방문 의도를 알면 고객군별 타깃 마케팅을 활용할 수 있다. 타깃 마케팅의 예로, 단골에게는 상위 브랜드를 추천하여 다양한 경험을 제공하는 동시에, 재방문 의지가 낮은 고객에게는 현재 방문 안에 대량 구매를 유도하거나 공격적인 할인 정책을 제공함으로써 고객의 재방문을 유도하고 객단가를 높이는 효과를 얻을 수 있다.
재방문 예측을 위해 매장 내부에서 수집된 센서 데이터를 활용하였는데 이는 쇼핑할 때에 발생하는 고객의 이동 경로를 활용하기 위함이다. 매장 안에서 발생하는 데이터만 수집할 수 있다는 조건하에, 매장 내부에서의 이동 경로는 와이파이 핑거프린팅 기술이 적용된 센서를 매장 곳곳에 설치하는 방법으로 비교적 쉽게 얻을 수 있기 때문이다. 마찬가지로, 재방문이라는 지표 역시 기기의 고유 ID 값을 바탕으로 확인할 수 있다. 이외에도 고객의 재방문과 관련이 있는 특성들로는 신상 정보나 주로 방문하는 장소들, 기 방문에서 얻을 수 있는 구매 정보 등이 있지만, 복합적인 고객 관리 시스템이 존재하거나 애플리케이션 등을 통해 고객의 위치 정보를 확보한 경우만 한정적으로 입수할 수 있다.
본 논문의 첫 번째 파트에서는 센서들로부터 얻어진 데이터만으로 고객의 재방문을 결정짓는 다양한 특성을 디자인하였고, 이러한 특성들을 적용한 기계 학습 모델이 그렇지 않은 모델에 비해 재방문 예측에 4.7-24.3%만큼 효과적임을 입증하였다. 특히 방문 횟수가 적어서 예측이 힘들었던 고객군에서 이러한 특성들이 재방문 예측에 매우 효과적임을 밝혔다. 이외에도 설계한 특성들의 설명과 함께 각 특성 그룹별 예측력을 살펴보았으며, 고객의 데이터 대부분이 누락되는 상황에서도 재방문 예측 모델의 성능이 유지됨을 실험적으로 보였다. 또한 데이터 수집 기간의 변화에 따른 모델의 성능과 센서 데이터를 활용할 때 주의해야 할 점을 고찰하였다. 이 파트에서 소개한 특성 모델링 기법부터 다양한 실험 세팅 및 결과 분석론까지의 일련의 프로세스들은 다양한 예측 문제에도 적용될 수 있다.
본 논문의 두 번째 파트에서는 딥 러닝과 생존 분석 방법을 결합하여 부분적으로만 관측된 고객 데이터를 놓치지 않고 활용하는 방안을 제안한다. 고객의 방문 횟수가 적은 경우, 부분 관측 데이터가 필연적으로 발생할 수밖에 없는데, 부분 관측 데이터의 경우 재방문 간격 정보가 존재하지 않아 회귀분석을 활용한 기존 기계 학습 모델에서 활용하기에 어려움이 있다. 생존 분석 기법을 활용하면 부분 관측 데이터를 활용할 수 있지만, 고객의 매장 방문 간격과 널리 알려진 분포는 확연히 다르기 때문에 생존 분석 기법을 적용하기 위한 기본적인 가정들을 무시하게 된다. 분포를 가정하지 않으면서, 고객의 방문 간격을 보다 정교하게 학습하기 위해 이산적 재방문율을 출력하는 딥 러닝 모델을 제안하였다. 제시하는 SurvRev 프레임워크는 딥 러닝 모델과 생존 분석 모델의 조합을 통해 각 방문에 대해 고객의 방문 이후 365 일간의 재방문율을 예측할 수 있는 모델이다. 재방문 예측의 다양한 지표들을 보다 잘 반영하기 위하여 SurvRev 모델은 다양한 손실 함수를 최적화한다. 또한 실험 결과를 통해 SurvRev 모델이 기존 방법론들에 비해 우수함을 입증하였다. 이 파트에서는 데이터 마이닝 문제에서 생기는 중요한 이슈를 모델의 개선을 통해 해결하는 방법을 서술하고자 하였다.
재방문 예측 모델의 적용을 위해 우리는 서울 도심에 위치한 7개 주요 매장에서 2.5년 간 570만 건 이상의 실내 이동 패턴 데이터를 수집하였고, 일부를 정제하여 벤치마크 데이터 세트로 공개하였다. 본 연구 및 데이터가 고객의 쇼핑 패턴을 탐구하는 다양한 후속 연구들에 활용되길 바란다.