Data allows us to figure out the information about the customers without directly observing their behaviors. Service providers can easily accumulate and utilize information about the customers as digitalization progresses in various fields such as commerce or healthcare. However, problem-solving with a data-driven approach requires preprocessing of data and model application (e.g., economic or machine learning models) as information from raw data such as customers’ demographics (e.g., gender or age), purchase history, or app logs cannot solely provide practical implications. This dissertation comprises two essays that discover and utilize the hidden information through the data. The first essay examines customers’ responses to the advertising strategy which intentionally conceals the information about the product at the beginning of the ad, by conducting large-scale field experiments with a book retailer. The second essay detects Parkinson’s Disease patients in the early stage by using time-sequential diagnostic history data with the Long Short-Term Memory algorithm.
데이터는 우리가 직접 소비자(개인)을 관찰하지 않고도 소비자들에 대한 정보를 알 수 있게끔 해준다. 커머스, 헬스 등 다양한 분야에서 디지털화가 진행됨에 따라 서비스 공급자는 소비자에 대한 정보를 쉽게 축적하고 활용할 수 있게 되었다. 한편, 원시 상태의 데이터로부터 직접 얻을 수 있는 정보는 제한적이다. 소비자의 성별과 나이, 구입했던 물건에 대한 기록, 서비스 방문 시각과 같은 정보는 그 자체로는 실질적인 함의를 주기 어렵기 때문에 추가적인 데이터 가공, 경제학 및 기계 학습 모형 적용 등을 통해 데이터가 담고 있는 숨은 정보를 찾아내야 한다. 두 에세이로 구성된 본 논문에서는 데이터 속 소비자가 가진 숨은 정보를 발굴하고 활용하는 방안에 관해 연구하였다. 첫번째 연구에서는 데이터를 통해 소비자가 가진 호기심을 추구하는 성향과 광고에 대한 기피성을 파악하고 이를 전략적으로 활용하는 방안을 대규모 현장 실험으로 모색하였다. 두번째 연구에서는 국민건강보험 데이터를 활용하여, 환자가 가진 과거 진단이력 정보를 순환 신경망 계열의 알고리즘으로 학습시켜 환자의 파킨슨병 발병 위험을 발굴하였다.