Essay 1. Data preprocessing evaluation: an extended role of Benford’s Law
Sophisticated anti-fraud systems for the healthcare sector have been built based on several statistical methods such as neural networks, decision trees, and genetic algorithms. However, these algorithms consume considerable time and cost, and lack a theoretical basis to handle large-scale data. Hence, this study proposes an efficient data analysis solution in terms of scalability and speed for handling large volumes of healthcare data. We first extend mathematical theory to demonstrate the manner in which large-scale data conform to Benford’s Law: the aggregated data from various sources of distribution follow the Benford distribution. Then, we test its applicability empirically using actual large-scale healthcare data from Korea’s Health Insurance Review and Assessment (HIRA)-ational Patient Sample (NPS) of symptoms, treatment, and medical costs for patients. Given that government health departments and private insurance firms have rapidly aggregated and digitized large and complex datasets, Benford’s Law can be used as a suitable instrument for detecting irregularities in payment for medical services from large-scale healthcare data. Thereby, it can also help them reduce administrative time and expenses, with unnecessary medical expenses kept under control.
Essay 2. Quantitative marketing model for context-dependent consumption preferences
Marketers have long been interested in understanding how, and the extent to which, consumer choices may be influenced by the context in which the product is consumed. In this paper, we develop a parsimonious context-dependent multidimensional unfolding (CDMDU) model that can accommodate consumers’ context-specific ideal points in multi-attribute space along with brand locations in that space. The specification allows for unobserved heterogeneity via a normal distribution on attribute weights and a discrete distribution on brand locations and ideal points. The CDMDU model is flexible and reduces to a factor structure random coefficients brand choice model when there is only one consumption context. We also demonstrate how the CDMDU model can be used to derive a firm’s optimal direction of brand re-positioning given its competitive landscape in the various consumption contexts and provide an empirical illustration using panel data from consumers in the U.S. beer market. A key observation when repositioning a brand is that consumer preferences can be correlated across contexts; so a movement towards the ideal point in one particular context does not necessarily improve the firm’s market competitiveness in other consumption contexts and can therefore hurt its overall performance in the market.
최근 통신의 발달과 다양한 스마트 디바이스의 발전, 데이터 저장장치의 성능향상, 그리고 소셜 네트워크의 활성화로 인해 매일 수많은 데이터 및 콘텐츠가 생산 소비되고 있다. 이로 인해 데이터 시장의 규모도 성장이 가속화 되고 있다. 또한 데이터를 처리하는 방법 뿐만 아니라 관련 마케팅 분석 모델에 대한 관심이 증가되고 있는 추세이다. 본 학위논문은 데이터 분석 방법론에 대한 데이터 전처리 평가(data preprocessing evaluation)와 수리 모형 개발(development of mathematical models)에 대한 고찰을 담고 있다. 분석(analytics)이란 데이터로부터 의미 있는 패턴을 발견하는 것으로 의사결정 전체의 한 부분으로서 궁극적으로는 적용 내지 실행을 목표로 한다는 점을 염두에 둘 필요가 있다.
먼저 첫 번째 에세이에 관한 연구 요약은 다음과 같다. 분석 작업의 전제가 되는 것은 정확한 소스 데이터이다. 그러나 현실에서는 원 소스 데이터의 품질이 불완전하고, 오염되거나 (즉, 잡음이 있거나) 혹은 서로 모순된 내용을 담고 있어 일관성을 잃은 경우가 많다. 데이터의 전처리란 이를 제거수정하여 최대한 소스 데이터의 정확성을 높이는 것을 말한다. 나아가 중요성이 현저히 낮은 데이터가 과도하게 많이 포함된 경우 이들을 적절히 축소 조절하여 관리와 사용이 용이한 형태로 변경시켜 준다. 기존에 다양한 전처리 방법이 개발되었지만, 이러한 알고리즘은 상당한 시간을 소비한다. 또한 대용량 데이터를 처리할 때 알맞는지 수학적인 이론적 근거가 부족하다. 첫 번째 에세이에서는 벤포드 법칙을 확장한 새로운 접근법을 제안한다. 대규모 데이터에서도 본 법칙이 적용가능함을 보여주기 위해 해석학을 바탕으로 수리적으로 증명했다. 이 후 건강보험심사평가원에서 얻은 실제 데이터를 사용하여 적용 가능성을 실험적으로 테스트했다.
두 번째 에세이에서는 소비 정황 별 선호도를 위한 수리 모델을 제안한다. 소비자 행동 연구에서 소비자가 같은 제품이라도 서로 다른 소비 상황에서 다른 선택을 할 수 있다는 소비 상황 별 선호도에 대한 오랫동안 논의가 이어져 왔다. 같은 제품이라도 소비 상황에 따라 소비자의 구매 성향이 달라진다면, 소비자는 상황에 따라 다른 여러 선호를 가질 수 있다는 주장이다. 대용량 데이터에서 누구와 함께, 어디에서, 언제 등의 소비자 소비 상황에 대한 데이터를 얻을 수 있다면, 시간, 장소 등으로 소비자의 소비 상황을 가정할 수 있다. 이어 본 수리 모델을 제품의 마케팅 전략에 다양하게 응용될 수 있을 것이다.