Case-Based Reasoning (CBR) has been used in various problem-solving areas such as financial forecasting, credit analysis and medical diagnosis. However, conventional CBR has several limitations that decrease its predictability and availability. In this paper, we address three issues of CBR and suggest new CBR methods for overcoming the limitations by statistical analysis.
One of the limitations of conventional CBR is that it uses a fixed number of neighbors without considering an optimal number for each target case, so it does not guarantee optimally similar neighbors for various target cases. This leads to the weakness of lowering the predictability due to deviation from desired similar neighbors. Thus, we suggest a new case extraction technique called Probabilistic Case-Based Reasoning (PCBR) using statistical distribution of distances between cases in this paper. The main idea involves a dynamic adaptation of the optimal number of neighbors by considering the distribution of distances between potential similar neighbors for each target case. In order to do this, our technique finds the optimal distance threshold and selects similar neighbors satisfying the distance threshold criterion. This method overcomes the limitation of conventional CBR, and provides improved classification accuracy.
However, CBR methods still have the limitation on not being able to incorporate asymmetric misclassification cost. Thus, our second suggestion is the creation of a new CBR method called Cost-Sensitive Case-Based Reasoning (CSCBR) that can incorporate unequal misclassification cost. PCBR as well as conventional CBR assumes that the cost of type1 error and type2 error are the same, so it cannot be modified according to the error cost of each type. This problem provides major disincentive to apply CBR to many real world cases that have different costs associated with different types of error. CSCBR dynamically adapts both the classification boundary point and the number of neighbors that minimize the total misclassification cost according to the error costs. This technique uses a Genetic Algorithm (GA) for finding these two feature vectors of CSCBR.
Third, we suggest a new interactive CBR model called Grey-Zone Case-Based Reasoning (GCBR) that makes decisions with additional attention for the cases near the cut-off point by interactive communication with users. CBR models often solve problems by retrieving multiple previous cases and integrating those results. However, conventional CBR makes decisions by comparing the integrated result with the cut-off point irrespective of the degree of the adjacency between them. This can cause increasing misclassification error for the target cases adjacent to the cut-off point, since the results of the previous cases that were used to produce those results are relatively inconsistent each other. Thus, GCBR classifies results automatically for the cases placed outside the cut-off point boundary area. On the other hand, it communicates with users to make decisions more carefully for the cases placed inside the area by verifying characteristics of the dataset. We suggest the architecture of GCBR and implement its prototype. We apply these three methods to real life datasets and compare the results with the other learning methods, C5.0, CART, logistic regression, neural networks and conventional CBR.
사례기반추론 기법은 과거사례로부터 지식을 추출하여 현재의 문제해결에 활용하므로 경험적 지식이 중요시 되는 분야에 적합한 방법으로 인식되고 있다. 그러나, 기존 사례기반추론 기법에는 몇 가지 한계점들이 존재하며, 본 논문은 이러한 한계점들을 살펴보고 이를 극복하기 위한 세 가지 새로운 사례기반추론 방법들을 제안한다.
1장에서는 본 연구를 수행하게 된 동기와 전반적인 개요를 설명한다.
2장에서는 기존 사례기반추론 기법의 한계점들을 살펴보고, 특히 의료분야를 중심으로 본 연구를 수행하게 된 이유를 설명한 후, 기존의 다양한 지식 추출 기법들이 의료분야에 적용된 현황을 파악한다.
3장에서는 확률적 유사성에 기반하여 사례를 추출하는 Probabilistic Case-Based Reasoning (PCBR) 기법에 대하여 제안한다. 기존의 사례기반 추론방법은 과거의 유사사례(neighbors)를 복원 시 고정된 수의 사례를 복원하므로 각 목표사례(target case)에 적합한 최적의 유사사례를 복원하지 못하는 문제가 있다. 이는 목표사례와 유사한 과거 사례들이 지정된 수보다 많이 존재하는 경우에는 일부 사례가 누락되고, 반면 적을 경우에는 유사하지 않은 사례들까지도 유사사례로 선정되는 문제를 야기시켜 예측의 정확성을 떨어뜨리게 된다. PCBR은 확률적 유사성에 기반하여 각 목표사례에 적합한 과거사례를 동적으로 복원하므로 기존 사례기반추론의 문제를 해결하고 분류의 정확도를 향상시키는데 기여한다.
4장에서는 비대칭오류비용을 고려한 사례기반추론 기법인 Cost-Sensitive Case-Based Reasoning (CSCBR) 기법을 제안한다. 기존 사례기반추론 기법들은 type1 오류와 type2오류의 비용이 상이한 경우 이를 모형에 반영하지 못하는 문제가 있다. 이는 의료분야와 같이 질병이 존재함에도 없다고 진단하는 type 1오류가 질병이 없는데도 있다고 진단하는 type2 오류보다 훨씬 심각한 결과를 야기하는 문제에 사례기반추론 기법을 적용하는데 있어서 치명적인 한계점으로 작용한다. CSCBR은 비대칭 오류비용을 모형의 학습단계에 반영하여 전체오류비용을 최소화시키는 모형을 도출함으로써 비대칭 오류비용을 갖는 분야에 사례기반추론 기법이 활용될 수 있도록 하는데 도움을 준다.
5장에서는 분류의 경계점 주변에 인접한 사례들을 사용자와의 의사소통 및 추가적인 분석을 수행하여 신중하게 분류하도록 지원하는 Grey-Zone CBR (GCBR) 기법의 프로토타입을 제시한다. 기존의 사례기반추론 기법들은 경계점과 인접한 정도에 상관없이 경계점 보다 큰 지 작은 지에 따라서 분류를 수행하였다. 예를들어, 질병이 없을 경우를 0으로, 질병이 있을 경우를 1로 표시하고 경계점을 0.5라고 하면, 결과값이 0.501인 사례와 1인 사례는 모두 질병이 있다고 분류된다. 그러나, 결과값 1의 의미는 과거의 모든 유사사례들의 결과가 질병이 있다는 것인 반면, 결과값 0.501은 과거의 유사사례들 중 질병이 있는 사례가 없는 사례보다 조금 많다는 의미이므로 과거사례들이 결과를 지지하는 정도는 매우 다르다고 볼 수 있다. GCBR은 과거사례에 기반한 확실성을 certainty-percentage로 파악한 후, 이 수치가 낮은 사례에 대해서는 추가적인 분석을 수행하여 결과를 도출하도록 하는 대화식 (interactive) 사례기반추론 기법으로 경계선에 인접한 사례들에 대한 분류의 정확도를 높이고자 한다.
마지막으로 6장에서는 연구의 기여도 및 결론을 설명하고 향후 연구 방향을 제시한다.