The objective of knowledge discovery and data mining is to support decision-making through the effective use of information. To an increasing extent over the past decade, software learning methods including neural networks and case based reasoning(CBR) have been used for prediction in financial markets and other areas.
CBR has been applied to many tasks, including the prediction. By extending the notion of an elementary case and using multiple neighbors, case reasoning can at times outperform neural networks, which perhaps represents the most widely used learning technique in practice.
This thesis shows that the nearest neighbor method has a limitation on applying to nonstationary time series forecasting and suggests an alternative nearest neighbor method to predict the nonstationary time series by adopting the process of model identification in ARIMA, and illustrates that this method can be used effectively in forecasting the sales data which is nonstationary time series.
최근 시계열 예측을 포함한 많은 부분에서 사례기반추론(Case based reasoning) 방법을 위시한 여러 가지 지식 추출 방법들이 연구되어 왔다. 전통적으로 시계열 예측을 하는데 있어서는 통계적인 기법으로는 Box-Jenkins ARIMA 모형이, 인공지능 분야에 있어서는 신경망(Neural networks) 모형이 많이 사용되어져 왔다. 한편 최근 사례기반추론의 한 기법으로서 Nearest neighbor method를 주가지수나 환율의 움직임 등과 같은 시계열 자료를 예측하는데 이용하고자 하는 노력이 있어 왔다. Nearest neighbor method는 축적된 지식이 한정되어 있거나 데이터베이스가 불완전할 경우에도 사용 가능하기 때문에 많은 연구가 이루어져 왔다. 그러나 Nearest neighbor method는 연구 결과 안정적 시계열(stationary time series)에 대해서는 비교적 높은 예측력을 보이지만, 추세(trand)를 가지고 있는 불안정적(nonstationary) 시계열에 대해서는 낮은 예측력을 보였다. 이에 본 연구에서는 이러한 추세에 의한 낮은 예측력을 극복하기 위한 방법으로, ARIMA 프로세스에서의 모델 설정 단계에서 사용하는 단위근 검정(Unit root test) 방법을 이용하여 불안정적 시계열을 안정적 u}챨瓦?? 변환한 후, Nearest neighbor method를 적용하는 방법을 택하였다. 인스턴트 커피와 혼합과즙음료의 판매량 예측에 대한 실험 결과 차분(differencing)에 의해 안정화된 데이터에서 Nearest neighbor method가 보다 높은 예측력을 보이는 것을 볼 수 있었다. 이는 Nearest neighbor method가 불안정적 시계열 상황하에서도 효과적으로 적용될 수 있음을 보여주는 것이다.