For web mining, the biggest problem is the scarcity of data. All web mining procedures starts with the identification of the needed data items. To overcome the problem and prepare as many needed data as possible for business intelligent information, we propose backward induction procedures in web mining. Backward induction itself emphasizes the importance of data preparation in all stages of web mining. It identifies the needed data items before the mining stages with the given suitable procedures.
Web mining itself is an iterative process where data mining techniques are used back and forth and iteratively. To support backward induction and other web mining characteristics, the concept of scalability is very important. To accomodate the scalability needed in web mining process, we propose the reference web mining architecture in data warehouse environment. The referred web mining architecture has three kinds of scalabilities: the scalabilities of operational databases, the scalabilities of data model and the scalabilities of data mining engines. By following the backward induction procedures in web mining process, we can extract the business intelligent information from web mining.
웹을 사용하는 고객의 행동을 통해 의미있는 정보를 추출하고자 하는 웹 마이닝의 가장 큰 문제는 데이타의 양이 한정되어 있다는 것이다. 단순한 웹 로그를 통해서 얻어질 수 있는 정보는 한정이 되어 있는 관계로 의미있는 정보를 추출하기 위해서는 연관된 자료의 결합이 중요하다. 이를 지원하기 위해서 역진 귀납의 방법이 도입된다. 역진 귀납은 데이터를 주어진 것으로 간주하는 수동적인 관점에서 벗어나 능동적으로 연관된 데이터를 수집하는 역진적인 성격을 띠고 있다. 역진 귀납에서 제공하는 절차에 따라 자료 준비를 하는 경우, 체계적인 방법에 의해 더 많은 자료를 확보할 수 있다.
웹 마이닝 자체가 반복적인 성격을 가지고 있는 관계로 역진 귀납과 이러한 마이닝의 특성을 지원하기 위한 참고 모델이 요구된다. 본 논문에서는 데이터 웨어하우스 환경 상에서 구현된 참고 모델을 제공함으로서 역진 귀납과 여타의 데이터 마이닝의 특성을 지원하고 있다. 참고 모델은 세가지의 확장성을 가지는데 이는 데이터베이스의 확장성, 자료 구조의 확장성, 그리고 마지막으로 마이닝 엔진의 확장성을 가진다.
또한 성능평가에서는 가상적인 웹 사이트를 구성하고 이를 통해 자료를 모은 다음, 역진 귀납에 의해 요구되는 자료를 확보하였다. 그리고 이를 개인화, 시스템 향상, 사이트 개량, 업무 지식, 사용 현황 등의 정보 분석 요구에 따라 분석함으로서 역진 귀납에 의해 좀 더 고도의 정밀한 정보가 추출될 수 있음을 보였다.