서지주요정보
Hybrid data mining model for managerial classification : feature weighting and classifier combination = 경영 분류를 위한 통합형 데이타 마이닝 모형 : 변수 가중치 분석 및 복수 분류기 결합
서명 / 저자 Hybrid data mining model for managerial classification : feature weighting and classifier combination = 경영 분류를 위한 통합형 데이타 마이닝 모형 : 변수 가중치 분석 및 복수 분류기 결합 / Sung-Woo Shin.
저자명 Shin, Sung-Woo ; 신성우
발행사항 [대전 : 한국과학기술원, 2001].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8012619

소장위치/청구기호

학술문화관(문화관) 보존서고

DGSM 01020

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

등록번호

9007539

소장위치/청구기호

서울 학위논문 서가

DGSM 01020 c. 2

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The task of classification permeates all walks of life, from business and economics to science and engineering. In this context, nonlinear techniques from artificial intelligence have often proven to be more effective than the methods of classical statistics. In many managerial classification problems, the volume of accumulated data is relatively small compared to applications in science and engineering. Furthermore, the classifier’s capability to handle small datasets and to explain classification result is an important advantage. In this context, lazy learning algorithms (LLAs) provide an effective approach. Furthermore, an LLA is often effective even where human expertise is unavailable or even nonexistent. This thesis proposes a series of effective feature weighting algorithms for LLAs based on elementary data mining methodologies. One approach involves the use of mutual information arising from an inductive decision tree as the weight for a feature. A second method relies on the judicious interpretation of weight connections from a trained neural network as a measure of the importance of a feature. The two basic approaches to feature weighting are compared to the selection of features by a genetic algorithm (GA). Subsequently, a combined approach is suggested as a cost-effective solution. In relation to the LLA-based combination of multiple classifiers (CMC), we propose an efficient meta-classifier architecture based on the assumption that uncorrelated subsets of features will generate independent classifiers toward an oracle. To overcome the limitations of kNN-based boosting using a straightforward approach, we propose an improved feature-weighted boosting algorithm for the kNN classifier. Moreover, we propose a kNN-directed noise injection scheme to enhance the effect of the boosting procedure by expanding the original dataset in a fortuitous fashion. Finally, we discuss a decision flipping approach. The methodology takes an advantage of the correlated errors of individual classifiers. A primary goal of the research is to develop useful tools for managerial applications. To this end, three representative domains are investigated. One type of application relates to the marketing domain: database marketing represents a typical data mining task while consumer choice is another central issue in marketing. The second category pertains to the medical domain: the diagnosis of hepatitis and of diabetes. A third group of applications involves financial domain: in particular, credit approval and bankruptcy prediction. The proposed methods tend to outperform existing approaches in terms of efficacy or efficiency. More specifically, the new procedures yield higher accuracy at a statically significant level, or provide similar accuracy at less computational cost.

분류의 문제는 경영, 경제를 비롯한 자연과학, 공학의 모든 분야에서 주요한 문제로 자리잡고 있다. 이러한 상황하에서 인공지능을 기반으로 하는 비선형 데이타 마이닝 기법들은 많은 실제 문제분야에 있어서 전통적인 통계모형에 비해 효과적인 방법론으로 연구, 보고되어왔다. 많은 경영문제에 있어서, 분류를 위해 축적된 자료의 규모는 자연과학이나 공학분야에 비해 상대적으로 매우 작을 뿐 아니라, 분야의 특성상 예측된 결과에 대한 설명력을 보유한 모형이 요구되어진다. 이러한 측면에서 사례기반 분류방법론은 많은 장점을 지니고 있으며, 또한 문제영역에 대한 전문가적 소견이 부족한 영역에서도 성공적으로 적용, 검증되어왔다. 그러한 성공적인 많은 연구에도 불구하고, 사례기반 방법론은 그 기법의 특성상 종속변수에 무관한 변수가 다수 존재하거나 잡음이 존재하면 그 유효성이 급격히 저하되는 중요한 단점이 내재되어 있다. 또한 모든 문제영역에서 탁월한 성능을 갖는 공통된 기법의 개발은 아직도 난제이며, 특정 영역에서의 우수한 방법론의 개발도 매우 어려운 문제중의 하나로 인식되어지고 있는 상황에서, 패턴인식분야를 위시한 경영정보분야에서 최근에 다수 분류기를 효율적으로 결합하여 분류율을 개선하기 위한 연구가 각 분야별로 많은 성공적인 사례를 보고하고 있다. 그러나 사례기반 방법론의 경우, 인공신경망이나 의사결정나무와 달리 다른 분포의 학습데이타를 사용하더라고 기본 분류기의 안정성으로 인해 복수분류기 결합을 통한 효과가 없다는 문제점이 존재하고 있다. 따라서, 본 논문은 경영분야에서 매우 성공적으로 정착되고있는 사례기반 분류기법의 이러한 단점을 극복하기위한 동기에서 출발하여 새로운 방법론을 제시하고 마케팅, 재무 및 의료분야에서의 대표적인 이진 분류문제를 통하여 그 유효성을 검증함을 목표로 하였다. 첫번째, 변수선정 및 가중치분석과 관련하여 본 논문에서는 기존에 학습된 인공신경망을 해석하여 규칙베이스를 자동생성하는 관련분야의 연구와, 인공신경망 구조의 최적화 관련연구에서 발전되어 온 학습된 인공신경망의 가중치 구조해석관련 연구결과를 유형별로 분류하고, 입력노드로부터의 가중치에 대한 해석을 변수의 가중치로 변환하여 변수선정 및 가중치분석의 기법으로 제시하여 그 유효성을 검증하였다. 또한 변수선정과 가중치분석의 과정은 최적화과정으로 탐색공간이 증가하는 경우 유한 시간내에 해를 찾을 수 없는 난제로서 본 논문에서는 복수 기준의 적합성 함수를 이용한 유전자알고리즘 탐색기법을 통해 효율적인 해결책을 제시하였다. 또한 유전자알고리즘을 이용한 변수선정과 그에따른 인공신경망을 이용한 가중치분석을 결합한 모형을 효율적인 모델로 제시, 그 유효성을 검증하였다. 두번째, 복수분류기 결합과 관련하여 다수의 사례기반 모형의 불안정성을 유도하여 분류기 사이의 독립성을 유지키위하여, 본 논문에서는 제시된 가중치분석 모형을 이용하여 유효한 결합모형을 제시한다. 또한 패턴인식분야에서 현재 가장 우수한 기법으로 인정되고있는 부스팅기법과의 연계 모형을 제시하였다. 특히 이진분류문제를 위해, 학습 자료상에서의 다수 분류기간의 공통적인 오류현상을 해석하여 특정영역에서 결합된 복수 분류기의 반대의견을 제시함으로써 분류율의 개선 방안을 제시하였다. 각 제시된 방법론은 데이타베이스 마케팅, 소비자행동을 포함하는 마케팅 분류문제와 부도예측, 신용승인의 재무 분류문제 또한 의료진단 문제를 통하여 경영의 주요한 문제영역에서의 적용성을 검증하였다. 본 논문에서 제시하고있는 이진분류 문제를 위한 방법론은, 향후 많은 경영분야의 복수분류 문제로 일반화될 수 있는 과정이 필요하며, 특정 문제분야를 위한 이론적 또는 실험적 연구가 보완되어야 할 것으로 사료된다.

서지기타정보

서지기타정보
청구기호 {DGSM 01020
형태사항 ix, 160p : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 신성우
지도교수의 영문표기 : In-Goo Han
지도교수의 한글표기 : 한인구
수록잡지명 : "Identifying the impact of decision variables for nonlinear classification tasks". Expert systems with applications, v.18, pp.201-214 (2000)
학위논문 학위논문(박사) - 한국과학기술원 : 경영공학전공,
서지주기 Reference : p. 152-160
주제 Data mining
Machine learning
Artificial intelligence
Feature weighting
Classifier combination
데이타 마이닝
기계학습
인공지능
변수 가중치 분석
복수 분류기 결합
QR CODE qr code