서지주요정보
(A) comparison of decision support tools = 의사결정 지원 도구들의 비교
서명 / 저자 (A) comparison of decision support tools = 의사결정 지원 도구들의 비교 / Joo-Min Lee.
발행사항 [대전 : 한국과학기술원, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8012710

소장위치/청구기호

학술문화관(문화관) 보존서고

MMA 02011

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Data mining (Berry and Linoff, 1997; Han and Kamber, 2001) is the process of uncovering previously unknown patterns and relationships in a large database using sophisticated statistical analysis and modeling techniques. The regression model, the decision tree and the neural network are the representative models for predictive modeling. These models have different characteristics and each has advantages and disadvantages. The regression model has several advantages including the ease of interpretation and the capability of representing the linear structure very well. But the regression model has disadvantages which are that this model assumes the linearity between input variables and the target variable and the independence of the input variables. The decision tree has several advantages including the ease of interpretation, the ability to model complex input/target associations and the ability automatically handle missing values without imputation. But the decision tree is less appropriate to predict the value of a continuous variable and the small perturbations in a train data set can sometimes have large effects on the structure of the tree. The neural network has several advantages including the versatility for approaching problems, the capability of producing good results in complicated domains and the capability of handling both continuous variables and categorical variables. But a drawback of the neural network is difficulty of interpretation of the model structure. We investigate important properties of each model through analyzing with real data. If any input variable containing missing values has a much effect on predicting a target variable, then the decision tree performs much better than the other two models. We examine the three models for credit scoring to illustrate this property. A drawback of the neural network is difficulty of interpretation. A reasonable effort for structure interpretation is using an approximation model for the model via the decision tree approach. We investigate the performances of the three models with several levels of missingness and about how the type of splitting at a node of the decision tree affects the performance of the resulting tree model.

데이터 마이닝의 대표적인 예측 모형은 회귀분석, 의사결정나무, 신경망모형이다. 회귀분석은 모형에 대한 이해와 해석이 쉽고, 일반적인 통계적 방법들이 사용되며, 선형 구조를 갖는 데이터에 대해 매우 좋은 결과를 도출해 낼 수 있다는 장점이 있다. 반면, 반응변수와 입력 변수들간의 선형성, 입력 변수들간의 독립성등의 가정이 필요하고, 비선형 구조를 갖는 데이터에 대해 좋은 결과를 도츨해 내지 못한다는 단점이 있다. 의사결정나무는 모형에 대한 이해와 해석이 쉽고, 비선형 관계를 갖는 입력 변수들에 대해서도 좋은 결과를 도출해 낸다. 특히 결측치들을 하나의 입력변수처럼 다루는 것은 의사결정나무만이 가지고 있는 강점이다. 그러나 의사결정나무는 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성이 있고, 분석용 자료에만 의존하기 때문에 새로운 자료의 예측에서는 불안정할 가능성이 있다. 신경망은 연속형 변수, 비연속형 변수 모두에 대해 효과적인 결과를 도츨해 낸다. 또한 비선형성을 가지는 입력 변수들이나 상당히 복잡하고 까다로운 구조를 갖는 문제에 대해서도 좋은 결과를 도출해 낸다. 하지만 신경망은 모형을 해석하고 이해하는 것이 상당히 어렵다는 단점을 가지고 있다. 본 논문에서는 결측치를 갖는 입력 변수가 목표 변수를 예측하는데 매우 중요한 역할을 하는 데이터를 세개의 모형을 통해 예측해보고, 그 결과 의사결정나무가 다른 모형들에 비해 훨씬 뛰어난 예측력을 가진다는 것을 실험을 통해 살펴본다. 그리고, 의사결정나무 노드를 이용하여 신경망 모형을 해석하는 방법과 의사결정나무의 하나의 노드에서 분기되는 가지의 개수에 따라 모형의 예측력이 달라지는 것에 대해서도 살펴본다.

서지기타정보

서지기타정보
청구기호 {MMA 02011
형태사항 [ii], 34 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이주민
지도교수의 영문표기 : Sung-Ho Kim
지도교수의 한글표기 : 김성호
학위논문 학위논문(석사) - 한국과학기술원 : 응용수학전공,
서지주기 Reference : p. 32-33
주제 data mining
regression model
decision tree
neural network
assessment of the models
데이터 마이닝
회귀분석
의사결정나무
신경망분석
모델평가
QR CODE qr code