서지주요정보
Enhancements to the data mining process : a contingent approach with memory and neural network based learning system = 데이터 마이닝 프로세스의 상황적 방법론과 사례기반 추론-신경회로망의 통합적 이용에 대한 연구
서명 / 저자 Enhancements to the data mining process : a contingent approach with memory and neural network based learning system = 데이터 마이닝 프로세스의 상황적 방법론과 사례기반 추론-신경회로망의 통합적 이용에 대한 연구 / Chung-Kwan Shin.
발행사항 [대전 : 한국과학기술원, 2000].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8011470

소장위치/청구기호

학술문화관(문화관) 보존서고

DIE 00017

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9007679

소장위치/청구기호

서울 학위논문 서가

DIE 00017 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Data mining is the emerging science and industry of applying modern statistical and computational technologies to the problem of finding useful patterns hidden within large databases. This thesis describes the data mining process in a contingent approach and presents a novel method for the predictive data mining process. We propose a hybrid prediction system of neural network and memory based learning. Neural network (NN) and memory based reasoning (MBR) are frequently applied to data mining with various objectives. NN and MBR can be directly applied to classification and regression without additional transformation mechanisms. They also have strength in learning the dynamic behavior of the system over a period of time. In our hybrid system of NN and MBR, the feature weight set which is calculated from the trained neural network plays the core role in connecting both learning strategies and the explanation on prediction can be given by obtaining and presenting the most similar examples from the case base. Experimental results show that the hybrid system has a high potential in solving data mining problems.

데이터 마이닝은 인공지능의 기술을 이용하여 데이터에서 지식 (knowledge)를 뽑아내는 것을 목적으로 한다. 큰 규모의 데이터로부터 의사결정에 필요한 정보와 지식을 얻어낸다는 점에서는 기존의 통계학과 지향하는 목표는 같다고 생각할 수 있으나, 몇 가지 차이점이 있다. 통계학에서는 모집단의 분토에 대한 가정을 하고 모수를 추정하기 때문에 모수적 접근방법 (parametric approach) 라고 할 수 있다. 반면, 데이터 마이닝은 기계학습(machine learn-ing)방법을 주로 이용하는 비모수적 접근방법 (non parametric approach)이며, 모집단에 대한 어떠한 가정도 요구하지 않는다. 통계학의 목적이 모집단의 이해에 있었다면, 데이터 마이닝의 목적은 새로운 상황에 대한 예측(prediction)에 더 큰 비중을 둔다. 또한 데이터 웨어하우징(data warehousing)과 같은 정보기술과의 통합으로 자동화된 의사결정 프로세스를 최종적인 목적으로 한다는 점에서 통계학과는 다른 특징을 갖는다. 통계학의 발전에서 누릴 수 없었던, 강력한 컴퓨팅파워를 바탕으로 반복적인 계산과 판단을 통해 규칙(rule), 의사결정나무(decision tree), 인공신경망(artificial neural network) , 선형회귀나무(Iinear regression tree) , 사례베이스(case base) , 입력변수 가중치(feature weight)와 같이 기존과는 다른 형태의 지식을 얻게 된다. 본 논문의 최대의 공헌은 인공신경망과 기억기반추론의 통합적 방법론을 제안하고 시스템을 구성하여 실험을 통해 그 타당성을 입증한 것이다. 그동안 인공신경망은 인간의 신경망과의 유사성과 함께, 강력한 예측력으로 다양한 범위에 응용되어 왔다. 3개 뉴런층 (neuron layer)를 가지는 신경회로망은 뉴런의 개수만 충분하다면 어떠한 함수도 근사시킬 수 있다는 사실이 증명되면서, 역전사 학습 (back propagation learning)을 비롯한 다양한 학습방법이 제안되고 실제로 응용되고 있다. 그러나, 신경회로망의최대의 약점은 학습의 결과물로 얻어지는 네트워크와 연결가중치(connection weights)를 사람이 이해할 수 없다는 점이다. 이러한 인공신경망의 단점을 '블랙박스특성(blackbox property)' 라고 부르며, 데이터 마이닝 커뮤니티에서는 1990년대에 주로 규칙 추출(rule extraction)의 방법으로 해결을 모색하였다. 그러나 일부 규칙의 추출에 성공한 사례도 있었으나, 대규모의 시스템에서 실용적으로 사용하기에는 계산의 효율성과 추출된 규칙의 검증이 안되어 있다는 점과 C4.5와 같은 규칙생성을 위해 제작된 알고리즘이 보다 효율적이라는 점 때문에, 인공신경망에 대한 문제점의 제기에는 성공하였으나, 실용적인 해결방안으로서는 부족하다는 방향으로 결론이 모아지고 있는 추세이다. 본 논문에서 다루어지는 또 하나의 학습방법은 기억기반추론 (memory basedlearning)OI다. 기억기반추론은 가장 기본적인 학습방법이고, 쉽게 구현할 수 있는 반면에 강력한 예측력을 보여주기 때문에 컴퓨팅 파워의 증가와 데이터베이스의 보편화와 함께 새롭게 주목을 받고 있는 분야이다. 기억기반추론은 k-NN(k-nearest neighbor)과 이의 변형된 방법들이 이용되고 있다. 그러나, 기억기반추론도 속성 가중치(feature weighting)의 문제로 실제 문제에 쉽게 이용되지 못하는 약점이 있다. 속성 가중치란,기억베이스에서 유사한 사례를 탐색할 때, 어떠한 입력변수(속성)를 가장 중요하게 다루는가에 대하여 실수값으로 가중치를 두어 보다 정확한 탐색을 유도하는 방법이다. 속성 가중치가 정확하게 평가될수록 보다 정확한 예측결과를 얻을 수 있다. 1990년대에 기억기반추론과 입력변수 가중치는 데이터 마이닝에서 가장 활발하게 연구된 분야 중 하나이다. 주로 정보이론 (information theoretic) 한 방법으로 분류(classification)의 문제에 대한 해결방안을 모색하였다. 분류문제에 있어서는 1990년대에 제안된 방법들이 적절한 해답을 제시하였으나, 실번수의 예측(regression)의 문제에 있어서는 기억기반 추론에서 이용할 수 있는 적당한 방법이 제안되지 않고 있다. 본 논문의 핵심 아이디어는 신경회로망과 기억기반추론의 결합에 있다. MANN학습( Memory And Neural Network Learning)이라고 부르는 이 방법론은 인간두뇌의 학습능력을 모방한 신경회로망에, 인간두뇌의 가장 기본적인 속성인'기억(memory)'과의 결합을 최초로 시도하였다는 점에서 매우 의미가 있다고 할 수 있다. 인간두뇌의 학습방법을 기계학습에서 모방하고자 할 때, 신경회로망의 학습능력과 기억의 두가지 요소는 필수적이라고 생각할 때, 현재 세계적으로 활발히 연구가 진행중인 두뇌과학의 측면에서도 큰 의미가 있는 연구분야를 시작한 것이라고 볼 수 있다. MANN 학습방법은 신경회로망의 연결가중치를 분석하여 기억기반추론의 속성가중치로 변환하는 네 가지의 알고리즘을 제안하고 그 의미를 분석하였다. 실제 실험적인 결과에서 이들 방법들은 의미 있는 속성가중치를 얻어낸다는 것을 확인할 수 있었다. 이러한 발견은 신경회로망의 연결가중치의 해석에 있어서 새로운 방향을 제시하였다고 말할 수 있다.기존의 신경회로망의 연결가중치의 해석은 주로 규칙생성의 방법으로 접근 하였으나, 규칙보다는 지식으로서의 표현력이 약하기는 하지만, 실용적으로 이용될 수 있다는 점과 신경회로망의 학습에 있어서 가장 기본적인 지식을 발견할 수 있다는점에서 의미가 깊다고 할 수 있다. 기억기반학습에 있어서도 신경회로망을 이용한 속성가중치의 분석방법은 기존의 분류방법에 밖에 이용되지 못하던 기억기반학습을 실변수의 예측까지 영역을 확대하였다는 데에서 의미있는 방법이다. 또한 신경회로망을 속성가중치의 분석에 이용한 최초의 시도이기도 하다. 기억기반학습과 신경회로망의 결합에 대한 연구는 두뇌과학, 기계학습, 인공지능, 데이터 마이닝 등 여러 분야의 연구에서 다양한 방법으로 응용될 수 있다고 생각된다. 아울러, 본 논문에서는 MANN Learning과 Quinlan의 선형회귀나무(regressiontree)을 반도체공정의 품질관리부문에 적용한 응용사례를 소개하고 있다. 반도체 생상과정은 수백개의 공정 파라메터를 측정하는 매우 복잡한 프로세스이다. 각 웨이퍼마다 측정되어지는 공정 파라메터는 양이 방대할 뿐 아니라, 수율과의 관계도 정확히 알려지지 않았다. 본 논문에서는 반도체의 품질을 공정 중에 미리 예측하고 이를 품질 시험단계에 적용할 수 있는 프레임웍을 개발하고 MANN 학습방법이 어떻게 활용되는지를 소개하였다.

서지기타정보

서지기타정보
청구기호 {DIE 00017
형태사항 v, 119 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 신정관
지도교수의 영문표기 : Sang-Chan Park
지도교수의 한글표기 : 박상찬
수록잡지명 : "A hybrid approach to neural network and memory based learning to data mining". IEEE transactions on neural networks,. V.11 No.3, (2000)
학위논문 학위논문(박사) - 한국과학기술원 : 산업공학과,
서지주기 Reference : p. 104-110
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서