서지주요정보
기계 학습을 위한 특징 및 데이터셋 선택 통합 프레임워크 = (An) integrated framework of feature and dataset selection for machine learning
서명 / 저자 기계 학습을 위한 특징 및 데이터셋 선택 통합 프레임워크 = (An) integrated framework of feature and dataset selection for machine learning / 이병규.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038062

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21116

도서상태

대출중(예약불가)

사유안내

반납예정일

2024.05.13

리뷰정보

초록정보

Semiconductor manufacturing companies produce a variety of data to monitor the quality of their products. Although the amount of data generated for monitoring is large, most of the data is non-defective, where only a small portion is defective. In order to predict whether the data is defective, human judgement based on experience is necessary to assess the defects. One way to reduce this manual work is to use machine learning, which is the process of training a model on empirical data so that it can make automatic predict defects on new incoming data. A significant challenge of replacing a human's judgement with machine learning is that there may not be enough training data for the model to be sufficiently accurate. As a result, it may be difficult to train models for new products because there is not enough data initially. While one option is to use transfer learning where we utilize a previously-trained model for another product, the trained model may have worse accuracy if the other product's training data is too different and only confuses the model training. In this paper, we study the problem of training several defect-detection models for various products while making the most of previously-generated data. This scenario is common when many similar products are manufactured and new products are added. The naive approach is to train one model per product in isolation, but the model accuracy may not be satisfactory due to the lack of training data. Instead, we search for similar products whose training data can improve the current model that is being trained. For each product, we first select candidate datasets utilizing product hierarchy information. Next, we extend feature selection techniques to choose the datasets from the candidates that are empirically the most helpful for the model accuracy. In addition to dataset selection, we can also perform feature selection to further improve the model accuracy. The algorithm we propose thus selects datasets and features together holistically. Experiments show that our algorithm outperforms various baselines for dataset selection and/or feature selection.

반도체 제조 회사는 제품의 품질을 모니터링 하기 위해 다양한 데이터를 생성한다. 모니터링을 위해 생성되는 데이터의 양은 많지만 대부분은 결함이 없는 데이터이며 일부만 결함이 존재한다. 데이터의 결함 여부를 예측하기 위해서는 사람의 경험치에 의한 판단이 필요하다. 이러한 수동작업을 줄이는 한 가지 방법은 새로운 입력 데이터에 대해 결함을 자동으로 예측할 수 있도록 경험적 데이터로 모델을 학습하는 프로세스인 기계학습(Machine Learning)을 사용하는 것이다. 인간의 판단을 기계학습으로 대체하는 데 있어 중요한 과제는 모델의 정확도를 충족할 학습 데이터가 충분하지 않을 수 있다는 것이다. 결과적으로, 초기에는 데이터가 충분하지 않기 때문에 신제품에 대한 모델을 학습하기 어려울 수 있다. 한 가지 대안은 다른 제품으로 훈련된 모델을 활용하는 전이학습(Transfer Learning)을 사용하는 것이지만, 다른 제품의 학습데이터가 너무 달라 모델 학습에 혼란만 주는 경우 오히려 모델의 정확도만 떨어질 수 있다. 본 논문에서는 이전에 생성된 데이터를 최대한 활용하면서 다양한 제품에 대해 결함 감지 모델을 학습시키는 문제를 연구한다. 이 시나리오는 유사한 제품이 많이 생산되고 신제품이 추가 될 때 일반적이다. 단순한 접근 방식은 제품 당 하나의 모델을 개별적으로 학습하는 것이지만 학습 데이터가 부족하여 모델의 정확도가 만족스럽지 않을 수 있다. 대신, 현재 훈련중인 학습모델을 개선 할 수 있는 유사한 제품을 검색한다. 각 제품에 대해 먼저 제품 계층 정보를 활용하여 후보 데이터셋을 선택한다. 그 다음 특징선택(Feature Selection) 기법을 확장하여 경험적으로 모델 정확도에 가장 도움이 되는 후보에서 데이터셋을 선택한다. 데이터셋 선택 외에도 모델 정확도를 더욱 향상시키기 위해 특징 선택을 수행할 수도 있다. 따라서 우리가 제안하는 알고리즘은 전체적으로 데이터셋과 특징을 함께 선택한다. 실험에 따르면 알고리즘이 데이터셋 선택과 특징 선택 양쪽 모두 또는 어느 한쪽만 선택하는 다양한 기준보다 우수한 성능을 보이는 것을 알 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 21116
형태사항 iv, 27 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Byungkyu Lee
지도교수의 한글표기 : 황의종
지도교수의 영문표기 : Steven Euijong Whang
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 25-26
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서