서지주요정보
회귀 분석을 위한 데이터 혼합 증대 기법 = Data mixing augmentation techniques for regression
서명 / 저자 회귀 분석을 위한 데이터 혼합 증대 기법 = Data mixing augmentation techniques for regression / 황성현.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037238

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21102

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Machine learning and neural networks are now being used to solve a wide range of problems. However, one of the roadblocks for adopting these techniques is the lack of training data. While many model training techniques assume enough data, in practice collecting enough data and labels requires significant amounts of cost and effort. To solve this issue, data augmentation has been proposed to effectively increase the amounts of training data for better model performance. Data augmentation is already widely used in image classification. However, these techniques mostly focus on classification tasks, and the performance improvement cannot be achieved for regression problems where the goal is to predict accurate values. In this thesis, we propose data augmentation techniques for improving the regression performance of neural networks using the difference in distance between labels. The notion of difference in label distance is possible because the labels are real numbers (or collections of them), which is not the case for classification tasks. Our data augmentation process involves generating new data points by mixing nearby data points properly to actually use for training. We capture this process in the form of a policy and propose an algorithm for automatically configuring the policy and generating data. Finding the best configuration for the policy is vital to maximize model performance. Since exhaustive approaches like grid search are expensive, we apply efficient search techniques using reinforcement learning. We evaluated our data augmentation techniques on two real datasets -- Product and NO2 -- and were able to improve the regression accuracy by 3% and 7%, respectively, compared to when not using data augmentation. The augmented data can be viewed as playing the role of a regularizer during model training where it restricts the model's prediction on unknown parts of the data. Hence, our techniques can easily be extended to augment any other dataset used for regression purposes.

기계 학습과 인공신경망이 여러 분야에 걸쳐 광범위하게 적용되고 있지만, 그 과정에서 많은 문제가 뒤따르고 있으며, 그중에서도 데이터 부족 문제가 점점 대두하고 있다. 신경망 모델과 관련된 많은 기법은 학습에 사용될 데이터의 수가 충분하다는 가정하에 연구되었지만, 현실에서 충분한 수의 학습 데이터와 레이블을 확보하는 것은 큰 비용과 노력이 요구되기 때문에 학습 데이터의 수가 부족한 경우가 대부분이다. 그러한 문제를 해결하고자 기존에 보유한 데이터를 이용해 새로운 데이터를 생성하고, 생성된 데이터를 학습에 활용하여 신경망 모델의 성능을 향상시키는 데이터 증대 기법이 제안되었다. 특히 이미지 분류와 관련된 많은 연구에서는 신경망 모델의 성능 향상을 위해 증대 기법이 기본적으로 적용되고 있다. 하지만 모든 분야에 적용되는 것은 아니며, 비 이미지 데이터를 다루고, 정확한 값을 예측해야 하는 회귀 분석 분야는 기존의 이미지 분류 문제에 적용되는 증대 기법으로는 성능 향상 효과를 얻을 수 없다. 본 논문에서는 회귀 분석 데이터셋에 존재하는 레이블 간 거리의 차이를 고려한 회귀 분석을 위한 증대 기법을 제안하며, 이를 회귀 분석 문제에 적용하면 데이터가 부족한 상황에서도 추가 데이터를 만들어 모델의 성능을 향상시킬 수 있음을 보인다. 레이블 간 거리의 차이는 분류 문제에서는 없는 특성으로, 실수를 레이블 값으로 가지는 데이터셋에만 존재한다. 본 논문의 기법은 이를 활용하여 두 데이터의 선형 결합으로 학습에 도움이 되는 적절한 추가 데이터를 생성하는 일련의 과정으로 구성되어 있다. 또한, 이 과정을 정책으로 정의하고, 알고리즘화해서 기법 적용의 자동화를 용이하게 했다. 모델 성능 향상 효과를 최대화하기 위해서는 최적의 정책을 탐색하는 과정이 필수지만 모든 경우를 탐색하는 격자 탐색은 시간과 비용이 많이 소모되기 때문에 강화학습을 활용한 효율적인 탐색 기법을 적용한다. 제안 기법을 실제 데이터셋인 Product 데이터셋과 NO2 데이터셋에 적용하여 추가적인 데이터를 생성하고 이를 원래 데이터와 함께 신경망 모델 학습에 사용한 결과, 각각의 데이터셋에 대해 약 3%와 7%의 $R^_{2}$ 성능 향상을 보였다. 새로 만들어진 추가 데이터는 두 데이터 점 사이에 대한 모델의 예측을 선형 값으로 유도해 예측값의 변화량을 줄여 모델의 성능을 향상시킨다. 또한, 제안 기법은 확장성이 뛰어나 회귀 분석에 사용되는 어떠한 데이터셋에도 확장 및 적용이 가능하다.

서지기타정보

서지기타정보
청구기호 {MEE 21102
형태사항 iv, 33 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Seonghyeon Hwang
지도교수의 한글표기 : 황의종
지도교수의 영문표기 : Steven Euijong Whang
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 30-32
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서