서지주요정보
(A) pattern-based approach to identifying and correcting outliers in software project data = 소프트웨어 프로젝트 데이터에 대한 패턴 기반의 이상치 검출 및 정제 기법
서명 / 저자 (A) pattern-based approach to identifying and correcting outliers in software project data = 소프트웨어 프로젝트 데이터에 대한 패턴 기반의 이상치 검출 및 정제 기법 / Kyung-A Yoon.
저자명 Yoon, Kyung-A ; 윤경아
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021105

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 10012

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Despite the importance of the quality of Software Project Data (SPD), problematic data inevitably occurs during data collection. These data are called as outliers, which are the SPD instances with abnormal values on certain attributes. We call these attributes the abnormal attributes of outliers. To improve the quality of SPD instances, it is necessary to identifying outliers and their abnormal attributes, and correcting abnormal values should be considered also. Although few existing approaches identify outliers and their abnormal attributes, these approaches are not effective in (1) identifying the abnormal attributes when the outlier has abnormal values on more than the specific number of its attributes and (2) identifying the outliers that contains the abnormal values of attributes other than a specific attribute related to the base algorithm. The existing approach correcting abnormal values of outliers has the tendency to generate many new outliers by its improper correction. In this paper, we propose a pattern-based approach to identifying and correcting outliers in SPD instances: after discovering the reliable frequent patterns that reflect the typical characteristics of the SPD instances, outliers and their abnormal attributes are detected by matching the SPD instances with those patterns. Then, the abnormal values of the outliers are corrected by replacing with the weighted mean of k similar SPD instances, which are completely matched with the most similar and significant patterns with the outliers. Empirical studies were performed on three industrial data sets and 64 artificial data sets with injected outliers. The detection accuracy results demonstrate that our approach outperforms five other approaches by an average of 35.27% and 107.5% in detecting the outliers and abnormal attributes, respectively, on the industrial data sets, and an average of 61.51% and 110.93% respectively on the artificial data sets. In addition, the correction accuracy results describe that our approach outperforms another approach by an average of 219.19% in improving the quality of data and 540.62% in estimating normal values for abnormal values on the artificial data sets.

소프트웨어 프로젝트 데이터의 품질에 대한 중요성에도 불구하고, 실무에서는 이들 데이터의 품질을 저하시키는 문제성있는 데이터들이 불가피하게 수집되고 있다. 이러한 데이터들은 특정 속성에 비정상적인 값들을 포함하고 있는 프로젝트 인스턴스들인데, 본 연구에서는 이를 이상치라 하고 이들 속성을 이상속성이라고 한다. 소프트웨어 프로젝트 데이터의 품질을 높히기 위해서는 이상치와 이들의 이상속성의 검출뿐만 아니라 이들을 통해 비정상적인 값을 정제하는 것도 중요하다. 그러나 사람에 의한 이상치와 이상속성의 검출은 매우 어렵고 시간이 많이 소요되는 작업이고, 이들의 비정상적인 값의 정제작업 또한 오류를 생성할 수 있다. 이상치와 이들의 이상속성을 검출하는 소수의 연구들이 수행되었으나 이들은 (1) 특정 개수 이상의 비정상적인 값을 포함하는 이상치와 이의 이상속성을 검출 할 때, 그리고 (2) 근간이 되는 기법과 관련된 특정 속성이 아닌 다른 속성에 비정상적인 값을 포함하고 있는 이상치의 검출 시 비효율적이라는 단점을 가지고 있다. 이상치의 비정상적인 값을 정제하는 현존하는 연구는 적절치 않은 데이터 수정에 의해 많은 새로운 이상치를 생성하는 단점을 가지고 있다. 본 연구에서는 소프트웨어 프로젝트 데이터에서 패턴을 기반으로 이상치들과 이들의 이상속성을 검출 및 정제하는 기법을 제안한다. 먼저 소프트웨어 프로젝트 데이터의 전형적인 특징을 반영하는 신뢰성있는 데이터의 패턴을 추출한 후 이를 소프트웨어 프로젝트 데이터 각각에 매칭하여 이상치들과 이상속성들을 검출한다. 이후 검출된 이상치의 비정상적인 데이터는 이 이상치와 가장 유사한 패턴에 매칭되는 k개의 유사한 프로젝트 인스턴스들의 가중평균값으로 대치되어 정제된다. 사례연구로 수행된 실험은 세 개의 업체 데이터셋과 이상치가 삽입된 64개의 가상 데이터셋 상에서 수행되었다. 검출정확도 결과는 본 기법이 다른 5개의 기법들에 비해, 업체 데이터의 이상치와 이상속성 검출에 대해서는 각각 평균 35.27%와 107.05%의 성능 향상을, 가상 데이터의 이상치와 이상속성 검출에 대해서는 각각 평균 61.51%와 110.93%의 성능이 향상되었음을 보였다. 가상데이터 상에서 정제정확도 결과는 본 기법의 성능이 다른 기법에 비해 데이터 품질 관점에서 평균 219.19% 향상되었고, 비정상적 값에 대한 정상치의 예측 정확도는 540.62% 향상되었다.

서지기타정보

서지기타정보
청구기호 {DCS 10012
형태사항 vii, 82 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 윤경아
지도교수의 영문표기 : Doo-Hwan Bae
지도교수의 한글표기 : 배두환
수록잡지명 : "A Pattern-based Outlier Detection Method Identifying Abnormal Attributes in Software Project Data". Information Science and Technology, v.52.no.2, pp.137-151(2010)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 79-82
주제 outlier
data quality
data cleaning
software data
noisy data
이상치
데이터 품질
데이터 정제
소프트웨어 데이터
노이지 데이터
QR CODE qr code