서지주요정보
(A) hybrid instance selection using nearest-neighbor framework for cross-project defect prediction with consideration of class imbalance = 클래스 불균형을 고려한 교차 프로젝트 결함 예측용 근접 기반 하이브리드 인스탄스 선택 프레임워크
서명 / 저자 (A) hybrid instance selection using nearest-neighbor framework for cross-project defect prediction with consideration of class imbalance = 클래스 불균형을 고려한 교차 프로젝트 결함 예측용 근접 기반 하이브리드 인스탄스 선택 프레임워크 / Duksan Ryu.
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029888

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 16037

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Software defect prediction can help to allocate testing resources on fault-prone modules. Typically, local data within a company are used to build classifiers. In contrast to such Within-Project Defect Prediction (WPDP), there may exist some cases, e.g., pilot projects, that lack past data. Cross-project defect prediction (CPDP) using data from other projects can be useful in such cases. The major challenge of CPDP is different distributions in the training and test data. To tackle this, instances of the source data similar to the target data are selected to build classifiers. Software defect datasets have a class imbalance problem, i.e., the size ratio of the defective class to the clean class is very low. It usually lowers the performance of classifiers. In the presence of irrelevant or redundant information, prediction performance may be degraded as well. To address all the above issues, we propose a Hybrid Instance Selection using Nearest-Neighbor (HISNN) framework. It performs a hybrid classification that selectively learns local knowledge (via k-Nearest Neighbor) and global knowledge (via naive Bayes). Instances that have strong local knowledge are identified via nearest-neighbors with the same class label. To identify the optimal feature selection technique, we compare 9 feature selection techniques in cross-project settings. After features are chosen, classifiers are built, tested, and later evaluated based on the statistical significance test and the effect size test. The results show that the predictive performances of HISNN are comparable to those of WPDP. Using HISNN, companies without local data can predict defects with high performance until sufficient data are collected. Consequently, software quality can be managed effectively.

소프트웨어 결함 예측은 오류 취약 모듈에 테스팅 자원의 최적화된 할당을 돕는다. 내부 데이터로 모델을 구축하는 내부 프로젝트 결함 예측 (WPDP)과 달리, 과거 데이터가 없는 경우, 외부 데이터를 이용하는 교차 프로젝트 결함 예측 (CPDP)이 유용하다. CPDP의 난제는 트레이닝과 테스트 데이터간 분포차이며, 타겟과 유사한 소스 데이터로 모델을 구축할 필요가 있다. 결함 데이터는 클래스 불균형 문제 (결함 클래스 인스탄스 갯수가 비결함 클래스 대비 매우 적음)를 지니며, 부적합/중복 정보는 모델 성능을 저하시킬 수 있다. 위 문제들의 해결을 위해, 근접 기반 하이브리드 인스탄스 선택 (HISNN) 프레임워크를 제시한다. 지역 지식 (k 최근접 기반)과 전역 지식 (나이브 베이즈 기반)을 선택적으로 학습하며, 강한 지역 지식을 가지는 인스탄스들은 같은 클래스 라벨을 가진 근접 데이터로 식별된다. 교차 프로젝트 환경에서 9가지 특징 선택 기법들을 비교하며, 특징 선택 후, 모델이 구축, 테스트되고, 통계적 유의성과 효과 크기 테스트로 평가된다. HISNN은 WPDP와 유사한 예측 성능을 보이므로, 과거 데이터가 없는 회사들이, 데이터가 충분히 수집될 때까지, HISNN을 이용해 효과적으로 소프트웨어 품질을 관리할 수 있다.

서지기타정보

서지기타정보
청구기호 {DCS 16037
형태사항 vii, 101 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 류덕산
지도교수의 영문표기 : Jongmoon Baik
지도교수의 한글표기 : 백종문
수록잡지명 : "A Hybrid Instance Selection Using Nearest-Neighbor for Cross-Project Defect Prediction". JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, v. 30, no. 5, pp. 969-980(2015)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 92-97
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서