Accurate estimation has always been challenge for software engineering communities.
Many researches have done studies where estimation models were compared to choose the best accurate model or new estimation models were proposed to improve the prediction accuracy. However, many works did not consider the data set which we believe is a basis to build accurate estimation model. The data set often has a faulty, incomplete data and extreme value data. Such data is called an outlier. Therefore, the outlier need to be handled to build a better model. In this thesis, we investigate the prediction accuracy of effort estimation models when applying outlier elimination techniques. Three commonly used effort estimation models, and two outlier elimination techniques are selected for our empirical study. The empirical results show that the prediction accuracy of effort estimation models with outlier elimination techniques are more accurate than that of effort estimation models which is not applied the outlier elimination techniques. In addition, our study shows different result depend on the models based on two different data samples. Our study can be used in organizations to build effort estimation model for current or future projects.
소프트웨어 프로젝트에 대한 정확한 예측을 하는 것은 소프트웨어 관련 여러 커뮤니티들에서 예전부터 지금까지 계속적으로 이슈가 되어왔다. 이를 위해, 일반적인 많은 연구들에서는 예측모델들을 서로 비교해서 가장 정확한 결과를 보이는 모델을 추천하거나, 정확도를 높이기 위한 새로운 예측모델들이 제안되었다. 그러나, 이러한 연구들에서는 정확한 예측모델을 만드는데 반드시 필요한 데이터에 대한 고려를 하지 않고 있다. 예측모델을 만들기 위한 데이터들 내부에는 불완전하거나 잘못된 값, 또는 다른 데이터들에 비해 매우 작거나 큰 값을 가지는 데이터가 존재한다. 좀더 정확한 예측모델을 만들기 위해서는 이러한 "이상치"데이터들에 대한 고려가 반드시 필요하다. 그러므로 본 연구에서는 이상치 데이터들의 제거기법들을 적용한 데이터에 대해 공수 예측 모델들을 만들었을때 얼마나 정확한 예측이 가능한지 살펴보고 간단한 분석을 통해 각각 서로 다른 결과들이 나온 이유에 대해 고찰해본다. 실험을 위해 여러가지 기법들 중 본 연구에서는 일반적으로 많이 사용되고 있는 세가지 공수 예측 모델과 두가지 이상치 제거기법들이 선택되었다. 이 기법들을 선택한 이유는 각각 서로 다른 가정과 접근방법들을 가지고 있기 때문이다. 실험을 수행해본 결과 이상치 제거기법을 이용해 그 데이터들을 제거한 후 만든 공수 예측 모델들이 그렇지 않은 모델들보다 좋은 결과를 보여주었고, 가장 좋은 결과를 보이는 이상치 제거기법과 공수 예측 모델의 조합들을 살펴보았다. 그리고 다른 분포를 가지는 두가지 데이터세트를 사용해서 공수 예측 모델을 만들었을 때 예측 결과의 차이도 확인해 보았다. 이 연구는 보다 정확한 공수 예측 모델을 만들기 위한 조직들에게 참고되고 사용되어 질 수 있다.