Least squares regression (LSR) has been a popular software effort estimation method in practice; however, an effort estimation model by LSR, a single LSR model, is highly affected by data distribution. Specifically, the model does not provide sound effort estimates in widely scattered data sets because it is very sensitive to influential data points (e.g., outliers), which can distort the model and decrease the estimation accuracy. This implies that it is necessary to develop a data partitioning-based approach as a means to generate multiple LSR models to alleviate the effect of data distribution. Even though clustering-based approaches have been introduced, they have not been sufficiently stable to facilitate accurate effort estimation. In this paper, after we empirically investigate the effect of eliminating outliers on the estimation accuracy of LSR, we propose a new data partitioning-based approach to achieving more accurate and stable effort estimates via LSR. This approach also provides an effort prediction interval that is useful to describe the uncertainty of the estimates. Empirical experiments are performed to evaluate the performance of the proposed approach by comparing with the basic LSR approach and clustering-based approach, based on industrial data sets. The experimental results show that the proposed approach not only improves the accuracy of effort estimation more significantly than that of other approaches, but it also achieves robust and stable results. The proposed approach can help project managers to make accurate and stable effort estimates by alleviating the effect of data distribution that is a major practical issue in software effort estimation.
최소제곱회귀법 (LSR)은 가장 일반적으로 사용되는 소프트웨어 공수 예측 기법들 중 하나이다. 그러나, LSR 기법을 통해 생성되는 공수 예측 모델 (단일 LSR 모델)은 소프트웨어 프로젝트 데이터셋의 분포에 큰 영향을 받는다. 즉, 좁은 분포를 가진 소프트웨어 프로젝트 데이터셋에서는 단일 LSR 모델이 정확한 공수 예측값들을 제공할 수 있는 가능성이 높지만, 넓은 분포를 가진 소프트웨어 프로젝트 데이터셋에서는 단일 LSR 모델을 왜곡시킬 수 있는 영향치들 (예를 들어, 이상치)을 많이 포함하고 있기 때문에 모델이 올바르게 생성되지 않아 정확한 공수 예측값들을 제공할 수 있는 가능성이 낮아진다. 단일 LSR 모델에 대한 소프트웨어 프로젝트 데이터 분포의 영향을 완화하기 위해 다중 LSR 모델을 생성할 수 있는 데이터 분할 기반의 공수 예측 기법들이 제안되었다. 그러나, 제안된 데이터 분할 기반의 공수 예측 기법들은 정확한 공수 예측값을 제공할 수 있는 가능성이 높아졌지만 기법에 필요한 변수값의 설정에 따라 공수 예측값의 정확도의 변동이 매우 심하여 실제 사용에는 한계가 있다. 따라서, 본 논문에서는, 소프트웨어 프로젝트 데이터 셋에서 이상치가 단일 LSR 모델의 공수 예측 정확도에 미치는 영향에 대해 실험적으로 조사해 본 후, 기존에 제안된 기법들에 비해 보다 정확하고 안정적인 공수 예측값을 제공하는 새로운 데이터 분할 기반의 공수 예측 기법을 제안하였다. 제안한 기법은 공수 예측값 뿐만 아니라 소프트웨어 프로젝트 관리자에게 유용한 공수 예측 범위도 제공해 줄 수 있기 때문에 기존의 기법들에 비해 실무적인 측면에서 그 활용도가 높다. 제안한 기법의 검증은 실제 산업체에서 수집한 4개의 소프트웨어 프로젝트 데이터셋 상에서 수행되었다. 기존에 제안된 2가지 기법과 본 연구에서 제안한 기법을 비교해본 결과 뚜렷한 공수 예측 정확도의 향상을 보였고 (통계적인 검증), 보다 안정적인 공수 예측값들을 제공하였다. 제안한 기법은 소프트웨어 공수 예측 분야에서 현실적인 이슈인 소프트웨어 프로젝트 데이터 분포의 영향을 효과적으로 완화함으로써 소프트웨어 프로젝트 관리자의 정확하고 안정적인 공수 예측에 크게 기여할 수 있다.