Logotipo del repositorio
 

Un estudio comparativo de técnicas de minería de datos y aprendizaje máquina para la estimación del esfuerzo utilizando puntos de función

Fecha

2019

Autores

Quesada López, Christian
Murillo-Morera, Juan
Jenkins, Marcelo

Título de la revista

ISSN de la revista

Título del volumen

Editor

Associação Ibérica de Sistemas e Tecnologias de Informação (AISTI) (Portugal)

Resumen

Resumen. En los últimos años, una gran cantidad de técnicas de minería de datos y de aprendizaje máquina han sido utilizadas para la construcción de modelos de estimación del esfuerzo de desarrollo del software. La literatura ha reportado resultados inconsistentes acerca de la efectividad de los modelos dependiendo de los conjuntos de datos. En este estudio utilizamos un procedimiento automatizado para la comparación exhaustiva de modelos de estimación de esfuerzo y presentamos los resultados del análisis comparativo a partir de la combinación de un conjunto de técnicas de pre-procesamiento de datos, selección de atributos y algoritmos de aprendizaje aplicado a distintos sub conjuntos de datos del repositorio ISBSG. Los resultados indican que las técnicas con mejores resultados para los modelos basados en los puntos de función IFPUG-FPA fueron LeastMedSq, SMOreg y GaussianProcesses y para COSMIC-FFP fueron SMOreg, MP5 y AdditiveRegression. Las técnicas que incorporan estrategias de regresión son las que mejores resultados obtienen. Asimismo, la combinación de técnicas de pre procesamiento y selección de atributos mejoran los resultados de exactitud. Los modelos de estimación evaluados alcanzaron valores en la exactitud estandarizada entre el 49.94% y 64.05% para IFPUG-FPA y entre el 80.30% y el 67.31% para COSMIC-FFP. Con nuestro procedimiento de evaluación es posible analizar la exactitud de distintos modelos de estimación, cuáles técnicas obtienen los mejores resultados de exactitud a partir de cada conjunto de datos y la combinación de técnicas que puede mejorar el desempeño de los modelos.
Abstract. In recent years, a large number of data mining and machine learning techniques have been used for the construction of software development effort estimation models. The literature has reported inconsistent results about the effectiveness of the models because of their dependence on the data sets. In this study, we use an automated procedure for the exhaustive comparison of effort estimation models, and present the results of a comparative analysis derived from the combination of a set of data pre-processing, attribute selection techniques and learning algorithms applied to different sub sets of data from the ISBSG repository. The results indicate that the techniques with the best results for models based on IFPUG-FPA function points were LeastMedSq, SMOreg, and GaussianProcesses, but for COSMIC-FFP were SMOreg, MP5, and AdditiveRegression. The techniques that incorporate regression strategies yield the best results obtained for these data sets. In addition, the combination of pre-processing techniques and attributes selection improve the accuracy results. The estimation models reached a standardized accuracy between 49.94% and 64.05% for IFPUG FPA and between 80.30% and 67.31% for COSMIC FFP. With our evaluation procedure, it is possible to analyze the accuracy of different estimation models, which techniques obtain the best accuracy results from each data set, as well as the combination of techniques that can improve the performance of the models.

Descripción

Palabras clave

DESARROLLO DE SOFTWARE, MINERÍA DE DATOS, APRENDIZAJE, METODO EMPÍRICO, SOFTWARE DEVELOPMENT, DATA MINING, LEARNING, EMPIRICAL METHOD

Citación