Metodología para la Construcción y Evaluación de Modelos Predictivos

Clasificado en Diseño e Ingeniería

Escrito el en español con un tamaño de 2,83 KB

Procesamiento Previo de Datos

Los datos se procesan previamente antes de aplicar los modelos.

Aplicación de Validación Cruzada (10 Pliegues)

Se aplica la validación cruzada con 10 divisiones (pliegues). Se determinó que 10 pliegues era un número "óptimo", logrando un equilibrio entre el sesgo de muestreo (diversificación de submuestras de entrenamiento y prueba) y el tiempo de procesamiento.

En cada iteración, el modelo se entrena en nueve pliegues (combinación de datos de entrenamiento que incluye el 90% del conjunto de datos total) y se prueba en el 1 pliegue restante (10% del conjunto de datos total).

La precisión general del modelo se calcula promediando las 10 medidas de precisión individuales obtenidas de cada pliegue.

Desarrollo de Métodos de Modelado: Árboles de Decisión y SVM

Se desarrollaron y evaluaron los siguientes métodos:

  • SVM (Support Vector Machines): Aprende de las observaciones mediante la generación de funciones de mapeo de entrada-salida a partir de datos de entrenamiento. Utiliza la teoría de aprendizaje estadístico.
  • C5.0: Método basado en árboles de decisión. Es más preciso, refuerza y mejora los árboles para una mejor precisión. Permite ponderar diferentes atributos y tipos de errores de clasificación. Es más rápido y ayuda a reducir el impacto del ruido, mejorando la objetividad y precisión del algoritmo de clasificación.
  • CART (Classification and Regression Trees): El objetivo final de la división es determinar la variable correcta asociada con el umbral correcto para maximizar la homogeneidad de los subgrupos o ramas.

Comparativa de Rendimiento de Modelos

Los resultados indicaron que el modelo C5.0 (97%) superó a los modelos CART (81%) y SVM (72%) en términos de precisión.

Evaluación del Modelo y Métricas de Rendimiento

Análisis de Precisión y Rendimiento: Matriz de Confusión

Se utiliza la matriz de confusión para determinar el rendimiento de los modelos en la predicción de resultados binarios (de dos grupos). Las métricas evaluadas incluyen:

  • Precisión (Accuracy - ac)
  • Área bajo la curva ROC (AUC)
  • Recall (Sensibilidad)
  • Puntuación F1 (combinación de precisión y recall)

Análisis de Sensibilidad

Mide la importancia de las variables predictoras. Se evalúa el impacto en la varianza del error predictivo al eliminar variables predictivas una a una y observar el rendimiento del modelo restante.

Análisis de Sensibilidad con Fusión

Determina los factores que afectan a la subvaloración, en lugar de centrarse en las puntuaciones de un solo método. Ordena las variables según su orden de importancia.

Entradas relacionadas: