Estrategias de Aprendizaje por Conjuntos: Bagging, Random Forest y Boosting para Modelos Predictivos
Clasificado en Economía
Escrito el en español con un tamaño de 5,08 KB
Bagging
El objetivo de Bagging es reducir la varianza del modelo final, evitando el sobreajuste al generar múltiples versiones del modelo y combinarlas para la predicción. Se entrenan varios clasificadores usando diferentes subconjuntos (particiones) del conjunto de datos original, generados por remuestreo con reemplazo. Las predicciones finales son una combinación (e.g., promedio o votación) de las salidas de los modelos individuales. Al tener múltiples modelos, cada uno tiende a sobreajustar en diferentes regiones del espacio de características, pero la combinación de estos suaviza este efecto.
Algoritmos que emplean Bagging
- BaggingClassifier: Un método genérico que usa cualquier modelo como base.
- Random Forest: Un algoritmo basado en árboles de decisión que mejora el rendimiento gracias a la introducción de aleatoriedad en la selección de características.
Ventajas de Bagging
- Reduce la varianza al incorporar múltiples modelos.
- Es robusto ante el ruido y los datos desbalanceados.
Problemas de Bagging
- El sesgo de los modelos individuales se mantiene, lo que limita su capacidad predictiva.
- Los árboles generados están correlacionados, lo que puede reducir la mejora esperada en el rendimiento.
Random Forest
Random Forest es una extensión de Bagging que introduce aleatoriedad adicional seleccionando un subconjunto de características en cada división de los árboles. Esto mejora la decorrelación entre los árboles y, por ende, el rendimiento general. Se construyen B árboles de decisión independientes. En cada división, se consideran solo k características seleccionadas aleatoriamente del total m. Si k = m, el modelo actúa como Bagging. Si k < m, se denomina Random Forest. Las predicciones finales combinan las salidas de los árboles mediante votación (para clasificación) o promedio (para regresión).
Ajuste de Random Forest
La tasa de error Out-of-Bag (OOB) es una métrica útil para evaluar el rendimiento del modelo y ajustar hiperparámetros como k y la cantidad de árboles.
Problemas de Random Forest
- Si hay muchas características irrelevantes, la probabilidad de seleccionar características relevantes es baja, lo que afecta la precisión.
- Los modelos pueden ser menos efectivos cuando las interacciones entre características son clave.
Ventajas de Random Forest
- Reduce tanto la varianza como el riesgo de sobreajuste.
- Funciona bien en la práctica, incluso con datos grandes y ruido.
Boosting
Boosting construye un clasificador fuerte combinando secuencialmente modelos débiles. A diferencia de Bagging, que busca reducir la varianza, Boosting también reduce el sesgo del modelo. Cada modelo se entrena para corregir los errores de los modelos anteriores, asignando mayor peso a los ejemplos mal clasificados. Al final, las predicciones se obtienen como una combinación ponderada de los modelos.
Ventajas de Boosting
- Combina reducción de varianza y sesgo.
- Ofrece alta precisión incluso con modelos base simples.
Problemas de Boosting
- Es más susceptible al sobreajuste en comparación con Bagging.
- Requiere un ajuste cuidadoso de hiperparámetros, como la tasa de aprendizaje y la profundidad de los árboles.
AdaBoost
AdaBoost es una variante clásica de Boosting que asigna pesos a las observaciones, dando más importancia a los ejemplos difíciles. Se entrena un modelo débil inicial. Los errores se ponderan para que los ejemplos mal clasificados tengan más peso en la siguiente iteración. Los modelos se combinan de forma secuencial para obtener la predicción final.
Ventajas de AdaBoost
- Simplicidad y eficacia para problemas de clasificación.
- Útil con datos limpios y modelos base como árboles poco profundos.
Gradient Boosting
Gradient Boosting es una generalización de AdaBoost que optimiza directamente una función de pérdida mediante descenso de gradiente. Se define una función de pérdida diferenciable (e.g., L2 para regresión o log-loss para clasificación). Los aprendices débiles (generalmente árboles de decisión) se agregan secuencialmente. En cada paso, se minimiza la pérdida residual añadiendo un nuevo modelo al conjunto. Los parámetros del modelo se ajustan iterativamente para reducir la pérdida.
Ventajas de Gradient Boosting
- Alta flexibilidad al trabajar con diferentes tipos de datos y tareas.
- Personalizable mediante ajuste de hiperparámetros como la tasa de aprendizaje, el número de árboles y su profundidad.
Problemas de Gradient Boosting
- Puede ser computacionalmente intensivo.
- Es propenso al sobreajuste si no se controla adecuadamente.