Modelos Predictivos: Adaptación de Clasificación a Regresión en Machine Learning
Clasificado en Matemáticas
Escrito el en español con un tamaño de 4,4 KB
Evaluación de Conceptos Clave en Business Intelligence y Machine Learning
Preguntas de Control
A continuación, se presentan preguntas clave relacionadas con conceptos fundamentales en Business Intelligence y Machine Learning, junto con sus respuestas.
Definición del Número de Clusters
Pregunta: Para definir el número de clusters en el taller de Python para perfilamiento de clientes:
Respuesta: Todas las anteriores.
Priorización de Reclamos con Aprendizaje Profundo
Pregunta: Se encuentra con una serie de reclamos de clientes que quisiera priorizar utilizando aprendizaje profundo con un enfoque de clasificación. ¿Qué estrategia recomendaría?
Respuesta: BERT.
Interpretación Visual con Grad-CAM
Pregunta: ¿Para qué sirve el método Grad-CAM asociado a redes convolucionales?
Respuesta: Ofrece una interpretación visual de la salida o predicción del modelo, haciéndolo explicable.
Desarrollo de Modelos Predictivos: Adaptación a Regresión
A continuación, se explica cómo adaptar a regresión los modelos predictivos vistos en detalle en el capítulo de clasificación: Árboles de Decisión, K-Vecinos más Cercanos (KNN), Random Forest, y Máquinas de Soporte Vectorial (SVM).
Árboles de Decisión para Regresión
Los árboles de decisión en regresión predicen valores continuos calculando la media de la variable dependiente en cada nodo, en lugar de clasificar. Son fáciles de interpretar y no requieren normalización. A diferencia de la clasificación (donde se usa la moda de las etiquetas), en regresión se toma la media de los valores en cada hoja para asignar la predicción de un dato nuevo. Además, se cambia la métrica de impureza de entropía por el Error Cuadrático Medio (MSE), eligiendo la variable con el menor error numérico en la rama.
K-Vecinos más Cercanos (KNN) para Regresión
KNN predice el valor continuo tomando el promedio de los valores de los K vecinos más cercanos. Es un método simple, pero su rendimiento depende de una correcta selección del valor de K y puede ser costoso computacionalmente para grandes conjuntos de datos. Mientras que en clasificación se toma la moda de las clases del vecindario, en regresión se asigna un valor numérico a la nueva instancia basándose en la media de las observaciones en el vecindario.
Random Forest para Regresión
Random Forest en regresión promedia las predicciones de varios árboles para obtener un valor continuo, lo que ayuda a reducir el sobreajuste. Es un modelo robusto, pero es menos interpretable y más demandante computacionalmente que un solo árbol. Combina una serie de árboles de decisión para regresión, cuyas predicciones se combinan tomando la media.
Máquinas de Soporte Vectorial (SVM) para Regresión
Las Máquinas de Soporte Vectorial (SVM) para regresión, conocidas como SVR (Support Vector Regression), ajustan una función que predice valores continuos, minimizando los errores dentro de un margen. Son eficaces para datos no lineales, pero requieren una correcta configuración de parámetros (como el kernel y el parámetro C) y pueden ser computacionalmente intensivas. Aunque fueron diseñadas principalmente para clasificación, su adaptación a regresión requiere modificaciones sofisticadas para manejar la predicción de valores continuos.
Redes Neuronales para Regresión
Para Redes Neuronales, la adaptación a tareas de regresión es directa. Se puede utilizar una función de pérdida como el Error Cuadrático Medio (MSE) para optimizar el modelo, ajustando los pesos de la red para minimizar la diferencia entre las predicciones y los valores reales.