Métricas de Rendimiento en Machine Learning: Regresión Lineal y Logística
Clasificado en Matemáticas
Escrito el en español con un tamaño de 3,21 KB
Describa completamente al menos una métrica de rendimiento para la regresión lineal y la regresión logística. (2 puntos)
Regresión Lineal:
R2 (R cuadrado o coeficiente de determinación) es una métrica que busca explicar la varianza explicada por el modelo de regresión utilizado. Corresponde a 1 menos el ratio entre la suma de errores cuadrados respecto a la estimación vía la regresión y la suma de errores cuadrados con respecto a la media aritmética.
Regresión Logística:
- Accuracy: Porcentaje de casos en los que el clasificador obtiene el mismo resultado que el dataset.
- Precision: Representa la capacidad del clasificador de predecir o estimar casos realmente relevantes (1 en este caso). La precisión dice qué tan útil es el clasificador discriminando los 1 de los 0.
- Recall: Representa qué tan completos son los resultados del clasificador. Es decir, cuántos resultados 1 trae correctamente (esto es diferente a discriminar bien 1 de 0).
- F1-Score: Media armónica entre precision y recall.
- Matriz de confusión: Una matriz que contiene 4 métricas: los falsos positivos (clasificador predice 1 para un caso 0); falsos negativos (clasificador predice 0 para un caso 1); verdaderos positivos (clasificador predice 1 para un caso 1); y verdaderos negativos (clasificador predice 0 para un caso 0).
- Curva ROC y su área: Ilustra la tasa de verdaderos positivos vs la tasa de falsos positivos para cada nivel de probabilidad de corte (thresholds).
1 punto por lineal y 1 punto por logística.
Asumiendo un caso en el que tengo un clasificador que da un rendimiento de 99% en base al accuracy; y que el dataset tiene un balance de clases tal que solo el 1% de los casos es clase "1". ¿Qué tan bueno es el clasificador?, mencione si utilizaría esta métrica o si la cambiaría por otra. (2 puntos)
En este caso, el clasificador es tan bueno como utilizar un dado de 100 caras y esperar que salga un 100 (dado hipotético, por teoría de los grandes números 1 de cada 100 veces debería dar un 100). Es posible que por lo mismo, el clasificador aprendió a decir solo 0 y por lo tanto, no es para nada bueno discriminando a través de las variables independientes utilizadas.
2 puntos por explicar claramente.
Se le presenta un caso donde una regresión lineal presenta un R2 de 0.2, ¿qué puede decir del rendimiento?, ¿qué revisaría al tener esta calidad? (2 puntos)
El rendimiento es bastante malo y por debajo de lo considerado como mediocre (R2 = 0.5). Por otro lado, normalmente revisaría los siguientes puntos con respecto a las variables:
- Linealidad entre los distintos regresores y el target. Si no hay linealidad, buscaría una transformación o derechamente descartaría la variable.
- Outliers.
- Rango de la variable.
- Normalidad y homocedasticidad.
Además, revisaría si el intercepto tiene sentido y si hay autocorrelación en la variable Y.
1 punto por mencionar que es un R2 malo y otro por decir al menos algo por revisar.