Regresión Logística: Conceptos, Estimación, Aplicaciones y Evaluación
Clasificado en Matemáticas
Escrito el en español con un tamaño de 4,52 KB
Regresión Logística: Conceptos, Estimación, Aplicaciones y Evaluación
¿Por qué no usamos una regresión lineal para la clasificación?
Si bien es posible ajustar una regresión lineal para predecir probabilidades de pertenencia a la clase 1, como hemos visto, esto rompe algunos de los supuestos de la regresión lineal. En particular, va en contra de la homocedasticidad y, además, dada la estructura de la regresión lineal, predice probabilidades mayores a 1 y negativas.
Método de Estimación de Parámetros en la Regresión Logística
Utilizamos el método de máxima verosimilitud. Este método iterativo busca los mejores parámetros para la regresión logística, donde cada iteración maximiza la verosimilitud de que los parámetros expliquen el dataset con el que estamos estimando la regresión logística.
Aplicaciones de los Parámetros Estimados
Al igual que con la regresión lineal, podemos realizar:
-
Inferencia: Podemos determinar si una variable independiente explica significativamente la variable dependiente, y también con qué grado de confianza.
- Ejemplo: La altura explica con 99.5% de confianza la posibilidad de padecer cáncer.
-
Predicción: Podemos calcular un valor de Y para nuevos valores de X.
- Ejemplo: Si tengo un tumor (x0 = 1), y este tiene un volumen de 30 milímetros cúbicos, significa que tiene una probabilidad de 0.6 de padecer cáncer; (asumiendo que está balanceado) padece cáncer.
-
Descripción: Podemos determinar qué tanto una variable descriptiva mejora las probabilidades de que algo ocurra.
- Ejemplo: Hacer (una unidad) más deporte mejora en 2.1 las posibilidades (odds) de no padecer cáncer a los 50 años.
Problemas en la Regresión Logística
El mayor problema que podemos encontrar en una regresión logística, aparte de aquellos relacionados con la revisión de calidad de ajuste, son aquellos que tienen que ver con la cantidad de eventos utilizados para ajustar la regresión. En general, vamos a querer ajustar utilizando la fórmula: Clases x Variables Independientes x 10. Por otro lado, el balance de clases es otro problema. En general, vamos a querer tener un problema donde la cantidad de eventos por cada clase sea similar.
Herramientas para Evaluar la Calidad de Ajuste del Modelo
Las siguientes herramientas nos permiten revisar la calidad de ajuste del modelo de regresión logística:
-
Falsos positivos, falsos negativos, verdaderos positivos y verdaderos negativos: Me permiten conocer qué tanto y cómo se equivoca el clasificador obtenido por regresión logística binaria.
- Falsos positivos: Aquellos valores que la regresión predice que son positivos, pero realmente son negativos.
- Falsos negativos: Aquellos valores que la regresión dice que son negativos, pero realmente son positivos.
- Verdaderos positivos: Aquellos valores que la regresión predice correctamente que son positivos.
- Verdaderos negativos: Aquellos valores que la regresión predice correctamente que son negativos.
- Matriz de confusión: Me permite organizar estos valores en una matriz.
- Accuracy, Precisión, Recall y F1 Score: Me permiten resumir los valores anteriores en valores únicos.
Ejemplo Práctico: Diagnóstico de Cáncer
Consideremos un modelo de regresión logística que determina si una persona tiene cáncer. En este caso, un falso negativo es mucho más perjudicial que un falso positivo. El primer caso podría causar que el paciente descarte la continuidad de sus exámenes y, por lo tanto, que sufra silenciosamente la enfermedad. Al contrario, un falso positivo solo llevaría a continuar con más estudios, que finalmente demostrarían que fue una equivocación.
Análisis Exploratorio de Datos (EDA)
Análisis Exhaustivo de Variables Cualitativas
Podríamos realizar cortes por cada una de las variables cualitativas para ver si los descriptivos univariantes de las demás variables cambian. Probablemente lo más interesante sería buscar aquellas variables cualitativas con poca cardinalidad (pocos grupos existentes) y hacer cortes en ellas. Por ejemplo, el primer paso sería revisar las diferencias entre ambos tipos de income.