Conceptos Fundamentales en Modelos de Regresión
Clasificado en Matemáticas
Escrito el en español con un tamaño de 4,2 KB
Variables Cualitativas, Dummy, Dicotómicas o Binarias
Ayudan a mejorar el poder explicativo de un modelo de regresión. Miden la presencia o ausencia de un atributo. Estas variables pueden expresarse en “c” estados posibles.
Por ejemplo:
- La variable cualitativa sexo tiene dos categorías (c=2): hombre o mujer.
- La variable cualitativa localización podría tener 3 categorías (c=3): norte, centro, sur.
- La variable cualitativa experiencia laboral podría tener 4 categorías (c=4): sin experiencia, baja experiencia, mediana experiencia, mucha experiencia.
En algunos casos es muy clara la cantidad de categorías que posee una variable cualitativa, pero en otros, depende del investigador.
Consideración Importante para Variables Dummy
¡IMPORTANTE! Si la regresión tiene intercepto (β₀), se debe incorporar al modelo “c-1” variables dicotómicas por cada atributo. De no hacerlo, generaríamos perfecta colinealidad de las variables cualitativas, lo que nos impediría utilizar Mínimos Cuadrados Ordinarios (MCO). Por ejemplo, si se quiere agregar la variable cualitativa “sexo” a la regresión, esta tiene dos estados posibles (c=2). ¿Cuántas dummies se agregan? C – 1, es decir, 2 – 1 = 1. Se agrega una dummy.
Estas variables se pueden incorporar a un modelo de regresión de manera aditiva o multiplicativa. Se incorpora de manera aditiva si hay intercepto (β₀) y se incorpora de manera multiplicativa si se cree que ese atributo afecta a una variable explicativa (Xs) y, por lo tanto, cambia la pendiente de la recta. Esta significancia se evalúa con la prueba t-student. Si no se rechaza H₀, entonces no es significante y ese parámetro no se considera en el análisis.
Inferencia Estadística o Testeo de Hipótesis
Consiste en identificar ciertas propiedades de los parámetros poblacionales a partir de la muestra. Para realizar un testeo de hipótesis se requiere definir una hipótesis nula (H₀) y una hipótesis alternativa (H₁) y se realiza la prueba de significancia.
Esta prueba es un procedimiento mediante el cual se utilizan los resultados muestrales para verificar la verdad o falsedad de una hipótesis nula. Se debe construir un estadístico de prueba y contrastarlo con un estadístico de tabla.
Prueba t-student
Significancia individual de parámetros: H₀: β = 0, H₁: β ≠ 0 (prueba t-student). Si |t| ≥ tcrítico, se rechaza H₀.
Prueba F
Significancia global del modelo: H₀: β₁ = β₂ = β₃ = … = 0, H₁: Al menos un βᵢ ≠ 0 (prueba F). Si F > Fcrítico, se rechaza H₀.
La prueba F sirve también para la igualdad de parámetros (cuando la hipótesis nula es H₀: β₁ = β₂), restricciones lineales de parámetros (cuando la hipótesis nula es, por ejemplo, H₀: β₁ + β₂ = x, donde x es cualquier número) y para la evaluación del aporte marginal de una o más variables al modelo (para determinar si cierto(s) parámetro(s) es/son significante(s) AL MODELO).
Bondad del Ajuste de una Regresión (R²)
Mide cuán bien se ajusta la regresión a los datos de la muestra. Su valor está entre 0 y 1. En otras palabras, mide el porcentaje de la variación total en Y explicada por el modelo de regresión (por las variables explicativas).
Por ejemplo: Si R² = 0.78, significa que un 78% de la variación de la variable Y es explicada por la variación de las variables explicativas (Xs).
P-value
Si P-value ≤ α, se rechaza la hipótesis nula (H₀).