Clarificación de Conceptos Fundamentales en Modelos de Regresión Lineal
Clasificado en Matemáticas
Escrito el en
español con un tamaño de 6,68 KB
Revisión de Conceptos Clave en Modelos Econométricos
Verdades y Falsedades sobre el Modelo de Regresión Lineal
Diferencia entre MC y MG respecto a $E(\mathbf{e})$
Falso. La hipótesis que diferencia a un **MC** (Modelo Clásico) de un **MG** (Modelo General) no se refiere a $E(\mathbf{e})$, sino a la **matriz de varianzas-covarianzas de las perturbaciones** ($\mathbf{V}(\mathbf{e})$).
Incumplimiento de Hipótesis del MRLNC y Estimación por MCO
Falso. Aunque se incumpla alguna de las hipótesis del **MRLNC** (Modelo de Regresión Lineal Múltiple Normal Clásico), se puede seguir estimando por **MCO** (Mínimos Cuadrados Ordinarios), pero se perderán propiedades. Sin embargo, hay hipótesis cuyo incumplimiento impide obtener los estimadores MCO:
- Si hay **relación exacta entre regresores** (multicolinealidad perfecta).
- Si el número de observaciones es menor que el número de parámetros ($T < k+1$).
Además, el incumplimiento de ciertas hipótesis no impide obtener estimadores MCO, pero sí anula algunas de sus **propiedades deseables** (como la insesgadez o la eficiencia).
Efecto de la Heterocedasticidad en las Matrices de Varianza-Covarianza
Si un modelo presenta **heterocedasticidad**:
- La matriz $\mathbf{V}(\hat{\mathbf{b}})$ (varianza-covarianza de los estimadores MCO) **sigue siendo simétrica**. Los elementos simétricos siempre son iguales porque recogen la relación existente entre dos estimadores MCO.
- La matriz $\mathbf{V}(\mathbf{e})$ (varianza-covarianza de la perturbación) también mantiene la simetría, ya que los elementos simétricos reflejan la covarianza entre elementos de la perturbación aleatoria y serían idénticos.
Diferencia clave: $\mathbf{V}(\hat{\mathbf{b}})$ **no es independiente de la muestra**, mientras que $\mathbf{V}(\mathbf{e})$ sí lo es (en el modelo clásico, ambas son proporcionales a $\sigma^2 \mathbf{I}$).
Diferencia entre MC y MG en la Predicción
La diferencia radica en que en el **MC** se presupone el cumplimiento de todas las hipótesis necesarias para que el modelo sea **válido** a la hora de realizar predicciones y obtener propiedades óptimas. De no cumplirse estas hipótesis, el modelo presentaría problemas (pérdida de propiedades o estimadores no válidos), por lo que sería necesario estimarlo por el **MG** (Modelo General, que no requiere todas las restricciones del MC).
La Trampa de las Variables Ficticias (VF)
La **trampa de las variables ficticias** reside en no saber cuántas VF incluir en un modelo econométrico. Se cae en ella cuando se introducen tantas VF como factores cualitativos existan, lo que resulta en:
- Incumplimiento de la hipótesis de **rango pleno**.
- Generación de **multicolinealidad perfecta**.
En estas condiciones, no se puede estimar el modelo por MCO porque $(\mathbf{X}'\mathbf{X})$ es singular (su determinante es cero), por lo que no existe su inversa y no se pueden obtener los estimadores.
Ejemplos de Interpretación de Coeficientes en Regresión
A continuación, se presentan ejemplos ilustrativos de la interpretación de coeficientes, incluyendo el uso de variables ficticias y transformaciones logarítmicas.
Ejemplo 1: Modelo Lineal Básico con Variable Ficticia
$$\text{salarios} = 7.1 - 2.51 \times \text{sexo} \quad (\text{home}=0, \text{muller}=1)$$
- El término constante (7.1) es el **salario medio de los hombres** (cuando sexo=0), es decir, los hombres ganan en promedio 7.1 dólares por hora.
- El salario medio para las mujeres sería $7.1 + (-2.51) = 4.59$ dólares por hora.
Ejemplo 2: Modelo Lineal con Múltiples Variables
$$\text{salarios} = 6.5 - 1.81\times\text{sexo} + 0.57\times\text{edu} + 0.025\times\text{exper} + 0.141\times\text{antig} \quad (\text{home}=0, \text{muller}=1)$$
- El coeficiente de la variable **sexo** (-1.81) mide la **diferencia media en salario por hora entre una mujer y un hombre**, dados los mismos niveles de educación, experiencia y antigüedad. Así, la mujer gana, en promedio, 1.81 dólares menos por hora que el hombre. Esta diferencia puede deberse al sexo o a factores asociados al mismo no considerados en la regresión.
Ejemplo 3: Interpretación de Variable Ficticia en el Regresando
$$\text{nota univ} = 1.26 + 0.16\times\text{pc} + 0.447\times\text{nota instit} + 0.0087\times\text{nota select} \quad (\text{pc}=1=\text{tener ordenador}; \text{pc}=0=\text{no tener ordenador})$$
- Se busca determinar los efectos de disponer de un ordenador sobre la nota media en la universidad, junto con las notas de instituto y selectividad.
- Esta ecuación implica que un estudiante que **posee un ordenador** tiene una nota media prevista en la universidad en torno a **0.16 puntos por encima** de la de un estudiante similar sin ordenador.
Ejemplo 4: Interpretación en Modelos Log-Lineales (Log(Y))
$$\text{Log(salarios)} = 0.41 - 0.297\times\text{sexo} + 0.08\times\text{edu} + 0.029\times\text{experiencia} \quad (\text{sexo}: \text{home}=0, \text{muller}=1)$$
Interpretación de Variables Ficticias cuando el Regresando está en Logaritmos
La interpretación se realiza mediante la fórmula: $\text{Cambio porcentual} \approx 100 \times (\exp(\beta_j) - 1)$
- Para la variable sexo: $\exp(-0.297) - 1 \approx -0.257$, es decir, el salario de la mujer se sitúa, en promedio, un **25.7% por debajo** del salario de un hombre ante características semejantes.
Ejemplo 5: Interacciones en Modelos Logarítmicos
$$\text{Log(salarios)} = \beta_0 + 0.177\times\text{compwork} + 0.07\times\text{comphouse} + 0.017\times\text{compwork}\times\text{comphouse} + \text{otros factores}$$ $$(\text{compwork}=1, \text{usa ordenador en el trabajo}) \quad (\text{comphouse}=1, \text{usa ordenador en casa})$$
- La **rentabilidad estimada** del uso de un ordenador **solo en el trabajo** (compwork=1, comphouse=0) es de aproximadamente $100 \times (\exp(0.177) - 1) \approx 19.4\%$.
- Las personas que usan ordenador **solo en casa** (compwork=0, comphouse=1) tienen una prima salarial de aproximadamente $100 \times (\exp(0.07) - 1) \approx 7.25\%$ respecto a aquellos que no usan ordenador en absoluto.
- La diferencia entre los que usan un ordenador en **ambos sitios** (compwork=1, comphouse=1) y los que no usan en ninguno es aproximadamente $100 \times (\exp(0.177 + 0.07 + 0.017) - 1) \approx 30.2\%$ (suma de los tres coeficientes relevantes y aplicación de la fórmula).