Clarificación de Conceptos Fundamentales en Modelos de Regresión Lineal

Clasificado en Matemáticas

Escrito el en español con un tamaño de 6,68 KB

Revisión de Conceptos Clave en Modelos Econométricos

Verdades y Falsedades sobre el Modelo de Regresión Lineal

  1. Diferencia entre MC y MG respecto a $E(\mathbf{e})$

    Falso. La hipótesis que diferencia a un **MC** (Modelo Clásico) de un **MG** (Modelo General) no se refiere a $E(\mathbf{e})$, sino a la **matriz de varianzas-covarianzas de las perturbaciones** ($\mathbf{V}(\mathbf{e})$).

  2. Incumplimiento de Hipótesis del MRLNC y Estimación por MCO

    Falso. Aunque se incumpla alguna de las hipótesis del **MRLNC** (Modelo de Regresión Lineal Múltiple Normal Clásico), se puede seguir estimando por **MCO** (Mínimos Cuadrados Ordinarios), pero se perderán propiedades. Sin embargo, hay hipótesis cuyo incumplimiento impide obtener los estimadores MCO:

    • Si hay **relación exacta entre regresores** (multicolinealidad perfecta).
    • Si el número de observaciones es menor que el número de parámetros ($T < k+1$).

    Además, el incumplimiento de ciertas hipótesis no impide obtener estimadores MCO, pero sí anula algunas de sus **propiedades deseables** (como la insesgadez o la eficiencia).

  3. Efecto de la Heterocedasticidad en las Matrices de Varianza-Covarianza

    Si un modelo presenta **heterocedasticidad**:

    • La matriz $\mathbf{V}(\hat{\mathbf{b}})$ (varianza-covarianza de los estimadores MCO) **sigue siendo simétrica**. Los elementos simétricos siempre son iguales porque recogen la relación existente entre dos estimadores MCO.
    • La matriz $\mathbf{V}(\mathbf{e})$ (varianza-covarianza de la perturbación) también mantiene la simetría, ya que los elementos simétricos reflejan la covarianza entre elementos de la perturbación aleatoria y serían idénticos.

    Diferencia clave: $\mathbf{V}(\hat{\mathbf{b}})$ **no es independiente de la muestra**, mientras que $\mathbf{V}(\mathbf{e})$ sí lo es (en el modelo clásico, ambas son proporcionales a $\sigma^2 \mathbf{I}$).

  4. Diferencia entre MC y MG en la Predicción

    La diferencia radica en que en el **MC** se presupone el cumplimiento de todas las hipótesis necesarias para que el modelo sea **válido** a la hora de realizar predicciones y obtener propiedades óptimas. De no cumplirse estas hipótesis, el modelo presentaría problemas (pérdida de propiedades o estimadores no válidos), por lo que sería necesario estimarlo por el **MG** (Modelo General, que no requiere todas las restricciones del MC).

  5. La Trampa de las Variables Ficticias (VF)

    La **trampa de las variables ficticias** reside en no saber cuántas VF incluir en un modelo econométrico. Se cae en ella cuando se introducen tantas VF como factores cualitativos existan, lo que resulta en:

    • Incumplimiento de la hipótesis de **rango pleno**.
    • Generación de **multicolinealidad perfecta**.

    En estas condiciones, no se puede estimar el modelo por MCO porque $(\mathbf{X}'\mathbf{X})$ es singular (su determinante es cero), por lo que no existe su inversa y no se pueden obtener los estimadores.

Ejemplos de Interpretación de Coeficientes en Regresión

A continuación, se presentan ejemplos ilustrativos de la interpretación de coeficientes, incluyendo el uso de variables ficticias y transformaciones logarítmicas.

Ejemplo 1: Modelo Lineal Básico con Variable Ficticia

$$\text{salarios} = 7.1 - 2.51 \times \text{sexo} \quad (\text{home}=0, \text{muller}=1)$$

  • El término constante (7.1) es el **salario medio de los hombres** (cuando sexo=0), es decir, los hombres ganan en promedio 7.1 dólares por hora.
  • El salario medio para las mujeres sería $7.1 + (-2.51) = 4.59$ dólares por hora.

Ejemplo 2: Modelo Lineal con Múltiples Variables

$$\text{salarios} = 6.5 - 1.81\times\text{sexo} + 0.57\times\text{edu} + 0.025\times\text{exper} + 0.141\times\text{antig} \quad (\text{home}=0, \text{muller}=1)$$

  • El coeficiente de la variable **sexo** (-1.81) mide la **diferencia media en salario por hora entre una mujer y un hombre**, dados los mismos niveles de educación, experiencia y antigüedad. Así, la mujer gana, en promedio, 1.81 dólares menos por hora que el hombre. Esta diferencia puede deberse al sexo o a factores asociados al mismo no considerados en la regresión.

Ejemplo 3: Interpretación de Variable Ficticia en el Regresando

$$\text{nota univ} = 1.26 + 0.16\times\text{pc} + 0.447\times\text{nota instit} + 0.0087\times\text{nota select} \quad (\text{pc}=1=\text{tener ordenador}; \text{pc}=0=\text{no tener ordenador})$$

  • Se busca determinar los efectos de disponer de un ordenador sobre la nota media en la universidad, junto con las notas de instituto y selectividad.
  • Esta ecuación implica que un estudiante que **posee un ordenador** tiene una nota media prevista en la universidad en torno a **0.16 puntos por encima** de la de un estudiante similar sin ordenador.

Ejemplo 4: Interpretación en Modelos Log-Lineales (Log(Y))

$$\text{Log(salarios)} = 0.41 - 0.297\times\text{sexo} + 0.08\times\text{edu} + 0.029\times\text{experiencia} \quad (\text{sexo}: \text{home}=0, \text{muller}=1)$$

Interpretación de Variables Ficticias cuando el Regresando está en Logaritmos

La interpretación se realiza mediante la fórmula: $\text{Cambio porcentual} \approx 100 \times (\exp(\beta_j) - 1)$

  • Para la variable sexo: $\exp(-0.297) - 1 \approx -0.257$, es decir, el salario de la mujer se sitúa, en promedio, un **25.7% por debajo** del salario de un hombre ante características semejantes.

Ejemplo 5: Interacciones en Modelos Logarítmicos

$$\text{Log(salarios)} = \beta_0 + 0.177\times\text{compwork} + 0.07\times\text{comphouse} + 0.017\times\text{compwork}\times\text{comphouse} + \text{otros factores}$$ $$(\text{compwork}=1, \text{usa ordenador en el trabajo}) \quad (\text{comphouse}=1, \text{usa ordenador en casa})$$

  • La **rentabilidad estimada** del uso de un ordenador **solo en el trabajo** (compwork=1, comphouse=0) es de aproximadamente $100 \times (\exp(0.177) - 1) \approx 19.4\%$.
  • Las personas que usan ordenador **solo en casa** (compwork=0, comphouse=1) tienen una prima salarial de aproximadamente $100 \times (\exp(0.07) - 1) \approx 7.25\%$ respecto a aquellos que no usan ordenador en absoluto.
  • La diferencia entre los que usan un ordenador en **ambos sitios** (compwork=1, comphouse=1) y los que no usan en ninguno es aproximadamente $100 \times (\exp(0.177 + 0.07 + 0.017) - 1) \approx 30.2\%$ (suma de los tres coeficientes relevantes y aplicación de la fórmula).

Entradas relacionadas: