Multicolinealidad en Modelos de Regresión: Causas, Detección y Soluciones

Enviado por Francisco Jose y clasificado en Matemáticas

Escrito el en español con un tamaño de 4,15 KB

Entendiendo la Multicolinealidad en Modelos de Regresión

La multicolinealidad se define como la existencia de relaciones lineales entre dos o más variables independientes (v.i.) dentro de un modelo lineal uniecuacional múltiple. Este fenómeno es común, por ejemplo, en las series temporales.

Causas Comunes de la Multicolinealidad

  • Relación causal entre las variables explicativas del modelo.
  • Escasa variabilidad en las observaciones de las variables independientes.
  • Reducido tamaño de la muestra.

Tipos de Multicolinealidad

Multicolinealidad Perfecta o Exacta

Ocurre cuando existe una relación lineal exacta entre dos o más variables independientes. Esto provoca el incumplimiento de la condición de rango de la matriz de diseño (rango(X)). Como consecuencia, en la ecuación XTXβ = XTY, existen infinitas soluciones para el estimador β. Por lo tanto, no se pueden estimar los coeficientes individuales de las variables, aunque sí es posible estimar una combinación lineal de los mismos.

Multicolinealidad Aproximada

Se presenta cuando existe una relación lineal aproximada entre dos o más variables independientes. En este caso, la condición de rango se cumple, la matriz se puede invertir y es posible obtener los estimadores por Mínimos Cuadrados Ordinarios (MCO). Sin embargo, el determinante de la matriz XTX será próximo a cero, lo que provocará que su inversa tienda a tener valores muy altos.

Problemas de la Multicolinealidad Aproximada (o No Perfecta)

  • Varianzas de los estimadores muy grandes, lo que aumenta la incertidumbre.
  • En los contrastes de significación individual, no se rechazará la hipótesis nula (coeficiente = 0) fácilmente, mientras que en los contrastes conjuntos sí se rechazará.
  • Los coeficientes estimados son sensibles ante pequeños cambios en los datos.
  • El coeficiente de determinación (R²) es elevado, lo que puede ser engañoso sobre la significatividad individual de las variables.

Detección de la Multicolinealidad

Se utilizan principalmente dos métodos para su diagnóstico:

Número de Condición

Se calcula como la raíz cuadrada del cociente entre el autovalor más grande (λmáx) y el autovalor más pequeño (λmín) de la matriz XTX. La interpretación es la siguiente:

  • Si el número está entre 20 y 30, existe un problema probable de multicolinealidad.
  • Se considera un problema seguro si supera los 30.

Factor de Agrandamiento de la Varianza (FAV)

También conocido como VIF (Variance Inflation Factor), se define para cada estimador como: FAV(βi) = 1 / (1 - Ri²), donde Ri² es el coeficiente de determinación obtenido al efectuar la regresión de la variable Xi sobre el resto de las variables independientes del modelo.

El FAV se interpreta como la razón entre la varianza observada y la que habría si Xi estuviera incorrelacionada con el resto de variables. Es decir, muestra en qué medida se agranda la varianza del estimador como consecuencia de la relación entre los regresores. Generalmente, un FAV > 10 indica una posible existencia de multicolinealidad en el modelo.

Soluciones a la Multicolinealidad

  • Mejora del diseño, extrayendo la máxima información de las variables observadas.
  • Eliminación de las variables que se sospechan son causantes de la multicolinealidad.
  • Aumentar el tamaño de la muestra si hay pocas observaciones.
  • Utilizar información extramuestral que permita realizar relaciones entre los parámetros para que se pueda estimar el modelo por MCO.

Entradas relacionadas: