Estadística Aplicada: Conceptos Esenciales de Regresión y Modelos Multivariantes

Clasificado en Matemáticas

Escrito el en español con un tamaño de 9,87 KB

Conceptos Clave en Regresión y Modelos Estadísticos

Regresión Lineal Múltiple

Supuestos de la Regresión Múltiple

  • Esperanza de los errores: E(e) = 0 (vector nx1).
  • Varianza de los errores: Var(e) = E(ee') = σ²I (matriz de varianza-covarianza es diagonal con varianza constante).
  • Covarianza de los errores: Cov(e) = 0 (los errores son incorrelacionados entre sí).

En los supuestos multivariantes, los errores de las distintas variables de respuesta (Yᵢ) pueden estar correlacionados para una misma observación, a diferencia de la regresión múltiple donde las observaciones de los errores de la variable de respuesta están incorrelacionadas entre sí.

Estimación por Mínimos Cuadrados Ordinarios (MCO)

El método de Mínimos Cuadrados busca minimizar la suma de los cuadrados de los residuos. Las ecuaciones normales y la solución para los coeficientes de regresión (B) son:

  • Ecuaciones Normales: X'XB = X'Y
  • Estimador de MCO: B = (X'X)⁻¹X'Y
  • Modelo estimado: Ŷ = XB

Coeficiente de Determinación (R²)

El R² es una medida fundamental que cuantifica la calidad de ajuste de un modelo de regresión. Indica la proporción de la variabilidad total de la variable de respuesta (Yᵢ) que es explicada por las variables predictoras (Xⱼ). Es importante notar que el R² tiende a aumentar a medida que se incrementa el número de variables predictoras en el modelo, incluso si estas no son significativas.

Coeficiente de Determinación Ajustado (R² Ajustado)

A diferencia del R², el R² ajustado penaliza la inclusión de variables predictoras que no mejoran significativamente el modelo. Su objetivo es proporcionar una medida más honesta del ajuste del modelo, buscando maximizar la proporción de varianza explicada sin sobreajustar.

Test de Significación de los Coeficientes de Regresión

Este test evalúa si un coeficiente de regresión individual es estadísticamente diferente de cero. Si el valor p asociado es bajo (típicamente < 0.05) o si el intervalo de confianza para el coeficiente no contiene el cero, se tiene evidencia suficiente para rechazar la hipótesis nula (H₀: el coeficiente es cero) y aceptar la hipótesis alternativa (H₁: el coeficiente es diferente de cero), indicando que la variable predictora es significativa.

Tabla ANOVA (Análisis de Varianza)

La tabla ANOVA en regresión proporciona información sobre la significación global del modelo. Permite determinar si al menos una de las variables predictoras contribuye significativamente a explicar la variabilidad de la variable de respuesta.

Intervalos de Confianza

Los intervalos de confianza para los coeficientes de regresión son rangos de valores dentro de los cuales se espera que se encuentre el verdadero valor del parámetro con un cierto nivel de confianza. Si un intervalo de confianza para un coeficiente contiene el cero, esto sugiere que la variable explicativa correspondiente no aporta información significativa al modelo, y no hay evidencia suficiente para rechazar la hipótesis nula de que el coeficiente es cero.

Multicolinealidad (VIF - Factor de Inflación de la Varianza)

La multicolinealidad ocurre cuando existe una alta correlación entre dos o más variables predictoras en un modelo de regresión. Esto indica que las variables son linealmente dependientes, lo cual puede afectar negativamente la estabilidad y la interpretación de los coeficientes de regresión del modelo.

Autocorrelación

La autocorrelación se presenta cuando los errores de un modelo están correlacionados entre sí. Es un problema común en series de tiempo, donde el error en un período puede depender del error en períodos anteriores.

Fundamentos de Estadística Multivariante

Tipos de Distribuciones

Distribución Conjunta (Multivariante)

Representa la probabilidad de que un conjunto de variables aleatorias tomen valores específicos simultáneamente. Para un vector aleatorio X = (X₁, X₂, ..., Xₚ), su función de densidad de probabilidad conjunta f(x₁, x₂, ..., xₚ) describe la probabilidad de que X tome un valor particular en el espacio p-dimensional.

Distribución Marginal

Es la distribución de probabilidad de una subconjunto de variables de un vector aleatorio, ignorando los valores del resto de las variables. Permite realizar un análisis univariante o bivariante de componentes individuales de un vector multivariante.

Distribución Condicionada

Describe la probabilidad de que una variable aleatoria tome un valor dado que otra variable aleatoria ha tomado un valor específico. La función de densidad de probabilidad de X₁ condicionada a que X₂ toma un valor determinado (x₂) se calcula como la función de densidad conjunta evaluada en (X₁, x₂) dividida por la distribución marginal de X₂: f(x₁|x₂) = f(x₁, x₂) / f(x₂).

Conceptos Clave en Análisis Multivariante

Independencia de Vectores Aleatorios

Dos vectores aleatorios son independientes si el conocimiento de uno no proporciona información sobre el otro. Formalmente, para X₁ y X₂, son independientes si su función de distribución conjunta es el producto de sus funciones de distribución marginales: F(X₁, X₂) = F(X₁)F(X₂). Esto también implica que la esperanza condicional de uno dado el otro es igual a su esperanza marginal: E[X₁|X₂] = E[X₁].

Maldición de la Dimensionalidad (Curse of Dimensionality)

A medida que el número de variables (dimensiones) en un conjunto de datos aumenta, la complejidad del análisis y la inferencia se incrementa drásticamente. El espacio de datos se vuelve cada vez más "vacío", lo que dificulta encontrar patrones significativos y aumenta la incertidumbre en las estimaciones. Esto es particularmente relevante cuando la relación entre el número de observaciones (n) y el número de variables (p) es baja (e.g., n/p < 10 o < 20).

Vector de Medias

Para un vector aleatorio X = (X₁, X₂, ..., Xₚ)', el vector de medias (μ) es un vector columna que contiene la esperanza de cada uno de sus componentes: μ = E[X] = (E[X₁], E[X₂], ..., E[Xₚ])'.

Matriz de Varianza y Covarianza (Σ)

Es una matriz simétrica que describe la variabilidad de cada variable y la covarianza entre cada par de variables en un vector aleatorio. Se define como: Σ = E[(X - μ)(X - μ)'].

Varianza Media

La varianza media de un vector aleatorio se calcula como la traza de la matriz de varianza y covarianza dividida por el número de variables (p). Proporciona una medida promedio de la variabilidad de las componentes individuales.

Varianza Generalizada

La varianza generalizada es el determinante de la matriz de varianza y covarianza (|Σ|). Es una medida de la variabilidad conjunta de todas las variables en el vector aleatorio, considerando también sus interrelaciones.

Varianza Efectiva

La varianza efectiva se define como el determinante de la matriz de varianza y covarianza elevado a 1/p (|Σ|¹/ᵖ). Es otra medida de la variabilidad conjunta de las variables y su dependencia, a menudo utilizada para comparar la dispersión de diferentes distribuciones multivariantes.

Esperanza Condicional E[X₁|X₂]

La esperanza condicional de X₁ dado X₂ se calcula como la integral de X₁ multiplicada por su función de densidad de probabilidad condicionada a X₂: E[X₁|X₂] = ∫ x₁ f(x₁|x₂) dx₁.

Descomposición de la Varianza

La varianza total de una variable aleatoria puede descomponerse en la esperanza de la varianza condicional y la varianza de la esperanza condicional: Var(X₁) = E[Var(X₁|X₂)] + Var[E(X₁|X₂)].

Vectores Propios (Eigenvectores)

Los vectores propios de una matriz de covarianza indican las direcciones de los ejes principales de la elipsoide de dispersión de los datos. Son fundamentales en técnicas como el Análisis de Componentes Principales (ACP).

Valores Propios (Eigenvalores)

Los valores propios asociados a los vectores propios representan la magnitud de la varianza a lo largo de las direcciones de los ejes principales de la elipsoide de dispersión. Cuanto mayor sea un valor propio, mayor será la variabilidad en la dirección de su vector propio correspondiente.

Distancia de Mahalanobis

La distancia de Mahalanobis (D²) es una medida de la distancia entre un punto y una distribución, teniendo en cuenta la correlación entre las variables. Se define como: D² = (x - μ)'Σ⁻¹(x - μ), donde Σ⁻¹ es la inversa de la matriz de varianza y covarianza.

Función de Verosimilitud

La función de verosimilitud evalúa la "probabilidad" de observar un conjunto de datos fijos (x₁, x₂, ..., xₙ) dada una distribución de probabilidad con ciertos parámetros. Para observaciones independientes, la función de verosimilitud es el producto de las funciones de densidad de probabilidad individuales.

Estimación por Máxima Verosimilitud (EMV)

La Estimación por Máxima Verosimilitud es un método para estimar los parámetros de un modelo estadístico. Consiste en encontrar los valores de los parámetros que maximizan la función de verosimilitud, es decir, aquellos que hacen que los datos observados sean lo más "probables" posible.

Entradas relacionadas: