Interpretación Detallada de Resultados de Regresión Lineal Múltiple en R

Clasificado en Matemáticas

Escrito el en español con un tamaño de 4,74 KB

Proceso de Modelado y Validación de Regresión Lineal Múltiple

1. Carga de Datos e Inicialización del Modelo

El proceso comienza con la carga de los datos y el ajuste inicial del modelo de regresión lineal múltiple:

datos <- read.table(file.choose(), T)
mod1 <- lm(Y ~ ., data = datos)

2. Verificación de Supuestos del Modelo

Es fundamental evaluar los supuestos clave para asegurar la validez de las inferencias obtenidas del modelo $\text{mod1}$.

2.1. Normalidad de los Residuos

Se utiliza el estadístico de Shapiro-Wilk para evaluar la normalidad de los residuos estandarizados ($\text{ri1}$):

ri1 <- rstandard(mod1)
shapiro.test(ri1)

Para la evaluación gráfica del supuesto de normalidad:

plot(mod1, 2)

2.2. Homogeneidad de Varianzas (Homocedasticidad)

Se emplea la prueba de Levene (a través de la librería car) y la gráfica de residuos vs. valores ajustados.

library(car)
ncvTest(mod1)

Para la obtención de la gráfica que evalúa gráficamente el supuesto de homogeneidad de variancias:

plot(mod1, 1)

3. Resumen y Pruebas de Hipótesis del Modelo

3.1. Resumen del Modelo y ANOVA

Se obtienen los resultados detallados del modelo y la tabla de ANOVA:

summary(mod1)
summary(aov(mod1))

3.2. Interpretación de Coeficientes Individuales

A continuación, se presentan ejemplos de interpretación basados en los coeficientes estimados:

  • Coeficiente para Tamaño Firme: 0.1888. Cuando la medición del tamaño firme aumenta en una unidad, entonces la medición del estrés se incrementa en promedio 0.1888, manteniendo constantes las variables: número de años en el mismo puesto, salario anual y edad.
  • Coeficiente para Años en el Puesto: -1.5754. Cuando el número de años en el mismo puesto se incrementa en uno, entonces la medición del estrés disminuye en promedio 1.5754, manteniendo constantes las variables: mediciones de tamaño firme, salario anual y edad.

4. Verificación Manual de la Estimación de Coeficientes (Cálculos Matriciales)

Se realiza una verificación de la estimación de $\hat{\beta}$ utilizando álgebra matricial:

uno <- rep(1, nrow(datos))
X <- as.matrix(cbind(uno, datos[, -1]))
Y
X

xtx <- t(X) %*% X
xtx

xty <- t(X) %*% Y
xty

ixtx <- solve(xtx)
ixtx

betaest <- ixtx %*% xty
mod1 # Comparación con el resultado de lm()

5. Validación del Modelo con Variables Específicas

Se ajusta un modelo utilizando solo las variables regresoras explícitamente definidas como matriz:

# Matriz regresora (excluyendo la variable respuesta Y)
regresoras <- as.matrix(datos[, -1])
anv <- lm(Y ~ regresoras)
summary(aov(anv))

Conclusión de la Prueba F (ANOVA)

La prueba es muy altamente significativa. A un nivel de significación de 0.05, se rechaza la $H_0$. Por lo tanto, se concluye que al menos una de las variables (mediciones de tamaño firme, número de años en el mismo puesto, salario anual y edad) contribuye a explicar a la variable medición del estrés.

6. Intervalos de Confianza para los Coeficientes

Para el cálculo de los intervalos de confianza al 95%:

confint(mod1, level = 0.95)

Interpretación del Intervalo (Ejemplo): [0.1213, 0.2562]. Con un 95% de confianza, el intervalo que va desde 0.1213 hasta 0.2562 contiene al verdadero incremento promedio de la medición de estrés cuando la medición del tamaño firme aumenta en una unidad, manteniendo constantes las variables: número de años en el mismo puesto, salario anual y edad.

7. Medidas de Bondad de Ajuste

Se revisan las métricas clave del resumen del modelo:

summary(mod1)

7.1. Coeficiente de Determinación ($R^2$)

Multiple R-squared: 0.8751 (Coeficiente de Determinación: $R^2$)

  • El 87.51% de la variabilidad total de la medición de estrés es explicada por las variables: mediciones de tamaño firme, número de años en el mismo puesto, salario anual y edad.

7.2. Coeficiente de No Determinación

  • Coeficiente de no determinación: $1 - R^2 = 0.1249$.
  • El 12.49% de la variabilidad total de la medición de estrés no es explicada por las variables incluidas en el modelo. Es explicada por otras variables no consideradas.

Entradas relacionadas: