Aplicación e Interpretación de Modelos de Regresión en R

Clasificado en Matemáticas

Escrito el en español con un tamaño de 5,94 KB

Ejercicio 1: Regresión Cuadrática

(a) Realizar un diagrama de dispersión de y versus x

datosej1t1 = read.table(file.choose(), header = T)
attach(datosej1t1)
plot(y ~ x) # diagrama de dispersión

(b) Proponer un modelo lineal que ajuste bien, donde la variable y sea función de la variable x.

Observamos que el gráfico de dispersión es una parábola; por lo tanto, vamos a proponer un modelo cuadrático:

y = β₀ + β₁*x + β₂*x² + ε

Le aplicamos una transformación a la variable regresora:

x2 = x^2 # creamos x2, la x ya la tenemos
lmy = lm(y ~ x + x2, data = datosej1t1)
summary(lmy)

(c) ¿Cuál es el R² de la regresión propuesta? ¿Cómo se interpreta?

R² = 0.9359. Esto indica que el 93.59% de la variabilidad de la variable y es explicada por el modelo.

(d) Dar intervalos de confianza de nivel 10% para los parámetros de la regresión.

α = 10% = 0.10

Nivel de confianza = 1 - α = 1 - 0.10 = 0.90

confint(lmy, level = 0.90) # el level que hay que poner acá es 1-alpha, o sea el nivel de confianza

Los intervalos de confianza al 90% son:

  • IC para β₀ es [ -2.280879 ; 3.070382 ]
  • IC para β₁ es [ -4.803736 ; -3.582488 ]
  • IC para β₂ es [ 4.853910 ; 5.320686 ]

Interpretación de los intervalos: Por ejemplo, para β₁, con una confianza del 90%, el verdadero valor del parámetro β₁ se encuentra entre -4.803736 y -3.582488.

(e) Indicar la presencia de valores atípicos (outliers) y puntos de alto leverage.

Valores atípicos (Outliers)

plot(lmy$fitted.values, studres(lmy))
abline(h = 3)
abline(h = -3)

Conclusión: No hay outliers, porque no hay puntos por encima de h=3 o por debajo de h=-3 en el gráfico de residuos estudentizados.

Puntos de alto leverage (High Leverage Points)

plot(lmy, 5)

Conclusión: No hay valores de alto leverage significativos.

Ejercicio 2: Regresión Lineal Múltiple

Considerar los datos ej2t1.txt.

(a) Ajustar un modelo con todas las variables

y = β₀ + β₁*x₁ + β₂*x₂ + ε

datosej2t1 = read.table(file.choose(), header = T)
names(datosej2t1) # con names es que puedo saber cómo distribuir y en la siguiente línea
lmej2 = lm(y ~ x1 + x2, data = datosej2t1)
summary(lmej2)

¿Es significativo el modelo? (Prueba de significancia global)

  • H₀: β₁ = β₂ = 0 (El modelo no es significativo)
  • H₁: Al menos uno de β₁ o β₂ no es cero (El modelo es significativo)
  • Estadístico: Fobs = 32.57
  • Distribución bajo H₀: Fobs ~ F(2, 47 DF)
  • p-valor = 1.335e-09

Conclusión: Como el p-valor (1.335e-09) es mucho menor que los valores típicos de α (como 0.01, 0.05, 0.10), se rechaza H₀. Por lo tanto, el modelo es significativo.

¿Son todos los coeficientes significativos? (Pruebas individuales)

Realizamos pruebas t individuales para cada coeficiente:

Para β₀:
  • H₀: β₀ = 0 (El parámetro β₀ no es significativo)
  • H₁: β₀ ≠ 0 (El parámetro β₀ es significativo)
  • Estadístico: tβ₀ = 3.744
  • Distribución bajo H₀: tβ₀ ~ t(47 DF)
  • p-valor = 0.000494

Conclusión: Como el p-valor (0.000494) es muy bajo, se rechaza H₀. Por lo tanto, el parámetro β₀ es significativo.

Para β₁:
  • H₀: β₁ = 0 (El parámetro β₁ no es significativo)
  • H₁: β₁ ≠ 0 (El parámetro β₁ es significativo)
  • Estadístico: tβ₁ = 3.629
  • Distribución bajo H₀: tβ₁ ~ t(47 DF)
  • p-valor = 0.000699

Conclusión: Como el p-valor (0.000699) es muy bajo, se rechaza H₀. Por lo tanto, el parámetro β₁ es significativo.

Para β₂:
  • H₀: β₂ = 0 (El parámetro β₂ no es significativo)
  • H₁: β₂ ≠ 0 (El parámetro β₂ es significativo)
  • Estadístico: tβ₂ = -1.647
  • Distribución bajo H₀: tβ₂ ~ t(47 DF)
  • p-valor = 0.106259

Conclusión: Como el p-valor (0.106259) es más alto que los valores típicos de α (1%, 5% y 10%), no se rechaza H₀. Por lo tanto, el parámetro β₂ no es significativo individualmente al 10% de significancia.

(b) ¿Cuál es el valor de R² y de RSE en el modelo e interpretar?

  • R² = 0.5809: Indica que el 58.09% de la variabilidad de y es explicada por el modelo.
  • RSE = 5.589: Indica que los valores observados de y se desvían en promedio aproximadamente 5.589 unidades respecto de los valores predichos por el modelo. Es un estimador de la desviación estándar de los errores (ε).

RSE² = 5.589² = 31.237 es el estimador de la varianza de los errores.

(e) Teniendo en cuenta el resultado del ítem a), ajustar el modelo que resulte adecuado para predecir y. Justificar.

En el ítem (a) concluimos que el parámetro β₂ no es significativo individualmente.

Podemos usar un procedimiento de selección de modelos como step para confirmar si se debe eliminar la variable x₂:

step(lmej2, direction = "both")

Al correr el comando step, este nos indica que no se deben eliminar variables (basado en el criterio AIC por defecto). Por lo tanto, el mejor modelo sugerido por este procedimiento es el modelo planteado en el punto (a), que incluye ambas variables x₁ y x₂, a pesar de que x₂ no fuera individualmente significativa al 10%.

Entradas relacionadas: