Análisis de Regresión Múltiple: Modelado de Variables de Respuesta Única

Clasificado en Matemáticas

Escrito el en español con un tamaño de 4,55 KB

**Análisis de Regresión Múltiple**

**Introducción**

El análisis de regresión múltiple es una técnica estadística que se utiliza para modelar una variable de respuesta única (Y) en función de múltiples variables predictoras (X1, X2, ..., Xn). Para cada uno de los n casos observados, se recopilan los valores de la respuesta y de cada uno de los predictores.

**Hipótesis**

Las hipótesis del análisis de regresión múltiple son similares a las del modelo de regresión simple:

  • Los errores no están correlacionados.
  • Los errores se distribuyen normalmente con media 0 y varianza constante.

**Objetivos**

El análisis de regresión múltiple se utiliza para:

  • Obtener estadísticas descriptivas generales, incluidas las correlaciones entre predictores y respuesta.
  • Graficar la relación lineal potencial entre la respuesta y los predictores.
  • Ajustar un modelo de regresión lineal simple.
  • Ampliar el modelo agregando predictores adicionales.

**Selección de Predictores**

**Análisis de Regresión Paso a Paso de Selección Directa**

En el análisis de regresión paso a paso de selección directa, el procedimiento comienza con el modelo de regresión simple con el predictor que tiene la correlación de muestra más grande en valor absoluto con la respuesta Y. Luego, se agregan al modelo los predictores que cumplen con los siguientes criterios:

  1. Tienen la correlación parcial de muestra más alta en valor absoluto con la respuesta, ajustándose para los predictores que ya están en la ecuación.
  2. Aumentar la variable aumentará R2 más que cualquier otra variable.
  3. La variable agregada tendría la estadística t o F más grande que cualquiera de las variables que no están en el modelo.

**Análisis de Regresión Paso a Paso de Eliminación Hacia Atrás**

En el análisis de regresión paso a paso de eliminación hacia atrás, el procedimiento comienza con el modelo de regresión completo que incluye todos los predictores disponibles. En cada paso, se elimina una variable. La variable a eliminar es la que tiene el valor t o F más pequeño de todas las variables de la ecuación. Esto es equivalente a eliminar la variable que causa el cambio más pequeño en R2 o tiene la menor correlación parcial absoluta con Y ajustándose para todas las demás variables restantes en el modelo.

**Evaluación del Modelo**

**Análisis de Varianza**

El análisis de varianza proporciona un método conveniente para comparar el ajuste de varios modelos con el mismo conjunto de datos. Como primera aproximación, se puede comparar el modelo restringido sin predictores con el modelo completo, incluidos todos los predictores disponibles. De manera similar a lo que se hace en una sola regresión.

**Coeficiente de Determinación**

El coeficiente de determinación (R2) mide la cantidad de variabilidad de Y explicada por la regresión de las X. El valor de R2 ajustado (Adj R2) aumentará después de incluir un nuevo predictor en el modelo solo cuando las estadísticas parciales de la prueba F sean mayores que 1. Uno puede mostrar que el valor de R2 es el cuadrado del coeficiente de correlación múltiple entre Y y las X. El coeficiente de determinación siempre aumentará agregando nuevos predictores en el modelo, independientemente de que las pendientes para esos predictores sean estadísticamente significativas.

**Diagnóstico**

Los métodos para obtener estimaciones, pruebas y otros resúmenes desarrollados hasta ahora solo cuentan la mitad de la historia del análisis de regresión. Todos estos métodos se calculan como si el modelo y los supuestos fueran correctos, pero en cualquier problema práctico los supuestos están en duda. Por lo general, se requiere una segunda fase de análisis diseñada para verificar los supuestos y construir un modelo. Mientras que la fase inicial del modelado produjo combinaciones de los datos como estadísticas de resumen, esta última fase requiere el examen de estadísticas que generalmente tienen valores en cada caso. Llamamos a estas estadísticas estadísticas de diagnóstico ya que están diseñadas para encontrar problemas con los supuestos en un análisis.

Entradas relacionadas: