Fundamentos de Regresión Estadística: Modelos Predictivos y Aplicaciones
Clasificado en Matemáticas
Escrito el en español con un tamaño de 9,23 KB
Regresión Estadística: Conceptos y Aplicaciones
La regresión estadística es una herramienta fundamental para comprender la relación entre variables y realizar predicciones. A continuación, se detallan sus principios, métodos y el proceso de investigación asociado.
1. Definición de Regresión
La regresión estadística determina en qué medida los cambios en los valores de una variable están asociados a cambios en los valores de otra. Su objetivo principal es descubrir qué variable o variables pueden predecir mejor los valores que adquirirá otra variable.
- Regresión Simple: Si el estudio implica una única variable pronosticadora.
- Regresión Múltiple: Si el estudio implica dos o más variables pronosticadoras.
2. Criterio de Mínimos Cuadrados
Es una técnica de optimización estadística utilizada en la regresión para localizar la recta de regresión que mejor se ajusta a los datos, minimizando la suma de los cuadrados de los residuos (errores).
3. Errores de Predicción
Los errores de predicción, también conocidos como residuos, representan la diferencia entre el valor real y el valor pronosticado por el modelo. Solo en casos ideales, el valor real coincidirá con el pronosticado. En la mayoría de los casos, se presenta un error en la predicción que, en conjunto, está contrapesado por los casos que están por encima y por debajo de la recta de regresión.
Los casos suelen estar en un espacio cercano a la recta de regresión (residuos relativamente pequeños), aunque en algunos casos pueden tener residuos más elevados.
El error típico es la desviación estándar de los coeficientes de regresión al realizar un pronóstico.
5. Regresión Múltiple
La regresión múltiple permite utilizar varias variables pronosticadoras para mejorar la capacidad predictiva del modelo.
5.1. Métodos de Selección de Variables
Existen diferentes estrategias para seleccionar las variables más adecuadas en un modelo de regresión múltiple:
5.1.1. Introducir (Enter)
Se genera un único modelo de regresión que incluye a todas las variables pronosticadoras. Las variables no necesitan cumplir condiciones específicas para ser incluidas. Este método no permite determinar cuál es el conjunto de variables que ofrece una explicación adecuada con el menor número de variables.
5.1.2. Hacia Adelante (Forward)
Se pueden generar diversos modelos de regresión. En el primer modelo, solo se introduce la variable que presente la mayor correlación con la variable criterio. En el segundo modelo, junto a la primera, se introduce otra variable que produzca el mayor aumento significativo de R². Así sucesivamente hasta que se hayan introducido todas las que produzcan un cambio significativo de R².
5.1.3. Hacia Atrás (Backward)
Es el proceso inverso al anterior: se comienza con todas las variables pronosticadoras y se elimina aquella que produzca el menor cambio en R². Se detiene la eliminación de variables cuando, al quitar cualquiera de ellas, se produzca un cambio significativo en R².
5.1.4. Paso a Paso (Stepwise)
Es el método más habitual y similar al 'Hacia Adelante'. Sin embargo, una vez introducida una variable en el modelo, se eliminan aquellas variables ya presentes que no sean pronosticadores significativos; es decir, se eliminan las variables cuya importancia decrece al incorporar nuevas variables pronosticadoras. En cada paso, se introduce una nueva variable en el modelo y se examinan las variables existentes para verificar si cumplen los criterios de eliminación. El proceso se detiene cuando no hay más variables que cumplan el criterio de entrada o de exclusión.
5.2. Multicolinealidad
Cuando dos variables presentan una alta correlación mutua, se dice que son colineales. La multicolinealidad se refiere, por tanto, a tres o más variables altamente correlacionadas entre sí. A medida que aumenta la colinealidad, una parte del poder predictivo es compartido, lo que disminuye el poder predictivo del conjunto de variables.
5.2.1. Coeficientes de Correlación Parcial
Hacen referencia a la correlación entre cada variable pronosticadora y la variable criterio, descartando el efecto lineal de las demás variables pronosticadoras sobre ambas variables.
5.2.2. Coeficiente de Tolerancia
Representa la proporción de la variabilidad de la variable criterio que no es explicada por las demás variables pronosticadoras.
5.2.3. Factor de Inflación de la Varianza (FIV)
Es el inverso del coeficiente de tolerancia. Valores cercanos a 1 en el FIV indican baja colinealidad; valores mayores a 1, un alto grado de colinealidad.
El Proceso de Investigación en Regresión Múltiple
La aplicación de la regresión múltiple sigue un proceso estructurado para asegurar la validez y fiabilidad de los resultados.
1. Objetivos
Establecer qué conjunto de variables puede ofrecer una explicación suficiente y determinar con qué precisión se puede predecir el índice de difusión o la variable criterio de interés.
2. Diseño
En esta fase, debemos asegurar la eficacia de la regresión mediante el tamaño adecuado de la muestra, la selección de variables y la transformación de las variables.
2.1. Tamaño de la Muestra
Se recomienda una muestra mayor a 20 casos y, como mínimo, 5 casos por cada variable pronosticadora (lo ideal: entre 15 y 20 casos por variable).
2.2. Selección de las Variables
La variable criterio y las variables pronosticadoras deben ser métricas (de intervalo o de razón).
2.3. Transformación de las Variables
Las variables se transforman si no son métricas o si la relación entre ellas no es lineal, para cumplir con los supuestos del modelo.
3. Supuestos
Para que los resultados de la regresión sean válidos, el modelo debe cumplir ciertos supuestos:
3.1. Linealidad
La relación entre las variables se ajusta a una línea recta. Se examina mediante el estudio de la distribución de los residuos.
3.2. Normalidad
Los residuos deben distribuirse de una forma que se ajuste a la campana de Gauss (distribución normal). Se examina en el histograma de residuos o con pruebas de normalidad.
3.3. Homocedasticidad
La varianza de los residuos debe ser constante a lo largo de la recta de regresión. Se verifica mediante gráficos de dispersión de residuos.
3.4. Independencia de los Residuos
Los residuos no deben encontrarse relacionados entre sí (ausencia de autocorrelación). Esto es crucial en series temporales.
4. Extracción
Esta fase implica la aplicación del modelo y la evaluación de su rendimiento.
4.1. Seleccionar el Método de Extracción más Adecuado
Se aplica el principio de parsimonia: reducir al máximo el número de variables pronosticadoras sin una pérdida significativa de su capacidad explicativa conjunta.
4.2. Valorar la Significación Estadística
Evaluar si la regresión ofrece modelos mejores que los que se pudieran obtener al azar, generalmente a través de pruebas F y valores p.
4.3. Estimar la Capacidad Predictiva de las Variables Pronosticadoras (V.P.) sobre la Variable Criterio (V.C.)
Para evaluar la capacidad predictiva del modelo, utilizamos el coeficiente de determinación (R²), que indica la proporción de la varianza de la variable criterio explicada por las variables pronosticadoras.
4.4. Determinar si alguna Observación Ejerce una Influencia Indebida en los Resultados
Algunos residuos o puntos de datos pueden tener un peso específico mayor que los demás al determinar la recta de regresión (observaciones influyentes o atípicas). Se debe evaluar si se excluyen o no, o si se utilizan métodos robustos.
5. Interpretación
Una vez obtenido el modelo, es crucial interpretar sus componentes.
5.1. Interpretación de la Ecuación de Regresión
Evaluar en qué medida varían los valores de la variable criterio por cada variación unitaria de las variables pronosticadoras, a través de los coeficientes de regresión.
5.2. Multicolinealidad
Determinar la importancia relativa de cada una de las variables predictoras en la explicación de la variable criterio, considerando la presencia de efectos de multicolinealidad entre las variables pronosticadoras y cómo afectan a la interpretación de los coeficientes.
6. Validación
La validación asegura que el modelo es robusto y generalizable.
Se suele utilizar el método del submuestreo: dividir la muestra existente en submuestras (por ejemplo, una de entrenamiento y otra de prueba) y comparar los resultados. Si se alcanzan las mismas conclusiones en ambas submuestras, los resultados quedan validados, indicando la estabilidad del modelo.