Dispersión, Correlación y Regresión: Conceptos y Aplicaciones
Clasificado en Matemáticas
Escrito el en español con un tamaño de 4,07 KB
Medidas de Dispersión
Varianza
La varianza cuantifica la distancia promedio de los valores de una variable a su media. Una varianza cercana a cero indica que los datos están poco dispersos y son muy homogéneos, por lo que la media es más representativa del conjunto.
Coeficiente de Variación (CV)
El Coeficiente de Variación (CV) se calcula como la razón entre la desviación típica y la media (CV = desv. típica / media). Se considera que la media es representativa si el CV es menor o igual a 1. El CV es adimensional, lo que permite comparar la dispersión entre dos variables expresadas en diferentes unidades de medida. No se puede calcular si la media de la variable es cero. Un CV menor o igual a 1 indica homogeneidad; cuanto menor sea el valor, más homogénea será la distribución.
Para comparar descriptivamente dos o más variables, se utiliza el CV.
Desviación Típica
Una ventaja de la desviación típica sobre la varianza es que permite calcular un valor aproximado del máximo de los datos en términos medios.
Medidas de Forma
Asimetría
La asimetría describe la falta de simetría en la distribución de datos:
- Distribución simétrica: media = mediana = moda, coeficiente de asimetría = 0
- Distribución asimétrica positiva: media > mediana, coeficiente de asimetría > 0 (algunos valores con frecuencias bajas son mucho mayores que la media).
- Distribución asimétrica negativa: media < mediana, coeficiente de asimetría < 0
Histograma
Un histograma se utiliza para representar variables cuantitativas continuas.
Medidas de Asociación Lineal
Covarianza
La covarianza mide la asociación lineal entre dos variables. Una covarianza de cero indica que las variables son independientes. Una covarianza positiva significa que las variables tienden a crecer o decrecer juntas, mientras que una covarianza negativa indica que las variables crecen y decrecen en sentidos opuestos.
Coeficiente de Correlación de Pearson
El coeficiente de correlación de Pearson mide la fuerza y dirección de la relación lineal entre dos variables. El coeficiente varía de -1 a 1. Cuanto más se acerque el coeficiente a 1 o -1, más fuerte será la relación lineal. Un coeficiente de -0.9 indica una relación inversa o negativa fuerte.
Regresión y Correlación
Coeficiente de Determinación (R2)
El coeficiente de determinación (R2) indica el porcentaje de variación de la variable dependiente que se explica por la relación lineal con la variable independiente. Varía entre 0 y 1. Se considera que un modelo de regresión se ajusta bien a los datos cuando el coeficiente de determinación es mayor de 0.9.
Fórmulas y Aplicaciones
Pronóstico
Para realizar pronósticos, se utiliza la ecuación de regresión (nº de estimación realizada, conjunto y, conjunto x). Se aplica cuando se solicitan estimaciones.
Coeficiente de Determinación
Se utiliza el coeficiente de determinación cuando se pide la fiabilidad del modelo.
Repercusión de Cambios
Para determinar la repercusión de un cambio en una variable sobre otra:
- Obtener el resumen de regresión y el valor de x.
- Calcular el valor solicitado utilizando la ecuación de regresión. Ejemplo: Si para el próximo período se estima un aumento medio de 5 en x, calcular el impacto en y.
Identificación de Valores Atípicos
Diagrama de Caja
Para identificar valores atípicos se utiliza el diagrama de caja:
- Calcular el primer cuartil (Q1) y el tercer cuartil (Q3).
- Calcular los límites superior e inferior:
- Límite superior: Q3 + 1.5(Q3 - Q1)
- Límite inferior: Q1 - 1.5(Q3 - Q1)