Fundamentos de Estadística Descriptiva y Modelos de Regresión Lineal
Clasificado en Matemáticas
Escrito el en
con un tamaño de 5,85 KB
Fórmulas Fundamentales y Representaciones Gráficas
A continuación se detallan las fórmulas básicas para el tratamiento de datos estadísticos:
- Frecuencia relativa: fi = ni / N
- Marca de clase: xi = (Li-1 + Li) / 2
- Amplitud: ai = Li - Li-1
- Densidad de frecuencia: di = ni / ai o fi / ai
Tipos de Representaciones según la Variable
- Variable Continua:
- Misma amplitud: Se utiliza el Histograma.
- Distinta amplitud: Se utiliza el Gráfico de dispersión (basado en la marca de clase y la densidad).
- Variable Nominal: Se recomienda el Diagrama de sectores o el Gráfico de barras.
- Variable Ordinal: Se utiliza el Diagrama de barras (es necesario seleccionar los datos si estos son representados por números).
Medidas de Tendencia Central según el Tipo de Variable
- Variable Nominal (VN): Se calcula la Moda (Mo).
- Variable Ordinal (VO): Se calculan la Moda (Mo), la Mediana (Me) y los Cuartiles.
- Variable Continua/Cuantitativa (VC): Se calculan la Moda (Mo), la Mediana (Me), los Cuartiles y la Media.
Medidas de Dispersión y Recorridos
Tipos de Recorridos
- Recorrido muestral: Re = Xk - X1
- Recorrido intercuartílico: Ri = C3 - C1
- Recorrido decil: Rd = D9 - D1
- Recorrido percentil: Rp = P99 - P1
Cálculo de Variabilidad y Dispersión Relativa
- Para determinar la variabilidad, se debe calcular la Desviación Típica (S).
- Recorrido relativo: Rr = Re / Xmax (esta medida no tiene unidades).
- Recorrido semi-intercuartílico: Rsi = (C3 - C1) / (C3 + C1)
- Coeficiente de Variación (CV): CV = S / media.
- Si CV < 0,2 (20%), la dispersión relativa es baja y la media resulta representativa.
Forma de la Distribución: Asimetría y Curtosis
Coeficiente de Asimetría de Fisher (CAF)
- CAF > 0: Asimetría positiva.
- CAF = 0: Distribución simétrica.
- CAF < 0: Asimetría negativa.
Curtosis (CK)
- CK > 0: Leptocurtosis.
- CK = 0: Mesocurtosis.
- CK < 0: Platicurtosis.
Estadística Bivariante y Regresión Lineal
Perfiles y Frecuencias
- Perfil columna (X|Y): El 100% se sitúa en la fila.
- Perfil fila (Y|X): El 100% se sitúa en la columna.
- Interpretación: Donde se encuentra el 100% se considera el total. Donde no, se refiere a la frecuencia marginal absoluta de: X (ni.) en columnas o Y (n.j) en filas.
Modelo de Regresión Lineal
La ecuación de la recta es Y = a + bx, donde:
- a: Ordenada en el origen.
- b: Coeficiente de regresión (pendiente).
Residuo o error (ei): ei = yi - ŷi, donde yi es el valor observado y ŷi es el valor teórico (sustituyendo en la recta).
- Gráfico de residuos: Es un gráfico de dispersión que enfrenta los valores teóricos (ŷ) con los errores (ei). Si se observa un patrón, existe otro modelo más adecuado.
Bondad de Ajuste (R²)
- R² = 1: Ajuste perfecto.
- R² = 0: Ajuste pésimo.
- Cuanto más próximo sea R² a 1, mayor será la bondad de ajuste (nota: el texto original mencionaba proximidad a 0, pero técnicamente la bondad aumenta al acercarse a 1).
Fiabilidad de la Predicción
- Interpolación: Predicción de un valor dentro del rango observado.
- Extrapolación: Predicción de un valor fuera del rango observado.
- Predicción fiable: Se da con un R² alto y mediante interpolación.
- Predicción poco fiable: Se da con un R² bajo o mediante extrapolación.
Diagrama de Cajas y Bigotes (Boxplot)
Para la detección de valores atípicos y extremos:
- Extremos inferiores: C1 - 3Ri
- Atípicos inferiores: C1 - 1,5Ri
- Extremos superiores: C3 + 3Ri
- Atípicos superiores: C3 + 1,5Ri
Variables Independientes
Se consideran variables independientes cuando se cumple que: fi · fj = f; el perfil de fila es igual al marginal de Y, y el perfil de columna es igual al marginal de X.