Fundamentos de Estadística Descriptiva y Distribuciones de Probabilidad
Enviado por joxii y clasificado en Matemáticas
Escrito el en español con un tamaño de 11,58 KB
Estadística Descriptiva: Organización y Resumen de Datos
Construcción de Intervalos de Frecuencia
Pasos para agrupar datos en intervalos:
- Calcular el recorrido o amplitud total de la distribución (R = Xmax - Xmin).
- Estimar el número de intervalos (k). Se pueden usar reglas como la de Sturges (k ≈ 1 + 3.322 * log10(N)) o elegir un número conveniente (usualmente entre 5 y 15).
- Determinar la amplitud de los intervalos (A ≈ R / k). Se suele redondear por exceso a un número manejable.
- Calcular los límites de cada intervalo, asegurando que cubran todo el recorrido de los datos. Definir el límite inferior del primer intervalo y el límite superior del último intervalo.
- Calcular las frecuencias (absolutas, relativas, acumuladas) para cada intervalo.
- Calcular la marca de clase (punto medio) de cada intervalo (Xi = (Límite Inferior + Límite Superior) / 2).
Representaciones Gráficas
- Variables Cualitativas y Cuantitativas Discretas:
- Diagrama de barras
- Diagrama de sectores (o circular)
- Pictogramas
- Cartogramas
- Variables Cuantitativas (Discretas y Continuas):
- Histograma (para datos agrupados en intervalos)
- Polígono de frecuencias
- Diagrama de cajas (Box Plot)
- Diagrama de tallo y hojas
- Gráficos logarítmicos (para rangos muy amplios)
Medidas Estadísticas Descriptivas
Medidas de Tendencia Central
-
Media Aritmética (μ o X̄): Suma de todos los valores dividida por el número total de datos.
- La suma de las desviaciones de los datos respecto a la media es siempre cero: Σ(xi - X̄) = 0.
- La suma de los cuadrados de las desviaciones respecto a la media es mínima: Σ(xi - X̄)² ≤ Σ(xi - C)² para cualquier constante C.
- Es un operador lineal: si Y = aX + b, entonces Ȳ = aX̄ + b.
- Es muy sensible a valores extremos (outliers).
-
Mediana (Me): Valor que divide la distribución ordenada en dos partes iguales (50% de los datos por debajo, 50% por encima).
- La suma de las desviaciones absolutas respecto a la mediana es mínima: Σ|xi - Me| ≤ Σ|xi - C| para cualquier constante C.
- En un histograma o polígono de frecuencias, la vertical levantada sobre la mediana divide el área total en dos partes iguales.
- Es menos sensible a valores extremos que la media.
-
Moda (Mo): Valor o categoría que aparece con mayor frecuencia.
- Fácil de calcular e interpretar.
- Una distribución puede no tener moda (amodal), tener una (unimodal), dos (bimodal) o más (multimodal).
Medidas de Posición (Cuantiles)
Dividen la distribución ordenada en partes iguales:
- Cuartiles (Q1, Q2, Q3): Dividen la distribución en 4 partes (Q2 coincide con la Mediana).
- Deciles (D1, ..., D9): Dividen la distribución en 10 partes.
- Percentiles (P1, ..., P99): Dividen la distribución en 100 partes.
Medidas de Dispersión
Miden la variabilidad o separación de los datos:
- Recorrido o Rango: Diferencia entre el valor máximo y mínimo.
- Recorrido Intercuartílico (RIQ): Diferencia entre el tercer y primer cuartil (RIQ = Q3 - Q1). Mide la dispersión del 50% central de los datos.
- Desviación Media (DM): Promedio de las desviaciones absolutas respecto a la media.
- Desviación Cuartílica o Recorrido Semi-intercuartílico: RIQ / 2.
-
Varianza (σ² o s²): Promedio de las desviaciones cuadráticas respecto a la media.
- Toma siempre valores positivos (o cero).
- Solo se aplica a variables cuantitativas.
- Si todos los valores son iguales, la varianza es 0.
- Muy sensible a la variación de los datos (valores extremos).
- Sus unidades son el cuadrado de las unidades de la variable original.
- No se recomienda su uso como medida principal de dispersión si la media no es una medida adecuada de tendencia central (por ejemplo, en distribuciones muy asimétricas).
-
Desviación Típica o Estándar (σ o s): Raíz cuadrada positiva de la varianza.
- Tiene las mismas propiedades de sensibilidad y aplicabilidad que la varianza.
- Se expresa en las mismas unidades que la variable original, lo que facilita su interpretación.
Medidas de Forma (Adimensionales)
-
Coeficiente de Variación (CV): Cociente entre la desviación típica y el valor absoluto de la media (CV = s / |X̄|), a menudo expresado en porcentaje.
- Permite comparar la dispersión relativa de distribuciones con distintas medias o unidades.
- Solo debe usarse cuando todos los valores son positivos y la media es significativamente distinta de cero.
- No es invariante ante cambios de origen (sumar una constante a los datos), pero sí lo es ante cambios de escala (multiplicar los datos por una constante).
-
Coeficiente de Asimetría de Fisher (g1): Mide el grado de simetría de la distribución.
- g1 = 0: Distribución simétrica.
- g1 > 0: Asimetría positiva (hacia la derecha, cola más larga a la derecha).
- g1 < 0: Asimetría negativa (hacia la izquierda, cola más larga a la izquierda).
-
Coeficiente de Curtosis o Apuntamiento de Fisher (g2): Mide cuán puntiaguda es una distribución en comparación con la normal.
- g2 = 0: Mesocúrtica (curtosis similar a la distribución normal).
- g2 > 0: Leptocúrtica (más puntiaguda que la normal, colas más pesadas).
- g2 < 0: Platicúrtica (más achatada que la normal, colas más ligeras).
Distribuciones de Probabilidad Discretas
Modelos para variables aleatorias que toman valores finitos o infinitos numerables.
Distribución Binomial: B(n, p)
Modela el número de éxitos (r) en n ensayos independientes de Bernoulli, donde cada ensayo tiene dos posibles resultados (éxito o fracaso) con probabilidades constantes p (éxito) y q = 1 - p (fracaso).
- Propiedades:
- Simétrica si p = q = 0.5.
- Asimétrica a la derecha si p < 0.5.
- Asimétrica a la izquierda si p > 0.5.
- La probabilidad de r éxitos en n pruebas es igual a la probabilidad de n-r fracasos.
- Para valores grandes de n (y si np > 5 y nq > 5), puede aproximarse mediante la distribución normal.
- Características estocásticas: Media = np, Varianza = npq.
Distribución de Poisson: P(λ)
Modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio, cuando estos eventos ocurren con una tasa media conocida (λ) e independientemente del tiempo transcurrido desde el último evento.
- Propiedades:
- Es una distribución asimétrica a la derecha, pero la asimetría disminuye a medida que λ aumenta.
- Los valores de probabilidad suelen estar tabulados o se calculan mediante fórmula.
- Puede aproximarse mediante la distribución normal si λ es suficientemente grande (e.g., λ > 10 o λ > 20 según el criterio).
- Es el límite de la distribución binomial cuando n → ∞, p → 0, y np → λ (constante).
- Características estocásticas: Media = λ, Varianza = λ.
Distribución Hipergeométrica: H(N, K, n)
Modela el número de éxitos (k) en una muestra de tamaño n, extraída sin reemplazamiento de una población finita de tamaño N que contiene K elementos considerados éxitos.
- Propiedades:
- Depende de tres parámetros: N (tamaño población), K (número de éxitos en población), n (tamaño muestra).
- Los valores pueden estar tabulados para combinaciones comunes de parámetros.
- Aproximaciones:
- Si N es grande en comparación con n (e.g., n/N < 0.05 o n/N < 0.1), se puede aproximar por la Distribución Binomial B(n, p=K/N).
- Si además se cumplen las condiciones para la aproximación de la Binomial a la Poisson (n grande, p pequeño, np < 5), se puede aproximar por la Distribución de Poisson P(λ=np).
- Si se cumplen las condiciones para la aproximación de la Binomial a la Normal (n grande, np > 5, n(1-p) > 5), se puede aproximar por la Distribución Normal.
- Características estocásticas: Media = n(K/N), Varianza = n(K/N)(1-K/N)((N-n)/(N-1)). El último factor es el factor de corrección para poblaciones finitas.
Distribuciones de Probabilidad Continuas
Modelos para variables aleatorias que pueden tomar cualquier valor dentro de un intervalo.
Distribución Uniforme: U(a, b)
Describe una variable aleatoria donde todos los valores dentro de un intervalo [a, b] tienen la misma probabilidad de ocurrir.
- Su función de densidad de probabilidad es constante dentro del intervalo (a, b) y nula fuera de él: f(x) = 1/(b-a) si a ≤ x ≤ b, y f(x) = 0 en otro caso.
Distribución Normal o Gaussiana: N(μ, σ²)
Es la distribución más importante en estadística, caracterizada por su forma de campana simétrica.
- Tiene un único máximo (moda) en la media (μ).
- Es simétrica respecto a la media: Media = Mediana = Moda = μ.
- Tiene dos puntos de inflexión situados a una distancia de una desviación típica (σ) a ambos lados de la media (en μ - σ y μ + σ).
- La curva es asintótica al eje horizontal (se acerca indefinidamente sin tocarlo).
- El área total bajo la curva es igual a 1.
- Queda completamente definida por sus dos parámetros: la media (μ) y la desviación típica (σ) o la varianza (σ²).
- Distribución Normal Estándar (Z): Es un caso particular con μ=0 y σ=1. Cualquier variable normal X ~ N(μ, σ²) se puede transformar en una normal estándar mediante la tipificación: Z = (X - μ) / σ.
Distribuciones Asociadas a la Normal
Derivadas del muestreo en poblaciones normales:
- Distribución t de Student: Utilizada para inferencias sobre la media cuando la desviación típica poblacional es desconocida y el tamaño muestral es pequeño.
- Distribución Chi-cuadrado (χ²): Relacionada con la suma de cuadrados de variables normales estándar. Usada en pruebas de bondad de ajuste, independencia y para inferencias sobre la varianza.
- Distribución F de Snedecor: Definida como el cociente de dos variables Chi-cuadrado independientes divididas por sus grados de libertad. Usada en análisis de varianza (ANOVA) y para comparar varianzas.