Fundamentos de Estadística Descriptiva y Distribuciones de Probabilidad

Enviado por joxii y clasificado en Matemáticas

Escrito el en español con un tamaño de 11,58 KB

Estadística Descriptiva: Organización y Resumen de Datos

Construcción de Intervalos de Frecuencia

Pasos para agrupar datos en intervalos:

  1. Calcular el recorrido o amplitud total de la distribución (R = Xmax - Xmin).
  2. Estimar el número de intervalos (k). Se pueden usar reglas como la de Sturges (k ≈ 1 + 3.322 * log10(N)) o elegir un número conveniente (usualmente entre 5 y 15).
  3. Determinar la amplitud de los intervalos (A ≈ R / k). Se suele redondear por exceso a un número manejable.
  4. Calcular los límites de cada intervalo, asegurando que cubran todo el recorrido de los datos. Definir el límite inferior del primer intervalo y el límite superior del último intervalo.
  5. Calcular las frecuencias (absolutas, relativas, acumuladas) para cada intervalo.
  6. Calcular la marca de clase (punto medio) de cada intervalo (Xi = (Límite Inferior + Límite Superior) / 2).

Representaciones Gráficas

  • Variables Cualitativas y Cuantitativas Discretas:
    • Diagrama de barras
    • Diagrama de sectores (o circular)
    • Pictogramas
    • Cartogramas
  • Variables Cuantitativas (Discretas y Continuas):
    • Histograma (para datos agrupados en intervalos)
    • Polígono de frecuencias
    • Diagrama de cajas (Box Plot)
    • Diagrama de tallo y hojas
    • Gráficos logarítmicos (para rangos muy amplios)

Medidas Estadísticas Descriptivas

Medidas de Tendencia Central

  • Media Aritmética (μ o X̄): Suma de todos los valores dividida por el número total de datos.
    • La suma de las desviaciones de los datos respecto a la media es siempre cero: Σ(xi - X̄) = 0.
    • La suma de los cuadrados de las desviaciones respecto a la media es mínima: Σ(xi - X̄)² ≤ Σ(xi - C)² para cualquier constante C.
    • Es un operador lineal: si Y = aX + b, entonces Ȳ = aX̄ + b.
    • Es muy sensible a valores extremos (outliers).
  • Mediana (Me): Valor que divide la distribución ordenada en dos partes iguales (50% de los datos por debajo, 50% por encima).
    • La suma de las desviaciones absolutas respecto a la mediana es mínima: Σ|xi - Me| ≤ Σ|xi - C| para cualquier constante C.
    • En un histograma o polígono de frecuencias, la vertical levantada sobre la mediana divide el área total en dos partes iguales.
    • Es menos sensible a valores extremos que la media.
  • Moda (Mo): Valor o categoría que aparece con mayor frecuencia.
    • Fácil de calcular e interpretar.
    • Una distribución puede no tener moda (amodal), tener una (unimodal), dos (bimodal) o más (multimodal).

Medidas de Posición (Cuantiles)

Dividen la distribución ordenada en partes iguales:

  • Cuartiles (Q1, Q2, Q3): Dividen la distribución en 4 partes (Q2 coincide con la Mediana).
  • Deciles (D1, ..., D9): Dividen la distribución en 10 partes.
  • Percentiles (P1, ..., P99): Dividen la distribución en 100 partes.

Medidas de Dispersión

Miden la variabilidad o separación de los datos:

  • Recorrido o Rango: Diferencia entre el valor máximo y mínimo.
  • Recorrido Intercuartílico (RIQ): Diferencia entre el tercer y primer cuartil (RIQ = Q3 - Q1). Mide la dispersión del 50% central de los datos.
  • Desviación Media (DM): Promedio de las desviaciones absolutas respecto a la media.
  • Desviación Cuartílica o Recorrido Semi-intercuartílico: RIQ / 2.
  • Varianza (σ² o s²): Promedio de las desviaciones cuadráticas respecto a la media.
    • Toma siempre valores positivos (o cero).
    • Solo se aplica a variables cuantitativas.
    • Si todos los valores son iguales, la varianza es 0.
    • Muy sensible a la variación de los datos (valores extremos).
    • Sus unidades son el cuadrado de las unidades de la variable original.
    • No se recomienda su uso como medida principal de dispersión si la media no es una medida adecuada de tendencia central (por ejemplo, en distribuciones muy asimétricas).
  • Desviación Típica o Estándar (σ o s): Raíz cuadrada positiva de la varianza.
    • Tiene las mismas propiedades de sensibilidad y aplicabilidad que la varianza.
    • Se expresa en las mismas unidades que la variable original, lo que facilita su interpretación.

Medidas de Forma (Adimensionales)

  • Coeficiente de Variación (CV): Cociente entre la desviación típica y el valor absoluto de la media (CV = s / |X̄|), a menudo expresado en porcentaje.
    • Permite comparar la dispersión relativa de distribuciones con distintas medias o unidades.
    • Solo debe usarse cuando todos los valores son positivos y la media es significativamente distinta de cero.
    • No es invariante ante cambios de origen (sumar una constante a los datos), pero sí lo es ante cambios de escala (multiplicar los datos por una constante).
  • Coeficiente de Asimetría de Fisher (g1): Mide el grado de simetría de la distribución.
    • g1 = 0: Distribución simétrica.
    • g1 > 0: Asimetría positiva (hacia la derecha, cola más larga a la derecha).
    • g1 < 0: Asimetría negativa (hacia la izquierda, cola más larga a la izquierda).
  • Coeficiente de Curtosis o Apuntamiento de Fisher (g2): Mide cuán puntiaguda es una distribución en comparación con la normal.
    • g2 = 0: Mesocúrtica (curtosis similar a la distribución normal).
    • g2 > 0: Leptocúrtica (más puntiaguda que la normal, colas más pesadas).
    • g2 < 0: Platicúrtica (más achatada que la normal, colas más ligeras).

Distribuciones de Probabilidad Discretas

Modelos para variables aleatorias que toman valores finitos o infinitos numerables.

Distribución Binomial: B(n, p)

Modela el número de éxitos (r) en n ensayos independientes de Bernoulli, donde cada ensayo tiene dos posibles resultados (éxito o fracaso) con probabilidades constantes p (éxito) y q = 1 - p (fracaso).

  • Propiedades:
    • Simétrica si p = q = 0.5.
    • Asimétrica a la derecha si p < 0.5.
    • Asimétrica a la izquierda si p > 0.5.
    • La probabilidad de r éxitos en n pruebas es igual a la probabilidad de n-r fracasos.
    • Para valores grandes de n (y si np > 5 y nq > 5), puede aproximarse mediante la distribución normal.
  • Características estocásticas: Media = np, Varianza = npq.

Distribución de Poisson: P(λ)

Modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio, cuando estos eventos ocurren con una tasa media conocida (λ) e independientemente del tiempo transcurrido desde el último evento.

  • Propiedades:
    • Es una distribución asimétrica a la derecha, pero la asimetría disminuye a medida que λ aumenta.
    • Los valores de probabilidad suelen estar tabulados o se calculan mediante fórmula.
    • Puede aproximarse mediante la distribución normal si λ es suficientemente grande (e.g., λ > 10 o λ > 20 según el criterio).
    • Es el límite de la distribución binomial cuando n → ∞, p → 0, y np → λ (constante).
  • Características estocásticas: Media = λ, Varianza = λ.

Distribución Hipergeométrica: H(N, K, n)

Modela el número de éxitos (k) en una muestra de tamaño n, extraída sin reemplazamiento de una población finita de tamaño N que contiene K elementos considerados éxitos.

  • Propiedades:
    • Depende de tres parámetros: N (tamaño población), K (número de éxitos en población), n (tamaño muestra).
    • Los valores pueden estar tabulados para combinaciones comunes de parámetros.
    • Aproximaciones:
      • Si N es grande en comparación con n (e.g., n/N < 0.05 o n/N < 0.1), se puede aproximar por la Distribución Binomial B(n, p=K/N).
      • Si además se cumplen las condiciones para la aproximación de la Binomial a la Poisson (n grande, p pequeño, np < 5), se puede aproximar por la Distribución de Poisson P(λ=np).
      • Si se cumplen las condiciones para la aproximación de la Binomial a la Normal (n grande, np > 5, n(1-p) > 5), se puede aproximar por la Distribución Normal.
  • Características estocásticas: Media = n(K/N), Varianza = n(K/N)(1-K/N)((N-n)/(N-1)). El último factor es el factor de corrección para poblaciones finitas.

Distribuciones de Probabilidad Continuas

Modelos para variables aleatorias que pueden tomar cualquier valor dentro de un intervalo.

Distribución Uniforme: U(a, b)

Describe una variable aleatoria donde todos los valores dentro de un intervalo [a, b] tienen la misma probabilidad de ocurrir.

  • Su función de densidad de probabilidad es constante dentro del intervalo (a, b) y nula fuera de él: f(x) = 1/(b-a) si a ≤ x ≤ b, y f(x) = 0 en otro caso.

Distribución Normal o Gaussiana: N(μ, σ²)

Es la distribución más importante en estadística, caracterizada por su forma de campana simétrica.

  • Tiene un único máximo (moda) en la media (μ).
  • Es simétrica respecto a la media: Media = Mediana = Moda = μ.
  • Tiene dos puntos de inflexión situados a una distancia de una desviación típica (σ) a ambos lados de la media (en μ - σ y μ + σ).
  • La curva es asintótica al eje horizontal (se acerca indefinidamente sin tocarlo).
  • El área total bajo la curva es igual a 1.
  • Queda completamente definida por sus dos parámetros: la media (μ) y la desviación típica (σ) o la varianza (σ²).
  • Distribución Normal Estándar (Z): Es un caso particular con μ=0 y σ=1. Cualquier variable normal X ~ N(μ, σ²) se puede transformar en una normal estándar mediante la tipificación: Z = (X - μ) / σ.

Distribuciones Asociadas a la Normal

Derivadas del muestreo en poblaciones normales:

  • Distribución t de Student: Utilizada para inferencias sobre la media cuando la desviación típica poblacional es desconocida y el tamaño muestral es pequeño.
  • Distribución Chi-cuadrado (χ²): Relacionada con la suma de cuadrados de variables normales estándar. Usada en pruebas de bondad de ajuste, independencia y para inferencias sobre la varianza.
  • Distribución F de Snedecor: Definida como el cociente de dos variables Chi-cuadrado independientes divididas por sus grados de libertad. Usada en análisis de varianza (ANOVA) y para comparar varianzas.

Entradas relacionadas: