Estadística Descriptiva: Fórmulas y Conceptos Esenciales para el Manejo de Datos

Clasificado en Matemáticas

Escrito el en español con un tamaño de 8,72 KB

Conceptos Fundamentales en Estadística Descriptiva

Este documento presenta un compendio de fórmulas y definiciones esenciales utilizadas en estadística descriptiva para el análisis y la interpretación de datos.

Número de Elementos

num = E(3/4 + log n / log 2)

Medidas de Tendencia Central

Mediana

La mediana es el valor central en un conjunto de datos ordenados.

  • Para datos no agrupados:

    La mediana se encuentra en la posición: X(n+1)/2

  • Para datos agrupados:

    La fórmula para calcular la mediana es:

    X = Li + c * (((n/2) - Fi-1) / fi)

    Donde:

    • Li: Límite inferior de la clase mediana.
    • c: Amplitud de la clase mediana.
    • n: Número total de datos.
    • Fi-1: Frecuencia acumulada de la clase anterior a la clase mediana.
    • fi: Frecuencia absoluta de la clase mediana.

Percentiles y Cuartiles

Los percentiles dividen un conjunto de datos en 100 partes iguales, mientras que los cuartiles lo dividen en 4.

  • Para datos no agrupados:
    • Primer Cuartil (Q1): Q1 = X(n+1)/4
    • Tercer Cuartil (Q3): Q3 = X3(n+1)/4
  • Para datos agrupados (fórmula general para el k-ésimo percentil):

    Xk = Li + c * (((nk/100) - Fk-1) / fk)

    Donde:

    • Li: Límite inferior de la clase del percentil.
    • c: Amplitud de la clase del percentil.
    • n: Número total de datos.
    • k: Percentil deseado (ej. 25 para Q1, 50 para Q2/Mediana, 75 para Q3).
    • Fk-1: Frecuencia acumulada de la clase anterior a la clase del percentil.
    • fk: Frecuencia absoluta de la clase del percentil.

Moda

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.

  • Para datos agrupados:

    La fórmula para calcular la moda es:

    Moda = Li + c * (D1 / (D1 + D2))

    Donde:

    • Li: Límite inferior de la clase modal.
    • c: Tamaño o amplitud de la clase modal.
    • D1: Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase anterior.
    • D2: Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase posterior.

Medidas de Dispersión

Varianza

La varianza mide la dispersión de los datos alrededor de la media.

  • Varianza muestral (no corregida):

    s² = (1/n) * Σ(x - x̄)²

  • Varianza muestral corregida (insesgada):

    c = (1/(n-1)) * Σ(x - x̄)²

Desviación Media

La desviación media es la media de las desviaciones absolutas de los datos respecto a la media.

D = (1/n) * Σ|x - x̄|

Coeficiente de Variación de Pearson (CV)

El coeficiente de variación es una medida de dispersión relativa que compara la desviación estándar con la media.

CV = s / |x̄| (donde x̄ ≠ 0)

  • Si CV < 1: Indica homogeneidad en los datos.
  • Si CV > 1.5: Puede ser un indicio de heterogeneidad, posiblemente debido a la mezcla de poblaciones.

Medidas de Forma

Coeficiente de Asimetría (CAS)

El coeficiente de asimetría mide el grado de asimetría de la distribución de los datos.

CAS = (1/(n * s³)) * Σ(x - x̄)³

  • Si CAS = 0: La distribución es simétrica.
  • Si CAS < 0: La distribución es asimétrica a la izquierda (sesgada negativamente).
  • Si CAS > 0: La distribución es asimétrica a la derecha (sesgada positivamente).

Coeficiente de Curtosis (CAP)

El coeficiente de curtosis mide el grado de apuntamiento o achatamiento de una distribución en comparación con una distribución normal.

CAP = (1/(n * s⁴)) * Σ(x - x̄)⁴

  • Si CAP = 3: La distribución es mesocúrtica (similar a la normal).
  • Si CAP < 3: La distribución es platicúrtica (más achatada que la normal).
  • Si CAP > 3: La distribución es leptocúrtica (más apuntada que la normal).

Teorema de Chebyshev

El Teorema de Chebyshev establece que, para cualquier distribución de datos, el porcentaje de observaciones que caen dentro de k desviaciones estándar de la media es al menos (1 - 1/k²) * 100%.

  • El intervalo (x̄ - 2s, x̄ + 2s) contiene al menos el 75% de los datos.
  • El intervalo (x̄ - 3s, x̄ + 3s) contiene al menos el 88.9% de los datos.
  • El intervalo (x̄ - 4s, x̄ + 4s) contiene al menos el 93.75% de los datos.

Transformaciones de Datos

Las transformaciones se utilizan para ajustar la distribución de los datos o para linealizar relaciones.

  • Transformaciones lineales:

    y = a + bx

  • Transformaciones no lineales:

    Requieren un análisis gráfico para determinar la naturaleza de la relación.

  • Caso particular lineal: Tipificación o Estandarización de una variable

    Este proceso convierte una serie de datos xi en una nueva serie zi que tiene una media de 0 y una desviación típica de 1.

    zi = (xi - x̄) / s

Expresiones Gráficas

Las representaciones visuales son fundamentales para comprender la distribución y las características de los datos.

  • Histogramas:

    El número de datos en cada clase es proporcional a su área correspondiente, mostrando la distribución de frecuencia de una variable continua.

  • Diagrama de Caja o Boxplot:

    Permiten visualizar la distribución de los datos a través de sus cuartiles y detectar la presencia de valores anómalos (outliers).

Conceptos Básicos de Probabilidad

Probabilidad de Sucesos

La probabilidad de un suceso A, denotada como P(A), siempre se encuentra entre 0 y 1 (inclusive).

0 ≤ P(A) ≤ 1

Sucesos Incompatibles

Dos sucesos A y B son incompatibles (o mutuamente excluyentes) si no pueden ocurrir al mismo tiempo. Es decir, su intersección es el conjunto vacío.

P(A ∩ B) = 0

Probabilidad Condicional

La probabilidad de que ocurra el suceso A dado que ha ocurrido el suceso B se calcula como:

P(A | B) = P(A ∩ B) / P(B) (donde P(B) > 0)

Leyes de De Morgan

Estas leyes relacionan las operaciones de unión, intersección y complemento de sucesos:

  • (A ∪ B)ᶜ = Aᶜ ∩ Bᶜ
  • (A ∩ B)ᶜ = Aᶜ ∪ Bᶜ

Combinatoria

La combinatoria estudia las diferentes formas de agrupar y ordenar elementos de un conjunto.

Combinación (sin repetición)

El número de formas de elegir k elementos de un conjunto de n elementos distintos, sin importar el orden y sin repetición, se calcula como:

Cnk = (nk) = n! / (k! * (n - k)!)

Combinación con Repetición

El número de formas de elegir k elementos de un conjunto de n elementos distintos, permitiendo la repetición y sin importar el orden, se calcula como:

CRnk = (n+k-1k)

Variación (Permutación sin repetición)

El número de formas de elegir y ordenar k elementos de un conjunto de n elementos distintos, sin repetición, se calcula como:

Vnk = n * (n - 1) * (n - 2) * ... * (n - k + 1)

Entradas relacionadas: