Fundamentos de Estadística Descriptiva e Inferencial: Medidas de Variabilidad y Contraste de Hipótesis

Clasificado en Matemáticas

Escrito el en español con un tamaño de 6,28 KB

Medidas Fundamentales en Estadística

Medidas de Tendencia Central

Estas medidas buscan representar el centro de la distribución de los datos:

  • Promedio (Media Aritmética, $\bar{x}$ o $\mu$)
  • Mediana
  • Media Geométrica

Medidas de Dispersión (Variabilidad)

Estas medidas cuantifican la dispersión de los datos alrededor del valor central (donde $n$ es el número de medidas):

  • Variabilidad (Intervalo o Rango): Valor alto - Valor bajo.
  • Desviación Estándar ($s$): Mide la dispersión promedio de los datos respecto a la media.
  • Varianza ($s^2$): Es el cuadrado de la desviación estándar. Se relaciona con los grados de libertad y la suma de cuadrados.
  • Coeficiente de Variación (CV): Se expresa como porcentaje y permite comparar la dispersión entre conjuntos de datos con diferentes medias. $CV = (s / \bar{x}) \times 100$.

Evaluación de la Distribución de Datos

Una vez obtenidas las medidas de tendencia central y dispersión, es crucial evaluar la DISTRIBUCIÓN de los datos en torno al valor central:

  • Distribución Normal (DN): Característica de los datos paramétricos.
  • Distribución con Sesgo: Característica de los datos no paramétricos.

Criterios para Evaluar la Distribución

Para evaluar si una distribución se aproxima a la Normal, se utilizan dos parámetros clave:

  • Asimetría o Sesgo (SKEWNESS): Mide la falta de simetría de la distribución.
  • Aplastamiento o Esbeltez (KURTOSIS): Mide cuán aplanada o picuda es la distribución.

Si los valores de Skewness y Kurtosis son menores a $|2|$ (o $|3|$ en criterios más laxos), se considera que los datos cumplen con la Distribución Normal (DN).

La Distribución Normal y la Estandarización

Caracterización de la Distribución Normal

La DN se caracteriza por tener un valor promedio poblacional ($\mu$) y una varianza poblacional ($\sigma^2$). El área bajo la curva representa la probabilidad de ocurrencia de un valor.

Estandarización (Puntuación Z)

Para comparar valores de diferentes distribuciones, se estandarizan mediante la puntuación Z:

$$Z = \frac{X_i - \mu}{\sigma}$$

Distribución t de Student

En la práctica, la varianza poblacional ($\sigma^2$) es generalmente desconocida. Se utiliza la desviación estándar muestral ($s$) para $n$ medidas. En este caso, se emplea la Distribución t de Student:

$$t = \frac{X_i - \mu}{s}$$

La probabilidad calculada con la distribución $t$ depende de la exactitud de $s$, la cual a su vez depende de los grados de libertad ($n-1$). Cuanto menor sea $(n-1)$, mayor es la probabilidad de una desviación extrema.

Error Estándar y Límites de Confianza

Error Estándar de la Media (EEM)

El Error Estándar de la Media (EEM) proporciona una medida de la variabilidad del promedio muestral. Depende de la desviación estándar ($s$) y del tamaño de la muestra ($n$):

$$EEM = \frac{s}{\sqrt{n}}$$

La distribución $t$ también se utiliza para una media y su error estándar:

$$t = \frac{\bar{X} - \mu}{s / \sqrt{n}}$$

Límites de Confianza de la Media (LC)

Los Límites de Confianza (LC) definen el intervalo dentro del cual se supone que se encuentra el valor verdadero poblacional ($\mu$), asumiendo la ausencia de error sistemático. El intervalo más frecuente es el 95%:

$$\mu_{LC} = \bar{X} \pm t_{95\%(n-1)} \times \frac{s}{\sqrt{n}}$$

Contraste de Hipótesis y Significancia

Contraste de Significancia

El contraste de significancia compara una medida experimental (observada) con un valor conocido o teórico. Su objetivo es probar la veracidad de la Hipótesis Nula ($H_0$).

Hipótesis Nula ($H_0$)

La $H_0$ establece que no existe otra diferencia entre el valor observado ($\bar{X}$) y el valor conocido ($\mu$) que la atribuible a la variación aleatoria (no hay error sistemático).

Nivel de Significancia ($\alpha$)

La $H_0$ se rechaza cuando la probabilidad de que la diferencia observada ocurra por azar es menor que 1/20, es decir, $P < 0.05$. Este valor ($0.05$) es el nivel de significancia ($\alpha$).

Decisión mediante t de Student

Para decidir si la diferencia es significativa, se calcula el valor $t$ experimental ($t_{exp}$) y se compara con el valor $t$ tabulado (crítico) para los grados de libertad y el nivel de significancia elegido:

$$t_{exp} = \frac{(\bar{X} - \mu) \times \sqrt{n}}{s}$$

  • Si $P(t_{exp}) < 0.05$: La diferencia es significativa. Se rechaza $H_0$.
  • Si $P(t_{exp}) \ge 0.05$: La diferencia no es significativa. No se rechaza $H_0$.

Comparación de Dos Medias Experimentales

Comparación de Promedios mediante T-test

El T-test compara dos promedios muestrales. Se basa en la relación Señal / Ruido:

$$\text{Señal} / \text{Ruido} = \frac{\text{Diferencia entre promedios de grupos}}{\text{Variabilidad de los grupos}}$$

La fórmula general para el $t_{exp}$ (asumiendo varianzas iguales y simplificando la notación de la varianza combinada $S_p^2$) es:

$$t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{S_p^2 (1/n_1 + 1/n_2)}}$$

Establecimiento de Diferencia Significativa

Para establecer una diferencia significativa entre dos promedios, se relaciona la cercanía de estos valores con la variabilidad que presentan para un determinado $n$. Se calcula $t_{exp}$ y se obtiene la probabilidad asociada ($P$).

El objetivo es determinar cuán probable es que la diferencia entre las medias sea debida únicamente al azar (nivel de significancia $\alpha$).

  • Si $P(t_{exp}) < 0.05$: La diferencia es significativa.
  • Si $P(t_{exp}) \ge 0.05$: La diferencia no es significativa.

Entradas relacionadas: