Validación de Secuencias Aleatorias: Métodos Chi-Cuadrado y Kolmogorov-Smirnov

Clasificado en Matemáticas

Escrito el en español con un tamaño de 4,59 KB

Generación y Validación de Números Aleatorios

La Generación de Números Aleatorios requiere que el generador utilizado produzca una secuencia suficientemente aleatoria. Para asegurar esto, el generador se somete a rigurosas pruebas estadísticas. Si el generador no supera una de estas pruebas, se puede concluir que su calidad es insuficiente para la aplicación requerida.


Prueba de Uniformidad Chi-Cuadrado ($\\chi^2$)

La prueba Chi-Cuadrado ($\\chi^2$) es la más común y puede ser utilizada para evaluar cualquier tipo de distribución. Se basa en la comparación de las frecuencias observadas ($O_i$) en un histograma con las frecuencias esperadas ($E_i$) bajo la hipótesis de uniformidad.

Fórmula y Componentes

La estadística de prueba se calcula mediante la siguiente fórmula:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$

Donde:

  • $O_i$: Frecuencia observada (cantidad de datos que caen en el intervalo $i$).
  • $E_i$: Frecuencia esperada, calculada como $E_i = n/k$.
  • $n$: Número total de datos en la secuencia.
  • $k$: Número de intervalos de igual amplitud.

Procedimiento de Aplicación

Para aplicar la prueba, se sigue el siguiente proceso:

  1. Se definen los $k$ intervalos de igual amplitud (por ejemplo, de la forma $[*,*)$).
  2. Se arma una tabla con los intervalos y se registran las frecuencias observadas ($O_i$).
  3. Se calcula la frecuencia esperada ($E_i$) para todos los intervalos.
  4. Regla de Agrupación: Si alguna frecuencia observada ($O_i$) es menor a 5, se debe reagrupar ese intervalo con el intervalo adyacente, sumando los $O_i$ y los $E_i$ correspondientes. Esto reduce el número efectivo de intervalos ($k$).
  5. Se calcula el valor de la estadística $\chi^2$ usando la fórmula.

Criterio de Decisión

El valor calculado de $\chi^2$ se compara con el valor crítico obtenido de la tabla de distribución Chi-Cuadrado, utilizando el nivel de significancia ($\\alpha$) y los grados de libertad ($k-1$).

$$\text{Valor Crítico} = \chi^2(\alpha, k-1)$$

Decisión:

  • Si $\chi^2_{\text{calculado}} > \chi^2_{\text{crítico}}$, se rechaza la hipótesis nula de uniformidad.
  • Si $\chi^2_{\text{calculado}} \le \chi^2_{\text{crítico}}$, no se rechaza la hipótesis nula (se acepta la uniformidad).

Prueba de Kolmogorov-Smirnov (K-S)

La prueba Kolmogorov-Smirnov (K-S) permite decidir si una muestra de $n$ observaciones proviene de una distribución continua particular. Está especialmente diseñada para muestras pequeñas y distribuciones continuas.

El principio fundamental es que la diferencia entre la Función de Distribución Acumulada (FDA) observada, $S_n(x)$, y la FDA esperada, $F_x(x)$, debe ser mínima.

Ejemplo de Aplicación y Construcción de la Tabla

Considere una secuencia de números aleatorios y un nivel de significancia $\alpha$. Para revisar su uniformidad usando la prueba K-S, se construye una tabla con las siguientes columnas:

  1. $j$: Índice o número de dato (desde 1 hasta $n$).
  2. $F(x_j) = X_j$: Los números aleatorios ordenados de menor a mayor.
  3. $S_n(X_j) = j/n$: La FDA observada, que resulta de dividir cada índice $j$ entre el número total de datos $n$.
  4. $|S_n(X_j) - F_x(x)|$: La diferencia absoluta entre la FDA observada y la esperada.
  5. $|X_j - (j-1)/n|$: La diferencia absoluta utilizada para calcular la desviación negativa.

Cálculo de la Estadística de Prueba ($D_0$)

Una vez completada la tabla, se determinan las desviaciones máxima positiva ($D^+$) y máxima negativa ($D^-$):

  • $D^+$ es el valor mayor de la columna $|S_n(X_j) - F_x(x)|$.
  • $D^-$ es el valor mayor de la columna $|X_j - (j-1)/n|$.

La estadística de prueba $D_0$ es el máximo entre estas dos desviaciones:

$$D_0 = \max(D^+, D^-)$$

Criterio de Decisión K-S

El valor $D_0$ se compara con el valor crítico $D(\alpha, n)$ obtenido de la tabla de Kolmogorov-Smirnov.

Decisión:

  • Si $D_0 > D_{\text{tabulado}}$, se rechaza la hipótesis de uniformidad.
  • Si $D_0 \le D_{\text{tabulado}}$, no se rechaza la hipótesis (se mantiene la confianza en la uniformidad de la secuencia).

Entradas relacionadas: