Principios y teoremas fundamentales de la inferencia estadística: Birnbaum, Rao-Blackwell, Neyman–Pearson y Fisher

Escrito el 22 de Enero de 2026 en español con un tamaño de 8,04 KB

Teorema de Birnbaum

Enunciado. El principio de verosimilitud es equivalente a la combinación de los principios de suficiencia y condicionalidad.

Demostración

Sea E₁ y E₂ dos experimentos y supóngase que existen dos observaciones x en E₁ e y en E₂ tales que

L₁(θ|x) = c(x,y) L₂(θ|y) para alguna función positiva c(x,y) que no depende de θ.

Construimos el experimento mixto E^* que elige con probabilidad 1/2 cada experimento y registra el par (j,x_j), donde j indica qué experimento se realizó y x_j la observación obtenida.

Definimos el estadístico T por:

T(j,x_j) = (1,x) si j = 1 y x₁ = x;
T(j,x_j) = (2,y) si j = 2 y x₂ = y;
T(j,x_j) = (j,x_j) en cualquier otro caso.

El estadístico T es suficiente para el experimento mixto E^*. De hecho, si f representa la distribución conjunta en E^*, las probabilidades condicionadas por T toman la forma:

P((1,x) | T=(1,x)) = 1 / (1 + c(x,y));
P((2,y) | T=(1,x)) = c(x,y) / (1 + c(x,y));
Si t = (j,x_j) corresponde a un valor aislado del estadístico, entonces P((j,x_j) | T = t) = 1 y P((j',x'_j') | T = t) = 0 para cualquier par distinto (j',x'_j').

Observamos que estas probabilidades condicionadas no dependen del parámetro θ; por tanto T es suficiente.

Aplicando el principio de suficiencia obtenemos que la evidencia (notada Ev) que proporciona el par (E^*,(1,x)) respecto de θ debe ser la misma que la que proporciona (E₁,x); análogamente, Ev(E^*,(2,y)) = Ev(E₂,y). De aquí se deriva el principio de verosimilitud para las observaciones x e y planteadas.

Del principio de verosimilitud al de condicionalidad

Sea E^* el experimento mixto de E₁ y E₂. Para (j,x_j) se tiene

L(θ | j,x_j) = f^*(j,x_j | θ) = \tfrac{1}{2} f_j(x_j | θ) = \tfrac{1}{2} L_j(θ | x_j).

Por el principio de verosimilitud, la evidencia de (E^*,(j,x_j)) coincide con la de (E_j,x_j), es decir, Ev(E^*,(j,x_j)) = Ev(E_j,x_j). Esto expresa el principio de condicionalidad.

Del principio de verosimilitud al de suficiencia

Para demostrar que el principio de suficiencia también se sigue, consideremos un experimento E y dos puntos muestrales x,y tales que T(x) = T(y), siendo T un estadístico suficiente.

Por el teorema de factorización existe una descomposición

f(x | θ) = h(x) g_θ(T(x)), con h ≥ 0 y g_θ ≥ 0.

Entonces

f(y | θ) = h(y) g_θ(T(y)) = h(y) g_θ(T(x)) = \frac{h(y)}{h(x)} f(x | θ).

Es decir, L(θ | y) = c(x,y) L(θ | x) con c(x,y) = h(y)/h(x), lo que por el principio de verosimilitud implica Ev(E,x) = Ev(E,y). De este modo se satisface el principio de suficiencia.

Teorema de factorización

Enunciado. Un estadístico T es suficiente para la familia con densidad f(x₁,...,x_n | θ) si y sólo si existe una descomposición

f(x₁,...,x_n | θ) = h(x₁,...,x_n) \; g_θ(T(x₁,...,x_n)),

con funciones h ≥ 0 y g_θ ≥ 0.

Demostración (esbozo)

→ Supongamos que T es suficiente. Entonces la ley condicional de (X₁,...,X_n) dado T = t no depende de θ. Por la fórmula de la probabilidad condicional podemos escribir

f(x₁,...,x_n | θ) = f(x₁,...,x_n | T = t) \; f(T = t | θ).

El factor f(x₁,...,x_n | T = t) no depende de θ y puede agruparse en h(·), mientras que f(T = t | θ) depende de θ únicamente a través de t, dando la factoración requerida.

← Si existe la factorización, entonces la densidad condicional

f(x₁,...,x_n | T = t, θ) = \frac{f(x₁,...,x_n | θ)}{\int_{\{x: T(x)=t\}} f(x | θ)\,dx} = \frac{h(x) g_θ(t)}{\int_{\{x: T(x)=t\}} h(x) g_θ(t)\,dx} = \frac{h(x)}{\int_{\{x: T(x)=t\}} h(x)\,dx},

que no depende de θ. Por tanto T es suficiente.

Teorema de Rao–Blackwell

Enunciado. Sea T un estimador no sesgado de h(θ) (es decir, E_θ[T] = h(θ)). Sea S(X) un estadístico suficiente para θ. Entonces el estimador

U(X) = E[ T(X) | S(X) ]

es un estimador no sesgado de h(θ) con varianza menor o igual que la de T:

Var_θ(U) ≤ Var_θ(T) para todo θ.

Además, la igualdad se da si y sólo si T = g(S) casi seguramente para alguna función g, es decir, cuando T es ya función de S.

Teorema de Lehmann–Scheffé

Enunciado. Si S es un estadístico suficiente y completo para θ y T es un estimador no sesgado de h(θ), entonces

U(X) = E[ T(X) | S(X) ]

es el estimador insesgado de mínima varianza uniforme (UMVUE) para h(θ). Es decir, U es óptimo entre los estimadores insesgados.

Teorema de Neyman–Pearson

Enunciado. Para contrastar H₀: θ = θ₀ frente a H₁: θ = θ₁, el test más potente de tamaño α está dado por la región crítica

RC* = \{ x : \frac{f(x | θ₁)}{f(x | θ₀)} \geq k \},

donde la constante k se elige tal que P_θ₀(RC*) = α cuando esto es posible. Este test es óptimo en el sentido de tener la máxima potencia entre todos los tests con nivel no superior a α.

Si existe un test óptimo, debe tener la forma de una regla basada en la razón de verosimilitudes; para una muestra (x₁,...,x_n) la región crítica toma la forma

RC' = \{ (x₁,...,x_n) : \frac{f(x₁,...,x_n | θ₁)}{f(x₁,...,x_n | θ₀)} \geq k \},

con k determinado por la condición de nivel P_θ₀(RC') = α si se puede cumplir exactamente.

Teorema de Fisher

Enunciado. Sea X₁,...,X_n una muestra aleatoria simple (m.a.s.) de una población normal N(μ, σ²).

(a) La media muestral \(\overline{X}\) y la cantidad de dispersión S_n² son independientes.
(b) Si definimos S_n² = \tfrac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^2, entonces

\(\dfrac{n S_n^2}{\sigma^2} \sim \chi^2_{n-1}.\)

(Observación: la definición de varianza muestral puede variar en factores n o n-1 según la convención; aquí se mantiene la notación original con divisor n y el correspondiente resultado en términos de la distribución χ² con n-1 grados de libertad para la suma de cuadrados centrados.)

Estadístico suficiente

Sea X una variable aleatoria vectorial con espacio muestral (Χ, B_Χ, F_θ), θ &in; Θ &subset; \mathbb{R}^k. Un estadístico T(X) se dice suficiente para la familia paramétrica \{F_θ : θ &in; Θ\} si la distribución condicional de (X₁,...,X_n) dado T = t no depende del parámetro θ.

Estadístico completo

Definición. Un estadístico T es completo para la familia \{P_θ : θ &in; Θ\} si para toda función medible g tal que E_θ[g(T)] = 0 para todo θ &in; Θ, se tiene P_θ(g(T) = 0) = 1 para todo θ.

En otras palabras, no existen funciones no triviales de T con esperanza nula para todos los parámetros; esta propiedad, junto con la suficiencia, garantiza unicidad y optimalidad de estimadores insesgados condicionados (véase Lehmann–Scheffé).

Entradas relacionadas:

Etiquetas: