Principios y teoremas fundamentales de la inferencia estadística: Birnbaum, Rao-Blackwell, Neyman–Pearson y Fisher
Clasificado en Matemáticas
Escrito el en
español con un tamaño de 8,04 KB
Teorema de Birnbaum
Enunciado. El principio de verosimilitud es equivalente a la combinación de los principios de suficiencia y condicionalidad.
Demostración
Sea E1 y E2 dos experimentos y supóngase que existen dos observaciones x en E1 e y en E2 tales que
L1(θ|x) = c(x,y) L2(θ|y) para alguna función positiva c(x,y) que no depende de θ.
Construimos el experimento mixto E* que elige con probabilidad 1/2 cada experimento y registra el par (j,xj), donde j indica qué experimento se realizó y xj la observación obtenida.
Definimos el estadístico T por:
- T(j,xj) = (1,x) si j = 1 y x1 = x;
- T(j,xj) = (2,y) si j = 2 y x2 = y;
- T(j,xj) = (j,xj) en cualquier otro caso.
El estadístico T es suficiente para el experimento mixto E*. De hecho, si f representa la distribución conjunta en E*, las probabilidades condicionadas por T toman la forma:
- P((1,x) | T=(1,x)) = 1 / (1 + c(x,y));
- P((2,y) | T=(1,x)) = c(x,y) / (1 + c(x,y));
- Si t = (j,xj) corresponde a un valor aislado del estadístico, entonces P((j,xj) | T = t) = 1 y P((j',x'j') | T = t) = 0 para cualquier par distinto (j',x'j').
Observamos que estas probabilidades condicionadas no dependen del parámetro θ; por tanto T es suficiente.
Aplicando el principio de suficiencia obtenemos que la evidencia (notada Ev) que proporciona el par (E*,(1,x)) respecto de θ debe ser la misma que la que proporciona (E1,x); análogamente, Ev(E*,(2,y)) = Ev(E2,y). De aquí se deriva el principio de verosimilitud para las observaciones x e y planteadas.
Del principio de verosimilitud al de condicionalidad
Sea E* el experimento mixto de E1 y E2. Para (j,xj) se tiene
L(θ | j,xj) = f*(j,xj | θ) = \tfrac{1}{2} fj(xj | θ) = \tfrac{1}{2} Lj(θ | xj).
Por el principio de verosimilitud, la evidencia de (E*,(j,xj)) coincide con la de (Ej,xj), es decir, Ev(E*,(j,xj)) = Ev(Ej,xj). Esto expresa el principio de condicionalidad.
Del principio de verosimilitud al de suficiencia
Para demostrar que el principio de suficiencia también se sigue, consideremos un experimento E y dos puntos muestrales x,y tales que T(x) = T(y), siendo T un estadístico suficiente.
Por el teorema de factorización existe una descomposición
f(x | θ) = h(x) gθ(T(x)), con h ≥ 0 y gθ ≥ 0.
Entonces
f(y | θ) = h(y) gθ(T(y)) = h(y) gθ(T(x)) = \frac{h(y)}{h(x)} f(x | θ).
Es decir, L(θ | y) = c(x,y) L(θ | x) con c(x,y) = h(y)/h(x), lo que por el principio de verosimilitud implica Ev(E,x) = Ev(E,y). De este modo se satisface el principio de suficiencia.
Teorema de factorización
Enunciado. Un estadístico T es suficiente para la familia con densidad f(x1,...,xn | θ) si y sólo si existe una descomposición
f(x1,...,xn | θ) = h(x1,...,xn) \; gθ(T(x1,...,xn)),
con funciones h ≥ 0 y gθ ≥ 0.
Demostración (esbozo)
→ Supongamos que T es suficiente. Entonces la ley condicional de (X1,...,Xn) dado T = t no depende de θ. Por la fórmula de la probabilidad condicional podemos escribir
f(x1,...,xn | θ) = f(x1,...,xn | T = t) \; f(T = t | θ).
El factor f(x1,...,xn | T = t) no depende de θ y puede agruparse en h(·), mientras que f(T = t | θ) depende de θ únicamente a través de t, dando la factoración requerida.
← Si existe la factorización, entonces la densidad condicional
f(x1,...,xn | T = t, θ) = \frac{f(x1,...,xn | θ)}{\int_{\{x: T(x)=t\}} f(x | θ)\,dx} = \frac{h(x) gθ(t)}{\int_{\{x: T(x)=t\}} h(x) gθ(t)\,dx} = \frac{h(x)}{\int_{\{x: T(x)=t\}} h(x)\,dx},
que no depende de θ. Por tanto T es suficiente.
Teorema de Rao–Blackwell
Enunciado. Sea T un estimador no sesgado de h(θ) (es decir, Eθ[T] = h(θ)). Sea S(X) un estadístico suficiente para θ. Entonces el estimador
U(X) = E[ T(X) | S(X) ]
es un estimador no sesgado de h(θ) con varianza menor o igual que la de T:
Varθ(U) ≤ Varθ(T) para todo θ.
Además, la igualdad se da si y sólo si T = g(S) casi seguramente para alguna función g, es decir, cuando T es ya función de S.
Teorema de Lehmann–Scheffé
Enunciado. Si S es un estadístico suficiente y completo para θ y T es un estimador no sesgado de h(θ), entonces
U(X) = E[ T(X) | S(X) ]
es el estimador insesgado de mínima varianza uniforme (UMVUE) para h(θ). Es decir, U es óptimo entre los estimadores insesgados.
Teorema de Neyman–Pearson
Enunciado. Para contrastar H0: θ = θ0 frente a H1: θ = θ1, el test más potente de tamaño α está dado por la región crítica
RC* = \{ x : \frac{f(x | θ1)}{f(x | θ0)} \geq k \},
donde la constante k se elige tal que Pθ0(RC*) = α cuando esto es posible. Este test es óptimo en el sentido de tener la máxima potencia entre todos los tests con nivel no superior a α.
Si existe un test óptimo, debe tener la forma de una regla basada en la razón de verosimilitudes; para una muestra (x1,...,xn) la región crítica toma la forma
RC' = \{ (x1,...,xn) : \frac{f(x1,...,xn | θ1)}{f(x1,...,xn | θ0)} \geq k \},
con k determinado por la condición de nivel Pθ0(RC') = α si se puede cumplir exactamente.
Teorema de Fisher
Enunciado. Sea X1,...,Xn una muestra aleatoria simple (m.a.s.) de una población normal N(μ, σ2).
- (a) La media muestral \(\overline{X}\) y la cantidad de dispersión Sn2 son independientes.
- (b) Si definimos Sn2 = \tfrac{1}{n} \sum_{i=1}^n (X_i - \overline{X})^2, entonces
\(\dfrac{n S_n^2}{\sigma^2} \sim \chi^2_{n-1}.\)
(Observación: la definición de varianza muestral puede variar en factores n o n-1 según la convención; aquí se mantiene la notación original con divisor n y el correspondiente resultado en términos de la distribución χ2 con n-1 grados de libertad para la suma de cuadrados centrados.)
Estadístico suficiente
Sea X una variable aleatoria vectorial con espacio muestral (Χ, BΧ, Fθ), θ ∈ Θ ⊂ \mathbb{R}k. Un estadístico T(X) se dice suficiente para la familia paramétrica \{Fθ : θ ∈ Θ\} si la distribución condicional de (X1,...,Xn) dado T = t no depende del parámetro θ.
Estadístico completo
Definición. Un estadístico T es completo para la familia \{Pθ : θ ∈ Θ\} si para toda función medible g tal que Eθ[g(T)] = 0 para todo θ ∈ Θ, se tiene Pθ(g(T) = 0) = 1 para todo θ.
En otras palabras, no existen funciones no triviales de T con esperanza nula para todos los parámetros; esta propiedad, junto con la suficiencia, garantiza unicidad y optimalidad de estimadores insesgados condicionados (véase Lehmann–Scheffé).