Statističke raspodele i metodi ocenjivanja parametara u matematičkoj statistici
Enviado por Anónimo y clasificado en Otras materias
Escrito el en
serbocroata con un tamaño de 528,48 KB
Hi-kvadrat raspodela i njena funkcija
Raspodelu definisanu gustinom
nazivamo hi-kvadrat raspodelom sa n stepeni slobode, u oznaci χ²(n). Broj n može biti proizvoljan pozitivan broj, ali je u primenama važan slučaj kada je n prirodan broj. Za n = 2 dobija se eksponencijalna E(1/2) raspodela. U specijalnom slučaju za α = n/2 i λ = 1/2 dobijamo karakterističnu funkciju χ²(n) raspodele: φ(t) = 1 / (1 − 2it)n/2.
Vidimo da svaka od nezavisnih slučajnih promenljivih Xᵢ² (i = 1, …, n) ima χ²(1) raspodelu. S obzirom da su X₁, …, Xₙ nezavisne slučajne promenljive, funkcija njihovog zbira je φ(t) = (φ₀(t))ⁿ = (1 − 2it)−ⁿ/², a ovo je karakteristična funkcija χ²(n) raspodele. Dokaz završen.
Da bismo rekli da slučajna promenljiva Y ima χ²(n) raspodelu, umesto Y pišemo χₙ². Za α = n/2 i λ = 1/2 dobijamo:
- E(χₙ²) = n
- D(χₙ²) = 2n
Iz oblika karakteristične funkcije vidimo da zbir nezavisnih slučajnih promenljivih sa χ²(nᵢ) raspodelom (i = 1, …, k) ima χ²(n₁ + … + nₖ) raspodelu. Broj stepeni slobode označava broj linearno nezavisnih slučajnih promenljivih među X₁, X₂, …, Xₙ u izrazu za χₙ². Ako bi među X₁, X₂, …, Xₙ postojala jedna linearna veza, tada bismo imali Xₙ₋₁² = X₁² + X₂² + … + Xₙ², dakle broj stepeni slobode je umanjen za 1.
Raspodela zbira slučajnih promenljivih sa hi-kvadrat raspodelom
Ako su X i Y nezavisne slučajne promenljive takve da X ima χ²(n) raspodelu, a Y ima χ²(r) raspodelu, tada X + Y ima χ²(n + r) raspodelu. Kako je φₓ(t) = (1 − 2it)−ⁿ/² i φᵧ(t) = (1 − 2it)−ʳ/², iz nezavisnosti X i Y sledi:
φₓ₊ᵧ(t) = φₓ(t) ⋅ φᵧ(t) = (1 − 2it)−ⁿ/² ⋅ (1 − 2it)−ʳ/² = (1 − 2it)−(ⁿ⁺ʳ)/²
A to je karakteristična funkcija χ²(n + r) raspodele.
Studentova t-raspodela i transformacija statistike
Ako je (X₁, …, Xₙ) uzorak iz populacije sa obeležjem X koje ima normalnu raspodelu N(μ, σ), tada statistika ((X̄ₙ − μ) / Sₙ) ⋅ √(n − 1) ima Studentovu t(n − 1) raspodelu. Transformacijom početne statistike dobijamo da ((X̄ₙ − μ) / σ) ⋅ √n ima standardnu N(0, 1) raspodelu, a (n Sₙ²) / σ² ima χ²(n − 1) raspodelu. Zaključujemo da navedena statistika prati Studentovu raspodelu sa n − 1 stepeni slobode.
Empirijska funkcija raspodele
Za dati uzorak (X₁, …, Xₙ), empirijska funkcija raspodele definiše se sa Sₙ(x) = k/n, za svako x ∈ R, gde je k broj elemenata iz uzorka koji nisu veći od x. Neka je X₍₁₎, X₍₂₎, …, X₍ₙ₎ varijacioni niz, koji čine vrednosti slučajnih promenljivih X₁, X₂, …, Xₙ uređene po veličini od najmanje do najveće. Tada se empirijska raspodela može odrediti pomoću:
- Sₙ(x) = 0, ako je x < X₍₁₎
- Sₙ(x) = k/n, ako je X₍ₖ₎ ≤ x < X₍ₖ₊₁₎, za 1 ≤ k ≤ n − 1
- Sₙ(x) = 1, ako je x ≥ X₍ₙ₎
Centralna teorema matematičke statistike
Ako je F(x) funkcija raspodele slučajne promenljive X i Sₙ empirijska funkcija raspodele dobijena iz prostog uzorka (X₁, …, Xₙ) obima n, tada je:
P(supₓ∈R |Sₙ(x) − F(x)| → 0, kada n → +∞) = 1
Smisao ove teoreme je da kada je uzorak dovoljno brojan, tada se sa verovatnoćom bliskom jedinici empirijska funkcija raspodele malo razlikuje od teorijske. Odnosno, ukoliko je uzorak brojniji, utoliko bolje reprezentuje celokupnost populacije.
Tačkaste ocene parametara
Neka je θ̂ = θ̂(X₁, …, Xₙ) statistika koja se koristi kao ocena parametra θ.
- Kažemo da je θ̂ stabilna ili postojana ocena za θ ako θ̂ konvergira u verovatnoći ka θ kada n → +∞, tj. ako je limₙ→+∞ P(|θ̂ − θ| > ε) = 0 za ε > 0.
- Ocena je centrirana ako je E(θ̂) = θ.
- Ocena je asimptotski centrirana ako E(θ̂) → θ kada n → +∞.
Svaka stabilna ocena parametra θ je asimptotski centrirana. S druge strane, svaka centrirana ocena nije nužno stabilna.
Definicija statistike i važniji primeri
Statistika Z je funkcija uzorka Z = f(X₁, …, Xₙ) koja ne zavisi eksplicitno od nepoznatih parametara. Statistika je slučajna promenljiva koja se bira tako da opisuje empirijsku raspodelu obeležja X. Neke važnije statistike su:
- X_min − minimum uzorka;
- X_max − maksimum uzorka;
- R = X_max − X_min − raspon uzorka;
- X̄ₙ = 1/n ∑ Xᵢ − sredina uzorka;
Metod maksimalne verodostojnosti
Neka je (X₁, …, Xₙ) prost uzorak obima n i neka je (x₁, …, xₙ) realizovan uzorak. Označimo sa g(x; θ) gustinu raspodele f(x; θ) obeležja X ako je X neprekidnog tipa, a sa p(X = x; θ) ako je X diskretnog tipa. Funkcija verodostojnosti L(θ) definiše se kao:
- L(θ) = g(x₁; θ) ⋅ g(x₂; θ) … g(xₙ; θ), za neprekidni tip.
- L(θ) = p(x₁; θ) ⋅ p(x₂; θ) … p(xₙ; θ), za diskretni tip.
Statistika θ̂ = ψ(X₁, …, Xₙ) je ocena maksimalne verodostojnosti parametra θ. S obzirom da je logaritamska funkcija monotona, često je lakše naći maksimum rešavajući jednačinu: ∂ log L(θ) / ∂θ = 0.
Interval poverenja
Neka je (X₁, …, Xₙ) uzorak obeležja X čija je raspodela F(x, θ) i neka su θ̂₁ i θ̂₂ dve statistike takve da je θ̂₁ ≤ θ̂₂ i da je P(θ̂₁ < θ < θ̂₂) = β = 1 − α, gde je β unapred zadata verovatnoća. Tada se slučajni interval [θ̂₁, θ̂₂] zove interval poverenja za parametar θ, a verovatnoća β nivo poverenja. Obično se uzima β = 0.95 ili 0.99.
Interval poverenja za nepoznatu verovatnoću
Kod svakog elementa populacije interesujemo se da li se realizovao događaj A. Njegova verovatnoća P(A) = p je nepoznata. Statistika Sₙ = X₁ + X₂ + … + Xₙ predstavlja broj koliko se puta u uzorku obima n realizovao događaj A. Na osnovu centralne granične teoreme, (Sₙ − np) / √(npq) ima približno N(0, 1) raspodelu. Za zadati nivo poverenja β određujemo broj z_β tako da je P(|Z*| ≤ z_β) = β.
Interval poverenja za matematičko očekivanje (poznata disperzija)
U slučaju poznate disperzije kod velikog uzorka, sredina uzorka X̄ₙ uzima približno N(μ, σ/√n) raspodelu.
Kovarijansa i njene osobine
Za slučajne promenljive X i Y definišemo kovarijansu (Cov): Cov(X, Y) = E((X − E(X))(Y − E(Y))). Formula za izračunavanje je: Cov(X, Y) = E(XY) − E(X)E(Y).
Osobine kovarijanse:
- Ako su X i Y nezavisne, tada je Cov(X, Y) = 0 (obrnuto ne mora da važi).
- Cov(X, Y) = Cov(Y, X).
- Cov(X, X) = D(X) (disperzija).
- Cov(aX, bY) = ab Cov(X, Y).
- Cov(X + a, Y + b) = Cov(X, Y).
Interval poverenja za matematičko očekivanje (nepoznata disperzija)
Kada disperzija nije poznata, koristimo Studentovu t raspodelu sa n stepeni slobode.
Iz tablica čitamo broj t_{n;α} takav da je P(|tₙ| ≤ t_{n;α}) = 1 − α = β.
Odavde dobijamo konačan oblik intervala poverenja:
Koeficijent korelacije i njegove osobine
Koeficijent korelacije između slučajnih promenljivih X i Y sa pozitivnim disperzijama definiše se kao:
On služi kao mera linearne zavisnosti. Važe sledeće osobine:
- −1 ≤ ρ(X, Y) ≤ 1.
- ρ(X, Y) = ±1 ako i samo ako je Y = aX + b sa verovatnoćom 1.
- Ako je ρ = 0, promenljive su nekorelirane.
- Ako je ρ > 0, pozitivno su korelirane; ako je ρ < 0, negativno su korelirane.
Empirijska pravila za jačinu veze:
- |ρ| < 0.3: neznatna linearna veza.
- 0.5 < |ρ| < 0.7: značajna linearna veza.
- 0.7 < |ρ| < 0.9: tesna veza.
- |ρ| > 0.9: vrlo tesna veza.
Interval poverenja za nepoznatu disperziju
Tražimo ga u obliku [0, σ₀²].
Iz tablica za hi-kvadrat raspodelu čitamo broj χ²_{n-1;β} takav da je P(χ²_{n-1} ≥ χ²_{n-1;β}) = β.
Odavde dobijamo jednostrani interval poverenja:
Regresiona prava
Regresiona funkcija je prava:
Ovo važi ako slučajni vektor (X, Y) ima zajedničku dvodimenzionalnu normalnu raspodelu. Regresionu pravu ima smisla konstruisati i ako raspodela nije normalna, jer ona najbolje opisuje zavisnost između Y i X u smislu srednjeg kvadratnog odstupanja. Ocenjena regresiona prava ŷ = âx + b̂ je linija koja najbolje aproksimira podatke iz uzorka.
Napomena: ρ - koeficijent korelacije, μ - očekivanja, σ - standardna odstupanja.