Statističke raspodele i metodi ocenjivanja parametara u matematičkoj statistici

Enviado por Anónimo y clasificado en Otras materias

Escrito el en serbocroata con un tamaño de 528,48 KB

Hi-kvadrat raspodela i njena funkcija

Raspodelu definisanu gustinom 1R8RThpwqqAAAAAElFTkSuQmCC nazivamo hi-kvadrat raspodelom sa n stepeni slobode, u oznaci χ²(n). Broj n može biti proizvoljan pozitivan broj, ali je u primenama važan slučaj kada je n prirodan broj. Za n = 2 dobija se eksponencijalna E(1/2) raspodela. U specijalnom slučaju za α = n/2 i λ = 1/2 dobijamo karakterističnu funkciju χ²(n) raspodele: φ(t) = 1 / (1 − 2it)n/2.

Tqc5TAp+1Gfo4jWsNztZZA5XtJ1Zr9ms7VSKDqJFCjbFUn6xpKn7kEapTtM58ANexXnQRqlK3qZF1D6TOXwP8AfRDjCnccUYoAAAAASUVORK5CYII=

geNly91mvnsqQAAAABJRU5ErkJggg==

Vidimo da svaka od nezavisnih slučajnih promenljivih Xᵢ² (i = 1, …, n) ima χ²(1) raspodelu. S obzirom da su X₁, …, Xₙ nezavisne slučajne promenljive, funkcija njihovog zbira je φ(t) = (φ₀(t))ⁿ = (1 − 2it)−ⁿ/², a ovo je karakteristična funkcija χ²(n) raspodele. Dokaz završen.

Da bismo rekli da slučajna promenljiva Y ima χ²(n) raspodelu, umesto Y pišemo χₙ². Za α = n/2 i λ = 1/2 dobijamo:

  • E(χₙ²) = n
  • D(χₙ²) = 2n

Iz oblika karakteristične funkcije vidimo da zbir nezavisnih slučajnih promenljivih sa χ²(nᵢ) raspodelom (i = 1, …, k) ima χ²(n₁ + … + nₖ) raspodelu. Broj stepeni slobode označava broj linearno nezavisnih slučajnih promenljivih među X₁, X₂, …, Xₙ u izrazu za χₙ². Ako bi među X₁, X₂, …, Xₙ postojala jedna linearna veza, tada bismo imali Xₙ₋₁² = X₁² + X₂² + … + Xₙ², dakle broj stepeni slobode je umanjen za 1.

Raspodela zbira slučajnih promenljivih sa hi-kvadrat raspodelom

Ako su X i Y nezavisne slučajne promenljive takve da X ima χ²(n) raspodelu, a Y ima χ²(r) raspodelu, tada X + Y ima χ²(n + r) raspodelu. Kako je φₓ(t) = (1 − 2it)−ⁿ/² i φᵧ(t) = (1 − 2it)−ʳ/², iz nezavisnosti X i Y sledi:

φₓ₊ᵧ(t) = φₓ(t) ⋅ φᵧ(t) = (1 − 2it)−ⁿ/² ⋅ (1 − 2it)−ʳ/² = (1 − 2it)−(ⁿ⁺ʳ)/²

A to je karakteristična funkcija χ²(n + r) raspodele.

Studentova t-raspodela i transformacija statistike

Ako je (X₁, …, Xₙ) uzorak iz populacije sa obeležjem X koje ima normalnu raspodelu N(μ, σ), tada statistika ((X̄ₙ − μ) / Sₙ) ⋅ √(n − 1) ima Studentovu t(n − 1) raspodelu. Transformacijom početne statistike dobijamo da ((X̄ₙ − μ) / σ) ⋅ √n ima standardnu N(0, 1) raspodelu, a (n Sₙ²) / σ² ima χ²(n − 1) raspodelu. Zaključujemo da navedena statistika prati Studentovu raspodelu sa n − 1 stepeni slobode.

Empirijska funkcija raspodele

Za dati uzorak (X₁, …, Xₙ), empirijska funkcija raspodele definiše se sa Sₙ(x) = k/n, za svako x ∈ R, gde je k broj elemenata iz uzorka koji nisu veći od x. Neka je X₍₁₎, X₍₂₎, …, X₍ₙ₎ varijacioni niz, koji čine vrednosti slučajnih promenljivih X₁, X₂, …, Xₙ uređene po veličini od najmanje do najveće. Tada se empirijska raspodela može odrediti pomoću:

  • Sₙ(x) = 0, ako je x < X₍₁₎
  • Sₙ(x) = k/n, ako je X₍ₖ₎ ≤ x < X₍ₖ₊₁₎, za 1 ≤ k ≤ n − 1
  • Sₙ(x) = 1, ako je x ≥ X₍ₙ₎

Centralna teorema matematičke statistike

Ako je F(x) funkcija raspodele slučajne promenljive X i Sₙ empirijska funkcija raspodele dobijena iz prostog uzorka (X₁, …, Xₙ) obima n, tada je:

P(supₓ∈R |Sₙ(x) − F(x)| → 0, kada n → +∞) = 1

Smisao ove teoreme je da kada je uzorak dovoljno brojan, tada se sa verovatnoćom bliskom jedinici empirijska funkcija raspodele malo razlikuje od teorijske. Odnosno, ukoliko je uzorak brojniji, utoliko bolje reprezentuje celokupnost populacije.

Tačkaste ocene parametara

Neka je θ̂ = θ̂(X₁, …, Xₙ) statistika koja se koristi kao ocena parametra θ.

  • Kažemo da je θ̂ stabilna ili postojana ocena za θ ako θ̂ konvergira u verovatnoći ka θ kada n → +∞, tj. ako je limₙ→+∞ P(|θ̂ − θ| > ε) = 0 za ε > 0.
  • Ocena je centrirana ako je E(θ̂) = θ.
  • Ocena je asimptotski centrirana ako E(θ̂) → θ kada n → +∞.

Svaka stabilna ocena parametra θ je asimptotski centrirana. S druge strane, svaka centrirana ocena nije nužno stabilna.

Definicija statistike i važniji primeri

Statistika Z je funkcija uzorka Z = f(X₁, …, Xₙ) koja ne zavisi eksplicitno od nepoznatih parametara. Statistika je slučajna promenljiva koja se bira tako da opisuje empirijsku raspodelu obeležja X. Neke važnije statistike su:

  1. X_min − minimum uzorka;
  2. X_max − maksimum uzorka;
  3. R = X_max − X_min − raspon uzorka;
  4. X̄ₙ = 1/n ∑ Xᵢ − sredina uzorka;

G+VvvUITt+O4anybs3gO8UBZHlco58WDTLCz1Df8YABJtEAiYGAEx5kwMqBAnEMh2CPwfGLtHDBbEbW8AAAAASUVORK5CYII=

Metod maksimalne verodostojnosti

Neka je (X₁, …, Xₙ) prost uzorak obima n i neka je (x₁, …, xₙ) realizovan uzorak. Označimo sa g(x; θ) gustinu raspodele f(x; θ) obeležja X ako je X neprekidnog tipa, a sa p(X = x; θ) ako je X diskretnog tipa. Funkcija verodostojnosti L(θ) definiše se kao:

  • L(θ) = g(x₁; θ) ⋅ g(x₂; θ) … g(xₙ; θ), za neprekidni tip.
  • L(θ) = p(x₁; θ) ⋅ p(x₂; θ) … p(xₙ; θ), za diskretni tip.

Statistika θ̂ = ψ(X₁, …, Xₙ) je ocena maksimalne verodostojnosti parametra θ. S obzirom da je logaritamska funkcija monotona, često je lakše naći maksimum rešavajući jednačinu: ∂ log L(θ) / ∂θ = 0.

Interval poverenja

Neka je (X₁, …, Xₙ) uzorak obeležja X čija je raspodela F(x, θ) i neka su θ̂₁ i θ̂₂ dve statistike takve da je θ̂₁ ≤ θ̂₂ i da je P(θ̂₁ < θ < θ̂₂) = β = 1 − α, gde je β unapred zadata verovatnoća. Tada se slučajni interval [θ̂₁, θ̂₂] zove interval poverenja za parametar θ, a verovatnoća β nivo poverenja. Obično se uzima β = 0.95 ili 0.99.

Interval poverenja za nepoznatu verovatnoću

Kod svakog elementa populacije interesujemo se da li se realizovao događaj A. Njegova verovatnoća P(A) = p je nepoznata. Statistika Sₙ = X₁ + X₂ + … + Xₙ predstavlja broj koliko se puta u uzorku obima n realizovao događaj A. Na osnovu centralne granične teoreme, (Sₙ − np) / √(npq) ima približno N(0, 1) raspodelu. Za zadati nivo poverenja β određujemo broj z_β tako da je P(|Z*| ≤ z_β) = β.

s4RBl0U88+QAAAABJRU5ErkJggg==

Interval poverenja za matematičko očekivanje (poznata disperzija)

U slučaju poznate disperzije kod velikog uzorka, sredina uzorka X̄ₙ uzima približno N(μ, σ/√n) raspodelu.

EPgfPSLiPv7sxBgAAAAASUVORK5CYII=

Kovarijansa i njene osobine

Za slučajne promenljive X i Y definišemo kovarijansu (Cov): Cov(X, Y) = E((X − E(X))(Y − E(Y))). Formula za izračunavanje je: Cov(X, Y) = E(XY) − E(X)E(Y).

Osobine kovarijanse:

  1. Ako su X i Y nezavisne, tada je Cov(X, Y) = 0 (obrnuto ne mora da važi).
  2. Cov(X, Y) = Cov(Y, X).
  3. Cov(X, X) = D(X) (disperzija).
  4. Cov(aX, bY) = ab Cov(X, Y).
  5. Cov(X + a, Y + b) = Cov(X, Y).

Interval poverenja za matematičko očekivanje (nepoznata disperzija)

Kada disperzija nije poznata, koristimo Studentovu t raspodelu sa n stepeni slobode.

A7tJOYCz3jkZAAAAAElFTkSuQmCC

Iz tablica čitamo broj t_{n;α} takav da je P(|tₙ| ≤ t_{n;α}) = 1 − α = β.

wPTa4g1qNvnbgAAAABJRU5ErkJggg==

Odavde dobijamo konačan oblik intervala poverenja:

oWEKlnNGK1sAAAAASUVORK5CYII=

Koeficijent korelacije i njegove osobine

Koeficijent korelacije između slučajnih promenljivih X i Y sa pozitivnim disperzijama definiše se kao:

zv6KTHSQp0wAAAABJRU5ErkJggg==

On služi kao mera linearne zavisnosti. Važe sledeće osobine:

  • −1 ≤ ρ(X, Y) ≤ 1.
  • ρ(X, Y) = ±1 ako i samo ako je Y = aX + b sa verovatnoćom 1.
  • Ako je ρ = 0, promenljive su nekorelirane.
  • Ako je ρ > 0, pozitivno su korelirane; ako je ρ < 0, negativno su korelirane.

Empirijska pravila za jačinu veze:

  • |ρ| < 0.3: neznatna linearna veza.
  • 0.5 < |ρ| < 0.7: značajna linearna veza.
  • 0.7 < |ρ| < 0.9: tesna veza.
  • |ρ| > 0.9: vrlo tesna veza.

Interval poverenja za nepoznatu disperziju

Tražimo ga u obliku [0, σ₀²].

LYIhvxvjA98AAAAASUVORK5CYII=

Iz tablica za hi-kvadrat raspodelu čitamo broj χ²_{n-1;β} takav da je P(χ²_{n-1} ≥ χ²_{n-1;β}) = β.

8mynwf72srTcZ5Pd+AAAAAElFTkSuQmCC

Odavde dobijamo jednostrani interval poverenja:

B6FWmWrqdQtGAAAAAElFTkSuQmCC

gcZkjBHC2TaDAAAAABJRU5ErkJggg==

R6xfZPFAAAAAElFTkSuQmCC

Regresiona prava

Regresiona funkcija je prava:

VqMAAAAAElFTkSuQmCC

Ovo važi ako slučajni vektor (X, Y) ima zajedničku dvodimenzionalnu normalnu raspodelu. Regresionu pravu ima smisla konstruisati i ako raspodela nije normalna, jer ona najbolje opisuje zavisnost između Y i X u smislu srednjeg kvadratnog odstupanja. Ocenjena regresiona prava ŷ = âx + b̂ je linija koja najbolje aproksimira podatke iz uzorka.

Napomena: ρ - koeficijent korelacije, μ - očekivanja, σ - standardna odstupanja.

Entradas relacionadas: