Još neke važne statističke distribucije

2.7. Još neke važne statističke distribucije

U prethodnom odeljku opisali smo karakteristike normalne distribucije i ukazali na njenu važnost u oblastima psihologije i statistike. Skrenuli smo pažnju na to da se normalna distribucija kao teorijski model može definisati matematički i tako pružiti osnov za procenu verovatnoće ishoda određivanjem pozicije nekog rezultata u odnosu na ostale vrednosti iz istog skupa podataka. Kao primer smo naveli procenu položaja prave aritmetičke sredine populacije u distribuciji velikog broja aritmetičkih sredina velikih uzoraka uzetih iz iste populacije. U statistici se koriste i druge vrste distribucija koje su podjednako važne za razumevanje pojava i donošenje zaključaka o njima. U ovom odeljku opisaćemo logiku i način nastanka tri raspodele na koje ćemo se pozivati u poglavlju o tehnikama inferencijalne statistike. Iako su u pitanju teorijske distribucije, za čitaoca nije nužno da u potpunosti razume njihovu matematičku osnovu, već prvenstveno njihovu praktičnu vrednost i način primene u oblasti statističkog zaključivanja. Ta vrednost ogleda se u činjenici da verovatnoće ishoda koje želimo da opišemo često nisu distribuirane normalno, ali kao i u slučaju centralne granične teoreme, u tipičnim „nenormalnim“ distribucijama postoje pravilnosti koje mogu da se precizno opišu i iskoriste u praksi.

2.7.1. Studentova t distribucija

Na samom početku 20. veka engleski hemičar i matematičar Vilijam Sili Goset bio je zaposlen u pivari Ginis u Dablinu. Upoređujući količinu prinosa i kvalitet različitih sorti ječma, koristio je pravilnosti opisane u prethodnom odeljku kako bi pomoću intervala poverenja procenjivao tačnost aritmetičkih sredina izračunatih na različitim uzorcima. Nakon velikog broja eksperimenata, uočio je da te pravilnosti ne važe kada su uzorci mali. Naime, zbog činjenice da standardna devijacija koja je izračunata na malom broju merenja obično nije dobra procena prave standardne devijacije varijable u populaciji, uobičajeni intervali poverenja, bazirani na vrednostima standardne greške aritmetičke sredine uzorka, pokazali su se kao nedovoljno pouzdani. Goset je svoje otkriće predstavio u članku pod nazivom The probable error of a mean koji je potpisao pseudonimom Student, jer kompanija Ginis svojim radnicima nije dozvoljavala da objavljuju podatke koji bi mogli da ugroze njenu konkurentnost na tržištu. Goset je u navedenom članku ukazao na problem tačnosti procene vrednosti µ na osnovu M i s_M malih uzoraka, izračunao verovatnoće da se µ nalazi u određenom intervalu poverenja za uzorke različitih veličina, i matematički definisao funkciju distribucije verovatnoća odstupanja aritmetičkih sredina uzoraka od najverovatnije vrednosti aritmetičke sredine populacije (Student, 1908). Ova distribucija postala je poznata kao Studentova. Gosetu je u pripremi članka značajno pomogao Karl Pirson, a nakon objavljivanja vodio je intenzivnu diskusiju sa još jednim od začetnika statistike kao moderne naučne discipline, engleskim genetičarom i matematičarom Ronaldom Fišerom. Fišer je značajno doprineo promociji i unapređenju Gosetovog modela, definišući preciznije tzv. t-odnos (Fisher, 1925):

`t=(M-mu)/s_M`

Ako se prisetite logike standardizacije sirovih podataka, uočićete da je gornji izraz veoma sličan formuli koja se koristi za izračunavanje z vrednosti. Može se reći da je t vrednost zapravo z vrednost aritmetičke sredine uzorka u distribuciji velikog broja aritmetičkih sredina uzoraka iste veličine, uzetih iz iste populacije. Drugim rečima, t označava standardizovanu udaljenost M od µ na osnovu koje preciznije i tačnije mogu da se izračunaju intervali poverenja M kada su uzorci mali, odnosno kada vrednosti s i s_M nisu dovoljno tačne procene σ i σ_M.

U narednom primeru poći ćemo od normalne distribucije 50.000 merenja prikazanih na grafikonu crvene boje. U cilju boljeg razumevanja, rezultati su standardizovani, tako da je µ = 0, a σ = 1. Zamislite da smo iz te populacije merenja uzeli 50.000 uzoraka veličine 2 i za svaki od njih izračunali M i s_M a potom vrednost t-odnosa prema ranije navedenoj formuli. Distribucija tako dobijenih vrednosti t podsećala bi na normalnu, ali bi bila nešto drugačija zbog činjenice da smo M izračunavali na osnovu samo dva merenja. Odaberite opciju Studentova t sa prve padajuće liste i opciju N = 2 sa druge, da biste prikazali ovu distribuciju. Za razliku od normalne distribucije, t distribucija je u većoj meri platikurtična. Njeni krajevi su izduženi i „teži“, što nam govori da značajan broj aritmetičkih sredina uzoraka ima t-odnos koji je po apsolutnoj vrednosti veći od 2, pa čak i od 3. To potvrđuje činjenicu da postoji velika verovatnoća da na malim uzorcima dobijemo vrednosti M koje bitno odstupaju od µ. Međutim, prikazana t distribucija govori o još jednom važnom fenomenu. Ukoliko bismo primenili ranije opisani način da izračunamo intervale poverenja aritmetičke sredine uzorka, koristeći vrednost s_M, pravilnosti vezane za površinu ispod normalne krive ne bi bile primenjive i ne bi nam dale tačnu procenu prave vrednosti µ. Na primer, interval M ± 1,96 · s_M obuhvatio bi manji broj vrednosti M nego što bi to bio slučaj da je distribucija aritmetičkih sredina potpuno normalna. Drugim rečima, ukoliko smo M izračunali na malom uzorku, moraćemo da upotrebimo širi interval poverenja kako bismo došli do željenih 95% ili 99% sigurnosti u procenu vrednosti aritmetičke sredine u populaciji. Osnovni razlog povećanja greške procene leži u činjenici da interval poverenja M nismo računali na osnovu σ_M, već na osnovu s_M. Međutim, na većim uzorcima, ove vrednosti postaju sve sličnije, pa se tako i t distribucija menja. Ukoliko povećavate veličinu uzoraka koristeći opcije sa druge padajuće liste, primetićete da t distribucija već na uzorcima veličine 50 poprima oblik normalne krive, te da postaje skoro potpuno normalna na uzorcima od 100 merenja. Zbog toga se, između ostalog, vrednosti 50 ili 100 često pominju kao granice iznad kojih se uzorak smatra „dovoljno velikim“. Međutim, čitaocu savetujemo da nikada ne određuje kriterijume „velikog“ uzorka u apsolutnom smislu, već s obzirom na broj varijabli koje se koriste u istraživačkom nacrtu i stepen njihove varijabilnosti. Što je više varijabli uključeno u analizu i što je veća raspršenost rezultata na tim varijablama, to će biti potreban veći uzorak da bi se obuhvatila i opisala ukupna varijabilnost sistema.

2.7.2. Hi-kvadrat distribucija

Do sada smo se pretežno bavili opisivanjem distribucija aritmetičkih sredina uzoraka i mogućnostima procene vrednosti µ na osnovu M. U statistici je jednako važna i potreba da se opiše distribucija varijansi uzoraka u odnosu na pravu varijansu populacije. Ta distribucija ima specifičan oblik koji, kao i u slučaju t distribucije, zavisi od broja merenja na kojima se računaju vrednosti varijanse. Kada odaberete opcije Distribucija s² i N = 1, iz populacije sa leve strane biće uzeto 50.000 uzoraka veličine 1, a njihove varijanse biće prikazane na desnom grafikonu. Kao što vidite, histogram sadrži samo jedan stubić iznad vrednosti 0 jer je varijansa jednog rezultata merenja uvek 0. Kada uzorak povećate na 2, primetićete da varijanse veće od 0 postaju češće, ali da su i dalje vrednosti bliske 0 najverovatniji ishod koji bismo dobili na uzorku od dva merenja. Razlog je to što se nasumičnim izborom rezultata iz normalne distribucije najčešće dobijaju vrednosti koje su jednake ili bliske aritmetičkoj sredini. To takođe govori da će se računanjem varijanse neke pojave na malom uzorku, najverovatnije potceniti njena vrednost u populaciji. Ipak, obratite pažnju na to da je distribucija varijansi u ovom slučaju izrazito pozitivno iskošena i da smo u nekim uzorcima dobijali čak i varijanse veće od 3, iako ona u populaciji iznosi 1. Posmatrajte kako se daljim povećavanjem veličine uzorka distribucija s² menja iz izrazito pozitivno zakrivljene u približno normalnu. Već na uzorcima od 50 merenja aritmetička sredina distribucije varijansi postaje bliska jedinici, odnosno vrednosti σ² u našem primeru. Pored toga, varijabilnost distribucije se značajno smanjuje, što pokazuje da se na velikim reprezentativnim uzorcima uglavnom dobijaju tačne procene σ².

Već smo naglasili da istraživač ne mora da uzima hiljade uzoraka iz iste populacije da bi ustanovio koje su vrednosti µ i σ². Dovoljno je da bude svestan da su M i s² koje je izračunao na svom uzorku, samo slučajno dobijeni elementi gotovo neograničenog skupa mogućih vrednosti koje potiču iz odgovarajućih teorijskih distribucija. U slučaju M, to je ranije opisana t distribucija koju su definisali Goset i Fišer. U slučaju s², to je raspodela koja veoma podseća na one koje smo videli u prethodnim primerima. Analiza funkcije gustine verovatnoće distribucije varijansi prevazilazi ambicije ovog udžbenika, ali se logika njenog nastanka može ilustrovati relativno lako. Za početak, u pitanju je očigledno raspodela kvadriranih vrednosti (s²). Kada bismo iz standardizovane normalne raspodele prikazane na levom grafikonu, nasumično birali vrednosti, kvadrirali ih i potom sabirali, dobili bismo distribuciju koja je po obliku veoma slična distribuciji varijansi uzoraka. Nju bismo mogli da označimo sa x², gde je x odabrani rezultat, odnosno nasumično izvučena z vrednost. Pošto je u statistici uobičajeno da se vrednosti vezane za distribuciju merenja u uzorku označavaju latiničnim slovima (npr. M), a iste te vrednosti u teoriji, odnosno populaciji, grčkim slovima (npr. µ), u ovom slučaju se kao oznaka teorijske distribucije ne koristi latinično slovo x, već grčko slovo χ (hi). Stoga se teorijska distribucija suma kvadrata z vrednosti uzetih iz normalne distribucije naziva hi-kvadrat distribucijom, pri čemu se vrednost χ² može izračunati prema formuli:

`chi^2(N)=sum_(i=0)^Nz^2=sum_(i=0)^N(x_i-mu)^2/sigma^2`

gde je N broj nasumično odabranih, kadriranih i sumiranih z vrednosti iz normalne distribucije. Distribucija χ² vrednosti koristi se za opisivanje raspodele varijansi uzoraka, ali i drugih važnih fenomena o kojima će biti više reči u narednom poglavlju.

Kada sa liste odaberete hi-kvadrat distribuciju, primetićete da su njeni oblici za različite veličine uzoraka slični obliku distribucija s² u uzorcima, ali za vrednosti N – 1. Na primer, hi-kvadrat distribucija velikog broja pojedinačnih, nasumično odabranih z skorova (N = 1) ima isti oblik kao distribucija s² koja je dobijena na velikom broju uzoraka veličine dva. Odaberite opciju Hi-kvadrat χ² sa prve liste i N = 2 sa druge i kliknite više puta taster Analogna distribucija da biste lakše uporedili analogne s² i χ² raspodele. Očigledno je da ove dve distribucije imaju identičan oblik ali drugačije raspone. Njihovi rasponi mogu čak i da se izjednače tako što se svaka s² pomnoži veličinom uzorka na kome je izračunata. Tada se dobija odgovarajuća χ² vrednost, ali za analogni uzorak z vrednosti veličine N - 1:

`chi^2(N-1)=N*s^2`

Treba napomenuti da gornja formula važi samo za distribuciju varijansi uzoraka uzetih iz standardizovane normalne distribucije, ali ona ipak ilustruje jednu važnu karakteristiku svih χ² distribucija koja doprinosi njihovoj univerzalnoj primenjivosti. Naime, kada se raspodela varijansi uzoraka opiše χ²distribucijom, njena aritmetička sredina biće jednaka vrednosti N, odnosno veličini uzorka na kojoj je varijansa izračunata. Pri tome treba obratiti pažnju na to da kod opcije Distribucija s² N označava broj vrednosti na kojima je računata varijansa, dok je kod opcije Hi-kvadrat χ² to broj z vrednosti koje su kvadrirane i sumirane. Na primer, hi-kvadrat distribucija za N = 50 približno je normalna i centrirana oko vrednosti 50, jer se najveći broj nasumično odabranih z vrednosti iz populacije prikazane na levom grafikonu nalazi između -1 i 1. Isti oblik imala bi distribucija varijansi za N = 51. Istraživač koji se bavi statističkom obradom podataka ne mora da poznaje matematičke osnove i način izvođenja navedenih formula, ali treba da razume njihovu važnost u opisivanju onoga što se očekuje, onoga što bi se desilo „u teoriji“ i onoga što se dešava u skladu sa zakonima verovatnoće. Na primer, ako je varijansa u populaciji 1, kao u našem primeru, verovatnoća da dobijemo s²= 4 na uzorku uzetom iz te populacije, izuzetno je mala, bez obzira na to koliko je uzorak velik. Ukoliko je uzorak dovoljno velik, ta verovatnoća je praktično nulta. Ako se u uzorku ipak dobije tolika vrednost s², opravdano je pretpostaviti da σ²zapravo nije 1. Ista logika može da se primeni i na hi-kvadrat distribuciju, ali o tome će biti više reči u narednom poglavlju.

Zbog čega je hi-kvadrat distribucija iskošena u desnu stranu?

U poslednjoj formuli za izračunavanje χ² vrednosti koju smo naveli, ponovo smo se susreli sa izrazom N - 1. Pre toga smo istu vrednosti upotrebili u formuli za izračunavanje standardne devijacije uzorka. Ovo je prilika da čitaocu skrenemo pažnju na razloge umanjivanja veličine uzorka u određenim formulama u statistici. Za početak, iz poslednje formule jasno je da na uzorcima veličine 1 očekujemo nultu vrednost χ², jer je varijabilnost jednog rezultata merenja uvek 0. Da bismo uopšte mogli da izračunamo varijabilnost neke pojave, potrebna su nam barem dva podatka. To znači da u svakom skupu od N podataka čija je varijansa s², samo N - 1 podataka doprinosi varijabilnosti pojave koja se meri. Ukoliko imamo uzorak veličine 2, samo jedan od njih doprinosi varijabilnosti. Za uzorak veličine 10 taj broj je 9. U uzorku veličine 100 ima 99 takvih rezultata i tako dalje. Zbog ove činjenice istraživač uvek ima manje slobode kada zaključke donosi na osnovu podataka u uzorku, nego što bi imao da je ispitao celu populaciju. Pokušaćemo da ilustrujemo ovu pravilnost na primeru testa znanja. Recimo da vam je cilj da proverite poznavanje glavnih gradova država u grupi učenika. Dali ste im imena pet država i tražili da na crticu pored njih napišu odgovarajuća imena glavnih gradova. Na svako od pet pitanja, odgovor može da bude bilo koja vrednost iz ogromne populacije naziva glavnih gradova. Ukoliko učenik odgovori tačno na svako pitanje, njegovo znanje slobodno možete da izrazite brojem 5. Sada zamislite da ste učenicima dali ponuđene odgovore i da je njihov zadatak bio da spoje naziv države sa nazivom njenog glavnog grada. U ovom slučaju formirali ste ograničeni uzorak naziva glavnih gradova. Upravo zbog toga znanje učenika koji je ispravno spojio sve parove, ne bi trebalo da izrazite brojem 5. Sloboda zaključivanja vam je ovoga puta ograničena, jer možete da budete sigurni samo u to da je učenik tačno znao N - 1 = 4 odgovora, a da N-ti nije morao ni da zna, jer je to poslednji par koji bi svakako bio spojen.

2.7.3. Fišer–Snedekorova F distribucija

Doprinos Ser Ronalda Fišera razvoju moderne statistike toliko je velik da bismo njegovo ime mogli da pomenemo u svakom poglavlju ovog udžbenika. U kontekstu sadržaja ovog odeljka, Fišerov stav je bio da statističke distribucije ne treba opisivati kao skupove stvarnih podataka ili rezultata merenja, već kao apstraktne fenomene definisane odgovarajućim matematičkim formulama (Salsburg, 2001). Po njegovom shvatanju, raspodele rezultata koje opažamo u istraživanjima samo su sredstvo za bolju ili lošiju procenu parametara različitih teorijskih distribucija. Jednu od njih Fišer je matematički opisao kao odnos varijansi dva uzorka uzeta iz populacije normalno distribuiranih podataka. Kada sa liste odaberete opciju Distribucija s₁²/s₂², primetićete da je potrebno da odredite dve veličine uzorka. Za vrednosti N = 1 i N = 1 distribuciju nije moguće prikazati jer je varijansa drugog uzorka (imenilac) nula, tako da se ne može izračunati pomenuti odnos. Ukoliko veličinu drugog uzorka povećate, svi dobijeni odnosi iznosiće 0, jer ne postoji varijabilnost u prvom uzorku. Da bi logika odnosa varijansi bila jasnija, ovoga puta nećemo postepeno povećavati veličinu uzorka, već ćemo odmah odabrati vrednost N = 500 na obe liste. Distribucija odnosa velikog broja parova varijansi, izračunatih na velikim uzorcima, simetrična je u odnosu na vrednost 1. To znači da smo nasumičnim izborom najčešće formirali uzorke čije su varijanse identične ili veoma slične. Međutim, u određenom broju slučajeva taj odnos je manji ili veći od 1, što ukazuje na to da se iz iste populacije, potpuno slučajno, mogu uzeti uzorci drugačijih varijansi. Kao i u prethodnim primerima, prikazana distribucija pruža informacije o verovatnoćama takvih ishoda. Na primer, praktično je nemoguće da dva uzorka veličine 500, uzeta iz iste populacije, imaju varijanse koje su više od 1,5 puta veće ili manje jedna od druge. Ovo je suština statističkog testiranja, o čemu će biti više reči u nastavku udžbenika. Distribucija koju prikazujemo zapravo je test verovatnoće ili procena slučajnosti događaja. Na primer, ukoliko varijanse dva uzorka veličine 500 u našem istraživanju imaju odnos koji je veći od dva, zaključićemo da to verovatno nije posledica slučajnosti, već stvarne razlike među varijansama uzoraka. Drugim rečima, zaključićemo da ta dva uzorka ne potiču iz iste, već iz različitih populacija. Ukoliko su, pak, uzorci mali, npr. N = 5 i N = 10, primećujemo da je distribucija odnosa varijansi izrazito pozitivno zakrivljena i da je veća verovatnoća da taj odnos bude udaljen od jedinice nego u slučaju velikih uzoraka. Tada ćemo i odnose s₁²/s₂² koji su veći od dva, smatrati mogućim ili dovoljno verovatnim, jer su mogli da se dese potpuno slučajno, čak i ako dva uzorka potiču iz iste populacije.

Većina Fišerovih radova bila je zasićena složenim formulama i opisima matematičkih osnova statističkih fenomena. To je često rezultiralo tekstovima koji nisu bili prijemčivi i dovoljno razumljivi za nematematičare. Stoga se velike zasluge za popularizaciju i ilustraciju praktičnog značaja distribucije odnosa dve varijanse, pripisuju američkom matematičaru Džordžu Snedekoru, osnivaču prve katedre za statistiku u SAD na Univerzitetu u Ajovi. Svestan da studenti sa skromnijim matematičkim znanjem neće biti oduševljeni formulama na kojima je insistirao Fišer, on je, polazeći od Fišerove poznate knjige Statistical Methods for Research Workers, opisao njegove ideje i otkrića na jasniji, precizniji i detaljniji način. Objavio ih je 1937. godine u jednom od najcitiranijih statističkih udžbenika pod nazivom Statistical Methods (Applied to Experiments in Agriculture and Biology). U svom udžbeniku Snedekor je odnos varijansi dva uzorka nazvao F odnosom u čast Ronalda Fišera. Teorijska distribucija koju upravo opisujemo, od tada je poznata kao F, Fišerova, Snedekorova ili Fišer–Snedekorova. Funkcija gustine verovatnoće ove distribucije je složena i prevazilazi ambicije ovog udžbenika, ali se F vrednosti mogu jednostavno izraziti kao odnos dvaju skaliranih hi-kvadrat vrednosti kojima se, kao što smo ranije pokazali, opisuje distribucija varijansi uzoraka uzetih iz standardne normalne distribucije. Tako je:

`F(n,m)=(chi_n^2//n)/(chi_m^2//m)`

gde su n i m brojevi kvadriranih z skorova, nasumično uzorkovanih iz normalne distribucije, na osnovu kojih su izračunate vrednosti χ_n² i χ_m². Ukoliko sa liste distribucija odaberete Fišer–Snedekorova F, na desnom grafikonu biće prikazana distribucija velikog broja F odnosa, izračunatih pomoću dva skupa nasumično odabranih z vrednosti. Veličine skupova možete da postavite izborom opcija sa listi Veličina 1. uzorka i Veličina 2. uzorka. I u ovom slučaju može se uočiti da teorijska (F) distribucija ima isti oblik kao odgovarajuća empirijska distribucija (odnosa varijansi), ali za veličine uzoraka N - 1. Odaberite vrednosti N = 2 i N = 2 i upotrebite taster Analogna distribucija da biste lakše obavili poređenje. Pošto su u pitanju odnosi, raspodele će imati jednake raspone na x-osi, za razliku od primera sa hi-kvadrat distribucijom i distribucijom varijansi uzoraka.

Zbog čega F distribucija za veličine uzoraka N = 2 i N = 100 nema isti oblik kao ona za veličine uzoraka N = 100 i N = 2?

Hi-kvadrat distribucija je distribucija kvadriranih z vrednosti, što znači da ona nema negativnu stranu. Osim toga, operacija kvadriranja predstavlja nelinearnu transformaciju kojom se veće vrednosti više povećavaju od manjih. Stoga je desni kraj distribucije „razvučen“ u odnosu na raspon kvadriranih središnjih vrednosti normalne distribucije.

U prvom primeru veća je verovatnoća da varijansa u brojiocu bude bliska nuli, jer je uzorak manji. U drugom je situacija obrnuta, tako da je prosek distribucije pomeren udesno, ka većim vrednostima.