3.5. Hi-kvadrat test
U prethodnim odeljcima opisali smo statističke metode kojima se testira značajnost razlika između dve grupe ispitanika na varijablama ordinalnog ili višeg nivoa merenja. Međutim, istraživači često imaju potrebu da porede grupe na kvalitativnim (nominalnim) varijablama ili ordinalnim varijablama sa malim brojem podeoka. U ovakvim situacijama nije prikladna primena parametrijskih testova, pa čak ni primena ranije opisanih neparametrijskih testova, npr. zbog prevelikog broja spojenih rangova. U ovom odeljku opisaćemo
Pirsonov χ2 (hi-kvadrat) test kao tipičnu neparametrijsku tehniku kojom se vrši poređenje grupa kada je zavisna varijabla po prirodi kategorijalna. U takvim situacijama je prikladnije, a često i jedino moguće, samo prebrojati slučajeve u okviru svake od kategorija i potom analizirati distribuciju dobijenih opaženih učestalosti. Zamislimo
istraživanje u kome je učestvovalo 60 studenata sa Filozofskog fakulteta (FF) i isto toliko sa Prirodno-matematičkog (PMF). Cilj nam je da uporedimo njihovo zadovoljstvo uslugama studentskog restorana izmereno trostepenom skalom: 1 – nezadovoljan/na, 2 – delimično zadovoljan/na i 3 – veoma zadovoljan/na. Ukrštanjem varijabli
Usluga i
Fakultet nastaje šest grupa studenata čije su učestalosti prikazane u tabeli kontingencije. Zadebljani brojevi označavaju
empirijske ili
opažene frekvencije, tj. veličinu svake od šest grupa koje smo „zatekli“ u uzorku. Ove frekvencije obično se označavaju simbolom f
o. Isti podaci prikazani su i grafički uz pomoć
mehurastog dijagrama (engl.
bubble chart). Prečnik krugova označava relativnu veličinu grupe nastale ukrštanjem podeoka na x-osi (1, 2, 3) i y-osi (FF, PMF). Očigledno je da bi svi do sada pomenuti statistički testovi ukazali da ne postoje značajne razlike među grupama, jer su distribucije odgovora studenata FF i PMF identične. U obe grupe je broj nezadovoljnih, srednje zadovoljnih i veoma zadovoljnih isti, što rezultira i jednakim vrednostima svih mera centralne tendencije. Aritmetičke sredine i medijane bi u ovom primeru iznosile (20 · 1 + 20 · 2 + 20 · 3) : 60 = 2.
Za razliku od ranije pomenutih metoda kojima se porede proseci ili rangovi, χ2 test daje odgovor na pitanje da li se dobijene frekvencije razlikuju od onih koje bi mogle da se očekuju potpuno slučajno, u skladu sa (uslovnom) verovatnoćom svakog ishoda. Ovu logiku detaljnije smo opisali u odeljku 2.5.1. Na primer, ukoliko je u istraživanju učestvovalo 60 studenata FF, a ukupno je 40 studenata nezadovoljno uslugom restorana, u ćeliji FF-1 se očekuje (60 : 120) · (40 : 120) ili približno 0,17, odnosno 17% od 120 studenata, koliko ih je učestvovalo u anketi. Izraženo apsolutnim brojevima, to je upravo onoliko studenata koliko smo i opazili – (60 : 120) · (40 : 120) · 120 = 20. Drugim rečima, opažene frekvencije uopšte se ne razlikuju od teorijskih, odnosno očekivanih. Teorijske frekvencije označavaju se simbolom ft a u ćelijama tabele prikazane su u zagradama. Dakle, u skladu sa opisanom logikom uslovnih verovatnoća, očekivane frekvencije za svaku od ćelija tabele računaju se tako što se proizvod marginalnih frekvencija, odnosno suma odgovarajućeg reda i kolone, podeli veličinom uzorka:
`f_t=(Sigmar*Sigmak)/N`
Nakon toga vrednost χ2 testa računa se kao suma odstupanja opaženih od očekivanih frekvencija u svakoj ćeliji prema formuli:
`chi^2=Sigma(f_o-f_t)^2/f_t`
Značajnost, tj. p nivo dobijene χ2 vrednosti, određuje se na osnovu teorijske distribucije opisane u odeljku 2.7.2. Pošto u našem primeru χ2 iznosi 0, zaključujemo da ne postoji statistički značajna razlika u zadovoljstvu studenata različitih fakulteta.
Sa padajuće liste odaberite primer Usluga x fakultet 2. Na prvi pogled, mehurasti dijagram ukazuje na to da se znatno više studenata FF izjasnilo da je zadovoljno uslugama studentskog restorana u poređenju sa studentima PMF. Međutim, uvidom u vrednosti date u tabeli kontingencije, uočavamo da su to upravo one frekvencije koje bismo mogli i da očekujemo. S obzirom na to da je u uzorku bilo više studenata FF nego PMF, ali i da se veći broj studenata oba fakulteta izjasnio pozitivno o uslugama restorana, upravo u ćeliji FF-3 očekuje se najveća frekvencija, tačnije 40 od 105 studenata. Najmanje studenata je trebalo očekivati u kategoriji PMF-1, zato što je u uzorku bilo manje studenata PMF i nezadovoljnih studenata oba fakulteta. Upravo takvo stanje smo opazili. Stoga i u ovom primeru, vrednost χ2 testa sugeriše da ne postoje statistički značajne razlike među grupama, odnosno distribucijama odgovora studenata FF i PMF. Proporcija 10 od 70 studenata FF u koloni 1, jednaka je proporciji 5 od 35 studenata PMF u istoj koloni.
Pokušajmo sada da simuliramo raspodele koje bi ukazale da među grupama postoje statistički značajne razlike. Veličinu mehura na grafikonu možete da menjate tako što ga kliknete, držite pritisnut taster miša i pomerate pokazivač miša nagore ili nadole. Smanjite opaženu frekvenciju ćelije FF-3 na 10, a opaženu frekvenciju ćelije FF-1 povećajte na 40. Ukupan broj studenata u uzorku ostao je isti, ali smo distribuciju odgovora studenata FF „zarotirali“ po vertikali i tako promenili sume kolona koje govore o učestalosti različitih ocena usluge u ukupnom uzorku studenata. Ova promena uticala je na vrednosti ft, a time i na sumu razlika opaženih i teorijskih frekvencija. Ćelije u kojima su vrednosti fo veće od ft obojene su različitim nijansama zelene boje, a ćelije u kojima je fo manje od ft, različitim nijansama crvene. Obratite pažnju na činjenicu da je umanjivanje vrednosti fo u ćeliji FF-3 uticalo na očekivanu vrednost ft u toj ćeliji, ali i na vrednost ft u ćeliji ispod. Na osnovu ovakve distribucije odgovora, zaključujemo da se više studenata FF izjasnilo negativnije u odnosu na ono što bi se očekivalo potpuno slučajno, dok se više studenata PMF izjasnilo pozitivnije u odnosu na ono što bi sugerisale uslovne verovatnoće ćelije PMF-3. Teorijske frekvencije u srednjoj koloni tabele kontingencije ostale su potpuno iste, jer ovom intervencijom nismo izmenili marginalne sume redova, niti marginalnu sumu srednje kolone. Trenutno stanje ukazuje na to da postoji statistički značajna razlika u stavu između studenata FF i PMF, tj. da studenti PMF značajno pozitivnije ocenjuju usluge restorana. U terminima razlika fo i ft, ćelije FF-1 i PMF-3 sadrže znatno više studenata od onoga što bi se moglo očekivati slučajno, tj. u situaciji kada razlika u stavovima ne bi postojala. Analogno tome, u grupama FF-3 i PMF-1 opazili smo manje studenata nego što bi se to očekivalo na osnovu proste slučajnosti, tj. u situaciji da je tačna nulta hipoteza o nepostojanju razlike u stavu studenata FF i PMF.
U odeljku 2.7.2. pokazali smo da oblik χ2 distribucije, pa tako i granične vrednosti χ2 testa za odgovarajuće nivoe značajnosti, zavise od broja stepeni slobode. Za razliku od t-testa, broj stepeni slobode kod Pirsonovog χ2 testa ne računa se na osnovu veličine uzorka, već na osnovu veličine kontingencijske tabele. Razlog leži u činjenici da podaci koje obrađujemo χ2 testom nisu pojedinačna merenja, već frekvencije osnovnih i marginalnih ćelija. Rekli smo da stepeni slobode označavaju broj nezavisnih (slobodnih) rezultata, odnosno ukupan broj vrednosti na osnovu kojih se računa neki pokazatelj, umanjen za broj ograničavajućih faktora. U slučaju standardne devijacije, broj tih vrednosti je N, a broj ograničavajućih faktora je 1, jer u formuli koristimo samo M kao procenu parametra populacije µ. U slučaju χ2 testa, distribucije suma frekvencija po redovima i kolonama su neka vrsta „standardnih devijacija“, dok je ograničavajući faktor za svaku varijablu donja desna ćelija (ukupan broj ispitanika) jer sume suma redova, odnosno sume suma kolona, moraju da budu jednake vrednosti ove ćelije. To znači da samo r - 1 suma redova i k - 1 suma kolona može potpuno nezavisno da menja svoju vrednost. Suma poslednjeg reda i suma poslednje kolone moraju da dobiju onu vrednost koja će na kraju dati ukupnu sumu frekvencija. Pošto kontingencijske tabele nastaju ukrštanjem vrednosti dveju kategorijalnih varijabli, samo (r - 1) · (k - 1) ćelija može nezavisno da menja svoju vrednost. Tako dolazimo do opšte formule za računanje broja stepeni slobode kod χ2 testa:
`df=(r-1)(k-1)`
gde je r broj redova, a k broj kolona tabele kontingencije.
Odaberite opciju Grickanje x pol sa liste. U ovom primeru želimo da proverimo da li je grickanje noktiju (DA / NE) učestalije kod dečaka (M) ili kod devojčica (Ž). Na uzorku veličine 36 i uz prikazanu distribuciju frekvencija po grupama, zaključak je da razlika nije statistički značajna, iako nešto veći broj devojčica gricka nokte. Rezultate analize prikazujemo u formi:
χ2 (1, 36) = 1,68; p = 0,19
pri čemu se u zagradama navode broj stepeni slobode i ukupna veličina uzorka. Prikazana tabela kontingencije ima samo jedan stepen slobode, jer samo jedna ćelija može da promeni svoju vrednost nezavisno od drugih, a da pri tome marginalne frekvencije i ukupna suma frekvencija ostanu iste. Drugim rečima, ako su nam poznate marginalne frekvencije, dovoljno je da znamo samo učestalost u jednoj od ćelija da bismo izračunali frekvencije svih preostalih ćelija. Ukoliko se vratite na primer Usluga x fakultet 1, primetićete da je broj stepeni slobode 2, što znači da možete nasumično da promenite vrednosti dveju ćelija, a sve ostale frekvencije ćete morati da „prilagodite“ njima kako bi se dobile iste distribucije marginalnih frekvencija. U slučaju tabele 3 x 3, broj nezavisnih ćelija je 4, u slučaju tabele 3 x 5 je 8 i tako dalje. Prisetite se da, za razliku od t-testa, sa povećanjem broja stepeni slobode rastu i granične vrednosti χ2 testa koje se smatraju statističkim značajnim. To je i logično, jer se u tabelama kontingencije većih dimenzija očekuju i veće vrednosti suma razlika opaženih i teorijskih frekvencija.
3.5.1. Hi-kvadrat kao test nezavisnosti
Vratimo se ponovo na
primer sa stavovima studenata prema uslugama restorana. Odaberite opciju
Usluga x fakultet 3 sa liste. Simetrične distribucije odgovora po grupama ukazuju da studenti FF imaju polarizovane stavove i da je jednak broj onih koji su veoma nezadovoljni i onih koji su izrazito zadovoljni. Sa druge strane, studenti PMF imaju većinom neutralan stav. To znači da su proseci grupa, ali i njihove sume rangova, jednaki. Stoga ni t-test ni Men–Vitnijev test ne bi ukazali na postojanje statistički značajne razlike. Ipak, razlika u distribucijama odgovora očigledno postoji. Upravo zato bi χ
2 test, ali i Kolmogorov–Smirnovljev test koji mu je po logici veoma sličan, ukazali na značajnu razliku
raspodela odgovora studenata FF i PMF. Pitanje testiranja razlika među centrima i razlika među oblicima distribucija pominjali smo i ranije, a ovo je prilika da podsetimo čitaoca i na činjenicu da u postupku statističkog zaključivanja ne treba izjednačavati tačnost i smislenost. Naime, t-test i Men(Vitnijev test bi
tačno pokazali da se proseci i medijane odgovora studenata PMF i FF ne razlikuju, jer oni u obe grupe imaju vrednost 2. Sa druge strane, χ
2 test bi ukazao da je to
besmisleno, jer se
struktura stavova studenata dva fakulteta značajno razlikuje. Drugim rečima, iako se
prosek stavova studenata ne razlikuje, postoji značajna razlika između
tipičnih stavova. Očigledno je da distribucije odgovora studenata FF i PMF ne potiču iz iste populacije odgovora. U ovom slučaju, opravdano je izračunati aritmetičku sredinu ili medijanu ordinalne varijable, ali je potpuno besmisleno koristiti je za izvođenje zaključaka i poređenje grupa.
Bitna prednost χ2 testa u odnosu na ranije pomenute testove kojima se porede grupe merenja, jeste mogućnost da se primeni i u situacijama kada postoji više od dve grupe ispitanika (merenja) i kada su varijable nominalnog nivoa. Odaberite primer Operater x fakultet. U analizu uključujemo i treću grupu studenata sa Fakulteta tehničkih nauka, a varijablu koja se ticala stava o zadovoljstvu uslugama studentskog restorana, menjamo pitanjem o nazivu mobilnog operatera čije usluge student koristi – A, B ili C. Studente, dakle, poredimo na kvalitativnom svojstvu za koje nije moguće izračunati ni prosek, ni medijanu. Vrednost χ2 testa iznosi 17,58 i ukazuje na postojanje razlika koje su značajne na nivou 0,01. Međutim, sam pojam razlike u kontekstu χ2 testa treba posmatrati drugačije nego u slučaju t-testa. Za početak, u našem primeru ne možemo da tvrdimo da se sve tri grupe međusobno razlikuju s obzirom na odabranog operatera mobilne telefonije. Grafikon pokazuje da su studenti FF i PMF međusobno sličniji i najčešće biraju operatera A, kao i da se razlikuju od studenata FTN, kod kojih je najzastupljeniji operater C. Pored toga, ne možemo da tvrdimo ni da se preferencije studenata tri fakulteta potpuno razlikuju, jer je, na primer, zastupljenost operatera B približno ista u svim grupama. Zbog svega toga χ2 test ne treba posmatrati kao tipičnu metodu za utvrđivanje statističke značajnosti razlika, već kao test nezavisnosti dve varijable. Ukoliko je njegova vrednost mala, distribucija opaženih frekvencija jednaka je, ili veoma slična, distribuciji koja bi se dobila da je raspored frekvencija po grupama potpuno nasumičan. Sa druge strane, značajan χ2 test ukazuje na određenu pravilnost u promenama na obe varijable, odnosno na međusobnu povezanost tj. korelaciju. U našem primeru, ovu povezanost možemo da uočimo na osnovu grafikona ali i na osnovu tabele kontingencije. Navešćemo nekoliko primera. Veća je verovatnoća da osoba koja studira na FTN koristi usluge operatera C. Ukoliko neki student koristi usluge operatera A, najveća je verovatnoća da studira na PMF. Ukoliko student koristi usluge operatera A, relativno je mala verovatnoća da studira na FTN. Kao i u slučaju drugih statističkih testova, svaki od ovih zaključaka nosi sa sobom veću ili manju verovatnoću greške, ali ipak ukazuje na određene pravilnosti u prikupljenim podacima i potencijalne relacije među varijablama.
U statistici se stepen povezanosti varijabli, radi lakše interpretacije, izražava pokazateljima čije se apsolutne vrednosti kreću u intervalu od 0 do 1. Vrednost 0 označava potpunu nezavisnost varijabli, a vrednost 1 njihovu potpunu povezanost, odnosno najveću moguću korelaciju. Najmanja vrednost χ2 testa koju je moguće dobiti iznosi 0 i ona upućuje na zaključak da nema povezanosti među varijablama. Međutim, njegova maksimalna vrednost zavisi od veličine uzorka i veličine tabele kontingencije. U tom smislu, χ2 nije prikladan za iskazivanje stepena povezanosti varijabli, pa se u te svrhe koriste različiti oblici njegovih standardizovanih vrednosti, transformisanih tako da se interval [0, +∞) pretvara u interval [0, 1]. Jedna od takvih standardizacija je Pirsonov koeficijent kontingencije C koji se izračunava prema sledećoj formuli:
`C=sqrt(chi^2/(chi^2+N))`
U našem poslednjem primeru vrednost C koeficijenta iznosi 0,26, što upućuje na blagu korelaciju studijske grupe i preferencija prema operaterima mobilne telefonije. Kao i većina statističkih testova, vrednosti koeficijenata korelacije imaju svoj p nivo. U slučaju koeficijenata koji se izvode iz χ2 testa, to je zapravo p nivo χ2 vrednosti, tako da ćemo u našem primeru reći da je povezanost varijabli statistički značajna na nivou 0,01. Koeficijent C pogodan je za iskazivanje stepena povezanosti dve varijable kada su tabele kontingencije veće, npr. ukoliko imaju više od pet redova i kolona. Koeficijent C ne može da dostigne jediničnu vrednost, ali joj se sve više približava kako se povećava tabela kontingencije (Cohen, 1988).
Većini čitalaca verovatno je poznata osnovna logika i princip korelacije. Mnogo puta ste čuli ili pročitali informacije o povezanosti različitih pojava, najčešće u formi tvrdnji da se sa porastom vrednosti jedne varijable, povećava ili smanjuje vrednost druge. Na primer, rizik od pojave srčanih oboljenja povezan je sa povećanjem telesne mase, potražnja za proizvodom povezana je sa njegovom cenom, uspeh u školi povezan je sa nekim osobinama učenika, i tako dalje. Tabele kontingencije su dobra prilika i povod da čitaocu ukažemo na nedovoljnu preciznost ovakvog shvatanja korelacije. Odaberite sa liste primer Uspeh x izostanci. Prikazan je odnos između broja neopravdanih izostanaka i školskog uspeha u grupi od 154 đaka. Prva varijabla može da ima vrednosti 5 (5 ili manje izostanaka), 20 (6–20 izostanaka) i 50 (21–50 izostanaka). Uspeh je izražen kategorijalno kao dobar (3), vrlo dobar (4) i odličan (5). Koeficijent C je značajan i pokazuje da postoji veza između uspeha i učestalosti izostajanja sa časova. Prostije rečeno, đaci koji češće izostaju sa časova, imaju lošiji uspeh. To ne znači da oni imaju lošiji uspeh zato što izostaju sa časova, niti da više izostaju sa časova zato što im je uspeh loš. To samo znači da između dve varijable postoji značajna korelacija, koja u ovom primeru iznosi 0,56. Na grafikonu se ta korelacija manifestuje kao veća veličina krugova, a u tabeli kontingencije kao veća razlika u korist opaženih frekvencija u ćelijama 50–3, 20–4 i 5–5. Navedeni parovi vrednosti dve varijable su očigledno povezani, jer sa porastom vrednosti jedne varijable, vrednosti druge opadaju.
Da bismo dodatno pojasnili logiku povezanosti varijabli, iskoristićemo primer Anksioznost x uspeh. Ovoga puta je sa uspehom đaka ukrštena procena stepena njihove anksioznosti od strane psihologa na skali od 1 (ispod proseka), preko 2 (prosečna), do 3 (natprosečna). Korelacija je ponovo značajna, ali se ne može reći da sa porastom vrednosti jedne varijable, opada ili raste vrednost druge. Naime, visok stepen anksioznosti đaka jeste povezan sa nešto lošijim uspehom, ali đaci čiji je stepen anksioznosti ispod proseka češće postižu lošiji uspeh od onih čija je anksioznost u granicama proseka. To znači da je odnos varijabli nelinearan, za razliku od onoga u prethodnom primeru. Dakle, povezanost dve pojave ne mora da implicira njihovu linearnu vezu u smislu zajedničkog porasta ili smanjenja vrednosti. Visok koeficijent korelacije zapravo ukazuje na to da se, sa povećanjem verovatnoće nekog ishoda na jednoj varijabli, povećava ili smanjuje verovatnoća nekog ishoda na drugoj. O ovome će biti više reči u narednom odeljku.
Ukoliko se χ2 testom utvrdi postojanje značajne povezanosti između dve varijable, trebalo bi objasniti koja su to konkretno odstupanja, odnosno koje su pojedinačne razlike opaženih i teorijskih frekvencija dovele do visoke vrednosti χ2. To se postiže uvidom u reziduale, odnosno razlike između vrednosti fo i ft za svaku ćeliju. Odaberite primer Operater x fakultet i prikažite reziduale izborom opcije koja se nalazi ispod tabele kontingencije. Sirovi reziduali nisu naročito informativni, jer zavise od frekvencija u konkretnoj ćeliji. Na primer, razlika od 5 ispitanika između fo i ft nema istu težinu i važnost kada je očekivana frekvencija 5 i kada je ona 100. U prvom slučaju, ta razlika je, u relativnom smislu, veća i važnija, jer je opaženo duplo više slučajeva nego što bi se to očekivalo na osnovu proste slučajnosti. Stoga je uobičajeno da se reziduali standardizuju, na primer računanjem Pirsonovih prilagođenih reziduala prema formuli:
`(f_o-f_t)/sqrt(f_t(1-(Sigmar)/N)(1-(Sigmak)/N))`
Dobijene vrednosti reziduala distribuiraju se približno normalno i mogu se interpretirati slično kao z vrednosti. U našem primeru, standardizovani reziduali prikazani su u zagradama i ukazuju da se najveća odstupanja javljaju u ćelijama FTN-A, FTN-C i PMF-A. Povezanost između vrste studija i izbora mobilnog operatera je statistički značajna, a sastoji se u tome što studenti FTN znatno češće biraju operatera C i znatno ređe operatera A, dok studenti PMF najčešće biraju operatera A. Obično se interpretiraju standardizovani reziduali koji su veći od 2 ili 3, ali treba imati na umu da je verovatnoća da se neki od tako velikih reziduala pojavi potpuno slučajno, veća ukoliko su tabele kontingencije veće (Agresti, 2002), odnosno ako se poredi veći broj grupa na varijabli koja ima više nivoa.
Odaberite primer Ispit x udžbenik 1 sa liste. Želimo da proverimo da li postoji veza između vrste udžbenika koji su studenti koristili (E – elektronski, K – klasičan) i prolaznosti na ispitu (1 – položio/la, 0 – nije položilo/la). Korelacija dve dihotomne varijable obično se izražava ϕ (Fi) koeficijentom koji se takođe može izračunati na osnovu χ2 vrednosti:
`phi=sqrt(chi^2/N)`
U našem primeru, razlike opaženih i teorijskih distribucija frekvencija ukazuju na postojanje blage korelacije koja nije statistički značajna. Iako se na osnovu gornje formule može zaključiti da vrednost ϕ koeficijenta nikada nije manja od nule, u nekim statističkim programima on može da dobije i negativnu vrednost. Razlog je primena alternativne formule, koju smo upotrebili i u našem primeru:
`phi=(ad+bc)/sqrt((a+b)(c+d)(a+c)(b+d))`
U gornjoj formuli vrednosti a i b su opažene frekvencije ćelija prvog reda, a c i d frekvencije u ćelijama drugog reda, posmatrano sleva na desno. U našem primeru, vrednosti a, b, c i d su 5, 8, 9 i 6. Pozitivna vrednost ϕ koeficijenta znači da su visoki pozitivni reziduali koncentrisani u ćelijama glavne dijagonale tabele kontingencije, tj. one koja ide od gornjeg levog ka donjem desnom uglu. Negativna korelacija ukazuje na visoke pozitivne reziduale u sporednoj dijagonali, tj. u ćelijama b i c. Istu vrednost koeficijenta korelacije, ali suprotnog smera, postići ćemo ako zamenimo mesta redovima ili kolonama u tabeli. Odaberite primer Ispit x udžbenik 2 i posmatrajte da li su se i na koji način promenile vrednosti opaženih frekvencija, χ2 testa i ϕ koeficijenta.
3.5.2. Pojam veličine efekta
Odaberite ponovo primer Ispit x udžbenik 2. Rezultati sugerišu da postoji blaga povezanost između vrste korišćene literature i uspešnosti na ispitu, jer među studentima koji su položili ispit, ima nešto više onih koji su ga spremali koristeći elektronski udžbenik. Ova razlika, odnosno povezanost, nije statistički značajna. Zamislimo sada da je uzorak studenata bio četiri puta veći, ali da je odnos među veličinama kategorija potpuno isti. Tabelu kontingencije i grafikon za ovaj primer možete da vidite ako odaberete opciju Ispit x udžbenik 3. U ovom primeru, kao i u prethodnom, oko 64% studenata koji su koristili elektronski udžbenik položilo je ispit, a približno isti procenat onih koji su koristili klasičan udžbenik nije. Međutim, ovoga puta vrednost χ2 testa je veća i postala je značajna na nivou 0,05. Ovaj primer ilustruje činjenicu da p nivo verovatnoće zavisi od dva faktora. Prvi je veličina uzorka a drugi je postojanje uočenog fenomena u populaciji. Dakle, ukoliko neki efekat zaista postoji u populaciji, vrlo je verovatno da ćemo uspeti da ga uočimo čak i na malim reprezentativnim uzorcima. Sa druge strane, kada prikupimo veoma veliki uzorak merenja, postoji rizik da neznatan efekat proglasimo statistički značajnim. U slučaju χ2 testa, upravo ϕ i C koeficijenti su način da izrazimo tzv. veličinu efekta i ublažimo uticaj veličine uzorka na odluku o nultoj hipotezi. U prethodna dva primera, vrednost ϕ koeficijenta je identična, iako p nivoi upućuju na potpuno različite zaključke. Uzimajući u obzir veličinu efekta, čak i u primeru Ispit x udžbenik 3, opravdano je doneti zaključak da povezanost, iako statistički značajna, nije i praktično značajna, odnosno nije statistički bitna, jer je veličina efekta relativno niska. Najčešće korišćene smernice za tumačenje statističke bitnosti, tj. veličine efekta dao je američki psiholog i statističar Džejkob Koen (Cohen, 1988) koji je predložio da se vrednosti oko 0,10 smatraju niskim, oko 0,30 srednjim, a oko 0,50 velikim efektom. Koen je veličinu efekta izrazio kao indeks označen slovom w, a u Tabeli 2 dat je pregled ekvivalentnih vrednosti C i ϕ koeficijenta za različite veličine tabele kontingencije prema Koenu. Oznaka V u prvom redu Tabele 2 je simbol korigovanog ϕ koeficijenta koji je predložio švedski statističar Harald Kramer kao korekciju za tabele veće od 2 x 2. Ovaj koeficijent korelacije je poznat kao Kramerovo V, a izračunava se prema formuli:
`V=sqrt(chi^2/(N(m-1)))`
gde je m manja vrednost od broja redova ili broja kolona. Tako, na primer, Kramerovo V koje iznosi 0,3, a izračunato je na tabeli dimenzija 2 x 4, upućuje na jak efekat uočenog fenomena, tj. razlike ili povezanosti.
Koen je u svojoj knjizi Statistical power analysis for the behavioral sciences (Cohen, 1988) opisao načine računanja veličine efekta i za druge popularne statističke testove. Tako se, na primer, kao indeks veličine efekta u slučaju primene t-testa često koristi Koenovo d:
`d=(M_1-M_2)/s`
gde je s zajednička standardna devijacija oba uzorka, izračunata prema formuli:
`s=sqrt((Sigma(x_1-M_1)^2+Sigma(x_2-M_2)^2)/(N_1+N_2-2))`
Koen preporučuje da se kao referentni indeksi d koji upućuju na mali, srednji i veliki efekat uočene razlike koriste vrednosti 0,2, 0,5 i 0,8. Priručnik za publikovanje Američke psihološke asocijacije jasno sugeriše istraživačima da, kad god je to moguće, uz p nivoe navode i odgovarajuće pokazatelje veličine efekta, ali i intervale poverenja izračunatih statističkih testova (APA, 2010).
Tabela 2. Ekvivalente vrednosti C i ϕ koeficijenata za indeks efekta w (Cohen, 1988, str. 222)
w | C | ϕ (V) |
df = 1 | df = 2 | df = 3 | df = 4 | df = 5 |
0,10 | 0,100 | 0,10 | 0,071 | 0,058 | 0,050 | 0,045 |
0,20 | 0,196 | 0,20 | 0,141 | 0,115 | 0,100 | 0,089 |
0,30 | 0,287 | 0,30 | 0,212 | 0,173 | 0,150 | 0,134 |
0,40 | 0,371 | 0,40 | 0,283 | 0,231 | 0,200 | 0,179 |
0,50 | 0,447 | 0,50 | 0,354 | 0,289 | 0,250 | 0,224 |
0,60 | 0,514 | 0,60 | 0,424 | 0,346 | 0,300 | 0,268 |
0,70 | 0,573 | 0,70 | 0,495 | 0,404 | 0,350 | 0,313 |
0,80 | 0,625 | 0,80 | 0,566 | 0,462 | 0,400 | 0,358 |
0,90 | 0,669 | 0,90 | 0,636 | 0,520 | 0,450 | 0,402 |
3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija)
U prethodnom odeljku opisali smo primere upotrebe hi-kvadrat testa za poređenje dve ili više grupa merenja i utvrđivanje stepena povezanosti dve varijable. Sličan postupak primenjuje se i kada postoji samo jedna distribucija frekvencija. Tada govorimo o χ
2 testu za jedan uzorak ili
testu stepena poklapanja distribucija (engl.
goodness-of-fit). Zamislimo da je cilj istraživanja da se proveri postojanje
razlike u zastupljenosti (broju) nastavnika i nastavnica u nekoliko srednjih škola. Binomna distribucija opaženih frekvencija prikazana je sa leve strane
uporednog stubičastog dijagrama i pokazuje da u školama radi nešto više nastavnica (45) nego nastavnika (31). Odgovor na postavljeno pitanje dobićemo ako analiziramo stepen poklapanja dobijene empirijske distribucije sa pretpostavljenom (teorijskom) distribucijom. Kada ne bi postojala razlika u zastupljenosti polova, očekivali bismo da je verovatnoća svakog ishoda 0,5, tj. da je jedna polovina zaposlenih muškog, a druga polovina ženskog pola. U analiziranim školama zaposleno je 76 nastavnika/ca, tako da su očekivane učestalosti polova 38 i 38. Kada vrednosti f
o i f
t uvrstimo u formulu za računanje χ
2 testa, dobijamo rezultat koji pokazuje da se distribucije u velikoj meri preklapaju, odnosno da njihovo međusobno odstupanje nije toliko da bi se mogle smatrati statistički značajno različitim:
χ2 (1, 76) = 2,58; p = 0,11
U ovom slučaju, broj stepeni slobode je broj kategorija umanjen za jedan, jer tabela ima samo jednu kolonu opaženih frekvencija. Istu polaznu hipotezu možemo da proverimo i na uzorku zaposlenih u nekoliko vrtića, izborom opcije Vaspitači/ce. Od 86 zaposlenih vaspitačice čine većinu od 68. Kada opažene frekvencije uporedimo sa teorijskim koje iznose 86 : 2 = 43, dolazimo do zaključka da se dve distribucije ne poklapaju, da su statistički značajno različite, odnosno da se vaspitačkim poslom u vrtićima bavi značajno veći broj žena.
Princip koji smo opisali na dva primera dihotomnih varijabli, može da se primeni na bilo koju distribuciju opaženih frekvencija. Pri tome se može koristiti bilo koja distribucija teorijskih frekvencija. Jedini uslov je da suma očekivanih frekvencija bude jednaka veličini uzorka, odnosno sumi opaženih frekvencija. Primer Preferencije 1 prikazuje distribuciju ocena usluga studentskog restorana na trostepenoj skali. Dobijena vrednost χ2 testa ukazuje na to da se distribucija opaženih frekvencija odgovora studenata značajno razlikuje od uniformne, odnosno od pretpostavljene situacije u kojoj bi podjednak broj studenata bio nezadovoljan, uglavnom zadovoljan i veoma zadovoljan uslugama. Zbog činjenice da broj 115 nije deljiv sa 3, vrednosti ćelija kolone ft nisu iste. Međutim, naša pretpostavka ne mora da bude takva. Potpuno je legitimno da „imamo teoriju“, tj. da očekujemo da većina studenata bude veoma zadovoljna uslugama. U tom slučaju, opaženu distribuciju odgovora poredimo sa drugačijim očekivanim stanjem. Recimo da težimo tome da najmanje 3/4, odnosno oko 75% studenata bude veoma zadovoljno uslugom, a manje od 5% nezadovoljno. Stepen poklapanja dobijenih rezultata sa ovakvom očekivanom raspodelom odgovora prikazan je u primeru Preferencije 2. Analiza ukazuje na to da se opažena distribucija stavova uklapa u distribuciju koju želimo da postignemo, jer razlika među njima nije statistički značajna. Redosled odgovora na grafikonu i u tabeli je namerno izmenjen, kako bismo ukazali na činjenicu da se u slučaju primene χ2 testa varijable tretiraju kao nominalne, čak i ako su one po prirodi višeg nivoa merenja. Za razliku od Kolmogorov–Smirnovljevog testa, koji se bazira na analizi kumulativnih frekvencija i podrazumeva da rezultati mogu da se rangiraju, kod χ2 testa je raspored kategorija u tabeli potpuno nebitan, jer se uzima u obzir svaka pojedinačna razlika između fo i ft.
U primeru Kockica 1 proverićemo ispravnost šestostrane kockice za igru. Leva distribucija ukazuje na potencijalno sumnjiv rezultat, jer je u čak 42 od 180 bacanja dobijena petica, duplo češće nego jedinica. Međutim, kada se opažena distribucija uporedi sa uniformnom teorijskom distribucijom koja se očekuje zato što je verovatnoća svakog od šest mogućih ishoda jednaka, zaključujemo da se opažene i očekivane verovatnoće, prikazane sa leve i desne strane uporednog stubičastog dijagrama, ne razlikuju statistički značajno jer p nivo iznosi 0,09. To znači da su uočena odstupanja mogla da se dogode potpuno slučajno, čak i kod sasvim ispravne kockice. Primer Kockica 2, međutim, upućuje na atipičnu distribuciju i potencijalni problem ili grešku u kockici. Broj 6 je očigledno dobijan mnogo češće nego što bi se očekivalo na osnovu zakona verovatnoće. Sa druge strane, veliko odstupanje uočljivo je i kod broja 1 koji je dobijan mnogo ređe. Ovi rezultati ukazuju na potencijalnu povezanost pojedinačnih ishoda ili ispitanika, koju bi uvek trebalo detaljnije obrazložiti prilikom interpretacije rezultata χ2 testa. U slučaju primera sa kockicom, obrazloženje je veoma jednostavno. Naime, povećanje verovatnoće ishoda 6 nije podjednako uticalo na umanjivanje verovatnoće svih preostalih ishoda, već najviše na verovatnoću ishoda 1, jer se brojevi 6 i 1 nalaze na naspramnim stranama kockice, tako da su njihove verovatnoće obrnuto proporcionalne. Zbog ovakve zavisnosti ishoda, suma razlika fo od ft je dodatno povećana, jer su odstupanja na neki način računata dva puta, jednom za ishod 6 i drugi put za ishod 1. Drugim rečima, vrednost χ2 testa je veća nego što bi to bio slučaj da su ova dva ishoda bila potpuno nezavisna.
Primer Visina 1 ilustruje postupak testiranja značajnosti odstupanja distribucije varijable izmerene na razmernom nivou od očekivane normalne distribucije. Vrednosti visine su najpre razvrstane u kategorije, odnosno razrede jednakih intervala. Distribucija opaženih frekvencija nije potpuno simetrična i u određenim delovima odstupa od očekivanog oblika Gausove krive. Analogne frekvencije razreda sa desne strane formirane su na osnovu aritmetičke sredine i standardne devijacije empirijskih rezultata. Za svaki interval vrednosti u centimetrima, izračunat je odgovarajući raspon standardizovanih z vrednosti, a potom i proporcija rezultata koje bi taj raspon trebalo da obuhvati. Na primer, ukoliko je M = 169,11, a s = 8,61, interval 168-171 obuhvata razliku između kumulativne frekvencije rezultata nakupljenih do 171 cm, umanjene za broj rezultata akumuliranih do vrednosti 167 cm. Izraženo u z vrednostima, to je interval od -0,24 do 0,22. Ovaj interval obuhvata približno 18,5% površine normalne krive ili, u našem primeru, 285 · 0,185 ≈ 53 ispitanika. Poređenjem ovako dobijenih očekivanih frekvencija sa onima koje su opažene u uzorku, zaključujemo da se dve distribucije ne razlikuju značajno i da empirijsku distribuciju visine možemo da tretiramo kao normalnu. Za razliku od toga, u primeru Visina 2 zaključujemo da se dobijena bimodalna distribucija visine statistički značajno razlikuje od pretpostavljene normalne distribucije. Vrednost standardne devijacije je relativno velika zbog bimodalnog oblika distribucije, tako da je i očekivana distribucija u većoj meri platikurtična. Zbog toga su očekivane frekvencije rezultata u najnižem i najvišem razredu više nego što bi se očekivalo kod tipične normalne distribucije. Naime, ovi razredi obuhvataju i očekivane frekvencije svih nižih, odnosno viših razreda, koji u distribuciji opaženih frekvencija nisu ni prikazani, jer ne sadrže nijedan rezultat.
3.5.4. Uslovi za primenu hi-kvadrat testa
Kao što smo rekli, χ2 test spada u grupu neparametrijskih tehnika, tako da su uslovi za njegovu primenu blaži i liberalniji u odnosu na parametrijske metode kao što je t-test. Ipak, postoji nekoliko zahteva koji moraju da budu ispunjeni da bi rezultati χ2 testa bili pouzdani. Već smo pomenuli da suma opaženih frekvencija uvek mora da bude jednaka sumi teorijskih. Osim toga, kategorije koje su formirane ukrštanjem varijabli moraju da budu iscrpne i međusobno isključujuće. To znači da svako merenje, odnosno svaki ispitanik, može i mora da se nađe u samo jednoj ćeliji. Treći uslov, koji smo takođe već pomenuli, jeste međusobna nezavisnost opservacija, odnosno merenja. Nijedno merenje ili ispitanik ne sme da bude povezano sa nekim drugim i/ili da utiče na ishod tog drugog merenja. Sledeći važan uslov je da suma opaženih frekvencija svakog reda i svake kolone bude veća od nule. U suprotnom će i teorijske frekvencije nekih ćelija biti nulte, pa vrednost χ2 neće moći da se izračuna zbog nule u imeniocu formule. Štaviše, poželjno je da očekivane frekvencije u ćelijama ne budu manje od 5. Kod tabela 2 x 2 to je apsolutni uslov, dok se kod većih tabela preporučuje da broj takvih slučajeva ne prelazi 20% ukupnog broja ćelija. Za tabele 2 x 2 takođe se preporučuje upotreba korekcije koja je poznata kao Jejtsov χ2 test ili χ2 sa korekcijom za kontinuiranost. Jejtsov χ2 računa se tako što se svaka razlika fo i ft umanji za 0,5:
`chi^2=Sigma(|f_o-f_t|-0,5)^2/f_t`
Na ovaj način ublažava se problem upotrebe χ2 vrednosti koje, kao što smo videli u odeljku 2.7.2., potiču iz kontinuirane teorijske distribucije, za analizu oblika diskretnih distribucija. Međutim, s obzirom na to da Jejtsova korekcija obično previše umanjuje vrednost χ2 testa i tako povećava verovatnoću greške tipa II, pojedini autori preporučuju da se u slučaju tabela kontingencije 2 x 2, umesto Jejtsovog χ2, koriste druge tehnike, kao što je npr. Fišerov egzaktni test, koji je dostupan u većini statističkih paketa (Howell, 2012).
Nije. Matrica se izmenila utoliko što ima više redova, jer je uzorak veći. Broj kolona ostao je isti, jer je i broj varijabli isti. Opet se ukrštaju dve varijable, ali sada obe imaju po tri nivoa, odnosno tri moguće vrednosti. Preuzmite podatke za različite primere da biste videli u čemu se ove matrice razlikuju.
Potrebno je smanjiti frekvencije ćelija jedne od dijagonala i povećati frekvencije u ćelijama one druge.
Dva moguća rešenja nameću se odmah, a to je da se vrednosti ćelija jedne od dijagonala postave na 40 a vrednosti svih ostalih ćelija na 5. Međutim, tačno je svako rešenje kod koga se ćelije sa visokim učestalostima ne nalaze u istom redu ili u istoj koloni, npr. FF-A, FTN-B i PMF-C. Ukupan broj rešenja je 6. Povezanost među varijablama je veća ako su vrednosti na jednoj od njih povezane samo sa određenim vrednostima na drugoj.
Vrednost koeficijenta C biće nula jer je vrednost χ2 testa nula.