Neparametrijske alternative t-testu za zavisne uzorke

3.9. Neparametrijske alternative t-testu za zavisne uzorke

Uslovi za primenu t-testa opisani u poglavlju 3.3.1. trebalo bi da budu ispunjeni i u slučaju nacrta za zavisne uzorke. Oni podrazumevaju intervalni ili racio nivo merenja, približno normalno distribuirane podatke, homogenost varijansi i odsustvo autlajera. Kao što smo pokazali u jednom od prethodnih primera, poslednji uslov se ne odnosi samo na značajna odstupanja pojedinih merenja od proseka, već i na moguća odstupanja smera i stepena promene između merenja. Kao i u slučaju t-testa za nezavisne uzorke, ukoliko je neki od pomenutih uslova ozbiljno prekršen, trebalo bi razmotriti primenu alternativnih neparametrijskih testova. Ako se rezultati merenja mogu rangirati, uobičajene alternative t-testu za uparene rezultate su Vilkoksonov test ekvivalentnih parova (engl. Wilcoxon’s matched-pairs test) i Test predznaka (engl. Sign test). Odaberite Primer 4 sa liste i opciju neparametrijski testovi. Rezultati prvog merenja su prikazani u redu A, a rezultati drugog u redu B. Postupak računanja Testa ekvivalentnih parova počinje izračunavanjem razlike među parovima rezultata dva merenja (B-A). Nakon toga se razlike rangiraju od najmanje do najveće po svojoj apsolutnoj vrednosti (R_B_-_A) a potom se svaki rang označi predznakom razlike (±R_B_-_A). Zbog ove poslednje operacije Vilkoksonov test je poznat i kao Test označenih rangova (engl. Signed-ranks test). U narednom koraku računaju se sume pozitivnih i negativnih rangova. Manja od dve apsolutne vrednosti dobijenih suma je vrednost T, čija se značajnost određuje na osnovu z vrednosti izračunate prema formuli:

`z=(T-(N(N+1))/4)/sqrt((N(N+1)(2N+1))/24)`

U brojiocu formule je procena vrednosti aritmetičke sredine razlika apsolutnih vrednosti suma pozitivnih i negativnih rangova. U skladu sa nultom hipotezom, očekuje se da ta razlika ne postoji, odnosno da su sume rangiranih promena u pozitivnom i negativnom smeru jednake. U tom slučaju, vrednost brojioca u gornjoj formuli je nula. Vrednost imenioca predstavlja očekivanu varijabilnost, tj. standardnu devijaciju razlika suma rangova u uzorku, pod pretpostavkom da ta razlika u populaciji ne postoji. U našem primeru, vrednosti T i t upućuju na isti zaključak, tj. da razlika nije statistički značajna.

Odaberite Primer 3 sa liste. Vilkoksonov test ukazuje na to da su razlike u ovom slučaju statistički značajne, jer je smer svih promena isti, a suma rangova negativnih razlika značajno je veća od sume pozitivnih, koja iznosi nula. Kao što se vidi u redu R_B_-_A, 11 od 12 razlika je potpuno isto, tako da deli prosek prvih 11 rangova – (1 + 2 + … + 11) : 11 = 6. Da podsetimo, na samom početku smo jednu promenu namerno načinili drugačijom da bi bilo moguće izračunati standardnu grešku razlike. Držeći pritisnut taster Ctrl, linearno menjajte rezultate svih ispitanika na trećem merenju naviše i naniže. Uočićete da se T i z vrednosti u većini pozicija uopšte ne menjaju zato što rang razlika ostaje isti. T je nula i kada se obrne smer promena jer je tada suma negativnih razlika nula. Postoje samo tri pozicije u kojima će T, odnosno z vrednosti biti nešto drugačije, ali je potrebna velika preciznost u njihovom pronalaženju. Prva je kada jednu razliku učinite nultom dok ostale razlike dele isti rang. T ostaje 0, ali z je nešto manje pošto se uzorak smanjio za jedan. Naime, uobičajeno je da se nulte razlike prilikom računanja Vilkoksonovog testa ne uzimaju u obzir. Druga pozicija je upravo obrnuta, kada su sve promene, osim jedne, nulte. Tada je veličina uzorka 1, a razlika više nije statistički značajna. To je i logično, jer nijedan statistički metod „ne bi dozvolio“ da se neki efekat proglasi značajnim na tako malom uzorku merenja. Na kraju, paralelne linije mogu da se postave i tako da postoji 1 negativna i 11 pozitivnih razlika, tako da vrednost T iznosi 1. Ona, naravno, nije dovoljno velika da bi razlika prestala da bude značajna.

Vratite se na treći primer i odaberite opciju t-test. Linearno pomerite sve linije tako da razlika između drugog i trećeg merenja (M₃ - M₂) bude približno -20 ms. Razlika je statistički značajna. Pomeranjem linije kojom je predstavljen najsporiji pilot, smanjite njegovu brzinu reakcije do vrednosti 850 ms na trećoj osi. Ovaj, očigledno aberantni rezultat, povećao je prosek i varijabilnost rezultata trećeg merenja a umanjio razliku između proseka drugog i trećeg merenja. Zbog toga je vrednost t-testa pala ispod granične vrednosti. Ukoliko rezultat istog ispitanika smanjujete i na kraju postavite na 350 ms, primetićete da t-test najpre raste, ali potom ponovo opada do vrednosti koja nije statistički značajna. Već smo rekli da ovoga puta nije reč samo o aberantnom rezultatu na trećem merenju već i o aberantnoj promeni rezultata. Sada prikažite Vilkoksonov T test i ponovite promene koje ste pravili, pomerajući rezultat istog ispitanika naviše do 850 ms, a potom naniže do 350 ms. Obratite pažnju na to da ovoga puta autlajer ne utiče na konačni zaključak da je razlika među merenjima statistički značajna. Kao što smo rekli, ova robusnost, odnosno otpornost na postojanje aberantnih rezultata, jedna je od osnovnih odlika neparametrijskih testova.

Test predznaka se takođe bazira na poređenju broja pozitivnih i negativnih promena između merenja, ali za razliku od Testa ekvivalentnih parova, ne uzima u obzir intenzitet razlika već samo njihov smer. To ga čini grubljim i manje snažnim. Odaberite Primer 5 sa liste i opciju t-test. Iako vrednost t-testa ukazuje na postojanje značajne razlike između prvog i drugog merenja, na osnovu grafikona mogu da se uoče dve (pod)grupe ispitanika – jedne u kojoj je zaista došlo do povećanja brzine reakcije, i druge u kojoj je prosečna brzina ostala približno ista. U tom kontekstu, zaključak donet primenom parametrijske tehnike ne bi bio validan. Kada odaberete opciju neparametrijski testovi, uočićete da i Vilkoksonov test ukazuje na postojanje razlike, ali značajne samo na nivou 0,05. Međutim, Test predznaka pokazuje da ova promena nije dovoljno dosledna da bi se smatrala statistički značajnom. Ovaj zaključak je donet na osnovu poređenja distribucije opaženih promena u oba smera, sa distribucijom koja bi se očekivala u skladu sa nultom hipotezom. Promene u pozitivnom smeru označene su sa D+, a promene u negativnom smeru sa D-. Kada razlike među merenjima ne bi bilo, očekivao bi se jednak broj promena u oba smera. U našem primeru, to znači da treba uporediti empirijski dobijene vrednosti 4 i 8 sa teorijskim frekvencijama 6 i 6. Poređenje može da se obavi na više načina. U većini statističkih programa, p nivo za Test predznaka određuje se kao verovatnoća ishoda u binomnoj distribuciji:

`p=(N!)/(x!(N-x)!)*0,5^x*0,5^(N-x)`

gde je N veličina uzorka, x ishod čiju verovatnoću računamo, a ! je oznaka za faktorijel broja. Vrednost 0,5 je teorijska verovatnoća pojedinačnih događaja, tj. verovatnoća promene u jednom ili u drugom smeru, pod pretpostavkom da je nulta hipoteza tačna. Kao i u slučaju Vilkoksonovog testa, parovi merenja kod kojih nije došlo do promene se ignorišu. Njihov broj je označen u tabeli simbolom D=. Dakle, Test predznaka pokazuje kolika je verovatnoća da slučajno dobijemo distribuciju promena koju smo opazili, ako pretpostavimo da razlike među merenjima u populaciji nema. U našem primeru, 0,39 označava verovatnoću da od 12 merenja, 4 ili manje bude u jednom smeru, odnosno da ih 8 ili više bude u drugom. Pošto ova vrednost nije manja od uobičajenih nivoa značajnosti, zaključujemo da bismo u približno 39 od 100 merenja mogli potpuno slučajno da dobijemo 4 i 8, čak i ako razlike nema, odnosno ako je broj promena u populaciji isti u oba smera. Treba naglasiti da je odabrani primer poslužio samo kao ilustracija razlika u ishodima primene različitih statističkih metoda. To ne znači da je neki od tih ishoda uvek poželjniji, prihvatljiviji ili tačniji. Grafikon koji je prikazan u petom primeru ne treba da posluži istraživaču samo kao osnov za odlučivanje o tome koju statističku tehniku treba da primeni, već i kao signal da postoji atipičan obrazac u prikupljenim podacima. U ovom primeru, trebalo bi da se utvrdi razlog zbog koga su se merenja, tj. ispitanici, grupisali u dva očigledna klastera.

Na koji način se još može proveriti značajnost odstupanja opaženih frekvencija 4 i 8 od očekivanih frekvencija 6 i 6?

Pomerajte linije na grafikonu da biste utvrdili koliki broj promena bi se smatrao statistički značajnim ako je veličina uzorka 12.

U prethodnim odeljcima opisali smo neparametrijske metode kojima se obrađuju rezultati merenja ordinalnog nivoa. Napomenuli smo da se one mogu primenjivati i na podacima koji potiču sa intervalnog ili razmernog nivoa, ali da tada opada preciznost i snaga testa, jer se rezultati pre obrade automatski pretvaraju u rangove. To znači da bismo dobili iste vrednosti Spirmanovog koeficijenta korelacije ili Men–Vitnijevog U testa kada bismo ih izračunali na podacima intervalnog ili racio nivoa, kao i na istim podacima koji su prethodno rangirani. Međutim, u slučaju Vilkoksonovog testa i Testa predznaka, ova logika nije uvek opravdana, što može da zbuni istraživača a često i da dovede do neadekvatnih rezultata. Prikažite Primer 3 i odaberite najpre prikaz t-testa, a potom i neparametrijskih testova. Sve metode upućuju na zaključak da je došlo do statistički značajne promene između drugog i trećeg merenja. Aritmetičke sredine se značajno razlikuju, kao i sume rangova pozitivnih i negativnih promena. Osim toga, sve promene su se desile u istom (negativnom) smeru, tako da je i Test predznaka statistički značajan. Sada zamislite da smo umesto brzine u milisekundama imali samo podatak o rangu ispitanika na oba merenja, odnosno informaciju o tome koji je od pilota brži od koga, ali ne i za koliko. Ovako izraženu brzinu možete da vidite ako držite pritisnut taster R na tastaturi dok su prikazani rezultati neparametrijskih testova. S obzirom na to da su rangovi ispitanika isti na prvom i na drugom merenju, a podatak o povećanju brzine u milisekundama više nije dostupan, oba neparametrijska testa sugerišu da razlike nema. Drugim rečima, ne može se reći da je došlo do promene, jer su nakon promene boje stimulusa brži piloti ostali brži a sporiji su ostali sporiji.

Odaberite Primer 6 i prikažite vrednosti neparametrijskih testova. Na osnovu p nivoa možete da uočite da Test ekvivalentnih parova ima veću snagu od Testa predznaka, što je posledica primene postupka koji uzima u obzir ne samo smer promene već i njen intenzitet. Ukoliko, pak, prikažete rangirane podatke pritiskanjem tastera R, uočićete da nijedan od testova nije statistički značajan. Sličnu nedoslednost ćete primetiti i kada postupak ponovite na petom primeru. Uočite da u ovom slučaju p nivo za Test predznaka koji je izračunat na rangovima iznosi 1, jer je potpuno sigurno da će u uzorku od 12 parova merenja, 6 ili manje, odnosno 6 ili više promena, biti istog smera. Na prvi pogled, ovaj i prethodni primeri mogu da deluju nelogično, jer su u pitanju metode namenjene upravo obradi podataka sa ordinalnog nivoa merenja. Međutim, potrebno je razumeti da u slučaju uparenih rezultata mora da postoji način da se izrazi apsolutna promena. Ako podatke oba merenja rangiramo nezavisno, ta promena više nije uočljiva. To bi bilo analogno primeni t-testa za nezavisne uzorke na podacima koji su prethodno transformisani u z skorove za svaku grupu posebno, čime bi aritmetičke sredine obe grupe dobile vrednost 0. Da bi primena opisanih neparametrijskih postupaka bila opravdana i na rangovima, rezultati oba merenja moraju da se rangiraju objedinjeno. U našem primeru, to bi značilo da se umesto dva niza u kojima se rangovi kreću od 1 do 12, formiraju nizovi u kojima se rangovi kreću od 1 do 24. Ovaj način rangiranja biće prikazan kada držite taster Q na tastaturi. Prikažite rezultate za primere 3 do 6 na ovaj način i obratite pažnju na to da se rezultati Testa predznaka ne menjaju u odnosu na podatke razmernog nivoa, dok su rezultati Vilkoksonovog testa neznatno drugačiji zbog manjeg raspona rezultata. Opisani primeri treba da posluže kao opomena da u slučaju primene neparametrijskih testova za zavisne uzorke, rangovi nemaju uvek isti smisao i značenje kao rangirani podaci intervalnog ili racio nivoa. Zbog toga većina autora preporučuje da se Vilkoksonov test koristi kao alternativa t-testu kada zavisna varijabla nije normalno distribuirana, ali je ipak izmerena na najmanje intervalnom nivou.

Da li bi se rezultati t-testa bitno izmenili kada bi se on primenio na podacima koji su pretvoreni u rangove na gore opisani način, odnosno objedinjeno za obe grupe ispitanika ili oba merenja?

Značajnost razlike između opaženih i očekivanih frekvencija mogla bi da se testira primenom χ² testa za jedan uzorak.

Da bi razlika bila značajna na nivou 0,05, broj promena u jednom smeru mora da bude barem 10.

Ne bi. Razlike između aritmetičkih sredina rangova bile bi takođe značajne.