T-test za zavisne uzorke

3.8. T-test za zavisne uzorke

U odeljku 3.3. opisali smo t-test za dva uzorka kao postupak kojim se procenjuje statistička značajnost razlike dve aritmetičke sredine. Istraživački nacrt u kome se ova metoda primenjuje podrazumeva postojanje barem jedne kvantitativne varijable kao zavisne i jedne dihotomne varijable kao nezavisne. Nakon što se merenja podele u dve grupe na osnovu nivoa nezavisne varijable, računa se vrednost t-testa za razliku aritmetičkih sredina zavisne varijable. Na primer, ako bi farmaceut želeo da testira efikasnost novog leka u terapiji hipertenzije, visina krvnog pritiska pacijenata bila bi zavisna varijabla a vrsta terapije nezavisna. Ukoliko je cilj da se proveri relativna efikasnost leka u odnosu na drugu vrstu terapije, jedna grupa ispitanika bi koristila novi, a druga postojeći lek. Ukoliko je, pak, potrebno proveriti apsolutnu efikasnost leka, eksperimentalna grupa bi koristila novi preparat, a kontrolna sredstvo sa potpuno neutralnim dejstvom ili tzv. placebo. Ovaj drugi nacrt je problematičan sa etičkog aspekta, jer ne samo da se grupa pacijenata dovodi u zabludu, već im se uskraćuje i pravo na terapiju u određenom vremenskom periodu. Osim toga, u oba nacrta postoji problem vezan za adekvatno ujednačavanje grupa po svim potencijalno važnim svojstvima, kao što su pol, uzrast, nivo holesterola u krvi, učestalost bavljenja fizičkim aktivnostima, vrsta posla i tako dalje. Stoga se u istraživanjima često koristi nacrt u kome se obe aritmetičke sredine računaju na istoj grupi ispitanika. U pomenutom primeru, to bi značilo da se najpre izračuna prosek vrednosti krvnog pritiska u grupi ispitanika, potom se svima daje terapija u određenom vremenskom periodu, a na kraju tog perioda zavisna varijabla se ponovo izmeri i izračuna njena aritmetička sredina. Ovaj postupak poznat je kao t-test za zavisne uzorke ili t-test za ponovljena merenja. Analogno tome, potpuniji naziv metode koja je opisana u poglavlju 3.3. bio bi t-test za nezavisne uzorke. Pri tome prideve „zavisni“ i „nezavisni“ koji se odnose na uzorke, ne treba mešati sa istim terminima koji se odnose na status varijable u eksperimentu. Termin „zavisni uzorci“ treba da ukaže na činjenicu da rezultati drugog merenja na neki način zavise od rezultata prvog, jer su u pitanju iste osobe, odnosno entiteti. Štaviše, u opisanom primeru ne postoje dva uzorka ispitanika, već dva uzorka merenja koja su obavljena na istoj grupi pacijenata. Samim tim, istraživač ne mora da ujednačava grupe kao u slučaju nezavisnih uzoraka, te je svaka uočena razlika, u relativnom smislu, značajnija i veća, jer se može pripisati samo promeni koja se desila između merenja, a ne drugim svojstvima ispitanika koja nisu (u dovoljnoj meri) ujednačena. Oba istraživačka nacrta imaju svoje prednosti i nedostatke vezane prvenstveno za problem ujednačavanja grupa kod nezavisnih uzoraka i problem osipanja ispitanika kod zavisnih. Stoga se kao optimalno rešenje preporučuje kombinacija ovih nacrta, odnosno ponovljena merenja na dve grupe ispitanika, eksperimentalnoj i kontrolnoj. Međutim, podatke prikupljene na ovaj način ne bi trebalo obrađivati primenom t-testa, već složenijim statističkim postupcima, kao što je npr. analiza varijanse za ponovljena merenja. Ovaj postupak izlazi van okvira tematike ovog udžbenika tako da ćemo se u daljem tekstu, za potrebe ilustracije postupka analize ponovljenih merenja, zadržati na t-testu za zavisne uzorke.

Zamislićemo istraživanje u kome je grupi od 12 pilota izmerena brzina reakcije na vizuelne stimuluse. Nakon toga svi piloti su prošli obuku na simulatoru letenja u trajanju od mesec dana. Po isteku obuke ponovo im je izmerena brzina reakcije a rezultati su prikazani uz pomoć dijagrama paralelnih koordinata. Na plavoj osi biće zabeleženi rezultati prvog merenja a na zelenoj rezultati drugog. Podeoci na osama označavaju brzinu izraženu u hiljaditim delovima sekunde. Odaberite Primer 1 sa liste da biste prikazali odnos rezultata prvog i drugog merenja. Svaka linija predstavlja jednog ispitanika. Aritmetička sredina prvog (plavog) merenja iznosi približno 693 ms. U dugom (zelenom) merenju, svaki pilot je reagovao za 50 ms brže nego u prvom, pa prosek brzine reakcije nakon obuke iznosi oko 643 ms. Na osnovu grafikona zaključujemo da se kod svih pilota desila identična linearna promena, tako da su standardna devijacija i standardna greška aritmetičke sredine u drugom merenju iste kao u prvom, a korelacija merenja je potpuna. Greška razlike aritmetičke sredine iznosi nula, jer je tvrdnja da se u grupi od 12 pilota brzina reakcije povećala za 50 ms potpuno tačna. Drugim rečima, ova tvrdnja se ne odnosi samo na ispitanike kao grupu već i na svakog pojedinačnog pilota u uzorku. Međutim, zbog toga nije moguće izračunati vrednost t-testa, jer se u imeniocu formule

`t=(M_1-M_2)/s_(M_1-M_2)`

nalazi vrednost 0, pa je t u stvari beskonačno. Stoga ćemo morati „veštački“ da povećamo grešku, odnosno da napravimo barem malu varijaciju u promenama koje su se desile na nivou pojedinačnih parova rezultata. Odaberite Primer 2 i uočite da je rezultat jednog od ispitanika na drugom merenju promenjen. Ova intervencija je neznatno umanjila razliku i korelaciju, ali je povećala grešku razlike, pa je sada moguće izračunati vrednost t-testa. Nivo verovatnoće p govori nam da postoji efekat jednomesečne obuke, odnosno da je razlika između prvog i drugog merenja statistički značajna na nivou 0,01. Na ovom primeru se vidi da je standardna greška razlike aritmetičkih sredina u suštini varijabilnost individualnih promena između prvog i drugog merenja. Ona nam govori koliko poverenja možemo da imamo u apsolutnu vrednost razlike, tj. u kojoj meri je ona dobar predstavnik promena koje su se desile na nivou svakog pojedinačnog ispitanika.

Zamislimo sada da su u drugoj fazi istraživanja izmenjene određene karakteristike stimulusa, npr. njihova boja. Nakon toga je ponovo izmerena brzina reakcije, a rezultati će biti prikazani na trećoj (narandžastoj) osi kada odaberete Primer 3. Očigledno je da promena boje stimulusa ima mnogo jači efekat na brzinu reakcije nego obuka na simulatoru letenja, što se vidi iz razlike M₃ - M₁ koja je duplo veća od M₂ - M₁ i iznosi oko -100 ms. Standardna greška od 0,25 ms jednako je mala kao i u prethodnom primeru, tako da je vrednost t-testa duplo veća. Međutim, čak i tako velika razlika ne mora nužno da bude značajna. Na primer, piloti su mogli potpuno drugačije da reaguju na promenu boje stimulusa zbog razlike u perceptivnim sposobnostima ili zbog određenih ličnih preferencija. Kao ilustraciju ćemo upotrebiti Primer 4. U ovom slučaju, apsolutna razlika je potpuno ista kao i u prethodnom ali je t-test nizak i nije statistički značajan. Razlog je velika greška razlike, koja je delom posledica veće varijabilnosti podataka u trećem merenju, a delom posledica visoke negativne korelacije drugog i trećeg merenja. Kada smo u prethodnom primeru tvrdili da se desila promena od oko -100 ms, to je bilo tačno za gotovo svakog pilota. Ista tvrdnja u ovom primeru ne važi praktično ni za jednog ispitanika. Pređite pokazivačem miša preko linija da biste jasnije videli tok promene brzine reakcije pojedinaca. Uočavate da se kod nekih ispitanika desila promena od skoro 200 ms u pozitivnom smeru, kod nekih preko 300 ms u negativnom, a kod nekih gotovo da nije ni došlo do promene. Ispitanici su, dakle, na različite načine reagovali na promenu boje stimulusa. Štaviše, piloti koji su bili brži u drugom merenju, sada su sporiji, a oni koji su bili sporiji, sada su brži. Upravo ta negativna korelacija drugog i trećeg merenja bila je presudna za drastično smanjenje vrednosti t-testa. Naime, u slučaju t-testa za zavisne uzorke, standardna greška razlike aritmetičkih sredina računa se prema nešto drugačijoj formuli:

`s_(M_1-M_2)=sqrt(s_(M_1)^2+s_(M_2)^2-2r_(12)s_(M_1)s_(M_2))`

Vrednost r₁₂ u formuli predstavlja korelaciju rezultata dva merenja. Obratite pažnju na to kako visina Pirsonovog koeficijenta korelacije utiče na vrednost standardne greške razlike aritmetičkih sredina. Ukoliko je r₁₂ = 0, formula se svodi na onu koja se koristi u slučaju t-testa za nezavisne uzorke:

`s_(M_1-M_2)=sqrt(s_(M_1)^2+s_(M_2)^2)`

Drugim rečima, ako nema povezanosti između ponovljenih merenja, tretiramo ih kao da potiču od dve različite grupe ispitanika, iako su u pitanju iste osobe. Ukoliko je, pak, korelacija visoka i pozitivna, vrednost greške postaje bitno manja, a vrednost t-testa veća. Na taj način se povećava verovatnoća dobijanja statistički značajne razlike, jer njenu validnost potvrđuje činjenica da su se promene desile na nivou (gotovo) svakog pojedinca. Na kraju, ukoliko je vrednost r₁₂ negativna, standardna greška postaje veća nego što bi bila da smo primenili formulu za nezavisne uzorke. Ako je nulta korelacija sugerisala da ispitanike možemo da tretiramo kao različite i nezavisne grupe, onda negativna korelacija pokazuje da oni zaista jesu bitno drugačiji, tj. da je promena koja postoji na nivou grupa, veoma loš reprezent promena koje su se desile kod svakog pojedinačnog ispitanika.

Odaberite ponovo Primer 3 sa liste. Najsporiji pilot u grupi prikazan je najvišom linijom na grafikonu. Njegovi rezultati odstupaju od proseka grupe za približno 1,8 standardnih devijacija, a od prvog narednog rezultata za manje od jedne standardne devijacije. Iako položaj linije može da sugeriše da je u pitanju autlajer, ni Tukijev ni Šoveneov kriterijum ne ukazuju na to da ovaj podatak treba odbaciti. Locirajte najbržeg pilota u grupi i pomeranjem linije kojom su predstavljeni njegovi rezultati, smanjite mu brzinu reakcije u trećem merenju na 350 ms. Pratite kako to utiče na pokazatelje u tabeli. Ova promena je povećala varijabilnost trećeg merenja, neznatno smanjila korelaciju i drastično umanjila vrednost t-testa, odnosno značajnost razlike. Sada polako vratite liniju na prethodnu poziciju, tj. na rezultat trećeg merenja od oko 460 ms, a potom je pomerite naviše, do vrednosti 600 ms. Ovoga puta vrednost t-testa je još više opala, iako je standardna devijacija trećeg merenja postala manja. Razlog je mnogo manja korelacija, jer za razliku od prethodne intervencije, u ovoj je promena između drugog i trećeg merenja dobila obrnuti smer. Ispitanik čije smo rezultate izmenili nije aberantan ni na jednom merenju, ali njegova promena postaje autlajer i može da utiče na validnost zaključka o razlici aritmetičkih sredina. Ukoliko nastavite da povećavate brzinu reakcije istog ispitanika do vrednosti 850 ms, uočićete da t-test više neće biti statistički značajan. U ovom slučaju, aberantnost rezultata trećeg merenja i aberantnost promene između merenja, doveli bi do zaključka koji se ne može smatrati validnim za većinu ispitanika. Detekcija autlajera je, naravno, najlakša ukoliko se podaci prikažu grafički, ali na prvu vrstu aberantnosti mogla bi da ukaže visoka vrednost s_M₃, a na drugu niska vrednost r₂₃. Obe ove promene uticale su na povećanje vrednosti s_M₃_-_M₂.

Prikažite Primer 4 i pokušajte da promenama rezultata samo jednog ispitanika dobijete statistički značajnu vrednost t-testa.

Postupak koji smo upravo opisali često se naziva i t-test za uparene rezultate (engl. paired samples ili matched-pairs). Štaviše, ovaj naziv je prikladniji od prethodno navedenih jer direktnije upućuje na osnovnu logiku metode. Naime, t-test za zavisne uzorke bazira se na poređenju u kojem postoji mogućnost i opravdanje da se svaki rezultat iz jedne grupe, poveže (upari) sa samo jednim odgovarajućim rezultatom iz druge grupe. U slučaju ponovljenih merenja, ta veza se ostvaruje na osnovu činjenice da dva rezultata potiču od istog ispitanika. Ali to ne mora uvek da bude slučaj. Kada bismo, na primer, želeli da uporedimo grupe dečaka i devojčica u uspešnosti na nekom testu, preporučeni postupak bio bi t-test za nezavisne uzorke. Pri tome se, kao što smo rekli, mora voditi računa o ujednačavanju grupa. Najprecizniji postupak ujednačavanja bilo bi uparivanje pojedinačnih ispitanika tako da se svako dete iz jedne grupe (dečak), poveže sa jednim detetom iz druge grupe (devojčicom) sa kojim je veoma slično po svim relevantnim svojstvima, izuzev po vrednostima nezavisne i zavisne varijable, tj. polu i uspehu na testu. Ovaj postupak je dugotrajan i složen, tako da se retko koristi u istraživanjima, ali omogućava primenu nacrta za zavisne uzorke. Prednost ovakvog pristupa nije samo u povećavanju teorijske verovatnoće da se uoči neki fenomen, već i u tome što se dobijaju preciznije informacije o promenama „unutar“ pojedinaca (engl. within-subjects) u odnosu na poređenje prosečnih rezultata ispitanika (engl. between-subjects). Kao što smo videli iz prethodnih primera, promena na nivou grupe ne mora tačno niti verno da odražava karakteristike promena na nivou pojedinaca. Računanjem koeficijenta korelacije dve grupe merenja veća važnost se pridaje upravo razlikama na individualnom nivou. U tome je ključna razlika između t-testa za nezavisne i t-testa za zavisne uzorke. Druga tehnika je prikladnija za poređenje grupa međusobno povezanih ispitanika, npr. braće i sestara, muževa i žena ili roditelja i njihove dece. Naravno, samo pod uslovom da su aritmetičke sredine zavisne varijable uporedive i da potiču sa istih mernih skala, npr. IQ skor, dioptrija, skor na standardizovanom upitniku ličnosti i sl. U takvim situacijama, podatak o razlici može da bude korisna dopuna koeficijentu korelacije u opisivanju nekog fenomena. Na primer, moguće je da postoji značajna povezanost stepena ekstravertnosti bračnih partnera, ali to ne mora da znači da postoji i razlika u prosečnim skorovima. U proseku, muževi mogu da budu jednako, manje ili više ekstravertni od žena, a da korelacija dve grupe merenja bude identična.

Da bismo ilustrovali logiku poređenja uparenih rezultata, ponovo ćemo upotrebiti primer Primer 3. Držite pritisnut taster Ctrl na tastaturi i pomerajte bilo koju liniju iz druge kolone da biste linearno promenili i sve ostale rezultate. Pokušajte da izjednačite vrednosti M₂ i M₃, koliko je to moguće, tako da dobijete vrednost t-testa koja nije statistički značajna. Obratite pažnju na činjenicu da su čak i veoma male promene od 1 do 3 ms statistički značajne, jer je korelacija merenja izuzetno visoka. Tek promena koja je veoma bliska nuli prestaje da bude statistički značajna. Pomerajte sve rezultate naviše i naniže i pratite kako to utiče na vrednosti t-testa, aritmetičkih sredina i koeficijenta korelacije. Sada zamenite rezultate najbržeg i najsporijeg pilota u trećem merenju pomeranjem njihovih linija naviše, odnosno naniže. Ove dve promene drastično su smanjile koeficijent korelacije, a zbog toga i statističku značajnost razlike, mada nisu bitno uticale na varijabilnost i prosek brzine u trećem merenju. Menjajte prosek trećeg merenja tako što ćete pomerati neku od linija držeći pritisnut taster Ctrl. Uočite da, zbog veoma niske korelacije dva merenja, razlika ovoga puta treba bude mnogo veća da bi bila statistički značajna. Pre nego što ste zamenili rezultate najbržeg i najsporijeg pilota, čak i razlike od nekoliko milisekundi bile su značajne, ali nakon toga ni pedeset puta veće promene nisu statistički značajne. Ovi primeri ilustruju činjenicu da aritmetičke sredine dve varijable (merenja) ne govore ništa o stepenu njihove povezanosti. Isto tako, ukoliko među nekim varijablama ili merenjima postoji visoka korelacija, to nikako ne znači da su njihove aritmetičke sredine iste. Sa druge strane, ako su razlike standardnih devijacija merenja velike, kao u četvrtom primeru sa liste, to znači da poređenje proseka verovatno nije opravdano.

U grupi ispitanika evidentiran je broj zapamćenih besmislenih slogova neposredno nakon učenja i dva sata kasnije. Šta je zavisna a šta nezavisna varijabla u ovom istraživanju?

Da li bi t-test u četvrtom primeru bio statistički značajan da je primenjeno jednostrano testiranje razlike? Koja vrsta testiranja razlike je primerenija u ovom istraživanju?

Pokušajte da povećate standardnu devijaciju trećeg merenja u trećem primeru na oko 45 ms, a da pri tome korelacija drugog i trećeg merenja ostane približno ista.

Koja vrsta greške u zaključivanju je verovatnija ako se na dve grupe ispitanika sa uparenim rezultatima primeni t-test za nezavisne uzorke?

U čemu se razlikuju matrice sirovih podataka, na osnovu kojih se računa t-test za nezavisne uzorke i t-test za zavisne uzorke?

Prisetite se primera sa Miler-Lajerovom iluzijom u kome je svih 14 merenja obavljeno na istom uzorku, tačnije na istom ispitaniku. Da li je zbog toga opravdano primeniti t-test za zavisne umesto t-testa za nezavisne uzorke?

Ovo možete da postignete tako što ćete, na primer, brzinu najsporijeg pilota u trećem merenju, koja iznosi oko 750 ms, promeniti na 350 ms. Prosek trećeg merenja svakako je manji od proseka drugog, a ovom promenom ta razlika se dodatno povećava.

Zavisna varijabla je broj tačno reprodukovanih slogova koji je meren u dva navrata. Nezavisna varijabla je vreme, odnosno protok vremena.

Vrednost t-testa bila bi značajna na nivou 0,05, jer bi p nivo, za istu vrednost t-testa, bio duplo manji. U ovom slučaju jednostrano testiranje ima više opravdanja zato što se uvežbavanje, odnosno promena karakteristika stimulusa, vrši upravo da bi se postiglo povećanje brzine reakcije. Negativna razlika između drugog i trećeg merenja je očekivan rezultat.

Rešenje podrazumeva da se linije razvuku u oblik lepeze, tako da je razmak između prve i poslednje dovoljno velik da se postigne tražena varijabilnost, a da odnos razlika među njima ostane očuvan u odnosu na početne pozicije.

Ako među merenjima postoji pozitivna korelacija, veća je verovatnoća da nećemo utvrditi postojanje razlike, tj. da ćemo napraviti grešku tipa β. Sa druge strane, ako je korelacija negativna, raste verovatnoća greške tipa α. U prvom slučaju, isključivanje koeficijenta korelacije povećava standardnu grešku razlike a u drugom je umanjuje.

U slučaju t-testa za nezavisne varijable potrebna je jedna kategorijalna i jedna kvantitativna varijabla intervalnog ili racio nivoa. Na primer, u prvu kolonu bi se unosio podatak o polu ispitanika a u drugu podatak o njihovoj visini. U slučaju t-testa za zavisne, obe kolone sadrže kvantitativne vrednosti zavisne varijable. U prvoj su merenja obavljena pre uvođenja tretmana a u drugoj posle njega. Kod t-testa za uparene rezultate, ne postoji grupišuća varijabla, već su merenja razvrstana po kolonama.

Iako činjenica da su sva merenja obavljena na istom ispitaniku implicira nacrt za zavisne uzorke, to nije u potpunosti opravdano. Naime, primena ove metode podrazumeva da se svako merenje iz jedne grupe upari sa tačno određenim merenjem iz druge grupe. Kao kriterijum povezivanja mogao bi da se upotrebi redosled izlaganja stimulusa, npr. prvo sa drugim, treće sa četvrtim i tako dalje, ali ovakvo uparivanje je jednako (ne)legitimno kao i uparivanje po bilo kom drugom kriterijumu. U tom smislu, primena t-testa za zavisne uzorke mogla bi da dovede do pogrešnog zaključka zbog uključivanja koeficijenta korelacije koji potpuno slučajno može da bude visok ili nizak. Najverovatnije je, međutim, da primena različitih modela t-testa ne bi dovela do bitno drugačijih rezultata.