3.3. T-test za dva uzorka
U prethodnim primerima upotrebili smo postupak računanja t statistika da bismo proverili značajnost razlike aritmetičkih sredina od unapred definisanog kriterijuma tačnosti. Primenili smo t-test za jedan uzorak na svakom od dva skupa merenja i utvrdili da je u jednom slučaju M bila statistički značajno različita od 0,5, a u drugom nije. Na kraju nam je grafički prikaz intervala poverenja obe M sugerisao da one najverovatnije potiču iz različitih populacija. Štaviše, t-test nam omogućava da ovu pretpostavku proverimo i numerički. Početnu hipotezu koja je glasila:
H0: Efekat Miler-Lajerove iluzije nije statistički značajan
možemo da formulišemo preciznije:
H0: Ne postoji statistički značajna razlika u proceni polovine
horizontalne duži između grupe merenja sa pravim vertikalnim dužima
i grupe merenja sa izlomljenim vertikalnim dužima
ili, jednostavnije:
H0: Ne postoji statistički značajan uticaj ugla preseka
duži na tačnost procene polovine horizontalne duži
U ovom slučaju, više nam nije cilj da poredimo vrednosti M sa očekivanom vrednošću µ, već da međusobno uporedimo dve aritmetičke sredine i da na osnovu vrednosti t statistika utvrdimo da li se one razlikuju jedna od druge. Naša hipoteza se, dakle, može izraziti i na sledeći način:
H0: μ1 = μ2 ili H0: μ1 - μ2 = 0
Pošto poredimo dve uzoračke aritmetičke sredine, primenićemo tehniku koja se zove t-test za dva uzorka. U ovom slučaju, formula za računanje t vrednosti se neznatno razlikuje od prethodne, ali je njena logika potpuno ista kao u slučaju t-testa za jedan uzorak ili u slučaju računanja z vrednosti. Suština je u tome da se neko odstupanje, npr. x - M ili M - µ, dovede u vezu sa pokazateljem intenziteta svih odstupanja, npr. s ili sM. U slučaju t-testa za dva uzorka, reč je o odstupanju dobijene razlike M1 - M2 od nule koja se očekuje na osnovu nulte hipoteze. Varijabilnost tih odstupanja naziva se standardna greška razlike aritmetičkih sredina i označava se simbolom sM1-M2. Greška razlike direktno zavisi od veličine grešaka pojedinačnih aritmetičkih sredina i računa se prema formuli:
`s_(M_1-M_2)=sqrt(s_(M_1)^2+s_(M_2)^2)`
Tako dolazimo do opšte formule za računanje t-testa za dva uzorka:
`t=((M_1-M_2)-0)/s_(M_1-M_2)=(M_1-M_2)/sqrt(s_(M_1)^2+s_(M_2)^2)`
Smisao standardne greške razlike aritmetičkih sredina mogli bismo da objasnimo na isti način kao i standardnu grešku aritmetičke sredine. U poglavlju 2.6.5. pokazali smo da se iz populacije u kojoj je aritmetička sredina µ, dobijaju uzorci čije se aritmetičke sredine distribuiraju u skladu sa t raspodelom oko vrednosti µ, sa standardnom devijacijom čija je vrednost sM. Isti princip važi i za razlike aritmetičkih sredina. Čak i ako su aritmetičke sredine dveju populacija iste, to ne znači da će za svaki par uzoraka uzetih iz tih populacija vrednost M1 - M2 biti 0. U stvari, dobijene razlike biće distribuirane oko vrednosti 0 (ili bilo koje prave vrednosti razlike µ1 - µ2) sa varijabilnošću sM1-M2, takođe u skladu sa t raspodelom. Analogno vrednosti sM, možemo da kažemo da je standardna greška razlike aritmetičkih sredina zapravo standardna devijacija velikog uzorka razlika aritmetičkih sredina koje su izračunate na parovima uzoraka uzetim iz odgovarajuće ili odgovarajućih populacija. S obzirom na to da ne znamo da li uzorci potiču iz iste ili iz različitih populacija, o poreklu uzoraka možemo da zaključujemo samo na osnovu vrednosti t-odnosa. Ukoliko je on blizak nuli, pretpostavićemo da dva uzorka, odnosno dve M, potiču iz iste populacije. Ukoliko je t vrednost dovoljno velika, zaključićemo suprotno. U slučaju velikih uzoraka, dovoljno velika apsolutna vrednost je ona iznad 1,96 ili 2,58, što znači da razlika treba da bude približno dva ili tri puta veća od svoje greške da bi se smatrala statistički značajnom. Na neki način razlika postaje naš „ispitanik“, a t postaje njegova „z vrednost“. Ispitanika (tj. razliku) čija je apsolutna vrednost z (tj. t) velika, posmatramo kao atipičnog i udaljenog od proseka grupe. Prosek grupe u slučaju testiranja značajnosti razlike iznosi nula jer se to pretpostavlja nultom hipotezom.
Vratimo se na
primer M-L iluzija iz prethodnog odeljka. U dnu spiska sirovih podataka nalazi se prekidač pomoću koga se prikaz rezultata u tabeli menja između dva t-testa za jedan uzorak i jednog t-testa za dva uzorka. Kliknite prekidač da biste prikazali vrednost t-test za odabrani primer. Na osnovu vrednosti t i nivoa verovatnoće p, možemo da zaključimo da se dve aritmetičke sredine statistički značajno razlikuju ne samo na nivou 0,01, već i na nivou 0,001:
t(12) = -7,803, p < 0,001
Pošto smo M1 i M2 računali na dva skupa od po 7 merenja, broj stepeni slobode je (N1 - 1) + (N2 - 1) ili N - 2, gde je N veličina uzorka, odnosno ukupan broj merenja koji u našem primeru iznosi 14. Obratite pažnju na to da se, osim poslednja dva reda u tabeli, delimično izmenio i spisak sirovih rezultata. Ovoga puta su u prvoj koloni navedene vrednosti, tj. kodovi grupišuće varijable – 90 za merenja u kojima su se duži sekle pod pravim uglom, odnosno 30 za merenja u kojima su se sekle pod oštrim uglom od približno 30 stepeni. To je ujedno i pojednostavljen prikaz strukture matrice sirovih podataka potrebne da bi se izračunao t-test za dva uzorka. U ćelije jedne kolone matrice potrebno je upisati vrednosti dihotomne nezavisne varijable na osnovu koje se merenja dele u dve grupe, a u ćelije druge kolone vrednosti kvantitativne zavisne varijable za koju se računaju aritmetičke sredine po grupama. Broj redova u matrici jednak je ukupnom broju merenja, što u našem primeru iznosi 14.
Opisanu logiku t-testa za dva uzorka možemo lako preneti na bilo koji istraživački zadatak u kome treba uporediti proseke dveju grupa merenja ili ispitanika. Na drugoj listi odaberite opciju M ± 3,708 st. gr., a na prvoj odaberite primer Završni ispit 1. Zamislimo da su u pitanju bodovi koje su učenici osmih razreda dve osnovne škole dobili na završnom ispitu. Na osnovu izračunate t vrednosti, kao i na osnovu grafički prikazanih intervala poverenja koji se potpuno preklapaju, zaključujemo da se đaci dve škole ne razlikuju značajno u uspehu. Na sličan zaključak upućuje i poređenje procenjenih distribucija sirovih rezultata koje se prikazuju izborom opcije M ± 3 st. dev. Međutim, sada je uočljivije da su đaci OŠ2 u proseku nešto bolji od đaka OŠ1, kao i da se varijabilnost rezultata u grupama značajno razlikuje. Ovakva nehomogenost varijansi može da predstavlja ozbiljan problem u interpretaciji t-testa za dva uzorka. Tek kada prikažemo grafikon sirovih rezultata, postaje jasno da je velika varijabilnost u grupi OŠ1 posledica aberantnog rezultata zbog koga su se povećale vrednosti M i sM a umanjila vrednost t. Ukoliko taj aberantni rezultat uklonimo iz analize izborom primera Završni ispit 2, ustanovićemo da se dve grupe ipak statistički značajno razlikuju:
t(11) = -4,540, p = 0,001
Obratite pažnju na to da se histogrami i rezultirajuće krive gustina verovatnoća za poslednja dva primera razlikuju u samo jednom rezultatu. Taj rezultat je drastično povećao standardnu devijaciju i standardnu grešku aritmetičke sredine u grupi OŠ1, a time i standardnu grešku razlike aritmetičkih sredina. Takođe, imajte na umu činjenicu da smo poredili dve grupe đaka, nezavisno od bilo kakvog kriterijuma. Obe grupe su mogle, ali nisu morale, da budu značajno bolje ili lošije od nekog kriterijuma, a da to i dalje ne utiče na njihovu međusobnu razliku. U ovom primeru, kriterijum je iznosio 50 bodova i naveden je u zagradi. Kada promenite prikaz t vrednosti uz pomoć prekidača, videćete da se učinak đaka OŠ1 ne razlikuje značajno od kriterijuma, dok su đaci OŠ2 u proseku značajno bolji od njega.
3.3.1. Uslovi za primenu t-testa
Prikažite histograme sirovih podatka za primer
BMI i odaberite t-testove za jedan uzorak. Nezavisna varijabla u ovom primeru je način ishrane, na osnovu koga su ispitanici podeljeni na vegetarijance i one koji jedu meso. Zavisna varijabla je
indeks telesne mase (engl.
BMI – body mass index) koji se računa kao odnos mase osobe i kvadrata njene visine. Nivoi verovatnoće t-odnosa ukazuju da se proseci grupa ne razlikuju značajno od vrednosti 20 koja je odabrana kao kriterijum, tj. poželjan odnos mase i visine. To znači da ni vegetarijanci ni mesojedi
u proseku nisu ni gojazni ni neuhranjeni. Sa druge strane, na osnovu vrednosti t-testa za dva uzorka, zaključujemo da su osobe koje jedu meso (M) statistički značajno gojaznije od vegetarijanaca (V), ali na nivou 0,05. Drugim rečima, način ishrane vrlo verovatno utiče na povećanje telesne mase. Međutim, ovu tvrdnju možemo da smatramo validnom samo ako su ispunjeni uslovi da se promene na zavisnoj varijabli (npr. razlika u prosečnoj masi među grupama) pripišu promenama na nezavisnoj varijabli (npr. načinu ishrane), a ne drugim faktorima (npr. polu). Prvi i osnovni uslov je
slučajno i nezavisno razvrstavanje ispitanika u grupe. Grupe moraju da budu homogene po svim relevantnim svojstvima, osim po onom koje je određeno kao nezavisna varijabla. U našem primeru, to znači da grupe ispitanika moraju da se razlikuju samo u načinu ishrane, a da istovremeno budu ujednačene po svim drugim relevantnim varijablama. Broj takvih varijabli zavisi od istraživačkog nacrta i kompleksnosti fenomena koji se opisuju. U ovom zamišljenom istraživanju, one bi trebalo da obuhvate sve faktore koji mogu da budu povezani sa telesnom masom osobe: pol, starost, bavljenje fizičkim aktivnostima, hormonski status i slično. Dakle, dve grupe moraju da se formiraju tako da sadrže podjednak broj muškaraca i žena, osoba koje se bave ili ne bave fizičkim aktivnostima, osoba različitog uzrasta itd. U suprotnom, razlika u masi mogla bi da bude posledica pristrasnosti uzorkovanja, odnosno činjenice da je, na primer, u jednoj grupi bilo više osoba koje redovno idu u teretanu, a u drugoj više osoba koje se retko bave fizičkim aktivnostima.
Povećanje broja relevantnih svojstava koje je potrebno ujednačiti po grupama i držati pod kontrolom, podrazumeva i povećanje varijabilnosti. To nas dovodi do drugog važnog uslova za primenu t-testa –
uzorci moraju da budu dovoljno veliki i približno iste veličine. Iako se u literaturi mogu pronaći konkretni kriterijumi za razlikovanje velikih od malih uzoraka, npr. više od 30, 50 ili 100 ispitanika, potrebnu veličinu uzorka nikada ne treba definisati kao apsolutnu granicu. Ako se prisetimo formule za izračunavanje standardne greške aritmetičke sredine, primetićemo da je (razumno) povećavanje veličine uzorka način da se kompenzuje velika varijabilnost pojave koju merimo i da se smanji greška procene parametara populacije. Pri tome se varijabilnost ne odnosi samo na varijanse pojedinačnih varijabli, već i na složenost istraživačkog nacrta, odnosno ukupan broj varijabli u sistemu koji analiziramo. U našem primeru, grupe od po sedam ispitanika najverovatnije nisu dovoljne da se pokrije i opiše varijabilnost sistema koji ne čine samo nezavisna i zavisna varijabla, već i niz drugih relevantnih kontrolnih varijabli. Pitanjima procene potrebne veličine uzorka za konkretan istraživački cilj, bave se tehnike
analize statističke snage (engl.
power analysis) koju smo pomenuli u odeljku o testiranju hipoteza. Većina statističkih paketa poseduje opcije pomoću kojih je moguće proceniti snagu statističkog testa na osnovu pretpostavljene veličine uzorka i željenog nivoa značajnosti ili, pak, potrebnu veličinu uzorka, na osnovu željene snage testa, tj. verovatnoće da će hipoteza biti odbačena. Pri tome, procena potrebne veličine uzorka ne odnosi se samo na određivanje minimalnog broja merenja koje je potrebno obaviti da bi se došlo do nekog zaključka. Kao što smo već nekoliko puta napomenuli, uvek je bolje da uzorak bude što veći, ali ne veći od optimalnog nivoa nakon kog se više ne postiže porast preciznosti ili snage. U tom smislu, analiza snage olakšava optimizaciju napora i materijalnih ulaganja, jer u statistici uzorci mogu da budu i preveliki, tj. nepotrebno veliki. Kao ilustraciju ćemo upotrebiti besplatnu alatku
Statulator da bismo procenili potrebnu veličinu uzorka u primeru sa indeksom telesne mase. Ako unesemo podatak da je očekivana razlika približno 2,5 BMI jedinica, varijabilnost približno 1,5 BMI jedinica, nivo značajnosti 0,05, a željena snaga t-testa 80%, program sugeriše da je dovoljno da naš uzorak ima 12 ispitanika (Dhand & Khatkar, 2014). Međutim, kada bi očekivana varijabilnost bila veća, npr. 5 BMI jedinica, bio bi potreban 10 puta veći uzorak da bi se postigla verovatnoća odbacivanja netačne nul-hipoteze od 80%. Naravno, kada bismo želeli još veću snagu i/ili primenili stroži nivo značajnosti od 0,01, uzorak bi trebalo da bude još veći. Treba imati na umu da procenjena snaga testa govori o tome kolika je verovatnoća da dobijemo rezultat nakon koga ćemo odbaciti nultu hipotezu, ali samo pod pretpostavkom da je ona netačna u populaciji. Drugim rečima, statistički testovi ne mogu da se „nateraju“ da neku razliku prikažu kao značajnu ako ona ne postoji u populaciji, čak ni ako su uzorci veoma veliki, odnosno, preciznije rečeno,
pogotovo kada su uzorci veliki.
Dodatni uslovi za primenu t-testa proističu iz činjenice da se ova tehnika bazira na poređenju dve aritmetičke sredine. Za početak, to znači da zavisna varijabla mora da bude kvantitativna i izmerena na intervalnom ili racio nivou merenja. Nisu retki primeri u kojima se t-test primenjuje i na varijablama rang nivoa, npr. odgovorima ispitanika na skalama slaganja od 1 do 5, ali u takvim situacijama treba biti veoma oprezan. Računanje proseka često je opravdano ali besmisleno, jer (be)smislenost nekog zaključka nije isto što i njegova (ne)tačnost (Marcus-Roberts & Roberts, 1987). Tvrdnja da je prosek visine učenika nekog odeljenja veći od prosečne visine školskih zgrada jeste netačna ali nije besmislena, jer ispravnost te tvrdnje može da se proveri, bez obzira na to u kojim jedinicama je izražena visina. Međutim, tvrdnja da je znanje matematike grupe učenika čija je prosečna ocena 4,86, duplo veće od znanja matematike učenika čija je prosečna ocena 2,43, iako deluje kao tačna, nema nikakvog smisla. Prvi razlog je činjenica da podaci ordinalnog nivoa govore o postojanju razlike među vrednostima, ali ne i o količini te razlike. Stoga su operacije množenja na vrednostima koje potiču sa ordinalnih skala najčešće besmislene. Drugi razlog je nedovoljna objektivnost školskih ocena, odnosno nedovoljna preciznost i nedovoljna ujednačenost načina na koji se „meri“ ili izražava stepen nečijeg znanja. Dakle, istraživač prilikom odluke o primeni t-testa ne treba da se vodi samo pitanjem da li je opravdano da se test primeni, jer to zaista može da bude slučaj čak i ako podaci nisu intervalnog ili racio nivoa, već da li rezultati, odnosno zaključci do kojih će doći, imaju smisla. Stoga preporučujemo da se ne vodite toliko strogo kriterijumima primene testova vezanih za nivoe merenja, već da uvek razmislite da li to ima opravdanja. Primena t-testa može da bude besmislena čak i kada su podaci razmernog nivoa merenja.
U slučaju t-testa, aritmetičke sredine i standardne devijacije uzoraka koriste se kao procene parametara distribucije zavisne varijable u populaciji. Te procene su uvek pouzdanije ako su distribucije varijabli približno normalne. Osim toga, poređenje ovih procena je pouzdanije ukoliko je varijabilnost u grupama podjednaka, što znači da je homogenost varijansi još jedan od uslova za primenu t-testa. U primeru Završni ispit 1 pokazali smo da odstupanje od normalnosti, a posebno postojanje aberantnih rezultata, može bitno da utiče na tačnost procene stanja u populaciji i da umanji pouzdanost dobijenih t i p vrednosti. Kao ilustraciju, prikažite sirove podatke za primer Kurs jezika. Možete da pređete pokazivačem miša preko stubića da biste jasnije videli oblike distribucija, s obzirom na to da se u nekim delovima histograma stubići potpuno preklapaju. Recimo da nam je cilj bio da proverimo razlike između studenata književnosti i studenata računarstva u stavu prema uvođenju drugog obaveznog kursa stranog jezika. Stav je izmeren pitanjem sa petostepenom skalom odgovora, od 1 – potpuno sam protiv, preko 3 – svejedno mi je, do 5 – potpuno se slažem. Vrednosti t-testova za jedan uzorak pokazuju da obe grupe studenata imaju neutralan stav, a vrednost t-testa za dva uzorka da se dve grupe u proseku ne razliku. Međutim, aritmetička sredina u ovom slučaju nije prikladna aproksimacija težišnih rezultata grupa merenja. Samim tim, ni dobijene t-vrednosti najverovatnije ne odražavaju pravo stanje u populacijama. Iako vrednost t-testa za dva uzorka nije statistički značajna, histogrami ukazuju da se raspodele, odnosno strukture studentskih odgovora bitno razlikuju među grupama. Za početak, vrednost 3 nije adekvatna mera centralne tendencije ni za jednu od grupa, pa tako nije ni dobra osnova za procenu parametara u populaciji. Na primer, uočljivo je da većina studenata računarstva ima negativan stav prema uvođenju drugog jezika, za razliku od većine studenata književnosti.
Na kraju treba napomenuti da se u popularnim statističkim paketima primenjuju procedure kojima se postupak računanja t-testa koriguje kako bi se ublažio negativan uticaj nehomogenosti varijansi i bitno različitih veličina uzoraka. Pojedini autori tvrde da t-test ni izbliza nije toliko osetljiv kao što se u statističkim udžbenicima upozorava i da je dovoljno robustan, odnosno da pruža osnovu za pouzdane i validne zaključke, čak i kada su pomenuti uslovi prekršeni (Norman, 2010). Diskusija o tome da li se ordinalne skale mogu ili ne mogu tretirati kao intervalne i dalje traje, tako da je lako naći argumente u prilog oba stava (Knapp, 1990). To znači da je odgovornost na istraživačima a ne na autorima statističkih udžbenika i priručnika. Istraživači treba da poznaju potencijalne opasnosti vezane za kršenje pomenutih uslova za primenu t-testa, a posebno onih koji se tiču metodološke korektnosti. Pre nego što se podaci prikupe i obrade, potrebno je detaljno razraditi i osmisliti istraživački nacrt kako bi se uzeo u obzir efekat svih potencijalno relevantnih svojstava na vrednosti zavisne varijable. Osim toga, istraživač treba da bude upoznat i sa alternativnim tehnikama kojima može da ostvari isti cilj. U određenim situacijama, poželjno je sprovesti veći broj različitih analiza kako bi doneo ispravan i održiv zaključak.
Matrica treba da ima 55 redova, za 30 dečaka i 25 devojčica, i 2 kolone, jednu za varijablu pol i drugu za varijablu visina.
Statistički testovi koriste se da bi se na osnovu statistika koji su izračunati na uzorku, procenile vrednosti parametara populacije. Isto tako, istraživačke hipoteze su pretpostavke o fenomenima u populaciji a ne u uzorku ili uzorcima. Da bi se proverila tačnost izraza M1 = M2, ne mora ni da se primenjuje t-test, već je dovoljno uporediti dve dobijene vrednosti. Međutim, takav zaključak nema nikakvu praktičnu vrednost jer se odnosi samo na entitete koji su činili uzorak. Smisao t-testa nije da se utvrdi postojanje razlike među aritmetičkim sredinama, već da se proceni statistička značajnost te razlike. Ukoliko je razlika statistički značajna, najverovatnije postoji i razlika između aritmetičkih sredina populacija.
Standardna devijacija ima visoku vrednost u poređenju sa prosekom.
Zato što je jedna grupa u proseku lošija a druga bolja od datog kriterijuma. Predznak, međutim, ne utiče na zaključak o tome da li je neka razlika statistički značajna ili nije.
Vrednost t imala bi drugačiji predznak kada bismo u formuli za njeno računanje zamenili mesta vrednostima M1 i M2. Ova promena ne bi uticala na konačni zaključak da li se grupe značajno razlikuju ili ne. Naravno, uvek je potrebno obratiti pažnju na predznak t-testa kako bi se doneo ispravan zaključak o tome koja grupa je bolja ili lošija.
Pokušajte da zamislite sve moguće ishode, odnosno kombinacije zaključaka u ovoj vežbi. Na primer, moguće je da ste u obe grupe merenja davali pogrešnu procenu sredine duži, ali da razlika među merenjima nije značajna jer ste grešili u istu stranu. Da ste u jednoj grupi potcenjivali a u drugoj precenjivali polovinu duži, razlika među merenjima bi verovatno bila značajna. U ovom poslednjem slučaju, može se desiti čak i to da razlika među merenjima bude značajna, iako se proseci merenja po grupama ne razlikuju značajno od datog kriterijuma.
Prvenstveno obratite pažnju na to da li postoje aberantni rezultati i značajna iskošenost distribucija.
Vrlo je verovatno da razlike među merenjima u ovoj situaciji neće biti statistički značajne zbog veće varijabilnosti rezultata i veće standardne greške razlike.
U odeljku o važnim statističkim distribucijama objasnili smo da se značajnost razlika među varijansama može testirati pomoću F testa.