3.4. Neparametrijske alternative t-testu za dva uzorka
Statističke procedure u kojima se polazi od pretpostavke da distribucije u populaciji imaju određeni oblik i koje se baziraju na procenama parametara tih distribucija, nazivaju se parametrijskim. Tipičan predstavnik ove grupe je t-test. Kao što smo rekli, njegova logika zasniva se na očekivanju da je zavisna varijabla normalno distribuirana i da su aritmetičke sredine dvaju uzoraka adekvatne procene mera grupisanja u populaciji. Kada ti uslovi nisu ispunjeni, ne bi trebalo primenjivati t-test. U takvim situacijama se kao alternativa može upotrebiti neka od neparametrijskih metoda, odnosno statističkih tehnika kod kojih nije neophodno da distribucije budu određenog oblika, da varijable budu intervalnog ili racio nivoa, pa čak ni da varijable budu kvantitativne. Zbog manje strogih uslova primene, ove tehnike se obično smatraju robusnijim od parametrijskih. Međutim, s obzirom na činjenicu da je većina njih prilagođena ordinalnom i nominalnom nivou merenja varijabli, one su ujedno i manje precizne. Statističkim rečnikom rečeno, neparametrijske tehnike imaju manju snagu od parametrijskih. Prilikom opisivanja tipova grešaka u statističkom zaključivanju, rekli smo da se snaga statističkog testa odnosi na njegovu sposobnost da detektuje postojanje nekog fenomena, odnosno na verovatnoću da se odbaci pogrešna nulta hipoteza. Na neki način, parametrijski testovi su kao pinceta a neparametrijski kao klešta. Kleštima možemo da uhvatimo čipove na nekoj štampanoj ploči, ali ćemo tu operaciju uraditi grubo, a možda čak i oštetiti čip. Pincetom ćemo tu operaciju obaviti mnogo preciznije, ali zato njome ne možemo da vadimo eksere iz zida. Slično je i sa statističkim procedurama. Neparametrijske metode mogu da se primenjuju na varijablama intervalnog ili racio nivoa, ali se tako umanjuje količina iskorišćenih informacija i preciznost analize. Sa druge strane, parametrijske tehnike najčešće ne mogu i ne smeju da se primenjuju na varijablama ordinalnog i nominalnog nivoa, ali pružaju veću preciznost i povećavaju verovatnoću da se utvrdi postojanje neke pravilnosti, npr. razlike među grupama na zavisnoj varijabli.
3.4.1. Vold–Volfovicov test nizova
Vratimo se na
primer M-L iluzija i t-test za dva uzorka. Razlika među merenjima je statistički značajna, što je vidljivo ne samo na osnovu udaljenosti distribucija podataka u grupama, već i na osnovu sortiranih sirovih rezultata, koji jasno formiraju dva raznobojna kontinuirana niza od po 7 vrednosti. To pokazuje da su podaci grupisani na dve jasno razlučive „gomile“ i da među njima postoji značajna razlika. Nijedan član plave grupe ne pripada rasponu rezultata narandžaste grupe niti obratno. Da bismo ilustrovali situaciju u kojoj među grupama ne postoji razlika, iskoristićemo primer
Agresivnost. U pitanju su međupolne razlike u skorovima na skali agresivnosti nekog upitnika ličnosti. Distribucije se gotovo potpuno preklapaju a na spisku rezultata se smenjuju skorovi dečaka (1) i devojčica (2). Umesto dva niza koja smo videli u primeru sa Miler-Lajerovom iluzijom, ovde postoji čak 14 nizova od po jednog rezultata. Pojedinačni rezultati potpuno su izmešani, tj. nasumično raspoređeni među grupama, što znači da uzorci najverovatnije potiču iz iste populacije. Ovo je osnovna logika testiranja značajnosti razlike između dve grupe merenja primenom neparametrijske alternative t-testu koja se naziva
test homogenih nizova i koju su osmislili mađarski statističar Abraham Vold i poljski statističar Jakob Volfovic. Po njima je tehnika nazvana
Vold–Volfovicov test nizova (engl.
Wald–Wolfowitz runs test). Ako je broj ovako formiranih nizova merenja manji od onoga koji bi mogao da se očekuje potpuno slučajno, može se zaključiti da rezultati ne potiču iz iste populacije. Za uzorke kod kojih je broj merenja po grupama manji od 20, očekivani broj nizova očitava se iz tablica graničnih vrednosti. Na primer, za dve grupe od po 7 merenja (ispitanika), granična vrednost iznosi 4. Ukoliko prikažete podatke iz primera
Završni ispit 1, uočićete da se oni grupišu u tri niza – dva plava i jedan narandžasti. S obzirom na to da je broj nizova manji od date granične vrednosti, zaključićemo da razlika jeste statistički značajna. Aberantni rezultat, koji je povećao grešku aritmetičke sredine u jednoj od grupa i time umanjio vrednost t-testa u ovom primeru, nije uticao na zaključak koji smo doneli primenom testa nizova. Osim toga, zaključak bi bio isti čak i da je rezultat poslednjeg đaka na listi, umesto 75, imao vrednost 100, 150 ili 200. Razlog je to što se broj nizova ne bi promenio, jer se broj bodova u ovom slučaju tretira kao ordinalna varijabla, bez obzira na činjenicu da je izmerena na višem nivou.
Vold–Volfovicovim testom zapravo se procenjuje da li je uočeni broj nizova mogao da se dobije potpuno slučajno, čak i da u populaciji ne postoji razlika među grupama. Ukoliko su uzorci veći od 20, distribucija očekivanog broja nizova je približno normalna, sa aritmetičkom sredinom koja se izračunava po formuli:
`mu=(2N_1N_2)/(N_1+N_2)+1`
i standardnom devijacijom koja se izračunava po formuli:
`sigma=sqrt((2N_1N_2(2N_1N_2-N_1-N_2))/((N_1+N_2)^2(N_1+N_2-1)))`
gde su N1 i N2 veličine prvog i drugog uzorka. Potom se uz pomoć μ i σ izračuna z vrednost za broj nizova koji je dobijen u istraživanju, i interpretira se u skladu sa odabranim nivoima značajnosti i uobičajenim nivoima verovatnoće za normalnu distribuciju. Ako je, na primer, z vrednost veća od 1,96, to znači da je i broj nizova značajno drugačiji od onoga koji bi mogao da se dobije slučajno, pa možemo da kažemo da je razlika među grupama značajna na nivou 0,05. Vold–Volfovicov test nije naročito popularan, ali ga ovde navodimo kako bismo još jednom ukazali na smislenost različitih zaključaka o razlikama u zavisnosti od toga da li se zavisna varijabla tretira kao intervalna ili ordinalna.
3.4.2. Kolmogorov–Smirnovljev test za dva uzorka
Odaberite ponovo primer Kurs jezika. Kao što smo rekli, primena t-testa u ovom slučaju nije prikladna, najpre zbog ordinalnog nivoa merenja zavisne varijable, a potom i zbog značajnog odstupanja distribucija od normalne i postojanja aberantnih rezultata. Već sama činjenica da decimalnim brojevima izražavamo mere centralne tendencije grupa ukazuje na neopravdanost donošenja zaključaka na osnovu aritmetičke sredine koja je izračunata za ordinalnu varijablu sa samo pet mogućih vrednosti. Međutim, zaključak da se grupe studenata ne razlikuju u stavu prema uvođenju novog kursa ne bi bio drugačiji čak i da smo primenili Vold–Volfovicov test jer je najveći broj nizova koje mogu da formiraju rezultati veći od granične vrednosti 4. Ipak, grafički prikaz podataka sugeriše da se distribucije podataka po grupama bitno razlikuju i da struktura stavova studenata nije ista. U takvim situacijama poželjno je testirati istu hipotezu još nekim testom. Jedna od opcija bi mogao da bude postupak koji su osmislili ruski matematičari Andrej Kolmogrov i Nikolaj Smirnov, a kojim se testira upravo razlika oblika dve distribucije. Postupak primene Kolmogorov–Smirnovljevog (K(S) testa je prilično jednostavan. Najpre treba da se pronađe najveća pojedinačna razlika (D) kumulativnih empirijskih distribucija verovatnoća dve grupe. U našem primeru, najveća razlika je ona u učestalosti odgovora „nakupljenih“ do vrednosti 3 i iznosi 5/7, jer u grupi studenata računarstva empirijska verovatnoća odgovora 1, 2 i 3 iznosi 6/7, a u grupi studenata književnosti 1/7. Dobijena razlika verovatnoća, u ovom slučaju 0,714, treba da bude veća od granične vrednosti za datu veličinu grupa. Granična vrednost izračunava se prema formuli:
`D_(gr)=k(alpha)sqrt((N_1+N_2)/(N_1N_2))`
gde su N1 i N2 veličine uzoraka, a k(α) konstantna koja se određuje u zavisnosti od željenog nivoa značajnosti. Nivoi se mogu odabrati i tako da se razlika testira jednostrano. Tako, na primer, za jednostrano testiranje razlike na nivou 0,05, ova vrednost iznosi 1,224, pa je vrednost D u našem primeru 0,654. Pošto je empirijska razlika veća od očekivane, zaključićemo da se distribucije dveju grupa statistički značajno razlikuju na nivou 0,05 i da studenti računarstva imaju statistički značajno negativniji stav prema uvođenju dodatnog obaveznog kursa stranog jezika od studenata književnosti. Time ne tvrdimo da se nužno razlikuju i mere centralne tendencije dve grupe merenja, već samo njihove distribucije, odnosno kumulativne empirijske verovatnoće različitih ishoda.
Poslednji primer ilustruje činjenicu da je u istraživanjima podjednako važno (ako ne i važnije) postaviti odgovarajuće pitanje, kao što je važno odabrati adekvatan statistički metod kojim će se dati odgovor na postavljeno pitanje. Iako testiranje razlika između dve grupe merenja obično podrazumeva poređenje njihovih mera centralne tendencije, to nije uvek i najprikladniji izbor. Štaviše, ponekad ova vrsta testiranja može da navede istraživača na pogrešan zaključak. Kao što smo više puta pokazali u odeljku o deskriptivnim pokazateljima, dve distribucije mogu da imaju iste ili veoma bliske vrednosti aritmetičkih sredina ili medijana a da pri tome imaju potpuno drugačije oblike i različitu varijabilnost. Na primer, odeljenje u kome svi đaci imaju ocenu 3 iz matematike i odeljenje u kome polovina đaka ima 1 a druga polovina 5, neće se razlikovati u prosečnom učinku, ali će se bitno razlikovati u raspodeli ocena. Ova druga informacija može da bude važnija od prostog i površnog zaključka da je prosečna ocena u oba razreda 3, jer može da ukaže na drugačije kriterijume koje nastavnik ima prema deci ili na problem neujednačenosti đaka u odeljenju po sposobnostima i interesovanjima. Opisane alternative t-testu, kao što su Vold–Volfovicov i Kolmogorov–Smirnovljev test, prikladnije su u situacijama u kojima je, pored mera centralne tendencije, potrebno uporediti i mere varijabilnosti, odnosno oblike distribucija dve grupe merenja.
3.4.3. Men–Vitnijev test sume rangova
U narednom primeru testiraćemo
postojanje Strupovog efekta. Efekat je dobio ime po američkom psihologu Džonu Ridliju Strupu koji je nizom eksperimenata potvrdio postojanje fenomena
semantičke interferencije (Stroop, 1935). Fenomen se ogleda u tome da (ne)slaganje između značenja reči i boje kojom su reči ispisane, utiče na brzinu njihovog prepoznavanja. Stimulusi koji su podudarni ili
kongruentni, tj. nazivi boja koji su ispisani bojom koju označava reč, prepoznaju se brže od nepodudarnih ili
nekongruentnih, kod kojih značenje reči i boja kojom je ona ispisana nisu usklađeni. Kada se reč pojavi na ekranu, vaš zadatak je da što brže kliknete kvadrat obojen bojom koju označava reč. Prvih deset stimulusa, pet podudarnih i pet nepodudarnih, služe kao vežba. Nakon toga potrebno je da uradite 15 + 15 zadataka u kojima će se vreme reakcije beležiti. Nezavisna grupišuća varijabla u ovom primeru je tip stimulusa (podudarni / nepodudarni), a zavisna varijabla je brzina reakcije na stimulus, odnosno brzina prepoznavanja značenja reči. Po završetku eksperimenta, rezultati izraženi u milisekundama biće sortirani od najmanjeg do najvećeg i prikazani u tabeli u donjem delu okvira. Boja ćelija u tabeli označava pripadnost grupama nastalim na osnovu vrednosti nezavisne varijable.
Kao grafički prikaz podataka u primeru sa Strupovim efektom, odabran je kutijasti dijagram (engl. box and whiskers plot) kojim na veoma pregledan način mogu da se prikažu mere centralne tendencije i raspršenja za jednu ili više grupa merenja istovremeno. Plavi dijagram prikazuje distribuciju rezultata u grupi podudarnih stimulusa, a narandžasti u grupi nepodudarnih. Središnji kvadratić označava vrednost medijane, kutijom (engl. box) je predstavljen interkvartilni raspon između prvog (Q1) i trećeg (Q3) kvartila, a „brkovi“ (engl. whiskers) prikazuju raspon između najmanje i najveće vrednosti, izuzimajući eventualne autlajere. Autlajeri se predstavljaju kružićima ili krstićima pozicioniranim izvan raspona „brkova“. Kao što smo rekli, aberantni rezultati mogu negativno da utiču na validnost statističkih zaključaka, posebno ako su podaci prikupljeni na malim uzorcima i ako se analiza obavlja manje robusnim metodama. Ipak, oni mogu da pruže veoma dragocene informacije o postupku merenja varijabli, karakteristikama ispitanika, greškama nastalim u unosu podataka, pa čak i o metodološkim propustima napravljenim od strane istraživača. Stoga ih ne treba zanemarivati ili uklanjati iz analize bez prethodne provere. U programima za statističku obradu postoji mogućnost da se definiše kriterijum na osnovu koga će se rezultati proglasiti aberantnim. Kada je u pitanju univarijantni ili bivarijantni prostor, obično se koriste kriterijumi distance. Tuki, na primer, definiše autlajer kao rezultat koji izlazi van raspona
`[Q_1-k(Q_3-Q_1),Q_3+k(Q_3-Q_1)]`
gde su Q1 i Q3 vrednosti prvog i trećeg kvartila, a k proizvoljan pozitivan broj. Prema Tukiju, aberantna vrednost je ona koja se nalazi van intervala dobijenog uz vrednost konstante k = 1,5, a ekstremni autlajer je ona vrednost koja izlazi van intervala dobijenog za k = 3 (Tukey, 1977).
Autlajeri mogu da se uoče i na osnovu njihovih (ekstremno) visokih z vrednosti. Jedan od ovakvih postupaka je Šoveneov kriterijum koji je predložio francuski matematičar Vilijam Šovene. Na osnovu Šoveneovih kriterijumima, čak i z vrednosti veće od 2 treba smatrati „čudnim“ ako su uzorci veoma mali. Na većim uzorcima te granice su liberalnije. Tako se, na primer, u skupu od 1.000 merenja, aberantnim smatraju tek oni rezultati čija je z vrednost veća od 3,5. Postupak detekcije autlajera primenom Šoveneovog kriterijuma je iterativan, jer se nakon uklanjanja jednog aberantnog rezultata, ponovo računaju z vrednosti, tako da neki drugi rezultat može da postane autlajer u izmenjenom skupu podataka. Tada kažemo da je prvi autlajer maskirao drugog. Moguć je i drugačiji ishod, tj. da se upravo zbog prisustva jednog rezultata, neki drugi smatra aberantnim. Ovo je tzv. efekat preplavljivanja. Treba imati na umu da i maskiranje i preplavljivanje mogu da dovedu do isključivanja prevelikog broja rezultata, pa se preporučuje upotreba grafičkih metoda za detekciju rezultata ili skupova rezultata koji će se smatrati aberantnim. U našem primeru, upotrebili smo Tukijev kriterijum, te smo kao aberantne označili vrednosti koje su za više od jednog interkvartilnog raspona veće od vrednosti trećeg kvartila ili manje od vrednosti prvog.
Odaberite prvi primer sa liste. Na osnovu kutijastih dijagrama može se zaključiti da se dve grupe merenja statistički značajno razlikuju, jer se rasponi distribucija čak ni ne dodiruju. Medijana i aritmetička sredina brzine reakcije u grupi podudarnih merenja značajno su manje od onih u grupi nepodudarnih. Pored toga, vidi se da je varijabilnost u drugoj grupi znatno veća. Na postojanje značajne razlike u brzini ukazuje i vrednosti t-testa, kao i postojanje samo dva homogena niza podataka u donjoj tabeli, jer su rezultati iz plave grupe stimulusa rangirani od 1. do 15. mesta, a rezultati iz narandžaste grupe od 16. do 30. Stoga je suma rangova značajno manja u grupi podudarnih stimulusa, nego u grupi nepodudarnih. Sume rangova prikazane su u tabeli sa desne strane i označene su simbolom Rn. Poređenje vrednosti Rn između dve grupe merenja predstavlja osnovnu logiku testova sume rangova, a tipičan predstavnik ove grupe metoda je Men–Vitnijev U test koji su osmislili američki matematičari Henri Men i Donald Vitni. Test se često naziva i Vilkokson–Men–Vitnijev test, jer je statistički ekvivalentnu metodu analize rangiranih podataka predložio i američki hemičar Frenk Vilkokson. Postupak podrazumeva da se izvrši N1 · N2 poređenja svakog rezultata iz jedne grupe sa svakim rezultatom iz druge, te da se prebroje slučajevi u kojima su rezultati iz jedne grupe veći od rezultata iz druge. Brojevi slučajeva računaju se prema formulama:
`U_1=N_1N_2+(N_1(N_1+1))/2-R_1`
`U_2=N_1N_2+(N_2(N_2+1))/2-R_2`
gde su N1 i N2 veličine uzoraka a R1 i R2 sume rangova rezultata po grupama. Manja od dve U vrednosti predstavlja vrednost Men–Vitnijevog testa, a njegova značajnost očitava se iz odgovarajućih tablica ukoliko su uzorci manji od 20, ili korišćenjem aproksimacije normalne distribucije na osnovu z skora dobijene U vrednosti koja se može izračunati po formuli:
`z=(U-(N_1N_2)/2)/sqrt((N_1N_2(N+1))/12)`
Kao što vidimo u tabeli sa desne strane, u ovom primeru bi i t-test i U test pokazali da je razlika u brzini prepoznavanja značenja reči između podudarnih i nepodudarnih stimulusa statistički značajna. Vrednost U iznosi 0, što znači da ne postoji nijedan rezultat iz plave grupe koji je veći od nekog rezultata iz narandžaste grupe.
Odaberite drugi primer sa liste. Na osnovu grafikona je uočljivo da su u pitanju dve pozitivno zakrivljene distribucije i da ne postoji razlika u brzini reakcije s obzirom na vrstu stimulusa. Rezultati obe grupe merenja potpuno su identični, tako da su i njihove pozicije izražene spojenim ili vezanim rangovima. Prva dva rezultata dele 1. i 2. rang, te oba imaju 1,5. rang. Nakon toga slede 3. i 4. rezultat koji, s obzirom na to da su isti, dele 3,5. rang. I tako dalje. Samim tim, sume rangova su identične, kao i dobijene U vrednosti koje su jednake polovini ukupnog broja mogućih poređenja. U našem primeru, to je 15 · 15 ili 225. Obratite pažnju na to da medijana ne mora da se nalazi na polovini interkvartilnog raspona. U ovom primeru, interval kojim je obuhvaćeno prvih 25% rezultata manjih od medijane, veći je od onog u kome se nalazi 25% rezultata najbližih medijani sa desne strane. Dakle, rasponi između Q1 i Q2, odnosno Q2 i Q3, ne obuhvataju četvrtinu raspona skale, već četvrtinu merenja. Na kraju, odaberite treći primer sa liste. Ponovo se uočava da su distribucije zakrivljene, plava ulevo a narandžasta udesno. Osim toga, u grupi podudarnih stimulusa prisutan je aberantan rezultat predstavljen kružićem. Obe navedene činjenice smanjuju pouzdanost t-testa kao procene razlike među populacijama. Za razliku od t-testa, U test sugeriše da je razlika među grupama statistički značajna na nivou 0,05, jer se prilikom njegovog računanja uzimaju u obzir samo pozicije rezultata u nizu ali ne i njihove konkretne vrednosti. Možemo da zaključimo da uzorak brzine prepoznavanja podudarnih stimulusa i uzorak brzine prepoznavanja nepodudarnih stimulusa, najverovatnije ne potiču iz iste populacije.
Već smo rekli da se kutijastim dijagramom najčešće prikazuju medijana, interkvartilni raspon i raspon jedne ili više distribucija podataka. Međutim, dimenzije kutije i raspon „brkova“ mogu da se odrede i drugim merama centralne tendencije, odnosno raspršenja. Na primer, centralni kvadrat može da označava aritmetičku sredinu, kutija raspon obuhvaćen intervalom M ± 1 · s, a „brkovi“ raspon M ± 2 · s. Rasponi kutije i „brkova“ mogu da se definišu i kao intervali pouzdanosti aritmetičkih sredina ako se upotrebi vrednost standardne greške aritmetičke sredine. Naravno, upotreba vrednosti aritmetičke sredine i standardne devijacije prikladna je samo ako se sirovi rezultati mogu približno predstaviti normalnom distribucijom. Ovako dobijeni kutijasti dijagrami uvek će biti simetrični, jer ne prikazuju stvarnu distribuciju rezultata, već onu koja bi se mogla očekivati uz pretpostavku da su raspoređeni normalno. Upotrebite opcije ispod grafikona da biste menjali vrednosti na osnovu kojih se iscrtavaju kutijasti dijagrami i uporedite razlike između opcija Mdn / IKR / R i M / M ± 1 · s / M ± 2 · s za sva tri primera, kao i za podatke koje ste prikupili vežbom.
Kutijasti dijagram je verovatno najpregledniji način poređenja mera grupisanja i raspršenja većeg broja grupa istovremeno. Veličina kutije i raspon „brkova“ su veoma lake za poređenje, jer se posmatra samo jedna dimenzija grafikona. Isto tako, različita dužina „brkova“ sa obe strane ili izmeštenost kvadratića u odnosu na centar kutije, na veoma intuitivan način govori o asimetričnosti distribucije.
Očekuje se da će razlika biti značajna, ali u zavisnosti od toga koju strategiju primeni ispitanik, moguće je da Strupov efekat ne bude izražen.
U obe grupe raspon između Q1 i Mdn isti je kao raspon između Mdn i Q3. To ukazuje na to da je distribucija najverovatnije simetrična. Međutim, IKR plave distribucije očigledno je proporcionalno manji u odnosu na ukupan raspon. Rastojanje od kvadratića do ivice kutije, manje je nego rastojanje od ivice kutije do kraja raspona. Kod narandžaste distribucije ovo rastojanje je približno isto. To pokazuje da je 50% rezultata u plavoj distribuciji obuhvaćeno proporcionalno manjim rasponom vrednosti nego u narandžastoj. Stoga je verovatnije da je plava distribucija normalna a da je narandžasta uniformna.
Ove razlike su manje izražene kod simetričnih distribucija. Ako su distribucije iskošene, nije prikladna upotreba aritmetičke sredine i standardne devijacije za određivanje dimenzija kutije i „brkova“.
Na ovaj način se prikazuje teorijska distribucija koja ima unapred zadate parametre. U teorijskim distribucijama ne postoje aberantni rezultati.
U prvom slučaju kutija obuhvata 50% a „brkovi“ 100% empirijski dobijenih, tj. opaženih rezultata, izuzimajući eventualne autlajere. U drugom slučaju, kutijom je obuhvaćeno oko 68% a „brkovima“ oko 95% teorijskih rezultata, tj. onih koji bi mogli da se očekuju uz pretpostavku da je distribucija normalna.