Značajnost razlika uparenih podataka nominalnog nivoa

3.10. Značajnost razlika uparenih podataka nominalnog nivoa

Ukoliko su „merenja“ varijabli obavljena na nominalnom nivou, primena prethodno opisanih neparametrijskih alternativa t-testu nije moguća. Osim toga, čak i ako su varijable ordinalnog nivoa ali imaju mali broj mogućih vrednosti, testiranje hipoteza o postojanju razlika između uparenih merenja bi trebalo da se obavlja pomoću tehnika baziranih na tabelama kontingencije, odnosno na hi-kvadrat testu. U vezi sa tim, u poglavlju 3.5.4. naglasili smo da je jedan od bitnih uslova za računanje hi-kvadrat testa nezavisnost opservacija. U slučaju zavisnih uzoraka, ovaj uslov ne može da bude ispunjen, pa je potrebno primeniti drugačije postupke za računanje χ² vrednosti. U ovom odeljku ćemo opisati neke od najčešće korišćenih statističkih postupaka ove vrste. Za grafičko predstavljanje podataka koristićemo dijagram toka, sličan onome koji je napravio Šarl Minar da bi ilustrovao napredovanje Napoleonove vojske u pohodu na Rusiju. U primeru Energetska pića prikazani su efekti kampanje informisanja o zdravoj ishrani, koja je sprovedena u nekoliko srednjih škola u toku jednog polugodišta. Đaci su na početku i na kraju polugodišta popunjavali kratak upitnik o navikama u ishrani, pri čemu su odgovarali i na pitanje da li konzumiraju energetska pića. Na desnoj strani interaktivnog okvira prikazana je tabela kontingencije koja je formirana ukrštanjem vrednosti prvog i drugog merenja. Na levoj strani nalazi se dijagram na kome boja i visina pravougaonika označavaju učestalost odgovora DA i NE, a širina traka broj đaka u svakoj od četiri kategorije nastale ukrštanjem: DA (početak) – DA (kraj), DA – NE, NE – DA i NE – NE. Ovu vrstu grafikona popularizovao je irski inženjer Metju Henri Senki vizualizujući efikasnost parne mašine, odnosno pravce protoka energije prilikom njenog rada. Stoga su dijagrami toka poznati i kao Senkijevi dijagrami. U literaturi se ponekad upotrebljava i termin aluvijalni dijagrami zato što isprepletane trake različitih širina, kojima se prikazuje veličina promene između dve ili više tačaka, podsećaju na aluvijalne ravni, tj. rečne nanose (lat. alluvio) nastale izlivanjem ili promenom rečnog toka.

Koliko kolona i koliko redova ima matrica sirovih podataka iz koje je nastala prikazana tabela kontingencije? Kako biste nazvali kolone u matrici?

Zbog čega tabela kontingencije u ovom primeru ne bi mogla i ne bi trebalo da se formira ukrštanjem vremena merenja (PRE / POSLE) i odgovora na pitanje (DA / NE)?

3.10.1. Maknimarov test

Na osnovu visine pravougaonika na levoj strani Senkijevog dijagrama za primer Energetska pića, može se zaključiti da je broj đaka koji su konzumirali energetska pića pre kampanje, bio gotovo jednak broju onih koji nisu. Taj broj je vidljivo opao u drugom merenju, tj. na kraju polugodišta. Najšira traka na grafikonu prikazuje kategoriju NE – NE, odnosno 144 đaka koji ni pre ni posle kampanje nisu pili energetska pića. Sledeća kategorija po veličini je grupa od 109 đaka koji su u toku polugodišta prestali da konzumiraju energetska pića (DA – NE). Širina ove trake sugeriše da je kampanja verovatno uticala na promenu ponašanja, ali da bismo utvrdili da li je ova promena i statistički značajna, potrebno je izračunati χ² test. Pri tome nas ne interesuje da li je svaki pojedinačni ispitanik promenio svoj stav, već da li su se promenile proporcije odgovora DA i NE u drugom merenju. To znači da nam nisu bitne ćelije tabele u kojima se nalazi broj đaka koji nisu promenili stav (DA – DA i NE – NE), nego one koje govore o promeni. Ako ćelije sleva nadesno i od gore ka dole označimo slovima a, b, c i d, to su frekvencije u ćelijama b (promena iz DA u NE) i c (promena iz NE u DA). Kada ne bi bilo promene u proporciji odgovora između prvog i drugog merenja, pravougaonici sa leve i desne strane bili bi iste visine, a vrednosti u ćelijama b i c bile bi jednake. Pošto je u našem primeru 109 + 15 = 124 đaka promenilo navike, u skladu sa nultom hipotezom bismo očekivali da ih je 124 : 2 = 62 prešlo iz grupe DA u grupu NE, a 62 iz grupe NE u grupu DA. Značajnost odstupanja opaženih vrednosti 109 i 15 od teorijskih 62 i 62 možemo da testiramo u odnosu na verovatnoće ishoda u binomnoj distribuciji, što je analogno ranije opisanom Testu predznaka. Alternativno, može se primeniti i opšta formula za χ² test:

`chi^2=Sigma(f_o-f_t)^2/f_t`

U slučaju zavisnih uzoraka, vrednosti f_o su frekvencije u ćelijama b i c, a f_t očekivane frekvencije koje se izračunavaju kao (b + c) : 2. Kada ove podatke uvrstimo u gornji izraz i svedemo ga na jednostavniju formu, dobijamo formulu za izračunavanje hi-kvadrat testa za zavisne uzorke. Nju je predložio američki psiholog Kvin Maknimar (McNemar, 1947), te se stoga ovaj postupak često naziva i Maknimarov χ² test:

`chi^2=(b-c)^2/(b+c)`

Slova b i c u gornjoj formuli označavaju frekvencije ćelija nastalih ukrštanjem diskordantnih vrednosti varijable. To ne moraju da budu druga i treća ćelija tabele. Da smo tabelu napravili tako da je prva kolona bila NE, a druga DA, tada bi o promeni govorile ćelije a i d. Ako uz to primenimo i Jejtsovu korekciju, koja se preporučuje u slučaju tabela dimenzija 2 x 2, dolazimo do najčešće korišćene formule za Maknimarov χ² test sa korekcijom za kontinuitet:

`chi^2=(|a-d|-1)^2/(a+d)`

Širinu trake na prikazanom Senkijevom grafikonu možete da menjate tako što je kliknete, zadržite pritisnut taster miša i pomerate pokazivač nagore ili nadole. Na opisani način postavite frekvenciju ćelije b (DA – NE) u primeru Energetska pića na 15. Sada su veličine promena u oba pravca iste, što znači da se one međusobno potiru i da ne postoji značajna promena na nivou grupe. Prikazana χ² vrednost ipak nije nulta zato što je za njeno izračunavanje primenjena formula sa Jejtsovom korekcijom. Sume redova i kolona, odnosno marginalne frekvencije, jednake su po kategorijama odgovora – 159 đaka je odgovorilo NE a 47 đaka DA, kako na početku, tako i na kraju polugodišta. Koristeći statističku terminologiju, može se reći da su distribucije marginalnih frekvencija homogene. Otuda naziv testovi marginalne homogenosti za grupu metoda kojima se testira značajnost promena uparenih rezultata merenja nominalnog nivoa kojima pripada i Maknimarov test. Smanjite širinu najšire trake na Senkijevom dijagramu, odnosno frekvenciju ćelije NE – NE, na 5 i obratite pažnju na dve stvari. Prvo, ova promena uopšte nije uticala na vrednost χ² testa jer je marginalna homogenost ostala očuvana. Drugo, sve ostale trake na dijagramu postale su šire, ali ne zato što se povećala frekvencija odgovarajućih ćelija, već zato što se povećala njihova relativna proporcija u odnosu na ukupnu veličinu uzorka. U tom smislu, treba obratiti pažnju na to da Senkijev dijagram pruža informacije o relativnom odnosu među kategorijama, ali ne o broju merenja ili veličini uzorka, slično kao kružni (torta) dijagram. Sa druge strane, ako povećavate učestalost u ćeliji c (NE – DA), primetićete da sa sve većim narušavanjem marginalne homogenosti, vrednost χ² testa postaje sve veća a razlika sve značajnija. Prostije rečeno, proporcija odgovora više nije ista ako se uporede prvo i drugo merenje.

Kako bi trebalo izmeriti konzumaciju energetskih pića da bi se omogućila primena t-testa za zavisne uzorke? Objasnite zbog čega bi u toj situaciji Maknimarov test imao manju snagu od t-testa za zavisne uzorke?

Pomeranjem traka napravite primer u kome je 200 od 210 ispitanika promenilo svoje ponašanje ali razlika između prvog i drugog merenja nije statistički značajna. Da li je ovaj rezultat, po vašem mišljenju, logičan i opravdan?

Da li bi neki od postupaka pomenutih u ranijim odeljcima ipak mogao da ukaže da u primeru koji ste formirali postoji statistički značajna pravilnost?

3.10.2. Koenova kapa

Odaberite primer Depresivnost 1. U grupi ispitanika primenjena su dva upitnika kojima se dijagnostikuje depresivni poremećaj. U pitanju su upareni rezultati, tako da je opravdano primeniti nacrt za zavisne uzorke, odnosno ponovljena merenja. Kao što smo više puta naglasili, neparametrijski testovi mogu da se računaju i na varijablama višeg nivoa, ako se njihove vrednosti pre toga transformišu u rangove ili kategorije. Na primer, skorovi na upitniku mogu da se veštački dihotomizuju, podelom ispitanika u grupe onih koji imaju kliničke simptome depresije (DA) i onih kod kojih ti simptomi nisu izraženi u značajnoj meri (NE). Ovoga puta nas interesuje da li postoji razlika u proceni simptoma depresije na osnovu dva upitnika. Kada bismo za proveravanje ove hipoteze upotrebili Maknimarov test, zaključak bi bio da nema razlike, zato što se u diskordantnim kategorijama (DA – NE i NE – DA) nalazi podjednak broj ispitanika, te je vrednost χ² niska. Ovaj zaključak je, naravno, neopravdan, jer je očigledno da su dijagnoze donete uz pomoć dva upitnika zapravo potpuno suprotne, ako se posmatraju ishodi na nivou pojedinaca. Ova nelogičnost proizilazi iz činjenice da Maknimarov test govori o proporciji događaja na nivou grupe, a ovoga puta je potreban podatak o saglasnosti dva upitnika na nivou individualnih promena. Jedan od najčešće korišćenih indikatora saglasnosti je Koenova kapa (Cohen, 1960). Kapa koeficijent označava se grčkim slovom κ i pokazuje stepen slaganja dva procenjivača ili dva instrumenta za procenu, na varijablama nominalnog nivoa. Zamislimo da su procenu postojanja simptoma depresije obavila dva klinička psihologa na osnovu intervjua sa klijentom. Kapa koeficijent računa se tako što se porede opažene i očekivane frekvencije u jednoj od dijagonala tabele kontingencije, obično glavnoj, tj. onoj koja se proteže od gornje leve do donje desne ćelije:

`kappa=(Sigmaf_o-Sigmaf_t)/(N-Sigmaf_t)`

U našem primeru, vrednosti f_o su 5 i 7, a vrednosti f_t se dobijaju na način koji smo opisali u odeljku o hi-kvadrat testu. Rezultat je broj između -1 i 1 koji se interpretira na sličan način kao i drugi koeficijenti povezanosti. Smernice za interpretaciju Koenove kape date su u Tabeli 4. U primeru sa procenom depresivnosti, vrednost κ je manja od nule, što znači da saglasnost ne postoji. Štaviše, njena apsolutna vrednost toliko je visoka, da bismo mogli da kažemo da postoji visok stepen neslaganja među procenama, iako je Maknimarov test pokazao da razlika među merenjima ne postoji. Slična prividna nelogičnost postoji i u primeru Depresivnost 2. Maknimarov test upućuje na postojanje značajnih razlika među procenama, ali uvidom u tabelu kontingencije i vrednost kapa koeficijenta, ipak možemo da zaključimo da je slaganje relativno visoko, uzimajući u obzir ukupnu veličinu uzorka. Ako dodatno povećavate frekvencije u ćelijama a i d, proširivanjem najširih traka na Senkijevom dijagramu, primetićete da vrednost κ raste.

Tabela 4. Smernice za interpretaciju visine koeficijenta korelacije

Vrednost κ	Interpretacija κ	Koeficijent determinacije
< 0,00	saglasnost manja od slučajne
0,01–0,20	beznačajna saglasnost	0–4%
0,21–0,39	minimalna saglasnost	4–15%
0,40–0,59	slaba saglasnost	16–35%
0,60–0,79	umerena saglasnost	36–63%
0,80–0,90	visoka saglasnost	64–81%
0,91–1,00	(gotovo) potpuna saglasnost	82–100%

3.10.3. Testovi marginalne homogenosti za politomne varijable

Maknimarov test namenjen je poređenju dveju dihotomnih varijabli. Ukoliko varijable imaju više od dva nivoa, potrebno je primeniti neki od testova marginalne homogenosti za tabele kontingencije većih dimenzija. U ovom odeljku ćemo opisati dva postupka koji predstavljaju prikladne predstavnike različitih pristupa analizi homogenosti marginalnih distribucija u tabelama kontingencije većim od 2 x 2. Postupke njihovog izračunavanja nećemo prikazivati, jer zahtevaju primenu nešto složenijih procedura matrične algebre. Odaberite primer Zadovoljstvo 1. U pitanju su rezultati ankete o zadovoljstvu kupaca rasporedom proizvoda u lancu supermarketa. Distribucija marginalnih frekvencija odgovora prikupljenih u januaru (poslednja kolona) govori da je najveći broj potrošača bio neopredeljen (53), a da je podjednak broj njih ocenio raspored artikala pozitivno (21), kao i negativno (23). Ova distribucija se očigledno razlikuje od marginalne distribucije odgovora u maju (poslednji red) kada je najviše kupaca dalo negativnu ocenu. Dakle, značajan broj anketiranih osoba promenio je mišljenje i „prešao“ iz kategorije neodlučnih u kategoriju nezadovoljnih. Ova promena vidi se kao najšira traka na dijagramu. Vrednost χ² testa iznosi 20,24, tako da je razlika statistički značajna.

Za računanje χ² vrednosti u prethodnom primeru, primenjen je Stjuart–Maksvelov test (Maxwell, 1970; Stuart, 1955) koji predstavlja generalizaciju Maknimarovog testa na tabele kontingencije dimenzija većih od 2 x 2. To znači da Maknimarov i Stjuart–Maksvelov test imaju iste vrednosti kada se izračunaju na paru dihotomnih varijabli, odnosno merenja. Međutim, treba obratiti pažnju da se za obradu uparenih rezultata merenja na kategorijalnim varijablama upotrebljavaju i algoritmi koji tretiraju odgovore kao rangove (Agresti, 1983), što može bitno da utiče na ishod zaključivanja o postojanju razlike. Ilustrovaćemo ovaj problem primerom Zadovoljstvo 2. Ponovo su u pitanju odgovori anketiranih potrošača, ali smo ih ovoga puta označili brojevima: 3 – zadovoljan, 2 – neodlučan i 1 – nezadovoljan. Distribucije marginalnih frekvencija očigledno su potpuno drugačije, tako da Stjuart–Maksvelov test pokazuje da je razlika između odgovora iz januara i onih koji su prikupljeni u maju, statistički značajna. Međutim, ako se primeni algoritam koji se primenjuje u nekim od popularnih statističkih paketa (IBM, 2016), zaključak može da bude potpuno suprotan. Dok držite pritisnut taster Ctrl, umesto Stjuart–Maksvelovog χ² testa biće vidljiva T vrednost ili tzv. MH statistik. MH statistik predstavlja neku vrstu aritmetičke sredine marginalnih frekvencija i ukazuje na to da razlika nije statistički značajna. Naime, ukoliko izračunamo aritmetičke sredina marginalnih frekvencija odgovora, uočićemo da su one iste – (36 · 3 + 111 · 2 + 47 · 1) : 194 = (75 · 3 + 33 · 2 + 86 · 1) : 194 ≈ 1,94. Iako se distribucije odgovora potpuno razlikuju, njihove aritmetičke sredine su iste. Dakle, oba zaključka su opravdana i imaju potporu u rezultatima statističke obrade. Ali odluku o tome koji od njih je smisleniji, mora da donese istraživač u kontekstu daljih implikacija tog zaključka. U ovom primeru, verovatno je opravdaniji zaključak da se struktura odgovora ispitanika značajno izmenila u periodu od januara do maja.

Menjajte frekvenciju kategorija 1 – 1 a potom i 1 – 2 u primeru Zadovoljstvo 2. Posmatrajte kako promene utiču na vrednost χ², odnosno T testa. Zbog čega promene frekvencija u glavnoj dijagonali tabele kontingencije ne utiču na vrednosti testova homogenosti marginalnih frekvencija?

U vezi sa prethodno pomenutim situacijama u kojima dva testa mogu da dovedu do potpuno suprotnih zaključaka, trebalo bi naglasiti da ranije opisani kapa koeficijent nije koeficijent korelacije poput C ili ϕ koeficijenata, iako na to upućuje raspon njegovih vrednosti. Odaberite primer Agresivnost sa liste. U pitanju je tabela kontingencije koja prikazuje saglasnost roditelja u proceni agresivnosti njihove dece na skali od 1 do 3. Činjenica da roditelji ocenjuju isto dete, omogućava uparivanje njihovih odgovora i primenu postupaka namenjenih poređenju zavisnih uzoraka. Kapa koeficijent od 0,16 ukazuje na zanemarljivo slaganje roditelja u proceni agresivnosti deteta, jer se veliki broj parova rezultata nalazi van glavne dijagonale. Sa druge strane, vrednost χ² testa je statistički značajna, što na prvi pogled nije u suprotnosti sa prethodnim zaključkom, pošto je opravdano reći da postoji razlika u proceni agresivnosti deteta od strane oba roditelja. Međutim, to istovremeno pokazuje da u tabeli kontingencije postoji određena pravilnost, tj. veza između odgovora očeva i odgovora majki. Intenzitet te veze može da se iskaže C koeficijentom kontingencije, koji bi u ovom slučaju iznosio oko 0,42 i bio bi statistički značajan. Dakle, iako ne postoji saglasnost između ocena roditelja, može se reći da je njihova korelacija umerena. Ukoliko podrobnije analiziramo frekvencije u tabeli kontingencije, uočićemo da ćelije 1 – 2, 2 – 3 i 3 – 3 imaju najveće učestalosti. Povezanost odgovora roditelja zapravo se ne ogleda u slaganju, odnosno sličnosti njihovih procena, već u pojavi da majke sistematski daju nešto više ocene od očeva. Moguće objašnjenje ovakvog rezultata je to što su očevi možda u većoj meri tolerantni na agresivno ponašanje svoje dece ili su majke osetljivije po tom pitanju. Ovo je još jedna ilustracija koja govori u prilog upozorenju da podatke treba analizirati iz više uglova i na različite načine, kako bi se doneo potpun i validan zaključak o fenomenima koji se istražuju.

Matrica ima 300 redova i dve kolone. U svakoj koloni pojavljuju se vrednosti DA i NE, a varijable bi mogle da se nazovu pre i posle ili početak i kraj (polugodišta).

U tabelama kontingencije svaki ispitanik, odnosno svako merenje, može i mora da se nađe u samo jednoj od ćelija. U slučaju zavisnih uzoraka, to znači da pozicija u ćeliji mora da bude određena vrednostima na prvom i drugom merenju, npr. DA – DA ili NE – DA. Kada bi tabela bila formirana na način koji je naveden u pitanju, isti ispitanik bi se našao u dve ćelije, što nije dozvoljeno.

Ako bismo, na primer, upotrebu energetskih pića izrazili kao količinu ispijenu u toku nedelju dana, mogli bismo da primenimo t-test za zavisne uzorke. Ako se konzumacija izrazi dihotomno, sve „fine“ razlike ostaju skrivene, pa đaci koji popiju jedno piće nedeljno i dva pića dnevno spadaju u istu kategoriju. Merenje varijable na razmernom nivou povećava verovatnoću utvrđivanja kvantitativne razlike među grupama.

Frekvencije ćelija a, b, c i d treba da se postave na vrednosti 5, 100, 100, 5. Razlika nije značajna na nivou cele grupe pošto je odnos broja đaka koji piju i onih koji ne piju energetska pića posle kampanje isti kao i pre nje. Međutim, očigledno je da se na nivou pojedinaca desila drastična promena, jer su svi đaci listom promenili svoje ponašanje. Ovaj fenomen bi sigurno trebalo dodatno istražiti.

Koeficijent korelacije ϕ ukazao bi na postojanje visoke povezanosti, odnosno pravilnosti u odnosu promena na prvom i drugom merenju.

Promena vrednosti u ćeliji 1 – 1 ne utiče na vrednosti testova, jer se na taj način menjaju iste marginalne frekvencije vrednosti prvog i drugog merenja. Logika testova marginalne homogenosti bazira se na analizi ćelija van glavne dijagonale, na osnovu kojih se može zaključiti da je velika verovatnoća ishoda na prvom merenju, povezana sa velikom verovatnoćom drugačijeg ishoda na drugom. Stoga, promena u ćeliji 1 – 2 utiče na vrednosti testova i povećanje njihove značajnosti.