Koeficijenti korelacije za rangirane podatke

3.7. Koeficijenti korelacije za rangirane podatke

Pirsonov koeficijent korelacije smatra se dovoljno robusnom metodom koja je otporna na blaža odstupanja distribucija od tipične Gausove krive. Međutim, u slučaju postojanja aberantnih rezultata ili značajnijih odstupanja podataka od normalne raspodele, prikladniju meru povezanosti predstavlja neki od neparametrijskih koeficijenata korelacije. To znači da se nivo merenja može i naknadno „spustiti“ kako bi se omogućila primena statističkih metoda manje snage. Na primer, najbolji izbor za iskazivanje stepena povezanosti visine i težine ispitanika jeste Pirsonov koeficijent korelacije, ali ukoliko nisu ispunjeni uslovi za njegovu primenu, potpuno je legitimno da se vrednosti obe varijable rasporede u kategorije (npr. viši, srednji niži, odnosno teži, srednji, lakši) i da se potom izračuna koeficijent kontingencije C. Međutim, prethodno bi trebalo proveriti da li se adekvatnija i preciznija informacija o odnosu među varijablama dobija primenom nekog od koeficijenata korelacije za varijable ordinalnog nivoa merenja. Verovatno najpopularnija metoda ovog tipa je Spirmanov koeficijent ρ (ro), nazvan po engleskom psihologu Čarlsu Edvardu Spirmanu, jednom od pionira u oblasti merenja i opisivanja strukture inteligencije. Spirmanov ρ može da se primeni kod bilo koje kombinacije varijabli ordinalnog ili višeg nivoa merenja (npr. ordinalni-intervalni, racio-ordinalni, intervalni-racio), ali ne i na varijablama nominalnog nivoa. Uobičajeni postupci računanja Spirmanovog ρ i Pirsonovog r potpuno su isti, izuzev što se podaci u slučaju koeficijenta ρ prethodno transformišu u rangove. Ovu transformaciju, naravno, ne obavlja istraživač već statistički program u kome se vrši obrada podataka. Ako ponovo prikažete grafikone za neke od primera koje smo opisali u prethodnom odeljku, primetićete da se vrednosti koeficijenata r i ρ uglavnom neznatno razlikuju. Najočiglednija razlika javlja se ako u grupi merenja postoje aberantni rezultati (npr. Enskombov kvartet 3), pa ćemo sličan primer upotrebiti za kratku ilustraciju logike Spirmanovog ρ.

Odaberite opciju Učenje x bodovi 1 i uklonite sve kružiće sa grafikona. Sada dodajte dvadesetak ispitanika u donji levi kvadrant grafikona, tako da se njihove x vrednosti kreću u rasponu 0 do 20, y vrednosti između 0 i 40, i da je korelacija varijabli veoma niska. Spirmanov ρ bi trebalo da ima nisku i približno istu vrednost kao Pirsonov r. Sada dodajte ispitanika u gornji desni ugao grafikona, npr. sa koordinatama (50, 100). Obratite pažnju na to da se Pirsonov koeficijent korelacije značajno povećao, za razliku od Spirmanovog, koji i dalje nije statistički značajan. Locirajte podatke za poslednjeg dodatog ispitanika u tabeli tako što ćete postaviti pokazivač miša iznad kružića koji ga predstavlja. Već na osnovu boje ćelija u tabeli, a potom i na osnovu ekstremno visokih z vrednosti, jasno je da ispitanik na obe varijable značajno odstupa od proseka svoje grupe. Zbog toga se bitno uvećala suma proizvoda z vrednosti a time i Pirsonov koeficijent korelacije. Međutim, postojanje autlajera nije bitno uticalo na Spirmanov koeficijent, jer se prilikom njegovog računanja podaci tretiraju kao rangovi. Odaberite opciju Prikaži rangove ispod tabele sa leve strane da biste, umesto z vrednosti, prikazali rangove ispitanika. Sada se poslednji dodati student razlikuje od prvog narednog za samo jedan rang, a ne za tri standardne devijacije ili 30 sati, odnosno 60 bodova, kao u prethodnom slučaju. Ponovo odaberite primer Učenje x bodovi 1 i uklonite dva ispitanika koji najviše odstupaju od regresione prave, tako što ćete kliknuti kružiće dok držite pritisnut taster Shift. Oba koeficijenta korelacije dobila su vrednost 1. Osim toga, rangovi studenata na obe varijable postali su isti, što znači da suma njihovih razlika sada iznosi nula. To je, ukratko, logika jedne od formula koja se koristi za računanje Spirmanovog koeficijenta korelacije:

`rho=1-(6SigmaD^2)/(N(N^2-1))`

Simbol D u gornjoj formuli označava razliku rangova za svaki par rezultata. Ako je suma tih razlika nula, Spirmanov ρ će imati vrednost 1. Ako je suma razlika među rangovima maksimalna za dati skup podataka, kao u primeru Pušenje x kapacitet 1, Spirmanov ρ će imati vrednost -1. U većini programa za statističku obradu, za računanje Spirmanovog koeficijenta korelacije koriste se formule pomoću kojih se računa i Pirsonov r. One su prikladnije od gore navedene formule u situacijama kada postoje spojeni rangovi.

Pored Spirmanovog ρ, stepen povezanost varijabli rang nivoa često se iskazuje i Kendalovim τ (tau) koeficijentom koji se bazira na određivanju broja invertovanih ili diskordantnih (nesaglasnih) rangova. Vrednosti jedne varijable se najpre sortiraju a potom se obavi međusobno poređenje rangova na drugoj varijabli. Invertovanim se smatraju parovi rangova druge varijable u kojima se viši rang nalazi ispod nižeg. Odaberite primer Enskombov kvartet 1 i opciju Prikaži rangove. U prvom redu postoji samo jedan invertovani rang jer se u koloni R_y vrednost 1 nalazi ispod vrednosti 2. U drugom redu broj nesaglasnih rangova je 4, jer se ispod 6 nalaze 1, 4, 5 i 3. U trećem redu ih nema jer je 1 najviši rang. I tako dalje. Ukupan broj takvih poređenja iznosi N · (N - 1) : 2, a lako se može izračunati i broj konkordantnih (saglasnih) rangova. Kendalov τ se nakon toga izračunava prema formuli:

`tau=(K-D)/(K+D)`

ili prema formuli:

`tau=1-(4D)/(N(N-1))`

gde je K broj saglasnih, D broj nesaglasnih rangova, a N veličina uzorka. Kendalov τ se smatra boljim pokazateljem povezanosti od Spirmanovog ρ za podatke ordinalnog nivoa merenja, zato što daje tačniju procenu parametara, tj. stvarne korelacije u populaciji. Stoga se može izračunati i njegova standardna greška, za razliku od Spirmanovog ρ gde to nije moguće (Howell, 2012).

U literaturi se često pominje i Gudmen–Kraskalov γ (gama) koeficijent, ali ga ovde nećemo detaljnije opisivati jer se bazira na veoma sličnoj logici kao i τ. Različiti statistički paketi koriste različite formule za računanje Kendalovog koeficijenta, tako da se pored opisanog τ, koji se često označava sa tau-a, nude i njegove modifikacije tau-b i tau-c u kojima se vrednost koeficijenta koriguje s obzirom na broj spojenih rangova. Generalno gledano, τ i γ su bolja rešenja od Spirmanovog ρ u slučaju velikog broja spojenih rangova, što znači da se mogu primeniti čak i na tabelama kontingencije ukoliko postoji osnov da se redovi i kolone sortiraju po nekom kriterijumu. Na kraju, treba naglasiti da se opisani koeficijenti korelacije rangova ne smeju posmatrati kao podrazumevane alternative Pirsonovom r. Oni jesu bolje rešenje kada varijable nisu normalno distribuirane ili su merene na ordinalnom nivou merenja, ali su podjednako osetljivi na odstupanja koja se tiču nelinearnog odnosa među varijablama, ograničenja raspona ili heteroskedasticiteta. Na primer, ukoliko na grafikonu iscrtate kružiće u obliku slova U, videćete da su oba koeficijenta korelacije niska. To, naravno, ne znači da varijable nisu povezane, već samo da im je odnos nelinearan. O tome je već bilo reči u odeljku 3.5.1. Kada biste vrednosti varijabli izdelili u kategorije i izračunali koeficijent kontingencije C, korelacija bi najverovatnije bila visoka i značajna.