3.6. Pirsonov produkt-moment koeficijent korelacije
U prethodnom odeljku ukratko smo objasnili pojam korelacije na primeru parova kategorijalnih varijabli. Pokazali smo da se pomoću C, ϕ i V koeficijenata može izraziti jačina zajedničkog variranja dve pojave, odnosno stepen u kome je verovatnoća ishoda na jednoj varijabli, povezana sa podjednakom verovatnoćom određenih ishoda na drugoj. Na primer, ukoliko u istraživanju utvrdimo da osobe koje se bave sportom ređe oboljevaju od srčanih oboljenja u odnosu na osobe koje nisu fizički aktivne, možemo da pretpostavimo da su fizička aktivnost i rizik od srčanih oboljenja na neki način povezani. Osim toga, primeri sa koeficijentima korelacije baziranim na χ
2 testu, najbolje ilustruju činjenicu da su pitanja postojanja razlika i postojanja povezanosti veoma slična i da predstavljaju samo drugačiji pogled na isti istraživački problem. U oba slučaja cilj je da se utvrdi postojanje pravilnosti, odnosno fenomena koji se nisu desili potpuno slučajno i/ili nasumično. Na primer, ukoliko se dečaci i devojčice razlikuju u učestalosti grickanja noktiju, to nam govori da postoji povezanost između pola i grickanja. Međutim, s obzirom na to da se baziraju na χ
2 testu, pomenuti koeficijenti nisu najbolje rešenje ukoliko je potrebno utvrditi stepen povezanosti varijabli intervalnog ili racio nivoa. Tada se obično koristi
Pirsonov produkt-moment koeficijent korelacije. Uzmimo kao primer
grupu studenata koji su polagali ispit iz nekog predmeta. Za svakog studenta postoji podatak o polu, broju bodova koje je osvojio na testu i broju sati koje je, prema sopstvenoj proceni, proveo u spremanju ispita. Uz pomoć t-testa mogli bismo da proverimo da li postoji statistički značajna razlika u uspehu ili dužini učenja između studentkinja i studenata. Sa druge strane, jasno je da t-testom nije moguće proveriti da li postoji razlika između uspeha i dužine učenja, jer su varijable izražene u različitim mernim jedinicama i samim tim su njihove aritmetičke sredine neuporedive. Poređenje ne bi bilo moguće čak ni kada bismo vrednosti obe varijable transformisali u z skorove, jer bi tada njihove aritmetičke sredine bile svedene na nulu. Međutim, standardizacija varijabli omogućava donošenje jednog drugačijeg ali podjednako važnog zaključka o ovim dvema varijablama. Ukoliko nakon pretvaranja sirovih bodova u z skorove uočimo da su vrednosti na jednoj varijabli „uparene“ sa sličnim vrednostima na drugoj, moći ćemo da zaključimo da su promene na tim varijablama međusobno povezane, tj. da dve varijable u značajnoj meri
kovariraju.
Uobičajeno je da se kovariranje varijabli vizualizuje uz pomoć dijagrama raspršenja ili skater-dijagrama (engl. scatter plot). Dijagram se sastoji od apscise na kojoj su podeoci skale za varijablu X i ordinate sa podeocima za varijablu Y. U našem primeru, varijabla X je dužina učenja a varijabla Y uspeh na testu. Ispitanici se predstavljaju kružićima ili tačkama raspršenim u tako formiranom dvodimenzionalnom prostoru. Svaka tačka ima svoje koordinate ili projekcije na x-osu i y-osu. Klikom na prazan grafikon dodajte kružić čije su koordinate (50, 100), odnosno studenta koji se za ispit pripremao 50 sati i na testu osvojio 100 poena. Da biste lakše obavili zadatak, prikažite linije projekcija tako što ćete držati pritisnut taster Ctrl na tastaturi. Koordinate kursora prikazane su u gornjem desnom uglu grafikona. Kao što se vidi iz tabela sa leve i desne strane grafikona, na osnovu jednog para rezultata nije moguće izračunati standardne devijacije varijabli, pa tako ni odgovarajuće z skorove. Sada na grafikon dodajte studenta koji je nakon 10 sati učenja postigao 20 bodova na testu, tj. kružić sa koordinatama (10, 20). Dodatni par rezultata omogućava računanje varijansi obe varijable prema poznatoj formuli:
`s_X^2=(Sigma(x-M_X)^2)/(N-1)`
, odnosno
`s_Y^2=(Sigma(y-M_Y)^2)/(N-1)`
što se može izraziti i na sledeći način:
`s_X^2=(Sigma(x-M_X)(x-M_X))/(N-1)`
, odnosno
`s_Y^2=(Sigma(y-M_Y)(y-M_Y))/(N-1)`
Kombinacijom ovih formula mogli bismo da izračunamo stepen zajedničkog variranja varijabli X i Y, odnosno njihovu kovarijansu:
`s_(XY)^2=(Sigma(x-M_X)(y-M_Y))/(N-1)`
Vrednost kovarijanse govori o intenzitetu u kome su promene na jednoj varijabli praćene promenama na drugoj. U našem primeru ta vrednost bi trebalo da je visoka, jer je pozitivno odstupanje od prosečne dužine učenja (50 od 30) povezano sa pozitivnim odstupanjem u osvojenom broju bodova (100 od 60), i obratno – negativno odstupanje rezultata na jednoj varijabli (10 od 30) povezano je sa negativnim odstupanjem na drugoj (20 od 60). Prostije rečeno, student koji je duže učio, dobio je više bodova na testu. Jasno je da nam uzorak od samo dva ispitanika ne daje za pravo da donosimo zaključke o celoj populaciji, ali suština je da ova dva para rezultata sugerišu da su dužina učenja i uspeh na testu povezani, tj. da su u korelaciji.
Izražavanje povezanosti dve varijable kovarijansom je nepraktično zato što njena maksimalna vrednost, baš kao i maksimalne vrednosti varijansi, nije ograničena i zavisi od mernih jedinica skala kojima su merene varijable. Da bi se ovaj problem rešio, kovarijansa se standardizuje deljenjem sa standardnim devijacijama obe varijable. Ovaj postupak je potpuno analogan računanju z vrednosti za pojedinačne rezultate. Tako dobijena standardizovana kovarijansa predstavlja pomenuti Pirsonov koeficijent korelacije, koji se označava slovom r:
`r=(Sigma(x-M_X)(y-M_Y))/((N-1)s_Xs_Y)`
Standardizovana vrednost kovarijanse uvek se kreće u intervalu od -1 do 1. Postoje i drugačije formule za računanje Pirsonovog r, ali se na osnovu ove jasno vidi da je u pitanju prosek proizvoda (produkata) standardizovanih odstupanja rezultata od aritmetičkih sredina (momenata) varijabli. Otuda i naziv produkt-moment koeficijent korelacije:
`r=(Sigmaz_xz_y)/(N-1)`
Odgovarajuće z vrednosti za broj bodova i broj sati prikazane su u kolonama pored tabele sirovih rezultata sa leve strane grafikona. Obratite pažnju na to da su standardizovana odstupanja na varijablama za oba ispitanika potpuno jednaka, kao i da su proizvodi tih odstupanja pozitivni. Samim tim, suma proizvoda z vrednosti po redovima daje vrednost koja je najveća moguća za uzorak veličine 2. Stoga je i vrednost r maksimalna i iznosi +1. Ovakvu korelaciju nazivamo potpunom, jer svakom rezultatu na x-osi, odgovara samo jedan rezultat na y-osi. To znači da se odnos dve varijable može predstaviti funkcijom koja je na grafikonu prikazana crvenom pravom:
`y=b*x`
gde je b koeficijent kojim treba pomnožiti vrednost varijable X, da bi se dobila odgovarajuća vrednost varijable Y. U našem primeru ta vrednost je 2, što znači da studenti dobijaju duplo više bodova od broja sati koje su uložili u pripremu ispita. Štaviše, ukoliko je korelacija dužine učenja i uspeha na testu potpuna, moguće je „predvideti“ broj bodova koje će student osvojiti na testu, ako je poznato koliko sati je proveo u spremanju ispita. Na primer, pritisnite taster Ctrl i postavite kursor na pravu iznad vrednosti 30 na x-osi. Uočićete da su koordinate te tačke (30, 60), što znači da na osnovu dobijene formule očekujemo da student koji je učio 30 sati, osvoji 60 bodova na testu. Dodajte ovu tačku na grafikon i pogledajte kako je to uticalo na z vrednosti. Dodavanje ispitanika koji je potpuno prosečan na obe varijable, nije izmenilo aritmetičke sredine varijabli ali je smanjilo standardne devijacije. U skladu sa tim, prethodna dva ispitanika sada značajnije odstupaju od vrednosti MX i MY ali je prosek umnožaka svih odstupanja i dalje 1. Standardizovana odstupanja svakog ispitanika od proseka i dalje su potpuno jednaka na obe varijable, što je vizuelno predstavljeno različitim nijansama zelene i crvene boje. Dodavanje novih ispitanika na liniju možda će izmeniti aritmetičke sredine varijabli i odgovarajuće z vrednosti sirovih rezultata, ali ne i vrednost r, koja će ukazivati da između broja bodova i broja sati postoji potpuna korelacija. Dodajte, na primer, kružiće (studente) čije su koordinate (42, 84) i (4, 8). Ukoliko napravite grešku prilikom određivanja koordinata, kružić možete da uklonite ako ga kliknete dok držite pritisnut taster Shift na tastaturi. Svi kružići sa grafikona uklanjaju se klikom na ikonicu kante za otpatke pored padajuće liste.
3.6.1. Regresiona jednačina i regresiona prava
Potpuna povezanost varijabli sreće se veoma retko u svakodnevnom životu. U tom smislu, naš prethodni primer nije realan, jer se ne može očekivati da je vreme provedeno u učenju jedini faktor uspeha na testu. Na primer, studenti koji su redovno pohađali nastavu verovatno će uspešnije savladati ispitne zadatke, čak i ako su na učenje potrošili manje vremena od onih koji nisu bili redovni u obavljanju predispitnih aktivnosti.
Dodajte na grafikon kružić sa koordinatama (42, 45). Ovaj student je na učenje potrošio isti broj sati kao i student predstavljen kružićem (42, 84), ali ipak nije uspeo da osvoji 84 poena već samo 45. U levoj tabeli se vidi da par z skorova poslednjeg dodatog studenta odstupa od pravilnosti na koju upućuje visoka korelacija, jer je za natprosečnu dužinu učenja osvojio ispodprosečan broj bodova. Obratite pažnju na to da su izmenjene i sve ostale z vrednosti, kao i stepen njihovog slaganja. Zbog svega toga, koeficijent korelacije više nije maksimalan, ali je i dalje veoma visok i iznosi 0,91. Dodajte još jednog studenta čiji podaci odstupaju od pomenute pravilnosti, ovoga puta sa koordinatama (8, 92). Ovaj student je, uz relativno malo utrošenog vremena, ostvario odličan učinak na testu. Posmatrajte kako se promenila vrednost r i usklađenost boja, odnosno z vrednosti u tabeli sa leve strane. Za razliku od parova z vrednosti u prvih 5 slučajeva gde su boje ćelija bile usklađene zbog odstupanja vrednosti u istom smeru na obe varijable, kod poslednja dva dodata ispitanika boje su upravo suprotne. Pirsonov koeficijent korelacije opao je na 0,57, jer je pravilo „što više sati učenja – to više bodova“ sada slabije potkrepljeno empirijskim podacima. Očigledno je da studenti za isti ili sličan broj uloženih sati učenja, mogu da dobiju bitno drugačiji broj bodova na testu, tj. da sa malo uloženog truda mogu da ostvare dobar rezultat i obratno. To znači da korelacija varijabli nije potpuna, ali i da prognoza uspeha na testu ne bi bila dovoljno pouzdana ako bi se bazirala (samo) na podatku o vremenu provedenom u učenju. Očigledno je da kružići više ne mogu da budu raspoređeni duž jedne prave linije, te je ona povučena tako da bude u najvećoj meri „fer“ za sve njih. Statistički i geometrijski, „fer“ znači da su položaj i pravac linije određeni tako da je udaljenost kružića od nje ista sa gornje i donje strane, odnosno da je suma tih odstupanja nula. Može se reći da je linija u stvari „dvodimenzionalna aritmetička sredina“ varijabli X i Y koja aproksimira njihov međusobni odnos. Pošto ona ne mora uvek da prolazi kroz centar koordinatnog sistema, potpunija formula koja je opisuje glasi:
`y'=a+b*x`
Gornji izraz je poznat kao regresiona jednačina, a linija koju ona definiše naziva se regresiona prava. Simbol ‘ u gornjoj formuli čita se „prim“ i ne označava empirijsku vrednost y koja je dobijena u istraživanju i koja je bila uparena sa odgovarajućom vrednošću x u tabeli sirovih podataka, već onu koja mogla da se očekuje na osnovu date vrednosti x. Pomoću jednačine ili prave, algebarski ili geometrijski, može da se izračuna vrednost y’ ako su poznate vrednosti x, a i b. Postupak kojim se dolazi do regresione jednačine, odnosno modela koji opisuje odnos dveju varijabli, naziva se jednostavna linearna regresija. Ona je uobičajena nadogradnja ili nastavak korelacione analize kojom je utvrđen stepen povezanosti dve varijable. U postupku regresione analize, koeficijent b se određuje kao odnos kovarijanse varijabli i varijanse varijable X, odnosno:
`b=(Sigma(x-M_X)(y-M_Y))/(Sigma(x-M_X)^2)`
pošto se izraz N - 1 u brojiocu i imeniocu potire. Potom se računa konstanta a prema formuli:
`a=M_Y-b*M_X`
U primeru sa satima i bodovima vrednosti a i b prikazane su u regresionoj jednačini ispod tabele sa desne strane grafikona. Ako u jednačinu uvrstimo vrednost 42 kao x, dobijamo prognoziranu vrednost y koja iznosi približno 75 bodova. Do istog zaključka došli biste ako uz pritisnut taster Ctrl pronađete y koordinatu tačke koja se nalazi na regresionoj pravoj, a x koordinata joj je 42. Dobijena vrednost y’ manja je od stvarne vrednosti y za jednog od ispitanika koji je učio 42 sata, ali je veća od vrednosti y za drugog. Stoga se kaže da ona teži, odnosno regresira ka proseku varijable Y koji iznosi 58,43 bodova. Frensis Golton je prvi put upotrebio termin regresija u ovom kontekstu istražujući naslednost veličine semenki biljaka a potom i naslednost visine ljudi (Galton, 1886). Naime, on je utvrdio da postoji visoka korelacija visine roditelja i visine njihove dece, ali da je prosek visine dece visokih roditelja nešto niži, a prosek visine dece niskih roditelja nešto viši od prosečne visine njihovih roditelja. To znači da obe aritmetičke sredine teže ka prosečnoj visini sve dece, pa je Golton nazvao ovaj fenomen regresija ka proseku.
Ekstreman primer regresije ka proseku, prilikom procene vrednosti y, ilustruje situacija u kojoj među varijablama nema nikakve povezanosti. Ovaj slučaj ćemo simulirati polazeći od prethodno formiranog uzorka od 7 studenata u kome je korelacija sati i bodova iznosila 0,57. Primer možete da prikažete ako odaberete opciju Učenje x bodovi 1 sa padajuće liste. Za početak, dodajte 15 novih ispitanika pozicioniranih duž cele regresione linije, tako da blago odstupaju od nje, ali podjednako sa gornje i donje strane. Ovih 15 parova rezultata trebalo bi da korelaciju povećaju na 0,70 ili više, pošto njihovi odnosi govore u prilog pozitivnoj vezi dve varijable. Međutim, ispitanici koji bi još značajnije povećali korelaciju zapravo su oni čiji su z skorovi još ekstremniji na obe varijable. Dodajte 10 kružića u krajnji donji levi ugao grafikona, ispod regresione linije, a potom 10 kružića u gornji desni ugao iznad nje. U zavisnosti od toga gde ste pozicionirali kružiće, korelacija bi mogla da se poveća čak i preko 0,90. Raspored kružića koji ste mogli da dobijete prikazan je u primeru Učenje x bodovi 2. U kontekstu velikog broja parova rezultata koji prate pravac regresione linije, dva studenta koji više odstupaju od nje, ne utiču bitno na visinu korelacije. Kada bi takvih studenata bilo više, korelacija bi, naravno, bila manja. Klikćite na područje donjeg desnog i gornjeg levog kvadranta grafikona kako biste smanjili korelaciju varijabli sve do vrednosti r = 0,00. Na ovaj način ste dodali parove rezultata čija odstupanja od proseka imaju suprotan predznak, tako da su proizvodi z skorova negativni, a ukupna suma proizvoda, kao i vrednost r, postaju sve manje. Odaberite opciju Učenje x bodovi 3 da biste videli primer varijabli među kojima nema povezanosti. Pirsonov koeficijent korelacije iznosi 0, te je stoga i prognoza broja bodova na osnovu broja sati potpuno besmislena, jer će regresiona jednačina za bilo koju unetu vrednost x, dati rezultat jednak aritmetičkoj sredini varijable Y.
3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi
Ponovo prikažite sve
primere Učenje x bodovi, ali ovoga puta pokušajte da pronađete vezu između položaja regresione prave i vrednosti regresionog koeficijenta
b. Trebalo bi da uočite da koeficijent
b u regresionoj jednačini određuje nagib regresione prave, odnosno stepen u kome promene vrednosti y’ prate promene na varijabli X. Ukoliko je taj nagib velik, promene y’ dosledno prate promene na varijabli X. Ukoliko je nagib blag, vrednosti y’ menjaju se neznatno, čak i uz velike promene vrednosti na x-osi. Na kraju, ukoliko nagiba nema, vrednosti y’ se ne menjaju, bez obzira na intenzitet promena vrednosti x. To znači da nagib regresione prave ukazuje na visinu korelacije varijabli – što je on „strmiji“, veća je i njihova korelacija. Ipak, prilikom ovakvih interpretacija treba biti veoma obazriv. Odaberite primer
Težina x visina 1 da biste prikazali korelaciju između visine ispitanika u centimetrima i njihove težine (mase) u kilogramima. Nagib regresione prave je relativno blag i naizgled nije u saglasnosti sa visokom korelacijom varijabli koja iznosi 0,80. Zabunu stvara raspon skale y-ose koji nije prilagođen stvarnom rasponu vrednosti y. Primer
Težina x visina 2 prikazuje identične podatke, ali ovoga puta uz drugačiji raspon vrednosti na y-osi. Sada je moguće napraviti grubu procenu visine koeficijenta r, ne samo na osnovu raspršenja kružića, već i na osnovu nagiba regresione prave. Na sličan način treba posmatrati i vrednost regresionog koeficijenta
b. Na primer, vrednost b je veća u primeru
Učenje x bodovi 1 nego
Težina x visina 2, iako je koeficijent korelacije manji. Razlog je ponovo u vrednostima skala varijabli X i Y. U prvom slučaju, pomoću regresione jednačine broj sati se transformiše u broj bodova, a u drugom kilogrami u centimetre. Samim tim, vrednosti koeficijenta
b nisu uporedive, jer su prilagođene različitim mernim skalama. Međutim, ukoliko se sirovi rezultati standardizuju pretvaranjem u z vrednosti, regresioni koeficijent može da pruži informaciju o tome u kolikoj meri se pomoću varijable X može opisati varijabilnost varijable Y. Odaberite primer
Težina x visina 2 i kliknite taster
Standardizuj podatke da biste transformisali centimetre i kilograme u odgovarajuće z vrednosti. Iako su se vrednosti na x- i y-osi izmenile, raspored kružića je ostao potpuno isti, kao i koeficijent korelacije r. Promenio se
b koeficijent koji je takođe standardizovan i sada nam pruža preciznu informaciju o stepenu povezanosti dve varijable. Standardizovano b se u statistici naziva
β (beta) koeficijentom. U slučaju jednostavne linearne regresije, beta koeficijent jednak je koeficijentu korelacije dveju varijabli. Smisao povezanosti varijabli, odnosno β koeficijenta u regresionoj jednačini, postaće još očigledniji ako kliknete taster
Ujednači ose, čime se izjednačavaju rasponi vrednosti x- i y-osa i olakšava njihovo poređenje. Uočite da vrednost β koeficijenta, odnosno nagib regresione prave, pokazuje za koliko će se standardnih jedinica promeniti vrednost Y varijable, ako se X varijabla promeni za jednu standardnu jedinicu. U poslednjem primeru sa učenjem i bodovima, taj odnos je 0,8. Kada bi korelacija varijabli bila potpuna, ta vrednost bi bila 1. Ako korelacija ne postoji, vrednost β koeficijenta biće 0, jer promene vrednosti varijable X ni na koji način nisu povezane sa promenama na varijabli Y.
Iz prethodnih primera mogli smo da uočimo da linearna transformacija varijable, kao što je npr. standardizacija, ne menja njenu korelaciju sa drugim varijablama. Ilustrovaćemo tu činjenicu još jednim primerom. Odaberite opciju Prijemni x ESPB 1. U pitanju je odnos broja bodova koje su studenti osvojili na prijemnom ispitu za upis na fakultet i uspešnosti u studiranju izraženoj sumom osvojenih ESPB kredita u toku prve dve godine studija. Na osnovu dijagrama raspršenja, koeficijenta r i p nivoa zaključujemo da je korelacija varijabli veoma niska i beznačajna što znači da studenti koji su ostvarili bolji uspeh na prijemnom ispitu nisu nužno uspešniji u studiranju u toku prve dve godine studija. Zamislimo sada situaciju u kojoj je svim studentima, zbog promene plana i programa, kurs iz stranog jezika koji nosi 3 ESPB priznat kao položen. To znači da su svi studenti jednoobrazno popravili svoj uspeh. Drugim rečima, vrednosti varijable Y su pravolinijski transformisane dodavanjem vrednosti 3. Odgovor na pitanje da li je to uticalo na koeficijent korelacije varijabli, dobićete ako sa liste odaberete primer Prijemni x ESPB 2. Svi kružići su pomereni nagore, zajedno sa regresionom pravom, što nije uticalo na koeficijent korelacije r. Nije se izmenio ni regresioni koeficijent b jer je on vezan za vrednosti varijable X. Međutim, ova linearna transformacija uticala je na vrednost aritmetičke sredine varijable Y, pa tako i na vrednost regresione konstante a. To znači da konstanta a zapravo predstavlja odsečak na y-osi, odnosno vrednost koju će varijabla Y imati kada je vrednost varijable X nula. Stoga se za nju u engleskom jeziku, a često kao tuđica i u srpskom, koristi termin intercept. Kao što smo videli iz ranijih primera (npr. Učenje x bodovi 3), ako korelacija varijabli ne postoji, a će biti jednako vrednosti aritmetičke sredine varijable Y. Drugim rečima, bez obzira na promene na varijabli X, očekivana vrednost varijable Y biće uvek ista. Slična stvar bi se desila i nakon transformacije vrednosti varijable X. Odaberite ponovo primer Težina x visina 2. Težina ispitanika izražena je u kilogramima, ali ne bi bio nikakav problem da smo je izrazili u nekim drugim jedinicama, npr. funtama. Štaviše, tu jednostavnu linearnu transformaciju možemo da obavimo i naknadno, tako što ćemo svaku vrednost x pomnožiti sa 2,2046262. Rezultati ove transformacije prikazani su u primeru Težina x visina 3. Vrednost konstante a ostala je ista jer se prosek varijable Y nije promenio. Međutim, vrednost b postala je manja, jer je se sada procenjuju vrednosti izražene u stotinama (centimetara) na osnovu stotina (funti) a ne na osnovu desetina (kilograma). Međutim, suština je da se koeficijent korelacije varijabli nije promenio, upravo zato što linearna transformacija varijable ne menja njen odnos i stepen povezanosti sa drugim varijablama. To važi i za standardizaciju pretvaranjem u z vrednosti. Tada nagib regresione prave postaje jednak koeficijentu korelacije a odsečak postaje nula, jer prava uvek prolazi kroz centar (0, 0) koordinatnog sistema.
3.6.2. Standardna greška procene
Odaberite
primer Pušenje x kapacitet 1. Prikazan je odnos „pušačkog staža“ i vitalnog kapaciteta pluća petoro ispitanika. Na x-osi navedena je dužina upotrebe cigareta izražena u godinama, a na y-osi kapacitet pluća izražen u litrima. Očekivano je da ta korelacija bude negativna, što pokazuje da osobe koje duže konzumiraju cigarete, imaju manji kapacitet pluća, odnosno da sa produženjem „pušačkog staža“ dolazi do smanjenja kapaciteta pluća. Iz tabele sa leve strane možete da vidite da su umnošci z vrednosti negativni, jer su pozitivna odstupanja od proseka na jednoj varijabli povezana sa negativnim odstupanjima na drugoj. U regresionoj jednačini ova pravilnost odrazila se na predznak koeficijenta
b koji je negativan. Pošto se korelacija od -1 smatra potpunom, prognoza vrednosti varijable Y na osnovu vrednosti varijable X bila bi potpuno tačna, kao u primerima u kojima je koeficijent r bio 1. Dodajte ispitanika koji odstupa od uočene pravilnosti, npr. sa približnim koordinatama (11, 3,50). Korelacija postaje nešto niža, pa je i greška prognoze veća. Na to ukazuje veće raspršenje kružića i njihovo veće odstupanje od regresione prave. Kliknite taster
Prikaži reziduale da biste grafički prikazali reziduale, odnosno odstupanja empirijskih vrednosti y od onih koje bi se očekivale na osnovu dobijene regresione jednačine, a koje smo ranije označili simbolom y’. Kao što smo rekli, regresiona prava mogla bi da se shvati kao dvodimenzionalna aritmetička sredina varijabli X i Y. U tom smislu, pomoću reziduala može da se izračuna „dvodimenzionalna standardna devijacija“ koja govori o tome kolike su razlike opaženih i očekivanih vrednosti varijable Y. Pošto je regresiona prava povučena tako da je suma odstupanja svih vrednosti od nje uvek nula, uobičajeno je da se reziduali pre sabiranja kvadriraju. Tako se dobija vrednost koja se u statistici obično označava sa
SS od engleskog
sum of squares, slično kao i u postupku računanja varijanse. Ovoga puta u pitanju je
suma kvadriranih reziduala koja se koristi kao procena
sume kvadriranih grešaka regresije (engl.
sum of squared errors):
`SS_e=Sigma(y-y')^2`
Pređite pokazivačem miša preko kružića da biste prikazali površinu kojom se jasnije vizualizuju razlike između dobijenih i prognoziranih vrednosti varijable Y. Ukoliko se kružić nalazi iznad prave, projekciju dobijene vrednosti prikazuje gornja stranica pravougaonika, a projekciju prognozirane vrednosti njegova donja stranica. Ako se kružić nalazi ispod regresione prave, projekciju vrednosti y prikazuje donja stranica, a vrednosti y’ gornja stranica pravougaonika. Kao što se vidi u tabeli sa desne strane, suma kadriranih reziduala SSe relativno je mala. Međutim, ako dodate nekoliko ispitanika u gornji desni i donji levi kvadrant dijagrama, apsolutna vrednost koeficijenta korelacije se smanjuje, a vrednost SSe povećava. Ukoliko nastavite da dodajete ispitanike u ove delove grafikona, smer korelacije će se promeniti, a vrednost r će postajati sve viša. Naravno, suma kvadrata odstupanja je veća u slučaju većeg broja rezultata, pa je uobičajeno da se ona deli veličinom uzorka kako bi se dobila objektivnija mera greške. Tako nastaje pokazatelj koji se naziva prosečna kvadrirana greška, a označava se sa MSe od engleskog mean squared error:
`MS_e=(Sigma(y-y')^2)/N`
Pošto se na ovaj način, kao i u slučaju varijanse, dobijaju kvadrirane jedinice (npr. l2, cm2 ili ESPB2), potrebno je izračunati koren gornjeg izraza. Dodatno, s obzirom na to da se MSe računa na uzorku a ne na celoj populaciji, u imeniocu ove formule se ne koristi vrednost N, već vrednost df. Više puta smo ponovili da se broj stepeni slobode obično računa na osnovu veličine uzorka koja je umanjena za broj procena parametara upotrebljenih u formuli. U našem slučaju, da bismo izračunali vrednost y’ bilo je potrebno proceniti vrednost parametara a i b. Stoga formula za izračunavanje pokazatelja koji se naziva standardna greška regresije ili standardna greška procene, glasi:
`s_e=sqrt((Sigma(y-y')^2)/(N-2))`
Iz oznake pokazatelja (s) zaključujemo da je ponovo u pitanju standardna devijacija, ovoga puta standardna devijacija distribucije grešaka procene. Njena vrednost je približna prosečnoj dužini duži koje su na grafikonu prikazane crvenim tačkastim linijama. Ukoliko su ispunjeni uslovi, o kojima će biti više reči u nastavku teksta, greške procene distribuiraju se u skladu sa t raspodelom, tako da se vrednost se može upotrebiti za računanje tzv. intervala procene. Na primer, na osnovu dovoljno velikog uzorka merenja možemo da očekujemo da će se za neku vrednost x, odgovarajuća vrednost y u 95% slučajeva naći u intervalu y’ ± 1,96 · sey’. Ipak, treba napomenuti da se za donošenje ovakvih zaključaka ne koristi uobičajena, već korigovana vrednost standardne greške procene koju nismo označili sa se već sa sey’.
Za čitaoca nije nužno da razume postupak kojim se standardna greška procene koriguje da bi se dobili odgovarajući intervali procene, ali je potrebno naglasiti da je korekcija neophodna zato što veličina greške nije ista u svim regionima x-ose. Naime, greška procene je manja u zoni prosečnih vrednosti, a veća ukoliko se vrednost y procenjuje na osnovu x koje znatno odstupa od aritmetičke sredine. Odaberite primer Prijemni x ESPB 1 i prikažite intervale procene izborom opcije Prikaži intervale procene. Uočite da ivice sive površine, koja prikazuje intervale procene, nisu paralelne sa regresionom pravom, već su u njenom centralnom delu blago ugnuti ka unutra. Ovaj fenomen biće još uočljiviji kada se umesto intervala procene vizualizuju tzv. intervali pouzdanosti kojim se, po istom principu kao i u prethodnom primeru, procenjuje raspon proseka svih potencijalnih vrednosti y za određeno x. Ovaj interval označićemo sa y’ ± 1,96 · seM, a možete da ga vidite ako odaberete opciju Prikaži intervale pouzdanosti. Nešto drugačijom korekcijom standardne greške procene, za svako x moguće je izračunati interval u kome se, sa određenim stepenom sigurnosti, nalazi aritmetička sredina svih potencijalnih vrednosti y. Drugim rečima, u pitanju je uslovna verovatnoća dobijanja određenog proseka y vrednosti za dato x. Razlika između intervala procene i intervala pouzdanosti analogna je razlici između intervala M ± s i M ± sM, koju smo pojasnili u poglavlju o standardnoj grešci aritmetičke sredine.
Na kraju treba napomenuti da je na osnovu modifikovanih standardnih grešaka procene moguće testirati statističku značajnost konstante a i koeficijenta b i izračunati njihove intervale pouzdanosti. Posebno je korisna standardna greška koeficijenta b, pa ćemo ukratko opisati logiku njene upotrebe. Ona je u tabeli sa desne strane označena simbolom sb, a vidljiva je kada su na grafikonu prikazani reziduali i/ili intervali. Odaberite ponovo primer Učenje x bodovi 1 i prikažite reziduale i/ili intervale. Korelacija je umereno visoka i iznosi 0,57, b koeficijent je 1,07, a njegova standardna greška iznosi 0,69. Pošto se odnosi koeficijenta b i njegove greške distribuiraju u skladu sa t raspodelom, uz pomoć formule:
`t=b/s_b`
možemo da izračunamo odgovarajuću vrednost t i interpretiramo je kao bilo koji drugi t-odnos. U našem primeru, vrednost t-testa iznosila bi 1,07 : 0,69 = 1,55 što je nedovoljno da bi se koefcijent b, a samim tim i korelacija varijabli, smatrali statistički značajnim. Po sličnom principu možemo da izračunamo i interval pouzdanosti regresionog koeficijenta. Granična vrednost t-testa za 5 stepeni slobode i nivo značajnosti 0,01 iznosi 4,03, tako da možemo da budemo 99% sigurni da bi vrednost b koeficijenta u populaciji bila negde između 1,07 - 4,03 · 0,69 i 1,07 + 4,03 · 0,69. Pošto ovaj interval obuhvata vrednost 0, ne smemo da tvrdimo da je b značajno drugačije od nulte vrednosti. Samim tim, ni koeficijent korelacije dobijen u ovom primeru ne možemo da prihvatimo kao opravdanje za prognozu broja osvojenih bodova na osnovu broja sati koje je student proveo u učenju. Obratite pažnju na to da broj stepeni slobode iznosi 5 jer smo imali uzorak veličine 7, a prilikom računanja koeficijenta b koriste se procene dva parametra – aritmetičke sredine varijable X i aritmetičke sredine varijable Y.
3.6.3. Interpretacija koeficijenta korelacije
Interpretacija koeficijenta korelacije podrazumeva tumačenje njegove apsolutne vrednosti, predznaka, statističke značajnosti i praktične značajnosti. Ukratko ćemo objasniti svaki od ovih elemenata. U vezi sa interpretacijom apsolutne vrednosti, ne može se reći da u literaturi postoji konsenzus o tome koji stepen korelacije bi trebalo smatrati (dovoljno) visokim. U Tabeli 3 date su okvirne preporuke za interpretaciju visine koeficijenta korelacije koje su dali različiti autori. Delimična neslaganja, pogotovo u zoni „umerenih“ vrednosti, ukazuju na to da procena intenziteta korelacije u velikoj meri zavisi od percepcije i iskustva istraživača, konteksta istraživanja, varijabli koje se analiziraju, pa čak i od oblasti u kojoj se istraživanje sprovodi. U prirodnim naukama uobičajeno je da se fenomeni opisuju zakonima koji podrazumevaju veoma jaku korelaciju varijabli. Šarlov zakon, na primer, definiše potpunu linearnu povezanost između temperature i zapremine gasa. Sa druge strane, zakonitosti u društvenim naukama su veoma retke, a fenomeni kao što je ljudsko ponašanje često su nepredvidivi ili ih je potrebno opisati pomoću većeg broja varijabli. Stoga su i visoke korelacije varijabli mnogo ređe nego u „tvrdim“ naukama. Već smo pomenuli da se u psihologiji često koriste smernice koje je dao Džejkob Koen (Cohen, 1988), prema kojima se koeficijenti korelacije od 0,30 mogu smatrati umerenim, a već oni od 0,50 jakim. Koen polazi od logike da korelaciju treba interpretirati u skladu sa kontekstom, odnosno sa empirijskim rezultatima koji upućuju na maksimalne vrednosti koeficijenata korelacije koje je opravdano očekivati. To su, prema Koenu, rezultati istraživanja iz oblasti pedagoške psihologije u kojima su utvrđene korelacije od 0,50 između uspeha na testovima sposobnosti i školskog postignuća. Međutim, suština je da vrednost koeficijenta korelacije uvek treba interpretirati u skladu sa logičnim objašnjenjima, sličnim rezultatima prethodnih istraživanja, ali i posledicama koje bi zaključci mogli da proizvedu u budućnosti. Korelacija od 0,30, koja se po nekima smatra niskom, nekada može da ukaže na postojanje fenomena koji bi trebalo dodatno istražiti. Isto tako, koeficijent korelacije od 0,50 između rezultata dva upitnika, kojima se navodno meri ista dimenzija ličnosti, trebalo bi smatrati niskim i proveriti da li instrumenti zaista imaju isti predmet merenja.
Tabela 3. Smernice za interpretaciju visine koeficijenta korelacije
Interpretacija korelacije | Vrednost koeficijenta korelacije |
(Guilford, 1978) | (Evans, 1996) | (Hinkle, Wiersma, & Jurs, 2003) |
veoma slaba | 0,00–0,20 | 0,00–0,20 | 0,00–0,30 |
slaba | 0,21–0,40 | 0,21–0,40 | 0,31–0,50 |
umerena | 0,41–0,70 | 0,41–0,60 | 0,51–0,70 |
jaka | 0,71–0,90 | 0,61–0,80 | 0,71–0,90 |
veoma jaka | 0,91–1,00 | 0,81–1,00 | 0,91–1,00 |
Rasponi koeficijenata korelacije navedeni u Tabeli 3 odnose se na njihove apsolutne vrednosti. To znači da se, na primer, koeficijenti 0,83 i -0,83 mogu smatrati jednako visokim, bez obzira na predznak. Predznak se, naravno, ne sme zanemariti, jer nam govori o prirodi odnosa dve varijable. U slučaju obrnute korelacije, kao što je bio slučaj sa dužinom pušenja i kapacitetom pluća, sa porastom vrednosti na jednoj varijabli, vrednosti druge varijable se smanjuju. Sličnih primera u psihologiji i srodnim naukama ima puno. Viša inteligencija je povezana sa nižom aktivacijom kore velikog mozga prilikom rešavanja kompleksnih zadataka (Neubauer & Fink, 2009). Neke osobine ličnosti, kao npr. Savesnost i Negativna valenca, takođe su u umerenoj negativnoj korelaciji (Čolović, Smederevac, & Mitrović, 2014). Utvrđena je i obrnuta veza između agresivnosti i davanja socijalno poželjnih odgovora na upitnicima ličnosti (Banse, Messer, & Fischer, 2015). Ekstraverzija je u negativnoj korelaciji sa vremenom provedenim u korišćenju interneta (Landers & Lounsbury, 2006). Učestalost agresivnog ponašanja slabijeg intenziteta kod primata povezana je sa nižim nivoima hormona kortizola u krvi (Westergaard et al., 2003). I tako dalje. U istraživanjima u kojima se koriste upitnici, uvek treba obratiti pažnju na to da li su stavke usmerene na očekivan način, jer bi u suprotnom to moglo da dovede do nelogičnih negativnih korelacija. Na primer, stavke „U društvu sam ćutljiv“ i „Sa mnom svi vole da se druže“ mere ekstravertnost, ali je pre sabiranja odgovora, prvi od njih potrebno rekodirati, tj. visoke vrednosti zameniti niskim i obratno, npr. 5 sa 1, 4 sa 2, 2 sa 4 i 1 sa 5.
Pirsonov koeficijent korelacije koji je izračunat na uzorku, predstavlja samo procenu stvarne veze među varijablama u populaciji. U tom smislu, koeficijent r može da se koristiti za testiranje nulte hipoteze da korelacija varijabli u populaciji ne postoji. Kao i kod drugih statističkih testova o kojima smo pisali, odluku o (ne)odbacivanju ove hipoteze donosimo na osnovu odgovarajućeg p nivoa. Koeficijenti korelacije velikih uzoraka uzetih iz populacije u kojoj je korelacija nulta, distribuiraju se oko nule u skladu sa t-raspodelom. Stoga se za testiranje statističke značajnosti koeficijenta korelacije r koristi t-test koji se računa prema formuli:
`t=(rsqrt(N-2))/sqrt(1-r^2)`
Gornja formula ukazuje na potencijalne opasnosti prilikom interpretacije koeficijenta korelacije. Jasno je da će t vrednosti biti veća ukoliko je r veće, pošto sa porastom vrednosti r, vrednost brojioca u formuli postaje sve veća, a vrednost imenioca sve manja. Međutim, u imeniocu se nalazi i veličina uzorka, što znači da čak i relativno niski koeficijenti korelacije mogu da budu postanu statistički značajni kada su izračunati na veoma velikim uzorcima. U primeru Učenje x bodovi 1 koeficijent korelacije je relativno visok, ali nije statistički značajan, jer je izračunat na osnovu samo 7 parova rezultata. Broj stepeni slobode za izračunati t-test je N-2, jer smo prilikom računanja koeficijenta r upotrebili dve procene parametara – prosek varijable X i prosek varijable Y. Prikažite primer Instagram x IQ koji prikazuje povezanost broja sati koje 211 osoba dnevno provede u korišćenju Instagrama (x-osa), sa njihovim rezultatima na testu sposobnosti (y-osa). Koeficijent korelacije je statistički značajan jer je izračunat na velikom uzorku ispitanika, ali njegova vrednost, kao i raspršenje kružića na skater-dijagramu, ukazuju da bi zaključak da su ove dve varijable značajno povezane, bio besmislen. Gornja formula najbolje ilustruje ranije pomenutu pravilnost da je statistička značajnost proizvod veličine stvarnog efekta (r) i veličine uzorka (N-2), tj. da se jedan aspekt značajnosti može kompenzovati drugim. Ali to ne znači da takvu kompenzaciju treba primenjivati, jer je za istraživača mnogo važnije da pokaže stvarni efekat dobijenog rezultata. U tom smislu, u statistici se prilikom interpretacije koeficijenta korelacije koristi i kvadrat njegove vrednosti koji se naziva koeficijent determinacije. Koeficijent determinacije pokazuje kolika proporcija varijanse jedne varijable može da se objasni promenama na drugoj varijabli. U našem poslednjem primeru, iako je r označen kao statistički značajan, njegova vrednost nam govori da tek nešto manje od 4% (0,192 = 0,036) varijabilnosti intelektualnih sposobnosti može da se objasni vremenom provedenim na Instagramu ili obratno. To je, naravno, neprihvatljivo malo i ovaj koeficijent ne možemo smatrati praktično značajnim. To znači da čak i u slučaju relativno visokih koeficijenata korelacije, istraživač treba da se zapita koje to druge varijable opisuju varijablu Y, ako je proporcija zajedničke varijanse relativno mala. Na primer, čak i koeficijent od 0,70 ukazuje na to da varijable imaju manje od 50% zajedničke varijanse i da bi u nacrt istraživanja trebalo uključiti još neke varijable da bi se umanjila proporcija neobjašnjene varijanse reziduala koja preostaje kada na osnovu vrednosti varijable X pokušamo da predvidimo rezultat na varijabli Y.
3.6.4. Uslovi za primenu Pirsonovog r
Činjenica da se Pirsonov koeficijent korelacije bazira na z vrednostima i poređenju odstupanja pojedinačnih rezultata od aritmetičkih sredina, svrstava ovu metodu u grupu parametrijskih testova. To znači da bi pre izračunavanja i interpretacije vrednosti r, trebalo proveriti ispunjenost uslova koji su pomenuti i u slučaju t-testa: intervalni ili racio nivo merenja varijabli, normalnost raspodele obe varijable i homogenost njihovih varijansi. Ovo su „udžbenički“ uslovi koji nekada mogu da budu i prekršeni a da se to ne odrazi bitno na validnost dobijenog koeficijenta korelacije. Na primer, Pirsonov koeficijent može da bude prikladna mera povezanosti ordinalnih varijabli koje imaju veći broj nivoa, kao i varijabli koje su iskošene u istu stranu. U tom smislu, dijagram raspršenja pruža dragocene informacije o stvarnom odnosu među varijablama i trebalo bi da bude obavezni deo interpretacije koeficijenta povezanosti. Sjajnu ilustraciju važnosti grafičkog prikaza rezultata u korelacionoj analizi dao je engleski statističar Frensis Džon Enskomb u četiri primera podataka koji su poznati kao
Enskombov kvartet (Anscombe, 1973). On je simulirao vrednosti četiri para varijabli koje imaju iste aritmetičke sredine, varijanse i koeficijente korelacije, ali sa potpuno drugačijim međusobnim odnosom koji se uočava samo pomoću skater-dijagrama. Prvi primer, koji je na padajućoj listi naveden kao
Enskombov kvartet 1, prikazuje odnos dveju varijabli u visokoj korelaciji. Blago raspršenje kružića u odnosu na regresionu liniju potpuno je prihvatljivo i sugeriše da među varijablama zaista postoji linearna veza pozitivnog smera jačine 0,82.
Enksombov kvartet 2 prikazuje drugi par varijabli sa istim koeficijentom korelacije, ali sa potpuno drugačijim odnosom. U ovom primeru odnos varijabli je problematičan jer nije linearan, pa tako ni Pirsonov koeficijent korelacije, iako veoma visok, nije prikladan za opisivanje te veze. Logika Pirsonovog r bazira se na pretpostavci pravolinijskog odnosa varijabli, ali u ovom primeru vrednosti y prate porast vrednosti x samo do određene tačke, nakon čega ta veza menja smer. Ovakav nelinearan odnos varijabli bi se, na primer, mogao očekivati u slučaju jačine osvetljenja u prostoriji i radnog učinka, ili u slučaju motivacije i postignuća. Treći primer ilustruje problem koji mogu da stvore aberantni rezultati. Samo jedan autlajer u ovom primeru znatno je povećao koeficijent korelacije, te se može reći da vrednost 0,82 ne odražava pravo stanje stvari. Štaviše, kada uklonite aberantni rezultat, primetićete da r više nije ni moguće izračunati, jer varijansa varijable X postaje nula. Na kraju, primer
Enskombov kvartet 4 ilustruje još jedan mogući uticaj autlajera na vrednost r. U ovom slučaju, aberantni rezultat je umanjio koeficijent korelacije koji bi inače bio maksimalan, što možete da vidite ako uklonite kružić koji značajno odstupa od regresione prave.
Pored pretpostavke o linearnom odnosu varijabli, validnost Pirsonovog koeficijenta korelacije bazira se i na očekivanju da je raspršenje rezultata podjednako duž cele regresione prave, odnosno da se verovatnoća greške procene ne razlikuje previše za različite vrednosti x-ose. Ovaj uslov je poznat kao homoskedasticitet. Termin je nastao od starogrčkih reči ὁμός (isto) i σκεδαστός (raspršenje). Primer Pušenje x kapacitet 2 prikazuje situaciju u kojoj je ovaj uslov prekršen. Oblik raspršenja ukazuje na to da je koeficijent korelacije negativan, ali intenzitet te veze nije isti za sve vrednosti X i Y varijabli. Naime, kapacitet pluća znatno više varira u grupi osoba sa kraćim „pušačkim stažom“, tako da je opravdano postaviti pitanje da li jaka korelacija zaista postoji u svim potencijalnim poduzorcima. Na primer, moguće je da su osobe koje su konzumirale cigarete u kraćem periodu, u stvari mlađe osobe kod kojih se pušenje još uvek nije značajno odrazilo na umanjenje kapaciteta pluća. Drugim rečima, varijabilnost varijable Y u zoni nižih vrednosti varijable X može da predstavlja uobičajenu varijabilnost kapaciteta pluća određene uzrasne grupe, bez obzira na to da li su u pitanju pušači ili ne. Još drastičniji primer je Televizija x visina. Zamislimo da ste grupi ispitanika izmerili visinu i te podatke doveli u vezu sa brojem minuta koje dnevno provode u gledanju sportskih i informativnih emisija na televiziji. Dobijena korelacija je visoka i pozitivna, ali grafikon ukazuje na postojanje heteroskedasticiteta. Moguće objašnjenje je heterogenost uzorka, odnosno činjenica da su na istom grafikonu prikazani i muškarci i žene. Muškarci su u proseku viši a provode i više vremena gledajući sportske događaje, za razliku od žena. To znači da koeficijent korelacije za ove dve varijable najverovatnije ne bi bio značajan kada bi se izračunao u svakoj podgrupi, tj. posebno za muškarce a posebno za žene.
Problem heteroskedasticiteta u korelacionoj analizi je dobar povod da čitaocu još jednom skrenemo pažnju na moguće logičke greške u izvođenju zaključaka na osnovu rezultata statističkih analiza. Odaberite primer Savesnost x dani da biste prikazali odnos između skora na skali savesnosti nekog upitnika ličnosti i broja izostanaka sa posla za 30 zaposlenih u jednoj firmi. Visoka pozitivna vrednost koeficijenta r sugeriše da zaposleni koji su postigli više skorove na skali savesnosti, češće odsustvuju sa posla. Međutim, na osnovu skater-dijagrama se vidi da postoje tri stratuma ispitanika koji se očigledno razlikuju u prosečnom broju izostanaka, ali i u prosečnom skoru na skali savesnosti. Zaključak donet na ukupnom uzorku bio bi u suštini pogrešan, jer se ne odnosi ni na jedan od poduzoraka zaposlenih. Štaviše, korelacija dve varijable unutar pojedinačnih stratuma je negativna. Razlog bi mogao da bude to što su savesnije osobe zaposlene na odgovornijim funkcijama a upravo one, zbog većeg stresa koji doživljavaju na takvim pozicijama, češće odsustvuju sa posla. Ovo je, naravno, samo pretpostavka čiju opravdanost bi trebalo na neki način testirati. Pojava da su zaključci koji su doneti na podskupovima podataka drugačiji, pa čak i suprotni od onih koji su doneti na objedinjenom skupu istih podataka, poznata je kao Simpsonov paradoks (Simpson, 1951). Ovaj tip greške u interpretaciji rezultata statističkih analiza javlja se mnogo češće nego što bi se moglo pretpostaviti na osnovu anegdotskih primera kojima se paradoks obično ilustruje (Kievit, Frankenhuis, Waldorp, & Borsboom, 2013). Pored toga, u pitanju je samo jedna od velikog broja logičkih zabluda ili grešaka (engl. fallacy) koje se javljaju ako su istraživači usredsređeni samo na (numeričke) rezultate statističkih analiza. Može se reći da je u osnovi ovih zabluda niska odgovornost, nedovoljno iskustvo, ali i niska metodološka i statistička obučenost istraživača. Na primer, analiza razlika među grupama pomoću t-testa može da dovede do potpuno drugačijih zaključaka u zavisnosti od toga da li se kontroliše početni nivo zavisne varijable u grupama, odnosno njena kovarijansa sa drugim bitnim atributima ispitanika. Ovaj fenomen je poznat kao Lordov paradoks (Lord, 1967).
Istraživači često zanemaruju činjenicu da je indukcija, tj. generalizacija zaključaka sa uzorka na populaciju, legitiman postupak inferencije, ali da sa sobom nosi verovatnoću greške koja nikada nije nulta. U tom smislu, prosta dedukcija na osnovu takvih generalizacija često je pogrešna. Ako se vratimo na poslednji primer sa izostancima, može se uočiti da druga podgrupa zaposlenih, gledano sleva nadesno, ima nešto viši prosek na skali savesnosti od prve. Međutim, to ne podrazumeva da su svi članovi druge grupe savesniji od bilo kog člana prve. Samim tim, svaki dalji zaključak baziran na prosecima grupa, mogao bi da dovede do greške kada se rezultati primenjuju i interpretiraju na individualnom nivou. Tipičan primer ove logičke greške je Robinsonov paradoks, odnosno pojava da su korelacije grupa merenja drugačije od onih koje se računaju na individualnim merenjima. Na primer, u jednom istraživanju je uočeno da postoji značajna negativna korelacija procenta imigranata u državama SAD i procenta nepismenih osoba. Međutim, rezultati analize na individualnom nivou pokazali su da je udeo nepismenih osoba zapravo veći u grupi imigranata, nego u grupi starosedelaca. Objašnjenje ovog naizgled paradoksalnog rezultata leži u činjenici da su se imigranti češće doseljavali u države u kojima je udeo nepismenog stanovništva niži (Robinson, 2009). Jasno je da vizualizacija podataka ne može uvek da pomogne istraživaču da izbegne neku od logičkih grešaka u zaključivanju, ali uz dovoljnu motivaciju da se detaljnije istraže potencijalne veze među varijablama, grafički prikaz podataka je nezamenjiva eksplorativna alatka za uočavanje fenomena koji na prvi pogled nisu vidljivi.
Vratimo se nakratko na primer Prijemni x ESPB 1. Raspored kružića na dijagramu potvrđuje podatak da je korelacija između varijabli veoma niska. Međutim, ako kružiće obojimo različitim bojama na osnovu vrednosti neke kategorijalne varijable, npr. tipa srednje škole iz koje student dolazi, zaključak bi mogao da bude drugačiji. Ova opcija postoji u većini statističkih paketa, ali se često previđa jer nije lako identifikovati varijablu koja bi mogla da bude tzv. kovarijat. U zavisnosti od analize koja se sprovodi, kovarijat može da bude bilo koja kategorijalna ili kontinuirana, nezavisna ili kontrolna, opažena ili izmerena varijabla koja utiče na povezanost svojstava koja se analiziraju ili efekat nezavisne varijable na zavisnu. Kada odaberete opciju Prijemni x ESPB 4, uočićete da prvobitni zaključak o nepostojanju povezanosti važi samo za sivu podgrupu studenata, dok je u ostalim podgrupama korelacija visoka, a uz to je i različitog smera – u crvenoj je pozitivna a u zelenoj negativna. U ovom primeru vrsta srednje škole je kovarijat, tačnije spoljna varijabla koja nas zbunjuje i iskrivljuje sliku o vezi broja osvojenih bodova na prijemnom ispitu i broja prikupljenih kredita. Stoga se ovakve nepoželjne spoljne varijable često nazivaju i konfundirajućim. Međutim, kovarijati nisu uvek neželjene ili nepredviđene varijable. Štaviše, oni se često planirano uključuju u složenije statističke postupke, kao što su npr. višestruka regresiona analiza ili analiza kovarijanse, kako bi se detaljnije i potpunije opisala priroda odnosa varijabli od interesa.
U kontekstu prethodnih primera, potrebno je pomenuti još jedan važan uslov koji treba da bude ispunjen da bi se koeficijent korelacije smatrao validnom merom povezanosti dve varijable. U primeru Prijemni x ESPB 2 videli smo da ne postoji statistički značajna korelacija rezultata kandidata na prijemnom ispitu i njihovog budućeg uspeha u studiranju. Ovaj podatak deluje obeshrabrujuće, jer je osnovni smisao prijemnog ispita da se napravi izbor kandidata za koje postoji veća verovatnoća da će u toku studija ostvariti bolji uspeh i koji će, na kraju krajeva, blagovremeno završiti studije. Razlog koji stoji iza ovog nelogičnog rezultata je fenomen poznat kao ograničenje raspona. Naime, u navedenom primeru doneli smo zaključak na selektivnom uzorku ispitanika, tj. na osnovu ograničenog raspona vrednosti varijable X u grupi kandidata koji su uspešno položili prijemni i ostvarili više od 55 poena. Slika bi mogla da izgleda potpuno drugačije da smo svim kandidatima koji su polagali prijemni ispit, omogućili da započnu studije i tek potom izračunali korelaciju uspeha na testu i uspeha u studiranju. Tada bi, na primer, odnos varijabli mogao da bude kao onaj prikazan u primeru Prijemni x ESPB 3. Sada je očigledno da među varijablama postoji visoka i statistički značajna korelacija. Verovatnoća da će kandidati koji su bolje uradili prijemni biti i bolji studenti, zaista je veća ako se posmatra celokupan uzorak kandidata. Međutim, u okviru grupe onih koji su bili bolji na prijemnom ispitu, broj osvojenih bodova prestaje da bude bitan prediktor broja osvojenih ESPB kredita.
3.6.5. Korelacija i uzročnost
Verovatno najopasnija logička greška koja se vezuje za pojam korelacije jeste greška neopravdanog pripisivanja uzročno-posledičnih veza analiziranim pojavama. Rezultati korelacione i regresione analize često navode istraživače da donesu zaključke o kauzalnom odnosu varijabli, jer smo generalno skloni da fenomene koji nas okružuju opisujemo na takav način, npr. da se nešto desilo zbog određenog razloga ili da će neki postupak izazvati određenu reakciju. Međutim, treba biti veoma oprezan prilikom donošenja ovakvih zaključaka samo i isključivo na osnovu koeficijenta korelacije. U primeru Šarlovog zakona visoka povezanost zapremine i temperature gasa zaista potvrđuje uzročno-posledičnu vezu, jer je pretpostavka da se sve ostale varijable, kao što je npr. pritisak gasa, drže pod kontrolom ili su konstantne. Pri tome je očigledno da povišenje temperature predstavlja uzrok povećanja zapremine a ne obratno, jer promena na prvoj varijabli vremenski prethodi promeni na drugoj. Prilikom grafičkog prikazivanja odnosa varijabli uz pomoć skater-dijagrama, uobičajeno je da se potencijalni uzrok ili prediktor prikazuje na x-osi a potencijalna posledica ili kriterijum na y-osi. Ovaj princip je primenjen i u primerima Prijemni x ESPB, ali samo zato što broj osvojenih bodova na prijemnom ispitu prethodi broju ostvarenih ESPB bodova. To i dalje ne znači da je X uzrok a Y posledica. Mnogo je verovatnije da varijable koje su u korelaciji u stvari imaju zajednički uzrok, a to bi u ovom primeru mogle da budu različite intelektualne sposobnosti studenata, njihova motivacija, pa čak i neke osobine ličnosti.
Neopravdanost zaključaka o kauzalnosti na osnovu korelacije postaje još očiglednija u primerima Težina x visina. Ne samo da visina osobe ne utiče na njenu težinu ili obratno, već se ne može reći čak ni da jedna od te dve varijable vremenski prethodi onoj drugoj. Greške neopravdanog pripisivanja kauzalnosti nisu retke čak ni među iskusnijim istraživačima i naučnicima. Poznat je primer istraživanja u kome je utvrđena korelacija učestalosti korišćenja noćnog svetla kod male dece i kratkovidosti u starijem dobu (Quinn, Shin, Maguire, & Stone, 1999). Međutim, u naknadnim studijama utvrđeno je da korelacija zapravo ne postoji i da istraživači u originalnoj studiji nisu kontrolisali sve relevantne varijable, kao što je npr. nasledni faktor, odnosno kratkovidost roditelja. Sličan primer predstavlja niz istraživanja u kojima je utvrđeno da hormonske terapije estrogenom kod žena smanjuju rizik od pojave koronarne bolesti srca. U ovom slučaju nisu kontrolisane bitne varijable kao što su starost ispitanica ili njihov materijalni status, tako da su u nekim naknadnim studijama dobijene čak i korelacije suprotnog smera (Sotelo & Johnson, 1997). Očigledno je da velika odgovornost za korektno sprovođenje istraživanja i tačnu interpretaciju dobijenih rezultata pripada samim istraživačima i ima veze sa njihovom etičnošću i nivoom kompetencija. Ako istraživači nisu dovoljno metodološki i statistički obučeni, a pri tome se primarno vode potrebom da proizvedu što više senzacionalističkih rezultata, postoji rizik da se naučni prostor zagadi pseudonaučnim i kvazinaučnim informacijama koje nemaju potporu u stvarnosti. Korelacione studije su, u tom smislu, posebno osetljive, jer pojave koje nemaju nikakvih dodirnih tačaka, lako mogu da se dovedu u vezu samo zbog vremenske koincidencije. U popularnoj literaturi često se navode primeri pseudokorelacija globalnog zagrevanja i učestalosti terorističkih napada ili količine prodatih sladoleda i broja ubistava u SAD.
Upozorenja koja smo upravo izneli ne znače da kauzalno zaključivanje nije dozvoljeno, a još manje da nije moguće na osnovu rezultata korelacionih analiza. Naprotiv. Osnovni uslov koji mora da bude ispunjen da bi se neke dve pojave nazvale uzrokom i posledicom, upravo je postojanje njihove značajne korelacije. Ali, kao što smo rekli, taj uslov nije dovoljan. Dodatni uslovi su da mogući uzrok vremenski prethodi posledici i da su isključene ili kontrolisane sve varijable koje bi mogle da budu pravi ili alternativni uzroci u kauzalnoj vezi. Jasno je da su zaključci o (ne)postojanju kauzalnih veza mogući samo ako su uslovi u kojima se sprovodi istraživanje strogo kontrolisani, kao u primeru u kome smo testirali postojanje efekta Miler-Lajerove iluzije. Stoga se kauzalno zaključivanje obično, ako ne i isključivo, vezuje za eksperimentalne nacrte u kojima istraživač ima potpunu kontrolu i mogućnost da utiče na vrednosti (nezavisnih) varijabli. U korelacionim nacrtima takva vrsta kontrole ne postoji, pa tako ni zaključci korelacionih studija ne mogu da imaju istu težinu. To nikako ne znači da su oni manje vredni, već samo da imaju drugačiji smisao od onih koji se postižu klasičnim eksperimentima. U tom smislu, statističke metode ne treba posmatrati kao algoritme kojima se matrice sirovih podataka pretvaraju u testove, koeficijente i p vrednosti. Statističke metode su (završna) faza složenog procesa opisivanja prirodnih i društvenih pojava, koja zahteva razumevanje tih pojava, načina na koje su one registrovane i izmerene, kao i konteksta u kome će prikazani rezultati biti tumačeni i upotrebljeni.
Ne. Regresiona jednačina predstavlja samo „uputstvo“ na koji način treba da se transformiše vrednost x da bi se dobila vrednost y, ali uz pretpostavku da korelacija varijabli postoji i da je njihov odnos linearan.
Ako je regresiona jednačina formirana na osnovu standardizovanih varijabli, vrednost koeficijenta β biće jednaka koeficijentu korelacije. S obzirom na to da vrednosti koeficijenta korelacije mogu da se kreću samo u rasponu od -1 do 1, gornja jednačina je očigledno dobijena na osnovu sirovih podataka.
Da. Za razliku od standardizacije pretvaranjem u z vrednosti, transformacijom podataka u percentilne rangove, menja se oblik distribucije. Bez obzira na njen prvobitni oblik, distribucija transformisanih vrednosti biće slična uniformnoj. Distance među vrednostima više ne odražavaju stvarnu razliku u izraženosti svojstva već samo razliku u rangu.
Postoje četiri kombinacije crvene i zelene boje koje govore u kom delu grafikona, tačnije u kom kvadrantu se nalazi ispitanik. Parovi vrednosti čija je kombinacija zelena – zelena, nalaze se u gornjem desnom kvadrantu. Parovi crvenih i zelenih kućica odnose se na rezultate koji se nalaze u gornjem levom kvadrantu. Intenzitet boje govori o udaljenosti rezultata od proseka.
Iako je korelacija u oba primera jednako niska, u prvom ipak mogu da se uoče određene pravilnosti, odnosno klasteri ispitanika. Stoga bi trebalo detaljnije istražiti potencijalne razloge ovakvog raspršenja. U drugom primeru zaista ne postoji nikakva povezanost između varijabli.
Zato što se na osnovu prvih procenjuje varijabilnost prognoziranih vrednosti y varijable, a na osnovu drugih varijabilnost njihovog proseka. Razlika je analogna onoj koja postoji između intervala M ± s i M ± sM.
Da. Nula se gotovo sigurno nalazi izvan raspona koji se može grubo izračunati kao b ± 3 · sb.
Svi intervali procene ili pouzdanosti koje smo do sada pominjali baziraju se na očekivanju da će se njima obuhvatiti određeni procenat rezultata. Taj procenat nikada ne može da dostigne vrednost 100%. Dakle, verovatnoća da postoji (aberantna) vrednost koja se nalazi izvan definisanih intervala, nikada nije nulta.
Raspršenje i broj rezultata u zoni središnjih vrednosti obe varijable veoma su mali u odnosu na raspone niskih i visokih vrednosti. To bi moglo da znači da su u pitanju dve bimodalne distribucije podataka.
S obzirom na to da raspršenje i gustina rezultata nisu iste u zoni visokih i niskih vrednosti, možemo da zaključimo da je varijabla X iskošena u desnu a varijabla Y u levu stranu.
Ne. Linearnost je karakteristika odnosa dve varijable a ne svojstvo njihovih distribucija. Varijable mogu da imaju linearan ili nelinearan odnos, bez obzira na to kako su distribuirane.
Ukoliko su obe varijable normalno distribuirane, gustina kružića bi trebalo da bude najveća u zoni središnjih vrednosti.