Uvod Pojam, vrste i svrha vizualizacije 1.1. Vizuelno mišljenje 1.2. Vizuelna komunikacija 1.3. Vizuelna pismenost 1.3.1. Različiti aspekti vizuelne pismenosti 1.3.1.1. Piktogrami i piktografici 1.4. Karta, mapa, dijagram, grafik, infografik 1.5. Podatak, informacija, znanje, razumevanje 1.5.1. Tabelarni i grafički prikaz podataka 1.5.2. Deskriptivna i inferencijalna statistika 1.6. Naučna vizualizacija i vizualizacija informacija 1.7. Vizualizacija kao eksplorativna tehnika 1.8. Izbor prikladne tehnike vizualizacije 1.8.1. Nivoi merenja varijabli 1.8.2. Hijerarhija vizuelnih kodova 1.8.3. Čitljivost grafikona 1.9. Prvi test znanja Vizualizacija distribucija verovatnoća 2.1. Pojam verovatnoće 2.2. Populacija i uzorak 2.2.1. Tehnike uzorkovanja 2.3. Pojam nasumičnosti ili slučajnosti 2.4. Pojam varijabilnosti 2.5. Osnovne tehnike sažimanja podataka 2.5.1. Tabele frekvencija i tabele kontingencije 2.5.2. Mere grupisanja ili centralne tendencije 2.5.2.1. Aritmetička sredina, medijana i mod 2.5.2.2. Još neke vrste prosečnih vrednosti 2.5.3. Mere raspršenja ili varijabilnosti 2.5.3.1. Vizuelna procena i poređenje varijabilnosti 2.5.3.2. Varijansa i standardna devijacija 2.5.3.3. Pojam matematičke funkcije 2.5.3.4. Interkvartilni raspon 2.6. Karakteristike i važnost normalne distribucije 2.6.1. Centralna granična teorema 2.6.2. Funkcije mase i gustine verovatnoće 2.6.3. Standardizacija sirovih rezultata 2.6.4. Površina ispod normalne krive 2.6.5. Standardna greška aritmetičke sredine 2.6.6. Skjunis i kurtozis 2.7. Još neke važne statističke distribucije 2.7.1. Studentova t distribucija 2.7.2. Hi-kvadrat distribucija 2.7.3. Fišer-Snedekorova F distribucija 2.8. Stepeni slobode 2.9. Test-statistici, p vrednosti i nivoi značajnosti 2.9.1. Jednostrano testiranje razlika 2.10. Drugi test znanja Vizualizacija razlika i povezanosti između varijabli 3.1. Testiranje (ne)tačnosti nul-hipoteza 3.2. T-test za jedan uzorak 3.3. T-test za dva uzorka 3.3.1. Uslovi za primenu t-testa 3.4. Neparametrijske alternative t-testu za dva uzorka 3.4.1. Vold-Volfovicov test nizova 3.4.2. Kolmogorov-Smirnovljev test za dva uzorka 3.4.3. Men-Vitnijev test sume rangova 3.5. Hi-kvadrat test 3.5.1. Hi-kvadrat kao test nezavisnosti 3.5.2. Pojam veličine efekta 3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija) 3.5.4. Uslovi za primenu hi-kvadrat testa 3.6. Pirsonov produkt-moment koeficijent korelacije 3.6.1. Regresiona jednačina i regresiona prava 3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi 3.6.2. Standardna greška procene 3.6.3. Interpretacija koeficijenta korelacije 3.6.4. Uslovi za primenu Pirsonovog r 3.6.5. Korelacija i uzročnost 3.7. Koeficijenti korelacije za rangirane podatke 3.8. T-test za zavisne uzorke 3.9. Neparametrijske alternative t-testu za zavisne uzorke 3.10. Značajnost razlika uparenih podataka nominalnog nivoa 3.10.1. Maknimarov test 3.10.2. Koenova kapa 3.10.3. Testovi marginalne homogenosti za politomne varijable 3.11. Treći test znanja Završne napomene Literatura
Vizualizacija razlika i povezanosti između varijabli
U prethodnom poglavlju bavili smo se pojmom verovatnoće i važnim teorijskim distribucijama u statistici. Opisali smo osnovne grafičke i numeričke metode koje se koriste u oblasti deskriptivne statistike i koje bi trebalo da budu osnova i priprema za svaku analizu podataka, bez obzira na njen konačni cilj ili složenost. Adekvatno opisivanje varijabli predstavlja uslov bez koga rezultati statističke obrade podataka mogu da postanu potpuno neupotrebljivi i navedu istraživača na pogrešne zaključke, npr. zbog značajne iskošenosti distribucija, postojanja aberantnih rezultata ili primene metoda koje nisu prikladne za nivo na kome su varijable izmerene. Na kraju poglavlja, dotakli smo se i osnovnih principa inferencijalne statistike, kao skupa tehnika pomoću kojih se donose zaključci, odnosno sudovi o svojstvima populacije, na osnovu karakteristika uočenih na reprezentativnom uzorku merenja. Primer statističke inferencije bila bi procena vrednosti parametra populacije, npr. aritmetičke sredine, na osnovu statistika izračunatih na uzorku uzetom iz te populacije. Tehnike inferencijalne statistike omogućavaju nam da odemo dalje od prostog opisivanja pojava i da utvrdimo u kojoj meri se pravilnosti uočene na jednom ili više uzoraka, mogu uopštiti i pripisati celoj populaciji. U ovom poglavlju detaljnije ćemo opisati nekoliko osnovnih, ali često korišćenih inferencijalnih testova pomoću kojih se određuje statistička značajnost razlika između grupa merenja, odnosno stepen povezanosti (korelacije) između varijabli.
3.1. Testiranje (ne)tačnosti nul-hipoteza
Tipičan primer statističkog zaključivanja predstavlja donošenje odluke o tačnosti pretpostavke, postavljene na početku istraživanja ili nakon preliminarne deskriptivne analize podataka. Ova pretpostavka naziva se nulta ili nul-hipoteza a označava se simbolom H0. Njen naziv sugeriše da istraživač obično negira postojanje nekog fenomena, npr. očekuje da se studijom koju sprovodi neće utvrditi značajne razlike ili povezanosti između varijabli. U tom smislu, podaci se prikupljaju i obrađuju sa ciljem da pruže dovoljno empirijskih argumenata na osnovu kojih će se nulta hipoteza, sa određenim stepenom sigurnosti, odbaciti. Ukoliko takvi argumenti ne postoje, istraživačka pretpostavka ne može da se smatra pogrešnom. Ovakvu logiku testiranja pretpostavki opisali smo na primerima upotrebe t, χ2 i F vrednosti kao test-statistika. Istraživačka hipoteza mogla bi da se formuliše na sledeći način:
H0: Prosečan krvni pritisak studenata psihologije
ne razlikuje se statistički značajno od 120 mmHg
U ovom primeru, polazna pretpostavka je da su dve vrednosti jednake, tj. da je razlika među njima nulta (engl. null), pa se nul-hipoteza može predstaviti i izrazom:
H0: µ = M ili H0: M - µ = 0
U prethodnom poglavlju pokazali smo da dve vrednosti koje su različite u apsolutnom smislu, ne moraju nužno da budu drugačije i u smislu statističke značajnosti. Vrednosti 120 i 121 smatraćemo probabilistički jednakim ukoliko pokažemo da vrlo verovatno potiču iz iste populacije, tj. da p vrednost ukazuje na to da se M = 121 mogla potpuno slučajno i verovatno dobiti na uzorku uzetom iz populacije čija je µ = 120. Tada se početna nul-hipoteza ne odbacuje, a razlike se pripisuju slučajnosti, tj. posledici očekivanih varijacija uzoraka ili nesavršenosti postupka merenja.
Objašnjavajući logiku pojma „nulta hipoteza“, Ronald Fišer je upotrebio analogiju sa eksperimentima u oblasti fizike, slično kao i u slučaju pojma stepeni slobode (Bennet, 1990). Poziciju iz koje polazi istraživač, opisao je kao nulto stanje galvanometra, uređaja kojim se meri jačina slabih struja. Početno stanje ne označava nužno nultu razliku, već bilo koju početnu poziciju sistema, tj. pretpostavku od koje se kreće u istraživanje. Kazaljka galvanometra, baš kao i razlika koju istraživač uoči u svom istraživanju, može da se kreće ulevo ili udesno, u zavisnosti od smera struje. Ukoliko struja nije dovoljno jaka, kazaljka se neće značajno pomeriti u odnosu na svoje početno „nulto“ stanje. Analogno tome, ukoliko je nulta hipoteza tačna, vrlo je mala verovatnoća da će se u nekom eksperimentu uočiti razlika ili povezanost koja je značajna i koja bitno odstupa od nultog stanja. O toj verovatnoći govori p nivo koji je, prema Fišeru, osnovni rezultat istraživanja posle koga nije ni potrebno donositi odluku o tačnosti hipoteze. Fišer se fokusira na jednu istraživačku nul-hipotezu za koju je, po njemu, lakše dokazati da je netačna nego da je tačna (Howell, 2012). Na primer, ukoliko 1.000 nasumično odabranih muškaraca ima brkove, tvrdnja da svi muškarci na svetu imaju brkove i dalje ne može da se smatra 100% tačnom. Sa druge strane, dovoljno je da jedan od tih 1.000 muškaraca nema brkove da bismo tvrdnju smatrali 100% netačnom.
Za razliku od Ronalda Fišera, poljski matematičar Jirži Nejman i engleski matematičar Egon Pirson, sin pomenutog Karla Pirsona, smatrali su da je za istraživača važnije da definiše α nivo značajnosti i da odluči da li hipotezu odbacuje ili ne. Pored toga, Nejman–Pirsonov pristup podrazumeva definisanje najmanje jedne alternativne hipoteze koja će se proglasiti tačnom ukoliko nulta hipoteza nije tačna (Neyman & Pearson, 1928). Ovaj pristup je na neki način pragmatičniji, jer stavlja naglasak na činjenicu da istraživač uvek pravi manju ili veću grešku u zaključivanju. Prema Nejmanu i Pirsonu, postoje dva tipa greške: I i II (Neyman & Pearson, 1933). Greška tipa I odnosi se na situaciju kada istraživač tačnu nultu hipotezu proglasi netačnom, tj. kada na uzorku utvrdi postojanje nekog fenomena koji u populaciji zapravo ne postoji. Stoga se ona naziva i greškom „lažnog alarma“ ili „lažnog otkrića“. Verovatnoća ove greške označava se simbolom α i predstavlja ranije pomenuti nivo značajnosti. Greška tipa II odnosi se na situaciju u kojoj istraživač netačnu nul-hipotezu proglašava tačnom i ne uspeva da uoči postojanje nekog fenomena. Stoga je ona poznata kao greška „propuštene detekcije“ ili „propuštene šanse“. Verovatnoća greške tipa II označava se simbolom β. U Tabeli 1 dat je pregled četiri moguća ishoda koji nastaju kombinacijom (stvarnog) statusa hipoteze u populaciji i odluke koju istraživač donosi na osnovu vrednosti statistika koje je izračunao na uzorku.
Tabela 1. Četiri kombinacije stvarnog statusa nulte hipoteze u populaciji i odluke donete na osnovu statistika izračunatog na uzorku
Odluka o H0Stvarni status H0 u populaciji
TačnaNetačna
Odbacuje seGreška tipa I
(α)
Opravdano odbacivanje
(1 - β)
Ne odbacuje seOpravdano neodbacivanje
(1 - α)
Greška tipa II
(β)
Iako se koncept testiranja nulte hipoteze u modernoj statistici često smatra zastarelim, prevaziđenim, pa čak i štetnim (Nickerson, 2000), veliki broj istraživača još uvek se drži postavki „nul rituala“ (Gigerenzer, 2004) koje su, u najvećoj meri, definisali Nejman i Pirson. Zato je veoma važno ukazati na pogrešne interpretacije i shvatanja ovog postupka koje su česte, ne samo među studentima, već i među nastavnicima i istraživačima (Haller & Krauss, 2002). Na ovom mestu ukratko ćemo razjasniti najčešće zablude i greške vezane za tumačenje statusa nulte hipoteze na osnovu nivoa značajnosti i empirijski utvrđenih nivoa verovatnoće (Nickerson, 2000).
1. Nivo α i nivo p su dve različite vrste verovatnoće. Prva je apriorna, tj. prethodna ili nezavisna od iskustva. Ona se određuje kriterijumom koji istraživač postavlja pre istraživanja. Druga je posteriorna jer govori o verovatnoćama ishoda koje su opažene na uzorku, tj. nakon istraživanja i pod pretpostavkom da je nulta hipoteza tačna. Poređenjem ove dve verovatnoće, istraživač donosi odluku o statusu nulte hipoteze. To znači da istraživač utiče na verovatnoću pojave grešaka oba tipa i procenjuje koja od njih je manje štetna u datom kontekstu. Na primer, kada se testira efikasnost novog leka, biće poželjno da se greška tipa I smanji tako što će se odabrati nivo značajnosti od 0,01 ili čak 0,001 ukoliko primena tog leka, pored izlečenja, može da ima i negativne posledice po pacijenta. Sa druge strane, nekada ćemo biti tolerantniji u donošenju odluke, te ćemo kao značajne prihvatiti i razlike čiji je p nivo veći od 0,05, kako bismo ukazali na potrebu za dodatnim istraživanjima u toj oblasti. Međutim, tada prihvatamo rizik koji nosi veća verovatnoća greške II.
2. U vezi sa prethodnim, p nivo nije mera verovatnoće da je nulta hipoteza tačna, niti je 1 - p verovatnoća da je tačna alternativna hipoteza. Nivo p je samo verovatnoća da statistik koji smo izračunali na uzorku, slučajno dobije vrednost koja je toliko ili više udaljena od pretpostavljenog parametra u populaciji, tj. od vrednosti koja se očekuje na osnovu nulte hipoteze. Ukoliko vrednost statistika nije dovoljno retka i „čudna“, tj. statistički značajno udaljena od neke referentne vrednosti, istraživač nema opravdanje da odbaci nultu hipotezu. Nivo p je samo uslovna verovatnoća pojave greške tipa α, ako je nulta hipoteza tačna. To nije isto što i verovatnoća da je hipoteza tačna ako smo dobili određenu vrednost statistika.
3. Statistička značajnost ne podrazumeva nužno teorijsku ili praktičnu značajnost. Postupak testiranja nulte hipoteze ne sme se primenjivati mehanički, već isključivo u kontekstu logičnih objašnjenja dobijenih rezultata i njihove potencijalne primene. Ukoliko vrednost p nekog test-statistika iznosi 0,049, onda je u izveštaju o istraživanju korektnije i tačnije napisati p = 0,049, nego prosto konstatovati da je p manje od odabranog nivoa 0,05. U drugom slučaju, čitalac će biti uskraćen za informaciju da je u pitanju potencijalno značajan nivo verovatnoće. Osim toga, statistička značajnost može da bude posledica slučajnosti ili koincidencije događaja, kao što je npr. povezanost između visine ulaganja u nauku i broja samoubistava u SAD. Dakle, statistički značajna povezanost može da bude praktično potpuno beznačajna. O ovome će biti više reči u narednim odeljcima.
4. Određenje hipoteze kao tačne ili netačne može da se donese samo ako su poznati parametri populacije. Ukoliko se status hipoteze određuje na osnovu uzorka, mogući ishodi su njeno odbacivanje na određenom nivou značajnosti i nemogućnost njenog odbacivanja. Ovaj drugi ishod ne podrazumeva da je nulta hipoteza tačna, jer velika vrednost p ne mora da bude posledica nepostojanja nekog fenomena u populaciji. Uzroci mogu da budu nedovoljno velik uzorak, greška u merenju, postojanje aberantnog rezultata ili prosto odluka istraživača da prihvati stroži nivo značajnosti. Sama činjenica da vrednost 0,049 sugeriše jedan, a vrednost 0,051 potpuno drugi zaključak, pokazuje da se tačnost hipoteze ne sme strogo vezivati za dobijenu vrednost p.
5. U vezi sa prethodnom tačkom, još jednom ćemo se vratiti na problem ponovljivosti u naučnim istraživanjima. Stalni pritisak na istraživače da objavljuju originalne i uzbudljive rezultate doveo je do hiperprodukcije novih i „revolucionarnih“ otkrića koja nisu zasnovana na raznovrsnom i bogatom pređašnjem iskustvu i koja često ne mogu da budu potvrđena u naknadnim studijama. Istraživači neretko izbegavaju da objave rezultate koji nisu u skladu sa očekivanjima ili nisu statistički značajni, fokusirajući se na efekte jakog intenziteta, npr. samo na merenja u kojima je došlo do značajnog poboljšanja zdravstvenog stanja pacijenata nakon primene nekog leka. Na taj način se prenaglašava statistički značaj određenih fenomena što dovodi do tzv. inflacije istina ili greške tipa M (engl. magnitude) (Reinhart, 2015). Može se reći da je insistiranje na novim, kontinuiranim, brzim i značajnim otkrićima u potpunoj suprotnosti sa ključnom idejom opovrgljivosti naučnih teorija poznatog austrijsko-britanskog filozofa Karla Popera (Popper, 2002). Prema Poperu, najjača potvrda neke teorije u nauci je neuspešnost istraživača da je udruženim naporima i ponovljenim eksperimentima opovrgnu. Dakle, treba imati na umu da je dobijeni p nivo samo jedno od mogućih p, kao što je i aritmetička sredine uzorka samo jedna od mogućih procena aritmetičke sredine populacije. Zato p nivo, sam po sebi, ne može da bude potvrda neke hipoteze, pogotovo ako ne postoje rezultati sličnih istraživanja sa kojima bi mogao da se uporedi i sa kojima bi mogao da čini solidniji i dosledniji korpus znanja. Pored toga, mladi istraživači treba da budu svesni da velika vrednost p i nemogućnost da se hipoteza odbaci ne znače da njihovo istraživanje nije uspelo ili da je manje vredno.
6. Još jedan argument u prilog stava da p nivo nije pokazatelj tačnosti nulte hipoteze, jeste činjenica da se ista istraživačka pretpostavka može testirati različitim test-statisticima, tj. različitim statističkim postupcima. Štaviše, primena drugačijih metoda na istim podacima može da dovede i do drugačijih zaključaka. Jedan od razloga je različita snaga statističkih testova (Cohen, 1988) koja se izražava kao vrednost 1 - β. Snaga testa predstavlja uslovnu verovatnoću da se nul-hipoteza odbaci kada je netačna, a u Tabeli 1 označena je kao opravdano odbacivanje. Drugim rečima, kada primenjujemo snažnije statističke testove, verovatnije je da ćemo na uzorku utvrditi postojanje nekog fenomena koji zaista postoji u populaciji. Snaga statističkog testa zavisi od njegovih karakteristika, veličine uzorka i odabranog graničnog nivoa značajnosti. To znači da je na osnovu željenih i/ili poznatih parametara, moguće proceniti da li je uzorak koji istraživač planira da prikupi dovoljan da bi omogućio utvrđivanje statističke značajnosti neke razlike ili povezanosti. O ovom postupku biće nešto više reči kasnije.
Do sada smo se u opisivanju istraživačkih hipoteza, nivoa verovatnoće i nivoa značajnosti, u znatnoj meri oslanjali na teorijsku i matematičku osnovu ovih koncepata. To nas je donekle udaljilo od praktičnih aspekata primene statističkih metoda. Dodatno, logički puritanizam vezan za opisane zablude o testiranju hipoteza, može da zbuni čitaoca. Postavlja se pitanje zbog čega uopšte računamo vrednosti test-statistika i p nivoe, ako to ne služi proveri tačnosti nul-hipoteze. Jednostavan odgovor je da nisko p nije toliko snažan argument u prilog netačnosti nul-hipoteze koliko njegova vrednost sugeriše (Nickerson, 2000), ali ipak upućuje na veću verovatnoću da je tačna alternativna hipoteza. U tom smislu, istraživač ne treba da bude robot koji čeka da p nivo pređe granicu od 0,01 ili 0,05, već da dobijene rezultate interpretira savesno, odgovorno i sa dovoljno pratećih argumenata u prilog iznetih tvrdnji. Jedan od tih argumenata mogu da budu ranije pomenuti intervali poverenja ili pouzdanosti izračunatih statistika koji su mnogo informativniji i korisniji od p vrednosti i mehaničke konstatacije da je neka tvrdnja tačna ili netačna. U narednih nekoliko odeljaka, postupak testiranja nul-hipoteza stavićemo u kontekst primene nekoliko bazičnih inferencijalnih statističkih metoda.