Uvod Pojam, vrste i svrha vizualizacije 1.1. Vizuelno mišljenje 1.2. Vizuelna komunikacija 1.3. Vizuelna pismenost 1.3.1. Različiti aspekti vizuelne pismenosti 1.3.1.1. Piktogrami i piktografici 1.4. Karta, mapa, dijagram, grafik, infografik 1.5. Podatak, informacija, znanje, razumevanje 1.5.1. Tabelarni i grafički prikaz podataka 1.5.2. Deskriptivna i inferencijalna statistika 1.6. Naučna vizualizacija i vizualizacija informacija 1.7. Vizualizacija kao eksplorativna tehnika 1.8. Izbor prikladne tehnike vizualizacije 1.8.1. Nivoi merenja varijabli 1.8.2. Hijerarhija vizuelnih kodova 1.8.3. Čitljivost grafikona 1.9. Prvi test znanja Vizualizacija distribucija verovatnoća 2.1. Pojam verovatnoće 2.2. Populacija i uzorak 2.2.1. Tehnike uzorkovanja 2.3. Pojam nasumičnosti ili slučajnosti 2.4. Pojam varijabilnosti 2.5. Osnovne tehnike sažimanja podataka 2.5.1. Tabele frekvencija i tabele kontingencije 2.5.2. Mere grupisanja ili centralne tendencije 2.5.2.1. Aritmetička sredina, medijana i mod 2.5.2.2. Još neke vrste prosečnih vrednosti 2.5.3. Mere raspršenja ili varijabilnosti 2.5.3.1. Vizuelna procena i poređenje varijabilnosti 2.5.3.2. Varijansa i standardna devijacija 2.5.3.3. Pojam matematičke funkcije 2.5.3.4. Interkvartilni raspon 2.6. Karakteristike i važnost normalne distribucije 2.6.1. Centralna granična teorema 2.6.2. Funkcije mase i gustine verovatnoće 2.6.3. Standardizacija sirovih rezultata 2.6.4. Površina ispod normalne krive 2.6.5. Standardna greška aritmetičke sredine 2.6.6. Skjunis i kurtozis 2.7. Još neke važne statističke distribucije 2.7.1. Studentova t distribucija 2.7.2. Hi-kvadrat distribucija 2.7.3. Fišer-Snedekorova F distribucija 2.8. Stepeni slobode 2.9. Test-statistici, p vrednosti i nivoi značajnosti 2.9.1. Jednostrano testiranje razlika 2.10. Drugi test znanja Vizualizacija razlika i povezanosti između varijabli 3.1. Testiranje (ne)tačnosti nul-hipoteza 3.2. T-test za jedan uzorak 3.3. T-test za dva uzorka 3.3.1. Uslovi za primenu t-testa 3.4. Neparametrijske alternative t-testu za dva uzorka 3.4.1. Vold-Volfovicov test nizova 3.4.2. Kolmogorov-Smirnovljev test za dva uzorka 3.4.3. Men-Vitnijev test sume rangova 3.5. Hi-kvadrat test 3.5.1. Hi-kvadrat kao test nezavisnosti 3.5.2. Pojam veličine efekta 3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija) 3.5.4. Uslovi za primenu hi-kvadrat testa 3.6. Pirsonov produkt-moment koeficijent korelacije 3.6.1. Regresiona jednačina i regresiona prava 3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi 3.6.2. Standardna greška procene 3.6.3. Interpretacija koeficijenta korelacije 3.6.4. Uslovi za primenu Pirsonovog r 3.6.5. Korelacija i uzročnost 3.7. Koeficijenti korelacije za rangirane podatke 3.8. T-test za zavisne uzorke 3.9. Neparametrijske alternative t-testu za zavisne uzorke 3.10. Značajnost razlika uparenih podataka nominalnog nivoa 3.10.1. Maknimarov test 3.10.2. Koenova kapa 3.10.3. Testovi marginalne homogenosti za politomne varijable 3.11. Treći test znanja Završne napomene Literatura
2.2. Populacija i uzorak
U sredstvima javnog informisanja često nailazimo na izveštaje o gledanosti različitih emisija i filmova u određenoj državi, regionu ili celom svetu. Pri tome se retko zapitamo kako su ti podaci prikupljeni i obrađeni, jer sabiranje broja prodatih ulaznica ili prebrojavanje korisnika prijavljenih na neki internet servis za emitovanje sadržaja (engl. streaming) ne zvuči kao preterano zahtevan statistički poduhvat. Naravno, pod uslovom da su kompanije voljne i da smeju da dele svoje podatke. Ali čak ni tada procena gledanosti ne svodi se na primenu osnovnih matematičkih operacija. Uzmimo kao primer informaciju da je gledanost jedne televizijske emisije u nekoj državi bila 25%, što znači da ju je (navodno) gledala četvrtina ukupnog broja stanovnika. Procentualni deo neke vrednosti najlakše se izračunava tako što se traženi procenat podeli sa 100 i pretvori u proporciju, a potom se proporcija pomnoži sa datom vrednošću. U našem primeru, ako država ima 6 miliona stanovnika, 25% te vrednosti je isto što i proporcija od 0,25 (25 : 100), što znači da je emisiju pratilo 6 · 0,25 ili 1,5 miliona gledalaca. Svima je jasno da anketari agencije koja je saopštila navedenu informaciju nisu išli od stanovnika do stanovnika, niti su svakome od njih postavljali pitanja telefonom ili poštom, jer bi taj postupak trajao veoma dugo i ne bi bio ekonomski isplativ. Međutim, ono što je bitnije za temu ovog poglavlja jeste da taj postupak ne bi bio ni potreban. Naime, dovoljno pouzdani zaključci o većem skupu entiteta mogu da se donesu i na osnovu posmatranja njegovog manjeg podskupa. U nauci se zaključci i pretpostavke (inferencije) o populaciji, najčešće donose na osnovu posmatranja karakteristika uzorka uzetog iz te populacije. Populacija je, dakle, skup svih entiteta o kojima želimo da donesemo neki zaključak i na koje će se odnositi naša pretpostavka ili rezultat, a uzorak je samo jedan njen podskup, odnosno deo koji nam je u istraživanju bio dostupan za merenje i analizu. Za označavanje populacije ponekad se koristi i termin univerzum, čime se posebno naglašava činjenica da je u pitanju teorijski neograničen skup entiteta. Neograničene ili neprebrojive populacije postoje samo u teoriji, odnosno u hipotetičkim situacijama, kao što je npr. populacija svih bacanja novčića ili kockica. Međutim, suština neograničenosti je u tome što čak i prebrojive populacije, za koje bismo mogli da odredimo ili saznamo konačan broj članova, u praksi postaju potpuno „neuhvatljive“. Ako biste hteli da postavite pitanje, ili da nešto izmerite svim korisnicima neke društvene mreže ili svim ljudima koji imaju alergiju na polen, veličina i sastav ciljne populacije znatno bi se izmenili već nakon prvih par dana prikupljanja podataka. Naravno, postoje situacije u kojima je relativno lako pristupiti svim članovima populacije, npr. ako je definišete kao pacijente nekog kliničkog centra obolele od određene bolesti ili đake neke osnovne škole. Ali u tom slučaju bi vaši zaključci bili prilično ograničeni i odnosili bi se samo na članove te populacije – pacijente tog kliničkog centra i đake te škole. Međutim, suština primene statistike u naučnim istraživanjima jeste izvođenje zaključaka koji se mogu uopštiti, tj. generalizovati na znatno veći broj slučajeva.
2.2.1. Tehnike uzorkovanja
Pre nego što se pristupi uzorkovanju, populacija i kriterijumi pripadnosti na osnovu kojih se odlučuje da li je neki entitet deo te populacije, moraju da budu definisani iscrpno, nedvosmisleno i koncizno. U zavisnosti od ciljeva istraživanja, populaciju mogu da čine npr. svi građani Vojvodine, studenti završnih godina tehničkih fakulteta u Srbiji, klijenti svih filijala neke banke starosti između 30 i 40 godina, osobe koje su u toku prethodnih pet godina barem jednom zatražile savet psihologa, ali i svi automobili u nekom gradu, svi zasadi kukuruza u nekoj opštini ili sve bombonjere proizvedene u nekoj fabrici. U našem primeru o gledanosti emisija, populaciju bi činili svi građani neke države koji su stariji od četiri godine i imaju pristup TV prijemniku u svom domaćinstvu. Da bi nešto zaključile o ponašanju gledalaca koji čine tu populaciju, agencije prikupljaju podatke na uzorku domaćinstava u kojima su instalirani tzv. piplmetri, uređaji koji beleže i šalju informacije o tome na kom televizijskom programu, u kom terminu i koliko dugo su se članovi odabranih domaćinstava zadržavali. Broj tih domaćinstava u državama veličine Srbije ne prelazi 1.000, što znači da neku emisiju zapravo nije gledalo 1,5 od 6 miliona stanovnika (članova populacije), već npr. 300 od 1.200 ispitanika (članova uzorka) ili 150 od 600 ispitanika koji su u tom trenutku imali uključen televizor. Drugim rečima, obrasci uočeni na uzorku, pripisuju se celoj populaciji i uopštavaju na sve njene članove. Prilikom generalizacije zaključaka sa nekoliko stotina na nekoliko miliona ljudi, agencije se pouzdaju u reprezentativnost svog uzorka. Uzorak smatramo reprezentativnim ukoliko verno odražava sve bitne karakteristike populacije, odnosno sve one varijable koje na neki način mogu da budu povezane ili da utiču na ishode merenja. U našem primeru te varijable bi mogle da budu pol, uzrast, stepen obrazovanja, materijalni status i sve druge karakteristike osoba za koje se očekuje da su na neki način povezane sa time šta vole da prate na televiziji. Reprezentativan uzorak bi trebalo da bude odraz raznolikosti gledalaca u populaciji, a taj odraz se najbolje pravi ukoliko se sve prepusti zakonima verovatnoće. Stoga se najpoželjnijom tehnikom uzorkovanja smatra jednostavno nasumično uzorkovanje koje podrazumeva da se izbor članova uzorka iz populacije vrši potpuno nasumično, bez nekog reda i pravilnosti. To znači da ukoliko u populaciji ima više žena od muškaraca ili više osoba mlađih od 20 godina nego starijih, verovatnoća da će takve osobe biti nasumično odabirane postaje veća. Samim tim, njih će biti proporcionalno više i u uzorku. Postupak nasumičnog uzorkovanja podrazumeva postojanje okvira za uzorkovanje, tj. iscrpnog popisa svih članova populacije, sa koga se nasumičnim izborom rednih brojeva određuju članovi koji će formirati uzorak. Alternativno, sa popisa može da se nasumično odabere samo jedan član, a nakon njega svaki n-ti, npr. svaki deseti. Tada govorimo o tehnici sistematskog uzorkovanja.
Upravo opisane tehnike uzorkovanja obično se nazivaju verovatnosnim, jer u postupku selekcije svaki član populacije ima istu verovatnoću da dospe u uzorak. U ovu grupu tehnika spadaju još i stratifikovano i klasterisano uzorkovanje. Kod prvog se populacija najpre deli na stratume (slojeve) iz kojih se potom nasumično izdvajaju članovi, ali tako da je proporcija svakog stratuma u uzorku približno ista kao proporcija tog stratuma u populaciji. Ukoliko, na primer, želimo da sprovedemo istraživanje koje se odnosi na studente nekog univerziteta, potrudićemo se da u uzorku budu zastupljeni studenti svih fakulteta tog univerziteta i to u proporciji koja odgovara stvarnom broju studenata na svakom fakultetu. Na taj način fakulteti sa više studenata imaće i više svojih predstavnika u uzorku, čime se obezbeđuje veća preciznost, posebno u situacijama kada je uzorak manji, pa se ne može očekivati da nakon jednostavnog nasumičnog uzorkovanja svi stratumi populacije budu pravično zastupljeni. Sa druge strane, kod klasterisanog uzorkovanja najpre se nasumično odabira klaster, tj. podgrupa neke populacije, nakon čega se u uzorak uključuju svi članovi tog klastera. Na primer, ukoliko želimo da saznamo nešto o učenicima srednjih škola u nekom gradu, možemo nasumično da odaberemo nekoliko škola, a zatim da ispitamo sve đake odabranih škola.
Iako verovatnosne tehnike obezbeđuju bolju reprezentativnost uzorka, u istraživanjima se veoma često koriste i tzv. neverovatnosne metode kod kojih se članovi populacije biraju na manje ili više pristrasan način, tako da neki od njih imaju veću a neki manju verovatnoću da dospeju u uzorak. Očigledno je da reprezentativnost uzorka u ovakvim situacijama postaje diskutabilna, a uopštavanje zaključaka na celu populaciju manje opravdano. Razlozi za primenu neverovatnosnih tehnika uzorkovanja mogu da budu objektivni, kao što su nedostatak preciznog okvira za uzorkovanje ili nemogućnost pristupa određenim stratumima populacije, ali su mnogo češće subjektivni, odnosno vođeni namerom da se istraživanje obavi na brži, jednostavniji i jeftiniji način. Tipičan primer su prigodni uzorci koji se formiraju od članova populacije koji su istraživaču najlakše dostupni ili nisu u poziciji da odbiju učešće u istraživanju. Primer prigodnog i pristrasnog uzorkovanja bi bilo prikupljanje podataka o gledanosti televizije preko digitalnog prijemnika nekog kablovskog operatera ili anketiranje klijenata banke preko neke društvene mreže. Nekada se prigodni uzorci „poboljšavaju“ primenom uzorkovanja tipa snežne grudve ili lančanog uzorkovanja, kada se od početno formirane grupe ispitanika traži da regrutuju nove ispitanike. Ovo je i dalje neverovatnosno uzorkovanje, jer veću verovatnoću ulaska u uzorak imaju osobe koje su bliskije i sličnije članovima inicijalne grupe. Treba imati na umu da pristrasnost u uzorkovanju može da ima ozbiljne posledice na validnost rezultata istraživanja. U psihologiji, na primer, već nekoliko decenija traje polemika o tome koliko je opravdano uopštavati zaključke o psihičkim fenomenima, ako se zna da su oni u ogromnom broju slučajeva donošeni na osnovu uzoraka sačinjenih prvenstveno od studenata početnih godina psihologije (Henrich, Heine, & Norenzayan, 2010; Shen et al., 2011; Sherman, Buddie, Dragan, End, & Finney, 1999; Smart, 1966). Sve češća upotreba internet platformi za prikupljanje podataka dodatno intenzivira ovu diskusiju, jer istraživač nikada ne može da bude potpuno siguran ko je, koliko puta i pod kojim uslovima popunio neki elektronski upitnik (Sharpe & Poets, 2017). Na kraju, čak i ako ove kritike ne shvatimo ozbiljno, veća dostupnost i globalizacija obrazovanja, nauke, znanja i informacija, dovela je do toga da uzorci u većini istraživanja deluju „čudno“ iz aspekta država neengleskog govornog područja, posebno onih sa azijskog i afričkog kontinenta, jer su u najvećoj meri uzimani iz tzv. WEIRD populacija (engl. Western, Educated, Industrialized, Rich, and Democratic) (Henrich et al., 2010). Ovo izvrdavanje zakona verovatnoće jedan je od razloga trenutne krize ponovljivosti psihološke nauke, odnosno nemogućnosti da se u ponovljenim istraživanjima dođe do istog zaključka (Open Science Collaboration, 2015). Stoga je veoma važno da se u istraživanju jasno i objektivno naznači na koju populaciju se odnose zaključci doneti na osnovnu uzorka, odnosno za koju grupu entiteta taj uzorak može da se smatra reprezentativnim.