Uvod Pojam, vrste i svrha vizualizacije 1.1. Vizuelno mišljenje 1.2. Vizuelna komunikacija 1.3. Vizuelna pismenost 1.3.1. Različiti aspekti vizuelne pismenosti 1.3.1.1. Piktogrami i piktografici 1.4. Karta, mapa, dijagram, grafik, infografik 1.5. Podatak, informacija, znanje, razumevanje 1.5.1. Tabelarni i grafički prikaz podataka 1.5.2. Deskriptivna i inferencijalna statistika 1.6. Naučna vizualizacija i vizualizacija informacija 1.7. Vizualizacija kao eksplorativna tehnika 1.8. Izbor prikladne tehnike vizualizacije 1.8.1. Nivoi merenja varijabli 1.8.2. Hijerarhija vizuelnih kodova 1.8.3. Čitljivost grafikona 1.9. Prvi test znanja Vizualizacija distribucija verovatnoća 2.1. Pojam verovatnoće 2.2. Populacija i uzorak 2.2.1. Tehnike uzorkovanja 2.3. Pojam nasumičnosti ili slučajnosti 2.4. Pojam varijabilnosti 2.5. Osnovne tehnike sažimanja podataka 2.5.1. Tabele frekvencija i tabele kontingencije 2.5.2. Mere grupisanja ili centralne tendencije 2.5.2.1. Aritmetička sredina, medijana i mod 2.5.2.2. Još neke vrste prosečnih vrednosti 2.5.3. Mere raspršenja ili varijabilnosti 2.5.3.1. Vizuelna procena i poređenje varijabilnosti 2.5.3.2. Varijansa i standardna devijacija 2.5.3.3. Pojam matematičke funkcije 2.5.3.4. Interkvartilni raspon 2.6. Karakteristike i važnost normalne distribucije 2.6.1. Centralna granična teorema 2.6.2. Funkcije mase i gustine verovatnoće 2.6.3. Standardizacija sirovih rezultata 2.6.4. Površina ispod normalne krive 2.6.5. Standardna greška aritmetičke sredine 2.6.6. Skjunis i kurtozis 2.7. Još neke važne statističke distribucije 2.7.1. Studentova t distribucija 2.7.2. Hi-kvadrat distribucija 2.7.3. Fišer-Snedekorova F distribucija 2.8. Stepeni slobode 2.9. Test-statistici, p vrednosti i nivoi značajnosti 2.9.1. Jednostrano testiranje razlika 2.10. Drugi test znanja Vizualizacija razlika i povezanosti između varijabli 3.1. Testiranje (ne)tačnosti nul-hipoteza 3.2. T-test za jedan uzorak 3.3. T-test za dva uzorka 3.3.1. Uslovi za primenu t-testa 3.4. Neparametrijske alternative t-testu za dva uzorka 3.4.1. Vold-Volfovicov test nizova 3.4.2. Kolmogorov-Smirnovljev test za dva uzorka 3.4.3. Men-Vitnijev test sume rangova 3.5. Hi-kvadrat test 3.5.1. Hi-kvadrat kao test nezavisnosti 3.5.2. Pojam veličine efekta 3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija) 3.5.4. Uslovi za primenu hi-kvadrat testa 3.6. Pirsonov produkt-moment koeficijent korelacije 3.6.1. Regresiona jednačina i regresiona prava 3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi 3.6.2. Standardna greška procene 3.6.3. Interpretacija koeficijenta korelacije 3.6.4. Uslovi za primenu Pirsonovog r 3.6.5. Korelacija i uzročnost 3.7. Koeficijenti korelacije za rangirane podatke 3.8. T-test za zavisne uzorke 3.9. Neparametrijske alternative t-testu za zavisne uzorke 3.10. Značajnost razlika uparenih podataka nominalnog nivoa 3.10.1. Maknimarov test 3.10.2. Koenova kapa 3.10.3. Testovi marginalne homogenosti za politomne varijable 3.11. Treći test znanja Završne napomene Literatura
2.3. Pojam nasumičnosti ili slučajnosti
U prethodnom odeljku koristili smo termin nasumično za označavanje radnji i događaja koji se dešavaju bez vidljivog reda i namere, tj. za označavanje procesa čiji ishod nije moguće predvideti sa potpunom sigurnošću. Na primer, prilikom nasumičnog odabira člana neke raznovrsne populacije ljudi, nećete moći unapred da znate da li će to biti muška ili ženska, starija ili mlađa, viša ili niža, zaposlena ili nezaposlena osoba. Za označavanje nasumičnih procesa u engleskom jeziku koristi se termin random, koji se u domaćoj literaturi obično prevodi kao slučajno. Samim tim se i teorija verovatnoće definiše kao oblast matematike koja se bavi ishodima slučajnih varijabli (engl. random variables) ili stohastičkih procesa kao skupa većeg broja slučajnih varijabli. Kako bismo bili dosledni sa postojećom literaturom, termine slučajno i nasumično koristićemo kao sinonime, ali predlažemo čitaocu da nasumično prihvati kao precizniji i prikladniji termin. U srpskom jeziku, pojam slučajno često ima drugačiju konotaciju i ne odražava na pravi način suštinu izvorne engleske reči. Naime, reč random svojim korenom i etimološkim poreklom upućuje na vezu sa trčanjem (engl. run, nem. rennen, st. fr. randir), tačnije sa procesima koji traju ili se ponavljaju. Upravo to je ključna karakteristika fenomena kojima se bavi i statistika. Ako neko dete slučajno, dakle bez namere, udari druga, sigurno neće privući pažnju školskog psihologa. Ali ako ono nasumično udari nekoga, to može da ukaže na postojanje namere. Štaviše, ukoliko se ti postupci ponavljaju, moguće je zaključiti da postoji „pozadinska“ pravilnost u njegovom ponašanju. Psiholog i dalje neće moći da predvidi koga će dete da udari i kada, ali određeni nevidljivi obrazac postaje uočljiv nakon većeg broja ponavljanja događaja (engl. long-run). Uočeni obrazac ukazuje na potencijalne probleme ili karakteristike tog (agresivnog) deteta. Slično tome, nemoguće je predvideti da li će prilikom bacanja novčića pasti pismo ili glava, ali sa razlogom očekujemo da će nakon više ponovljenih bacanja, broj pisama i glava biti podjednak. U narednom primeru ilustrovaćemo ovaj fenomen, odnosno svojstvo stohastičkih procesa poznato kao zakon velikih brojeva.
Kao vizuelnu ilustraciju postupka uzorkovanja upotrebićemo Voronojev dijagram, nazvan prema ukrajinskom matematičaru Georgiju Fedosijeviču Voronoju koji ga je prvi opisao i definisao. Ovaj dijagram služi za podelu površine na više segmenata definisanjem težišnih tačaka u dvodimenzionalnom prostoru. Svaki segment površine, ili Voronojeva ćelija, predstavlja skup tačaka koje se nalaze bliže težištu te ćelije nego težištima drugih ćelija. Pomoću Voronojevog dijagrama, na veoma intuitivan način, mogu da se predstave veličine klastera i pozicije njihovih centralnih tačaka ili centroida. To mogu da budu zgrade koje gravitiraju ka repetitorima mobilnog operatera ili korisnici (zaražene) pumpe za vodu, kao u ranije opisanom primeru iz 19. veka. Isto tako, centroidi mogu da budu i tipični predstavnici nekih kategorija osoba, npr. studenata različitih fakulteta ili osoba koje slušaju određenu vrstu muzike. U takvim situacijama, složenijim statističkim postupcima, kao što je npr. klaster analiza, moguće je odrediti pozicije i karakteristike centroida čak i na osnovu vrednosti većeg broja varijabli, odnosno svojstava grupa ispitanika. Međutim, tačna pozicija centroida u našem primeru nije bitna, jer se njome određuje samo veličina i položaj segmenata (stratuma) ukupne površine koju ćemo tretirati kao populaciju. Na početku je populacija izdeljena na sedam približno jednakih delova, od kojih svaki zauzima oko 15% ili 0,15 delova kvadrata. Zamislimo da je kriterijum za kategorizaciju bila nominalna varijabla, npr. fakultet koji osoba studira ili marka telefona koji koristi. Kliknite na taster Počni uzorkovanje da biste započeli proces formiranja jednostavnog nasumičnog uzorka studenata ili korisnika mobilnih telefona. Nasumičnost se ogleda u činjenici da potpuno nepristrasno birate članove populacije, odnosno da ne možete sa sigurnošću da predvidite koje boje će biti naredna izvučena loptica. Nakon 25 odabranih loptica, proces se pauzira.
Kakav odnos (proporciju) broja kuglica očekujete u uzorku na osnovu izgleda populacije?

Da li proporcije stratuma u uzorku veličine 25 verno odražavaju proporcije koje možete da uočite u populaciji?

Kliknite taster Obriši uzorak i formirajte novi uzorak veličine 25. Da li su proporcije kružića različitih boja u drugom uzorku iste kao u prvom?
Kliknite taster Nastavi uzorkovanje. Izvlačenje kuglica nastavlja se dok njihov broj ne dostigne 100. Obratite pažnju na to da je broj entiteta u uzorku, tačnije veličina uzorka, označena velikim latiničnim slovom N. Nekada se sa N označava veličina populacije, a malim n veličina uzorka ili veličina poduzorka većeg uzorka koji čini N elemenata. U ovom udžbeniku, koristićemo oznaku N za označavanje veličine uzorka, uz pretpostavku da tačna veličina populacije najčešće nije ni poznata.
Da li se reprezentativnost uzorka popravila nakon što je njegova veličina povećana?

Formirajte još nekoliko uzoraka veličine 100. Da li se uzorci veličine 100 međusobno više ili manje razlikuju od uzoraka veličine 25?
Kliknite taster Sakrij populaciju kako biste simulirali činjenicu da istraživač često ne zna kakve su prave karakteristike skupa entiteta iz koga uzima uzorak. Nakon toga odaberite opciju Populacija br. 2 i pokrenite uzorkovanje do veličine uzorka od 25.
Da li na osnovu uzorka veličine 25 možete da zaključite koliko stratuma postoji u populaciji?

Da li na osnovu uzorka veličine 25 možete da zaključite koji od stratuma u populaciji je proporcionalno najmanji a koji najveći?
Dovršite uzorkovanje i otkrijte populaciju. Proporcije boja u skupu od 100 loptica trebalo bi verno da odražavaju odnos proporcija površina različitih boja na kvadratu. Ti odnosi verovatno nisu potpuno identični, ali nam uzorak pruža dovoljno precizne i korisne informacije o populaciji. I dalje ne možemo da pretpostavimo koje će boje biti naredna loptica uzeta iz populacije, ali sada imamo podatke na osnovu kojih možemo da procenimo verovatnoću tog ishoda, tj. da kažemo da je najverovatnije da će loptica biti zelene boje. Ta verovatnoća je 0,33 (33%) i odražava udeo zelenih loptica u ukupnom broju loptica u populaciji. Obratite pažnju na to da verovatnoća izračunata na osnovu odnosa loptica u uzorku ne mora da bude ista kao ona koju bismo izračunali na osnovu stanja u populaciji. Međutim, s obzirom na činjenicu da je primenjeno jednostavno nasumično uzorkovanje, te verovatnoće su veoma slične.
Ponovite postupak skrivanja i uzorkovanja sa populacijama 3 i 4. Da li vam je bilo lakše i da li ste bili tačniji u proceni odnosa verovatnoća različitih ishoda na osnovu uzoraka uzetih iz Populacije 3 ili iz Populacije 4?

U kojoj od ove dve populacije je raznolikost entiteta, tj. boja veća?
Očekuje se da odnos broja kuglica različitih boja u uzorku bude približno isti kao i u populaciji. Verovatnoća izvlačenja kuglice bilo koje boje je podjednaka.
Najverovatnije ne. Da bi se zakon velikih brojeva manifestovao, uzorci moraju da budu dovoljno veliki.
Najverovatnije ne. Iz iste populacije moguće je uzeti praktično neograničen broj uzoraka koji međusobno ne moraju da budu isti, pa čak ni slični, posebno ako se radi o uzorcima male veličine.
Najverovatnije da. Povećavanjem veličine uzorka, povećava se i verovatnoća da će on biti reprezentativan u odnosu na populaciju iz koje je uzet.
Veći uzorci trebalo bi da budu međusobno sličniji jer daju tačniju i precizniju sliku populacije. Prostije rečeno, kada u nečemu grešimo, to može da bude na veliki broj različitih načina. Skup tačnih odgovora obično je mnogo manji.
Moguće je pretpostaviti, ali bi ta pretpostavka verovatno bila pogrešna u većini slučajeva, tj. u većini zaključaka donetih na osnovu malog uzorka.
Ukoliko su razlike u veličinama stratuma u populaciji veće, veća je verovatnoća da će se one manifestovati i na malim uzorcima. Ipak, ove procene će biti mnogo tačnije ako su uzorci veći.
Verovatno ste tačno predvideli da je u Populaciji 4 najveći narandžasti stratum, ali vam je bilo teško da odredite kakav je odnos preostalih boja zbog veoma male verovatnoće tih ishoda.
Iako je broj stratuma u obe populacije isti, raznolikost je veća u Populaciji 3. Naime, u Populaciji 4 očigledno dominira jedna boja, te možemo da kažemo da se u njoj nalazi veći broj međusobno sličnih entiteta.