Uvod Pojam, vrste i svrha vizualizacije 1.1. Vizuelno mišljenje 1.2. Vizuelna komunikacija 1.3. Vizuelna pismenost 1.3.1. Različiti aspekti vizuelne pismenosti 1.3.1.1. Piktogrami i piktografici 1.4. Karta, mapa, dijagram, grafik, infografik 1.5. Podatak, informacija, znanje, razumevanje 1.5.1. Tabelarni i grafički prikaz podataka 1.5.2. Deskriptivna i inferencijalna statistika 1.6. Naučna vizualizacija i vizualizacija informacija 1.7. Vizualizacija kao eksplorativna tehnika 1.8. Izbor prikladne tehnike vizualizacije 1.8.1. Nivoi merenja varijabli 1.8.2. Hijerarhija vizuelnih kodova 1.8.3. Čitljivost grafikona 1.9. Prvi test znanja Vizualizacija distribucija verovatnoća 2.1. Pojam verovatnoće 2.2. Populacija i uzorak 2.2.1. Tehnike uzorkovanja 2.3. Pojam nasumičnosti ili slučajnosti 2.4. Pojam varijabilnosti 2.5. Osnovne tehnike sažimanja podataka 2.5.1. Tabele frekvencija i tabele kontingencije 2.5.2. Mere grupisanja ili centralne tendencije 2.5.2.1. Aritmetička sredina, medijana i mod 2.5.2.2. Još neke vrste prosečnih vrednosti 2.5.3. Mere raspršenja ili varijabilnosti 2.5.3.1. Vizuelna procena i poređenje varijabilnosti 2.5.3.2. Varijansa i standardna devijacija 2.5.3.3. Pojam matematičke funkcije 2.5.3.4. Interkvartilni raspon 2.6. Karakteristike i važnost normalne distribucije 2.6.1. Centralna granična teorema 2.6.2. Funkcije mase i gustine verovatnoće 2.6.3. Standardizacija sirovih rezultata 2.6.4. Površina ispod normalne krive 2.6.5. Standardna greška aritmetičke sredine 2.6.6. Skjunis i kurtozis 2.7. Još neke važne statističke distribucije 2.7.1. Studentova t distribucija 2.7.2. Hi-kvadrat distribucija 2.7.3. Fišer-Snedekorova F distribucija 2.8. Stepeni slobode 2.9. Test-statistici, p vrednosti i nivoi značajnosti 2.9.1. Jednostrano testiranje razlika 2.10. Drugi test znanja Vizualizacija razlika i povezanosti između varijabli 3.1. Testiranje (ne)tačnosti nul-hipoteza 3.2. T-test za jedan uzorak 3.3. T-test za dva uzorka 3.3.1. Uslovi za primenu t-testa 3.4. Neparametrijske alternative t-testu za dva uzorka 3.4.1. Vold-Volfovicov test nizova 3.4.2. Kolmogorov-Smirnovljev test za dva uzorka 3.4.3. Men-Vitnijev test sume rangova 3.5. Hi-kvadrat test 3.5.1. Hi-kvadrat kao test nezavisnosti 3.5.2. Pojam veličine efekta 3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija) 3.5.4. Uslovi za primenu hi-kvadrat testa 3.6. Pirsonov produkt-moment koeficijent korelacije 3.6.1. Regresiona jednačina i regresiona prava 3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi 3.6.2. Standardna greška procene 3.6.3. Interpretacija koeficijenta korelacije 3.6.4. Uslovi za primenu Pirsonovog r 3.6.5. Korelacija i uzročnost 3.7. Koeficijenti korelacije za rangirane podatke 3.8. T-test za zavisne uzorke 3.9. Neparametrijske alternative t-testu za zavisne uzorke 3.10. Značajnost razlika uparenih podataka nominalnog nivoa 3.10.1. Maknimarov test 3.10.2. Koenova kapa 3.10.3. Testovi marginalne homogenosti za politomne varijable 3.11. Treći test znanja Završne napomene Literatura
Vizualizacija distribucija verovatnoća
Statistički udžbenici po pravilu sadrže najmanje jedno poglavlje posvećeno osnovama teorije verovatnoće i teorije skupova. Ove dve oblasti matematike veoma su važne za razumevanje statističkih pojmova i procedura, posebno onih koje se tiču predviđanja ishoda događaja i izvođenja zaključaka. U skladu sa obećanjem datim na početku, u ovom udžbeniku ćemo prikriti matematiku (koliko je to moguće), a osnovne postavke vezane za teorije verovatnoće i skupova objasnićemo u nekoliko narednih odeljaka koji se bave tehnikama uzorkovanja i deskriptivne statistike, tj. postupcima prikupljanja, sažimanja i opisivanja podataka. Logike teorije verovatnoće i teorije skupova su sveprisutne i mnogima već poznate, barem na nekom osnovnom, intuitivnom nivou. Na primer, često koristimo opciju dovršavanja reči prilikom upotrebe internet pretraživača. Ako u okvir za unos teksta nekog pretraživača ukucate nisku stat, pojaviće se lista ponuđenih ključnih reči na kojoj će možda biti i reč statistika ali ne iznad reči status, jer su statusi na društvenim mrežama popularnija tema od varijabli i grafikona. Ukoliko pretraživač nema dodatne podatke o vama, vi (p)ostajete tipičan korisnik interneta, tako da vam se nudi ono što korisnici najčešće, odnosno najverovatnije traže. Dakle, pretraživač procenjuje verovatnoću onoga što želite da unesete na osnovu učestalosti upita velikog broja korisnika, polazeći od jednostavne pretpostavke da najverovatnije tražite ono što je tražila većina ljudi pre vas. Međutim, ukoliko ste u toku pretrage prijavljeni kao Branko Simić, građevinski inženjer, proste verovatnoće postaju manje korisne i zamenjuju ih uslovne verovatnoće, prilagođene činjenici da je ispunjen neki uslov, da su neki podaci unapred poznati, odnosno da su se neki događaji već desili. U ovom primeru to je podatak da ste vi građevinski a ne npr. mašinski inženjer, što povećava uslovnu verovatnoću da vas interesuje statika materijala, a smanjuje verovatnoću da vas interesuju statori. Tada se verovatnoća ne procenjuje na osnovu učestalosti pretraga svih korisnika, već na osnovu podskupa pretraga koje su obavili drugi građevinski inženjeri ili, u nekoj drugoj situaciji, korisnici vašeg uzrasta i/ili pola, korisnici iz mesta u kome živite, korisnici koji imaju istu marku mobilnog telefona, a zapravo najčešće vi sami u dotadašnjem korišćenju istog pretraživača. Naravno, iako je verovatnoća da ćete nakon stat ukucati nisku istika ili us drastično veća, može se desiti da je vaš cilj da pronađete informacije o statiranju u filmovima. Ukucali ste reči, pritisnuli enter i na vrhu liste rezultata pretrage, opet na osnovu principa verovatnoće, nalaziće se sajtovi koji su vam najverovatnije korisni, tj. oni koje je posetilo najviše osoba sličnih interesovanja, oni koji su najbolje ocenjeni, oni na koje vodi najviše linkova sa drugih sajtova itd. Na kraju, dolazite do stranice na kojoj se nude stotine potencijalnih angažmana za statiste, tako da vam je potrebna pomoć teorije skupova. Označavate opcije i izjašnjavate se da želite da statirate na otvorenom, negde u Vojvodini, u filmu sa stranim producentima i sl. Na taj način formirate presek podskupova velikog skupa ponuda, čime vam je bitno olakšano pronalaženje potrebne informacije. Može se reći da matematički i statistički postupci omogućavaju da se velike količine podataka sažmu, istraže i pretvore u informacije na osnovu koji se, sa manjom ili većom pouzdanošću i tačnošću, mogu predvideti ishodi različitih događaja.
2.1. Pojam verovatnoće
Do sada smo više puta pominjali pojam verovatnoće oslanjajući se na njegovo kolokvijalno značenje i na intuitivnost, odnosno na opštu informisanost čitaoca. Čak je i opravdanje za ovakvo očekivanje autora povezano sa pojmom verovatnoće, jer su „velike šanse“ da osoba koja čita ovaj udžbenik gotovo svakoga dana pravi ili koristi procene verovatnoće, tj. procene mogućnosti da se desi neki događaj. Te procene su nekada zasnovane na subjektivnom utisku (npr. „Imam (pred)osećaj da ćemo ih pobediti u utakmici!“), nekada na pređašnjem iskustvu u sličnim situacijama (npr. „Tamo ćeš 100% naći mesto za parkiranje.“), a nekada na egzaktnim podacima o povezanosti određenih pojava (npr. „Polje niskog vazdušnog pritiska pomera se prema našoj zemlji, što će dovesti do padavina u severnim krajevima.“). U statistici, naravno, brojčano izražavanje verovatnoće mora da bude objektivnije i preciznije. To možda nije bilo dovoljno očigledno iz dosadašnjih primera, ali kvantifikacija verovatnoće bazira se na učestalostima različitih događaja. Na primer, vrlo je verovatno da su slike lansiranja iranskih raketa krivotvorene, jer se identični oblici dima slučajno pojavljuju veoma retko ili nikada. Velika je verovatnoća da pumpa za vodu nije higijenski ispravna zato što su osobe koje su živele u njenoj blizini znatno češće oboljevale od kolere. Kada u okvir za unos teksta pretraživača unesete reč Michael, na vrhu liste će vam najverovatnije biti ponuđeni nastavci Jackson, Douglas, Jordan ili Fassbender zato što korisnici interneta mnogo češće traže podatke o tim osobama nego o Majku Bostoku.
Zamislimo da niste znali odgovor na neko od pitanja iz testa znanja o piktogramima. Kolika je verovatnoća da slučajno pogodite tačan odgovor? U teoriji verovatnoće, vaše davanje odgovora predstavlja jedan eksperiment. Eksperiment može da bude bilo koja aktivnost, kao što je bacanje kockice u igri Jamb ili istraživački eksperiment koji hemičar sprovodi u svojoj laboratoriji. Na svako pitanje bila su ponuđena četiri odgovora, što znači da je eksperiment mogao da ima četiri ishoda. Skup svih mogućih ishoda naziva se prostor uzorka. Nas interesuje verovatnoća jednog događaja, a to je izbor tačnog odgovora. Događaj je skup svih poželjnih ishoda, koji u našem primeru sadrži samo jedan element. U tom slučaju, verovatnoću slučajnog pogađanja tačnog odgovora izrazićemo kao odnos broja poželjnih ishoda i ukupnog broja ishoda:
`p=(broj\ poželjnih\ ishoda)/(broj\ mogućih\ ishoda)=1/4=0,25`
Obratite pažnju na činjenicu da smo verovatnoću označili malim latiničnim slovom p od engleskog probability, ali i od proportion, jer verovatnoća nije ništa drugo nego odnos dve učestalosti, tj. proporcija ili udeo poželjnih ishoda u skupu svih ishoda koji su mogli da se dese. Dakle, verovatnoća da ćete slučajno pogoditi tačan odgovor iznosi 0,25, što možemo da izrazimo i procentima ako dobijenu proporciju pomnožimo sa 100. Iako često umemo da kažemo da smo 200% sigurni u nešto, vrednosti p mogu da se kreću samo u intervalu od 0 do 1 ili od 0% do 100%.
Kolika je verovatnoća slučajnog pogađanja tačnog odgovora na pitanja koja sadrže samo dve opcije – tačno i netačno?

Kolika je verovatnoća pogađanja tačnog odgovora ako vam je poznato da jedan od četiri ponuđena odgovora nije tačan?

Kolika je verovatnoća pogađanja tačnog odgovora ako vam je poznato da jedan od četiri ponuđena odgovora nije tačan i ako postoje dva odgovora koja se priznaju kao tačna, tj. ako događaj ima dva poželjna ishoda?
U prirodi i društvu postoje događaji koji su potpuno izvesni. Međutim, u statističkom zaključivanju nikada nećete moći da budete 100% sigurni u svoju procenu. Ako ipak jeste, onda se bavite fenomenima koji ne zavređuju pažnju istraživača i nisu naučno relevantni, jer statistika se bavi probabilističkim fenomenima čije ishode nije moguće predvideti sa potpunom sigurnošću. Nasuprot tome, deterministički fenomeni su oni koji su potpuno predvidivi, ali takođe i izuzetno retki, naročito u društvenim naukama kao što je psihologija. Ipak, olakšavajuću okolnost za naučnike i statističare predstavlja činjenica da mogu da budu zadovoljni i nivoima sigurnosti, tj. poverenja u svoje ili tuđe zaključke koji su niži od 100%. Uostalom, to radimo i u svakodnevnom životu. Ako vremenska prognoza najavljuje 80% verovatnoće padavina, većina nas će poneti kišobran ili smisliti način da do cilja stignete sa suvom odećom na sebi. Naravno, interpretacija nivoa verovatnoće ima i određeni subjektivni momenat. Ako neki događaj nije potpuno izvestan, obično vagamo između verovatnoće jednog ishoda i verovatnoće drugih mogućih ishoda. Tipičan primer su igre na sreću koje privlače veliki broj osoba spremnih da svoja velika očekivanja baziraju na izuzetno malim verovatnoćama dobitka. Student koji nije naučio kompletno gradivo veruje u verovatnoću da neće izvući pitanje koje ne zna, mada se često desi upravo to. Slično je i u nauci. Istraživač mora da prihvati rizik da rezultat njegovog istraživanja možda nije tačan, ali, za razliku od svakodnevnih i subjektivnih situacija, taj rizik mora da svede na najmanji mogući nivo. Ovo je ključna karakteristika statističkog zaključivanja koja se često zanemaruje, jer većina ljudi ipak teži da izbegne neizvesnost i pokušava da bude ubedljivija u odbrani svojih stavova. Na primer, poruka „Pušenje ubija!“ na paklici cigareta implicira uzročno-posledičnu vezu između pušenja i smrtnog ishoda. Stoga će, na primer, strastveni pušač koji poznaje drugog strastvenog pušača starog 80 godina, reći da ona nije tačna. Ali to nije korektan (statistički) način razmišljanja. Na paklicu cigareta ne možemo da smestimo rečenicu: „Pušenje značajno povećava verovatnoću oboljevanja od karcinoma pluća ili grla koji, ukoliko se ne dijagnostikuju na vreme i ne leče na adekvatan način, u većini slučajeva dovode do smrtnog ishoda“. Ono što možemo da uradimo, jeste da unapredimo svoju statističku pismenost da bismo bolje razumeli i tačnije interpretirali podatke i informacije kojima smo svakodnevno izloženi.
Verovatnoća slučajnog pogađanja je 50% ili 0,5.
Verovatnoća slučajnog pogađanja je 1 : 3 ili približno 33%. Eliminisanje nekih od mogućih ishoda povećava verovatnoću dobijanja onih preostalih.
Verovatnoća je 2 · 33% ili 2 : 3, odnosno oko 67%.