Uvod Pojam, vrste i svrha vizualizacije 1.1. Vizuelno mišljenje 1.2. Vizuelna komunikacija 1.3. Vizuelna pismenost 1.3.1. Različiti aspekti vizuelne pismenosti 1.3.1.1. Piktogrami i piktografici 1.4. Karta, mapa, dijagram, grafik, infografik 1.5. Podatak, informacija, znanje, razumevanje 1.5.1. Tabelarni i grafički prikaz podataka 1.5.2. Deskriptivna i inferencijalna statistika 1.6. Naučna vizualizacija i vizualizacija informacija 1.7. Vizualizacija kao eksplorativna tehnika 1.8. Izbor prikladne tehnike vizualizacije 1.8.1. Nivoi merenja varijabli 1.8.2. Hijerarhija vizuelnih kodova 1.8.3. Čitljivost grafikona 1.9. Prvi test znanja Vizualizacija distribucija verovatnoća 2.1. Pojam verovatnoće 2.2. Populacija i uzorak 2.2.1. Tehnike uzorkovanja 2.3. Pojam nasumičnosti ili slučajnosti 2.4. Pojam varijabilnosti 2.5. Osnovne tehnike sažimanja podataka 2.5.1. Tabele frekvencija i tabele kontingencije 2.5.2. Mere grupisanja ili centralne tendencije 2.5.2.1. Aritmetička sredina, medijana i mod 2.5.2.2. Još neke vrste prosečnih vrednosti 2.5.3. Mere raspršenja ili varijabilnosti 2.5.3.1. Vizuelna procena i poređenje varijabilnosti 2.5.3.2. Varijansa i standardna devijacija 2.5.3.3. Pojam matematičke funkcije 2.5.3.4. Interkvartilni raspon 2.6. Karakteristike i važnost normalne distribucije 2.6.1. Centralna granična teorema 2.6.2. Funkcije mase i gustine verovatnoće 2.6.3. Standardizacija sirovih rezultata 2.6.4. Površina ispod normalne krive 2.6.5. Standardna greška aritmetičke sredine 2.6.6. Skjunis i kurtozis 2.7. Još neke važne statističke distribucije 2.7.1. Studentova t distribucija 2.7.2. Hi-kvadrat distribucija 2.7.3. Fišer-Snedekorova F distribucija 2.8. Stepeni slobode 2.9. Test-statistici, p vrednosti i nivoi značajnosti 2.9.1. Jednostrano testiranje razlika 2.10. Drugi test znanja Vizualizacija razlika i povezanosti između varijabli 3.1. Testiranje (ne)tačnosti nul-hipoteza 3.2. T-test za jedan uzorak 3.3. T-test za dva uzorka 3.3.1. Uslovi za primenu t-testa 3.4. Neparametrijske alternative t-testu za dva uzorka 3.4.1. Vold-Volfovicov test nizova 3.4.2. Kolmogorov-Smirnovljev test za dva uzorka 3.4.3. Men-Vitnijev test sume rangova 3.5. Hi-kvadrat test 3.5.1. Hi-kvadrat kao test nezavisnosti 3.5.2. Pojam veličine efekta 3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija) 3.5.4. Uslovi za primenu hi-kvadrat testa 3.6. Pirsonov produkt-moment koeficijent korelacije 3.6.1. Regresiona jednačina i regresiona prava 3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi 3.6.2. Standardna greška procene 3.6.3. Interpretacija koeficijenta korelacije 3.6.4. Uslovi za primenu Pirsonovog r 3.6.5. Korelacija i uzročnost 3.7. Koeficijenti korelacije za rangirane podatke 3.8. T-test za zavisne uzorke 3.9. Neparametrijske alternative t-testu za zavisne uzorke 3.10. Značajnost razlika uparenih podataka nominalnog nivoa 3.10.1. Maknimarov test 3.10.2. Koenova kapa 3.10.3. Testovi marginalne homogenosti za politomne varijable 3.11. Treći test znanja Završne napomene Literatura
1.4. Karta, mapa, dijagram, grafik, infografik
Istorija vizualizacije je delom i istorija umetnosti. Crteži pronađeni u pećini Lasko, koja se često naziva i praistorijskom Sikstinskom kapelom, nisu samo izuzetan primer paleolitskog slikarstva već i svojevrsno vizuelno uputstvo za izvođenje lova i magijskih rituala. Raspored crteža u pećini Altamira na severu Španije, za koju je Pablo Pikaso izjavio: „Posle Altamire, sve je dekadencija“, ukazuje na postojanje narativnog toka i ima obeležja sintakse pisanog jezika (Wildgen, 2004). Slike stvorene urezivanjem i dubljenjem površine kamena (tzv. petroglifi) na Pisanoj steni, crteži na antičkoj grnčariji i ideogrami u egipatskim grobnicama, još su neki primeri beleženja i prenošenja informacija u vizuelnoj formi. Međutim, tek je pojava papirusa oko 3.000. godine pre nove ere omogućila lakše i efikasnije zapisivanje, razmenu i širenje znanja. Značaj ovog pronalaska ogleda se i u jeziku, odnosno u upotrebi termina vezanih za (vizuelnu) komunikaciju. Papir u srpskom jeziku, paper u engleskom i papier u francuskom jeziku, vode poreklo od grčke reči πᾰ́πῡρος, ali označavaju podlogu za pisanje i crtanje koja je prvi put upotrebljena tek u Kini tri hiljade godina posle pronalaska papirusa. Reči kao što su Biblija, biblioteka i bibliografija u svom korenu imaju grčku imenicu βῐβλῐ́ον kojom je označavana traka papirusa. Srpsko karta i hartija, englesko chart i italijansko carta, vode poreklo od grčkog χαρτί ili χάρτης što je bio naziv za list papirusa na kome je nešto zabeleženo, najčešće mapa ili vizuelni prikaz informacije. Ovi poslednji primeri govore o tesnoj vezi ranih oblika pisane komunikacije i procesa vizualizacije. U literaturi se upravo karte ili mape najčešće navode kao preteče današnje vizualizacije informacija. Gotovo tri metra duga Torinska mapa na papirusu iz 1160. godine p. n. e. veoma precizno i u više boja prikazuje okolinu Tebe u Egiptu sa ucrtanim podacima o nalazištima ruda i geološkim karakteristikama tog područja. Pergament iz 13. veka poznat kao Tabula Peutingeriana je replika starorimske mape Mediterana, Bliskog Istoka i dela Azije iz 4. veka p. n. e. na kojoj su linijama i površinama raznih boja označeni putevi, rečni tokovi i planinski masivi, a ikonicama, tj. piktogramima, najvažnija naselja. Značajan pomak ka vizualizaciji informacija u modernom smislu te reči, predstavlja Ptolomejeva mapa iz 2. veka na kojoj su prvi put linijama označene geografske dužine i širine, odnosno fenomeni koji fizički ne postoje ili su nevidljivi. Na taj način karta fizičkih objekata postaje dijagram apstraktnih informacija.
U ovom udžbeniku termin dijagram ćemo koristiti za označavanje bilo kog vizuelnog prikaza objekata, fenomena ili njihovih međusobnih relacija korišćenjem simbola. Mapa podzemne železnice u nekom gradu nije (samo) mapa već dijagram na kome su različitim simbolima i bojama prikazane putanje železničkih linija, njihova ukrštanja i stanice. Porodično stablo se obično prikazuje dijagramom hijerarhijski organizovanih i povezanih pravougaonika koji simbolišu osobe i njihove rodbinske veze. Primeri dijagrama su strukturne formule kojima se grafički prikazuju molekuli hemijskih jedinjenja, kao i vizuelni prikaz delova i načina rada motora. Međutim, za različite vizualizacije u oblasti statistike češće se koristi nešto uži pojam grafici ili grafikoni. Grafikoni su vrsta dijagrama kojima se upotrebom boja, oblika, linija i tačaka, na pregledan i sažet način, prikazuju skupovi podataka. Jednostavan primer grafikona predstavljaju piktografici koje smo opisali u prethodnom odeljku. O raznolikosti formi statističkih grafikona govori činjenica da se u engleskom jeziku za njihovo označavanje koriste čak tri termina: chart, graph i plot. Prvi ima najšire značenje i koristi se da označi grafikone sastavljene od geometrijskih oblika, npr. pravougaonika različite visine (engl. bar chart) ili odsečaka kružnice koji imaju različitu površinu (engl. pie chart). Termin graph se obično vezuje za iscrtavanje linija, npr. da bi se prikazao trend porasta ili pada akcija neke kompanije (engl. line graph), slično našem primeru iz odeljka o vizuelnim metaforama. Pojedini autori predlažu da kriterijum za razlikovanje pojmova chart i graph bude (ne)postojanje precizno definisanog pravila za određivanje rasporeda objekata na dijagramu (Börner, Maltese, Balliet, & Heimlich, 2016). Tako bi oblak tagova bio chart, jer ne postoji kriterijum na osnovu koga bi se potpuno precizno odredila veličina i položaj reči u oblaku. Sa druge strane, dijagrami koji se iscrtavaju u koordinatnom sistemu bili bi graphs, jer je pozicija elemenata grafikona tačno određena njihovim vrednostima na horizontalnoj i vertikalnoj osi. Ipak, u većini slučajeva navedeni termini upotrebljavaju se nedosledno ili kao potpuni sinonimi. Izuzetak je donekle termin plots koji se po pravilu koristi kao naziv za kategoriju grafikona nastalih iscrtavanjem tačaka na jednoj osi ili, češće, u koordinatnom sistemu (npr. box plot ili scatter plot). U poslednje vreme sve više se koristi i termin infographics, ponekad kao sinonim za bilo koji vid vizualizacije informacija, ali češće da označi prigodne grafičke prikaze koji se ne mogu nazvati grafikonima, već pre ilustracijama čija je namena efikasno informisanje opšte populacije. Infografici se obično koriste u sredstvima javnog informisanja, kao vizualizacije koje upotpunjuju vesti, analize i novinske članke. Tipičan primer vizuelno bogatih infografikona predstavljaju ilustracije u naučno-popularnim časopisima kao što je National geographic.
Na početku ovog odeljka pomenuli smo pećinske crteže i antičke mape kao primere rane vizualizacije. U najširem smislu, to su ujedno i prvi oblici dijagrama. Međutim, ključna razlika između ranih i savremenih formi grafičkog predstavljanja, pored tehnološkog aspekta, nalazi se u stepenu apstraktnosti, intenzitetu sažimanja i broju predstavljenih dimenzija. Kao ilustrativan istorijski primer možemo da navedemo crtež nepoznatog astronoma iz 10. veka koji prikazuje putanje Sunca, Meseca i nekoliko planeta. Karakteristika koja izdvaja ovaj dijagram od mapa nebeskih tela koje su pravljene još u drevnom Egiptu jeste činjenica da je na njemu prikazana dimenzija vremena kao apstraktno svojstvo nastalo sažimanjem podataka iz različitih vremenskih perioda. Još jedan primer vizualizacije u kontekstu u kome danas koristimo taj termin, predstavlja shema putanje Napoleonove armije u pohodu na Rusiju 1812. godine koju je izradio francuski inženjer Šarl Minar. Na mapi je debljinom linije prikazan broj vojnika koji je sa oko 420.000 na početku invazije, spao na 10.000 preživelih koji su uspeli da se povuku sa bojišta. U donjem delu slike prikazane su temperature u različitim vremenskim periodima, tako da je uz pomoć dijagrama moguće dovesti u vezu porast smrtnosti sa padom temperature. Moć vizualizacije da otkrije nevidljive, ali i da jasnije prikaže vidljive relacije među fenomenima, ilustruje primer mape koju je izradio engleski lekar Džon Snou kako bi otkrio izvor epidemije kolere u Londonu 1854. godine. On je na mapi Londona iscrtao lokacije pumpi za vodu, a potom crticama označio broj smrtnih slučajeva na mestu svakog domaćinstva. Na osnovu grupisanja crtica zaključio je da se kolera širi preko zagađene vode, odnosno ručke jedne od pumpi, a ne udisanjem „lošeg vazduha“ ili mijazme, kako je smatrala većina lekara toga doba. Sličnih primera ima još mnogo, a za detaljan pregled istorije vizuelnog mišljenja i vizualizacije informacija preporučujemo da pogledate projekat Milestones in the history of thematic cartography, statistical graphics, and data visualization koji su sačinili psiholozi Majkl Frendli i Denijel Dejvis (Friendly & Denis, 2001). Na ovom mestu ćemo pomenuti samo još ime Viljema Plejfera, škotskog ekonomiste iz 18. veka, začetnika vizualizacije u statistici i tvorca prvih modernih grafikona kao što su stubičasti i pita dijagram koji će biti opisani u narednom odeljku.
Razvoj informacionih tehnologija omogućio je da u realnom vremenu vizualizujemo terabajte podataka. Međutim, osnovni principi vizualizacije koje su postavili ranije pomenuti pioniri u ovoj oblasti, još uvek su presudni za razumevanje svojstava uspešne vizualizacije. Suština grafičkog predstavljanja podataka nije u tome da se potpuno iskoriste raskoš i sve funkcionalnosti savremenih alatki za vizualizaciju, već da se odabere i primeni najprikladniji i najjednostavniji način pomoću koga će se nevidljivo učiniti vidljivim i lako razumljivim. Kao ilustraciju ćemo upotrebiti API (engl. application programming interface) servisa OpenLayers za kreiranje geografskih mapa na veb stranicama. Prikazaćemo postupak kojim je Džon Snou uz pomoć jednostavne vizualizacije utvrdio izvor epidemije kolere. Na mapu današnjeg Londona dodata su dva sloja. Na prvom su ucrtane lokacije tadašnjih pumpi za vodu, a na drugom lokacije smrtnih slučajeva. Prikažite pumpe a potom i lokacije obolelih.
Na koji način je prikazano više smrtnih slučajeva na istoj adresi?

Na osnovu čega je Džon Snou zaključio gde se nalazi izvor zaraze?

Da li se smrtni slučajevi nalaze samo u blizini zaražene pumpe označene crvenim markerom? Kako to utiče na zaključak o zdravstvenoj ispravnosti pumpi označenih zelenim markerima?
U ovom primeru treba obratiti pažnju na dve stvari. Prva je da crtice na originalnom crtežu Džona Snoua predstavljaju pojedinačne podatke koji sami po sebi ne govore ništa o nekom fenomenu (npr. smrtnosti) i njegovoj vezi sa drugim pojavama (npr. izvoru zaraze). Podatke je, dakle, potrebno na neki način grupisati, sažeti i obraditi da bismo zaista razumeli neku pojavu ili uočili neku pravilnost. Drugi bitan momenat je verovatnoća nekog događaja. Smrtni slučajevi ne nalaze se samo u okolini zaražene pumpe već su sporadično raspoređeni i relativno daleko od nje. Međutim, najveća učestalost smrtnih slučajeva je upravo u blizini crvenog markera. Drugim rečima, veća verovatnoća smrtnog ishoda je očigledno povezana sa većom verovatnoćom da je osoba pila vodu sa zaražene pumpe. O ovim temama biće više reči u drugom poglavlju.
Zumirajte mapu da biste videli više detalja. Svaka osoba predstavljena je crticom, a „nagomilane“ crtice formiraju stubić koji govori o učestalosti smrtnih slučajeva na različitim lokacijama.
Oko jedne od pumpi očigledno ima mnogo više crtica, odnosno smrtnih slučajeva, nego oko ostalih.
Činjenica da se smrtni slučajevi pojavljuju i relativno daleko od pumpe koja je očigledno zaražena, ne bi trebalo da utiče na zaključke o ispravnosti ostalih pumpi. Prostije rečeno, verovatnije je da su sporadični smrtni slučajevi oko drugih pumpi posledica korišćenja vode sa zaraženog izvora, nego da su sve pumpe zaražene. Da su i druge pumpe bile zaražene, učestalost smrtnih slučajeva u njihovoj blizini bila bi mnogo veća.