Uvod Pojam, vrste i svrha vizualizacije 1.1. Vizuelno mišljenje 1.2. Vizuelna komunikacija 1.3. Vizuelna pismenost 1.3.1. Različiti aspekti vizuelne pismenosti 1.3.1.1. Piktogrami i piktografici 1.4. Karta, mapa, dijagram, grafik, infografik 1.5. Podatak, informacija, znanje, razumevanje 1.5.1. Tabelarni i grafički prikaz podataka 1.5.2. Deskriptivna i inferencijalna statistika 1.6. Naučna vizualizacija i vizualizacija informacija 1.7. Vizualizacija kao eksplorativna tehnika 1.8. Izbor prikladne tehnike vizualizacije 1.8.1. Nivoi merenja varijabli 1.8.2. Hijerarhija vizuelnih kodova 1.8.3. Čitljivost grafikona 1.9. Prvi test znanja Vizualizacija distribucija verovatnoća 2.1. Pojam verovatnoće 2.2. Populacija i uzorak 2.2.1. Tehnike uzorkovanja 2.3. Pojam nasumičnosti ili slučajnosti 2.4. Pojam varijabilnosti 2.5. Osnovne tehnike sažimanja podataka 2.5.1. Tabele frekvencija i tabele kontingencije 2.5.2. Mere grupisanja ili centralne tendencije 2.5.2.1. Aritmetička sredina, medijana i mod 2.5.2.2. Još neke vrste prosečnih vrednosti 2.5.3. Mere raspršenja ili varijabilnosti 2.5.3.1. Vizuelna procena i poređenje varijabilnosti 2.5.3.2. Varijansa i standardna devijacija 2.5.3.3. Pojam matematičke funkcije 2.5.3.4. Interkvartilni raspon 2.6. Karakteristike i važnost normalne distribucije 2.6.1. Centralna granična teorema 2.6.2. Funkcije mase i gustine verovatnoće 2.6.3. Standardizacija sirovih rezultata 2.6.4. Površina ispod normalne krive 2.6.5. Standardna greška aritmetičke sredine 2.6.6. Skjunis i kurtozis 2.7. Još neke važne statističke distribucije 2.7.1. Studentova t distribucija 2.7.2. Hi-kvadrat distribucija 2.7.3. Fišer-Snedekorova F distribucija 2.8. Stepeni slobode 2.9. Test-statistici, p vrednosti i nivoi značajnosti 2.9.1. Jednostrano testiranje razlika 2.10. Drugi test znanja Vizualizacija razlika i povezanosti između varijabli 3.1. Testiranje (ne)tačnosti nul-hipoteza 3.2. T-test za jedan uzorak 3.3. T-test za dva uzorka 3.3.1. Uslovi za primenu t-testa 3.4. Neparametrijske alternative t-testu za dva uzorka 3.4.1. Vold-Volfovicov test nizova 3.4.2. Kolmogorov-Smirnovljev test za dva uzorka 3.4.3. Men-Vitnijev test sume rangova 3.5. Hi-kvadrat test 3.5.1. Hi-kvadrat kao test nezavisnosti 3.5.2. Pojam veličine efekta 3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija) 3.5.4. Uslovi za primenu hi-kvadrat testa 3.6. Pirsonov produkt-moment koeficijent korelacije 3.6.1. Regresiona jednačina i regresiona prava 3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi 3.6.2. Standardna greška procene 3.6.3. Interpretacija koeficijenta korelacije 3.6.4. Uslovi za primenu Pirsonovog r 3.6.5. Korelacija i uzročnost 3.7. Koeficijenti korelacije za rangirane podatke 3.8. T-test za zavisne uzorke 3.9. Neparametrijske alternative t-testu za zavisne uzorke 3.10. Značajnost razlika uparenih podataka nominalnog nivoa 3.10.1. Maknimarov test 3.10.2. Koenova kapa 3.10.3. Testovi marginalne homogenosti za politomne varijable 3.11. Treći test znanja Završne napomene Literatura
1.8. Izbor prikladne tehnike vizualizacije
Podaci su svuda oko nas. Vizualizacija nam pomaže da ih sažmemo, strukturiramo, istražimo i pretvorimo u znanje. Termini koji se najčešće koriste za pretragu interneta mogu da se upotrebe za opisivanje interesovanja, navika i karakteristika medijske kulture. Emisija pozitrona iz radionuklida detektuje se uz pomoć PET skenera i pretvara u sliku na osnovu koje određeni psihološki procesi mogu da se povežu sa aktivacijom moždanih zona. Odgovori na stavke upitnika predstavljaju osnovu za formiranje grafičkih profila osobina ličnosti (Kodžopeljić, Smederevac, Mitrović, Ćolović, & Pajić, 2019). Obim trgovinske razmene može da pokaže veze među različitim regionima i državama sveta. Učestalost zajedničkog pojavljivanja (tzv. koincidencija) reči u naučnim člancima omogućava mapiranje naučnih disciplina i prepoznavanje aktuelnih istraživačkih tema. Prevalenca bolesti u određenom vremenskom periodu ukazuje na učinkovitost vakcina. Na osnovu pokazatelja bliskosti pojedinaca može se zaključivati o strukturi socijalnih mreža. I tako dalje. Imajući u vidu toliku raznolikost formi grafičkog predstavljanja podataka, pomenute podele i tipologije deluju kao artefakt, jer gotovo da ne postoji vizualizacija koja se može nazvati „nenaučnom“, kao što ni svaka naučna vizualizacija nije samo shematski prikaz stvarnosti, već omogućava istraživanje informacija pružajući dodatni kvalitet u odnosu na sirove podatke ili fizički model objekta koji se prikazuje. Stoga možemo reći da podele koje smo naveli u prethodnim odeljcima više služe kao smernice koje određuju naša očekivanja od vizualizacije, odnosno kriterijume na osnovu kojih ćemo određeni grafički prikaz proceniti kao prikladan ili ne. Prilikom odabira adekvatnog rešenja iz širokog spektra tehnika i formata vizualizacija, potrebno je uzeti u obzir više faktora koji bi grubo mogli da se podele u tri grupe. Prva grupa se tiče osobina podataka, odnosno broja varijabli koje želimo da vizualizujemo i načina na koji smo ih izmerili. U tom smislu, naučna vizualizacija najčešće ne izlazi van okvira tri osnovne dimenzije, budući da polazi od postojećih objekata i prirodno datih formi i struktura. Sa druge strane, vizualizacija informacija obično podrazumeva opisivanje višedimenzionalnog prostora, pri čemu se različitim karakteristikama objekata na grafikonu dočaravaju vrednosti različitih varijabli. Druga grupa faktora odnosi se na svrhu vizualizacije, odnosno osobine korisnika kojima je namenjena. Vizualizacija za potrebe ilustracije sadržaja teksta u dnevnim novinama ne može da ima isti oblik kao i grafikon prikazan u naučnom članku. Ovde treba uzeti u obzir ne samo kompetencije i motivaciju ciljne grupe osoba kojima su dijagrami namenjeni već i njihove osobine i potencijalne probleme, kao što su slabovidost ili nemogućnost razlikovanja boja. Na kraju, treća grupa faktora odnosi se na medijum koji se koristi za vizuelnu komunikaciju. To može da bude štampani materijal, veb stranica, aplikacija na mobilnom telefonu, ekran neke mašine, video snimak ili nešto drugo. Od konkretnog medijuma zavisi da li će vizualizacija moći da bude interaktivna, koja svojstva objekata će biti moguće prikazati, koja količina podataka će moći da se iskoristi i tako dalje.
Priprema, organizacija i prezentacija informacija postala je presudna u vremenu u kome se važne strategijske odluke donose na osnovu obrade ogromnih količina podataka. Stoga se naglašava i potreba za dizajnerima informacija kao novoj profesiji za 21. vek (Horn, 1999). Na ovom mestu ćemo pomenuti španskog dizajnera informacija Alberta Kaira, dugogodišnjeg novinara i kreatora infografika za poznati list El Mundo. Kairo je u svojoj knjizi Funkcionalna umetnost (Cairo, 2013) predložio tzv. točak vizualizacije kao grafički model na osnovu koga se procenjuje prikladnost vizualizacije za određenu svrhu. Točak se sastoji od dvanaest dimenzija, odnosno šest dvopolnih skala pomoću kojih se opisuju karakteristike nekog grafičkog rešenja. Te dimenzije su: apstraktnost – figuralnost, funkcionalnost – dekorativnost, inovativnost – familijarnost, ekonomičnost – redundantnost, zbijenost – razuđenost i višedimenzionalnost – jednodimenzionalnost. Za ilustraciju primene točka vizualizacije upotrebićemo pauk ili radar dijagram. Na osnovu njegovog izgleda lako se može zaključiti kako je dobio naziv. Svaka linija koja polazi od centra grafikona predstavlja jednu dimenziju, a pozicija tačaka na tim linijama, odnosno njihova udaljenost od centra, određena je vrednošću te varijable. Spajanjem tačaka dobija se linijski profil entiteta kao kombinacija vrednosti na svim varijablama. Na taj način grafikonom je moguće prikazati vrednosti većeg broja varijabli za više entiteta istovremeno, npr. ocene đaka ili odeljenja iz različitih predmeta. U ovom primeru iskorišćeni su podaci koje je Kairo naveo kao karakteristike infografika, odnosno naučnih (statističkih) grafikona, da bi ilustrovao različite pristupe predstavljanju podataka u grafičkoj formi u zavisnosti od ciljne grupe korisnika.
Na kojim dimenzijama se profil infografika u najvećoj meri razlikuje od profila naučnih grafikona?

Prikažite oba profila. Da li vam je na osnovu prikazanog grafikona lakše da uočite razlike među profilima ili razlike na pojedinačnim dimenzijama?

Ako šest osa radar dijagrama posmatramo kao dvopolne (bipolarne) dimenzije na čijim su krajevima suprotne karakteristike, koje svojstvo grafikona nije intuitivno ili nije logično?

Da li bi poređenje entiteta, odnosno varijabli, bilo podjednako lako i opravdano kada bi varijable imale različite raspone vrednosti, npr. ocena iz fizičkog, visina đaka, težina đaka, vreme za koje đak pretrči 100 metara i broj zgibova koje je uspeo da uradi?

Pronađite proizvoljnu vizualizaciju na internetu i izmenite vrednosti na grafikonu tako da formiraju profil koji bi joj najviše odgovarao.
Kao što smo videli iz prethodnog primera, vizualizacije za potrebe informisanja šire javnosti obično se suštinski razlikuju od vizualizacija kojima se predstavljaju rezultati naučnih istraživanja. Prvi elementi parova pomenutih dimenzija, prikazani u gornjem delu dijagrama, predstavljaju karakteristike koje poseduju, ili bi trebalo da poseduju, vizualizacije nastale statističkim obradama, posebno primenom eksplorativnih tehnika analize podataka. Drugi elementi parova su u većoj meri karakteristični za infografike i vizualizacije namenjene opštoj populaciji. Tako će u dnevnim novinama učestalosti nekih pojava ređe biti predstavljene stubićima koji su u suštini apstraktni oblici, a češće figuralno, konkretnim slikama ili piktogramima objekata koje treba da simbolišu, npr. sličicama naslaganih novčića kojima se prikazuje prihod različitih kompanija ili brojem tenkova koji govori o količini naoružanja država koje se porede. Pored toga, infografici se često dodatno dekorišu prigodnim slikama i elementima koji nisu tipični za grafikone namenjene istraživačima i analitičarima. Na primer, uobičajena greška koja se pravi prilikom prezentovanja stubičastih i kružnih dijagrama je upotreba treće dimenzije tako da stubići postanu kvadri a krugovi valjci. Ovakva vrsta „estetski unapređenih“ grafikona često se može videti u sredstvima javnog informisanja, ali ona nije prikladna za prikazivanje naučno-istraživačkih rezultata. Svaka karakteristika objekata na grafikonu trebalo bi da predstavlja samo jedno i tačno određeno svojstvo, te stoga dodavanje treće dimenzije stubiću ili kružnici ne nosi nikakvu informativnu vrednost i najčešće zbunjuje posmatrača. Korisnici svakako neće procenjivati i porediti zapreminu trodimenzionalnih figura već samo njihove osnovne dimenzije – širinu, visinu ili površinu. Takođe, infografici mogu da sadrže podatke koji su redundantni, dok statističke grafikone treba da odlikuje funkcionalnost i ekonomičnost, odnosno racionalno trošenje površine na kojoj se podaci prikazuju. Poznati statističar Edvard Tafti naziva ovo svojstvo odnos podaci–mastilo, naglašavajući potrebu da prilikom izrade grafikona svako povećanje utroška mastila (u kontekstu elektronskog sadržaja to bi mogao da bude utrošak tačaka ekrana) bude praćeno povećanjem količine prikazanih podataka (Tufte, 1985). Tafti navodi devet principa koje treba poštovati prilikom izrade grafikona:
1. Pokažite podatke.
2. Podstaknite posmatrača da razmišlja o suštini informacije, a ne o dizajnu ili načinu na koji je grafikon nastao.
3. Izbegavajte bilo kakvo iskrivljenje podataka.
4. Prikažite puno podataka na malom prostoru.
5. Velike skupove podataka učinite koherentnim.
6. Podstaknite posmatrača da poredi podatke prikazane na grafikonu.
7. Prikažite podatke na nekoliko nivoa detalja, od opšteg pregleda do specifične strukture.
8. Upotrebite grafički prikaz za određenu svrhu: opisivanje, eksploracija, tabulacija ili dekoracija.
9. Pridružite grafikonu odgovarajući verbalni i statistički opis.
1.8.1. Nivoi merenja varijabli
U prethodnom odeljku naveli smo tri grupe faktora koji utiču na procenu prikladnosti neke vizualizacije za određenu svrhu. U kontekstu primene grafičkih tehnika u statistici, najznačajnija je prva grupa koja se tiče karakteristika varijabli. Pored broja varijabli koje je potrebno prikazati u grafičkoj formi, za izbor odgovarajućeg grafikona veoma bitan je i način na koji smo izmerili varijable. U prirodnim i tehničkim naukama merenje se gotovo isključivo vezuje za numeričke podatke. Međutim, u psihologiji i drugim društvenim i humanističkim disciplinama merenje može da se shvati i šire, kao proces dodeljivanja kvantitativne vrednosti ili kvalitativne oznake svojstvu objekta u skladu sa odgovarajućim standardom i pod kontrolisanim uslovima. Zato se u statistici često pravi razlika između dva tipa varijabli – kvantitativnih i kvalitativnih. Kvantitativne varijable su atributi koje je moguće izmeriti u pravom smislu te reči, i to dodeljivanjem numeričke vrednosti koja pokazuje izraženost ili količinu svojstva koje objekat poseduje. Visinu osobe izražavamo numerički nakon poređenja sa usvojenim standardom (npr. metrom), kontrolišući uslove pod kojima se merenje obavlja (npr. osoba stoji uspravno i nije obuvena). Intelektualne sposobnosti kvantifikujemo pomoću broja tačno rešenih zadataka na standardizovanom testu u dobro osvetljenoj prostoriji, u vreme kada su ispitanici odmorni i niko ih ne ometa. U navedenim primerima, osobe ili ispitanici su objekti merenja, a metar i test su instrumenti kojima se merenje obavlja. Međutim, ponekad i osoba može da ima funkciju instrumenta merenja. Na primer, nastavnik ocenjuje znanje studenta na osnovu usmenog ispitivanja, a iskusan psiholog može grubo da proceni izraženost osobina ličnosti osobe već na osnovu intervjua. Jasno je da u ovakvim situacijama procena atributa nema objektivnost i preciznost merenja u užem smislu, ali neka svojstva ponekad nije ni moguće kvantifikovati. Stoga ćemo u ovom udžbeniku termin merenje koristi u širem značenju koje obuhvata i prosto svrstavanje objekta u određenu grupu, kategoriju ili klasu. Ukoliko određeno svojstvo ne može da se kvantifikuje, govorimo o kvalitativnim varijablama. Primeri kvalitativnih varijabli su pol, nacionalnost, dijagnoza bolesti, bračni status, veroispovest, mesto u kome živimo, marka telefona koji koristimo ili fakultet koji smo upisali nakon srednje škole. Ovim atributima mogu da se pripišu numeričke vrednosti (npr. 1 – žensko, 2 – muško), ali ti brojevi nemaju kvantitativno svojstvo, već služe samo kao oznaka pripadnosti klasi. O ograničenoj upotrebi brojeva kod kvalitativnih varijabli govori nam i činjenica da smo potpuno legitimno muškarce mogli da označimo brojem 123, a žene brojem 56 ili bilo kojim drugim brojem, slovom ili rečju.
Iz prethodnih primera može se uočiti da merenje ne podrazumeva uvek direktno poređenje svojstva objekta sa unapred datim standardom. Štaviše, merenje u psihologiji češće se obavlja indirektno, tj. registrovanjem manifestacija latentnih svojstava. Ne postoji „metar“ kojim bismo izmerili neuroticizam osobe, već se o izraženosti ove osobine zaključuje indirektno, na osnovu odgovora na stavke upitnika ličnosti. Pri tome, osoba koja popunjava upitnik takođe obavlja indirektno merenje izražavajući svoje subjektivno slaganje sa nekom tvrdnjom, npr. na skali od 1 do 5. To znači da se varijable mogu izmeriti na različite načine i sa različitom preciznošću. Visina đaka može da se izrazi u centimetrima, ali i kao redni broj u koloni u kojoj su đaci poređani od najvišeg do najnižeg. Prvi način je precizniji od drugog zato što se skala centimetara suštinski razlikuje od skale kojom smo „merili“ rang đaka. Prva bitna razlika među njima je što skala mernih jedinica za visinu, odnosno dužinu, ima praktično neograničen broj podeoka. Između svaka dva podeoka koji označavaju centimetre, možete umetnuti podeok koji označava milimetre, između svaka dva milimetra mikrometar i tako dalje. Može se reći da je niz tih podeoka beskonačan i neprekidan, te se stoga ova vrsta varijabli naziva kontinuiranim. To naravno ne znači da visinu treba izražavati u nanometrima ili pikometrima, već samo da je to moguće kada je potrebno i kada se poseduju dovoljno precizni instrumenti. Pošto je visina kontinuirana varijabla, potpuno je opravdano osobi dodeliti vrednost 172,35 cm. Sa druge strane, nije uobičajeno da se nečiji rang u koloni označi vrednošću 12,78. Svojstvo radna memorija objekta telefon ili svojstvo broj dece objekta porodica takođe nije moguće (ili nije logično) izraziti vrednostima koje nisu celobrojne. Porodica ne može da ima 2,5 deteta, kao što se ne projektuju ni memorijski moduli kapaciteta 511,3 Mb. Takve varijable nazivamo diskretnim jer su podeoci na skalama kojima su merene isprekidani i jasno odvojeni „prazninama“. Međutim, treba obratiti pažnju na činjenicu da se skale broja dece i memorije telefona bitno razlikuju od ranije pomenute skale rangova visine učenika. Iako su sve ove varijable diskretne, kod prve dve intervali između podeoka su jednaki u smislu veličine razlike u količini svojstva koje je mereno. Porodica sa vrednošću 4 na varijabli broj dece ima duplo više dece od porodice koja je dobila vrednost 2. Telefon sa vrednošću 6 Gb na varijabli RAM ima 4 Gb više memorije od telefona koji ima vrednost 2 Gb. Međutim, kod ranga visine to nije slučaj. Razlika u visini između prvog i drugog učenika u koloni jeste jedan rang ili jedna pozicija, ali ne mora da bude ista kao razlika između drugog i trećeg ili petog i šestog učenika. Učenik koji ima rang 10 nije duplo viši od učenika koji ima rang 5. Stoga ćemo smatrati da su varijable broj dece, visina u cm i RAM izmerene na višem nivou merenja nego visina izražena rangom.
Najpoznatiju podelu varijabli na osnovu nivoa merenja predložio je američki psiholog Stenli Smit Stivens. Prema njegovoj podeli postoje četiri tipa varijabli: nominalne, ordinalne, intervalne i racio. Nominalni nivo merenja u suštini nije merenje u pravom smislu, pošto vrednost koja se pripisuje objektu ne govori ništa o količini svojstva, već samo imenuje (lat. nomen) klasu kojoj objekat pripada. To su varijable koje smo ranije nazvali kvalitativnim. Kao što smo rekli, čak i ako je vrednost varijable brojčana, to ne znači da je varijabla kvantitativna. Na primer, JMBG građana ili brojevi na dresu fudbalera jesu numeričke vrednosti, ali imaju samo funkciju označavanja, tj. klasifikovanja, i ne govore ništa o količini ili izraženosti svojstva. Varijable izmerene na ordinalnom ili rang nivou pružaju informaciju o tome da li je kod neke osobe određeno svojstvo više ili manje izraženo, ali ne i o tome kolika je ta razlika. Na primer, rang trkača (1, 2, 3, 4…) jeste način da se numerički izrazi i uporedi njihova brzina, ali na osnovu tog broja nismo u mogućnosti da zaključimo za koliko je neki trkač brži od nekog drugog. Ukoliko nam vrednosti varijable omogućavaju da poredimo intervale, odnosno da utvrdimo ne samo da li je, već i za koliko je neko svojstvo izraženije kod jedne osobe nego kod druge, govorimo o intervalnim varijablama. Intervalne varijable, međutim, mere se skalom koja ne sadrži apsolutnu nulu kao vrednost koja označava potpuno odsustvo svojstva. IQ skala je tipičan primer varijable intervalnog nivoa jer ne sadrži nulu. Čak i ako neka osoba ne reši nijedan zadatak na testu sposobnosti, njen IQ neće dobiti nultu vrednost. Sa druge strane, vrednost 100, kao prosečan ili tipičan IQ, zapravo je određena proizvoljno, što znači da je konsenzusom čak i vrednost 0 mogla da se proglasi prosečnom, a negativne vrednosti ispodprosečnim. Slično je i sa temperaturom izraženom u stepenima Celzijusove skale koja sadrži nultu vrednost, ali ta tačka zapravo ne označava potpuno odsustvo temperature, već samo temperaturu na kojoj se zamrzava voda. Za razliku od intervalnih, racio ili razmerne skale poseduju apsolutnu nulu. To ne znači nužno da neki objekat može da dobije tu vrednost, već samo da nula postoji na skali kojom se svojstvo meri. Ne postoji osoba koja ima 0 kg, ali svojstvo telesna težina je varijabla razmernog nivoa merenja, jer na skali kojom se meri težina postoji nula koja označava i potpuno odsustvo tog svojstva. Razumevanje kriterijuma za podelu tipova varijabli na osnovu nivoa merenja veoma je važno zbog kasnijeg odabira prikladne tehnike vizualizacije, ali i odgovarajuće metode statističke obrade, jer se na podacima sa nižih nivoa merenja ne mogu i ne smeju obavljati određene matematičke operacije. Na primer, tek postojanje apsolutne nule, odnosno razmerni nivo merenja, omogućava da se na vrednostima neke varijable obavljaju operacije množenja i deljenja.
1.8.2. Hijerarhija vizuelnih kodova
Na osnovu nivoa merenja varijabli određuje se forma u kojoj će one biti prikazane grafički, odnosno način na koji će se kodirati. Francuski kartograf Žak Berten u svojoj knjizi Semiologija grafikona (Bertin, 1983) definiše osnovni skup atributa kojima vrednosti varijable mogu da se predstave na grafikonu: položaj, veličina, svetlina, tekstura, boja, orijentacija i oblik. Američki statističari Vilijem Klivlend i Robert Mekgil (Cleveland & McGill, 1984) dodali su ovom skupu i dužinu, ugao, površinu, zapreminu, zakrivljenje i zasićenost boje. Tako dobijena lista nije samo popis vizuelnih karakteristika objekata, već i hijerarhija zadataka koje obavljamo prilikom tumačenja grafički prikazanih podataka, odnosno rang lista naše uspešnosti u poređenju objekata na osnovu navedenih atributa. Naime, Klivlend i Mekgil su nizom eksperimenata pokazali da su ispitanici uspešniji u proceni razlika u položaju ili dužini objekata, nego u proceni razlika u zapremini ili stepenu osenčenosti. Stoga preporučuju da se prilikom izrade grafikona najpre koriste svojstva koja se nalaze više u ovoj hijerarhiji. Prisetite se primera sa stubičastim i torta dijagramom i razmislite da li vam je bilo lakše da poredite frekvencije različitih kategorija đaka na osnovu visine stubića ili na osnovu površine, odnosno ugla odsečaka kružnice. Većina osoba lakše i tačnije procenjuje razlike u dužini objekata, nego razlike u njihovoj površini, zapremini ili uglu koji zahvataju. Treba, međutim, imati na umu da se zaključci Klivlenda i Mekgila odnose na kvantitativne varijable. Numeričke vrednosti ne bi mogle adekvatno da se predstave, na primer, različitom teksturom ili oblikom. Sa druge strane, kvalitativne varijable ne bi trebalo kodirati veličinom ili dužinom objekta, npr. tako što bi se studenti psihologije na grafikonu predstavili velikim, a studenti mašinstva malim krugovima. Preferirani atributi za vizuelno kodiranje nominalnih svojstava su boja i oblik. Boja je veoma korisna za kodiranje jer se uočava automatski, već na nivou ranog opažanja koje se odvija u deliću sekunde i ne zahteva angažovanje viših kognitivnih procesa (Treisman, 1986). Na primer, na ranije prikazanom primeru sociograma, veoma lako i brzo se prepoznaju i vizuelno grupišu krugovi različite boje, mnogo lakše nego krugovi različitog prečnika. Naravno, treba imati na umu ograničenje kapaciteta naše kratkotrajne memorije zbog koga bi upotreba većeg broja boja na grafikonu znatno usporila procesiranje informacija. Taj broj se obično kreće između 5 i 9, što čini poznati „magični broj“ od 7±2 stimulusa koje možemo da pohranimo u radnoj memoriji (Miller, 1956). U kros-kulturnim studijama, četiri osnovne boje (crvena, zelena, žuta i plava) pokazale su se kao najprikladnije za kodiranje (Ware, 2004).
Fenomen ranog opažanja jedan je od značajnijih doprinosa psiholoških nauka oblasti vizualizacije informacija. Drugi bitan psihološki koncept vezan za temu ovog udžbenika, predstavljaju Geštalt principi koje su definisali nemački psiholozi Maks Verhajmer, Volfgang Keler i Kurt Kofka početkom 20. veka. U osnovi ovih principa je ideja da objekte uvek opažamo kao celinu a ne kao izolovane, pojedinačne delove (nem. gestalt – oblik, forma, šablon). Drugim rečima, u toku opažanja pokazujemo tendenciju da grafičke elemente organizujemo i grupišemo na osnovu njihovih vizuelnih karakteristika. Tako će, na primer, objekti koji su bliski biti opaženi kao grupa ili celina. Slično je i sa objektima koji su međusobno slični po boji, obliku, teksturi ili veličini. Prisetite se da na primeru radar dijagrama najverovatnije niste opažali izolovane pozicije tačaka na dimenzijama, već površine, odnosno profile kao celinu. U kontekstu primene vizuelnih kodova, to znači da različiti vizuelni atributi mogu da se upotrebe za kodiranje različitih varijabli, kako bi se korisnicima olakšalo opažanje pravilnosti i važnih karakteristika podataka. Pri tome je, naravno, potrebno poštovati ili iskoristiti razlike u hijerarhiji tih atributa. Na primer, boja ima jači efekat u kontekstu ranog opažanja i grupisanja u odnosu na oblik. Međutim, ova hijerarhija svojstava nije unapred određena i nepromenljiva, već zavisi od brojnih faktora, kao što su prethodno uputstvo koje korisnik dobije (Treisman & Gormican, 1988) ili varijacije u kontrastu i zasićenosti boja koje se koriste (Berg, Cornelissen, & Roerdink, 2008). Iako se ne pojavljuje u osnovnom setu Geštalt principa, zakon homogene povezanosti (Palmer & Rock, 1994) pokazao se kao snažan kriterijum grupisanja grafičkih elemenata koji, u određenim situacijama, ima čak i viši prioritet u odnosu na bliskost ili sličnost. Na primer, objekti koji su povezani linijama ili su uokvireni, biće opaženi kao grupa iako nisu bliski ili su različitog oblika i boje. Prilikom izbora linija kojima će se povezati elementi grafikona (npr. čvorovi na sociogramu) dolazi do izražaja još jedan Geštalt princip – zakon kontinuiranosti. Zaobljene krive linije efikasnije dočaravaju vezu između objekata od izlomljenih, jer je na grafikonu lakše pratiti njihov tok. S tim u vezi je i princip zatvorenosti. Ukoliko se dva kružna elementa na grafikonu preklapaju, u skladu sa principima kontinuiranosti (kružnice) i zatvorenosti (oblika), oba ćemo opaziti kao kompletne. Na kraju, veoma važan Geštalt princip koji dolazi do izražaja pri interpretaciji podataka na grafikonu je simetričnost. Simetrija je možda i ključni kriterijum procene estetskih aspekata vizualizacije. Uostalom, čak i lepotu osobe obično procenjujemo na osnovu simetričnosti crta njenog lica. Sposobnost da lako prepoznamo odstupanja po simetriji, u statistici nam pomaže da uočimo pravilnosti ili atipične karakteristike podataka. Na primer, stubičasti dijagram koji prikazuje rezultate na teškom testu znanja izgledaće potpuno drugačije od onoga za test koji je bio veoma lak ili umereno težak. Prvi će imati više stubiće sa leve strane, a drugi sa desne, gde su veće vrednosti broja osvojenih poena.
1.8.3. Čitljivost grafikona
U prethodnim odeljcima doveli smo u vezu kriterijume čitljivosti grafikona sa statističkim konceptima kao što su nivoi merenja, ali i psihološkim fenomenima kao što su hijerarhija vizuelnih kodova i Geštalt principi. Opisane principe ilustrovaćemo primerom podataka o grupi studenata. O svakom studentu imamo podatak o polu, fakultetu na kome studira i broju bodova koje je osvojio na testu znanja iz statistike. Na početku je prikazana raspodela studenata po polu. Na grafikonu su prikazana dva stubića jer je varijabla pol dihotomna, što znači da ima dve moguće vrednosti ili dva nivoa. Iako su stubići potpuno spojeni, na osnovu njihove visine može se zaključiti da je prikazano nešto više od 1.700 podataka, oko 880 vrednosti m (muško) i oko 840 vrednosti z (žensko). Tačan broj studenata u ovom primeru iznosi 1.723, ali ga na osnovu stubičastog dijagrama nije moguće potpuno precizno odrediti. Za razliku od pola, varijabla fakultet je politomna, a u našem primeru ima sedam mogućih vrednosti: Ekonomski fakultet, Fakultet fizičke kulture, Filozofski fakultet, Fakultet tehničkih nauka, Prirodno-matematički fakultet, Poljoprivredni fakultet i Pravni fakultet. Prikažite varijablu fakultet i uočite da je najviše studenata upisano na FTN, a najmanje na FFK. Pošto su stubići spojeni, opažamo ih kao jedinstven nepravilan oblik, što otežava interpretaciju njihovih pojedinačnih visina. Čitljivost grafikona možemo da unapredimo upotrebom pomenutih vizuelnih kodova i Geštalt principa. Odaberite opciju za vizuelno razdvajanje studijskih grupa Razdvoj kategorije 1. varijable, a potom odaberite i drugu opciju za boju stubića. Kao što možete da primetite, vrednosti varijable na x-osi sortirane su abecednim redosledom, ali potpuno je opravdano sortirati ih po bilo kom drugom kriterijumu da bismo lakše poredili visine stubića. Odaberite opciju za sortiranje stubića prema visini, odnosno frekvenciji studenata u svakoj od kategorija. Slobodu da proizvoljno sortiramo stubiće imamo zato što je varijabla fakultet kvalitativna, odnosno nominalnog nivoa merenja. Međutim, ako prikažete varijablu broj bodova, dobićete stubičasti dijagram koji je neprihvatljiv, jer vrednosti na x-osi nisu raspoređene rastućim redosledom. U ovom primeru kriterijum za sortiranje moraju da budu vrednosti varijable, jer je u pitanju kvantitativno svojstvo razmernog nivoa merenja. Osim toga, korišćenje različitih boja u ovom primeru nije opravdano zbog prevelikog broja kategorija. Drugim rečima, boja kao vizuelni kod postaje neinformativna i samo zbunjuje posmatrača. Ujednačite boju stubića i sortirajte ih po vrednostima, odnosno rastućem broju bodova. Sada mnogo lakše opažamo raspodelu varijable broj bodova. Uočavamo da se uspeh studenata kreće od 0 do 20 osvojenih bodova i da ih je najviše grupisano u rasponu od 10 do 15 bodova. Mogli bismo da zaključimo da su studenti, kao grupa, relativno dobro uradili test. Raspodele podataka na osnovu kojih se može zaključiti koje vrednosti varijable i koliko često se javljaju u nekoj grupi merenja, nazivaju se distribucijama. Distribucije mogu da se prikažu tabelarno ili grafički, ali najčešće je potrebno da se opišu i matematički. Analiza karakteristika distribucija podataka je prvi, a možda i najznačajniji korak u svakoj statističkoj obradi. Ovim pitanjima ćemo se baviti u poglavlju o distribucijama verovatnoća.
Do sada smo učestalosti različitih kategorija ispitanika, npr. onih koji su muškog pola, onih koji studiraju na Filozofskom fakultetu ili onih koji su osvojili 15 bodova na testu, označavali visinom stubića. Ponekad je, u cilju bolje preglednosti grafikona, prikladnije vizualizovati distribucije pomoću tačaka čija pozicija na y-osi govori o učestalosti svake kategorije. Ovo je posebno korisno kada na istom grafikonu želimo da prikažemo vrednosti varijable za više grupa. Odaberite opciju pol x broj bodova. Ovoga puta su studenti podeljeni u dve grupe na osnovu pola, a distribucija broja bodova prikazana je posebno za svaku od grupa. Ipak, dve distribucije je teško vizuelno razdvojiti zbog toga što su stubići zbijeni i jednako obojeni. Obojite stubiće različitim bojama a potom odaberite opciju Razdvoj kategorije 2. varijable. Sada je jasnije da u okviru svake kategorije formirane na osnovu broja bodova, postoje dve kategorije pola. Na delu su principi sličnosti stubića (po polu) i njihove bliskosti (po vrednostima). Grafikon bismo mogli da učinimo još čitljivijim ako učestalosti po grupama prikažemo tačkama, ali tek primenom Geštalt principa zajedničke sudbine (tih tačaka), grafikon postaje potpuno razumljiv. Odaberite opciju tačke a potom i opciju poligon da biste povezali tačke linijom i kreirali dijagram koji je poznat kao poligon frekvencija. Poligon frekvencija koristi se isključivo za vizualizaciju kvantitativnih varijabli, a njegova početna i krajnja tačka uvek treba da dodiruju x-osu. Tek tada tačke formiraju zatvorenu izlomljenu liniju (poligon) na osnovu koje možemo da zaključimo kakve su karakteristike distribucije podataka. U našem primeru uočavamo da su studenti većinom bolje uradili test od studentkinja. Odaberite opciju fakultet x pol i uočite da poligon frekvencija nije prikladna tehnika vizualizacije u slučaju nominalnih varijabli. Ponovo prikažite stubiće da biste jasnije razlučili dva kriterijuma za grupisanje kategorija. Prvi je prostorna bliskost, na osnovu koje studente različitih fakulteta grupišemo po polu, a drugi je boja, na osnovu koje studente različitog pola grupišemo po tome šta studiraju. U ovom primeru bliskost je očigledno pozicionirana više u hijerarhiji kodova u odnosu na boju, jer je verovatnije da ćemo ovu sliku opisati kao dva, a ne kao sedam skupova stubića. Isključite i ponovo uključite opcije za razdvajanje kategorija da biste analizirali kako na čitljivost grafikona utiče primena Geštalt principa bliskosti. Ako isključite sve opcije razdvajanja kategorija i opciju različite obojenosti stubića, dijagram postaje nečitljiv. Iste podatke možete da vizualizujete i odabirom opcije pol x fakultet, ali ovoga puta grupisanje je najpre obavljeno na osnovu fakulteta na kome student studira, a tek u drugom koraku na osnovu pola studenta.
Koji zaključak ćete lakše doneti na osnovu grafikona pol x fakultet a koji na osnovu grafikona fakultet x pol?

Da li je opravdano upotrebiti poligone frekvencija u primeru pol x fakultet? Sortirajte vrednosti po frekvencijama dok su poligoni vidljivi.

Menjajte opcije za generisanje grafikona i utvrdite kada je opravdano a kada ne, sortiranje po učestalostima, različita obojenost stubića i prikazivanje tačaka, odnosno iscrtavanje poligona.
Naučni grafikoni treba da budu funkcionalni, svedeni i ekonomični. Infografici su namenjeni širem auditorijumu i drugačijim medijumima za komunikaciju, tako da mogu da sadrže određene dekorativne elemente, slike konkretnih objekata koji se predstavljaju ili da zauzimaju više prostora na ekranu ili u novinskim člancima.
Verovatnije je da kombinaciju vrednosti na dimenzijama opažate kao celinu zbog fizičke povezanosti tačaka i osenčenosti površine. Stoga vam je lakše da uočite razlike među profilima, nego da izolujete duži koje govore o razlikama na pojedinačnim atributima (info)grafika.
Ako su dimenzije bipolarne, povećanje vrednosti na jednoj od njih trebalo bi da bude povezano sa smanjenjem vrednosti na onoj koja joj je naspramna. Kod radar dijagrama to ne mora da bude slučaj, tako da naučni grafikoni imaju (navodno) veće vrednosti od naučnih grafikona na inovativnosti, ali i na naspramnoj familijarnosti.
Ako bi svaki profil predstavljao jednog đaka, njihovo međusobno poređenje bilo bi opravdano i lako, jer bi se dovodile u vezu vrednosti na istim varijablama. Međutim, poređenje različitih dimenzija nije opravdano zato što su njihove vrednosti izražene u različitim jedinicama. Ipak, varijable mogu da se transformišu tako da je moguće njihovo poređenje i donošenje zaključka da, na primer, neki đak ima veću vrednost na visini, nego neki drugi đak na težini. O tome će biti više reči u narednim odeljcima.
Za pretragu interneta upotrebite ključne reči „data visualisation examples“.
Na osnovu grafikona pol x fakultet lakše ćete utvrditi razlike u ukupnom broju studenata po fakultetima, kao i razlike u broju studenata različitog pola na svakom fakultetu. Sa druge strane, grafikon fakultet x pol olakšava zaključivanje o obrazovnom profilu, odnosno strukturi odabranih usmerenja po polu.
Nije. Poligon frekvencija koristi se za prikazivanje kvantitativnih varijabli. Ako menjate kriterijum sortiranja sa vrednosti na frekvencije i obratno, to ne utiče na razumljivost i smisao stubičastog dijagrama. Međutim, poligon frekvencija se bitno menja, što može (neopravdano) da sugeriše da se raspodele vrednosti varijable razlikuju.
Osnovni kriterijum prilikom procene opravdanosti trebalo bi da bude razlika između kvalitativnih i kvantitativnih (kategorijalnih) varijabli. Ove prve ne treba predstavljati poligonom frekvencija. Sa druge strane, kod kvantitativnih varijabli, ali i kod kvalitativnih koje imaju previše kategorija, upotreba različitih boja postaje besmislena.