Uvod Pojam, vrste i svrha vizualizacije 1.1. Vizuelno mišljenje 1.2. Vizuelna komunikacija 1.3. Vizuelna pismenost 1.3.1. Različiti aspekti vizuelne pismenosti 1.3.1.1. Piktogrami i piktografici 1.4. Karta, mapa, dijagram, grafik, infografik 1.5. Podatak, informacija, znanje, razumevanje 1.5.1. Tabelarni i grafički prikaz podataka 1.5.2. Deskriptivna i inferencijalna statistika 1.6. Naučna vizualizacija i vizualizacija informacija 1.7. Vizualizacija kao eksplorativna tehnika 1.8. Izbor prikladne tehnike vizualizacije 1.8.1. Nivoi merenja varijabli 1.8.2. Hijerarhija vizuelnih kodova 1.8.3. Čitljivost grafikona 1.9. Prvi test znanja Vizualizacija distribucija verovatnoća 2.1. Pojam verovatnoće 2.2. Populacija i uzorak 2.2.1. Tehnike uzorkovanja 2.3. Pojam nasumičnosti ili slučajnosti 2.4. Pojam varijabilnosti 2.5. Osnovne tehnike sažimanja podataka 2.5.1. Tabele frekvencija i tabele kontingencije 2.5.2. Mere grupisanja ili centralne tendencije 2.5.2.1. Aritmetička sredina, medijana i mod 2.5.2.2. Još neke vrste prosečnih vrednosti 2.5.3. Mere raspršenja ili varijabilnosti 2.5.3.1. Vizuelna procena i poređenje varijabilnosti 2.5.3.2. Varijansa i standardna devijacija 2.5.3.3. Pojam matematičke funkcije 2.5.3.4. Interkvartilni raspon 2.6. Karakteristike i važnost normalne distribucije 2.6.1. Centralna granična teorema 2.6.2. Funkcije mase i gustine verovatnoće 2.6.3. Standardizacija sirovih rezultata 2.6.4. Površina ispod normalne krive 2.6.5. Standardna greška aritmetičke sredine 2.6.6. Skjunis i kurtozis 2.7. Još neke važne statističke distribucije 2.7.1. Studentova t distribucija 2.7.2. Hi-kvadrat distribucija 2.7.3. Fišer-Snedekorova F distribucija 2.8. Stepeni slobode 2.9. Test-statistici, p vrednosti i nivoi značajnosti 2.9.1. Jednostrano testiranje razlika 2.10. Drugi test znanja Vizualizacija razlika i povezanosti između varijabli 3.1. Testiranje (ne)tačnosti nul-hipoteza 3.2. T-test za jedan uzorak 3.3. T-test za dva uzorka 3.3.1. Uslovi za primenu t-testa 3.4. Neparametrijske alternative t-testu za dva uzorka 3.4.1. Vold-Volfovicov test nizova 3.4.2. Kolmogorov-Smirnovljev test za dva uzorka 3.4.3. Men-Vitnijev test sume rangova 3.5. Hi-kvadrat test 3.5.1. Hi-kvadrat kao test nezavisnosti 3.5.2. Pojam veličine efekta 3.5.3. Hi-kvadrat kao test stepena poklapanja (distribucija) 3.5.4. Uslovi za primenu hi-kvadrat testa 3.6. Pirsonov produkt-moment koeficijent korelacije 3.6.1. Regresiona jednačina i regresiona prava 3.6.1.1. Smisao koeficijenta b i konstante a u regresionoj analizi 3.6.2. Standardna greška procene 3.6.3. Interpretacija koeficijenta korelacije 3.6.4. Uslovi za primenu Pirsonovog r 3.6.5. Korelacija i uzročnost 3.7. Koeficijenti korelacije za rangirane podatke 3.8. T-test za zavisne uzorke 3.9. Neparametrijske alternative t-testu za zavisne uzorke 3.10. Značajnost razlika uparenih podataka nominalnog nivoa 3.10.1. Maknimarov test 3.10.2. Koenova kapa 3.10.3. Testovi marginalne homogenosti za politomne varijable 3.11. Treći test znanja Završne napomene Literatura
2.8. Stepeni slobode
Stepeni slobode su veoma važan i naizgled apstraktan statistički koncept. Oni su još jedan doprinos Ronalda Fišera oblasti statističkog zaključivanja. Fišer je logiku stepeni slobode objasnio pomoću principa analitičke mehanike i geometrije višedimenzionalnog prostora (Fisher, 1922). Rečnikom fizike, broj stepeni slobode je broj nezavisnih parametara koji su potrebni da bi se opisalo stanje nekog sistema. Kao ilustraciju ove definicije upotrebićemo jednostavan primer. Zamislite situaciju u kojoj treba da definišete poziciju tri objekta koji se kreću u trodimenzionalnom prostoru: aviona, automobila i voza. Broj mogućih dimenzija na kojima ovi objekti mogu da se kreću, označićemo sa N. Pozicija aviona može da se menja levo-desno po x-osi, gore-dole po y-osi i napred-nazad po z-osi. Ovde ne uzimamo u obzir mogućnost da se avion rotira po svim osama, jer nas interesuje samo njegova pozicija u trodimenzionalnom koordinatnom sistemu. U slučaju aviona, sve navedene vrednosti mogu da variraju nezavisno, tako da nam je potrebno N podataka da bismo tačno odredili tačku u kojoj se on nalazi. Može se reći da pozicija aviona ima tri stepena slobode. Sada zamislite automobil koji vozi reli kroz pustinju. Automobil ima ograničenje u smislu kretanja po y-osi (gore-dole), tako da su nam za određivanje njegove pozicije dovoljne samo dve vrednosti, x i z, jer uvek znamo da je njegova koordinata na y-osi vezana za najnižu tačku tla. Zato kretanje automobila ima jedan stepen slobode manje ili N - 1. Na kraju, zamislite voz koji se prugom kreće pravolinijski ka severozapadu. Koliko stepeni slobode ima kretanje voza? Tačan odgovor nije N - 1 kao u slučaju automobila, već zapravo N - 2. Naime, pored činjenice da je vrednost na y-osi uvek vezana za najnižu tačku tla, x i z koordinate nisu nezavisne ukoliko nam je poznata trasa pruge kojom se voz kreće. Za određenu tačku x, voz može da ima samo jednu poziciju na z-osi koju mu putanja pruge dozvoljava. U odnosu na početnu tačku iz koje je voz krenuo, dovoljna nam je samo informacija o njegovoj poziciji na x-osi da bismo odredili odgovarajuću vrednost na z-osi, a time i njegovu tačnu poziciju u koordinatnom sistemu. Dakle, najopštija definicija stepeni slobode nekog sistema ili neke procene, bila bi da je to broj podataka koji mogu da menjaju vrednost nezavisno jedan od drugog, a koji su dovoljni da se opiše stanje sistema ili izvrši potrebna procena. To znači da se broj stepeni slobode može izračunati tako što se od ukupnog broja elemenata koji slobodno mogu da variraju, oduzme broj ograničavajućih faktora i/ili broj elemenata čija vrednost zavisi od vrednosti nekog elementa koji je već u sistemu. Prisetite se primera sa testom znanja o glavnim gradovima država u kome je broj stepeni slobode bio jednak broju zadataka umanjenom za jedan, jer je odgovor na poslednje pitanje zavisio od odgovora na sva prethodna. Broj stepeni slobode u statistici se označava oznakom df, prema akronimu njihovog naziva na engleskom jeziku – degrees of freedom.
Geometrijska logika stepeni slobode može veoma lako da se primeni na statisticima i distribucijama koje smo opisali u dosadašnjem tekstu. Na primer, broj stepeni slobode vezan za vrednost µ je N, pošto sve vrednosti varijable u populaciji na osnovu kojih računamo aritmetičku sredinu mogu nezavisno da variraju. Isti slučaj je i sa vrednošću M kao procenom µ. Ako se nasumično odabere N - 1 vrednosti iz neke populacije, nemoguće je predvideti koja će biti vrednost N-tog rezultata. Stoga formula za računanje aritmetičke sredine glasi:
`M=(sumx)/N`
Svaka od N vrednosti x u ovoj formuli može slobodno da varira i da dobije bilo koju vrednost nezavisnu od ostalih. Međutim, u slučaju računanja standardne devijacije, odnosno varijanse, ta sloboda više ne postoji. Ukoliko nam je poznata vrednost µ, varijansa populacije može da se izračuna već na osnovu jednog nasumično odabranog rezultata, jer on može potpuno slobodno da varira i da dobije vrednost koja je različita od µ. U tom slučaju, reći ćemo da postoji samo jedan stepen slobode. Kada iz populacije uzmemo još jedan rezultat, on ni na koji način ne zavisi od prethodnog, tako da ćemo dobiti novu procenu varijanse uz koju se sada vezuju dva stepena slobode. Međutim, s obzirom na to da u istraživanjima obično ne znamo pravu vrednost µ, sve procene, uključujući i procenu varijanse populacije, vrše se uz pomoć vrednosti M. Tada je, međutim, broj stepeni slobode manji. Ukoliko u uzorku postoji samo jedan rezultat, broj stepeni slobode je nula, jer znamo da taj rezultat mora da bude jednak vrednosti M. Ukoliko je veličina uzorka dva, samo x1 može slobodno da menja svoju vrednost, dok vrednost x2 mora da bude takva da zajedno sa vrednošću x1 da prosek M i sumu odstupanja Σ(x-M) nula. Stoga se za vrednost s2 uzorka kao procenu σ2 populacije vezuje N - 1 stepeni slobode. Ova pravilnost se ogleda u formuli:
`s=sqrt((sum(x-M)^2)/(N-1))`
Broj stepeni slobode računa se na različite načine u slučaju različitih statističkih postupaka, ali se najčešće izražava kao veličina uzorka umanjena za broj ograničavajućih faktora, npr. za broj procena parametara populacije. U primeru sa formulom za računanje standardne devijacije, broj tih parametara je jedan (M), pa je tako i broj stepeni slobode N - 1. Ranije smo smisao stepeni slobode pokušali da ilustrujemo poređenjima teorijskih distribucija i analognih empirijskih distribucija. Broj „merenja“ u slučaju teorijskih distribucija (npr. F), uvek je bio za jedan manji od odgovarajuće empirijske distribucije (npr. s12/s22). U primeru sa Studentovom t distribucijom, grafikon za N = 1 nije bilo moguće iscrtati, jer bi tada broj stepeni slobode bio 0, a standardnu devijaciju ne bi bilo moguće izračunati. Dakle, t distribucija za N = 2 je prva t distribucija koju je moguće formirati, jer je tada df = 1. Pojam stepeni slobode može delovati veoma komplikovano, ali za istraživača je bitno samo da razume praktične implikacije njihove primene kao oblika korekcije u većini statističkih postupaka. U odeljku o merama raspršenja pomenuli smo da korekcija u smislu primene broja stepeni slobode umesto vrednosti N, može da se shvati kao „kazna“ za istraživača koji želi da donosi zaključke koristeći mali uzorak ili oslanjajući se na veliki broj procena stvarnih parametara populacije. Iz svega navedenog, mogu da se izvuku dva zaključka. Prvo, što je veći broj parametara koje procenjujemo statisticima izračunatim na uzorku, to će nam biti potreban veći uzorak da bismo dobili dovoljno pouzdane rezultate. I drugo, upotreba stepeni slobode, kao korekcije broja merenja u statističkim formulama, neće bitno uticati na rezultate analize ukoliko je uzorak velik.