1.5. Podatak, informacija, znanje, razumevanje
U dosadašnjem tekstu smo naizmenično i nedosledno koristili termine podatak i informacija. Treba napomenuti da ovi termini nisu sinonimi. Termin podaci (engl. data) obično označava skup vrednosti, odnosno sirov materijal koji nastaje kao rezultat niza merenja. Tek nakon sažimanja, obrade i smeštanja u odgovarajući kontekst, podatak postaje informacija (engl. information). Ono što je upotrebljivo iz aspekta krajnjeg korisnika jeste informacija a ne (sirov) podatak. Na primer, mogli bismo da kažemo da Gugl obezbeđuje samo podatak o tome u kojim dokumentima se javlja termin koji tražimo, ali ne i informaciju o temi koja nas interesuje. Podatak da će sutra najverovatnije padati kiša postaje informacija tek ako dobije primenu, npr. u odluci da na posao ponesemo kišobran. Sirovi podaci mogu da imaju različite forme, ali se za potrebe statističke obrade obično skladište u obliku tabela ili matrica. U ćelije (kućice) takve tabele unose se pojedinačne vrednosti (engl. datum). Horizontalni nizovi ćelija (redovi) sadrže podatke o različitim entitetima ili objektima merenja. U psihologiji su to najčešće, mada ne i isključivo, osobe kao ispitanici. Vertikalni nizovi ćelija (kolone ili vrste) sadrže podatke o svojstvima, odnosno merljivim atributima entiteta. U statistici svojstva objekata koja mogu da imaju različite vrednosti kod različitih entiteta, nazivamo varijablama. Na primer, ukoliko u grupi od 100 učenika neke škole izmerite ili registrujete njihove vrednosti na tri varijable: ocena iz matematike, pol i razred, biće vam potrebna matrica dimenzija 100 x 3. Ovakvu tabelu ćemo nazvati matricom sirovih podataka. Ukoliko ne računamo red u kome se nalaze nazivi varijabli i kolonu u kojoj se nalaze npr. redni brojevi ili imena đaka, prvi red matrice će sadržati podatke o svim unetim svojstvima jednog učenika, a prva kolona će sadržati podatke o oceni iz matematike za sve učenike. U tako organizovanoj tabeli relativno lako možemo da pronađemo bilo koji sirovi podatak. Međutim, korisne informacije dobijamo tek kada podatke iz tabele na određeni način sažmemo, obradimo, analiziramo i razumemo. Vizualizacija nam, u tom smislu, pomaže da na kontinuumu koji počinje podatkom i nastavlja se informacijom, odemo i dalje, ka znanju i uviđanju, odnosno ka primeni informacija za rešavanje praktičnih problema. U tom smislu, pojedini autori govore o hijerarhiji znanja (videti npr. Ackoff, 1989) ukazujući na potrebu da podaci uvek treba da dovedu do uviđanja, saznanja, razumevanja i konkretne primene. Bez toga oni ostaju samo nizovi beskorisnih brojki ili reči. Na primer, podaci o zadovoljstvu korisnika usluga nekog mobilnog operatera biće neupotrebljivi ukoliko ne dovedu do otklanjanja uočenih nedostataka.
1.5.1. Tabelarni i grafički prikaz podataka
Zamislimo da ste kao nastavnik prikupili podatke o polu i zaključenoj oceni iz matematike u grupi od
20 đaka nekog odeljenja. Sa leve strane okvira prikazana je tabela dimenzija 20 x 2. Svaki red u tabeli predstavlja jednog đaka. Prva kolona sadrži redne brojeve koji su dodati samo radi preglednosti, tako da je nećemo tretirati kao varijablu, odnosno svojstvo ispitanika. Naravno, uvek se može izdvojiti jedna kolona matrice za imena osoba ili šifre na osnovu kojih bi one mogle da se identifikuju ukoliko je potrebno. Međutim, u većini istraživanja identitet ispitanika nije ni bitan jer se zaključci donose o grupi kao celini. Osim toga, lični podaci ispitanika ne smeju da se koriste i čuvaju bez njihove saglasnosti i/ili odobrenja odgovarajućih etičkih komisija. U drugu kolonu tabele već su uneti podaci o polu đaka. Treća kolona predviđena je za unos ocena iz matematike.
Unesite nekoliko nasumičnih vrednosti iz raspona od 1 do 5 u prazne ćelije treće kolone. Posmatrajte kako se menja grafički prikaz podataka sa desne strane. Odabrana su dva najpopularnija oblika vizualizacije podataka – stubičasti dijagram (engl. bar chart) i kružni dijagram, poznatiji kao torta ili pita dijagram (engl. pie chart). Koordinatni sistem u kome se nalazi stubičasti dijagram sadrži dve ose. Na horizontalnoj, koju nazivamo x-osa ili apscisa, označene su moguće vrednosti varijable koju vizualizujemo, npr. ocene od 1 do 5. Na vertikalnoj osi, koju nazivamo y-osa ili ordinata, označava se broj, odnosno učestalost ili frekvencija članova svake kategorije, npr. broj učenika koji su dobili ocenu 2. Odsečci na torta dijagramu predstavljaju relativne frekvencije ili proporcije određene kategorije u ukupnom broju elemenata. Pošto se računaju kao odnos učestalosti neke vrednosti i ukupnog broja merenja, proporcije mogu da se kreću u rasponu od 0 do 1. Kliknite ikonicu x da biste uklonili podatke iz tabele, a potom u nju unesite vrednosti 1, 2, 3 i 4. Obratite pažnju na to da su svi stubići iste visine i da svaka od kategorija ocena na kružnom dijagramu zauzima po četvrtinu, odnosno 0,25 delova kruga. Ako u prazne ćelije tabele unesete još jedan niz vrednosti 1, 2, 3 i 4, torta dijagram će izgledati identično kao i pre toga, jer je proporcija svake od ocena u odnosu na ukupan broj merenja (2 : 8 = 0,25) jednaka kao i u prethodnom primeru (1 : 4 = 0,25). Stubičasti dijagram se izmenio samo utoliko što maksimalna vrednost na y-osi više nije 1, već 2. Upotrebite ikonicu kockica sa desne strane da biste generisali nasumične nizove podataka i analizirajte izgled dobijenih grafikona. Primetićete da su u nekim situacijama pojedine kućice u trećoj koloni tabele prazne, čime su označeni tzv. nedostajući podaci.
1.5.2. Deskriptivna i inferencijalna statistika
Ranije pomenuti model hijerarhije znanja poznat je i kao DIKW piramida (engl. Data, Information, Knowledge, Wisdom). Može se reći da ova piramida znanja opisuje i tok analize podataka primenom statističkih metoda. Primarni cilj svake statističke obrade je da se neke pojave opišu, tj. da se objasni šta se desilo u prirodi ili društvu. U prvoj fazi analize obično se bavimo deskripcijom podataka (engl. data), pa se statističke tehnike koje se koriste za te potrebe nazivaju deskriptivnim. Stubičasti dijagram je tipična tehnika deskriptivne statistike koju smo u ranijem primeru upotrebili da opišemo uspeh đaka u nekom odeljenju. Iako veoma važan deo, a može se reći i neophodan prvi korak svake statističke obrade, opisivanje fenomena samo po sebi nije dovoljno. U nauci, pa tako i u statistici, uvek se trudimo da pored odgovora na pitanje šta se desilo, odgovorimo i na pitanje zbog čega se nešto desilo. Tada govorimo o nivou informacija nastalih od sirovih podataka (engl. information). To obično podrazumeva potrebu za većom količinom podataka i većim brojem varijabli kako bismo uspešno i iscrpno analizirali neki fenomen. Na primer, da bismo objasnili loš uspeh đaka, bilo bi dobro da imamo podatke o tome kako su ocenili svog nastavnika i da li su imali neophodan edukativni materijal u toku nastave. Ako krenemo naviše u piramidi znanja, videćemo da je objašnjenje razloga za pojavu nekih fenomena (npr. zemljotresa) veoma korisno, ali da je još korisnija mogućnost da te fenomene predvidimo na osnovu postojećih informacija, odnosno da procenimo verovatnoću njihovog (ponovnog) javljanja. Ovaj nivo analize je nešto što odgovara komponenti znanja (engl. knowledge) u DIKW piramidi. U ovoj fazi se koriste naprednije statističke tehnike koje se nazivaju induktivnim, jer omogućavaju zaključivanje o pojavama i njihovim odnosima na osnovu početnih premisa o podacima. Često se koristi i naziv inferencijalne tehnike, jer se zaključci uopštavaju sa entiteta na kojima je obavljeno merenje (npr. učenici nekoliko škola), na sve slične entitete (npr. učenike svih osnovnih škola u državi). Primenom induktivnih tehnika možemo, na primer, da uporedimo uspeh dve grupe đaka koji su učili iz različitih udžbenika i da na osnovu uočene razlike zaključimo koji od ta dva udžbenika treba preporučiti sledećim generacijama. Ukoliko smo na osnovu obrađenih podataka, izdvojenih informacija i stečenog znanja u mogućnosti da ponudimo i određene preporuke, govorimo o najvišem nivou hijerarhije – uviđanju ili razumevanju (engl. wisdom). Iz navedenog opisa, jasno je da statističke obrade i njihovi rezultati postaju sve vredniji što smo više pozicionirani u DIKW hijerarhiji znanja. Podaci jesu veoma dragoceni, ali postaju korisni samo ako dovedu do uviđanja i praktične primene u rešavanju aktuelnih problema.
Najviše đaka dobilo je ocenu 5. Ovo je teško zaključiti iz tabele, jer prethodno treba obaviti dodatne operacije prebrojavanja. Procena se najlakše obavlja na osnovu stubičastog dijagrama, jer je lakše preceniti visinu, kao osnovnu karakteristiku objekata, nego njihovu površinu ili ugao koji zahvataju.
Pored toga što je na osnovu torta dijagrama teže uporediti učestalosti različitih ocena i proceniti razliku u njihovom broju, njime nije moguće prikazati prazne kategorije vrednosti, odnosno ocene koje se nisu pojavile u grupi đaka.
Iako teže procenjujemo razlike u površinama nego u visinama objekata, kružni dijagram olakšava (vizuelno) sabiranje tih površina. Na osnovu njega ćemo lakše utvrditi da je polovina đaka dobila ocenu četiri, dok bi kod stubičastog dijagrama to podrazumevalo teži zadatak sabiranja visina stubića.
Iako u odeljenju postoji troje đaka koji su dobili ocene 4 ili 5, većina ih je dobila ocenu 2, pa bi se moglo reći da kao grupa imaju loš učinak.
Pored oblika, stubičasti dijagram je simetričan i u odnosu na upotrebljene boje. Kod njega su nijanse određene visinom stubića, tj. brojem đaka u svakoj kategoriji. Nijanse odsečaka kružnog dijagrama označavaju vrednosti varijable.
Pošto se redovi u matrici sirovih podataka vezuju za ispitanike, tj. entitete, a kolone za varijable, tj. svojstva koja su im izmerena, postojećoj matrici treba dodati dvadeset novih redova i jednu kolonu.