Uvod
Udžbenici iz oblasti statistike neretko počinju pokušajima autora da objasne otpor i animozitet studenata prema statistici, ili ubeđivanjem čitalaca da ne odustanu od čitanja nakon prvih nekoliko stranica. Škotski psiholog Gordon Rag u svojoj knjizi koju je šaljivo nazvao Upotreba statistike: nežan uvod, konstatuje da se pomenuti otpor javlja zato što statistiku uglavnom predstavljaju statističari čiji su mozgovi „drugačije umreženi“ i koji najčešće stavljaju naglasak na matematičke osnove a ne na razumljivost, zanimljivost i interaktivnost (Rugg, 2007). Ovaj udžbenik je pokušaj da se osnovne statističke metode predstave na drugačiji, dinamičniji i čitljiviji način, prikladniji vremenu u kome živimo, odnosno komunikaciji koju karakteriše upotreba multimedijalnih (višekanalnih) sadržaja. Za početak, ponudićemo tri definicije statistike:
1. Statistika je oblast matematike koja se bavi podacima – njihovim prikupljanjem, sažimanjem, poređenjem, uopštavanjem i prikazivanjem, a zatim i zaključivanjem i predviđanjem na osnovu podataka.
2. Statistika je oblast matematike koja se bavi podacima – njihovim prikupljanjem, sažimanjem, poređenjem, uopštavanjem i prikazivanjem, a zatim i zaključivanjem i predviđanjem na osnovu podataka.
3. Statistika je oblast matematike koja se bavi podacima – njihovim prikupljanjem, sažimanjem, poređenjem, uopštavanjem i prikazivanjem, a zatim i zaključivanjem i predviđanjem na osnovu podataka.
Sve navedene definicije su semantički i sintaksički identične, ali vizuelno nisu. Samim tim, one čitaocu šalju drugačiju poruku. Percepciji studenta koji ima jasan pozitivan ili negativan stav prema matematici bliža je druga rečenica. Studentu koji želi da nauči i razume osnovne statističke metode i principe, trebalo bi da bude bliža treća. U ovom udžbeniku, analogno izgledu treće definicije, blago se prikriva matematika, a naglašavaju se podaci. Polazi se od stava da suština statistike, kao skupa metoda kojima se obrađuju podaci, nije njena matematička osnova, već njena praktična primena. Podaci se često nazivaju naftom 21. veka i nalaze se svuda oko nas. Bez velike pretencioznosti, možemo reći da je samim tim i statistika svuda oko nas, jer svi ti podaci moraju da se pretvore u nešto upotrebljivo. Raspored artikala u supermarketima, grafikoni vremenske prognoze, procena bezbednosti automobila, efikasnost lekova, članci u kojima se preporučuje hrana koju treba ili ne treba da konzumiramo, izveštaji o stanju na berzama, preporuke koje nam se pojavljuju na Fejsbuk stranicama i predviđanja rezultata parlamentarnih izbora, imaju u svojoj pozadini podatke obrađene primenom različitih statističkih metoda.
Predlažemo da već na početku zaboravite česta (pogrešna) ubeđenja i aforizme vezane za statistiku. Verovatno najpoznatiji je onaj koji se pripisuje engleskom političaru iz 19. veka Bendžaminu Dizraeliju: „Postoje obične laži, odvratne laži i statistika“. Jedan od ciljeva ovog udžbenika jeste da pokaže da statistika ne laže. Mogu da lažu samo ljudi. Osobe koje pogrešno primenjuju statističke metode zbog nedovoljne pismenosti, nenamerno obmanjuju javnost. To ih, naravno, ne oslobađa od odgovornosti. Sa druge strane, pristrasan izbor statističkih metoda, svesna manipulacija podacima i selektivna interpretacija rezultata obrade, predstavljaju ozbiljne etičke prekršaje u akademskoj zajednici. Ali čak ni tada nije moguće obmanuti statistički pismenu osobu koja poseduje barem osnovno znanje o tome kako se podaci obrađuju i kako treba da se interpretiraju. Ako četiri osobe imaju mesečnu platu od 25.000, a peta 250.000 dinara, onda prosečna plata tih pet osoba iznosi 70.000 dinara. To je tačan ali besmislen podatak, jer ne govori ništa o materijalnom statusu bilo koje od tih pet osoba. Ukoliko je određeni kandidat dobio 50% glasova na izbornima na kojima je izlaznost bila takođe 50%, onda je za njega glasalo (samo) 25% građana sa pravom glasa. Čak i kada bi se u nekom istraživanju utvrdilo da kod dece postoji povezanost između stepena agresivnosti i vremena provedenog u igranju „pucačkih“ igara, to ne bi značilo da igre izazivaju agresivno ponašanje. I tako dalje. Statistika, dakle, uspešno odgovara samo na dobro postavljena pitanja i to samo onima koji žele i kompetentni su da je razumeju i adekvatno primene. Nažalost, to često nije slučaj. U tom kontekstu je ilustrativan aforizam škotskog pisca Endrjua Langa koji delom i objašnjava pomenuti negativan stav prema statistici: „Statistika se često koristi na način na koji pijanac koristi uličnu svetiljku: da bi se za nju pridržao, a ne da bi bolje video put ispred sebe“.
Uvod ćemo završiti još jednim citatom. Karl Pirson, engleski statističar koga ćemo često pominjati u ovom udžbeniku, nazvao je statistiku gramatikom nauke. Statistički način razmišljanja je zaista bitan segment naučnog pristupa opisivanju i razumevanju fenomena koji nas okružuju, ali i važna komponenta savremene akademske pismenosti. Ne u smislu poznavanja čitanja i pisanja, već u smislu posedovanja veština za 21. vek. Živimo u vremenu „seizmičkih promena“ načina na koji komuniciramo i prenosimo znanje (Cope & Kalantzis, 2009). Svet koji se otkrivao kroz štampane knjige, sve više postaje svet koji spoznajemo kroz multimedijalne sadržaje prikazane na ekranima računara, televizora i mobilnih telefona. Postajemo preopterećeni podacima koji bi bez statističkih procedura zagušili naše kanale komunikacije. Rezultati pretrage koje nam nudi Gugl, za nas su „savladivi“ upravo zato što im prethodi obrada i sažimanje milijardi podataka primenom PageRank algoritma (Brin & Page, 1998) kojim se vrši statistička procena relevantnosti sadržaja za dati upit. I ne samo to. Rezultati takve obrade podataka prikazuju se u formi teksta koji je obogaćen različitim vizuelnim karakteristikama. Kao i u definicijama iz našeg primera, različiti delovi teksta rezultata pretrage označeni su različitom bojom i debljinom, što nam govori o njihovoj važnosti, funkciji i kontekstu. Pri tome smo se veoma lako i brzo opismenili da ta vizuelna svojstva tumačimo na odgovarajući način i koristimo ih u cilju bržeg pronalaženja traženog podatka. Ovakva vizuelna komunikacija je ne samo efikasna već i univerzalna. Upravo je vizualizacija ono što omogućava da nam mozgovi budu „jednako umreženi“, bez obzira na to da li smo statističari, naučnici, studenti ili umetnici. U sprezi sa statistikom, vizualizacija postaje neizostavna alatka koja unapređuje našu komunikaciju i razumevanje sveta oko nas.
Ovaj (statistički) udžbenik sastoji se iz tri poglavlja. U prvom će biti opisani osnovni statistički pojmovi i koncepti kroz prizmu vizualizacije, odnosno vizuelnog mišljenja, komunikacije i pismenosti. U drugom će naglasak biti na deskriptivnoj statistici, odnosno tehnikama pomoću kojih se podaci sažimaju i kojima se opisuju njihove raspodele, vrednosti oko kojih se grupišu i stepen njihove sličnosti. Treće poglavlje posvećeno je osnovnim tehnikama induktivne statistike ili statistike zaključivanja. Ove tehnike omogućavaju da se ode dalje od prostog opisivanja podataka i da se prave procene, donose zaključci i vrše predviđanja o fenomenima koji se analiziraju. Pošto zaključivanje obično podrazumeva uopštavanje od užeg i specifičnog (npr. stavovi grupe osoba) ka opštem i univerzalnom (npr. stavovi svih građana jedne države), ova grupa tehnika često se označava i terminom inferencijalna statistika. Naziv dolazi od engleskog termina inference, odnosno latinskog inferre, koji označavaju postupak izvođenja zaključaka na osnovu poznatih činjenica. U ovom udžbeniku biće opisane osnovne inferencijalne tehnike kojima se procenjuje značajnost razlika između grupa merenja i stepen povezanosti među pojavama. Većina odeljaka sadrži interaktivni deo koji podrazumeva da čitalac učestvuje u kreiranju, menjanju i interpretaciji podataka kako bi bolje razumeo koncepte koji se objašnjavaju. U tom smislu, očekuje se da budete aktivni prilikom čitanja udžbenika i otkrivanju mogućnosti koje pruža vizualizacija podataka, ne samo u kontekstu statističke primene, već i u smislu drugačije forme komunikacije i prenošenja informacija.