Osnovne tehnike sažimanja podataka

2.5. Osnovne tehnike sažimanja podataka

Nakon formiranja reprezentativnog uzorka i merenja odabranih svojstava članova tog uzorka, prikupljene podatke treba na neki način sažeti kako bi se bolje opisali, lakše razumeli i efikasnije saopštili drugima. Izveštaji o gledanosti emisija ne sadrže sve sirove podatke o tome kog je pola ili uzrasta svaki gledalac i koju emisiju je kada gledao, već se ti podaci prikazuju u sažetoj formi, npr. grupisanjem po emisijama, vremenskim periodima, kategorijama stanovništva ili polu. Kao što smo videli, grafikoni su veoma pogodne alatke za sažimanje i opisivanje podataka, te bi trebalo da budu prvi korak u svakoj statističkoj obradi. Na osnovu grafikona lako se mogu uočiti pravilnosti i nepravilnosti u podacima, tačke oko kojih se oni grupišu, razlike i sličnosti među podgrupama ispitanika, varijabilnost podataka i atipični rezultati. Međutim, sve ove korisne informacije nisu potpuno precizne, jer se u suštini baziraju na procenama vizuelnih karakteristika grafikona od strane istraživača. Stoga je uobičajeno da se različita svojstva podataka, odnosno varijabli, opisuju i na numerički način, tj. kvantitativno. U nastavku odeljka ukratko ćemo opisati osnove tehnike numeričkog sažimanja i opisivanja varijabli.

2.5.1. Tabele frekvencija i tabele kontingencije

Statistička obrada podataka obično započinje njihovim razvrstavanjem u kategorije i određivanjem broja elemenata u svakoj od njih. Na taj način mogu se doneti važni zaključci o karakteristikama uzorka, npr. o tome da li je uzorak dovoljno reprezentativan za svaki od stratuma populacije ili koliko različitih kategorija entiteta je moguće formirati. Grafički rezultat ovog postupka je ranije opisani stubičasti dijagram, a njegov numerički pandan je tabela frekvencija. Slično grafikonu, na osnovu tabela frekvencija može da se analizira distribucija učestalosti različitih vrednosti varijable, odnosno njihova raspodela po klasama ili kategorijama entiteta. Ponovo ćemo upotrebiti raniji primer sa studentima i varijablama pol i fakultet, ali ćemo ovoga puta u analizu uključiti varijablu visina umesto varijable broj bodova. Na početku su prikazani grafikon i tabela frekvencija za varijablu pol. Na osnovu grafikona uočavamo da u našem uzorku ima više studenata (označenih slovom m), ali tačna razlika može da se odredi tek na osnovu informacija iz tabele. Pored klasičnih frekvencija koje se označavaju latiničnim slovom f, u tabelama se obično prikazuju i relativne frekvencije koje nisu ništa drugo do ranije pominjane proporcije, odnosno udeo svake od kategorija u ukupnom broju entiteta. U tabeli smo ovu vrstu frekvencija označili slovom p (engl. proportion) kako bismo naglasili njihovu vezu sa verovatnoćom ishoda (engl. probability). Na osnovu tabele može da se kaže da u uzorku ima nešto više muškaraca, ali i da je verovatnoća da će neka nasumično odabrana osoba koja studira na tom univerzitetu biti muškog pola, veća od verovatnoće da će biti ženskog. Preciznije, te verovatnoće iznose p_m = 882 : 1723 ≈ 0,51 i p_z = 841 : 1723 ≈ 0,49. Ova dva ishoda nazivaju se komplementarnim jer je suma njihovih verovatnoća 1 ili 100%. U formuli smo, zbog greške nastale zaokruživanjem, upotrebili simbol ≈ (približno) a ne = (jednako). Ova razlika nije toliko bitna jer prilikom statističkog zaključivanja nije važno da li je tražena verovatnoća jednaka nekoj vrednosti, već da li je od nje veća ili manja. O tome će biti više reči u trećem poglavlju.

Koristeći primer tabele frekvencija i stubičastog dijagrama za varijablu fakultet, odredite koje ste procene i zaključke lakše doneli na osnovu jednog a koje na osnovu drugog načina sažimanja podataka.

U slučaju kvalitativnih, odnosno nominalnih varijabli, kategorije entiteta formiraju se veoma lako. Stoga se ove varijable često nazivaju kategorijalnim, jer najčešće služe tome da entitete (ispitanike) razvrstamo u dve ili više grupa. Na sličan način možemo da upotrebimo i ordinalne varijable koje imaju relativno mali broj nivoa, kao što je npr. nivo stručne spreme ispitanika. Međutim, prikazivanje svih mogućih kategorija, odnosno vrednosti varijabli intervalnog ili razmernog nivoa na grafikonu, često je nepraktično. Prikažite grafikon za varijablu visina. Kao što vidite, tabela frekvencija je, zbog velikog broja vrednosti na x-osi, prevelika i neprikladna za sažimanje rezultata. Stoga je uobičajeno da se u slučaju kvantitativnih varijabli, čije skale imaju veliki broj podeoka, formiraju tzv. razredi, odnosno intervali vrednosti. Na taj način se poboljšava preglednost grafikona i olakšava interpretacija rezultata. Primer takvog grafikona i tabele videćete kada odaberete opciju visina (r). Ovoga puta (relativne) frekvencije se ne računaju za pojedinačne rezultate, već za razrede rezultata. Intervali, naravno, moraju da budu iscrpni i međusobno isključivi kako bi svaki rezultat mogao da se svrsta u samo jedan razred. Obratite pažnju na to da su u ovom primeru u tabeli prikazane dve dodatne kolone: f_c i p_c. Prva sadrži kumulativne frekvencije (engl. cumulative) koje pokazuju koliko podataka (entiteta) se akumuliralo ili nakupilo do određene tačke. Na primer, iz tabele možemo da vidimo da u našem uzorku ima 306 studenata koji su visoki između 164 i 167 cm. Zajedno sa svim prethodnim kategorijama to čini kumulativnu frekvenciju od 546 studenata i studentkinja koji su visoki između 152 i 167 cm. U poslednjem redu tabele, tačnije u poslednjoj kategoriji, kumulativne frekvencije dostižu vrednost ukupnog broja entiteta. Samim tim, računanje sume ove kolone nema smisla. U oblasti statističkog zaključivanja naročito su korisne kumulativne relativne frekvencije ili kumulativne proporcije, označene simbolom p_c. One se računaju na isti način kao i relativne frekvencije, tako da nam omogućavaju donošenje zaključaka u terminima proporcija, odnosno verovatnoća. Na primer, lako možemo da uočimo da se do srednjeg reda, odnosno intervala 168–171 nakupila približno polovina rezultata. Drugim rečima, iznad i ispod neke od vrednosti iz intervala 168–171 nalazi se oko 50% ispitanika. Ta simetričnost je lako uočljiva i na grafikonu, kako na stubičastom dijagramu, tako i na poligonu frekvencija. Ukoliko poligonom frekvencija prikažemo vrednosti f_c umesto vrednosti f, dobija se poligon kumulativnih frekvencija. Kriva koja nastaje na ovaj način naziva se ogiva, a visina svake tačke na njoj jednaka je sumi visine trenutnog stubića i visina svih stubića koji se nalaze ispod, tj. sa leve strane te tačke. U našem primeru ogiva je takođe simetrična, jer je njen tok od prve do šeste tačke odraz u (dvostrukom) ogledalu njenog toka od šeste do jedanaeste tačke. Njen porast je najpre blag, zato što u nižim kategorijama ima manje ispitanika, potom je mnogo oštriji, jer se oko sredine nalazi najviše rezultata, a na kraju je ponovo blag, zato što u višim kategorijama ima približno isto ispitanika koliko ih je u nižim. Odaberite opciju visina 2 (r) da biste videli primer grafikona koji nije simetričan, jer prikazuje uzorak u kome ima znatno više studenata koji su vrlo visoki. U ovom slučaju ogiva ima drugačiji tok rasta koji je do sedme tačke blag, a nakon nje znatno oštriji sve do kraja. Ovakav oblik krive odražavaju i vrednosti u koloni p_c. U prvih pet kategorija visine akumlirano je tek 20% rezultata, da bi u naredne četiri bilo akumulirano i preostalih 80%.

Zbog čega je broj tačaka na poligonima frekvencija za dva veći od broja redova u tabeli frekvencija?

Zbog čega ogiva ima krivolinijski oblik? U kom slučaju bi imala oblik prave?

Koju vrednost na y-osi ima najviša tačka ogive?

Do sada smo tabelama frekvencija prikazivali jednodimenzionalne ili univarijantne distribucije frekvencija, tj. distribucije nastale kategorizacijom entiteta na osnovu jedne dimenzije. Na sličan način mogu se prikazati i kategorije nastale kombinacijom većeg broja varijabli, odnosno multivarijantne distribucije. Na primer, ako odaberete opciju pol x fakultet, biće prikazana tabela koja ima 14 ćelija nastalih kombinovanjem dva nivoa varijable pol i sedam nivoa varijable fakultet. Pored osnovnih, tabela ima i devet marginalnih ćelija u kojima se nalaze sume odgovarajućih redova i kolona, odnosno marginalne frekvencije. U poslednjoj ćeliji tabele naveden je ukupan broj entiteta, odnosno vrednost N. Kao što se vidi iz zaglavlja poslednje kolone, u statistici sume označavamo velikim grčkim slovom Σ (sigma). S obzirom na to da se formiraju ukrštanjem dve ili više varijabli, ove tabele nazivaju se i krostabulacijama (engl. crosstabs) ili, mnogo češće, tabelama kontingencije (lat. contigere – dogoditi se, pojaviti se). Tabele kontingencije nam omogućavaju da analiziramo distribuciju učestalosti u višedimenzionalnom prostoru i indirektno utvrdimo postojanje različitih veza među varijablama. U našem primeru sa studentima reč je o dvodimenzionalnom ili bivarijantnom prostoru varijabli. Iz aspekta statističke obrade, potpuno je nebitno koja varijabla će formirati kolone a koja redove. Ako ste odabrali opciju pol x fakultet, prvi red tabele odgovara levom stubičastom dijagramu a drugi desnom. Iste podatke možemo da prikažemo i drugačije. Kada odaberete opciju fakultet x pol, broj redova u tabeli jednak je broju parova stubića na grafikonu. U odnosu na prethodni primer, tabela je samo zarotirana za 90 stepeni, što nije toliko očigledno na osnovu poređenja dva prateća stubičasta dijagrama.

Koja boja označava koji pol na grafikonu u primeru fakultet x pol?

Posmatrajući rezultate krostabulacije varijabli fakultet i pol, proverite da li raspodela studenata po polu u ukupnom uzorku odgovara raspodelama u podgrupama formiranim na osnovu varijable fakultet.

U jednodimenzionalnim tabelama frekvencija postoji samo jedna suma (kolone). Stoga proporcije i verovatnoće ishoda mogu da se računaju na samo jedan način, kao odnos frekvencije u odgovarajućoj ćeliji i ukupne veličine uzorka. U dvodimenzionalnim tabelama kontingencije to nije slučaj. Pođimo od primera tabele kontingencije za varijable visina (r) x pol, u kojoj su žutom pozadinom označene ćelije koje ćemo analizirati. Praktično sve kombinacije ovih ćelija mogu da nam daju informaciju o verovatnoći nekog ishoda. Kolika je, na primer, verovatnoća da je neko od članova populacije studenata muška osoba visoka između 172 i 175 cm? Odgovor je 289 : 1723 ili približno 0,17. Međutim, ukoliko broj 289 podelimo sa sumom kolone m, umesto sa ukupnom sumom, dobijamo potpuno drugu vrednost. Ovoga puta odnos frekvencija govori o verovatnoći da je neki od studenata (muškog pola) visok između 172 i 175 cm. U pitanju je uslovna verovatnoća koja nije nezavisna od vrednosti u drugim ćelijama, već je određena verovatnoćom da je osoba muškog pola. Dakle, uslovna verovatnoća da se neko nalazi u razredu 172–175, ukoliko znamo da je u pitanju muška osoba, iznosi 289 : 882 ili približno 33%. Na sličan način možemo zaključiti da je verovatnoća da će osoba koja je visoka između 172 i 175 cm biti muško, mnogo veća od verovatnoće da će ona biti ženskog pola. Prva iznosi oko 0,72 (289 : 399), a druga oko 0,28 (110 : 399). Ovoga puta reč je o uslovnoj verovatnoći da je neko muško, ako znamo da je visok između 172 i 175 cm. Navedene zaključke možemo da formulišemo i tako da se odnose na tačnost predviđanja događaja. Na primer, verovatnoća da ćemo tačno pogoditi kog pola je osoba koja je visoka između 172 i 175 cm, veća je od verovatnoće da ćemo tačno pogoditi u kojoj kategoriji visine se nalazi osoba koja je muškog pola.

Odnosi frekvencija u osnovnim i marginalnim ćelijama pružaju nam informacije o verovatnoćama koje smo opazili „u praksi“, tj. u istraživanju ili na osnovu ličnog iskustva. Stoga se ove verovatnoće nazivaju empirijskim. Sa druge strane, odnos marginalnih frekvencija i veličine uzorka pruža nam informaciju o tome šta bi trebalo ili šta bismo mogli da očekujemo „u teoriji“. Vratimo se na empirijsku verovatnoću od 17% da je neko u našoj populaciji muškarac visok između 172 i 175 cm. Da li je to u skladu sa očekivanjima? U odgovoru na ovo pitanje pomoći će nam sume odgovarajućeg reda i kolone. Ako pretpostavimo da pol i visina nisu ni u kakvoj vezi, tj. da muškarci nisu nešto viši od žena kao u našem primeru, onda sume redova i sume kolona u tabeli možemo da posmatramo kao potpuno nezavisne. Nezavisni ishodi su oni kod kojih verovatnoća jednog ishoda ne utiče na verovatnoću drugog, npr. pol ne utiče na visinu ili obratno. U tom slučaju, verovatnoća zajedničkog javljanja tih ishoda računa se kao proizvod verovatnoća svakog od njih. Na primer, verovatnoća da od 39 kuglica u igri Loto izvučete broj 7 (ili bilo koji drugi broj) iznosi 1 : 39 ili 0,03. Ta verovatnoća ni na koji način ne utiče na verovatnoću narednog ishoda, osim što je u bubnju ostalo manje kuglica, tako da je verovatnoća da bude izvučen broj 23 (ili bilo koji drugi broj osim 7) sada 1 : 38, što je još uvek oko 0,03. Na osnovu ovih podataka, možemo da izračunamo verovatnoću da na početku izvlačenja budu izvučeni brojevi 7 i 23. Ona iznosi 0,03 · 0,03 = 0,0009 ili 0,09%. Istu logiku možemo da primenimo i u našem primeru sa studentima. Verovatnoća da je neko u populaciji muško, bez obzira na visinu, iznosi 882 : 1723 ili oko 0,51. Verovatnoća da je neka osoba u populaciji visoka između 172 i 175 cm, bez obzira na pol, je 399 : 1723 ili oko 0,23. To znači da bismo u našoj populaciji mogli da očekujemo teorijsku verovatnoću od 0,23 · 0,51 ili oko 12% da je neko muškarac visine između 172 i 175 cm. S obzirom na to da smo ustanovili da je empirijska verovatnoća veća i iznosi 17%, zaključujemo da visina i pol nisu potpuno nezavisne varijable. Opazili smo više muškaraca a manje žena visokih između 172 i 175 cm, nego što bi se očekivalo da razlike u visini među polovima nema. Stoga imamo pravo da zaključimo da postoji razlika u visini između studenata i studentkinja. To nam, uostalom, pokazuje i stubičasti dijagram. Ovo je bila kratka ilustracija logike zaključivanja na osnovu verovatnoća različitih ishoda kojom ćemo se detaljnije baviti u trećem poglavlju.

Koja karakteristika stubičastog dijagrama u primeru visina (r) x pol ukazuje na to da postoji razlika u visini među polovima?

Kolika je teorijska verovatnoća da je neka osoba u populaciji iz primera, nezavisno od toga kog je pola, viša od 175 cm?

Kolika je teorijska verovatnoća da je neka studentkinja visoka između 184 i 187 cm?

2.5.2. Mere grupisanja ili centralne tendencije

Skupovi podataka veoma često se sažimaju do najvišeg stepena, tako da se predstave jednim brojem koji nazivamo merom grupisanja ili centralne tendencije rezultata. Taj broj je ponekad nedovoljno informativan, npr. ako zaključke o nekom učeniku donosimo samo na osnovu prosečnog uspeha i bez uvida u njegove pojedinačne ocene. Nekada su mere centralne tendencije neprikladne ili pristrasne, npr. kada materijalni status stanovnika neke države izrazimo prosekom njihovih zarada. I pored toga, sažimanje ove vrste u nauci i statistici je neminovno, najpre zato što su sirovi podaci u tabelarnoj formi nedovoljno pregledni i teški za interpretaciju, ali i zato što većina naprednijih analiza polazi od prethodno izračunatih mera centralne tendencije koje imaju ulogu „predstavnika“ skupova podataka. Tako ćemo npr. odeljenja u školi porediti po prosečnom uspehu đaka a bogatstvo država po bruto domaćem proizvodu (engl. GDP) po stanovniku (lat. per capita). Stoga je veoma važno da istraživač bude svestan prednosti i nedostataka različitih mera centralne tendencije, kao i faktora koji utiču na njihovu vrednost, a time i na njihovu prikladnost u različitim situacijama. Ti faktori se na prvom mestu odnose na nivo merenja varijable, oblik njene distribucije i njenu varijabilnost.

2.5.2.1. Aritmetička sredina, medijana i mod

Aritmetička sredina, medijana i mod su najčešće korišćeni deskriptivni pokazatelji kojima se kvantitativno iskazuje mesto oko koga se grupišu rezultati merenja. Aritmetička sredina je prosečna vrednost svih rezultata. Označava se velikim slovom M (engl. mean) ili X̅ (engl. x-bar), a računa se po formuli:

`M=(sumx)/N`

gde x označava pojedinačne rezultate, odnosno izmerene vrednosti varijable čiji se prosek računa, Σ označava sumu, a N broj merenja, odnosno veličinu uzorka. U sledećem primeru prikazani su rezultati 20 đaka na testu znanja na kome su mogli da osvoje od 0 do 10 bodova. Stubičasti dijagram prikazuje podatke koji su uneti u tabelu sa leve strane, dok su različiti deskriptivni pokazatelji prikazani sa desne. Određene ćelije desne tabele su prozirne, jer će o njihovom sadržaju biti više reči tek u narednom odeljku. Obratite pažnju na činjenicu da N u formuli za računanje proseka ne označava broj redova u matrici već broj postojećih vrednosti. Ukoliko obrišete neku od vrednosti u matrici, vrednost N će se smanjiti, ali će aritmetička sredina (M) ostati ista, jer se i suma svih vrednosti smanjila. U tom slučaju postoji jedan nedostajući podatak, što je moglo da se desi ako neki učenik nije bio prisutan na času na kome se radio test. Sada u prazno polje unesite vrednost 0 i proverite da li se promenila M. Naravno, vrednost 0 označava da jedan od učenika nije uspeo da osvoji nijedan bod na testu a ne da je bio odsutan. Stoga je N ponovo 20 a vrednost M postaje manja od 5.

Koju vrednost treba uneti umesto neke od petica u tabeli da bi vrednost M ponovo postala 5, odnosno da bi se ponovo uspostavila simetričnost distribucije prikazane na grafikonu?

Izmenite nekoliko petica u tabeli u proizvoljne vrednosti iz raspona od 0 do 10 i pratite kako se menja M. Ćelije u koloni možete da birate i korišćenjem tastera - (gore) i + (dole) na numeričkom delu tastature. Primetićete da je vrednost izraza Σ(x-M), odnosno suma odstupanja pojedinačnih rezultata od aritmetičke sredine, uvek nula. Drugim rečima, aritmetička sredina je težište svih rezultata ili tačka na x-osi koja može da se zamisli kao oslonac klackalice u ravnotežnom položaju. Ukoliko u tabeli povećavate broj vrednosti manjih od 5, težište se pomera ulevo, a ukoliko ima više vrednosti većih od 5, težište se pomera udesno. U tabeli sa leve strane, ova pravilnost se ogleda u činjenici da će „masa“ odstupanja od aritmetičke sredine biti jednaka sa obe njene strane, odnosno da će suma negativnih brojeva u koloni x-M uvek biti jednaka sumi pozitivnih, naravno ukoliko se zanemari njihov predznak.

Formirajte više puta slučajne distribucije klikom na ikonicu kockica u gornjem desnom uglu i pokušajte na osnovu izgleda grafikona, traženjem njegovog centra ravnoteže, da procenite kolika je vrednost M dobijenih distribucija.

U prethodnom primeru računali smo aritmetičku sredinu varijable koja je očigledno diskretna. To na prvi pogled može da se učini neopravdanim, jer kao rezultat dobijamo vrednost koja se ne nalazi na skali instrumenta kojim smo izvršili merenje, npr. testa znanja. U većini slučajeva, ovo nije sporno. Na primer, često se dešava da nastavnici učenicima daju pola, trećinu ili četvrtinu boda kako bi preciznije izrazili njihovo znanje i pokušali da ga tretiraju kao kontinuiranu varijablu. Međutim, postoje i situacije u kojima takav tretman diskretnih varijabli nema opravdanja. Kada odaberete primer 2 sa liste, na grafikonu će biti prikazana distribucija varijable broj dece u porodici. Dve porodice imaju jedno dete, osam porodica dvoje itd. Jasno je da nije umesno reći da porodice u proseku imaju 3,11 dece, a još manje da je toliki broj dece karakteristika „prosečne“ porodice. Pored toga, odmah se uočava da postoji vrednost koja je atipična, aberantna i vidljivo udaljena od preostalih stubića na grafikonu. To je porodica koja ima desetoro dece. Statistički gledano, ovaj podatak je problematičan zato što bitno menja aritmetičku sredinu distribucije i utiče na dalje zaključke o pojavi koja je izmerena. Takve vrednosti nazivamo autlajerima (engl. outlier) i trebalo bi ih na odgovarajući način tretirati pre dalje analize. Za početak, potrebno je utvrditi zbog čega su se javile, jer često mogu da budu posledica greške u merenju ili omaške prilikom unosa podataka u tabelu. Nakon toga ove vrednosti mogu da se isključe iz analize ukoliko to veličina uzorka dozvoljava. U našem primeru, nakon brisanja vrednosti 10 iz matrice, M se znatno smanjuje, ali ipak ne toliko bitno u smislu konačnog zaključka. Naime, vrednost M i dalje sugeriše da porodice u proseku imaju približno troje dece, što nije dovoljno pouzdan podatak imajući u vidu izgled distribucije podataka. Stoga se u ovakvim slučajevima, kao prikladnija mera centralne tendencije, češće koristi mod ili dominantna vrednost koja je u našem primeru označena sa Mo. Mod je najčešća vrednost u skupu podataka ili vrednost koju dobijamo kao odgovor na pitanje šta je tipično za grupu merenja. Prikladnije i ispravnije je reći da tipična porodica ima dvoje dece, nego da „prosečna“ porodica ima otprilike troje. Mod je, dakle, pravičnija mera centralne tendencije u odnosu na M kada su distribucije atipične, kada postoje aberantni rezultati, a posebno onda kada su varijable merene na nižim nivoima merenja. Štaviše, mod je jedina mera grupisanja koja može i sme da se primeni za kvalitativne (nominalne) varijable. Na primer, ukoliko zamislimo da vrednosti na našem grafikonu ne označavaju broj dece već fakultet koji neko studira, aritmetička sredina postaje potpuno besmislen pokazatelj i jedini opravdani zaključak je da dominantna vrednost varijable fakultet iznosi 2, odnosno da u uzorku ima najviše studenata fakulteta koji je označen tim kodom.

Pored aritmetičke sredine i moda, u statistici se, kao mera grupisanja rezultata, često koristi i medijan, medijana ili srednja vrednost. Kao što joj ime kaže, to je vrednost koja se nalazi na srednjoj poziciji u nizu svih rezultata poređanih od najmanjeg do najvećeg. Ova pozicija lako se pronalazi ako je broj rezultata neparan, a ukoliko je paran, medijana se računa kao prosek dva središnja rezultata u nizu. Medijana može da se definiše i uz pomoć ranije pomenutih kumulativnih frekvencija. Srednja vrednost je prvi razred ili podeok na x-osi kod koga kumulativna frekvencija postaje veća od N : 2 ili prosek vrednosti podeoka čija je kumulativna frekvencija jednaka N : 2 i prvog narednog podeoka čija je frekvencija veća od nule. Na prikazanom grafikonu možete da vidite kumulativne frekvencije kada pokazivačem miša prelazite preko stubića. U primeru 2 kumulativna frekvencija postaje veća od 9 (N : 2 = 18 : 2) iznad broja 2, što je ujedno srednja vrednost distribucije koja je u tabeli sa desne strane označena simbolom Md. Uklonite ponovo vrednost 10 iz matrice i uočite da se vrednosti Mo i Md ne menjaju, za razliku od vrednosti M. Obratite pažnju na to da srednja i prosečna vrednost distribucije nisu iste, te stoga ni ove termine ne treba koristiti kao sinonime. Prosečna, srednja i tipična vrednost predstavljaju suštinski različite mere centralne tendencije koje mogu, ali ne moraju da imaju istu vrednost.

Odaberite primer 3 i analizirajte vrednosti mera centralne tendencije.

Da li su M i Md u ovom primeru prikladne mere centralne tendencije?

Zbog čega M i Md u ovom primeru imaju istu vrednost? Kakav oblik imaju sve distribucije kod kojih M i Md imaju istu vrednost?

Zbog čega umesto broja za vrednost Mo stoji reč „više“? Zašto ovu distribuciju nazivamo bimodalnom? Kako bi mogla da izgleda neka polimodalna distribucija?

Distribucije 1 i 3 imaju istu M. Za koju od tih distribucija je vrednost M bolja mera centralne tendencije i zašto?

Formirajte više puta slučajne distribucije klikom na ikonicu kockica i analizirajte odnose između vrednosti različitih mera centralne tendencije.

2.5.2.2. Još neke vrste prosečnih vrednosti

U prethodnim primerima videli smo da prosek ili aritmetička sredina, iako najpopularnija, nije uvek najprikladnija mera grupisanja. Njena „pravičnost“ je ujedno i njena glavna mana, jer, za razliku od medijane i moda, uzima u obzir vrednost svakog rezultata merenja pa tako i vrednosti eventualnih autlajera. Stoga se medijana i mod smatraju otpornijim ili robusnijim merama grupisanja. Čak i ako u nekom skupu podataka postoji aberantan rezultat koji je 10, 100 ili 1.000 puta veći od ostalih rezultata, on neće uticati na vrednosti medijane i moda. Međutim, robusnost u statistici obično podrazumeva i manju preciznost, te je stoga većina otpornijih tehnika ujedno i manje precizna, odnosno manje „moćna“ da ukaže na postojanje određenih fenomena. Da bi se aritmetičke sredine učinile robusnijim, u statistici se koriste njene varijacije poznate kao podrezane sredine (engl. trimmed means). Prilikom računanja podrezanih sredina ne uzimaju se u obzir svi rezultati, već samo određeni procenat onih središnjih. Obično se isključuje 5% rezultata sa obe strane distribucije, uz pretpostavku da će na taj način biti isključeni i potencijalni aberantni rezultati, te će se dobiti vrednost koja tačnije procenjuje mesto oko koga se grupišu rezultati. Jedna od mera centralne tendencije ovog tipa je tzv. triprosek (engl. trimean) koju je predložio američki matematičar Džon Vajlder Tuki (Tukey, 1977). Da bi se izračunao triprosek, potrebno je pronaći vrednosti kvartila, odnosno tačaka koje dele rezultate u četiri grupe jednake po broju. Prvi kvartil je tačka ispod koje se nalazi približno 25% rezultata, drugi je medijana, odnosno tačka ispod i iznad koje se nalazi 50% rezultata, a treći je vrednost iznad koje se nalazi preostalih 25% rezultata. Triprosek je aritmetička sredina zbira dve vrednosti medijane, i vrednosti prvog i trećeg kvartila.

Aritmetička sredina pripada grupi tzv. Pitagorejskih sredina u koju još spadaju geometrijska i harmonijska sredina. U nekim oblastima nauke, kao što je npr. ekonomija, druge dve sredine koriste se češće od aritmetičke. Stoga treba biti obazriv ukoliko se neka vrednost naziva prosekom, jer taj termin može da ima drugačije značenje u različitim oblastima i kontekstima. Na ovom mestu ćemo ukratko objasniti logiku ovih mera centralne tendencije i način njihove primene, kako bismo ukazali na činjenicu da aritmetička sredina u određenim situacijama može da pruži pogrešne informacije o podacima. Geometrijska sredina je prikladna mera grupisanja rezultata nastalih postupkom množenja, odnosno onih čiji se međusobni odnosi tačnije opisuju izrazom koliko puta, a ne za koliko je neka vrednost veća od neke druge. Na primer, ukoliko je proizvodnja jabuka u prvoj godini porasla 2 puta, sa 100 tona na 200 tona, a u drugoj godini čak 8 puta, sa 200 na 1.600 tona, onda prosečni godišnji porast izražen aritmetičkom sredinom nije tačan. Vrednost (2 + 8) : 2 = 5 bi sugerisala da nakon dve godine proizvodnja treba da bude 2.500 tona, jer se svake godine povećavala prosečno 5 puta. U ovakvim situacijama bi trebalo izračunati geometrijsku sredinu vrednosti kao n-ti koren njihovog proizvoda. U našem primeru to je kvadratni koren vrednosti 8 · 2 koji iznosi 4. Ovoga puta prosečni godišnji porast daje tačan krajnji rezultat: 100 · 4 · 4 = 1.600. Slično tome, zamislite da se uz brdo visoko 4 km penjete brzinom od 4 km na sat, a potom niz njega silazite brzinom od 12 km na sat. Vaša prosečna brzina nije (4 + 12) : 2 = 8 km/h, jer bi to značilo da ste celo brdo prešli za jedan sat, a zapravo ste to vreme utrošili samo za penjanje. U ovom slučaju treba upotrebiti harmonijsku sredinu koja je prikladnija za računanje proseka rezultata izraženih kao odnos dveju vrednosti. Harmonijska sredina računa se kao recipročna vrednost aritmetičke sredine recipročnih vrednosti niza rezultata. Recipročna vrednost nekog broja dobija se kada se 1 podeli tim brojem. U našem primeru prosečna brzina kretanja je harmonijska sredina dve vrednosti: 1 : ((1 : 4 + 1 : 12) : 2) = 6 km/h. Ovo je tačna vrednost, jer ste razdaljinu od 8 kilometara uz i niz brdo prešli za 1 sat i 20 minuta.

Na kraju ovog odeljka treba napomenuti i to da nisu retke situacije u kojima se prosek rezultata izračunava na osnovu sažetih a ne na osnovu sirovih vrednosti. Na primer, ukoliko imamo samo podatke o prosečnom uspehu učenika većeg broja škola u nekom regionu, a želimo da izračunamo prosečan uspeh svih đaka u tom regionu, nameće se vrlo jednostavno rešenje da sve proseke saberemo i podelimo brojem škola. Ovako dobijen prosek proseka jeste ispravno rešenje, ali može da bude veoma pristrasno ako svaka aritmetička sredina nije izračunata na istom broju rezultata. Stoga je uvek dobro znati i veličine uzoraka na kojima je prosek izračunat, kako bi se onim aritmetičkim sredinama koje su dobijene na većim uzorcima dalo i veće opterećenje ili ponder (engl. weight). Tako dolazimo do pokazatelja koji je poznat kao zajednička aritmetička sredina. Ona se računa tako što se svaki prosek najpre pomnoži veličinom uzorka na kome je izračunat a potom se suma tako ponderisanih proseka podeli ukupnim brojem ispitanika. Na taj način se sirovi rezultati merenja, doduše na veoma grub način, „rekonstruišu“ uz pretpostavku da se npr. prosek 3,23 izračunat u školi od 500 đaka, odnosi na sve te đake i da u obračun zajedničke aritmetičke sredine možemo da uključimo 500 vrednosti 3,23. Ipak, ovo je znatno korektnije nego da smo vrednosti 3,23 pridali isti značaj kao i npr. vrednosti 4,65 koja je dobijena u školi sa 1.500 đaka. Na sličan način aritmetička sredina može da se izračuna i na osnovu tabela frekvencija koje smo opisali u poglavlju 2.5.1., tako što se svaka vrednost u tabeli pomnoži sa njenom frekvencijom, potom se dobijeni proizvodi saberu i na kraju podele ukupnim brojem rezultata, odnosno sumom svih frekvencija.

2.5.3. Mere raspršenja ili varijabilnosti

Primeri iz prethodnog odeljka pokazuju da dve distribucije potpuno različitog oblika mogu da imaju iste vrednosti aritmetičke sredine. To znači da mere grupisanja ne pružaju dovoljno informacija potrebnih da bi se adekvatno i potpuno opisala neka pojava. Na primer, ukoliko student u proseku provodi sat vremena dnevno na društvenim mrežama, to može da znači da on svakoga dana troši jedan sat na tu aktivnost ili da radnim danima provede 10 do 15 minuta, a vikendom između 3 i 4 sata koristeći društvene mreže. U drugom slučaju, svojstvo definisano kao vreme provedeno na društvenim mrežama očigledno u većoj meri varira. Pojam varijabilnosti uveli smo u poglavlju 2.4. na primeru kvalitativne (nominalne) varijable, a u ovom odeljku ćemo objasniti logiku najčešće korišćenih mera varijabilnosti kojima se opisuju kvantitativne varijable, odnosno distribucije. Na početku treba imati na umu da mere varijabilnosti ne pokazuju samo stepen disperzije ili raspršenja individualnih podataka, već indirektno govore i o tome koliko poverenja možemo da imamo u odabranu meru grupisanja. U našem primeru veća varijabilnost vremena koje student provodi na društvenim mrežama ukazuje na to da se pojedinačne dnevne vrednosti bitno razlikuju među sobom, ali i na to da dobijeni prosek, iako tačna, nije i dovoljno pouzdana mera grupisanja. Na primer, moguće je da student zapravo nijednog dana nije proveo jedan sat koristeći društvene mreže. Dakle, ukoliko želimo kvantitativno da opišemo neku pojavu, pored odabrane mere grupisanja, biće nam potrebna i odgovarajuća mera raspršenja rezultata.

2.5.3.1. Vizuelna procena i poređenje varijabilnosti

Pre nego što pređemo na problem numeričkog iskazivanja varijabilnosti, zadržaćemo se na pitanju vizuelne procene raspršenosti rezultata na osnovu grafikona. U narednom primeru prikupićemo podatke o brzini reakcije na vizuelni stimulus. Potrebno je kliknuti sivi kvadrat sa leve strane, nakon čega će se na mestu mete sa desne strane pojaviti narandžasti kvadrat. Njega treba kliknuti što brže jer se vreme proteklo između klika na sivi i klika na narandžasti kvadrat beleži kao brzina reakcije u milisekundama. Nakon dva merenja koja služe za vežbu, postupak se ponavlja 20 puta. Naizmenično će biti prikazano 10 velikih i 10 malih kvadrata. Kliknite sivi kvadrat da biste uradili vežbu.

Koliko varijabli prepoznajete u ovom eksperimentu? Koji je nivo merenja svake od njih?

Koliko redova i koliko kolona treba da ima matrica sirovih podataka u koju biste zabeležili podatke prikupljene u ovom primeru?

Da li se redovi matrice sirovih podataka u navedenom primeru odnose na različite osobe (ispitanike) ili na nešto drugo?

Na koji način je upotrebljena varijabla veličina kvadrata na prikazanim grafikonima?

Da li je brzina reakcije mogla da bude izražena u sekundama ili nekim drugim jedinicama umesto u milisekundama? Šta to govori o varijabli?

Rezultati svih 20 merenja prikazani su na središnjem grafikonu, a njihova aritmetička sredina označena je sa M u donjem levom uglu okvira. Veličina kvadrata upotrebljena je kao dihotomna grupišuća varijabla na osnovu koje su merenja podeljena u dve kategorije. Sa jedne strane nalazi se grafikon koji prikazuje 10 izmerenih brzina u situacijama kada je kvadrat bio velik, a sa druge 10 vrednosti kod kojih je kvadrat bio mali. Na osnovu proseka, ali i na osnovu raspršenosti rezultata, možemo da zaključimo koji grafikon prikazuje koju kategoriju, odnosno grupu merenja. Očekujemo da je brzina bila veća kada je narandžasti kvadrat bio veći zato što je bio bliži sivom kvadratu, a imao je i veću površinu koja je olakšavala pozicioniranje pokazivača miša. Vrednost M_V odnosi se na levi grafikon (veliki kvadrati), a vrednost M_M na desni (mali kvadrati). Imajte na umu da manja vrednost M ukazuje na veću brzinu u milisekundama. Pored toga što je prosek desne distribucije veći, očekujemo da će biti veća i raspršenost rezultata. Raspršenost najjednostavnije možemo da izrazimo kao razliku između najvećeg i najmanjeg rezultata u nizu. Ovaj pokazatelj naziva se raspon, označava se slovom R i veoma lako može da se očita sa x-ose grafikona. Brzina reakcije u grupi malih kvadrata trebalo bi da ima veću vrednost raspona (R_M) ne samo zato što je brzina kliktanja više varirala zbog relativno male mete, već i zato što jedan od malih kvadrata namerno nije bio postavljen na mesto na kome je trebalo da se pojavi. Osim toga, bio je i slabije vidljiv. Na taj način je simulirana pojava autlajera, odnosno aberantno visokog rezultata merenja.

Ukoliko izračunate prosek vrednosti M_V i M_M, dobićete zajedničku aritmetičku sredinu koja je jednaka vrednosti M. Zbog čega je to tako? Kada prosek tih vrednosti ne bi dao vrednost M?

Da li je opravdano izračunavanje vrednosti R kao proseka ili zbira vrednosti R_V i R_M? Zbog čega jeste, odnosno zbog čega nije?

Kako biste izračunali raspon rezultata svih merenja na osnovu raspona grupa merenja, odnosno levog i desnog grafikona?

U nastavku teksta koristićemo grafikone simuliranih podataka koji se prikazuju kada odaberete opciju Primer. Analizirajte aritmetičke sredine i raspone svih merenja i uporedite ih sa merenjima po grupama. Obratite pažnju na to da bi se na osnovu izgleda grafikona, a bez uvida u vrednosti x-ose, moglo zaključiti da sva tri grafikona imaju veoma sličan oblik, a time i veoma slične mere centralne tendencije i raspršenja. To naravno nije tačno, jer su podeoci x-ose prilagođeni rasponima prikazanih rezultata. Stoga su i intervali razreda na levom grafikonu manji od onih na desnom. Kada kliknete taster Ujednači ose, podeoci na x-osama levog i desnog grafikona izjednačiće se sa podeocima x-ose srednjeg grafikona, uzimajući u obzir najmanju i najveću vrednost dobijenu na celokupnom skupu podataka. Sada je vizuelno poređenje varijabilnosti dve grupe merenja opravdano i mnogo lakše, a razlika u raspršenosti rezultata postaje očiglednija. Uočite da je središnji grafikon nastao preklapanjem levog i desnog grafikona, što je rezultiralo bimodalnom distribucijom brzine reakcije. Aberantni rezultat vidljiv je u grupi malih kvadrata i na srednjem grafikonu, ali ne postoji u grupi velikih kvadrata. Prikazujte naizmenično svoje podatke biranjem opcije Moji podaci i podatke iz primera biranjem opcije Primer da biste analizirali po čemu su oni slični, a po čemu se razlikuju. Ukoliko želite da ponovo uradite vežbu, kliknite taster u gornjem desnom uglu okvira.

Podatke iz primera i podatke koje ste prikupili radeći vežbu, možete da preuzmete klikom na taster Preuzmi podatke. Podaci su smešteni u datoteku koja ima csv format (engl. comma-separated values). U pitanju je tekstualna datoteka u kojoj svaki red predstavlja jednog ispitanika, jedno merenje ili jedan niz podataka. Kolone, odnosno varijable u okviru reda, razdvojene su zarezima. Ovo je veoma čest format čuvanja podataka u tabelarnom obliku. Ukoliko imate instaliran paket Microsoft Office, datoteka će verovatno biti povezana sa programom Excel. Jasno je da korišćenje csv formata za čuvanje podataka nije prikladno u situacijama kada neke od vrednosti u kolonama sadrže decimalne vrednosti odvojene zarezima. Stoga se podaci obično čuvaju u složenijim formatima kao što su Excel (xls) i Calc (ods) tabele ili matrice napravljene u statističkim paketima (npr. sta, sav, sas). Druga mogućnost je da se umesto zareza upotrebi znak koji ne može da bude deo vrednosti varijable, npr. onaj koji se dobija pritiskom na taster Tab na tastaturi.

2.5.3.2. Varijansa i standardna devijacija

Raspon se računa na osnovu samo dve vrednosti iz skupa rezultata, što ga čini jednostavnom, ali veoma grubom merom raspršenja. Njegova vrednost pokazuje udaljenost između najmanjeg i najvećeg rezultata, ali ne govori ništa o tome koliko rezultati variraju unutar tog intervala. Stoga se u statistici češće koriste mere varijabilnosti kojima se obuhvataju svi rezultati. Za vežbu ćemo ponovo iskoristiti primer iz odeljka o merama grupisanja. Na početku je prikazano 20 rezultata koji se međusobno ne razlikuju, tako da sve mere varijabilnosti, uključujući i raspon, imaju vrednost 0. Odaberite primer 4 sa liste da biste na grafikonu prikazali rezultate koji variraju. U ovom skupu podataka, raspon iznosi 6 - 2 = 4 boda, a aritmetička sredina 3. Kao što smo rekli, vrednost M ne nalazi se nužno na sredini raspona, ali se uvek nalazi u težištu distribucije. U sredini raspona je vrednost 4, ali je prosek manji od toga, jer je 3 boda tačka u odnosu na koju je „masa“ odstupanja ulevo (3 · -1 bod) jednaka „masi“ odstupanja udesno (1 · 3 boda).

Pošto vrednost izraza Σ(x-M) uvek iznosi nula, tek suma apsolutnih vrednosti odstupanja, označena izrazom Σ|x-M|, daje nam informaciju o ukupnoj količini odstupanja svih rezultata od aritmetičke sredine, bez obzira na predznak. Ukoliko tu sumu podelimo veličinom uzorka (N), dobijamo pokazatelj koji se zove prosečno apsolutno odstupanje, a u tabeli sa desne strane označen je slovom D. Vrednost D za prikazani skup podataka iznosi 0,5, što znači da je varijabilnost rezultata pola boda. Drugim rečima, rezultati 12 đaka na testu znanja odstupaju u proseku za pola boda od 3 boda – jedan đak za tri, tri đaka za 1. Rezultati preostalih 8 đaka uopšte ne odstupaju od proseka. Unosite vrednosti 3 u prazne kućice matrice i posmatrajte kako se menja vrednost D. Dodavanjem vrednosti koje su jednake aritmetičkoj sredini, ukupna suma odstupanja ostaje ista. Iako je raspon varijable sve vreme isti, prosečno apsolutno odstupanje se smanjuje, jer se ista suma odstupanja deli većim N. Drugim rečima, M postaje sve preciznija i pouzdanija mera grupisanja, jer postaje bolji predstavnik sve većeg broja pojedinačnih rezultata. Ukoliko, pak, vrednosti 3 zamenite nekim drugim vrednostima, na primer 5, varijabilnost će početi da se povećava, a pouzdanost aritmetičke sredine da se smanjuje.

Negativan predznak neke vrednosti moguće je ukloniti i njenim kvadriranjem. Ukoliko se na taj način izračuna količina odstupanja pojedinačnih rezultata od njihovog proseka, dobija se vrednost označena izrazom Σ(x-M)². Ovu vrednost takođe možemo da podelimo veličinom uzorka (brojem merenja) i da dobijemo prosek kvadriranih odstupanja rezultata od aritmetičke sredine. Tako izračunat pokazatelj varijabilnosti naziva se varijansa i označava se simbolom s². Odaberite ponovo primer 1 sa liste i zamenite bilo koje dve vrednosti 5 u levoj tabeli vrednostima 4 i 6. Uočavate da su sume apsolutnih odstupanja i kvadriranih odstupanja jednake, ali se vrednosti prosečnog apsolutnog odstupanja i varijanse razlikuju. Konkretno, D je nešto manje od s², a razlog je u formuli za izračunavanje varijanse:

`s^2=(sum(x-M)^2)/(N-1)`

U imeniocu gornje formule nije vrednost N, već N-1, što varijansu čini nešto većom u odnosu na situaciju kada bi ona zaista bila prosek svih kvadriranih odstupanja. O razlogu ove korekcije biće više reči kasnije, a na ovom mestu je dovoljno odgovoriti na pitanje kada ta korekcija u većoj meri utiče na konačni ishod, odnosno na razliku između rezultata koji se dobija deljem sa N i onog koji se dobija deljenjem sa N - 1. Odgovor je da će razlika biti veća kada je vrednost N mala. Zato ovu korekciju možemo da shvatimo i kao neku vrstu kazne za istraživača koji želi da donese zaključak na osnovu veoma malog broja merenja. Ta kazna očigledno ima značajniji efekat kada je veličina uzorka 10, nego kada je 10.000. Ako odemo još dalje, možemo reći da kazne neće ni biti ako je varijabla izmerena u celoj populaciji, kao teorijski neograničenom skupu entiteta. Tada će formula za izračunavanje varijanse biti malo drugačija:

`sigma^2=(sum(x-mu)^2)/N`

Uočavamo da u gornjoj formuli nema pomenute korekcije u vidu umanjivanja veličine uzorka, jer varijablu nismo ni merili na uzorku već na celoj populaciji. Iz istog razloga upotrebljeni su i drugačiji simboli. Naime, aritmetičku sredinu varijable u populaciji ne označavamo slovom M, već malim grčkim slovom μ (mi). Na osnovu nje može da se izračuna i varijansa varijable u populaciji koju označavamo sa σ² (sigma na kvadrat) a ne s². U pitanju su dakle isti deskriptivni pokazatelji, ali se odnose na različite skupove entiteta. Deskriptivne pokazatelje koji se odnose na celu populaciju (μ i σ²) nazivamo parametrima, a pokazatelje koji se odnose na uzorak uzet iz populacije (M i s²) nazivamo statisticima.

Bitan nedostatak varijanse u odnosu na prosečno apsolutno odstupanje predstavljaju jedinice u kojima se ona izražava. Na primer, ako je aritmetička sredina varijable izražena u bodovima, varijansa će biti izražena u bodovima na kvadrat. To je čini manje interpretabilnom i intuitivnom, pa se u statistici češće koristi njen kvadratni koren. Vrednost koja se dobija na taj način zove se standardna devijacija i predstavlja najpopularniju meru raspršenja podataka. Standardna devijacija uzorka se, dakle, računa po formuli:

`s=sqrt((sum(x-M)^2)/(N-1))`

Na prvi pogled, može se učiniti da u gornjoj formuli korenovanje potpuno potire prethodnu operaciju kvadriranja, te da se vrednost standardne devijacije svodi na prosečno apsolutno odstupanje. To naravno nije tačno. Vrednost s izračunata na uzorku uvek će biti veća od vrednosti D za istu varijablu, ne samo zbog korekcije u imeniocu formule, već i zbog toga što postupak računanja standardne devijacije, odnosno operacija kvadriranja, dodatno naglašava velika odstupanja rezultata od proseka. Odaberite ponovo primer 4 sa liste i obratite pažnju na to da je s približno duplo veća od D. Ukoliko vrednost 6 u tabeli zamenite vrednošću 4, varijabilnost se naravno smanjuje, pa tako i s i D, ali njihova razlika sada nije toliko izražena. Ako ponovo povećamo varijabilnost rezultata tako što neku vrednost 3 u tabeli zamenimo sa 2, prosečno apsolutno odstupanje ponovo postaje 0,5, ali je sada standardna devijacija neznatno veća od njega. Dakle, za iste vrednost D, vrednosti s mogu da budu različite u zavisnosti od oblika distribucije. Razlika među njima posebno je izražena kada u skupu podataka postoje aberantni rezultati. Primere sa liste možete da poredite sa podacima koje ste sami uneli ili izmenili izborom opcije 0. moji podaci.

2.5.3.3. Pojam matematičke funkcije

Na ovom mestu ćemo veoma kratko skrenuti pažnju čitaoca na neka od svojstava varijanse koja je čine aritmetički „poželjnijom“ merom od prosečnog apsolutnog odstupanja. Osnovni smisao ovog odeljka je podsećanje čitaoca na logiku matematičkih funkcija kao veoma važnog koncepta u statistici. U dvodimenzionalnom koordinatnom sistemu prikazano je dvadesetak tačaka. Njihova pozicija u prostoru određena je uz pomoć veoma jednostavne formule:

`f(x)=x`

Gornji izraz predstavlja funkciju koja opisuje odnos između vrednosti dva skupa podataka. Konkretnije, za svaku vrednost koja se nalazi na x-osi, vrednost na y-osi jednaka je vrednosti x. Na primer, za vrednost 4 na x-osi, vrednost f (funkcija) od x je takođe 4. Kada kliknete bilo koju tačku na grafikonu i držite pritisnut taster miša, videćete projekcije te tačke na obe ose. Projekcije vam omogućavaju da lakše povežete vrednosti x i y, odnosno da lakše očitate koordinate svake tačke. Ako skale obe ose tretiramo kao kontinuirane, mogli bismo da iscrtamo teorijski neograničen niz tačaka koje formiraju pravu liniju prikazanu na slici. Stoga ovu vrstu funkcija nazivamo linearnim. Kada kliknete formulu:

`f(x)=2*x+4`

biće prikazana malo drugačija linearna funkcija koja ovoga puta ne prolazi kroz centar koordinatnog sistema, zato što za nultu vrednost x vrednost y više nije 0 već 4. Treća formula odnosi se na funkciju apsolutnih vrednosti. Kao što vidite, ona nije linearna i ima jedan oštar prelom u tački 0, jer vrednosti f(x) ne mogu da budu negativne. Za razliku od nje, funkcija kvadriranih vrednosti je takođe nelinearna, ali je glatka i postepeno menja svoj tok. Matematičkim rečnikom rečeno, funkcija apsolutnih vrednosti nema izvod u tački 0 i da zbog toga nije diferencijabilna u svakoj svojoj tački. Upravo ta razlika između treće i četvrte funkcije ilustruje prednost kvadriranih u odnosu na apsolutne vrednosti u statistici, odnosno prednost varijanse kao mere varijabilnosti u odnosu na prosečno apsolutno odstupanje.

Da bismo objasnili praktičnu prednost funkcija koje su diferencijabilne nećemo koristiti matematički jezik, već jedan mnogo banalniji primer. Zamislite da prema vama leti objekat koji treba da izbegnete. To ćete najlakše uraditi ako se on kreće pravolinijski, odnosno ako njegovu putanju možete da opišete i predvidite linearnom funkcijom. Sledeći ishod koji bi bio prihvatljiv je onaj u kome objekat menja pravac, ali to ne čini naglo i oštro, već postepeno. Upravo nam izvod funkcije u svakoj tački omogućava da predvidimo kakav će biti njen dalji tok. Predviđanja ove vrste često pravimo potpuno intuitivno. Iako se to može shvatiti kao rizično ponašanje, sigurno vam se desilo da prelazite ulicu dok prema vama ide automobil i puštate ga da prođe na nekoliko desetina centimetara od vas. Takvu opuštenost i tačnost procene mogla je da vam pruži samo izvesnost pravolinijske putanje automobila. Međutim, mnogo teži zadatak je izbegavanje objekta koji se ne kreće pravolinijski, posebno ako naglo menja pravac kretanja. Slično je i u matematici, odnosno statistici. Izvod je mera osetljivosti promene funkcije u svakoj tački, a matematičke operacije lakše se obavljaju kada te promene nisu nagle. Izvod se grafički prikazuje kao tangenta funkcije u određenoj tački, odnosno prava koja dodiruje liniju funkcije ali je ne seče. U našem primeru sa funkcijama, tangente se prikazuju kao zelene duži kada pokazivačem miša prelazite preko tačaka u koordinatnom sistemu.

Pređite pokazivačem miša preko svih tačaka, najpre na funkciji kvadriranih vrednosti a potom i na funkciji apsolutnih vrednosti. Uočite da ova druga nema tangentu u tački 0 jer ju je nemoguće povući. Tačnije, ima ih više, tako da je nemoguće predvideti u kom pravcu će se funkcija kretati nakon te tačke. Peta i šesta formula prikazuju još dve kontinuirane krivolinijske funkcije koje imaju izvod u svakoj tački. Od posebne važnosti je šesta, koja se često naziva zvonastom krivom. O njenim svojstvima biće više reči u narednom odeljku. Na kraju, sedma funkcija služi samo kao primer mogućnosti da se vizualizacija kao estetski izraz poveže sa naučnom vizualizacijom. Zbog specifičnog oblika funkcije, u ovom primeru nisu prikazane pojedinačne tačke u koordinatnom sistemu. Ako imamo na umu nameru koju smo izneli na početku udžbenika, odnosno želju da damo prioritet razumevanju statistike u odnosu na (tehničko) usvajanje matematičkih pojmova, možemo reći da će matematičar na slici sigurno prepoznati varijantu sinusoidne funkcije, ali statističar na njoj slobodno može da uoči i slepog miša.

Odaberite osmu funkciju i analizirajte njen oblik. Linija koju vidite sastavljena je iz dva dela, odnosno dve funkcije. Možete li da ih uočite? Zbog čega prikazana linija nije mogla da bude nacrtana uz pomoć samo jedne formule, tj. funkcije?

2.5.3.4. Interkvartilni raspon

Najmanja moguća vrednost svih mera varijabilnosti je 0. Ona se dobija kada varijabla, odnosno pojava, uopšte ne varira i kada su sva merenja jednaka, npr. kada svi ispitanici imaju istu vrednost izmerenog svojstva. Teorijska gornja granica mera raspršenja zavisi od karakteristika same varijable, najviše od merne skale i njenog teorijskog raspona. Veće vrednosti standardne devijacije mogu se očekivati na testu na kome su đaci imali mogućnost da dobiju između 0 i 100 poena, nego na testu gde je maksimalan mogući broj poena bio 10. Iako rasponi bodova koje su đaci dobili na ova dva testa mogu da budu jednaki, teorijski raspon prvog testa je veći, pa je samim tim i veća mogućnost da dobijemo više vrednosti odstupanja od proseka. Sada ćemo pokušati da pronađemo najveću vrednost s u našem primeru sa testom čiji je teorijski raspon 10 bodova. Krenite od primera 4 sa liste i menjajte vrednosti u tabeli tako da se s povećava. Ako se najmanja varijabilnost vizuelno predstavlja kao jedan stubić i potpuna koncentracija rezultata oko jedne vrednosti, onda povećavanje varijabilnosti podrazumeva potrebu da se rezultati u većoj meri rasprše po x osi, tj. da se povećava broj merenja koja (bitno) odstupaju od proseka. Mogući međukorak u ovom pokušaju je distribucija koja se dobija odabirom primera 5 sa liste. Ovu distribuciju nazivamo uniformnom, ali ne zbog toga što su „uniformisani“ ispitanici, tj. merenja, već zato što je ujednačena verovatnoća dobijanja bilo kog rezultata iz datog (teorijskog) raspona. U našem primeru broj loših, prosečnih i odličnih rezultata na testu potpuno je isti. Varijabilnost je naravno veća nego u prethodnom slučaju i iznosi više od 3 boda, što čini dve trećine vrednosti aritmetičke sredine.

Iako uniformna distribucija vizuelno sugeriše veoma veliku varijabilnost neke pojave, vrednost s može da bude i veća. Pri njenom daljem povećavanju polazimo od ranije pomenute logike da standardna devijacija ne opisuje samo varijabilnost pojave, već indirektno govori i pouzdanosti aritmetičke sredine. Ako vrednosti 5 u tabeli menjamo nekim drugim vrednostima, varijabilnost će nastaviti da raste. Ekstreman slučaj nepouzdanosti M je kada ona daje potpuno pogrešnu sliku tipičnog rezultata u grupi merenja. To je slika koju prikazuje primer 6. Aritmetička sredina iznosi 5, ali ne samo da niko od đaka nije osvojio toliko bodova već niko nije osvojio ni približno toliko. Podatak da je vrednost s veoma blizu vrednosti M ili čak veća od nje, govori nam da sažimanje rezultata na vrednost aritmetičke sredine nije opravdano. Pri tome čak nije ni potrebno dati odgovor na pitanje koja varijabilnost je previše velika, jer je suština u činjenici da statistički postupci jednostavno neće „dozvoliti“ da se zaključci donose na pokazateljima niske pouzdanosti. Na primer, ukoliko je jedna grupa đaka na testu znanja ostvarila rezultate prikazane u primeru 7a, a druga grupa rezultate prikazane u primeru 7b, moći ćemo da kažemo da je druga grupa bolja, jer ne samo da postoji razlika između proseka grupa, nego su ti proseci i dovoljno pouzdani. Relativno mala varijabilnost unutar obe grupe pokazuje da se doneti zaključak zaista odnosi na većinu đaka. Drugim rečima, dve prikazane distribucije mogu se lako vizuelno razdvojiti jer je njihovo preklapanje relativno malo. Međutim, ako su dobijeni rezultati kao u primerima 8a i 8b, tada ne bi trebalo da tvrdimo da je druga grupa zaista bolja, iako je razlika aritmetičkih sredina ista kao u prethodnom primeru. Naime, velika varijabilnost unutar grupa ukazuje na to da bi zaključak o postojanju razlike u suštini bio pogrešan, jer postoji puno đaka iz „bolje“ grupe koji su lošije uradili test od onih iz grupe sa manjom M.

Na kraju odeljka o merama varijabilnosti pomenućemo još interkvartilni raspon (engl. IQR – interquartile range). Logika ovog pokazatelja slična je ranije pomenutoj podrezanoj aritmetičkoj sredini, a sastoji se u računanju proseka, ali ne na ukupnom rasponu, već na rasponu središnjih 50% rezultata. Interkvartilni raspon na „zanemaruje“ po 25% rezultata sa obe strane distribucije, a time i potencijalne autlajere. Već smo pomenuli da tačke na x-osi kojima se definišu granice tako nastalih četvrtina rezultata nazivamo kvartilima. Prvi kvartil (Q₁) je tačka ispod koje se nalazi četvrtina merenja, treći kvartil (Q₃) tačka iznad koje se nalazi četvrtina rezultata, a drugi kvartil (Q₂) je zapravo medijana distribucije. Vrednost interkvartilnog raspona je razlika između Q₃ i Q₁. U primeru 5 sa liste, vidimo da Q₁ iznosi 2,5, jer se približno četvrtina đaka (3 od 11) po rezultatu nalazi ispod te vrednosti. Sa druge strane, troje đaka nalazi se iznad vrednosti 7,5. Pozicije Q₁ i Q₃ su simetrične u odnosu na središte distribucije jer je i sama distribucija simetrična, ali to ne mora uvek da bude slučaj. U primeru 2 sa liste, vrednost Q₁ je bliža levom kraju distribucije, nego Q₃ desnom. Desni kraj distribucije je razvučen, tako da je sa te strane potreban veći raspon rezultata da bi se obuhvatila četvrtina entiteta, tj. porodica, što je u ovom slučaju, njih četiri ili pet. Pošto je distribucija asimetrična, sa njene leve strane 25% entiteta nalazi se u intervalu od 0 do 2, a sa desne između 3,75 i 10. Po istom principu mogu da se izračunaju i kvantili, čije vrednosti dele površinu distribucije na pet jednakih delova, ili centili (percentili) koji dele distribuciju na 100 delova.

Grafikon je nezamenjiv kada treba napraviti grube procene odnosa među različitim vrednosti. Na primer, na osnovu stubičastog dijagrama ćete mnogo lakše i brže utvrditi da je najviše studenata na FTN ili da ih je više na FIL nego na PRA. Međutim, ako treba da se prikažu precizne proporcije ili fine razlike među vrednostima, tabela frekvencija je preglednija i informativnija. Raspored elemenata na grafikonu može da utiče na njegovu čitljivost, tako da ćete razliku između EKO i PRA teško uočiti ako ne konsultujete podatke iz tabele.

Uobičajeno je da se poligon frekvencija iscrtava tako da linija počinje i završava se na x-osi. Štaviše, to je karakteristika koja ovu vrstu grafikona čini poligonom a ne prostom izlomljenom linijom. Pored razreda navedenih u tabeli, na grafikonu su prikazani najniži i najviši razred u kojima nema rezultata. Ovo je još jedan argument koji pokazuje da poligoni frekvencija nisu prikladni za vizualizaciju kvalitativnih varijabli kod koji je redosled kategorija na x-osi, u suštini, nebitan.

Krivolinijski oblik je posledica različitih učestalosti po razredima. Kumulativni priraštaj je manji u nižim i višim razredima, a veći u onima koji se nalaze oko srednje vrednosti. Kada bi frekvencije svih razreda bile podjednake, ogiva bi imala oblik prave linije jer bi priraštaj u svim tačkama bio isti.

Vrednost na y-osi u najvišoj tački ogive jednaka je veličini uzorka.

Na osnovu poređenja visine stubića na grafikonu i vrednosti datih u tabeli, zaključujemo da plava boja predstavlja studentkinje a narandžasta studente.

Na osnovu raspodele u primeru pol, zaključujemo da u ukupnom uzorku ima više muškaraca. Međutim, ovaj odnos ne važi za pojedinačne fakultete, kako u smislu razlike u korist muškaraca, tako i u smislu veličine te razlike.

Narandžasti stubići pomereni su više udesno, ka većim vrednostima x-ose.

Da bi se dao odgovor na ovo pitanje, treba sabrati učestalosti razreda iznad vrednosti 175 cm i podeliti ih veličinom uzorka. Dakle, verovatnoća iznosi (307 + 94 + 13) : 1723 ≈ 0,24.

Ako znamo da je u pitanju studentkinja, verovatnoća da je ona visoka između 184 i 187 cm iznosi 2 : 841 ≈ 0,002. Ako nam to nije poznato, verovatnoća da iz populacije nasumično odaberemo studentkinju te visine duplo je manja – 2 : 1723 ≈ 0,001.

Potrebno je uneti vrednost koja jednako odstupa od 5 kao i 0, ali u suprotnom smeru. Kada unesete vrednost 10, aritmetička sredina ponovo postaje 5 jer je (10 + 0) : 2 = 5.

Vrednost aritmetičke sredine uvek se nalazi u težištu distribucije, bez obzira na njen oblik. Sa druge strane, samo kod simetričnih distribucija težište se nalazi na polovini raspona, odnosno na poziciji srednje vrednosti distribucije.

Ukoliko je distribucija simetrična, vrednosti aritmetičke sredine i medijane biće približno iste. Velika razlika između moda, sa jedne strane, i medijane, odnosno aritmetičke sredine, sa druge, sugeriše da je verovatno u pitanju izrazito asimetrična raspodela.

Ne. I jedna i druga su podjednako loše, tj. pogrešne.

Vrednost aritmetičke sredine nalazi se u sredini niza rezultata, jer je odstupanje rezultata sa leve i desne strane medijane jednako. Sve simetrične distribucije imaju jednake vrednosti medijane i aritmetičke sredine.

Očigledno je da postoji više najčešćih vrednosti, odnosno više vrednosti čija je učestalost jednaka. U ovom primeru postoje dva moda pa se i distribucija naziva bimodalnom. Polimodalne distribucije imaju više modova ali oni ne moraju da imaju istu učestalost.

Aritmetička sredina je bolja mera centralne tendencije u prvom primeru jer tačno predstavlja sve rezultate. U drugom primeru ona ne govori ništa o stvarnom učinku đaka na testu znanja.

Obratite posebnu pažnju na primere u kojima je medijana veća od proseka i obratno. Imajte na umu da isti rasponi rezultata na osi, ne moraju da obuhvate i isti broj rezultata. Na primer, u rasponu od 0 do 5 bodova može da bude duplo manje đaka nego u rasponu od 5 do 10. Tada će aritmetička sredina verovatno da bude manja od moda i medijane.

Dve ključne varijable u ovom eksperimentu su veličina kvadratića koji su služili kao meta i vaša brzina reakcije, odnosno brzina pronalaženja mete. Prva varijabla je nominalnog nivoa a druga razmernog.

Pošto je obavljeno 20 merenja, tabela treba da ima 20 redova. U svakom merenju zabeležene su vrednosti dveju varijabli – veličine kvadrata i vaše brzine. Matrica sirovih podataka, dakle, treba da ima dve kolone.

Redovi se odnose na 20 merenja. U eksperimentu je učestvovao samo jedan ispitanik, tako da se analizira brzina na nivou pojedinca a ne grupe. Merenje je ponavljano kako bi se smanjila mogućnost greške i dobila stabilnija i tačnija procena brzine. Očekuje se da će zbog toga pojedinačne greške merenja vezane za uslove, npr. pomeranje miša ili odvlačenje pažnje, manje uticati na konačne rezultate.

Veličina kvadrata upotrebljena je kao grupišuća varijabla na osnovu koje je 20 merenja podeljeno u dve grupe od po 10 vrednosti.

Da, i to ni na koji način ne bi uticalo na naše zaključke. Međutim, promena iz jednih jedinica u druge mora da se obavi po jasnim pravilima, jer je u pitanju kvantitativna varijabla razmernog nivoa. Sa druge strane, veličinu kvadrata mogli smo da izrazimo njihovom površinom, veličinom stranice, ciframa 0 i 1 ili slovima A i B. Ovakvu slobodu imamo zato što varijablu tretiramo kao nominalnu, tj. kao kvalitativni kriterijum na osnovu koga se merenja razvrstavaju u dve grupe.

Ovakav rezultat se dobija jer su veličine grupa na kojima su izračunati proseci iste. Kada to ne bi bio slučaj, prosek aritmetičkih sredina po grupama i prosek objedinjenih rezultata ne bi bili isti. Tada bi se vrednosti M tretirale kao ravnopravne, ali bi zapravo jedna od njih trebalo da ima veću težinu.

To nije moguće. Za izračunavanje R potreban je podatak o najmanjem i najvećem rezultatu u grupi merenja, što nije moguće zaključiti na osnovu vrednosti raspona u pojedinačnim grupama merenja.

Najmanji rezultat prikazan na levom ili desnom grafikonu predstavlja donju granicu raspona srednjeg grafikona. Najveći rezultat sa levog ili desnog grafikona je njegova gornja granica.

Prvom funkcijom opisan je oblik gornjeg dela srca, tj. dva polukruga, a drugom njegov donji deo. Prikazani oblik ne bi mogao da se definiše jednom formulom, jer za istu vrednost na x-osi mogu da se dobiju različite vrednosti na y-osi. U prvoj funkciji za x = 0, y je 1, a u drugoj je približno -2.