Pojam varijabilnosti

2.4. Pojam varijabilnosti

Veoma važno svojstvo svakog skupa podataka je njihova raznolikost, različitost, raspršenje ili varijabilnost. Varijabilnost nam govori o tome u kolikoj meri se entiteti međusobno razlikuju s obzirom na vrednost neke varijable. Na primer, visina u grupi predškolske dece nije toliko varijabilna koliko bi bila u grupi predškolske dece, dece osnovnoškolskog uzrasta, srednjoškolaca i studenata posmatranih zajedno. Nacionalnost kao svojstvo građana nekog regiona više varira u Vojvodini nego u Šumadiji. Ako se vratimo na primere sa Voronojevim dijagramima, poređenje varijabilnosti svojstva prikazanog na grafikonima za populacije 1 i 3, odnosno varijabilnosti uzoraka uzetih iz tih populacija, ne bi trebalo da bude težak zadatak čak ni za statističkog laika. U Populaciji 1 postoji sedam kategorija (klasa) varijable, pa su tako i loptice međusobno različitije po boji u odnosu na stanje u Populaciji 3 koja ima pet stratuma. U skladu sa tom logikom, možemo da zaključimo da bi najmanju moguću varijabilnost predstavljala situacija u kojoj su sve loptice iste boje, a površina kvadrata je jednobojna. Na primer, u populaciji studenata psihologije nema varijabilnosti svojstva studijska grupa. U tom slučaju, verovatnoća da ćete izvući kuglicu boje kojom su označeni budući psiholozi bila bi 1, a verovatnoća da ćete izvući kuglicu neke druge boje iznosi 0. To naravno ne znači da je boja, odnosno studijska grupa, prestala da bude varijabla i postala konstanta, već samo da ta varijabla uopšte ne varira u populaciji. Niska varijabilnost pojave koju smo izmerili mogla bi da ukaže na to da je odabrani uzorak pristrasan i da ne odslikava stvarno stanje u populaciji ili, pak, da je istraživač odlučio da se bavi fenomenom koji nije interesantan niti relevantan za analizu. Na primer, ukoliko svi stanovnici nekog grada voze automobile ne starije od tri godine, onda starost automobila najverovatnije neće biti relevantna za istraživanje uzroka povećanog zagađenja vazduha u tom gradu. To će pre biti učestalost vožnje, preovlađujuća vrsta goriva, prohodnost puteva ili nešto drugo.

Poređenje varijabilnosti populacija 3 i 4 (možda) predstavlja nešto teži zadatak. Obe populacije imaju isti broj stratuma, ali se proporcije tih stratuma, pa samim tim i verovatnoće odgovarajućih ishoda, bitno razlikuju. Prilikom rešavanja ovog zadatka treba krenuti od pitanja u kojoj od dve populacije je grupisanje oko iste vrednosti snažnije i očiglednije, odnosno u kojoj od ovih populacija je verovatnoća nekog od ishoda vidljivo veća od ostalih. Boja kuglica zapravo manje varira u populaciji 4, jer ipak može da se kaže da neka kategorija dominira i da je veliki broj članova te populacije međusobno sličan, npr. studira isti fakultet. Varijabilnost bitno utiče i na pouzdanost naše procene, jer ćete sigurno mnogo lakše i tačnije rangirati boje po učestalosti, tj. verovatnoći, u slučaju uzorka uzetog iz Populacije 4 nego onog iz Populacije 3. Naravno, u statistici nije dovoljno samo vizuelno proceniti varijabilnost neke pojave, već ju je potrebno izraziti i kvantitativno. O tome će biti više reči u narednim odeljcima, ali primeri pomenutih kvalitativnih varijabli mogu da posluže kao pogodan način da se čitalac uvede u numeričko izražavanje varijabilnosti. Recimo da želimo da numerički izrazimo varijabilnost svojstva pol. U grupi žena, proporcija vrednosti ž varijable pol iznosi 1, a proporcija vrednosti m 0. Jednostavnim množenjem ovih proporcija dobijamo vrednost 0 koja govori da pol, kao varijabla, ne varira u grupi žena. Analogno tome, najveća varijabilnost bi postojala u situaciji da u nekoj grupi postoji jednak broj žena i muškaraca. Tada bi umnožak proporcija iznosio 0,5 · 0,5 = 0,25, što je i najveća moguća varijabilnost varijable pol. Svaki drugi odnos muških i ženskih osoba dao bi umnožak manji od ove vrednosti i ukazivao bi da su osobe međusobno više slične po polu, jer je jedna od vrednosti učestalija. Umnožak proporcija može da se iskoristi kao pokazatelj varijabilnosti i u slučajevima kada postoji više klasa, kao u našim primerima sa studijskim grupama ili mobilnim operaterima.

Sakrijte populaciju, kliknite taster Generiši populaciju da biste formirali nasumičnu populaciju i potom na osnovu uzoraka različite veličine pokušajte da procenite kako ona izgleda.

Pomeranjem težišnih tačaka na dijagramu promenite proporcije stratuma i kreirajte sopstvenu populaciju. Da li suma proporcija može da bude veća ili manja od 1? Da li povećavanje proporcije jednog ishoda utiče na proporcije (svih) drugih ishoda?

Obratite pažnju na to da prilikom analize uzoraka i uopštavanja zaključaka na celu populaciju, najčešće nećete biti podjednako sigurni u tvrdnje koje iznosite. Verovatno je lakše proceniti da li je neka boja dominantna, nego napraviti rang listu boja po učestalosti.

Suma verovatnoća, odnosno proporcija međusobno isključujućih ishoda jednog događaja, uvek mora da bude 100, tj. 1. U našem primeru, to znači da je potpuno izvesno da će svaka izvučena kuglica imati neku boju. Kada se povećava verovatnoća jednog ishoda, verovatnoća nekog drugog ili svih ostalih se smanjuje i obratno.