2.3. Pojam nasumičnosti ili slučajnosti
U prethodnom odeljku koristili smo termin nasumično za označavanje radnji i događaja koji se dešavaju bez vidljivog reda i namere, tj. za označavanje procesa čiji ishod nije moguće predvideti sa potpunom sigurnošću. Na primer, prilikom nasumičnog odabira člana neke raznovrsne populacije ljudi, nećete moći unapred da znate da li će to biti muška ili ženska, starija ili mlađa, viša ili niža, zaposlena ili nezaposlena osoba. Za označavanje nasumičnih procesa u engleskom jeziku koristi se termin random, koji se u domaćoj literaturi obično prevodi kao slučajno. Samim tim se i teorija verovatnoće definiše kao oblast matematike koja se bavi ishodima slučajnih varijabli (engl. random variables) ili stohastičkih procesa kao skupa većeg broja slučajnih varijabli. Kako bismo bili dosledni sa postojećom literaturom, termine slučajno i nasumično koristićemo kao sinonime, ali predlažemo čitaocu da nasumično prihvati kao precizniji i prikladniji termin. U srpskom jeziku, pojam slučajno često ima drugačiju konotaciju i ne odražava na pravi način suštinu izvorne engleske reči. Naime, reč random svojim korenom i etimološkim poreklom upućuje na vezu sa trčanjem (engl. run, nem. rennen, st. fr. randir), tačnije sa procesima koji traju ili se ponavljaju. Upravo to je ključna karakteristika fenomena kojima se bavi i statistika. Ako neko dete slučajno, dakle bez namere, udari druga, sigurno neće privući pažnju školskog psihologa. Ali ako ono nasumično udari nekoga, to može da ukaže na postojanje namere. Štaviše, ukoliko se ti postupci ponavljaju, moguće je zaključiti da postoji „pozadinska“ pravilnost u njegovom ponašanju. Psiholog i dalje neće moći da predvidi koga će dete da udari i kada, ali određeni nevidljivi obrazac postaje uočljiv nakon većeg broja ponavljanja događaja (engl. long-run). Uočeni obrazac ukazuje na potencijalne probleme ili karakteristike tog (agresivnog) deteta. Slično tome, nemoguće je predvideti da li će prilikom bacanja novčića pasti pismo ili glava, ali sa razlogom očekujemo da će nakon više ponovljenih bacanja, broj pisama i glava biti podjednak. U narednom primeru ilustrovaćemo ovaj fenomen, odnosno svojstvo stohastičkih procesa poznato kao zakon velikih brojeva.
Kao vizuelnu ilustraciju postupka uzorkovanja upotrebićemo
Voronojev dijagram, nazvan prema ukrajinskom matematičaru Georgiju Fedosijeviču Voronoju koji ga je prvi opisao i definisao. Ovaj dijagram služi za podelu površine na više segmenata definisanjem težišnih tačaka u dvodimenzionalnom prostoru. Svaki segment površine, ili
Voronojeva ćelija, predstavlja skup tačaka koje se nalaze bliže težištu te ćelije nego težištima drugih ćelija. Pomoću Voronojevog dijagrama, na veoma intuitivan način, mogu da se predstave veličine klastera i pozicije njihovih centralnih tačaka ili
centroida. To mogu da budu zgrade koje gravitiraju ka repetitorima mobilnog operatera ili korisnici (zaražene) pumpe za vodu, kao u ranije opisanom primeru iz 19. veka. Isto tako, centroidi mogu da budu i tipični predstavnici nekih kategorija osoba, npr. studenata različitih fakulteta ili osoba koje slušaju određenu vrstu muzike. U takvim situacijama, složenijim statističkim postupcima, kao što je npr.
klaster analiza, moguće je odrediti pozicije i karakteristike centroida čak i na osnovu vrednosti većeg broja varijabli, odnosno svojstava grupa ispitanika. Međutim, tačna pozicija centroida u našem primeru nije bitna, jer se njome određuje samo veličina i položaj segmenata (stratuma) ukupne površine koju ćemo tretirati kao populaciju. Na početku je populacija izdeljena na sedam približno jednakih delova, od kojih svaki zauzima oko 15% ili 0,15 delova kvadrata. Zamislimo da je kriterijum za kategorizaciju bila nominalna varijabla, npr. fakultet koji osoba studira ili marka telefona koji koristi. Kliknite na taster
Počni uzorkovanje da biste započeli proces formiranja jednostavnog nasumičnog uzorka studenata ili korisnika mobilnih telefona. Nasumičnost se ogleda u činjenici da potpuno nepristrasno birate članove populacije, odnosno da ne možete sa sigurnošću da predvidite koje boje će biti naredna izvučena loptica. Nakon 25 odabranih loptica, proces se pauzira.
Kliknite taster Nastavi uzorkovanje. Izvlačenje kuglica nastavlja se dok njihov broj ne dostigne 100. Obratite pažnju na to da je broj entiteta u uzorku, tačnije veličina uzorka, označena velikim latiničnim slovom N. Nekada se sa N označava veličina populacije, a malim n veličina uzorka ili veličina poduzorka većeg uzorka koji čini N elemenata. U ovom udžbeniku, koristićemo oznaku N za označavanje veličine uzorka, uz pretpostavku da tačna veličina populacije najčešće nije ni poznata.
Kliknite taster Sakrij populaciju kako biste simulirali činjenicu da istraživač često ne zna kakve su prave karakteristike skupa entiteta iz koga uzima uzorak. Nakon toga odaberite opciju Populacija br. 2 i pokrenite uzorkovanje do veličine uzorka od 25.
Dovršite uzorkovanje i otkrijte populaciju. Proporcije boja u skupu od 100 loptica trebalo bi verno da odražavaju odnos proporcija površina različitih boja na kvadratu. Ti odnosi verovatno nisu potpuno identični, ali nam uzorak pruža dovoljno precizne i korisne informacije o populaciji. I dalje ne možemo da pretpostavimo koje će boje biti naredna loptica uzeta iz populacije, ali sada imamo podatke na osnovu kojih možemo da procenimo verovatnoću tog ishoda, tj. da kažemo da je najverovatnije da će loptica biti zelene boje. Ta verovatnoća je 0,33 (33%) i odražava udeo zelenih loptica u ukupnom broju loptica u populaciji. Obratite pažnju na to da verovatnoća izračunata na osnovu odnosa loptica u uzorku ne mora da bude ista kao ona koju bismo izračunali na osnovu stanja u populaciji. Međutim, s obzirom na činjenicu da je primenjeno jednostavno nasumično uzorkovanje, te verovatnoće su veoma slične.
Očekuje se da odnos broja kuglica različitih boja u uzorku bude približno isti kao i u populaciji. Verovatnoća izvlačenja kuglice bilo koje boje je podjednaka.
Najverovatnije ne. Da bi se zakon velikih brojeva manifestovao, uzorci moraju da budu dovoljno veliki.
Najverovatnije ne. Iz iste populacije moguće je uzeti praktično neograničen broj uzoraka koji međusobno ne moraju da budu isti, pa čak ni slični, posebno ako se radi o uzorcima male veličine.
Najverovatnije da. Povećavanjem veličine uzorka, povećava se i verovatnoća da će on biti reprezentativan u odnosu na populaciju iz koje je uzet.
Veći uzorci trebalo bi da budu međusobno sličniji jer daju tačniju i precizniju sliku populacije. Prostije rečeno, kada u nečemu grešimo, to može da bude na veliki broj različitih načina. Skup tačnih odgovora obično je mnogo manji.
Moguće je pretpostaviti, ali bi ta pretpostavka verovatno bila pogrešna u većini slučajeva, tj. u većini zaključaka donetih na osnovu malog uzorka.
Ukoliko su razlike u veličinama stratuma u populaciji veće, veća je verovatnoća da će se one manifestovati i na malim uzorcima. Ipak, ove procene će biti mnogo tačnije ako su uzorci veći.
Verovatno ste tačno predvideli da je u Populaciji 4 najveći narandžasti stratum, ali vam je bilo teško da odredite kakav je odnos preostalih boja zbog veoma male verovatnoće tih ishoda.
Iako je broj stratuma u obe populacije isti, raznolikost je veća u Populaciji 3. Naime, u Populaciji 4 očigledno dominira jedna boja, te možemo da kažemo da se u njoj nalazi veći broj međusobno sličnih entiteta.