Da biste mogli da koristite ovu datoteku potrebno je da imate instaliran R. Možete ga preuzeti sa linka: https://cran.r-project.org/bin/windows/ (za Windows), https://cran.r-project.org/bin/linux/ (za Linux) ili https://cran.r-project.org/bin/macosx/ (za OS X). Nisam siguran da će skriptovi raditi na Linuxu i OS X (onaj deo koji se odnosi na referisanje lokacija datoteka na disku - to morate prilagoditi ukoliko koristite ove operativne sisteme). Takođe, potrebno je da imate instaliran i RStudio (besplatnu verziju) sa linka https://www.rstudio.com/products/rstudio/download/ Zatim, potrebno je da kreirate folder OTSS(R) na disku C ili D i u njega kopirate priložene datoteke iz arhive (naredbe.r, test2.txt, rezultati.csv…) Kopirajte direktno u taj folder - ne u subfolder! Komande izvršavajte redom, klikom na zeleni trougao svakog odeljka (chunk - koji počinje sa “```{r}”). Ako želite da izvršite pojedinačnu naredbu iz odeljka, kliknite u nju (ne smete selektovati ništa ili morate selektovati celu naredbu) i pritisnite Ctrl+ENTER. Naredbe iz SCRIPT prozora možete kopirati u prozor CONSOLE i izvršavati sa ENTER. Možete ih menjati i videti rezultate. Poželjno je da to radite. Međutim, predlažem da skript prvi put prođete u izvornom obliku. Napomenuo bih da R koristi dve vrste navodnika ” i ’. Ako u komandama imate bilo koji drugi javiće vam grešku. Ne zaboravite da stavite navodnike i zareze tamo gde treba. To vrlo česte greške. Kada smo već kod grešaka, ukoliko ne znate zašto su se javile korisno je da ih kopirate u browser i potražite tamo šta je uzrok greške. Svi mi to radimo :)

SLAJD 8

Paketi

Paketi su biblioteke funkcija. Instalirate i pozivate samo one pakete koji vam trebaju – npr.

Instaliranje paketa pacman Instalacija se radi samo jednom na jednom računaru (osim ako ih ne obrišete).

Pozivanje (učitavanje) biblioteke

library(foreign) # ili 
require(foreign)
library(pacman)

Lakše je ovako

p_load(foreign)

Funkcija p_load iz paketa “pacman” proverava da li je paket (biblioteka) instaliran, ako nije instalira ga i učitava, a ako jeste samo ga učita. Prethodno mora biti učitana biblioteka pacman (samo jednom otkada pokrenete R)

SLAJD 9

Probajte…

library(Foreign)

Dobićete poruku: Error in library(Foreign) : there is no package called ‘Foreign’. Poruku ste dobili jer ste Foreign napisali sa velikim početnim slovom. R je osetljiv na velika i mala slova.

library(foreign)
# ovo je prošlo
# inače znak "#" na početku linije označava komentar (ne izvršava se)

SLAJD 10

Pomoć

Za pomoć u vezi sa nekom funkcijom kojoj znate ime ?funkcija ili help(funkcija) Ako tražite neke pojmove (koji nisu funkcije) onda ćete help dobiti sa help.search(“pojam koji me zanima”) Ili ??“pojam koji me zanima”

help(library)
?read.spss
??read.spss
help.search("chi square")

SLAJD 11

NAREDBE

R možete koristiti i kao kalkulator

2^3
sqrt(9)
2+2

Brojevi u uglastim zagradama [ ] su indeksi i označavaju poziciju elementa u nizu. Ovde se nizovi sastoje od jednog broja pa je logično da su to prvi elementi.

SLAJD 12

Ponovno pozivanje i ispravljanje naredbi

Strelicom na gore (na tastaturi) pozivate naredbu ponovo. Strelicom na levo dolazite do mesta koje želite da ispravite, brišete sa BACKSPACE (levo od kursora) ili sa DEL (desno od kursora), zatim ukucate novu vrednost i sa ENTER izvršite naredbu. Ako naredba nije kompletna pojaviće se “+”

2^
4

U gornjem odeljku to niste mogli videti jer su izvršena oba reda (naredbe). U konzolu unesite prvo samo 2^ i pritisnite ENTER. Pojaviće se znak + koji označava da je potrebno da kompletirate naredbu. Dodajte 4 i pritisnite ENTER. Ispisaće rezultat naredbe 2 na 4.

SLAJD 13

Radni direktorijum/folder

getwd()

…je naredba kojom saznajete koji vam je radni direktorijum (odnosno onaj u kojem R traži ili piše datoteke ako ne navedete punu putanju). Ako želite da ga promenite, koristite setwd(“željeni direktorijum”)

setwd("D:/OTSS(R)")

Napomena: Direktorijum (folder) mora postojati. Koristiti / umesto uobičajenog ”  “. Može i”\“. Za nastavak rada potrebno je da komandu setwd(”D:/OTSS(R)“) kopirate u konzolu i izvršite jer zbog specifičnog formata ove datoteke neće biti zapamćena izvan odeljka (chunk).

SLAJD 14

Pozivanje naredbi iz datoteke

Naredbe možete sačuvati u tekstualnoj datoteci, a iz nje ih možete pozvati komandom source

source("D:/OTSS(R)/naredbe.R")

Ili ako ste podesili radni direktorijum

source("naredbe.R")

Ako hoćete da vam rezultat bude ispisan na ekranu onda, dodajte argument “echo=TRUE”. Proverite u folderu “D:/OTSS(R) datoteku naredbe.R - možete je otvoriti sa Notepadom ili bilo kojim editorom teksta. Možete je otvoriti i u R-u. U njoj se nalaze komande 3*2 (množenje dva broja), sqrt(144) (kvadratni koren iz 144) i array(1:180, 180) (napravi niz brojeva od 1 do 180 sa 180 članova)

source("naredbe.R", echo=TRUE)

TRUE i FALSE se skraćeno mogu pisati T i F npr.

source("naredbe.R", echo=T)

Pomoć u vezi sa ovom funkcijom

?source

SLAJD 15

Ispis rezultata u datoteku

Ako želite da vam svi rezultati budu upisani u datoteku koristite naredbu sink(“naziv_datoteke”)

sink("izlaz.txt") 

Umesto “izlaz.txt” možete dati bilo koje ime. Datoteka će biti kreirana u radnom direktorijumu. Može i na drugom mestu, ali morate navesti punu putanju do tog mesta. Neće biti ispisa na ekranu. Ako želite da nastavite pisanje u datoteku u koju ste već pisali onda dodajte argument “append=TRUE”

sink("izlaz.txt", append=TRUE)
source("naredbe.R", echo=T)

Bez append=TRUE pregaziće staru datoteku.

Proverite da li u radnom folderu sad imate datoteku “izlaz.txt”. Vidite šta je u njoj.

Ipis u datoteku prekida se sa

sink()# nekada mora 2 puta da se pokrene
sink()

SLAJD 16

OBJEKTI

R radi sa objektima koje mi kreiramo ili se kreiraju u okviru rada pozvanih funkcija. Objekte kreiramo tako što im dodelimo neko ime i pridružimo određene vrednosti. Ako neku naredbu izvršimo i ne dodelimo joj ime, njen rezultat se gubi nakon ispisa na ekranu. Ako je smestimo u objekat ona ostaje sačuvana dok je ne uklonimo, a možemo je pozvati imenom objekta.

2*5
A<-2*5 #smeštamo rezultat množenja u objekat A
A #pozivamo objekat A
B=6 #smeštamo vrednost 6 u objekat B 
B
A*B #Izvršavamo operaciju sa objektima

Uklanjanje objekta (u ovom slučaju B)

remove(B) 

ili

rm(B) #ako ste pokrenuli prethodnu naredbu javiće grešku jer B više ne postoji

SLAJD 17

OBJEKTI…

ls() # ispisuje spisak svih objekata u okruženju (environment)

Uklanjanje više objekata (svih)

remove(list=ls()) 
# ili 
rm(list=ls())
ls()

SLAJD 18

PRIDRUŽIVANJE

Vrši se pomoću znakova “<-”, “->” ili komandom assign(), a može i sa “=”. Znak “<-” se u prozoru skripta i terminala najlakše može dobiti ako istovremeno pritisnete levi Alt i - sa numeričke tastature.

X<-(c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10.5))
X

Funkcija c kombinuje argumente (ono u zagradi) u vektor

assign("Y", c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10.5))
c(X, X)->XX

Na ovaj način kreirali smo dva ista vektora X i Y i vektor XX koji se sastoji od dva vektora X nastavljena jedan na drugi. Prikazaćemo ih

X
Y
XX

SLAJD 20

VEKTORI

Osnovni elementi u R-u. Indeksirani skupovi vrednosti istog tipa. Svaki element ima svoj indeks (lokaciju) pomoću kojega mu se može pristupiti (indeksi su označeni uglastim zagradama).

XX[11] #pozivamo 11. element vektora XX

Imaju svoj tip

SLAJD 21

VEKTORI - TIPOVI

Numerički Slovni (char). Koriste se kao faktori (npr kategorijalne grupišuće varijable), ali i za nazive varijabli, natpise na grafikonima… Na primer

imena<-c("pol", "starost", "sprema", "v1", "v2", "V3", "V4", "v5", "V6", "v7", "v8") #kreiramo slovni vektor nazvan "imena"
imena #ispisaćemo njegove vrednosti
names(X)<-imena #komandom names(X) dodelićemo ta imena elemntima vektora X
X #ispisaćemo da vidimo rezultat

Logički vektori

Nastaju evaluacijom logičkih uslova. Elementi su TRUE i FALSE.

Npr.

NV<-X>6 #napravićemo logički vektor NV i to takav da će vrednost TRUE dobiti elementi vektora X veći od 6
NV
cbind(X,NV)

Komanda cbind() spaja elemente u zagradi (moraju biti iste dužine) i prikazuje ih vertikalno. Sa rbind() dobijamo isto to, ali korizontalno. Probajte, ako želite

Indeksni vektori

Služe za pozivanje određenih elemenata drugih vektora i smeštaju se u uglaste zagrade. Npr.

Y<-X[1:10] 
# ili 
Y<-X[!is.na(X)] #Neka vektor Y budu samo one vrednosti X koje nisu nedostajuće NA

Funkcija is.na() testira da li su vrednosti u zagradi nedostajuće. Ako je u zagradi naveden vektor, onda se testira svaki element vektora i vraća vektor sa nedostajućim vrednostima. Ako ispred funkcije stavimo ! dobijamo njenu negaciju - vraća se vektor sa vrednostima koje nisu nedostajuće.

SLAJD 22

Računanje sa vektorima

Ako se dva ili više vektora pojavljuju u nekoј matematičkoj operaciji ona će biti ponovljena onoliko puta koliko najduži vektor ima elemenata (samo ako je dužina većeg deljiva bez ostatka dužinom kraćih vektora).

X^2 # recimo da je 2 vektor dužine 1 - skalar

Svaki element vektora X je kvadriran.

X*XX # ranije kreirani vektori

X je recikliran (pošto X ima 10 elemenata, a XX dvadeset, prvih 10 elemenata biće pomnoženo sa elementima vektora X, a zatim će drugih 10 elemenata biti pomnoženo opet istim vektorom X)

SLAJD 23

SVOJSTVA OBJEKATA

Objekti imaju tip i dužinu (između ostalog) Tipovi zavise od sadržaja objekta. Od tipa objekta zavisi šta možemo sa njime raditi. Tipovi su promenljivi. Dužina je takođe promenljiva

SLAJD 24

SVOJSTVA OBJEKATA

mode(X); length(X)

Funkcijom mode saznajemo tip, a length dužinu objekta (u ovom slučaju vektora). Znak ; omogućava vam da više komandi smestite u isti red.

X<-as.character(X[1:5]); mode(X); length(X)
X #ispisaćemo vektor X

Rezultati se ispisuju u posebnim redovima. Istovremeno smo skratili i promenili tip vektora. Komandom as.character promenili smo numerički vektor u slovni (elementi nisu brojevi već karakteri - to vidimo po navodnicima oko njih). Pomoću indeksnog vektora [1:5] rekli smo da X bude samo prvih 5 elemenata istog tog vektora X.

Produžićemo vektor dodajući mu na 15. poziciju cifru 6 (ali ne kao broj već kao karakter - uokvireno navodnicima)

X[15]<-"6"; length(X) 
X

Skratićemo vektor izbacujući nedostajuće vrednosti

X<-X[!is.na(X)] ; length(X) 
X

SLAJD 25

DALJE…

X+X

Gornja komanda se ne može izvršiti jer je vektor slovni (char). Ako izvršite naredbu dobićete grešku “Error in X + X : non-numeric argument to binary operator”. Zapamtite ovu situaciju i grešku jer vam se često može javiti ukoliko ne povedete računa o tipu podataka.

X<-as.numeric(X) # menjamo mu mode u numerički
X+X # i onda može da se sabira

SLAJD 26

Učitavanje datoteka

Podaci za R su tekstualnoj datoteci u kojoj su polja odeljena razmakom ili TABOM. Može i drugim separatorom, ali razmak je podrazumevani. Dobro je da prvi red sadržava nazive varijabli, a prva kolona redni broj slučaja. Ako to ne postoji R će dodeliti nazive i brojeve Komanda poput sledeće podaci<-read.table(file.choose(),header=T,sep=“) otvoriće klasični dijalog za izbor datoteke, i nakon njenog izbora učitaće je objekat”podaci” tipa data.frame (matrica podataka). Ovaj objekat postoji samo u memoriji ne i na disku. Na sledeći način učitavamo podatke bez otvaranja dijaloga.

podaci<-read.table("D:/OTSS(R)/test2.txt", header=TRUE, sep="", quote = "\"'", dec = ".")

Argument header=TRUE znači da su nazivi varijabli u prvom redu datoteke, dec=“.” da su decimale odeljene tačkom, sep=“” da su polja odeljena praznim mestom, a quote = “"’” da su tekstualne varijable ograničene dvostrukim ili jednostrukim navodnicima.

names(podaci) # nazivi kolona matrice podataka da proverite da li ste učitali dobre podatke
str(podaci) # naredba kojom se proverava struktura objekta (dobijete nazive kolona, broj opservacija/ispitanika, broj varijabli i prvih 10 vrednosti)
head(podaci)

Učitavanje podataka tipa Coma Separated Values

podaci2<-read.csv("rezultati.csv", header=TRUE, sep=";", quote="\"'", dec = ".")
podaci2

sep može biti i “,” u zavisnosti od podešavanja kodne stranice operativnog sistema.

Učitavanje podataka tipa EXCEL

Postoji paket za čitanje podataka iz excela pod nazivom “xlsx”

p_load(xlsx)
podaciXY = read.xlsx("rezultati.xls", sheetIndex=1, rowIndex=NULL, colIndex=NULL)
podaciXY

sheetIndex je broj lista (sheet) iz excel datoteke, rowIndex i colIndex označavaju redove i kolone koje želimo da uvezemo. Ako ostavimo NULL to znači da želimo da uvezemo sve.

Problem sa domaćim karakterima se donekle može rešiti opcijom encoding=“UTF-8”

podaciXY = read.xlsx("rezultati.xls", sheetIndex=1, rowIndex=NULL, colIndex=NULL, encoding="UTF-8")
podaciXY
?read.xlsx #možete pogledati i druge opcije

Pisanje u excel datoteku

write.xlsx(podaciXY, "podaciXY.xlsx", col.names=TRUE, row.names=TRUE)

Za excel datoteke postoji i paket “readxl”

p_load(readxl)
podaciXY = read_excel("rezultati.xls", sheet=1)
podaciXY
?read_excel

SLAJD 28

data.frame

Korisno je učitati podatke kao objekat klase data.frame. Jednostavno, samo funkciju za učitavanje staviti u funkciju data.frame(), npr…

podaciXY = data.frame(read_excel("rezultati.xls", sheet=1))

Funkcija read.xlsx to radi po defaultu

SLAJD 29

Učitavanje datoteka

Podatke zatim možete pregledati i uređivati sa

fix(podaci2)
edit(podaci2)
head(podaci2, 10) # ispis prvih 10 redova
tail(podaci2, 5) # ispis poslednjih 5 redova

Prilikom učitavanja svakoj koloni se dodeljuje tip u zavisnosti od podataka koje sadrže (obično to ispadne kako treba…) Pojedinačnoj varijabli (vektoru) u podacima pristupate navođenjem naziva objekta u kom se nalazi praćenim znakom $ i nazivom vektora npr.

podaci2$INDEX
mode(podaci2$INDEX)

Ili preko indeksa (broja) kolone

podaci2[1] #numerički indeks, prva kolona
podaci2[1:3] #numerički indeks, prve tri kolone
podaci2[c("INDEX","FORMA", "pit1")] #imena kao indeks

Na taj način možete iz matrice podataka izdvojiti varijable za analizu, na primer… Možete ih kopirati i u novi objekat…

SLAJD 30

Pisanje u datoteke

Ako hoćete da u matricu podataka (data.frame) dodate neku varijablu koju ste izračunali, morate je referisati isto kao kad je čitate

podaci2$SUMA<-rowSums(podaci2[3:42], na.rm=FALSE) 
podaci2$SUMA

Funkcija rowSums sabira redove u matrici podataka. Svi podaci moraju biti numerički. Argument na.rm=FALSE rezultira nedostajućim podacima (NA) ako je bar jedan sabirak NA. na.rm=TRUE rezultira zbirom i u takvoj situaciji.

Pisanje na disk

U CSV, sa separatorom ; , bez naziva redova, sa nazivima kolona, i duplim navodnicima za tekstualne varijable

write.table(podaci2, file = "podaci2.csv", sep = ";", row.names=FALSE, col.names = TRUE, qmethod = "double")

U TXT, sa TAB separatorom, bez naziva redova, sa nazivima kolona, bez navodnika za tekstualne varijable

write.table(podaci2, file = "podaci2.txt", sep = "\t", row.names=FALSE, col.names = TRUE, quote = FALSE)

SLAJD 31

Brisanje varijable iz matrice podataka

Prvo ćemo kreirati novu varijablu

podaci2$BEZVEZE<-rowSums(podaci2[3:42], na.rm=TRUE)

Sabrali smo po redovima varijable od 3 do 43. Sa fix(podaci2) ili View(podaci2) možete videti varijablu BEZVEZE koju ste kreirali na kraju matrice. Brisanje varijable BEZVEZE

podaci2$BEZVEZE<- NULL

Sa fix(podaci2) ili View(podaci2) možete videti da varijable BEZVEZE više nema.

SLAJD 32

Sortiranje

Koristimo funkciju order()

podaci_s=podaci2[order(podaci2$FORMA),]
podaci_s

Funkcija order(podaci2$FORMA) kreira vektor rednih brojeva slučajeva po redosledu na varijabli FORMA (ukoliko želite pokrenite je samostalno da vidite rezultat). Taj vektor se smešta u uglaste zagrade posle naziva objekta koji hoćemo da sortiramo (podaci2). Indeksi matrice podataka u zagradama imaju dva dela [ , ]. Oni pre zareza odnose se na redove, a oni posle na kolone. Ako ne stavimo zarez onda se podrazumeva da se odnose na kolone. Pošto sortiramo redove stavili smo zarez posle indeksnog vektora.

Napravili smo novi data.frame podaci_s koji je jednak data.frameu podaci2 sortiranom po varijabli FORMA (po rastućem redosledu).

Ovako sortiramo po dve varijable

podaci_s=podaci2[order(podaci2$FORMA, podaci2$INDEX),]
podaci_s

Po varijabli FORMA i po varijabli INDEX.

Promenićemo sortiranje za varijablu INDEX u opadajući redosled

podaci_s=podaci2[order(podaci2$FORMA, -rank(podaci2$INDEX)),]
podaci_s

Za FAKTORE se mora dodati -rank ispred naziva varijable u zagradama. Kod numeričkih dovoljan je - ispred imena varijable.

SLAJD 33

Referisanje elemenata tabela

Kolonama tabela se može pristupiti preko imena (ako ih imaju) ili preko numeričkih indeksa. Redovima se pristupa preko numeričkih indeksa.

podaci2[c(1:3)] # je isto što i 
podaci2[1:3] 

Prve tri kolone matrice podaci2.

Drugih 10 redova i prve tri kolone

podaci2[10:20, 1:3] 

Drugih 10 redova i prve tri kolone + 5. i 7. kolona

podaci2[10:20, c(1:3, 5, 7)]

Kada kolone ili redovi nisu jedan do drugog mora se napraviti vektor brojeva koristeći c(). Izvršite c(1:3, 5, 7) da vidite kako izgleda taj vektor. Podsećam, u uglastim zagradama pre zareza su indeksi redova, a posle zareza indeksi kolona. Ako izostavite indeks reda podrazumeva se da želite da ih uključite sve. Isto važi i za kolone.

SLAJD 34

Osnovni operatori u R-u

Aritmetički: +, -, /, *, ^

16^(1/2)# kvadratni koren – može i 
sqrt(16)
16^(1/4) # 4. koren iz 16
16^(-1) # recipročna vrednost - isto što i 1/16

Operatori odnosa (poređenja)

< (manje)

<= (nije veće)

>= (nije manje)

== (jednako) Nije greška, ako proveravate jednakost onda idu 2 znaka ==. Jedan znak = ekvivalentan je <-

!= (nije jednako)

Logički operatori

& (AND, i), | (OR, ili)

SLAJD 35

Još malo referisanja elemenata tabela

podaci2["pit2"] #naziv varijable kao indeks
podaci2[c("pit2", "pit5")]  #slovni vektor naziva varijabli kao indeks 

Ispitanici koji imaju podatak na varijabli pit2

subset(podaci2, podaci2$pit2!="NA")

Funkcijom subset() izdvojili smo sve kod kojih vrednost na varijabli pit2 nije jednaka NA (nedostajuća).

subset(podaci2, select=1:3)

Funkcijom subset izdvojili smo kolone od 1 do 3.

subset(podaci2, select=c(1:3, 5))

…kolone 1-3 i 5

subset(podaci2,  podaci2$pit3==3, select=c(1:3, 5))

…ispitanici koji su dali odgovor 3 na varijabli pit3, kolone 1-3 i 5

SLAJD 36

Selekcija varijabli i ispitanika

podaci2$SUMA #da pogledamo vrednosti na ovoj varijabli

Odabraćemo samo one ispitanike koji imaju podatak na varijabli SUMA (i smestićemo u novi data.frame)

podaci2a<-podaci2[is.na(podaci2$SUMA)!= TRUE,]
podaci2a$SUMA #da se uverimo da nema nedostajućih

Funkcija is.na() testira da li je nešto nedostajuća vrednost. U narednoj naredbi postoje dva uslova: 1. da je ispitanik odgovorio na pit1 i da na SUMA ima nedostajući podatak. Sve kolone takvih ispitanika kopirane su u objekat podaci5 (klase data.frame). Da vidite objekat (npr. podaci5, samo u konzoli ukucajte njegovo ime i pritisnite ENTER)

podaci5<-podaci2[!is.na(podaci2$pit1)==TRUE & is.na(podaci2$SUMA)==TRUE,]
podaci5

Svi sa skorom većim od 95 (sve kolone u objekat podaci2b)

podaci2b<-podaci2a[podaci2a$SUMA>95,]
podaci2b

Isto kao prethodno, ali su izabrane samo kolone INDEX i SUMA i kopiraju se u objekat podaci2c

podaci2c<-podaci2a[!podaci2a$SUMA>95,c("INDEX", "SUMA")]
podaci2c

SLAJD 37

ATTACH

Komanda attach(podaci2) smešta tabelu sa podacima na putanju pretrage R-a pa objektima koji se nalaze u njoj možemo pristupiti preko imena (bez “podaci2$”)

attach(podaci2)
INDEX #pozivanje varijable INDEX iz objekta podaci2
mode(INDEX)
SUMA

Vodite računa, ako pozovete varijablu “INDEX” bez naziva skupa podataka onda će je pozvati iz skupa podaci2, odnosno poslednjeg kojeg ste pridružili sa ATTACH

attach(podaci2a)
find("INDEX")  # vam javlja  odakle pozivate varijablu INDEX (prvi navedeni objekat)
detach(podaci2a) # uklanja "podaci2a" sa putanje
find("INDEX")  # vam javlja  odakle pozivate varijablu INDEX

SLAJD 38

UVOZ DATOTEKA

Paket foreign

library(foreign)

Ova biblioteka vam omogućava uvoz iz Minitab, S, SAS, SPSS, Stata, Systat i dBase formata. Funkcija za SPSS .sav format je read.spss

podaci3<-as.data.frame(read.spss("test4.sav", use.value.labels = TRUE))
podaci3

Argument use.value.labels = TRUE vam omogućava da uvezete labele za kategorijalne varijable (faktore)

SLAJD 39

REKODIRANJE

Koristićemo paket car

p_load(car)
podaci2$SUMA2<-Recode(podaci2$SUMA, "NA=0") # NA u 0 u novu varijablu SUMA2
provera<-subset(podaci2, select=c("SUMA", "SUMA2")) # izdvajanje dve varijable u novi objekat PROVERA
provera

Rekodiranje više vrednosti istovremeno (“reflektovanje” + NA u 0) u istu varijablu

podaci2$pit3<-Recode(podaci2$pit3, "NA=0; 1=5; 2=4; 4=2; 5=1")

Sažimanje u istu varijablu (više vrednosti u jednu + promena tipa u char(), jer smo zadali tekstualne vrednosti)

podaci2$pit3<-Recode(podaci2$pit3, "c(0, 1, 2)='nisko'; c(3, 4, 5)='visoko'") # 5 u 2 kategorije
podaci2$pit3

SLAJD 40

FAKTORI

library(foreign)
podaci4<-as.data.frame(read.spss("sredjivanje.sav", use.value.labels = TRUE)) #učitavanje podataka
table(podaci4$POL)  # kreiranje tabele vrednosti varijable pol
is.factor(podaci4$POL) # provera da li je varijabla faktor (nije - FALSE)
podaci4$POL<-factor(podaci4$POL, levels=c(1, 2), labels=c("muski", "zenski")) # pretvaranje u faktor sa nivoima muški i ženski. Navedeni nivoi (levels) i labele (labels).
podaci4$POL
is.factor(podaci4$POL)
table(podaci4$POL)
is.factor(podaci4$STA_KAT) # ponovo na varijabli STA_KAT (starost karatista)
table(podaci4$STA_KAT)
podaci4$STA_KAT<-factor(podaci4$STA_KAT, levels=c(1, 2, 3, 4), labels=c("nade", "kadeti", "juniori", "seniori"))
is.factor(podaci4$STA_KAT)
table(podaci4$STA_KAT)

SLAJD 41

DESKRIPTIVNA

mean(podaci4$OCENA, trim=0.05, na.rm=TRUE) 

Aritmetička sredina. Trim uklanja % najnižih i najviših vrednosti pre računanja AS, na.rm=TRUE izbacuje one sa nedostajućim vrednostima i računa AS. Ako je na.rm=FALSE, ako postoje oni sa nedostajućim vrednostima i AS je NA. Argument na.rm važi za sve sledeće funkcije osim za summary (radi na kompletnim podacima)

sd(podaci4$OCENA, na.rm=TRUE) #standardna devijacija
var(podaci4$OCENA) #varijansa
sd(podaci4$OCENA)^2 #rezultate većine funkcija možemo koristiti u daljem računu (ovo je samo primer - kada kvadriramo standardnu devijaciju dobijemo varijansu)
min(podaci4$OCENA) #minimum
max(podaci4$OCENA) #maximum
summary(podaci4$OCENA)

SLAJD 42

TABELE

table(podaci4$POL)
table(podaci4$STA_KAT)
table(podaci2$SUMA)
table(podaci2$SUMA, useNA="no") # useNA="no" - zanemaruje nedostajuće

Argument useNA: useNA=“ifany” - prikazuje se kolona za NA samo ako ih ima useNA=“always” - prikazuje se kolona NA uvek

table(podaci2$SUMA, useNA="ifany")
table(podaci2$SUMA, useNA="always")
table(podaci2$SUMA2, useNA="always")

Argument exclude isključuje navedene kategorije. Ako ih ima više navode se u slovnom vektoru, nivoi se stavljaju pod navodnicima, odvojeni zarezom. Npr. exclude=c(“kadeti”, “nade”)

table(podaci4$STA_KAT, exclude=c("kadeti"))

Tabele kontingencije

table(podaci4$POL, podaci4$STA_KAT)# dvosmerna 
table(podaci4$POL, podaci4$STA_KAT, podaci4$OCENA)# trosmerna

Prethodno se može kombinovati sa exclude, useNA…

SLAJD 43

TAPPLY

Primenjuje navedenu funkciju po nivoima faktora. Prvo se navodi željena varijabla, zatim faktor (grupišuća) i na kraju željena funkcija. Npr. u prvoj komandi analiziramo varijablu OCENA, po polu, a dobićemo aritmetičku sredinu. Argumenti željene funkcije mogu biti navedeni posle same funkcije, odvojeni zarezom (kao u drugoj komandi).

tapply(podaci4$OCENA, podaci4$POL, mean)# drugi argument je faktor
tapply(podaci4$OCENA, podaci4$POL, mean, trim=0.05)
tapply(podaci4$OCENA, podaci4$POL, sd)
tapply(podaci4$OCENA, podaci4$POL, var)
tapply(podaci4$OCENA, podaci4$POL, sd)^2
tapply(podaci4$OCENA, podaci4$POL, min)
tapply(podaci4$OCENA, podaci4$POL, max)
tapply(podaci4$OCENA, podaci4$POL, summary)

SLAJD 44

t-test za nezavisne uzorke

Prvo ćemo pozvati biblioteku car u kojoj se može naći funkcija za Leveneov test homogenosti varijansi (da bismo znali koji t test da primenimo).

library(car) # u ovoj biblioteci se nalazi funkcija
leveneTest(OCENA ~ POL, data=podaci4)# Leveneov test jednakosti varijansi

Pošto su varijanse homogene primenićemo varijantu za jednake varijanse

t.test(OCENA ~ POL, data=podaci4, var.equal=TRUE)

Ako varijanse nisu homogene oda se koristi argument var.equal=FALSE inače TRUE. Inače definisanje modela ZAVISNA ~ NEZAVISNA je uobičajeno za većinu (ako ne i sve) linearne modele u R-u.

t-test za zavisne uzorke

Dovoljno je vrednost argumenta repeated postaviti na TRUE

t.test(podaci4$T1_PIT1, podaci4$T1_PIT2, data=podaci4, repeated=TRUE)

Kod zavisnih uzoraka, merenja se navode jedno za drugim.

SLAJD 45

Hi-kvadrat test

Funkcija chisq.test kao argumente uzima dve varijable ili gotovu tabelu kontingencije kreiranu na osnovu njih.

chisq.test(podaci4$POL, podaci4$STA_KAT)  # ili
chisq.test(table(podaci4[1:2])) # drugačije indeksiranje varijabli (preko broja kolone) ili 
tabelica=table(podaci4[1:2])#prvo kreiramo tabelu
chisq.test(tabelica) #a zatim tabelu uvrstimo kao argument u funkciju

Rezultat ove funkcije (a i svih ostalih) možemo smestiti u objekat koji kasnije možemo pozivati. Dodati su argumenti correct koji označava da li je potrebno raditi Yatesovu korekciju (TRUE) ili ne (FALSE), simulate.p.value da li je potrebno raditi MonteCarlo simulacije ili ne, i B koliko simuliranih uzoraka je potrebno uraditi.

hi<-chisq.test(table(podaci4$POL, podaci4$STA_KAT), correct = FALSE, simulate.p.value = TRUE, B = 2000)
hi #pozivanjem objekta ispisujete rezultate
str(hi) # da vidite strukturu objekta hi

Kada pogledate strukturu vidite elemente objekta (ispred njih stoji znak $). Kasnije možete pozivati elemente tog objekta (hi) pojedinačno, smeštati ih u nove objekte, koristiti u daljim analizama… Ovo važi za sve objekte (skoro), ne samo one nastale na osnovu funkcije chi.square

hi$observed # prikazivanje opaženih frekvencija
hi$expected # očekivanih
hi$residuals # reziduala
hi$residuals[1] # reziduala samo za muške
hi$residuals[2] # reziduala samo za ženske
hi$stdres # standardizovanih reziduala
hi$statistic # vrednost hi kvadrata
hi$p.value # značajnost

SLAJD 46

chisq.test grafikoni

Stacked bar plot

plot(podaci4$POL, podaci4$STA_KAT)

Dodate su labele x ose (xlab), y ose (ylab) i naslov grafikona (main). Tekst mora ići pod navodnicima “” ili ’’. Boje su definisane argumentom col i navode se kao numerički vektor col=c(1, 3, 7, 8). Promenite brojeve i promenićete boje. Mogu se navoditi i kao tekstualni vektor. Npr. c(“red”, “dark blue”, “light green”, “orange”)

plot(podaci4$POL, podaci4$STA_KAT, xlab="pol", ylab="starost", col=c(1, 3, 7, 8), main= "starost karatista po polu")
plot(podaci4$POL, podaci4$STA_KAT, xlab="pol", ylab="starost", col=c("red", "dark blue", "light green", "orange"), main= "starost karatista po polu")

Ako navedete nepostojeću boju ili napravite grešku u kucanju dobićete sledeću poruku: Error in rect(xleft, ybottom, xright, ytop, col = col, …) : invalid color name ‘naziv boje kod koje ste pogrešili’

SLAJD 47

STANDARDIZACIJA

Standardizaciju varijable možete odraditi peške po sledećoj formuli (x-Xbar)/SD

podaci4$ZOCENA<-(podaci4$OCENA - mean(podaci4$OCENA))/sd(podaci4$OCENA) 
podaci4$ZOCENA

ili zbog jednostavnosti smestiti željenu varijablu u objekat x pa onda izvršiti standardizaciju

x<-podaci4$OCENA
podaci4$ZOCENA<-(x - mean(x))/sd(x)
podaci4$ZOCENA

…a u stvari postoji i funkcija koja to radi

podaci4$ZOCENA2<-scale(podaci4$OCENA, center=TRUE, scale=TRUE)
mean(podaci4$ZOCENA2)#AS
sd(podaci4$ZOCENA2)#SD

Ako je center=TRUE onda se x umanjuje za AS (radi se tzv. CENTRIRANJE). Praktično se AS postavlja na 0 (u stvari najčešće jako blisko 0). A ako je scale=TRUE onda se x-Xbar deli SD, ako ne - ništa. Ako je TRUE, onda se radi standardizacija (pod uslovom da je i center=TRUE) Argument center (za koliko umanjiti vrednost x-Xbar) i scale (sa čim podeliti) mogu biti numerički vektori ako se transformiše više varijabli. Može se transformisati i više varijabli odjednom

stand3_5 <-scale(podaci4[3:5], center=TRUE, scale=TRUE)
stand3_5

Gornjom komandom su od 3. do 5. varijable iz matrice podataka podaci4 standardizovani i smešteni u novi objekat klase data.frame pod nazivom stand3_5.

Test normalnosti

Koristimo Shapiro-Wilk test

shapiro.test(podaci4$OCENA)
hist(podaci4$OCENA)

Ako želimo po grupama

tapply(podaci4$OCENA, podaci4$POL, shapiro.test)

NORMALIZACIJA (navodno)

Na internetu se često kaže da se normalizacija može obaviti pomoću funkcije scale, na sledeći način

podaci4$NOCENA <-scale(podaci4$OCENA, center=TRUE, scale=FALSE) # ipak samo CENTRIRANJE
podaci4$NOCENA
hist(podaci4$NOCENA)

SLAJD 48

Normalizacija

Peške… Rangirati skorove i pretvoriti u percentile (u stvari nam ne trebaju procenti već proporcije). Zatim naći z vrednost kojoj odgovara određeni procenat ispod krive normalne raspodele. Prvo izračunamo rangove

podaci2$RANG<-rank(podaci2$SUMA, na.last = "keep", ties.method = "min")
podaci2$RANG

Jako je bitno da na.last bude “keep”. Na taj način slučajevi sa nedostajućim vrednostima na željenoj varijabli dobijaju nedostajući rang (NA) Zatim izračunamo percentilni rang. Podelimo rang iz gornje komande dužinom varijable (brojem slučajeva bez nedostajućih)

podaci2$PERC<-(rank(podaci2$SUMA, na.last = "keep", ties.method = "min"))/length(is.na(podaci2$SUMA)==FALSE) 
podaci2$PERC

I na kraju, proporcije pretvorimo u z skorove koristeći funkciju qnorm koja traži z vrednost koja odgovara određenoj proporciji ispod krive normalne raspodele

podaci2$NORM<-qnorm((rank(podaci2$SUMA, na.last = "keep", ties.method = "min"))/length(is.na(podaci2$SUMA)==FALSE)) 
podaci2$NORM

Primetite kako smo prethodne komande ugnjezdili jednu u drugu: qnorm((rank()/length)) Uradićemo i standardizaciju radi poređenja

podaci2$Z<-scale(podaci2$SUMA, center=TRUE, scale=TRUE)

SLAJD 49

NORMALIZACIJA

Uporedni grafikon sirove varijable, normalizovane i standardizovane

par(mfrow=c(1,3)); hist(podaci2$SUMA, main="sirovi", xlab=NULL, col=2); hist(podaci2$NORM, main="normalizovani", xlab=NULL, col=3); hist(podaci2$Z, main="z skorovi", xlab=NULL, col=4)

Crtamo grafikone da ih uporedimo. Vidimo da “najnormalnije” izgleda onaj koji smo dobili procedurom normalizacije koju smo napisali. Komande za crtanje su date u jednom redu, odeljene sa ;. Histograme crtamo funkcijom hist(). Naslove i boje smo definisali argumentima main, xlab, i col. Funkcija par definiše crtanje više grafikona odjednom. Tačnije to radi opcija mfrow koja prostor za crtanje grafikona deviniše kao matricu. c(1:3) znači da ćemo prostor za crtanje podeliti u 1 red, 3 kolone

Da biste prostor za crtanje grafikona vratili na normalan iskoristite funkcije

par(mfrow=c(1,1)) #ili
dev.off() 

par(mfrow=c(1,1)) podešava prostor za crtanje na 1 red i 1 kolonu, a dev.off() uklanja postojeći prostor za crtanje.

Proverićemo normalnost normalizovane varijable Shapiro-Wilk testom i ispisati njenu aritmetičku sredinu i standardnu devijaciju

shapiro.test(podaci2$NORM); mean(podaci2$NORM, na.rm=T); sd(podaci2$NORM,na.rm=T)

Normalna je (jedva)

SLAJD 50

NORMALIZACIJA

Može se smestiti u funkciju

normalizuj <- function(nenormalna) {
qnorm((rank(nenormalna, na.last = "keep", ties.method = "min"))/length(is.na(nenormalna)==FALSE))
}

Napravili smo objekat koji se zove normalizuj. On je klase “function” i uzima jedan argument “nenormalna”, a to je varijabla koju je potrebno normalizovati. Ono što će funkcija raditi nalazi se između vitičastih zagrada {} Dakle funkciju definišemo sa ime<-function(argumenti koje uzima) {komande koje izvršava}. Tako definisanu funkciju je potrebno jednom pokrenuti, a kasnije je pozivamo njenim imenom i navođenjem argumenata. Na primer

normalizuj(podaci2$SUMA) 
# odnosno
podaci2$NORM<-normalizuj(podaci2$SUMA)

Grafikoni ponovo

par(mfrow=c(1,3)); hist(podaci2$SUMA, main="sirovi", xlab=NULL, col=2); hist(podaci2$NORM, main="normalizovani", xlab=NULL, col=3); hist(podaci2$Z, main="z skorovi", xlab=NULL, col=4); 
par(mfrow=c(1,1)) 

SLAJD 51

ANOVA

Može se izvršiti na više načina i koristiti više funkcija. Na primer funkcija lm (linearni modeli)

analiza.var<-lm(OCENA ~ STA_KAT, data=podaci4) 

Ovo je jednosmerna analiza varijanse i format definisanja je: ZAVISNA ~ NEZAVISNA. Nezavisna mora biti faktor, a zavisna numerička. Argument data je obavezan i predstavlja matricu podataka koju koristite (ako su varijable deo data.frame objekta, a ne moraju biti - mogu biti i vektori). lm daje izlaz kao regresija (što je isti model).

summary(analiza.var)
analiza.var

Intercept je AS prve kategorije, a AS ostalih kategorija su intercept + parametar kategorije (4.55172+0.06567…) Proverite

tapply(podaci4$OCENA, podaci4$STA_KAT, mean)

Ili druga varijanta upotrebom funkcije aov

analiza.var<-aov(OCENA ~ STA_KAT, data=podaci4)
summary(analiza.var)
anova(analiza.var)

Višesmerna ANOVA

analiza.var2<-lm(OCENA ~ STA_KAT + POL + (POL*STA_KAT), data=podaci4)
summary(analiza.var2)
anova(analiza.var2)

Format: ZAVISNA ~ GLAVNI_EFEKAT1 + GLAVNI_EFEKAT2 + INTERAKCIJE Interakcija: Ako definišemo na sledeći način: GLAVNI_EFEKAT1 * GLAVNI_EFEKAT2 dobijaju se i sve interakcije i glavni efekti. U gornjem primeru to bi bilo

lm(OCENA ~ POL*STA_KAT, data=podaci4)

Ako definišemo na sledeći način: GLAVNI_EFEKAT1 : GLAVNI_EFEKAT2 dobijaju se samo interakcije, ali ne i glavni efekti. U gornjem primeru to bi bilo: lm(OCENA ~ POL:STA_KAT, data=podaci4). Tada se glavni efekti moraju eksplicitno zadati, a to znači da ne morate u model staviti sve glavne efekte. Na primer

lm(OCENA ~ POL+(POL:STA_KAT), data=podaci4)

SLAJD 52

Višesmerna ANOVA 2

Isto važi i za aov funkciju

analiza.var2<-aov(OCENA ~ STA_KAT + POL + (POL*STA_KAT), data=podaci4)
summary(analiza.var2)
analiza.var3<-aov(OCENA ~ POL*STA_KAT, data=podaci4)
# Operator * traži glavne efekte i interakcije
summary(analiza.var3)
analiza.var4<-aov(OCENA ~ POL:STA_KAT, data=podaci4)
# Operator : traži samo interakciju
summary(analiza.var4)
anova(analiza.var4)

Post-hoc testovi

TukeyHSD(analiza.var4)

Grafik

with(podaci4, interaction.plot(STA_KAT, POL, OCENA, col=2:3, lwd=2))

with služi da skratimo kucanje Moglo bi i interaction.plot(STA_KAT, POL, OCENA, ylim=c(4.4, 4.9), col=2:3, lwd=2), ali bi pre svake varijable trebalo kucati podaci4$ - ovako u with(podaci4, ) umetnemo funkciju i R zna da sve treba raditi na objektu podaci4 Argument lwd definiše debljinu linije (menjajte vrednosti da vidite efekat).

SLAJD 53

ANOVA – lm

Još malo post-hoc testova Prvo fitujemo model

analiza.var5<-lm(OCENA ~ STA_KAT + POL + (POL*STA_KAT), data=podaci4)
summary(analiza.var5)
anova(analiza.var5, test="F")

Zatim instaliramo i učitamo paket emmeans, i odradimo post.hoc testove. Prvi argument je objekat u kojem se nalazi fitovan model ANOVA. Zatim definišemo koja poređenja želimo i kojim metodom.

p_load(emmeans)
emmeans(analiza.var5, pairwise~STA_KAT*POL, adjust="scheffe") # primer je za sve efekte
emmeans(analiza.var5, pairwise~STA_KAT:POL, adjust="scheffe") # samo za interakciju
emmeans(analiza.var5, pairwise~STA_KAT, adjust="tukey") # ovde je za glavni efekat -  a korišćen je tukey

SLAJD 54

KORELACIJE

Funkcijom cor možemo dobiti matricu korelacija više varijabli

cor(podaci4[3:8]) # matrica korelacija
cor(podaci4$T1_PIT1, podaci4$T1_PIT3) # dve varijable
with(podaci4, cor(T1_PIT2, T1_PIT3, method="pearson")) #skraćeno pisanje

Method može biti i “spearman” i “kendall” Funkcijom cor.test dobijamo i značajnost korelacija, ali može se računati samo za dve varijable

cor.test(podaci4$T1_PIT1, podaci4$T1_PIT3) # dve varijable

Funkcija pod nazivom corr.test (ima jedno r više nego prethodna funkcija) iz paketa psych može to i na matricama

p_load(psych)
corr.test(podaci4[3:8])
print(corr.test(podaci4[3:8]), short = FALSE)

SLAJD 55

GRAFIKONI

hist(podaci4$OCENA)
hist(podaci2$SUMA)

Boja + naslov grafikona + labela X ose

hist(podaci2$SUMA, col=3, main="UKUPAN SKOR", xlab="SUMA")

Sve to + Y osa

hist(podaci2$SUMA, col=3, main="UKUPAN SKOR", xlab="SUMA", ylab="frekvencija") 

Boxplot i stem&leaf

boxplot(podaci2$SUMA)
stem(podaci2$SUMA)

Probajte da dodate nazive osa i promenite boju na boxplotu

Kada zadate komandu plot za dve varijable od kojih je prva faktor a druga numerička, dobićete dva boxplota

plot(podaci4$POL, podaci4$OCENA)

Ako obrnete redosled varijabli dobićete scatter dijagram

plot(podaci4$OCENA, podaci4$POL) 

Scattter je loš pošto je pol binarna, a ocena politomna sa max. 5 nivoa

plot(podaci4$OCENA, podaci4$POL, yaxp=c(1, 2, 1), xaxp=c(1,5,4))

yaxp i xaxp određuju minimum, maksimum i broj nivoa (tim redom) skala X i Y

Redosled varijabli u funkciji plot određuje tip grafikona, ako je X faktor onda dobijamo boxplotove, u protivnom scatter.

Ako se ovako definiše, redosled nije bitan (dobijamo boxplot).

plot(podaci4$OCENA ~ podaci4$POL)

SLAJD 56

ČUVANJE GRAFIKA U DATOTEKU

Za početak, kreiraćemo dve varijable (X i Y) izvučene iz normalne raspodele

X=rnorm(100, 30, 8); Y=rnorm(100, 25, 8) # kreiranje dve varijable iz normalne raspodele

Svaka sa po 100 ispitanika (prvi argument), X sa AS 30 (drugi argument) i SD 8 (treći argument), a Y sa AS 25 i SD 8 Funkcija rnorm pravi slučajnu varijablu iz normalne distribucije sa argumentima (n, AS i SD) Crtanje u png fajl

Dajemo naziv datoteke, širinu i visinu u pixelima. Zapisujemo u PNG - ne pojavljuje se prikaz pojavljuje se datoteka u radnom direktorijumu (pogledajte).

Crtanje u TIF fajl

tiff(filename = "skater1.tiff", width = 800, height = 800);plot(X, Y); 
dev.off()

Zapisujemo u TIFF - ne pojavljuje se prikaz KVALITET NIJE ZA ŠTAMPU

SLAJD 57

TIF 300*300

Argumentom res definišemo rezoluciju slike. 300 je dovoljno za štampu. Argumentom units definišemo merne jedinice u kojim su definisani visina i širina. cex.main, cex.lab i cex.axis definišu veličinu slova (glavnog naslova, labela i osa). 1 je normalna veličina. Vrednosti preko 1 znače uvećanje fonta, a manje od 1 umanjenje.

tiff(filename = "skater300.tif", width = 9, height = 9,units = "cm", pointsize = 6, bg = "white", res = 300, restoreConsole = TRUE); plot(X, Y, col=3, lwd = 1, lty=2, xlab = "varijabla X", ylab = "varijabla Y", main="skater 300", cex.main = 1.5, cex.lab = 1.3, cex.axis = 1.1); 
dev.off()

Sve komande moraju biti u jednoj liniji odvojene sa “;” ili u odvojenim linijama ali izvršene istovremeno (istovremeno sa dev.off()) Bitno je da res bude bar 300

SLAJD 58

Spajanje podataka (merge)

Spajanje dve tabele po ključnim varijablama. Učitaćemo dve matrice podataka

levi<-read.table("imena.txt", header=TRUE, sep=",", quote = "\"'", dec = ".")
desni<-read.table("odgovori2.txt", header=TRUE, sep=",", quote = "\"'", dec = ".")

Ove dve tabele dele varijablu INDEX koja identifikuje slučajeve i pomoću koje ih možemo spojiti koristeći komandu merge.

sve<-merge(levi, desni, by="INDEX")# spojiće dva seta podataka, ali samo one slučajeve koji se nalaze u obe matrice
sve
sve=merge(levi, desni, all=TRUE, by="INDEX")# spojiće dva seta podataka, a u podacima će se nalaziti i svi oni iz oba seta koji nemaju podatke u oba seta (nalaze se samo u jednoj od matrica) 
sve

Svi iz data.framea levi ulaze, čak i ako nemaju para u data.frame desni. Oni iz data.frame desni ulaze samo ako imaju para u levi.

sve<-merge(levi, desni, all.x=TRUE, by="INDEX")
sve

Obrnuta situacija

sve<-merge(levi, desni, all.y=TRUE, by="INDEX")
sve

SLAJD 59

LDF <- WDF

Promena iz Wide Data Formata u Long Data Format i obrnuto. Kada imamo ponovljena merenja, podaci mogu biti zapisani u Wide data formatu (svako merenje je posebna varijabla) ili u Long data formatu (sva merenja su u jednoj varijabli, ali postoji varijabla koja identifikuje merenje). Ovo je bitno zato što smo navikli da podatke zapisujemo u Wide data formatu, a mnoge analize sa ponovljenim merenjima u R-u zahtevaju Long data format. Učitaćemo podatke u Wide formatu

podaci.wide <- read.table(header=T, text='
ispitanik pol merenje1 merenje2 merenje3
1    M      7.9   12.3     10.7
2    Z      6.3   10.6     11.1
3    Z      9.5   13.1     13.8
4    M     11.5   13.4     12.9
')

Kolona sa subjektima (identifikacijom subjekta) mora biti tipa “factor”

podaci.wide$ispitanik <- factor(podaci.wide$ispitanik)

Koristićemo paket reshape

p_load(reshape)

Podatke ćemo pretvoriti u Long format i smestiti u objekat novipodaci.long

novipodaci.long<-reshape(podaci.wide, direction='long', varying=c('merenje1', 'merenje2', 'merenje3'), timevar='merenje', times=c('1', '2', '3'), v.names=c('stasmomerili'), idvar=c("ispitanik", "pol"))
novipodaci.long

Argumenti: Prvi argument su podaci koje želimo da pretvorimo direction: da li pretvaramo u long ili wide varying: varijable u kojima su ponovljena merenja id.vars: varijable za identifikaciju ispitanika - ne menjaju se timevar: varijabla u kojoj će biti zapisan redni broj merenja (vi definišete željeno ime) v.names: kako da nazove novu varijablu ili varijable (vi definišete ime - u toj varijabli se nalaze vrednosti merenja) times: čime su u nazivima varijabli označena merenja (imena varijabli sa ponovljenim merenjima moraju imati nepromenljiv deo i deo koji označava merenje). U primeru nepromenljivi deo je “merenje”, a promenljivi je označen brojem (mada može i drugačije)

SLAJD 60

LDF -> WDF

Vratićemo prethodno kreirane podatke (novipodaci.long) u Wide data format.

novipodaci.wide<-reshape(novipodaci.long, direction="wide", varying="stasmomerili") 

Argumenti: direction: u kom smeru menjamo strukturu matrice (želimo da postane wide). varying: koje varijable treba razbiti na više varijabli. Može ih biti i više, ali onda je potrebno definisati slovni vektor sa imenima varijabli c(“stasmomerili”, “drugavarijabla”, “trecavarijabla”) Još jedan primer

#učitavanje podataka
podaci.long <- as.data.frame(read.table(header=T, text='
ispitanik  pol     merenje        mera
1   M     merenje1         7.9
1   M     merenje2        12.3
1   M     merenje3        10.7
2   Z     merenje1         6.3
2   Z     merenje2        10.6
3   Z     merenje1         9.5
3   Z     merenje2        13.1
3   Z     merenje3        13.8
4   M     merenje1        11.5
4   M     merenje2        13.4
4   M     merenje3        12.9
'))

Kolona sa subjektima mora biti tipa “factor”.

podaci.long$ispitanik <- factor(podaci.long$ispitanik)
novipodaci.wide<-reshape(podaci.long, direction = "wide", v.names= c("mera"), timevar="merenje", idvar=c("ispitanik", "pol"))

Argumenti: direction: da li pretvaramo u long ili wide, idvar: su varijable za identifikaciju ispitanika - ne menjaju se po merenjima timevar: naziv varijabli sa posebnim merenjima (R dodaje broj za svako merenje) v.names: su nazivi varijabli koje se menjaju. Ako se radi o jednoj varijabli po argumentu može i bez c() kao kod timevar=, ali navodnici moraju

SLAJD 61

Iz WIDE u LONG

Još jedna mogućnost koristi paket reshape2

library(reshape2)

id.vars: varijable koje treba da ostanu ali ne i da budu deljene po merenjima (neponovljena merenja)

novipodaci.long <- melt(podaci.wide, id.vars=c("ispitanik","pol"), measure.vars=c("merenje1", "merenje2", "merenje3" ), variable_name="merenje")

Argumenti: measure.vars: varijable u kojima se nalaze različita merenja id.vars: nepromenljive varijable koje služe za jedinstvenu identifikaciju ispitanika variable_name: kako ćemo nazvati novu varijablu

SLAJD 62

Iz WIDE u LONG

Još jedan način učitavanja podataka (direktno iz komande, polja odvojena separatorom ;)

podaci2.wide <- read.table(header=T, sep=";", text='
ispitanik;pol;merenje1;merenje2;merenje3;neponovljeno
1;M;7.9;12.3;10.7;1.2
2;Z;6.3;10.6;11.1;2.2
3;Z;9.5;13.1;13.8;3.2
4;M;11.5;13.4;12.9;4.2'
)

Transformacija upotrebom funkcije melt() iz paketa reshape2. Nije specifikovana varijabla “neponovljeno” pa će biti ispuštena

novipodaci2.long <- melt(podaci2.wide, id.vars=c("ispitanik","pol"), measure.vars=c("merenje1", "merenje2", "merenje3" ), variable_name="merenje")
head(novipodaci2.long)

Kada je specifikovana biva zadržana

novipodaci3.long <- melt(podaci2.wide, id.vars=c("ispitanik","pol", "neponovljeno"), measure.vars=c("merenje1", "merenje2", "merenje3" ), variable.name="merenje")
head(novipodaci3.long)

SLAJD 63

Vraćanje u WIDE

Transformacija funkcijom dcast() iz paketa maditr.

p_load(maditr)
novipodaci3.wide<-dcast(novipodaci3.long, ispitanik + pol ~ merenje, value.var="value")
# Nije specifikovana varijabla neponovljeno pa je izbačena
head(novipodaci3.wide)

Argumenti: Prvi je data.frame koji transformišemo Zatim sledi formula u obliku neponovljene (sa + između) ~ varijabla koja identifikuje merenje) value.var: varijabla ili više njih koje sadrže ponovljena merenja. Ako ih je više, navesti kao slovni vektor c(“v1”, “v2”, “v3”).

# Specifikovana varijabla neponovljeno pa je ušla u data.frame
novipodaci3a.wide=dcast(novipodaci3.long, ispitanik + pol + neponovljeno ~ merenje, value.var="value")
head(novipodaci3a.wide)

KOREKCIJA ZA ATENUACIJU

Korekcija za atenuaciju Naziv funkcije (objekat) kojem pridružujemo funkciju i potrebne argumente Naredbe su uokvirene vitičastim zagradama

aten <- function(kor, rtt1=1, rtt2=1) {
  if (kor<(-1) | kor>1 | !is.numeric(kor)) {
      stop("Neispravna vrednost korelacije!")
  }
  if (rtt1<0 | rtt1>1 | !is.numeric(rtt1) | rtt2< 0 | rtt2>1 | !is.numeric(rtt2)) {
    stop("Neispravna vrednost pouzdanosti!")
    }
  cat("Korelacija sa korekcijom za atenuaciju iznosi:", round(kor/sqrt(rtt1*rtt2), 3))
}

Pozivanje funkcije

aten(0.2, 0.62, 0.7) #prvi argument je korelacija, drugi pouzdanost prvog, a treći pouzdanost drugog testa.

Funkcija cat() služi za ispisivanje teksta. Spaja argumente odvojene zarezima u tekstualni niz koji se ispisuje na ekranu. Argumenti funkcije cat() mogu biti i numerički. Možete je koristiti za pisanje naslova u ispisu i na grafikonima. Prelom reda u okviru funkcije se radi sa Tekstualni deo mora biti pod navodnicima. Funkcija round() zaokružuje broj na određeni broj decimala. Argumenti su joj broj koji želimo da zaokružimo i željeni broj decimala.

PETLJA FOR

Ponavlja određenu komandu (funkciju) dok su zadovoljeni uslovi. U narednom slučaju to radi dok je brojač (i) u opsegu od 1 do 10. Inače, brojač ne mora počinjati od 1 (npr. for (i in 15:20)) niti mora biti brojčani.

for (i in 1:10) {
 podaci2[,i]=as.numeric(podaci2[,i])
 }

Petlja for ponavlja naredbu sve dok je i u zadatom okviru Svakim ponavljanjem i postaje za 1 veći U ovom slučaju pretvara prvih 10 varijabli data.frame podaci2 u numerički tip. U ovom slučaju varijable su kolone data.framea jer je u indeksu [,] i posle zareza pa označava kolonu.

SLAJD 71

Lavaan

Paket za modelovanje strukturalnih jednačina

p_load(lavaan)

Učitavanje podataka

bfs<-read.table("bfd500o.dat", header = T)

Kreiranje modela (dvofaktorski sa koreliranim faktorima)

model1='F1=~V1+V2+V3+V4+V5 
F2=~V6+V7+V8+V9+V10 
F1~~F2'

Značenje prethodne sintakse: F1=~V1+V2+V3+V4+V5 Faktor 1 meren preko varijabli V1, V2, V3, V4 i V5 (nazivi varijabli iz data.framea bfs) F2=~V6+V7+V8+V9+V10 Faktor 2 meren preko varijabli V6, V7, V8, V9 i V10 (nazivi varijabli iz data.framea bfs F1~~F2 dozvoljeno je da Faktor 1 i Faktor 2 koreliraju

Fitovanje modela (konfirmatorna faktorska analiza). Osnovno. Više ćete raditi kasnije. Fitujemo model funkcijom cfa i smeštamo ga u objekat m1. Dovoljni argumentii su nazivi gore kreiranog modela i matrice podataka.

m1 <- cfa(model1, data=bfs)
summary(m1, fit.measures=TRUE) #osnovne informacije o modelu i pokazatelji fita
standardizedsolution(m1) #standardizovano rešenje
modindices(m1) #indeksi modifikacije

Ili bifaktorski model…

model2 <- 'G=~V1+V2+V3+V4+V5+V6+V7+V8+V9+V10; S1=~V1+V2+V3+V4+V5; S2=~V6+V7+V8+V9+V10;  S1~~0*S2; G~~0*S1; G~~0*S2'

G - generalni faktor (sve varijable) S1 - prvi specifični faktor (prvih 5 varijabli) S2 - drugi specifični faktor (drugih 5 varijabli) U poslednja tri izraza operator ~~ označava kovarijansu varijabli (u ovom slučaju faktora) Premultiplikacija 0* ograničava kovarijanse varijabli na 0 (moraju biti 0 - generalni faktor ne sme korelirati sa specifičnim, a ni specifični međusobno)

Fitovanje modela

m2<-cfa(model2, bfs, estimator="WLSMV", std.lv = TRUE)
summary(m2, fit.measures=TRUE) #osnovne informacije o modelu i pokazatelji fita
standardizedsolution(m2) #standardizovano rešenje
modindices(m2) #indeksi modifikacije

Argumenti funkcije cfa: estimator - koji estimator se koristi std.lv - da li da standardizuje latentne varijable

Sintaksa lavaan modela

Tip formule Operator Primer Uzročnost Značenje

definicija latentna uzrokuje ili latentne varijable =~ F1=~x1+x2 F1->x1 i x2 je merena pomoću —————————————————————————– uzrokovana je, regresija ~ y~x1+x2 x1+x2-> regresirana na —————————————————————————– (ko)varijansa slobodna (rezidualna) ~~ xy, xx x<->y, x<->x (ko)varijansa —————————————————————————– odsečak x~1 proceni odsečak x —————————————————————————– novi parametar u novi parametar := u:=a+b jednak a+b —————————————————————————– startna vrednost se može startne vrednosti start() y~start(0.2)x menjati tokom iteracija —————————————————————————– fiksirane vrednosti y~1x ne menja se i jednak je 1 —————————————————————————– slobodna vrednost y~NA*x slobodan je —————————————————————————–

ČUVANJE KREIRANIH OBJEKATA NA DISKU

Komandom save.image(“Analize.Rdata”) zapisaćete sve kreirane objekte na hard disk, u radni folder (osim ako ne navedete punu putanju).

save.image("Analize.Rdata")

Možete ih ponovo učitati sa

load("Analize.Rdata")

Prethodno je potrebno da definišete radni folder, ili da navedete punu putanju do datoteke (zajedno sa imenom datoteke, u okviru navodnika npr. load(“D:/OTSS(R)/Analize.Rdata”))

