Da biste mogli da koristite ovu datoteku potrebno je da imate instaliran R. Možete ga preuzeti sa linka: https://cran.r-project.org/bin/windows/ (za Windows), https://cran.r-project.org/bin/linux/ (za Linux) ili https://cran.r-project.org/bin/macosx/ (za OS X). Nisam siguran da će skriptovi raditi na Linuxu i OS X (onaj deo koji se odnosi na referisanje lokacija datoteka na disku - to morate prilagoditi ukoliko koristite ove operativne sisteme). Takođe, potrebno je da imate instaliran i RStudio (besplatnu verziju) sa linka https://www.rstudio.com/products/rstudio/download/ Zatim, potrebno je da kreirate folder OTSS(R) na disku C ili D i u njega kopirate priložene datoteke iz arhive (naredbe.r, test2.txt, rezultati.csv…) Kopirajte direktno u taj folder - ne u subfolder! Komande izvršavajte redom, klikom na zeleni trougao svakog odeljka (chunk - koji počinje sa “```{r}”). Ako želite da izvršite pojedinačnu naredbu iz odeljka, kliknite u nju (ne smete selektovati ništa ili morate selektovati celu naredbu) i pritisnite Ctrl+ENTER. Naredbe iz SCRIPT prozora možete kopirati u prozor CONSOLE i izvršavati sa ENTER. Možete ih menjati i videti rezultate. Poželjno je da to radite. Međutim, predlažem da skript prvi put prođete u izvornom obliku. Napomenuo bih da R koristi dve vrste navodnika ” i ’. Ako u komandama imate bilo koji drugi javiće vam grešku. Ne zaboravite da stavite navodnike i zareze tamo gde treba. To vrlo česte greške. Kada smo već kod grešaka, ukoliko ne znate zašto su se javile korisno je da ih kopirate u browser i potražite tamo šta je uzrok greške. Svi mi to radimo :)
SLAJD 8
Paketi
Paketi su biblioteke funkcija. Instalirate i pozivate samo one pakete koji vam trebaju – npr.
Instaliranje paketa pacman Instalacija se radi samo jednom na jednom računaru (osim ako ih ne obrišete).
Pozivanje (učitavanje) biblioteke
library(foreign) # ili
require(foreign)
library(pacman)
Lakše je ovako
p_load(foreign)
Funkcija p_load iz paketa “pacman” proverava da li je paket (biblioteka) instaliran, ako nije instalira ga i učitava, a ako jeste samo ga učita. Prethodno mora biti učitana biblioteka pacman (samo jednom otkada pokrenete R)
SLAJD 9
Probajte…
library(Foreign)
Dobićete poruku: Error in library(Foreign) : there is no package called ‘Foreign’. Poruku ste dobili jer ste Foreign napisali sa velikim početnim slovom. R je osetljiv na velika i mala slova.
library(foreign)
# ovo je prošlo
# inače znak "#" na početku linije označava komentar (ne izvršava se)
SLAJD 10
Pomoć
Za pomoć u vezi sa nekom funkcijom kojoj znate ime ?funkcija ili help(funkcija) Ako tražite neke pojmove (koji nisu funkcije) onda ćete help dobiti sa help.search(“pojam koji me zanima”) Ili ??“pojam koji me zanima”
help(library)
?read.spss
??read.spss
help.search("chi square")
SLAJD 11
NAREDBE
R možete koristiti i kao kalkulator
2^3
sqrt(9)
2+2
Brojevi u uglastim zagradama [ ] su indeksi i označavaju poziciju elementa u nizu. Ovde se nizovi sastoje od jednog broja pa je logično da su to prvi elementi.
SLAJD 12
Ponovno pozivanje i ispravljanje naredbi
Strelicom na gore (na tastaturi) pozivate naredbu ponovo. Strelicom na levo dolazite do mesta koje želite da ispravite, brišete sa BACKSPACE (levo od kursora) ili sa DEL (desno od kursora), zatim ukucate novu vrednost i sa ENTER izvršite naredbu. Ako naredba nije kompletna pojaviće se “+”
2^
4
U gornjem odeljku to niste mogli videti jer su izvršena oba reda (naredbe). U konzolu unesite prvo samo 2^ i pritisnite ENTER. Pojaviće se znak + koji označava da je potrebno da kompletirate naredbu. Dodajte 4 i pritisnite ENTER. Ispisaće rezultat naredbe 2 na 4.
SLAJD 13
Radni direktorijum/folder
getwd()
…je naredba kojom saznajete koji vam je radni direktorijum (odnosno onaj u kojem R traži ili piše datoteke ako ne navedete punu putanju). Ako želite da ga promenite, koristite setwd(“željeni direktorijum”)
setwd("D:/OTSS(R)")
Napomena: Direktorijum (folder) mora postojati. Koristiti / umesto uobičajenog ” “. Može i”\“. Za nastavak rada potrebno je da komandu setwd(”D:/OTSS(R)“) kopirate u konzolu i izvršite jer zbog specifičnog formata ove datoteke neće biti zapamćena izvan odeljka (chunk).
SLAJD 14
Pozivanje naredbi iz datoteke
Naredbe možete sačuvati u tekstualnoj datoteci, a iz nje ih možete pozvati komandom source
source("D:/OTSS(R)/naredbe.R")
Ili ako ste podesili radni direktorijum
source("naredbe.R")
Ako hoćete da vam rezultat bude ispisan na ekranu onda, dodajte argument “echo=TRUE”. Proverite u folderu “D:/OTSS(R) datoteku naredbe.R - možete je otvoriti sa Notepadom ili bilo kojim editorom teksta. Možete je otvoriti i u R-u. U njoj se nalaze komande 3*2 (množenje dva broja), sqrt(144) (kvadratni koren iz 144) i array(1:180, 180) (napravi niz brojeva od 1 do 180 sa 180 članova)
source("naredbe.R", echo=TRUE)
TRUE i FALSE se skraćeno mogu pisati T i F npr.
source("naredbe.R", echo=T)
Pomoć u vezi sa ovom funkcijom
?source
SLAJD 15
Ispis rezultata u datoteku
Ako želite da vam svi rezultati budu upisani u datoteku koristite naredbu sink(“naziv_datoteke”)
sink("izlaz.txt")
Umesto “izlaz.txt” možete dati bilo koje ime. Datoteka će biti kreirana u radnom direktorijumu. Može i na drugom mestu, ali morate navesti punu putanju do tog mesta. Neće biti ispisa na ekranu. Ako želite da nastavite pisanje u datoteku u koju ste već pisali onda dodajte argument “append=TRUE”
sink("izlaz.txt", append=TRUE)
source("naredbe.R", echo=T)
Bez append=TRUE pregaziće staru datoteku.
Proverite da li u radnom folderu sad imate datoteku “izlaz.txt”. Vidite šta je u njoj.
Ipis u datoteku prekida se sa
sink()# nekada mora 2 puta da se pokrene
sink()
SLAJD 16
OBJEKTI
R radi sa objektima koje mi kreiramo ili se kreiraju u okviru rada pozvanih funkcija. Objekte kreiramo tako što im dodelimo neko ime i pridružimo određene vrednosti. Ako neku naredbu izvršimo i ne dodelimo joj ime, njen rezultat se gubi nakon ispisa na ekranu. Ako je smestimo u objekat ona ostaje sačuvana dok je ne uklonimo, a možemo je pozvati imenom objekta.
2*5
A<-2*5 #smeštamo rezultat množenja u objekat A
A #pozivamo objekat A
B=6 #smeštamo vrednost 6 u objekat B
B
A*B #Izvršavamo operaciju sa objektima
Uklanjanje objekta (u ovom slučaju B)
remove(B)
ili
rm(B) #ako ste pokrenuli prethodnu naredbu javiće grešku jer B više ne postoji
SLAJD 17
OBJEKTI…
ls() # ispisuje spisak svih objekata u okruženju (environment)
Uklanjanje više objekata (svih)
remove(list=ls())
# ili
rm(list=ls())
ls()
SLAJD 18
PRIDRUŽIVANJE
Vrši se pomoću znakova “<-”, “->” ili komandom assign(), a može i sa “=”. Znak “<-” se u prozoru skripta i terminala najlakše može dobiti ako istovremeno pritisnete levi Alt i - sa numeričke tastature.
X<-(c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10.5))
X
Funkcija c kombinuje argumente (ono u zagradi) u vektor
assign("Y", c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10.5))
c(X, X)->XX
Na ovaj način kreirali smo dva ista vektora X i Y i vektor XX koji se sastoji od dva vektora X nastavljena jedan na drugi. Prikazaćemo ih
X
Y
XX
SLAJD 20
VEKTORI
Osnovni elementi u R-u. Indeksirani skupovi vrednosti istog tipa. Svaki element ima svoj indeks (lokaciju) pomoću kojega mu se može pristupiti (indeksi su označeni uglastim zagradama).
XX[11] #pozivamo 11. element vektora XX
Imaju svoj tip
SLAJD 21
VEKTORI - TIPOVI
Numerički Slovni (char). Koriste se kao faktori (npr kategorijalne grupišuće varijable), ali i za nazive varijabli, natpise na grafikonima… Na primer
imena<-c("pol", "starost", "sprema", "v1", "v2", "V3", "V4", "v5", "V6", "v7", "v8") #kreiramo slovni vektor nazvan "imena"
imena #ispisaćemo njegove vrednosti
names(X)<-imena #komandom names(X) dodelićemo ta imena elemntima vektora X
X #ispisaćemo da vidimo rezultat
Logički vektori
Nastaju evaluacijom logičkih uslova. Elementi su TRUE i FALSE.
Npr.
NV<-X>6 #napravićemo logički vektor NV i to takav da će vrednost TRUE dobiti elementi vektora X veći od 6
NV
cbind(X,NV)
Komanda cbind() spaja elemente u zagradi (moraju biti iste dužine) i prikazuje ih vertikalno. Sa rbind() dobijamo isto to, ali korizontalno. Probajte, ako želite
Indeksni vektori
Služe za pozivanje određenih elemenata drugih vektora i smeštaju se u uglaste zagrade. Npr.
Y<-X[1:10]
# ili
Y<-X[!is.na(X)] #Neka vektor Y budu samo one vrednosti X koje nisu nedostajuće NA
Funkcija is.na() testira da li su vrednosti u zagradi nedostajuće. Ako je u zagradi naveden vektor, onda se testira svaki element vektora i vraća vektor sa nedostajućim vrednostima. Ako ispred funkcije stavimo ! dobijamo njenu negaciju - vraća se vektor sa vrednostima koje nisu nedostajuće.
SLAJD 22
Računanje sa vektorima
Ako se dva ili više vektora pojavljuju u nekoј matematičkoj operaciji ona će biti ponovljena onoliko puta koliko najduži vektor ima elemenata (samo ako je dužina većeg deljiva bez ostatka dužinom kraćih vektora).
X^2 # recimo da je 2 vektor dužine 1 - skalar
Svaki element vektora X je kvadriran.
X*XX # ranije kreirani vektori
X je recikliran (pošto X ima 10 elemenata, a XX dvadeset, prvih 10 elemenata biće pomnoženo sa elementima vektora X, a zatim će drugih 10 elemenata biti pomnoženo opet istim vektorom X)
SLAJD 23
SVOJSTVA OBJEKATA
Objekti imaju tip i dužinu (između ostalog) Tipovi zavise od sadržaja objekta. Od tipa objekta zavisi šta možemo sa njime raditi. Tipovi su promenljivi. Dužina je takođe promenljiva
SLAJD 24
SVOJSTVA OBJEKATA
mode(X); length(X)
Funkcijom mode saznajemo tip, a length dužinu objekta (u ovom slučaju vektora). Znak ; omogućava vam da više komandi smestite u isti red.
X<-as.character(X[1:5]); mode(X); length(X)
X #ispisaćemo vektor X
Rezultati se ispisuju u posebnim redovima. Istovremeno smo skratili i promenili tip vektora. Komandom as.character promenili smo numerički vektor u slovni (elementi nisu brojevi već karakteri - to vidimo po navodnicima oko njih). Pomoću indeksnog vektora [1:5] rekli smo da X bude samo prvih 5 elemenata istog tog vektora X.
Produžićemo vektor dodajući mu na 15. poziciju cifru 6 (ali ne kao broj već kao karakter - uokvireno navodnicima)
X[15]<-"6"; length(X)
X
Skratićemo vektor izbacujući nedostajuće vrednosti
X<-X[!is.na(X)] ; length(X)
X
SLAJD 25
DALJE…
X+X
Gornja komanda se ne može izvršiti jer je vektor slovni (char). Ako izvršite naredbu dobićete grešku “Error in X + X : non-numeric argument to binary operator”. Zapamtite ovu situaciju i grešku jer vam se često može javiti ukoliko ne povedete računa o tipu podataka.
X<-as.numeric(X) # menjamo mu mode u numerički
X+X # i onda može da se sabira
SLAJD 26
Učitavanje datoteka
Podaci za R su tekstualnoj datoteci u kojoj su polja odeljena razmakom ili TABOM. Može i drugim separatorom, ali razmak je podrazumevani. Dobro je da prvi red sadržava nazive varijabli, a prva kolona redni broj slučaja. Ako to ne postoji R će dodeliti nazive i brojeve Komanda poput sledeće podaci<-read.table(file.choose(),header=T,sep=“) otvoriće klasični dijalog za izbor datoteke, i nakon njenog izbora učitaće je objekat”podaci” tipa data.frame (matrica podataka). Ovaj objekat postoji samo u memoriji ne i na disku. Na sledeći način učitavamo podatke bez otvaranja dijaloga.
podaci<-read.table("D:/OTSS(R)/test2.txt", header=TRUE, sep="", quote = "\"'", dec = ".")
Argument header=TRUE znači da su nazivi varijabli u prvom redu datoteke, dec=“.” da su decimale odeljene tačkom, sep=“” da su polja odeljena praznim mestom, a quote = “"’” da su tekstualne varijable ograničene dvostrukim ili jednostrukim navodnicima.
names(podaci) # nazivi kolona matrice podataka da proverite da li ste učitali dobre podatke
str(podaci) # naredba kojom se proverava struktura objekta (dobijete nazive kolona, broj opservacija/ispitanika, broj varijabli i prvih 10 vrednosti)
head(podaci)
Učitavanje podataka tipa Coma Separated Values
podaci2<-read.csv("rezultati.csv", header=TRUE, sep=";", quote="\"'", dec = ".")
podaci2
sep može biti i “,” u zavisnosti od podešavanja kodne stranice operativnog sistema.
Učitavanje podataka tipa EXCEL
Postoji paket za čitanje podataka iz excela pod nazivom “xlsx”
p_load(xlsx)
podaciXY = read.xlsx("rezultati.xls", sheetIndex=1, rowIndex=NULL, colIndex=NULL)
podaciXY
sheetIndex je broj lista (sheet) iz excel datoteke, rowIndex i colIndex označavaju redove i kolone koje želimo da uvezemo. Ako ostavimo NULL to znači da želimo da uvezemo sve.
Problem sa domaćim karakterima se donekle može rešiti opcijom encoding=“UTF-8”
podaciXY = read.xlsx("rezultati.xls", sheetIndex=1, rowIndex=NULL, colIndex=NULL, encoding="UTF-8")
podaciXY
?read.xlsx #možete pogledati i druge opcije
Pisanje u excel datoteku
write.xlsx(podaciXY, "podaciXY.xlsx", col.names=TRUE, row.names=TRUE)
Za excel datoteke postoji i paket “readxl”
p_load(readxl)
podaciXY = read_excel("rezultati.xls", sheet=1)
podaciXY
?read_excel
SLAJD 28
data.frame
Korisno je učitati podatke kao objekat klase data.frame. Jednostavno, samo funkciju za učitavanje staviti u funkciju data.frame(), npr…
podaciXY = data.frame(read_excel("rezultati.xls", sheet=1))
Funkcija read.xlsx to radi po defaultu
SLAJD 29
Učitavanje datoteka
Podatke zatim možete pregledati i uređivati sa
fix(podaci2)
edit(podaci2)
head(podaci2, 10) # ispis prvih 10 redova
tail(podaci2, 5) # ispis poslednjih 5 redova
Prilikom učitavanja svakoj koloni se dodeljuje tip u zavisnosti od podataka koje sadrže (obično to ispadne kako treba…) Pojedinačnoj varijabli (vektoru) u podacima pristupate navođenjem naziva objekta u kom se nalazi praćenim znakom $ i nazivom vektora npr.
podaci2$INDEX
mode(podaci2$INDEX)
Ili preko indeksa (broja) kolone
podaci2[1] #numerički indeks, prva kolona
podaci2[1:3] #numerički indeks, prve tri kolone
podaci2[c("INDEX","FORMA", "pit1")] #imena kao indeks
Na taj način možete iz matrice podataka izdvojiti varijable za analizu, na primer… Možete ih kopirati i u novi objekat…
SLAJD 30
Pisanje u datoteke
Ako hoćete da u matricu podataka (data.frame) dodate neku varijablu koju ste izračunali, morate je referisati isto kao kad je čitate
podaci2$SUMA<-rowSums(podaci2[3:42], na.rm=FALSE)
podaci2$SUMA
Funkcija rowSums sabira redove u matrici podataka. Svi podaci moraju biti numerički. Argument na.rm=FALSE rezultira nedostajućim podacima (NA) ako je bar jedan sabirak NA. na.rm=TRUE rezultira zbirom i u takvoj situaciji.
Pisanje na disk
U CSV, sa separatorom ; , bez naziva redova, sa nazivima kolona, i duplim navodnicima za tekstualne varijable
write.table(podaci2, file = "podaci2.csv", sep = ";", row.names=FALSE, col.names = TRUE, qmethod = "double")
U TXT, sa TAB separatorom, bez naziva redova, sa nazivima kolona, bez navodnika za tekstualne varijable
write.table(podaci2, file = "podaci2.txt", sep = "\t", row.names=FALSE, col.names = TRUE, quote = FALSE)
SLAJD 31
Brisanje varijable iz matrice podataka
Prvo ćemo kreirati novu varijablu
podaci2$BEZVEZE<-rowSums(podaci2[3:42], na.rm=TRUE)
Sabrali smo po redovima varijable od 3 do 43. Sa fix(podaci2) ili View(podaci2) možete videti varijablu BEZVEZE koju ste kreirali na kraju matrice. Brisanje varijable BEZVEZE
podaci2$BEZVEZE<- NULL
Sa fix(podaci2) ili View(podaci2) možete videti da varijable BEZVEZE više nema.
SLAJD 32
Sortiranje
Koristimo funkciju order()
podaci_s=podaci2[order(podaci2$FORMA),]
podaci_s
Funkcija order(podaci2$FORMA) kreira vektor rednih brojeva slučajeva po redosledu na varijabli FORMA (ukoliko želite pokrenite je samostalno da vidite rezultat). Taj vektor se smešta u uglaste zagrade posle naziva objekta koji hoćemo da sortiramo (podaci2). Indeksi matrice podataka u zagradama imaju dva dela [ , ]. Oni pre zareza odnose se na redove, a oni posle na kolone. Ako ne stavimo zarez onda se podrazumeva da se odnose na kolone. Pošto sortiramo redove stavili smo zarez posle indeksnog vektora.
Napravili smo novi data.frame podaci_s koji je jednak data.frameu podaci2 sortiranom po varijabli FORMA (po rastućem redosledu).
Ovako sortiramo po dve varijable
podaci_s=podaci2[order(podaci2$FORMA, podaci2$INDEX),]
podaci_s
Po varijabli FORMA i po varijabli INDEX.
Promenićemo sortiranje za varijablu INDEX u opadajući redosled
podaci_s=podaci2[order(podaci2$FORMA, -rank(podaci2$INDEX)),]
podaci_s
Za FAKTORE se mora dodati -rank ispred naziva varijable u zagradama. Kod numeričkih dovoljan je - ispred imena varijable.
SLAJD 33
Referisanje elemenata tabela
Kolonama tabela se može pristupiti preko imena (ako ih imaju) ili preko numeričkih indeksa. Redovima se pristupa preko numeričkih indeksa.
podaci2[c(1:3)] # je isto što i
podaci2[1:3]
Prve tri kolone matrice podaci2.
Drugih 10 redova i prve tri kolone
podaci2[10:20, 1:3]
Drugih 10 redova i prve tri kolone + 5. i 7. kolona
podaci2[10:20, c(1:3, 5, 7)]
Kada kolone ili redovi nisu jedan do drugog mora se napraviti vektor brojeva koristeći c(). Izvršite c(1:3, 5, 7) da vidite kako izgleda taj vektor. Podsećam, u uglastim zagradama pre zareza su indeksi redova, a posle zareza indeksi kolona. Ako izostavite indeks reda podrazumeva se da želite da ih uključite sve. Isto važi i za kolone.
SLAJD 34
Osnovni operatori u R-u
Aritmetički: +, -, /, *, ^
16^(1/2)# kvadratni koren – može i
sqrt(16)
16^(1/4) # 4. koren iz 16
16^(-1) # recipročna vrednost - isto što i 1/16
Operatori odnosa (poređenja)
< (manje)
<= (nije veće)
>= (nije manje)
== (jednako) Nije greška, ako proveravate jednakost onda idu 2 znaka ==. Jedan znak = ekvivalentan je <-
!= (nije jednako)
Logički operatori
& (AND, i), | (OR, ili)
SLAJD 35
Još malo referisanja elemenata tabela
podaci2["pit2"] #naziv varijable kao indeks
podaci2[c("pit2", "pit5")] #slovni vektor naziva varijabli kao indeks
Ispitanici koji imaju podatak na varijabli pit2
subset(podaci2, podaci2$pit2!="NA")
Funkcijom subset() izdvojili smo sve kod kojih vrednost na varijabli pit2 nije jednaka NA (nedostajuća).
subset(podaci2, select=1:3)
Funkcijom subset izdvojili smo kolone od 1 do 3.
subset(podaci2, select=c(1:3, 5))
…kolone 1-3 i 5
subset(podaci2, podaci2$pit3==3, select=c(1:3, 5))
…ispitanici koji su dali odgovor 3 na varijabli pit3, kolone 1-3 i 5
SLAJD 36
Selekcija varijabli i ispitanika
podaci2$SUMA #da pogledamo vrednosti na ovoj varijabli
Odabraćemo samo one ispitanike koji imaju podatak na varijabli SUMA (i smestićemo u novi data.frame)
podaci2a<-podaci2[is.na(podaci2$SUMA)!= TRUE,]
podaci2a$SUMA #da se uverimo da nema nedostajućih
Funkcija is.na() testira da li je nešto nedostajuća vrednost. U narednoj naredbi postoje dva uslova: 1. da je ispitanik odgovorio na pit1 i da na SUMA ima nedostajući podatak. Sve kolone takvih ispitanika kopirane su u objekat podaci5 (klase data.frame). Da vidite objekat (npr. podaci5, samo u konzoli ukucajte njegovo ime i pritisnite ENTER)
podaci5<-podaci2[!is.na(podaci2$pit1)==TRUE & is.na(podaci2$SUMA)==TRUE,]
podaci5
Svi sa skorom većim od 95 (sve kolone u objekat podaci2b)
podaci2b<-podaci2a[podaci2a$SUMA>95,]
podaci2b
Isto kao prethodno, ali su izabrane samo kolone INDEX i SUMA i kopiraju se u objekat podaci2c
podaci2c<-podaci2a[!podaci2a$SUMA>95,c("INDEX", "SUMA")]
podaci2c
SLAJD 37
ATTACH
Komanda attach(podaci2) smešta tabelu sa podacima na putanju pretrage R-a pa objektima koji se nalaze u njoj možemo pristupiti preko imena (bez “podaci2$”)
attach(podaci2)
INDEX #pozivanje varijable INDEX iz objekta podaci2
mode(INDEX)
SUMA
Vodite računa, ako pozovete varijablu “INDEX” bez naziva skupa podataka onda će je pozvati iz skupa podaci2, odnosno poslednjeg kojeg ste pridružili sa ATTACH
attach(podaci2a)
find("INDEX") # vam javlja odakle pozivate varijablu INDEX (prvi navedeni objekat)
detach(podaci2a) # uklanja "podaci2a" sa putanje
find("INDEX") # vam javlja odakle pozivate varijablu INDEX
SLAJD 38
UVOZ DATOTEKA
Paket foreign
library(foreign)
Ova biblioteka vam omogućava uvoz iz Minitab, S, SAS, SPSS, Stata, Systat i dBase formata. Funkcija za SPSS .sav format je read.spss
podaci3<-as.data.frame(read.spss("test4.sav", use.value.labels = TRUE))
podaci3
Argument use.value.labels = TRUE vam omogućava da uvezete labele za kategorijalne varijable (faktore)
SLAJD 39
REKODIRANJE
Koristićemo paket car
p_load(car)
podaci2$SUMA2<-Recode(podaci2$SUMA, "NA=0") # NA u 0 u novu varijablu SUMA2
provera<-subset(podaci2, select=c("SUMA", "SUMA2")) # izdvajanje dve varijable u novi objekat PROVERA
provera
Rekodiranje više vrednosti istovremeno (“reflektovanje” + NA u 0) u istu varijablu
podaci2$pit3<-Recode(podaci2$pit3, "NA=0; 1=5; 2=4; 4=2; 5=1")
Sažimanje u istu varijablu (više vrednosti u jednu + promena tipa u char(), jer smo zadali tekstualne vrednosti)
podaci2$pit3<-Recode(podaci2$pit3, "c(0, 1, 2)='nisko'; c(3, 4, 5)='visoko'") # 5 u 2 kategorije
podaci2$pit3
SLAJD 40
FAKTORI
library(foreign)
podaci4<-as.data.frame(read.spss("sredjivanje.sav", use.value.labels = TRUE)) #učitavanje podataka
table(podaci4$POL) # kreiranje tabele vrednosti varijable pol
is.factor(podaci4$POL) # provera da li je varijabla faktor (nije - FALSE)
podaci4$POL<-factor(podaci4$POL, levels=c(1, 2), labels=c("muski", "zenski")) # pretvaranje u faktor sa nivoima muški i ženski. Navedeni nivoi (levels) i labele (labels).
podaci4$POL
is.factor(podaci4$POL)
table(podaci4$POL)
is.factor(podaci4$STA_KAT) # ponovo na varijabli STA_KAT (starost karatista)
table(podaci4$STA_KAT)
podaci4$STA_KAT<-factor(podaci4$STA_KAT, levels=c(1, 2, 3, 4), labels=c("nade", "kadeti", "juniori", "seniori"))
is.factor(podaci4$STA_KAT)
table(podaci4$STA_KAT)
SLAJD 41
DESKRIPTIVNA
mean(podaci4$OCENA, trim=0.05, na.rm=TRUE)
Aritmetička sredina. Trim uklanja % najnižih i najviših vrednosti pre računanja AS, na.rm=TRUE izbacuje one sa nedostajućim vrednostima i računa AS. Ako je na.rm=FALSE, ako postoje oni sa nedostajućim vrednostima i AS je NA. Argument na.rm važi za sve sledeće funkcije osim za summary (radi na kompletnim podacima)
sd(podaci4$OCENA, na.rm=TRUE) #standardna devijacija
var(podaci4$OCENA) #varijansa
sd(podaci4$OCENA)^2 #rezultate većine funkcija možemo koristiti u daljem računu (ovo je samo primer - kada kvadriramo standardnu devijaciju dobijemo varijansu)
min(podaci4$OCENA) #minimum
max(podaci4$OCENA) #maximum
summary(podaci4$OCENA)
SLAJD 42
TABELE
table(podaci4$POL)
table(podaci4$STA_KAT)
table(podaci2$SUMA)
table(podaci2$SUMA, useNA="no") # useNA="no" - zanemaruje nedostajuće
Argument useNA: useNA=“ifany” - prikazuje se kolona za NA samo ako ih ima useNA=“always” - prikazuje se kolona NA uvek
table(podaci2$SUMA, useNA="ifany")
table(podaci2$SUMA, useNA="always")
table(podaci2$SUMA2, useNA="always")
Argument exclude isključuje navedene kategorije. Ako ih ima više navode se u slovnom vektoru, nivoi se stavljaju pod navodnicima, odvojeni zarezom. Npr. exclude=c(“kadeti”, “nade”)
table(podaci4$STA_KAT, exclude=c("kadeti"))
Tabele kontingencije
table(podaci4$POL, podaci4$STA_KAT)# dvosmerna
table(podaci4$POL, podaci4$STA_KAT, podaci4$OCENA)# trosmerna
Prethodno se može kombinovati sa exclude, useNA…
SLAJD 43
TAPPLY
Primenjuje navedenu funkciju po nivoima faktora. Prvo se navodi željena varijabla, zatim faktor (grupišuća) i na kraju željena funkcija. Npr. u prvoj komandi analiziramo varijablu OCENA, po polu, a dobićemo aritmetičku sredinu. Argumenti željene funkcije mogu biti navedeni posle same funkcije, odvojeni zarezom (kao u drugoj komandi).
tapply(podaci4$OCENA, podaci4$POL, mean)# drugi argument je faktor
tapply(podaci4$OCENA, podaci4$POL, mean, trim=0.05)
tapply(podaci4$OCENA, podaci4$POL, sd)
tapply(podaci4$OCENA, podaci4$POL, var)
tapply(podaci4$OCENA, podaci4$POL, sd)^2
tapply(podaci4$OCENA, podaci4$POL, min)
tapply(podaci4$OCENA, podaci4$POL, max)
tapply(podaci4$OCENA, podaci4$POL, summary)
SLAJD 44
t-test za nezavisne uzorke
Prvo ćemo pozvati biblioteku car u kojoj se može naći funkcija za Leveneov test homogenosti varijansi (da bismo znali koji t test da primenimo).
library(car) # u ovoj biblioteci se nalazi funkcija
leveneTest(OCENA ~ POL, data=podaci4)# Leveneov test jednakosti varijansi
Pošto su varijanse homogene primenićemo varijantu za jednake varijanse
t.test(OCENA ~ POL, data=podaci4, var.equal=TRUE)
Ako varijanse nisu homogene oda se koristi argument var.equal=FALSE inače TRUE. Inače definisanje modela ZAVISNA ~ NEZAVISNA je uobičajeno za većinu (ako ne i sve) linearne modele u R-u.
t-test za zavisne uzorke
Dovoljno je vrednost argumenta repeated postaviti na TRUE
t.test(podaci4$T1_PIT1, podaci4$T1_PIT2, data=podaci4, repeated=TRUE)
Kod zavisnih uzoraka, merenja se navode jedno za drugim.
SLAJD 45
Hi-kvadrat test
Funkcija chisq.test kao argumente uzima dve varijable ili gotovu tabelu kontingencije kreiranu na osnovu njih.
chisq.test(podaci4$POL, podaci4$STA_KAT) # ili
chisq.test(table(podaci4[1:2])) # drugačije indeksiranje varijabli (preko broja kolone) ili
tabelica=table(podaci4[1:2])#prvo kreiramo tabelu
chisq.test(tabelica) #a zatim tabelu uvrstimo kao argument u funkciju
Rezultat ove funkcije (a i svih ostalih) možemo smestiti u objekat koji kasnije možemo pozivati. Dodati su argumenti correct koji označava da li je potrebno raditi Yatesovu korekciju (TRUE) ili ne (FALSE), simulate.p.value da li je potrebno raditi MonteCarlo simulacije ili ne, i B koliko simuliranih uzoraka je potrebno uraditi.
hi<-chisq.test(table(podaci4$POL, podaci4$STA_KAT), correct = FALSE, simulate.p.value = TRUE, B = 2000)
hi #pozivanjem objekta ispisujete rezultate
str(hi) # da vidite strukturu objekta hi
Kada pogledate strukturu vidite elemente objekta (ispred njih stoji znak $). Kasnije možete pozivati elemente tog objekta (hi) pojedinačno, smeštati ih u nove objekte, koristiti u daljim analizama… Ovo važi za sve objekte (skoro), ne samo one nastale na osnovu funkcije chi.square
hi$observed # prikazivanje opaženih frekvencija
hi$expected # očekivanih
hi$residuals # reziduala
hi$residuals[1] # reziduala samo za muške
hi$residuals[2] # reziduala samo za ženske
hi$stdres # standardizovanih reziduala
hi$statistic # vrednost hi kvadrata
hi$p.value # značajnost
SLAJD 46
chisq.test grafikoni
Stacked bar plot
plot(podaci4$POL, podaci4$STA_KAT)
Dodate su labele x ose (xlab), y ose (ylab) i naslov grafikona (main). Tekst mora ići pod navodnicima “” ili ’’. Boje su definisane argumentom col i navode se kao numerički vektor col=c(1, 3, 7, 8). Promenite brojeve i promenićete boje. Mogu se navoditi i kao tekstualni vektor. Npr. c(“red”, “dark blue”, “light green”, “orange”)
plot(podaci4$POL, podaci4$STA_KAT, xlab="pol", ylab="starost", col=c(1, 3, 7, 8), main= "starost karatista po polu")
plot(podaci4$POL, podaci4$STA_KAT, xlab="pol", ylab="starost", col=c("red", "dark blue", "light green", "orange"), main= "starost karatista po polu")
Ako navedete nepostojeću boju ili napravite grešku u kucanju dobićete sledeću poruku: Error in rect(xleft, ybottom, xright, ytop, col = col, …) : invalid color name ‘naziv boje kod koje ste pogrešili’
SLAJD 47
STANDARDIZACIJA
Standardizaciju varijable možete odraditi peške po sledećoj formuli (x-Xbar)/SD
podaci4$ZOCENA<-(podaci4$OCENA - mean(podaci4$OCENA))/sd(podaci4$OCENA)
podaci4$ZOCENA
ili zbog jednostavnosti smestiti željenu varijablu u objekat x pa onda izvršiti standardizaciju
x<-podaci4$OCENA
podaci4$ZOCENA<-(x - mean(x))/sd(x)
podaci4$ZOCENA
…a u stvari postoji i funkcija koja to radi
podaci4$ZOCENA2<-scale(podaci4$OCENA, center=TRUE, scale=TRUE)
mean(podaci4$ZOCENA2)#AS
sd(podaci4$ZOCENA2)#SD
Ako je center=TRUE onda se x umanjuje za AS (radi se tzv. CENTRIRANJE). Praktično se AS postavlja na 0 (u stvari najčešće jako blisko 0). A ako je scale=TRUE onda se x-Xbar deli SD, ako ne - ništa. Ako je TRUE, onda se radi standardizacija (pod uslovom da je i center=TRUE) Argument center (za koliko umanjiti vrednost x-Xbar) i scale (sa čim podeliti) mogu biti numerički vektori ako se transformiše više varijabli. Može se transformisati i više varijabli odjednom
stand3_5 <-scale(podaci4[3:5], center=TRUE, scale=TRUE)
stand3_5
Gornjom komandom su od 3. do 5. varijable iz matrice podataka podaci4 standardizovani i smešteni u novi objekat klase data.frame pod nazivom stand3_5.
Test normalnosti
Koristimo Shapiro-Wilk test
shapiro.test(podaci4$OCENA)
hist(podaci4$OCENA)
Ako želimo po grupama
tapply(podaci4$OCENA, podaci4$POL, shapiro.test)
NORMALIZACIJA (navodno)
Na internetu se često kaže da se normalizacija može obaviti pomoću funkcije scale, na sledeći način
podaci4$NOCENA <-scale(podaci4$OCENA, center=TRUE, scale=FALSE) # ipak samo CENTRIRANJE
podaci4$NOCENA
hist(podaci4$NOCENA)
SLAJD 48
Normalizacija
Peške… Rangirati skorove i pretvoriti u percentile (u stvari nam ne trebaju procenti već proporcije). Zatim naći z vrednost kojoj odgovara određeni procenat ispod krive normalne raspodele. Prvo izračunamo rangove
podaci2$RANG<-rank(podaci2$SUMA, na.last = "keep", ties.method = "min")
podaci2$RANG
Jako je bitno da na.last bude “keep”. Na taj način slučajevi sa nedostajućim vrednostima na željenoj varijabli dobijaju nedostajući rang (NA) Zatim izračunamo percentilni rang. Podelimo rang iz gornje komande dužinom varijable (brojem slučajeva bez nedostajućih)
podaci2$PERC<-(rank(podaci2$SUMA, na.last = "keep", ties.method = "min"))/length(is.na(podaci2$SUMA)==FALSE)
podaci2$PERC
I na kraju, proporcije pretvorimo u z skorove koristeći funkciju qnorm koja traži z vrednost koja odgovara određenoj proporciji ispod krive normalne raspodele
podaci2$NORM<-qnorm((rank(podaci2$SUMA, na.last = "keep", ties.method = "min"))/length(is.na(podaci2$SUMA)==FALSE))
podaci2$NORM
Primetite kako smo prethodne komande ugnjezdili jednu u drugu: qnorm((rank()/length)) Uradićemo i standardizaciju radi poređenja
podaci2$Z<-scale(podaci2$SUMA, center=TRUE, scale=TRUE)
SLAJD 49
NORMALIZACIJA
Uporedni grafikon sirove varijable, normalizovane i standardizovane
par(mfrow=c(1,3)); hist(podaci2$SUMA, main="sirovi", xlab=NULL, col=2); hist(podaci2$NORM, main="normalizovani", xlab=NULL, col=3); hist(podaci2$Z, main="z skorovi", xlab=NULL, col=4)
Crtamo grafikone da ih uporedimo. Vidimo da “najnormalnije” izgleda onaj koji smo dobili procedurom normalizacije koju smo napisali. Komande za crtanje su date u jednom redu, odeljene sa ;. Histograme crtamo funkcijom hist(). Naslove i boje smo definisali argumentima main, xlab, i col. Funkcija par definiše crtanje više grafikona odjednom. Tačnije to radi opcija mfrow koja prostor za crtanje grafikona deviniše kao matricu. c(1:3) znači da ćemo prostor za crtanje podeliti u 1 red, 3 kolone
Da biste prostor za crtanje grafikona vratili na normalan iskoristite funkcije
par(mfrow=c(1,1)) #ili
dev.off()
par(mfrow=c(1,1)) podešava prostor za crtanje na 1 red i 1 kolonu, a dev.off() uklanja postojeći prostor za crtanje.
Proverićemo normalnost normalizovane varijable Shapiro-Wilk testom i ispisati njenu aritmetičku sredinu i standardnu devijaciju
shapiro.test(podaci2$NORM); mean(podaci2$NORM, na.rm=T); sd(podaci2$NORM,na.rm=T)
Normalna je (jedva)
SLAJD 50
NORMALIZACIJA
Može se smestiti u funkciju
normalizuj <- function(nenormalna) {
qnorm((rank(nenormalna, na.last = "keep", ties.method = "min"))/length(is.na(nenormalna)==FALSE))
}
Napravili smo objekat koji se zove normalizuj. On je klase “function” i uzima jedan argument “nenormalna”, a to je varijabla koju je potrebno normalizovati. Ono što će funkcija raditi nalazi se između vitičastih zagrada {} Dakle funkciju definišemo sa ime<-function(argumenti koje uzima) {komande koje izvršava}. Tako definisanu funkciju je potrebno jednom pokrenuti, a kasnije je pozivamo njenim imenom i navođenjem argumenata. Na primer
normalizuj(podaci2$SUMA)
# odnosno
podaci2$NORM<-normalizuj(podaci2$SUMA)
Grafikoni ponovo
par(mfrow=c(1,3)); hist(podaci2$SUMA, main="sirovi", xlab=NULL, col=2); hist(podaci2$NORM, main="normalizovani", xlab=NULL, col=3); hist(podaci2$Z, main="z skorovi", xlab=NULL, col=4);
par(mfrow=c(1,1))
SLAJD 51
ANOVA
Može se izvršiti na više načina i koristiti više funkcija. Na primer funkcija lm (linearni modeli)
analiza.var<-lm(OCENA ~ STA_KAT, data=podaci4)
Ovo je jednosmerna analiza varijanse i format definisanja je: ZAVISNA ~ NEZAVISNA. Nezavisna mora biti faktor, a zavisna numerička. Argument data je obavezan i predstavlja matricu podataka koju koristite (ako su varijable deo data.frame objekta, a ne moraju biti - mogu biti i vektori). lm daje izlaz kao regresija (što je isti model).
summary(analiza.var)
analiza.var
Intercept je AS prve kategorije, a AS ostalih kategorija su intercept + parametar kategorije (4.55172+0.06567…) Proverite
tapply(podaci4$OCENA, podaci4$STA_KAT, mean)
Ili druga varijanta upotrebom funkcije aov
analiza.var<-aov(OCENA ~ STA_KAT, data=podaci4)
summary(analiza.var)
anova(analiza.var)
Višesmerna ANOVA
analiza.var2<-lm(OCENA ~ STA_KAT + POL + (POL*STA_KAT), data=podaci4)
summary(analiza.var2)
anova(analiza.var2)
Format: ZAVISNA ~ GLAVNI_EFEKAT1 + GLAVNI_EFEKAT2 + INTERAKCIJE Interakcija: Ako definišemo na sledeći način: GLAVNI_EFEKAT1 * GLAVNI_EFEKAT2 dobijaju se i sve interakcije i glavni efekti. U gornjem primeru to bi bilo
lm(OCENA ~ POL*STA_KAT, data=podaci4)
Ako definišemo na sledeći način: GLAVNI_EFEKAT1 : GLAVNI_EFEKAT2 dobijaju se samo interakcije, ali ne i glavni efekti. U gornjem primeru to bi bilo: lm(OCENA ~ POL:STA_KAT, data=podaci4). Tada se glavni efekti moraju eksplicitno zadati, a to znači da ne morate u model staviti sve glavne efekte. Na primer
lm(OCENA ~ POL+(POL:STA_KAT), data=podaci4)
SLAJD 52
Višesmerna ANOVA 2
Isto važi i za aov funkciju
analiza.var2<-aov(OCENA ~ STA_KAT + POL + (POL*STA_KAT), data=podaci4)
summary(analiza.var2)
analiza.var3<-aov(OCENA ~ POL*STA_KAT, data=podaci4)
# Operator * traži glavne efekte i interakcije
summary(analiza.var3)
analiza.var4<-aov(OCENA ~ POL:STA_KAT, data=podaci4)
# Operator : traži samo interakciju
summary(analiza.var4)
anova(analiza.var4)
Post-hoc testovi
TukeyHSD(analiza.var4)
Grafik
with(podaci4, interaction.plot(STA_KAT, POL, OCENA, col=2:3, lwd=2))
with služi da skratimo kucanje Moglo bi i interaction.plot(STA_KAT, POL, OCENA, ylim=c(4.4, 4.9), col=2:3, lwd=2), ali bi pre svake varijable trebalo kucati podaci4$ - ovako u with(podaci4, ) umetnemo funkciju i R zna da sve treba raditi na objektu podaci4 Argument lwd definiše debljinu linije (menjajte vrednosti da vidite efekat).
SLAJD 53
ANOVA – lm
Još malo post-hoc testova Prvo fitujemo model
analiza.var5<-lm(OCENA ~ STA_KAT + POL + (POL*STA_KAT), data=podaci4)
summary(analiza.var5)
anova(analiza.var5, test="F")
Zatim instaliramo i učitamo paket emmeans, i odradimo post.hoc testove. Prvi argument je objekat u kojem se nalazi fitovan model ANOVA. Zatim definišemo koja poređenja želimo i kojim metodom.
p_load(emmeans)
emmeans(analiza.var5, pairwise~STA_KAT*POL, adjust="scheffe") # primer je za sve efekte
emmeans(analiza.var5, pairwise~STA_KAT:POL, adjust="scheffe") # samo za interakciju
emmeans(analiza.var5, pairwise~STA_KAT, adjust="tukey") # ovde je za glavni efekat - a korišćen je tukey
SLAJD 54
KORELACIJE
Funkcijom cor možemo dobiti matricu korelacija više varijabli
cor(podaci4[3:8]) # matrica korelacija
cor(podaci4$T1_PIT1, podaci4$T1_PIT3) # dve varijable
with(podaci4, cor(T1_PIT2, T1_PIT3, method="pearson")) #skraćeno pisanje
Method može biti i “spearman” i “kendall” Funkcijom cor.test dobijamo i značajnost korelacija, ali može se računati samo za dve varijable
cor.test(podaci4$T1_PIT1, podaci4$T1_PIT3) # dve varijable
Funkcija pod nazivom corr.test (ima jedno r više nego prethodna funkcija) iz paketa psych može to i na matricama
p_load(psych)
corr.test(podaci4[3:8])
print(corr.test(podaci4[3:8]), short = FALSE)
SLAJD 55
GRAFIKONI
hist(podaci4$OCENA)
hist(podaci2$SUMA)
Boja + naslov grafikona + labela X ose
hist(podaci2$SUMA, col=3, main="UKUPAN SKOR", xlab="SUMA")
Sve to + Y osa
hist(podaci2$SUMA, col=3, main="UKUPAN SKOR", xlab="SUMA", ylab="frekvencija")
Boxplot i stem&leaf
boxplot(podaci2$SUMA)
stem(podaci2$SUMA)
Probajte da dodate nazive osa i promenite boju na boxplotu
Kada zadate komandu plot za dve varijable od kojih je prva faktor a druga numerička, dobićete dva boxplota
plot(podaci4$POL, podaci4$OCENA)
Ako obrnete redosled varijabli dobićete scatter dijagram
plot(podaci4$OCENA, podaci4$POL)
Scattter je loš pošto je pol binarna, a ocena politomna sa max. 5 nivoa
plot(podaci4$OCENA, podaci4$POL, yaxp=c(1, 2, 1), xaxp=c(1,5,4))
yaxp i xaxp određuju minimum, maksimum i broj nivoa (tim redom) skala X i Y
Redosled varijabli u funkciji plot određuje tip grafikona, ako je X faktor onda dobijamo boxplotove, u protivnom scatter.
Ako se ovako definiše, redosled nije bitan (dobijamo boxplot).
plot(podaci4$OCENA ~ podaci4$POL)
SLAJD 56
ČUVANJE GRAFIKA U DATOTEKU
Za početak, kreiraćemo dve varijable (X i Y) izvučene iz normalne raspodele
X=rnorm(100, 30, 8); Y=rnorm(100, 25, 8) # kreiranje dve varijable iz normalne raspodele
Svaka sa po 100 ispitanika (prvi argument), X sa AS 30 (drugi argument) i SD 8 (treći argument), a Y sa AS 25 i SD 8 Funkcija rnorm pravi slučajnu varijablu iz normalne distribucije sa argumentima (n, AS i SD) Crtanje u png fajl

Dajemo naziv datoteke, širinu i visinu u pixelima. Zapisujemo u PNG - ne pojavljuje se prikaz pojavljuje se datoteka u radnom direktorijumu (pogledajte).
Crtanje u TIF fajl
tiff(filename = "skater1.tiff", width = 800, height = 800);plot(X, Y);
dev.off()
Zapisujemo u TIFF - ne pojavljuje se prikaz KVALITET NIJE ZA ŠTAMPU
SLAJD 57
TIF 300*300
Argumentom res definišemo rezoluciju slike. 300 je dovoljno za štampu. Argumentom units definišemo merne jedinice u kojim su definisani visina i širina. cex.main, cex.lab i cex.axis definišu veličinu slova (glavnog naslova, labela i osa). 1 je normalna veličina. Vrednosti preko 1 znače uvećanje fonta, a manje od 1 umanjenje.
tiff(filename = "skater300.tif", width = 9, height = 9,units = "cm", pointsize = 6, bg = "white", res = 300, restoreConsole = TRUE); plot(X, Y, col=3, lwd = 1, lty=2, xlab = "varijabla X", ylab = "varijabla Y", main="skater 300", cex.main = 1.5, cex.lab = 1.3, cex.axis = 1.1);
dev.off()
Sve komande moraju biti u jednoj liniji odvojene sa “;” ili u odvojenim linijama ali izvršene istovremeno (istovremeno sa dev.off()) Bitno je da res bude bar 300
SLAJD 58
Spajanje podataka (merge)
Spajanje dve tabele po ključnim varijablama. Učitaćemo dve matrice podataka
levi<-read.table("imena.txt", header=TRUE, sep=",", quote = "\"'", dec = ".")
desni<-read.table("odgovori2.txt", header=TRUE, sep=",", quote = "\"'", dec = ".")
Ove dve tabele dele varijablu INDEX koja identifikuje slučajeve i pomoću koje ih možemo spojiti koristeći komandu merge.
sve<-merge(levi, desni, by="INDEX")# spojiće dva seta podataka, ali samo one slučajeve koji se nalaze u obe matrice
sve
sve=merge(levi, desni, all=TRUE, by="INDEX")# spojiće dva seta podataka, a u podacima će se nalaziti i svi oni iz oba seta koji nemaju podatke u oba seta (nalaze se samo u jednoj od matrica)
sve
Svi iz data.framea levi ulaze, čak i ako nemaju para u data.frame desni. Oni iz data.frame desni ulaze samo ako imaju para u levi.
sve<-merge(levi, desni, all.x=TRUE, by="INDEX")
sve
Obrnuta situacija
sve<-merge(levi, desni, all.y=TRUE, by="INDEX")
sve
SLAJD 59
LDF <- WDF
Promena iz Wide Data Formata u Long Data Format i obrnuto. Kada imamo ponovljena merenja, podaci mogu biti zapisani u Wide data formatu (svako merenje je posebna varijabla) ili u Long data formatu (sva merenja su u jednoj varijabli, ali postoji varijabla koja identifikuje merenje). Ovo je bitno zato što smo navikli da podatke zapisujemo u Wide data formatu, a mnoge analize sa ponovljenim merenjima u R-u zahtevaju Long data format. Učitaćemo podatke u Wide formatu
podaci.wide <- read.table(header=T, text='
ispitanik pol merenje1 merenje2 merenje3
1 M 7.9 12.3 10.7
2 Z 6.3 10.6 11.1
3 Z 9.5 13.1 13.8
4 M 11.5 13.4 12.9
')
Kolona sa subjektima (identifikacijom subjekta) mora biti tipa “factor”
podaci.wide$ispitanik <- factor(podaci.wide$ispitanik)
Koristićemo paket reshape
p_load(reshape)
Podatke ćemo pretvoriti u Long format i smestiti u objekat novipodaci.long
novipodaci.long<-reshape(podaci.wide, direction='long', varying=c('merenje1', 'merenje2', 'merenje3'), timevar='merenje', times=c('1', '2', '3'), v.names=c('stasmomerili'), idvar=c("ispitanik", "pol"))
novipodaci.long
Argumenti: Prvi argument su podaci koje želimo da pretvorimo direction: da li pretvaramo u long ili wide varying: varijable u kojima su ponovljena merenja id.vars: varijable za identifikaciju ispitanika - ne menjaju se timevar: varijabla u kojoj će biti zapisan redni broj merenja (vi definišete željeno ime) v.names: kako da nazove novu varijablu ili varijable (vi definišete ime - u toj varijabli se nalaze vrednosti merenja) times: čime su u nazivima varijabli označena merenja (imena varijabli sa ponovljenim merenjima moraju imati nepromenljiv deo i deo koji označava merenje). U primeru nepromenljivi deo je “merenje”, a promenljivi je označen brojem (mada može i drugačije)
SLAJD 60
LDF -> WDF
Vratićemo prethodno kreirane podatke (novipodaci.long) u Wide data format.
novipodaci.wide<-reshape(novipodaci.long, direction="wide", varying="stasmomerili")
Argumenti: direction: u kom smeru menjamo strukturu matrice (želimo da postane wide). varying: koje varijable treba razbiti na više varijabli. Može ih biti i više, ali onda je potrebno definisati slovni vektor sa imenima varijabli c(“stasmomerili”, “drugavarijabla”, “trecavarijabla”) Još jedan primer
#učitavanje podataka
podaci.long <- as.data.frame(read.table(header=T, text='
ispitanik pol merenje mera
1 M merenje1 7.9
1 M merenje2 12.3
1 M merenje3 10.7
2 Z merenje1 6.3
2 Z merenje2 10.6
3 Z merenje1 9.5
3 Z merenje2 13.1
3 Z merenje3 13.8
4 M merenje1 11.5
4 M merenje2 13.4
4 M merenje3 12.9
'))
Kolona sa subjektima mora biti tipa “factor”.
podaci.long$ispitanik <- factor(podaci.long$ispitanik)
novipodaci.wide<-reshape(podaci.long, direction = "wide", v.names= c("mera"), timevar="merenje", idvar=c("ispitanik", "pol"))
Argumenti: direction: da li pretvaramo u long ili wide, idvar: su varijable za identifikaciju ispitanika - ne menjaju se po merenjima timevar: naziv varijabli sa posebnim merenjima (R dodaje broj za svako merenje) v.names: su nazivi varijabli koje se menjaju. Ako se radi o jednoj varijabli po argumentu može i bez c() kao kod timevar=, ali navodnici moraju
SLAJD 61
Iz WIDE u LONG
Još jedna mogućnost koristi paket reshape2
library(reshape2)
id.vars: varijable koje treba da ostanu ali ne i da budu deljene po merenjima (neponovljena merenja)
novipodaci.long <- melt(podaci.wide, id.vars=c("ispitanik","pol"), measure.vars=c("merenje1", "merenje2", "merenje3" ), variable_name="merenje")
Argumenti: measure.vars: varijable u kojima se nalaze različita merenja id.vars: nepromenljive varijable koje služe za jedinstvenu identifikaciju ispitanika variable_name: kako ćemo nazvati novu varijablu
SLAJD 62
Iz WIDE u LONG
Još jedan način učitavanja podataka (direktno iz komande, polja odvojena separatorom ;)
podaci2.wide <- read.table(header=T, sep=";", text='
ispitanik;pol;merenje1;merenje2;merenje3;neponovljeno
1;M;7.9;12.3;10.7;1.2
2;Z;6.3;10.6;11.1;2.2
3;Z;9.5;13.1;13.8;3.2
4;M;11.5;13.4;12.9;4.2'
)
Transformacija upotrebom funkcije melt() iz paketa reshape2. Nije specifikovana varijabla “neponovljeno” pa će biti ispuštena
novipodaci2.long <- melt(podaci2.wide, id.vars=c("ispitanik","pol"), measure.vars=c("merenje1", "merenje2", "merenje3" ), variable_name="merenje")
head(novipodaci2.long)
Kada je specifikovana biva zadržana
novipodaci3.long <- melt(podaci2.wide, id.vars=c("ispitanik","pol", "neponovljeno"), measure.vars=c("merenje1", "merenje2", "merenje3" ), variable.name="merenje")
head(novipodaci3.long)
SLAJD 63
Vraćanje u WIDE
Transformacija funkcijom dcast() iz paketa maditr.
p_load(maditr)
novipodaci3.wide<-dcast(novipodaci3.long, ispitanik + pol ~ merenje, value.var="value")
# Nije specifikovana varijabla neponovljeno pa je izbačena
head(novipodaci3.wide)
Argumenti: Prvi je data.frame koji transformišemo Zatim sledi formula u obliku neponovljene (sa + između) ~ varijabla koja identifikuje merenje) value.var: varijabla ili više njih koje sadrže ponovljena merenja. Ako ih je više, navesti kao slovni vektor c(“v1”, “v2”, “v3”).
# Specifikovana varijabla neponovljeno pa je ušla u data.frame
novipodaci3a.wide=dcast(novipodaci3.long, ispitanik + pol + neponovljeno ~ merenje, value.var="value")
head(novipodaci3a.wide)
KOREKCIJA ZA ATENUACIJU
Korekcija za atenuaciju Naziv funkcije (objekat) kojem pridružujemo funkciju i potrebne argumente Naredbe su uokvirene vitičastim zagradama
aten <- function(kor, rtt1=1, rtt2=1) {
if (kor<(-1) | kor>1 | !is.numeric(kor)) {
stop("Neispravna vrednost korelacije!")
}
if (rtt1<0 | rtt1>1 | !is.numeric(rtt1) | rtt2< 0 | rtt2>1 | !is.numeric(rtt2)) {
stop("Neispravna vrednost pouzdanosti!")
}
cat("Korelacija sa korekcijom za atenuaciju iznosi:", round(kor/sqrt(rtt1*rtt2), 3))
}
Pozivanje funkcije
aten(0.2, 0.62, 0.7) #prvi argument je korelacija, drugi pouzdanost prvog, a treći pouzdanost drugog testa.
Funkcija cat() služi za ispisivanje teksta. Spaja argumente odvojene zarezima u tekstualni niz koji se ispisuje na ekranu. Argumenti funkcije cat() mogu biti i numerički. Možete je koristiti za pisanje naslova u ispisu i na grafikonima. Prelom reda u okviru funkcije se radi sa Tekstualni deo mora biti pod navodnicima. Funkcija round() zaokružuje broj na određeni broj decimala. Argumenti su joj broj koji želimo da zaokružimo i željeni broj decimala.
PETLJA FOR
Ponavlja određenu komandu (funkciju) dok su zadovoljeni uslovi. U narednom slučaju to radi dok je brojač (i) u opsegu od 1 do 10. Inače, brojač ne mora počinjati od 1 (npr. for (i in 15:20)) niti mora biti brojčani.
for (i in 1:10) {
podaci2[,i]=as.numeric(podaci2[,i])
}
Petlja for ponavlja naredbu sve dok je i u zadatom okviru Svakim ponavljanjem i postaje za 1 veći U ovom slučaju pretvara prvih 10 varijabli data.frame podaci2 u numerički tip. U ovom slučaju varijable su kolone data.framea jer je u indeksu [,] i posle zareza pa označava kolonu.
SLAJD 71
Lavaan
Paket za modelovanje strukturalnih jednačina
p_load(lavaan)
Učitavanje podataka
bfs<-read.table("bfd500o.dat", header = T)
Kreiranje modela (dvofaktorski sa koreliranim faktorima)
model1='F1=~V1+V2+V3+V4+V5
F2=~V6+V7+V8+V9+V10
F1~~F2'
Značenje prethodne sintakse: F1=~V1+V2+V3+V4+V5 Faktor 1 meren preko varijabli V1, V2, V3, V4 i V5 (nazivi varijabli iz data.framea bfs) F2=~V6+V7+V8+V9+V10 Faktor 2 meren preko varijabli V6, V7, V8, V9 i V10 (nazivi varijabli iz data.framea bfs F1~~F2 dozvoljeno je da Faktor 1 i Faktor 2 koreliraju
Fitovanje modela (konfirmatorna faktorska analiza). Osnovno. Više ćete raditi kasnije. Fitujemo model funkcijom cfa i smeštamo ga u objekat m1. Dovoljni argumentii su nazivi gore kreiranog modela i matrice podataka.
m1 <- cfa(model1, data=bfs)
summary(m1, fit.measures=TRUE) #osnovne informacije o modelu i pokazatelji fita
standardizedsolution(m1) #standardizovano rešenje
modindices(m1) #indeksi modifikacije
Ili bifaktorski model…
model2 <- 'G=~V1+V2+V3+V4+V5+V6+V7+V8+V9+V10; S1=~V1+V2+V3+V4+V5; S2=~V6+V7+V8+V9+V10; S1~~0*S2; G~~0*S1; G~~0*S2'
G - generalni faktor (sve varijable) S1 - prvi specifični faktor (prvih 5 varijabli) S2 - drugi specifični faktor (drugih 5 varijabli) U poslednja tri izraza operator ~~ označava kovarijansu varijabli (u ovom slučaju faktora) Premultiplikacija 0* ograničava kovarijanse varijabli na 0 (moraju biti 0 - generalni faktor ne sme korelirati sa specifičnim, a ni specifični međusobno)
Fitovanje modela
m2<-cfa(model2, bfs, estimator="WLSMV", std.lv = TRUE)
summary(m2, fit.measures=TRUE) #osnovne informacije o modelu i pokazatelji fita
standardizedsolution(m2) #standardizovano rešenje
modindices(m2) #indeksi modifikacije
Argumenti funkcije cfa: estimator - koji estimator se koristi std.lv - da li da standardizuje latentne varijable
Sintaksa lavaan modela
ČUVANJE KREIRANIH OBJEKATA NA DISKU
Komandom save.image(“Analize.Rdata”) zapisaćete sve kreirane objekte na hard disk, u radni folder (osim ako ne navedete punu putanju).
save.image("Analize.Rdata")
Možete ih ponovo učitati sa
load("Analize.Rdata")
Prethodno je potrebno da definišete radni folder, ili da navedete punu putanju do datoteke (zajedno sa imenom datoteke, u okviru navodnika npr. load(“D:/OTSS(R)/Analize.Rdata”))
