Upute za rad s R-om
Damir Ćavar, veljača 2010.

Instalacija
R možete naći na mrežmim stranicama:
Ako niste korisnik neke tipične verzije Linuxa (Ubuntu, Debian, Suse, Fedora itd.), skinite verziju za vaš operativni sustav. Ako koristite Linux, obično vam alati za instalaciju i dodavanje softvera nude mogućnost dodati R sustav i grafičko sučelje (npr. R-Commander).
Za primjere u sljedećem tekstu modul stats u R-u mora biti aktivan (tj. učitan). Za sve primjere koristimo program R, i to konkretno R Console, koji izgleda drugčije na različitim operativnim sustavima:

Mac OS X:


Ubuntu Linux 10.04 - Terminal i R-Commander:



Microsoft Windows:


Osnovne funkcije
Podaci za analizu mogu se dodavati ručno u R-u na način:

podaci1 = c(2.34, 4.32, 3.24, 4.34)

To eksplicitno znači da niz rezultata unutar okruglih zagrada sačuvamo u memoriji pod imenom podaci1. Ime podaci1 nam služi kao varijabla u pozivanju različitih funkcija za analizu tih podataka ili rezultata, tako da ih ne moramo ubacivati u sustav svaki put iznova. Promjene rezultata i podataka mogu se isto tako sačuvati pod tim imenom.

Ako pogledate slajdove 1, možete sve analize izvoditi jednostavno u R-u. Tako se može aritmetička sredina dobiti komandom:

mean(podaci1)

Ta komanda je ista kao i:

mean(c(2.34, 4.32, 3.24, 4.34))

Srednja vrijednost dobije se komandom:

median(podaci1)

Najmanji i najveći rezultat možete dobiti komandama:

min(podaci1)
max(podaci1)


A raspon varijacije (znači najmanja i najveća vrijednost, i oduzimanje manje vrijednosti od veće) dobijete s komandom:

range(podaci1)

Zbrajanje svih rezultata u strukturi podataka podaci1 može se postići komandom:

sum(podaci1)

Varijancu možete izračunati komandom:

var(podaci1)

Standardnu devijaciju za podatke dobijete s komandom:

sd(podaci1)

Ako podatke imate složene u nekoj datoteci, možete ih učitati iz datoteke. Podatci mogu biti složeni u obliku “tabele”, kao npr.:

token frequency length
meštrom 1 7
pićan 1 5
znamenite 2 9
manzonijeve 3 11
snime 1 5
iis 1 3
daržavom 1 8
zasladi 1 7
profiliranu 1 11
osmjehnu 2 8
braku 10 5
orane 1 5
...


Ovi podaci su generirani iz nekoliko knjiga iz Hrvatskog jezičnog korpusa. Cijela datoteka nalazi se u pretincu Datoteke. Skinite datoteku sample.dat na svoje računalo i u R-u izvedite komandu:

words=read.table(file=file.choose(),header=TRUE)

Ako koristite Microsoft Windows i R ne učitava datoteku, pokušajte specificirati kodiranje podataka. Podaci u sample.dat su kodirani u UTF-8 formatu. Windows korisnici mogu pokušati učitati sample-ANSI.dat datoteku (u pretincu Datoteke), u kojoj su podaci kodirani u ANSI kodu. Ako koristite ANSI kodirane podatke, ne morate specificirati kod podataka, tj. koristite komandu bez encoding parametra.

words=read.table(file=file.choose(),header=TRUE,encoding="UTF-8")

Neke verzije R-Commander sučelja pod Linuxima ne otvaraju prozor za selekciju datoteke s komandom file=file.choose(). Jedino brzo i jednostavno riješenje je da specificirate ime datoteke bez prozora za selekciju datoteke, ako se datoteka sample.dat nalazi u folderu /tmp:

words=read.table(file="/tmp/sample.dat",header=TRUE,encoding="UTF-8")

Ta komanda bi otvorila datoteku bez mogućnosti izabira u prozoru za selekciju datoteke.

Komanda s file.choose() dijelom, otvoriti će prozor za izbor datoteke za učitavanje. Za to otvaranje izbornog prozora odgovorna je potkomanda: file.choose(). Dodatak “header=TRUE” označava da su podaci u datoteci složeni kako opisano u prvom redu koji se smatra naslovom za razrede podataka. Ako izaberete datoteku sample.dat, R će učitati podatke i sačuvati ih u varijabli words.

Sadržaj te varijable, znači sve podatke o frekvencijama i dužini riječi, dodajemo radnome sučelju ili aktiviramo u istome s komandom:

attach(words)

Možemo npr. prikazati relaciju između frekvencije riječi i njihove dužine sa sljedećom komandom:

plot(length,frequency)

Ako je sve do sada bilo u redu, rezultat te komande za generiranje grafike trebao bi izgledati kao sljedeći graf:



Isti graf nalazi se u pretincu Datoteke u PDF formatu za otvaranje u Acrobat Readeru. Ime te datoteke je Word-Freq-Length.pdf.