EN | PT | TR | RO | BG | SR
;


NEXT TOPIC

SADRŽAJ JEDINICE




Modul 1: Uvod u R i uvoz/manipulacija podataka




Razviti osnovne veštine za programiranje u programskom jeziku R, uključujući rad sa podacima i kreiranje osnovnih grafikona.

Ovladati osnovnim statističkim analizama u programskom jeziku R, uključujući deskriptivnu statistiku, testiranje hipoteza i regresionu analizu.

Usavršiti obradu podataka i kreiranje naprednih grafikona u programskom jeziku R uz pomoć specijalizovanih paketa kao što su dplyr, tidyr i ggplot2.

Razviti sposobnost za primenu višestruke regresije i osnovnih programerskih koncepata u programskom jeziku R u cilju napredne analize podataka.

Savladati napredne tehnike statističke analize, uključujući analizu vremenskih serija, za primenu u različitim istraživačkim oblastima.



U današnjem svetu baziranom na podacima, sposobnost izvlačenja zaključaka iz podataka je sve cenjenija veština. Za istraživače, naučnike koji se bave obradom podataka i analitičare, programski jezik R i RStudio predstavljaju nezamenljive alate. R je poznat po svojoj fleksibilnosti u statističkom računarstvu i analizi podataka, dok RStudio pruža korisnički prijateljsko integrisano razvojno okruženje (IDE) koje poboljšava iskustvo u radu sa R-om. Ovaj modul služi kao temeljni korak, upoznavajući učesnike sa suštinskim aspektima R-a, od njegove sintakse do moćnih sposobnosti manipulacije podacima i osnovnih tehnika vizualizacije podataka. Pored toga, istražićemo i kritičnu važnost efikasnog uvoza i upravljanja podacima u kontekstu statističke analize. Do kraja ovog modula, učesnici će steći veštinu u narednim oblastima (R Core Team, 2021).



R za istraživanje podataka", uticajna knjiga autora Hadley Wickhama i Garreta Grolemunda, tvrdi da "R nije čarobna kutija koja izbacuje rezultate" (Grolemund & Wickham, 2016). Razumevanje i iskorišćavanje potencijala R-a počinje sa poznavanjem i udobnošću u njegovom okruženju. Tu dolazi do izražaja RStudio.

RStudio: RStudio je integrisano razvojno okruženje koje poboljšava iskustvo programiranja u R-u. Pruža interaktivnu platformu za rad sa R-om, čineći ga pristupačnim korisnicima svih nivoa. Da biste započeli svoje putovanje sa R-om, neophodno je da se upoznate sa RStudiom.

Evo kako da počnete:

Instalacija: Pre nego što krenete u avanturu sa R-om, morate instalirati kako R tako i RStudio. Oba su besplatno dostupna i kompatibilna su sa različitim operativnim sistemima, uključujući Windows, macOS i Linux.

Interfejs RStudija: Kada instalirate R i RStudio, otvorite RStudio. Interfejs RStudija sastoji se od četiri panela: Editor skripti (gde ćete pisati svoj kod), Konzola (gde se kod izvršava i rezultati se prikazuju), Panel okruženja/Panel istorije (koji prikazuje vaše trenutno radno okruženje i istoriju komandi) i Preglednik (istraživač) Fajlova/Grafikona/Paketa/Pomoći, koji vam omogućava da pregledate fajlove, prikažete grafikone, upravljate paketima i pristupite dokumentaciji za pomoć.

R Skripta: U Editoru skripti možete pisati, uređivati i sačuvati svoj R kod. Dobra praksa je kreiranje i čuvanje R skripti za vaše projekte, jer to olakšava reprodukovanje vašeg rada i deljenje sa drugima.

Izvršavanje koda: Da biste izvršili R kod, jednostavno ga otkucajte u Editor Skripti i pritisnite Ctrl+Enter (ili Command+Enter na macOS) ili kliknite na dugme "Pokreni". Kod će se izvršiti u Konzoli, a bilo koji izlaz ili rezultati će biti prikazani tamo.

Radno okruženje: Preglednik okruženja/Istorije prikazuje vaše trenutno radno okruženje u R-u, što uključuje objekte poput setova podataka, promenljivih i funkcija koje kreirate tokom vaših R sesija. To je koristan način da pratite vaše podatke i promenljive.

Pomoć: Kada vam je potrebna pomoć sa funkcijom ili paketom, možete koristiti karticu Pomoć da pristupite R dokumentaciji i pronađete informacije o specifičnim funkcijama ili paketima.



Sa RStudiom kao interfejsom, spremni ste da započnete programiranje u R-u. Evo nekih suštinskih aspekata koje trebate da shvatite:

Tipovi podataka: R nudi nekoliko fundamentalnih tipova podataka, uključujući numeričke, karakterne, logičke i faktore (Grolemund & Wickham, 2016). Razumevanje ovih tipova podataka je ključno za efikasnu manipulaciju podacima.

Promenljive: U R-u, promenljive se koriste za čuvanje podataka. Možete zamisliti promenljivu kao kontejner koji čuva određenu vrednost, poput broja, karaktera ili logičke (istinito ili lažno) vrednosti. Promenljive se široko koriste u R-u za analizu podataka.

Osnovne operacije: R vam omogućava da izvršite širok spektar operacija na vašim podacima. To uključuje aritmetičke operacije (sabiranje, oduzimanje, množenje i deljenje), logičke operacije (poređenja) i još mnogo toga. Savladavanje ovih operacija je ključno za manipulaciju podacima.

Vektori: U R-u, vektor je osnovna struktura podataka koja drži elemente istog tipa podataka. Možete kreirati vektore sa funkcijama poput c() (kombinuj) ili korišćenjem dvotačke : za generisanje niza brojeva. Vektori su fundamentalni za analizu i manipulaciju podacima.



Efikasan uvoz i manipulacija podacima su temelji efikasne analize podataka. R pruža mnoštvo paketa i funkcija kako biste mogli da pročitate podatke iz spoljnih izvora i pripremite ih za analizu. Dva neophodna paketa za manipulaciju podacima su dplyr i tidyr.

dplyr: Razvijen od strane Hadley Wickhama, dplyr je paket koji nudi gramatiku za manipulaciju podacima. Pruža skup funkcija za obavljanje uobičajenih zadataka manipulacije podataka sa doslednom i intuitivnom sintaksom. Ključne funkcije u dplyr-u uključuju filter() (za filtriranje redova), select() (za izbor kolona), arrange() (za sortiranje), mutate() (za kreiranje novih promenljivih) i summarize() (za sumiranje podataka). Razumevanje i korišćenje funkcija dplyr-a će vam omogućiti efikasno manipulisanje i transformisanje vaših podataka.

tidyr: Dok se dplyr fokusira na manipulaciju podacima, tidyr se bavi organizovanjem podataka. Podaci se smatraju "urednim" kada su organizovani na način koji olakšava rad sa njima. tidyr pruža funkcije poput gather() (za konverziju širokih podataka u duge podatke) i spread() (za konverziju dugih podataka u široke podatke). Organizovanjem vaših podataka pomoću tidyr-a, činite ih pogodnijim za analizu i vizualizaciju.



Efikasna analiza podataka se proteže izvan manipulacije i sumiranja podataka. Vizualizacija podataka igra ključnu ulogu u razumevanju i komunikaciji vaših nalaza. R nudi bogatstvo paketa za vizualizaciju podataka, pri čemu je ggplot2 jedan od najpopularnijih i najfleksibilnijih izbora.

ggplot2: Razvijen od strane Hadley Wickhama, ggplot2 je paket za kreiranje složenih i prilagođenih vizualizacija podataka. Koristi slojevitu gramatiku grafike koja vam omogućava da gradite vizualizacije korak po korak. Sa ggplot2-om, možete kreirati širok spektar vizualizacija, uključujući dijagrame raspršenosti za istraživanje odnosa između promenljivih, stubičaste dijagrame za poređenje kategorija i linijske grafikone za prikazivanje trendova tokom vremena. Razumevanje ggplot2-a će vam omogućiti da kreirate informativne i estetski prijatne vizualizacije koje oživljavaju vaše podatke.



Kada zakoračite u svet R-a i manipulacije podacima, napravili ste prvi korak ka vladanju svestranim i moćnim alatom za analizu podataka. R i RStudio, kada se koriste u harmoniji, pružaju interaktivno i efikasno okruženje za manipulaciju i vizualizaciju podataka. Razumevanjem tipova podataka, promenljivih, osnovnih operacija i sposobnosti dplyr-a, tidyr-a i ggplot2-a, opremili ste se temeljnim znanjem potrebnim za uspešnu analizu podataka. Sa ovim znanjem, možete početi istraživati, analizirati i vizualizovati podatke kako biste otkrili vredne uvide i efikasno komunicirali vaše nalaze.



R, besplatan i otvorenog koda, poznat je po svojoj svestranosti u statističkom računarstvu i analizi podataka (Gentleman & Temple Lang, 2004). RStudio, integrisano razvojno okruženje (IDE), pruža interaktivnu platformu za rad sa R-om, čineći ga pristupačnim korisnicima svih nivoa. Učesnici će postati upoznati sa interfejsom RStudija, naučiti kako da se kreću kroz R skripte i razumeju radni tok učitavanja, obrade i vizualizacije podataka.



Fundamentalno razumevanje R programiranja zahteva razumevanje tipova podataka, promenljivih i osnovnih operacija. R nudi različite tipove podataka, uključujući numeričke, karakterne, logičke i faktore (Grolemund & Wickham, 2016). Učesnici će naučiti kako da deklarišu i manipulišu promenljivima, izvode aritmetičke operacije i koriste funkcije za izvršavanje specifičnih zadataka. Savladavanjem ovih osnova, učesnici mogu efikasno obavljati zadatke vezane za podatke.

Započeti putovanje R programiranja znači prihvatiti osnovne elemente koji su u osnovi analize podataka i statističkog računarstva. Temeljno razumevanje R programiranja zahteva sveobuhvatno razumevanje tipova podataka, promenljivih i osnovnih operacija. U ovom modulu, bavićemo se suštinom ovih osnovnih koncepata, opremajući polaznike osnovnim znanjem i veštinama za efikasnu manipulaciju podacima i izvršavanje zadataka efikasno (Grolemund & Wickham, 2016).



U srcu R programiranja leži pojam tipova podataka. U suštini, tipovi podataka definišu kako R interpretira i interaguje sa informacijama koje pružate. R nudi raznovrsnu lepezu tipova podataka, a razumevanje njihove prirode je osnovno za iskorišćavanje sposobnosti jezika. Hajde da se osvrnemo na najvažnije tipove podataka:

  • Numerički: Numerički tipovi podataka obuhvataju širok spektar numeričkih vrednosti. To mogu biti celi brojevi (integer) i realni brojevi (decimalni). Razumevanje numeričkih tipova podataka je ključno za obavljanje matematičkih i statističkih operacija.
  • Karakter: Karakterni tipovi podataka sastoje se od teksta i koriste se za predstavljanje reči, rečenica ili bilo kog drugog oblika tekstualnih informacija. Mogućnost rukovanja karakterima je neprocenjiva prilikom rada sa tekstom ili oznakama.
  • Logički: Logički tipovi podataka su binarni prirode, predstavljajući istinite ili lažne vrednosti. Ključni su za kreiranje uslova i donošenje odluka u R kodu.
  • Faktori: Faktori su jedinstveni tipovi podataka u R-u, predstavljajući kategoričke podatke. Posebno su korisni kada se bavite promenljivama koje imaju konačan broj kategorija ili nivoa.


Promenljive u R-u su slične kontejnerima koji čuvaju podatke. One služe kao osnovne gradivne jedinice za svaki R program. Možete zamisliti promenljivu kao obeleženo mesto za čuvanje određene informacije. Promenljive u R-u treba da imaju informativna imena koja odražavaju tip podataka koji čuvaju. Na primer, promenljiva nazvana "age" (“godine”) može čuvati godine pojedinaca u skupu podataka.

U R-u, deklarišete promenljivu dodeljivanjem vrednosti koristeći operator dodele <-. Na primer, da biste deklarisali promenljivu "x" sa vrednošću 5, napisali biste:

x <– 5

Promenljive mogu čuvati podatke različitih tipova podataka. Na primer, možete deklarisati karakternu promenljivu na sledeći način:

ime <- "John"

Jednom kada je promenljiva deklarisana, možete je koristiti u vašem R kodu za različite operacije i izračunavanja. Mogućnost manipulisanja promenljivama je centralna za analizu podataka i programiranje u R-u.



R vam omogućava da izvršavate širok spektar operacija nad vašim podacima. Ove operacije uključuju:

  • Aritmetičke Operacije: R vam omogućava da izvršavate osnovne aritmetičke operacije kao što su sabiranje (+), oduzimanje (-), množenje (*) i deljenje (/). Ove operacije su posebno korisne za rad sa numeričkim podacima.
  • Logičke Operacije: Možete koristiti logičke operatore kao što su veće od (>), manje od (<), jednako (==) i nije jednako (!=) za poređenje vrednosti i kreiranje logičkih uslova. Logičke operacije su ključne za donošenje odluka u vašem kodu.
  • Funkcije: Funkcije su fundamentalni koncept u R-u. R pruža ogroman broj ugrađenih funkcija koje služe različitim svrhema. Funkcije su unapred definisane operacije koje možete koristiti za obavljanje specifičnih zadataka. Na primer, funkcija mean() računa srednju vrednost skupa brojeva, a funkcija paste() kombinuje karakterne nizove. Razumevanje kako koristiti funkcije je ključno za automatizaciju zadataka i obavljanje složenih operacija.

Dobro poznavanje tipova podataka, varijabli i osnovnih operacija je osnova na kojoj možete izgraditi svoje znanje u R programiranju. Sa ovim osnovnim znanjem, spremni ste da se suočite sa širokim spektrom zadataka vezanih za podatke, od izvođenja jednostavnih aritmetičkih operacija do kreiranja složenih logičkih uslova i korišćenja funkcija za optimizaciju vašeg koda.

Kako budete nastavili svoje putovanje u svet R programiranja, ove osnove će vam služiti kao vodilja, omogućavajući vam da efikasno manipulišete podacima, donosimo informisane odluke i automatizujemo zadatke. Sa svakim korakom, približavaćete se majstorstvu nad podacima, otkrivajući potencijal za dubinsku analizu podataka i istraživanje.



Uvoz i manipulacija podacima su temelj pravilne analize podataka. U ovom modulu ćemo istražiti oblast rukovanja podacima unutar R okruženja, opremajući učesnike veštinama potrebnim za preuzimanje, manipulaciju i pripremu podataka za analizu. Robusno razumevanje uvoza i manipulacije podacima je ključno za osiguravanje da su podaci u odgovarajućem formatu za analizu i za optimizaciju celokupnog procesa predobrade podataka (Wickham et al., 2021).



Inicijalni korak u svakoj analizi podataka je akvizicija podataka. R nudi ogroman niz alata i paketa za olakšavanje besprekornog uvoza podataka iz različitih spoljašnjih izvora. Bilo da se podaci nalaze u CSV fajlu, Excel tabeli, bazi podataka ili drugim formatima, R pruža mogućnosti za pristup njima. Ovaj modul će istražiti uobičajene alate i metode za uvoz podataka u R:

  • csv() i read.table(): Ove funkcije omogućavaju čitanje podatka iz CSV i tab-delimitiranih fajlova, respektivno. Nude mnoštvo opcija za prilagođavanje procesa uvoza, kao što su specificiranje delimitera i rukovanje nedostajućim vrednostima.
  • Paket readxl: Kada radite sa Excel fajlovima, paket readxl je glavni alat. Pojednostavljuje ekstrakciju podataka iz Excel radnih svezaka, listova i opsega.
  • Paket readr: Paket readr, takođe od Hadley Wickham-a, nudi set funkcija za brzo i efikasno učitavanje podataka. Poboljšava proces uvoza podataka pružajući funkcije kao što su read_csv() i read_delim() koje optimizuju čitanje tekstualnih podataka.

Konekcije na baze podataka: R može da se poveže sa bazama podataka koristeći pakete kao što su DBI i RODBC, omogućavajući vam da preuzimate podatke direktno iz sistema baza podataka. Ovo je posebno korisno kada radite sa velikim skupovima podataka koji su pohranjeni u bazama podataka.



Manipulacija podacima često podrazumeva zadatke kao što su filtriranje, sumiranje, grupisanje i spajanje skupova podataka. Paket dplyr, autora Hadley Wickham-a, pojednostavljuje ove operacije pružajući konzistentnu i intuitivnu gramatiku za manipulaciju podacima. Uvodi pet osnovnih naredbi:

  • filter(): Koristite ovu naredbu da biste izdvojili specifične redove iz vašeg skupa podataka na osnovu određenih uslova.
  • arrange(): Rasporedite redove skupa podataka na osnovu jedne ili više varijabli, bilo uzlaznim ili silaznim redosledom.
  • select(): Izaberite podskup kolona iz skupa podataka, što olakšava fokusiranje na relevantne podatke.
  • mutate(): Kreirajte nove varijable ili modifikujte postojeće primenom funkcija ili operacija na vaše podatke.
  • summarize(): Prikažite sažete statistike o podacima, agregirajući informacije u jedan izveštaj.


Podaci nisu uvek u formatu najprikladnijem za analizu. Paket tidyr pomaže da preoblikujete vaše podatke u uredan, organizovan format. Uredni podaci su strukturirani tako da svaka varijabla čini kolonu, svaka observacija čini red, i svaka vrsta observacione jedinice čini tabelu. Ovaj strukturirani format pojednostavljuje analizu podataka i vizualizaciju. Sa tidyr, možete izvoditi operacije kao što su sakupljanje kolona u parove ključ-vrednost i ponovno širenje u zasebne kolone.

Na kraju ovog modula, steći ćete veštine za efikasan uvoz, manipulaciju i transformaciju podataka koristeći R. Uvoz i manipulacija podacima su početni gradivni blokovi analize podataka, a ove veštine su esencijalne za pripremu vaših podataka za dublje istraživanje i analizu. Kako budete napredovali u svojoj analizi podataka sa R-om, ove sposobnosti će biti neprocenjive za osiguranje kvaliteta i pogodnosti vaših podataka za vaše istraživačke ili analitičke ciljeve.



U oblasti analize podataka, sposobnost efikasne vizualizacije podataka je veština od najveće važnosti. Vizualizacija podataka ne samo da pomaže u razumevanju osnovne strukture i obrazaca unutar podataka, već takođe služi kao moćan način prenošenja nalaza drugima. U ovom modulu ćemo zakoračiti u svet vizualizacije podataka koristeći paket ggplot2, svestran alat za kreiranje širokog spektra vizualizacija (Wickham, 2016).



Hadley Wickham-ov ggplot2 je široko priznat paket u R ekosistemu, poznat po svojoj fleksibilnosti i elegantnoj sintaksi. Za razliku od osnovnih R grafika, koje ponekad mogu biti nezgodne i manje intuitivne, ggplot2 uvodi gramatiku grafika, koja pojednostavljuje proces kreiranja složenih i estetski prijatnih vizualizacija.

Jedan od fundamentalnih principa ggplot2 je pristup slojevima. Dodajete slojeve svom grafiku korak po korak, postepeno gradeći vizualizaciju. Ovaj pristup je posebno koristan kada želite da kreirate složene grafike sa više komponenti. Hajde da istražimo vrste grafikona koje ćemo istražiti u ovom modulu.



Scatterplot-i: otkrijte odnose

Scatterplot-i ili dijagrami raspršenosti, su neprocenjivi kada trebate da razumete odnose između dve kontinuirane varijable. Omogućavaju vam da vizualizujete kako promene u jednoj varijabli utiču na drugu. U ggplot2, kreiranje scatterplot-a je jednostavan proces. Specificiraćete podatke, mapirati varijable na estetske osobine (kao što su pozicije na x i y-osi) i dodati tačke ili druge geometrije da predstavljaju podatke.

Bar Plot-ovi: uporedite kategorije

Bar plot-ovi ili stubični dijagrami su fantastičan izbor za poređenje kategorija ili grupa. Uobičajeno se koriste za prikazivanje brojeva ili proporcija kategorijalnih podataka. Možete kreirati i vertikalne i horizontalne bar plot-ove, u zavisnosti od vaših preferencija. U ggplot2, kreiranje bar plot-ova je intuitivno i visoko prilagodljivo. Možete kontrolisati izgled barova, etikete osa i boje kako biste efikasno preneli svoje podatke.

Linijski dijagrami: prikazivanje trendova

Linijski dijagrami se koriste kada želite da vizualizujete trendove i promene tokom vremena. Ovi dijagrami su posebno korisni za vremenske serije podataka ili bilo koje podatke koji imaju prirodan redosled. U ggplot2, kreiranje line graph-ova je i jednostavno i visoko prilagodljivo. Možete plotovati više linija na istom grafiku, prilagoditi tipove i boje linija, i dodati informativne etikete i anotacije.

Do kraja ovog modula trebalo bi da znate kako da kreirate dijagrame raspršenosti, bar plot-ove i linijske dijagrame koristeći ggplot2. Veštine stečene ovde osposobiće vas da vizuelno istražujete i predstavite svoje podatke. Vizualizacija podataka je univerzalni jezik koji prevazilazi disciplinarne granice, i vaša sposobnost da kreirate uverljive i informativne vizualizacije biće dragocena imovina u vašem putovanju analize podataka.

Ovaj modul pruža osnovu za veštu upotrebu R-a i RStudio-a, osnažujući učesnike da započnu vrše  analizu, manipulaciju i vizualizaciju podataka.



Gentleman, R., & Temple Lang, D. (2004). Statistical analyses and reproducible research. Bioconductor Project. https://bioconductor.org/help/course-materials/2003/RESOURCES/inst/doc/HowTo/curation-1.pdf

Grolemund, G., & Wickham, H. (2016). R for data science. O'Reilly Media.

R Core Team. (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer. https://ggplot2.tidyverse.org /

Wickham, H., Averick, M., Bryan, J., Chang, W., McGowan, L. D., François, R., ... & R Studio. (2021). Welcome to the tidyverse. Journal of Open Source Software, 6(1), 1686.