Elearning CORE Project

Moć tidyr-a

Paket tidyr, koji je razvio Hadley Wickham, dizajniran za rad sa nesređenim (sirovim) skupovima podataka, čineći ih pogodnijim za analizu. Sređivanje podataka podrazumeva njihovo preoblikovanje iz širokog formata u dugi format, osiguravajući da svaka promenljiva ima svoju kolonu, a svako opažanje svoj red. Ovladaćete tehnikama sređivanja podataka, koje će vam omogućiti da pripremite svoje skupove podataka za efikasnu analizu.

Paket tidyr, omogućava analitičarima i naučnicima da rade sa podacima na strukturiraniji i organizovaniji način. Primarni cilj je transformisanje podataka iz širokog formata u dugi format, osiguravajući da svaka promenljiva ima svoju kolonu, a svako opažanje svoj red.

Evo vodiča korak po korak kako da iskoristite moć tidyr-a u R-u

Instalacija i učitavanje paketa tidyr

Najpre je neophodno instalirati paket a potom ga i učitati u radno okruženje kako bi bio dostupan za upotrebu. To možete učiniti pomoću sledećih komandi:

install.packages("tidyr")

library(tidyr)

Razumevanje sređivanja podataka

Sređivanje podataka znači restrukturiranje kako bi se ispoštovala načela urednih podataka, kako ih definiše Hadley Wickham. U urednom skupu podataka:

Svaka promenljiva formira kolonu.
Svako opažanje formira red.
Svaka vrednost je u svojoj ćeliji.

Podaci su organizovani na način koji pojednostavljuje njihovu manipulaciju, analizu i vizualizaciju.

Preoblikovanje podataka sa gather()

Funkcija gather() je osnovni alat za konvertovanje podataka iz širokog formata u dugi format. Ova funkcija uzima više kolona i spaja ih u ključ-vrednost parove. Posebno je korisna kada radite sa skupovima podataka gde više kolona predstavlja različite vremenske tačke, kategorije ili promenljive.

Osnovna sintaksa gather() je sledeća:

gathered_data <- gather(original_data, key = "new_key_column", value = "new_value_column", columns_to_gather)

original_data: originalni skup podataka.
new_key_column: ime nove kolone koja će sadržati imena promenljivih.
new_value_column: ime nove kolone koja će sadržati vrednosti.
columns_to_gather: kolone koje želite da preoblikujete u parove ključ-vrednost.

Širenje podataka sa spread()

Nasuprot tome, možda ćete morati da transformišete podatke iz dugog formata u široki format kada želite da promenljive koje su sačuvane kao parovi ključ-vrednost ponovo budu zasebne kolone. Za ovu vrstu transformacije se koristi funkcija spread().

Osnovna sintaksa spread() je sledeća:

spread_data <- spread(original_data, key = "new_key_column", value = "new_value_column")

original_data: originalni skup podataka u dugom formatu.
new_key_column: kolona koja sadrži imena promenljivih.
new_value_column: kolona koja sadrži vrednosti.

Rukovanje nedostajućim podacima

Kada sređujete podatke, možete naići na nedostajuće vrednosti. tidyr pruža funkcije kao što je drop_na() za uklanjanje redova koji sadrže nedostajuće vrednosti.

Primer sređivanja podataka

Recimo da imate skup podataka gde kolone predstavljaju različite godine (year), a vi želite da ga konvertujete u dugi format kako biste efikasnije radili sa njim. Možete koristiti gather() na sledeći način:

long_data <- gather(original_data, key = "Year", value = "Value", 2000:2020)

Ovaj kod uzima originalni skup podataka (original_data) i transformiše ga u dugi format, sa dve nove kolone, "Year" i "Value". Kolona "Year" će sadržati godine (od 2000 do 2020), a kolona "Value" će sadržati odgovarajuće vrednosti.

Sređivanje za analizu

Sređivanje podataka je ključni korak u okviru analize podataka. Kada su podaci uredni, možete efikasno koristiti paket dplyr za manipulaciju podacima i generisati vizualizacije sa ggplot2.

Efikasnost sa dplyr

Paket dplyr, još jedna kreacija Hadley Wickhama, predstavlja gramatiku manipulacije podacima. Pruža skup funkcija za transformaciju podataka, uključujući filtriranje, raspoređivanje, grupisanje, sumiranje i dr (Wickham et al., 2021). Naučićete kako da iskoriste moć dplyr-a za efikasno oblikovanje i transformaciju podataka kako bi izvukli zaključke.

Evo sveobuhvatnog vodiča o tome kako da iskoristite efikasnost dplyr-a u R-u.

Instalacija i učitavanje paketa dplyr

Najpre je neophodno instalirati paket dplyr a potom ga i učitati u radno okruženje kako bi bio dostupan za upotrebu. To možete učiniti pomoću sledećih komandi

install.packages("dplyr")

library(dplyr)

Osnovne naredbe

Dplyr se fokusira na nekoliko osnovnih naredbi koje služe kao građevinski blokovi za manipulaciju podacima:

filter(): selekcija redova koji ispunjavaju specifične uslove.
arrange(): sortiranje redova na osnovu jedne ili više kolona.
select(): odabir specifičnih kolona.
mutate(): kreiranje novih promenljivih na osnovu postojećih.
summarize(): agregiranje podataka za sumiranje.

Povezivanje operacija sa %>%

Sintaksa dplyr-a omogućava povezivanje više operacija zajedno koristeći operator %>% (izgovara se "pipe"). Ovo omogućava kreiranje sekvenci koraka za manipulaciju podacima, čineći kod čitljivijim i konciznijim. Na primer:

result <- dataset %>%

filter(condition) %>%

select(columns) %>%

arrange(order) %>%

group_by(grouping) %>%

summarize(summary)

Filtriranje podataka sa filter()

Funkcija filter() omogućava selekciju redova na osnovu specifičnih uslova. Na primer:

filtered_data <- dataset %>% filter(column > value)

Raspoređivanje podataka sa arrange()

Funkcija arrange() se koristi za sortiranje redova na osnovu jedne ili više kolona. Na primer:

sorted_data <- dataset %>% arrange(column1, column2)

Odabir kolona sa select()

select() omogućava odabir specifičnih kolona iz vašeg skupa podataka. Na primer:

selected_columns <- dataset %>% select(column1, column2)

Kreiranje novih promenljivih sa mutate()

mutate() se koristi za kreiranje novih promenljivih transformacijom postojećih. Na primer:

mutated_data <- dataset %>% mutate(new_variable = old_variable * 2)

Sumiranje podataka sa summarize()

Funkcija summarize() omogućava agregiranje podataka, stvarajući sažetak. Ovo se često koristi u kombinaciji sa group_by(), što omogućava sumiranje po grupama. Na primer:

summary_data <- dataset %>% group_by(group_variable) %>% summarize(mean_value = mean(target_variable))

Koristeći dplyr i tidyr, možete efikasno manipulirati podacima i pripremiti ih za dalju analizu i vizualizaciju. Ovi alati omogućavaju jednostavnu, ali moćnu obradu podataka, olakšavajući analitičku putanju.

Modul 3: Napredna manipulacija podacima i grafikoni

Napredna manipulacija podacima sa tidyr i dplyr