Puterea de tidyr
Pachetul tidyr , dezvoltat de Hadley Wickham, este conceput pentru a aranja seturile de date dezordonate, făcându-le mai susceptibile de analiză. Curățarea datelor implică remodelarea acestora de la un format larg la un format lung, asigurându-vă că fiecare variabilă are propria sa coloană și fiecare observație are propriul rând (Wickham & Henry, 2018). Participanții vor stăpâni arta ordonării datelor, permițându-le să-și pregătească seturile de date pentru o analiză eficientă.
Pachetul tidyr , dezvoltat de Hadley Wickham, se concentrează pe curățarea seturilor de date neîngrijite, permițând analiștilor de date și oamenilor de știință să lucreze cu datele într-un mod mai structurat și organizat (Wickham & Henry, 2018). Scopul principal este de a transforma datele dintr-un format larg într-un format lung, asigurându-se că fiecare variabilă are propria sa coloană, iar fiecare observație are propriul rând.
Iată un ghid pas cu pas despre cum să valorificați puterea tidyr în R
Instalați și încărcați pachetul tidyr
Înainte de a putea utiliza tidyr , trebuie să instalați și să încărcați pachetul. Puteți face acest lucru folosind următoarele comenzi:
install.packages (" tidyr ")
biblioteca ( tidyr )
Înțelegerea ordonării datelor
Curățarea datelor înseamnă restructurarea acestora pentru a îndeplini principiile de ordonare a datelor, așa cum sunt definite de Hadley Wickham. Într-un set de date ordonat:
Fiecare variabilă formează o coloană.
Fiecare observație formează un rând.
Fiecare valoare este în celula sa.
Datele sunt organizate într-un mod care simplifică manipularea, analiza și vizualizarea datelor.
Remodelarea datelor cu gather( )
Funcția gather( ) este un instrument fundamental pentru conversia datelor dintr-un format larg într-un format lung. Această funcție preia mai multe coloane și le restrânge în perechi cheie-valoare. Este util în special atunci când aveți de-a face cu seturi de date în care mai multe coloane reprezintă momente, categorii sau variabile diferite.
Sintaxa de bază a gather( ) este următoarea:
gathered_data <- gather( original_data , cheie = " new_key_column ", value = " new_value_column ", columns_to_gather )
original_data : setul de date original.
new_key_column : numele noii coloane care va conține numele variabilelor.
new_value_column : numele noii coloane care va conține valorile.
columns_to_gather : coloanele pe care doriți să le remodelați în perechi cheie-valoare.
Răspândirea datelor cu răspândire( )
În schimb, s-ar putea să fie nevoie să distribuiți datele dintr-un format lung într-un format larg atunci când doriți ca variabilele care sunt stocate ca perechi cheie-valoare să fie din nou coloane separate. Funcția spread( ) este utilizată în acest scop.
Sintaxa de bază a spread( ) este următoarea:
spread_data <- spread( date_originale , cheie = " coloană_cheie_nouă ", valoare = " coloană_valoare_nouă ")
original_data : setul de date original în format lung.
new_key_column : coloana care conține numele variabilelor.
new_value_column : coloana care conține valorile.
Gestionarea datelor lipsă
Când curățați datele, este posibil să întâlniți valori lipsă. Tidyr oferă funcții precum drop_na ( ) pentru a elimina rândurile care conțin valori lipsă.
Exemplu de ordonare a datelor
Să presupunem că aveți un set de date în care coloanele reprezintă ani diferiți și doriți să îl convertiți într-un format lung pentru a lucra cu el mai eficient. Puteți folosi gather( ) după cum urmează:
long_data <- gather( original_data , cheie = „An”, valoare = „Valoare”, 2000:2020)
Acest cod preia setul de date original ( original_data ) și îl transformă într-un format lung, cu două coloane noi, „An” și „Valoare”. Coloana „An” va conține anii (2000 până în 2020), iar coloana „Valoare” va conține valorile corespunzătoare.
Aranjarea pentru analiză
Curățarea datelor este un pas crucial în analiza datelor. Odată ce datele dvs. sunt ordonate, puteți utiliza eficient pachetul dplyr pentru manipularea datelor și puteți genera vizualizări perspicace cu ggplot2.
Acum că am explorat puterea tidyr în R, să trecem la următoarea secțiune, unde vom aprofunda în manipularea avansată a datelor folosind pachetul dplyr .
Eficiență cu dplyr
Pachetul dplyr , o altă creație a lui Hadley Wickham, este o gramatică a manipulării datelor. Acesta oferă un set de funcții pentru transformarea datelor, inclusiv filtrarea, aranjarea, gruparea, rezumarea și multe altele (Wickham et al., 2021). Participanții vor descoperi cum să folosească puterea dplyr pentru a discuta și transforma în mod eficient datele pentru a extrage informații semnificative.
După cum am menționat, dplyr , dezvoltat de Hadley Wickham, este un set de instrumente puternic pentru transformarea datelor, oferind o gamă de funcții care fac manipularea datelor mai intuitivă și mai eficientă (Wickham et al., 2021).
Iată un ghid cuprinzător despre cum să valorificați eficiența dplyr în R
Instalați și încărcați pachetul dplyr
Înainte de a putea utiliza dplyr , trebuie să instalați și să încărcați pachetul. Puteți face acest lucru cu următoarele comenzi:
install.packages (" dplyr ")
bibliotecă ( dplyr )
Verbele de bază
Dplyr se concentrează pe mai multe verbe esențiale care servesc ca elemente de bază pentru manipularea datelor. Aceste verbe includ:
filter( ): selectează rândurile care îndeplinesc anumite condiții.
arrange( ): Sortează rândurile pe una sau mai multe coloane.
select( ): alege anumite coloane.
mutate( ): creează variabile noi pe baza celor existente.
summarize( ): Agregează datele pentru rezumare.
Operațiuni de înlănțuire cu %>%
lui Dplyr permite înlănțuirea mai multor operațiuni împreună folosind operatorul %>% (pronunțat „pipe”). Acest lucru vă permite să creați o secvență de pași de manipulare a datelor, făcând codul mai lizibil și mai concis. De exemplu:
rezultat <- set de date %>%
filtru (condiție) %>%
selectează(coloane) %>%
aranja (comanda) %>%
group_by (grupare) %>%
rezuma (rezumat)
Filtrarea datelor cu filtru ( )
Funcția filter( ) vă permite să selectați rânduri în funcție de condiții specifice. De exemplu:
filtered_data <- dataset %>% filter( coloana > valoare)
Aranjarea datelor cu aranja ( )
Funcția arrange( ) este utilizată pentru a sorta rândurile pe baza uneia sau mai multor coloane. De exemplu:
sorted_data <- dataset %>% arrange( coloana1, coloana2)
Selectarea coloanelor cu select( )
select( ) vă permite să alegeți anumite coloane din setul de date. De exemplu:
coloane_selectate <- set de date %>% select( coloana1, coloana2)
Crearea de noi variabile cu mutate( )
mutate( ) este folosit pentru a crea variabile noi prin transformarea celor existente. De exemplu:
mutated_data <- dataset %>% mutate ( variabilă_nouă = variabilă_veche * 2)
Rezumarea datelor cu rezumat( )
Funcția summarize( ) vă permite să agregați date, ceea ce este deosebit de util pentru generarea de statistici rezumative. De exemplu:
summary_data <- dataset %>% group_by ( grouping_column ) %>% summarize( medie = medie (valoare), sd = sd (valoare))
Gruparea datelor cu group_ după ( )
Gruparea datelor cu group_ by ( ) este esențială atunci când doriți să efectuați operații pe subseturi de date. Este adesea folosit împreună cu summarize( ) pentru a calcula statistici pentru diferite grupuri.
Eficiență și verbositate a datelor
Unul dintre avantajele cheie ale dplyr este eficiența sa, deoarece operațiunile sunt optimizate pentru viteză. În plus, sintaxa clară și concisă reduce verbozitatea datelor, făcând codul mai ușor de citit și mai ușor de întreținut.
Eroare de manipulare
Dplyr oferă mesaje de eroare semnificative, care vă pot ajuta să identificați și să remediați rapid problemele din codul de manipulare a datelor.
Practică și aplicare
Pentru a deveni priceput în utilizarea dplyr , exersați pe seturi de date reale și explorați diferite scenarii de transformare a datelor. Cu cât îl folosiți mai mult, cu atât îi veți aprecia mai mult eficiența și versatilitatea.
Prin stăpânirea dplyr , veți debloca capacitatea de a discuta, manipula și extrage în mod eficient informații din datele dvs., îmbunătățind capacitatea de analiză a datelor și de luare a deciziilor.