Elearning CORE Project

Manipulare avansată a datelor folosind pachetele tidyr și dplyr .

Crearea de parcele complexe și avansate folosind ggplot2, inclusiv personalizarea esteticii intrării, cum ar fi culorile și temele.

Pachete specializate pentru manipularea și vizualizarea datelor, cum ar fi lubrifiat , forcats și gridExtra .

» Manipularea avansată a datelor și grafică

În domeniul în continuă expansiune al științei datelor, abilitatea de a manipula și vizualiza în mod eficient datele este indispensabilă. Modulul 3 servește ca o piatră de temelie pentru a vă propulsa abilitățile de analiză a datelor la următorul nivel, aprofundând în tehnici avansate de manipulare a datelor și prin crearea de vizualizări de date complexe, personalizate. Aici, explorăm capacitățile avansate ale pachetelor tidyr și dplyr pentru manipularea datelor și vă introducem în lumea plotării avansate folosind ggplot2. În plus, ne vom aventura în pachete specializate precum lubridate , forcats și gridExtra pentru a îmbunătăți și mai mult setul de instrumente de analiză a datelor.

» Manipulare avansată a datelor cu tidyr și dplyr

Puterea de tidyr

Pachetul tidyr , dezvoltat de Hadley Wickham, este conceput pentru a aranja seturile de date dezordonate, făcându-le mai susceptibile de analiză. Curățarea datelor implică remodelarea acestora de la un format larg la un format lung, asigurându-vă că fiecare variabilă are propria sa coloană și fiecare observație are propriul rând (Wickham & Henry, 2018). Participanții vor stăpâni arta ordonării datelor, permițându-le să-și pregătească seturile de date pentru o analiză eficientă.

Pachetul tidyr , dezvoltat de Hadley Wickham, se concentrează pe curățarea seturilor de date neîngrijite, permițând analiștilor de date și oamenilor de știință să lucreze cu datele într-un mod mai structurat și organizat (Wickham & Henry, 2018). Scopul principal este de a transforma datele dintr-un format larg într-un format lung, asigurându-se că fiecare variabilă are propria sa coloană, iar fiecare observație are propriul rând.

Iată un ghid pas cu pas despre cum să valorificați puterea tidyr în R

Instalați și încărcați pachetul tidyr

Înainte de a putea utiliza tidyr , trebuie să instalați și să încărcați pachetul. Puteți face acest lucru folosind următoarele comenzi:

install.packages (" tidyr ")

biblioteca ( tidyr )

Înțelegerea ordonării datelor

Curățarea datelor înseamnă restructurarea acestora pentru a îndeplini principiile de ordonare a datelor, așa cum sunt definite de Hadley Wickham. Într-un set de date ordonat:

Fiecare variabilă formează o coloană.

Fiecare observație formează un rând.

Fiecare valoare este în celula sa.

Datele sunt organizate într-un mod care simplifică manipularea, analiza și vizualizarea datelor.

Remodelarea datelor cu gather( )

Funcția gather( ) este un instrument fundamental pentru conversia datelor dintr-un format larg într-un format lung. Această funcție preia mai multe coloane și le restrânge în perechi cheie-valoare. Este util în special atunci când aveți de-a face cu seturi de date în care mai multe coloane reprezintă momente, categorii sau variabile diferite.

Sintaxa de bază a gather( ) este următoarea:

gathered_data <- gather( original_data , cheie = " new_key_column ", value = " new_value_column ", columns_to_gather )

original_data : setul de date original.

new_key_column : numele noii coloane care va conține numele variabilelor.

new_value_column : numele noii coloane care va conține valorile.

columns_to_gather : coloanele pe care doriți să le remodelați în perechi cheie-valoare.

Răspândirea datelor cu răspândire( )

În schimb, s-ar putea să fie nevoie să distribuiți datele dintr-un format lung într-un format larg atunci când doriți ca variabilele care sunt stocate ca perechi cheie-valoare să fie din nou coloane separate. Funcția spread( ) este utilizată în acest scop.

Sintaxa de bază a spread( ) este următoarea:

spread_data <- spread( date_originale , cheie = " coloană_cheie_nouă ", valoare = " coloană_valoare_nouă ")

original_data : setul de date original în format lung.

new_key_column : coloana care conține numele variabilelor.

new_value_column : coloana care conține valorile.

Gestionarea datelor lipsă

Când curățați datele, este posibil să întâlniți valori lipsă. Tidyr oferă funcții precum drop_na ( ) pentru a elimina rândurile care conțin valori lipsă.

Exemplu de ordonare a datelor

Să presupunem că aveți un set de date în care coloanele reprezintă ani diferiți și doriți să îl convertiți într-un format lung pentru a lucra cu el mai eficient. Puteți folosi gather( ) după cum urmează:

long_data <- gather( original_data , cheie = „An”, valoare = „Valoare”, 2000:2020)

Acest cod preia setul de date original ( original_data ) și îl transformă într-un format lung, cu două coloane noi, „An” și „Valoare”. Coloana „An” va conține anii (2000 până în 2020), iar coloana „Valoare” va conține valorile corespunzătoare.

Aranjarea pentru analiză

Curățarea datelor este un pas crucial în analiza datelor. Odată ce datele dvs. sunt ordonate, puteți utiliza eficient pachetul dplyr pentru manipularea datelor și puteți genera vizualizări perspicace cu ggplot2.

Acum că am explorat puterea tidyr în R, să trecem la următoarea secțiune, unde vom aprofunda în manipularea avansată a datelor folosind pachetul dplyr .

Eficiență cu dplyr

Pachetul dplyr , o altă creație a lui Hadley Wickham, este o gramatică a manipulării datelor. Acesta oferă un set de funcții pentru transformarea datelor, inclusiv filtrarea, aranjarea, gruparea, rezumarea și multe altele (Wickham et al., 2021). Participanții vor descoperi cum să folosească puterea dplyr pentru a discuta și transforma în mod eficient datele pentru a extrage informații semnificative.

După cum am menționat, dplyr , dezvoltat de Hadley Wickham, este un set de instrumente puternic pentru transformarea datelor, oferind o gamă de funcții care fac manipularea datelor mai intuitivă și mai eficientă (Wickham et al., 2021).

Iată un ghid cuprinzător despre cum să valorificați eficiența dplyr în R

Instalați și încărcați pachetul dplyr

Înainte de a putea utiliza dplyr , trebuie să instalați și să încărcați pachetul. Puteți face acest lucru cu următoarele comenzi:

install.packages (" dplyr ")

bibliotecă ( dplyr )

Verbele de bază

Dplyr se concentrează pe mai multe verbe esențiale care servesc ca elemente de bază pentru manipularea datelor. Aceste verbe includ:

filter( ): selectează rândurile care îndeplinesc anumite condiții.

arrange( ): Sortează rândurile pe una sau mai multe coloane.

select( ): alege anumite coloane.

mutate( ): creează variabile noi pe baza celor existente.

summarize( ): Agregează datele pentru rezumare.

Operațiuni de înlănțuire cu %>%

lui Dplyr permite înlănțuirea mai multor operațiuni împreună folosind operatorul %>% (pronunțat „pipe”). Acest lucru vă permite să creați o secvență de pași de manipulare a datelor, făcând codul mai lizibil și mai concis. De exemplu:

rezultat <- set de date %>%

filtru (condiție) %>%

selectează(coloane) %>%

aranja (comanda) %>%

group_by (grupare) %>%

rezuma (rezumat)

Filtrarea datelor cu filtru ( )

Funcția filter( ) vă permite să selectați rânduri în funcție de condiții specifice. De exemplu:

filtered_data <- dataset %>% filter( coloana > valoare)

Aranjarea datelor cu aranja ( )

Funcția arrange( ) este utilizată pentru a sorta rândurile pe baza uneia sau mai multor coloane. De exemplu:

sorted_data <- dataset %>% arrange( coloana1, coloana2)

Selectarea coloanelor cu select( )

select( ) vă permite să alegeți anumite coloane din setul de date. De exemplu:

coloane_selectate <- set de date %>% select( coloana1, coloana2)

Crearea de noi variabile cu mutate( )

mutate( ) este folosit pentru a crea variabile noi prin transformarea celor existente. De exemplu:

mutated_data <- dataset %>% mutate ( variabilă_nouă = variabilă_veche * 2)

Rezumarea datelor cu rezumat( )

Funcția summarize( ) vă permite să agregați date, ceea ce este deosebit de util pentru generarea de statistici rezumative. De exemplu:

summary_data <- dataset %>% group_by ( grouping_column ) %>% summarize( medie = medie (valoare), sd = sd (valoare))

Gruparea datelor cu group_ după ( )

Gruparea datelor cu group_ by ( ) este esențială atunci când doriți să efectuați operații pe subseturi de date. Este adesea folosit împreună cu summarize( ) pentru a calcula statistici pentru diferite grupuri.

Eficiență și verbositate a datelor

Unul dintre avantajele cheie ale dplyr este eficiența sa, deoarece operațiunile sunt optimizate pentru viteză. În plus, sintaxa clară și concisă reduce verbozitatea datelor, făcând codul mai ușor de citit și mai ușor de întreținut.

Eroare de manipulare

Dplyr oferă mesaje de eroare semnificative, care vă pot ajuta să identificați și să remediați rapid problemele din codul de manipulare a datelor.

Practică și aplicare

Pentru a deveni priceput în utilizarea dplyr , exersați pe seturi de date reale și explorați diferite scenarii de transformare a datelor. Cu cât îl folosiți mai mult, cu atât îi veți aprecia mai mult eficiența și versatilitatea.

Prin stăpânirea dplyr , veți debloca capacitatea de a discuta, manipula și extrage în mod eficient informații din datele dvs., îmbunătățind capacitatea de analiză a datelor și de luare a deciziilor.

» Vizualizare complexă a datelor cu ggplot2

Deblocarea potențialului ggplot2

ggplot2, un pachet cuprinzător de vizualizare a datelor dezvoltat de Hadley Wickham, este cunoscut pentru flexibilitatea și eleganța sa (Wickham, 2016). Vă permite să creați intrări complicate și informative. Veți călători în inima vizualizării datelor cu ggplot2, învățând cum să construiți diagrame complexe care descriu relații, tendințe și modele în datele dvs.

După cum sa menționat, ggplot2, dezvoltat de Hadley Wickham, este un set de instrumente puternic și flexibil pentru vizualizarea datelor, oferind o abordare structurată și stratificată pentru crearea de diagrame complexe (Wickham, 2016).

Iată un ghid detaliat despre deblocarea potențialului ggplot2 în R

Instalați și încărcați pachetul ggplot2

Dacă nu ați făcut-o deja, trebuie să instalați și să încărcați pachetul ggplot2. Puteți face acest lucru cu următoarele comenzi:

install.packages ("ggplot2")

bibliotecă (ggplot2)

Gramatica de bază a ggplot2

ggplot2 este construit pe conceptul de „gramatică a graficii”, care oferă o modalitate structurată de a crea parcele. Componentele esențiale ale unui diagramă ggplot2 includ date, mapări estetice, obiecte geometrice ( geoms ) și fațete. Structura de bază a unui grafic ggplot2 arată astfel:

ggplot ( data = your_data , aes (x = x_variable , y = y_variable )) +

punct_ geom ( )

Date și estetică

Argumentul de date specifică setul de date cu care lucrați.

aes ( ) (mapări estetice) este utilizată pentru a defini modul în care variabilele sunt mapate la elementele vizuale din diagramă. De exemplu, puteți mapa variabilele x și y ale datelor dvs. la axele x și y ale diagramei.

Obiecte geometrice ( Geoms )

Obiectele geometrice, sau geoms , definesc tipul de parcelă pe care doriți să-l creați. Unele geomuri comune includ:

geom_ point ( ): creează un grafic de dispersie.

geom_ line ( ): generează grafice cu linii.

geom_ bar ( ): Construiește diagrame cu bare.

geom_ boxplot ( ): Produce boxplot.

Personalizarea parcelei dvs

ggplot2 oferă opțiuni extinse pentru personalizarea aspectului intrării. Puteți modifica titlul parcelei, etichetele axelor, legenda, culorile și temele. De exemplu:

ggplot ( data = your_data , aes (x = x_variable , y = y_variable )) +

geom_ punct ( ) +

labs( title = "Titlul parcelei dvs.", x = "Eticheta axei X", y = "Eticheta axei Y") +

theme_ minimal ( ) # Aplicați o temă minimă

Geme și straturi multiple

Puteți crea diagrame complexe adăugând mai multe geomuri și straturi la aceeași parcelă. Acest lucru vă permite să reprezentați diferite aspecte ale datelor dvs. într-o singură vizualizare. De exemplu:

ggplot ( data = your_data , aes (x = x_variable , y = y_variable )) +

geom_ punct ( ) +

geom_ smooth ( metoda = " lm ", culoare = "roșu") # Adăugați o linie de regresie liniară

Fațetarea

Fațetarea vă permite să creați mai multe diagrame, fiecare prezentând un subset diferit de date. Puteți utiliza funcțiile facet_wrap ( ) sau facet_grid () pentru a realiza acest lucru. De exemplu:

ggplot ( data = your_data , aes (x = x_variable , y = y_variable )) +

geom_ punct ( ) +

facet_wrap (~ variabilă categorie_ ) # Creați mai multe diagrame pe baza unei variabile de categorie

Salvarea parcelei dvs

Puteți salva graficul într-un fișier folosind funcția ggsave ( ). De exemplu:

ggsave ( „your_plot.png”, lățime = 6, înălțime = 4, dpi = 300)

Practică și Explorare

Pentru a deveni expert în ggplot2, exersați cu propriile seturi de date și explorați multitudinea de opțiuni și geoms disponibile. Cu cât experimentezi mai mult, cu atât vei deveni mai bun în a crea vizualizări bogate și informative.

Comunitate și Resurse

Alăturați-vă comunităților vibrante R și ggplot2 pentru a căuta ajutor și a vă împărtăși vizualizările. Există numeroase resurse online, tutoriale și cărți dedicate ggplot2 pentru a vă îmbunătăți cunoștințele.

Prin stăpânirea ggplot2, veți avea instrumentele necesare pentru a crea vizualizări complexe și perspicace, îmbunătățindu-vă capacitatea de a transmite în mod eficient informații bazate pe date.

Personalizarea esteticii parcelei

În vizualizarea datelor, personalizarea este cheia pentru a produce imagini de impact. Vom explora cum să ajustam estetica intrării, inclusiv culorile, temele și fonturile, pentru a ne asigura că vizualizările dvs. nu sunt doar informative, ci și atrăgătoare din punct de vedere vizual.

În vizualizarea datelor, personalizarea joacă un rol vital în crearea unor parcele atrăgătoare din punct de vedere vizual și informative. ggplot2, pachetul puternic de vizualizare în R, oferă opțiuni extinse pentru personalizarea esteticii intrării, inclusiv culori, teme și fonturi.

Teme

ggplot2 oferă diverse teme care controlează aspectul general al parcelelor tale. Tema implicită este destul de minimalistă, dar puteți alege dintre teme precum theme_ minimal ( ), theme_bw () sau theme_classic () pentru a schimba aspectul intrării.

ggplot ( data = your_data , aes (x = x_variable , y = y_variable )) +

geom_ punct ( ) +

theme_ minimal ( )

Culori

Puteți personaliza culorile în diagramă, de la culorile de umplere și chenar ale punctelor de date până la culorile de fundal și text. Funcțiile scale_fill_ manual ( ) și scale_color_manual () vă permit să definiți palete de culori personalizate.

ggplot ( data = your_data , aes (x = x_variable , y = y_variable , color = category_variable )) +

geom_ punct ( ) +

scale_color_ manual ( valori = c ("roșu", "albastru", "verde"))

Fonturi și text

Puteți ajusta estetica legată de text, cum ar fi dimensiunea fontului, familia de fonturi și orientarea textului. Funcția theme ( ) poate fi utilizată în acest scop.

ggplot ( date = your_data , aes (x = x_variable , y = y_variable , label = data_labels )) +

geom_ text ( dimensiune = 12, familie = "Arial", unghi = 45) +

theme( text = element_text (familie = "Arial", dimensiune = 14))

Legende și Topoare

Personalizarea legendelor, titlurilor și etichetelor axelor este esențială. Puteți folosi funcții precum labs( ) pentru a schimba titlul parcelei și etichetele axelor. Funcția theme ( ) este, de asemenea, utilă pentru ajustarea textului axei.

ggplot ( data = your_data , aes (x = x_variable , y = y_variable )) +

geom_ punct ( ) +

labs( title = „Titlu grafic personalizat”, x = „Etichetă axa X”, y = „Etichetă axa Y”) +

theme( axis.text.x = element_text (dimensiune = 12, unghi = 45))

Salvarea parcelelor personalizate

Odată ce v-ați adaptat estetica parcelei, vă puteți salva intr-un fișier folosind funcția ggsave ( ).

ggsave ( „custom_plot.png”, lățime = 6, înălțime = 4, dpi = 300)

» Manipularea și vizualizarea datelor specializate

Setul de instrumente al călătorului în timp: lubrifiat

Datele legate de timp pot fi o provocare pentru a lucra, dar cu pachetul de lubrifiat , puteți gestiona cu ușurință datele și orele în R (Spinu și colab., 2021). Participanții vor dobândi experiență în manipularea și analiza datelor temporale, deschizând o nouă dimensiune în analiza datelor.

Setul de instrumente al călătorului în timp: lubrifiat

Lucrul cu date legate de timp poate fi o provocare, dar pachetul de lubrifiat din R îl face semnificativ mai ușor (Spinu și colab., 2021). Oferă funcții pentru analizarea, formatarea și manipularea datelor de dată și oră. Iată cum puteți utiliza lubrifiatul :

Instalare și încărcare lubrifiat

Dacă nu ați făcut-o deja, instalați pachetul de lubrifiant și încărcați-l în mediul dvs. R.

install.packages (" lubrifiat ")

bibliotecă ( lubridată )

Analizarea Datelor

lubridate vă permite să analizați șiruri de caractere în obiecte dată folosind funcții precum ymd ( ) (an, lună, zi) sau dmy () (zi, lună, an). De exemplu:

șir_date <- "2022-12-31"

data <- ymd ( șir_date )

Aritmetica datei

Puteți efectua diverse operații asupra obiectelor date, cum ar fi calcularea intervalelor de timp, adăugarea sau scăderea zilelor și găsirea diferenței dintre două date.

astăzi <- ymd ( "2023-03-15")

data_futură <- astăzi + zile ( 30)

time_difference <- difftime ( data_futură , astăzi)

Extragerea componentelor

lubridate vă permite să extrageți componente specifice din obiectele date, cum ar fi anul, luna, ziua, ora, minutul și secunda.

an la zi)

luna (azi)

Formatarea Datelor

Puteți formata obiectele date în șiruri personalizate pentru prezentare.

format ( azi, format = "%B %d, %Y")

Se ocupă de fusurile orare

Pachetul gestionează, de asemenea, fusurile orare și ora de vară, asigurând calcule temporale precise pe diferite fusuri orare.

lubridate este un set de instrumente neprețuit pentru orice analist de date sau cercetător care lucrează cu date temporale, deoarece simplifică sarcinile adesea complexe asociate cu analiza seriilor temporale și manipularea datelor.

Prin stăpânirea personalizării în ggplot2 și gestionarea eficientă a datelor legate de timp cu lubrifiat , veți fi bine echipat pentru a crea vizualizări sofisticate și a gestiona eficient datele temporale.

» Stăpânirea datelor categorice cu forcats

Pachetul forcats , dezvoltat de Hadley Wickham, vă oferă o varietate de funcții pentru a manipula și vizualiza în mod eficient datele categorice.

Instalare și încărcare

Dacă nu ați făcut-o deja, instalați pachetul forcats și încărcați-l în mediul dvs. R.

install.packages (" forcats ")

bibliotecă ( forcats )

Reordonarea nivelurilor factorilor

Pachetul forcats vă permite să reordonați nivelurile factorilor pe baza anumitor criterii, facilitând controlul ordinii în care variabilele categoriale sunt afișate în diagrame.

your_data$your_factor <- fct_ reorder ( your_data$your_factor , your_variable )

Schimbarea nivelurilor factorilor

Puteți modifica nivelurile factorilor, îmbinându-le sau recodându-le pentru o mai bună claritate în vizualizările dvs.

your_data$your_factor <- fct_ collapse ( your_data$your_factor , "New Level" = c("Old Level 1", "Old Level 2"))

Vizualizarea datelor categorice

forcats oferă funcții precum fct_ count ( ) pentru a vizualiza eficient frecvența fiecărui nivel într-o variabilă categorială.

ggplot ( data = your_data , aes (x = fct_reorder ( your_factor , your_variable ))) +

geom_ bar ( ) +

coord_ flip ( )

Tratarea etichetelor suprapuse

În unele cazuri, este posibil să întâlniți etichete suprapuse atunci când vizualizați date categorice. Funcția fct_ lump ( ) vă permite să grupați nivelurile rare într-o categorie „Altele”, reducând dezordinea.

datele_dvs.$factorul_dvs. <- fct_ lump ( datele_dvs.$factorul_dvs. , n = 5)

Extinderea orizonturilor cu gridExtra

Pachetul gridExtra vă îmbunătățește capacitățile de vizualizare a datelor, permițându-vă să aranjați mai multe diagrame create cu ggplot2 într-un singur afișaj vizual. Acest lucru este de neprețuit pentru transmiterea de informații complexe într-o manieră structurată și cuprinzătoare.

Instalare și încărcare

Dacă nu ați făcut-o deja, instalați pachetul gridExtra și încărcați-l în mediul dvs. R.

install.packages (" gridExtra ")

bibliotecă ( gridExtra )

Crearea de diagrame compuse

Cu gridExtra , puteți crea diagrame compuse prin aranjarea diagramelor ggplot2 individuale în diverse aspecte, cum ar fi rânduri sau coloane.

composite_plot <- grid.arrange (plot1, plot2, ncol = 2)

Personalizarea layout-urilor

Aveți control asupra aranjamentului, distanței și alinierii parcelelor în cadrul afișajului compus, permițându-vă să proiectați elemente vizuale care se potrivesc nevoilor dumneavoastră specifice.

composite_plot <- arrangeGrob ( plot1, plot2, ncol = 2, top = "Titlul complotului compus")

Salvarea diagramelor compuse

După ce ați creat un complot compus, îl puteți salva ca imagine sau îl puteți încorpora în rapoarte și prezentări.

ggsave ( "composite_plot.png", composite_plot , lățime = 8, înălțime = 6, dpi = 300)

Prin stăpânirea pachetului forcats pentru manipularea datelor categorice și a pachetului gridExtra pentru vizualizare avansată, veți avea instrumentele necesare pentru a vă gestiona și vizualiza în mod eficient datele, în special atunci când aveți de-a face cu informații categorice complexe.

Pe parcursul acestui modul, veți dobândi abilități avansate în manipularea și vizualizarea datelor. Cunoștințele și instrumentele dobândite aici vă vor permite să abordați sarcini complexe de analiză a datelor, să transformați datele dezordonate în informații valoroase și să creați vizualizări de impact. Pe măsură ce vă adânciți în lumea tidyr , dplyr , ggplot2 și a pachetelor specializate, capacitatea dvs. de a lucra cu diverse seturi de date și de a produce imagini informative va deveni a doua natură. Aceste abilități vor servi ca o bază solidă pentru analiza și explorarea avansată a datelor în călătoria dvs. în știința datelor.

» Referințe

Auguie, B. (2017). gridExtra: Miscellaneous functions for "Grid" Graphics. R package version 2.3.

Spinu, V., Grolemund, G., & Wickham, H. (2021). lubridate: Make dealing with dates a little easier. R package version 1.8

Wickham, H. (2021). forcats: Tools for working with categorical variables (Factors). R package version 0.5.1.

CONȚINUTUL UNITĂȚII

Modulul 3: Manipularea avansată a datelor și grafică