EN | PT | TR | RO | BG | SR
;


NEXT TOPIC

CONȚINUTUL UNITĂȚII




Modulul 1: Introducere în R și import/manipulare de date




Introducere în programarea R și RStudio.

Bazele programării R: tipuri de date, variabile, operații de bază.

Importul și manipularea datelor în R: citirea datelor în R, manipularea datelor utilizând dplyr, tidyr și alte pachete.

Grafice de bază în R: crearea de diagrame de împrăștiere, diagrame de bare și grafice liniare utilizând ggplot2.



În lumea actuală bazată pe date, abilitatea de a extrage informații semnificative din date este o abilitate foarte căutată. Pentru cercetători, oameni de știință de date și analiști, limbajul de programare R și RStudio sunt instrumente indispensabile în arsenalul lor. R este renumit pentru flexibilitatea sa în calculul statistic și analiza datelor, în timp ce RStudio oferă un mediu de dezvoltare integrat (IDE) ușor de utilizat, care îmbunătățește experiența R. Acest modul servește ca o piatră de temelie, familiarizând participanții cu aspectele esențiale ale R, de la sintaxa sa la capabilitățile sale puternice de manipulare a datelor și tehnicile de bază de vizualizare a datelor. Mai mult, vom aprofunda în importanța critică a importului și gestionării eficiente a datelor în contextul analizei statistice. Până la sfârșitul acestui modul, participanții vor fi dobândit competențe în următoarele domenii (R Core Team, 2021).



R for Data Science, o carte influentă scrisă de Hadley Wickham și Garrett Grolemund, afirmă că „R este un instrument, nu o cutie magică care scuipă rezultate” (Grolemund & Wickham, 2016). Înțelegerea și valorificarea potențialului R începe cu familiarizarea și confortul în mediul său. Aici intră în joc RStudio.

RStudio: RStudio este un mediu de dezvoltare integrat care îmbunătățește experiența de programare R. Acesta oferă o platformă interactivă pentru lucrul cu R, făcându-l accesibil utilizatorilor de toate nivelurile. Pentru a porni în călătoria cu R, este esențial să vă familiarizați cu RStudio.

Iată cum să începeți:

Instalare: Înainte de a vă începe aventura cu R, va trebui să instalați atât R, cât și RStudio. Ambele sunt disponibile gratuit și sunt compatibile cu diverse sisteme de operare, inclusiv Windows, macOS și Linux.

Interfața RStudio: Odată ce ați instalat R și RStudio, deschideți RStudio. Interfața RStudio este formată din patru panouri: Script Editor (unde vă veți scrie codul), Console (unde codul este executat și rezultatele sunt afișate), panoul Environment/History (care vă arată spațiul de lucru curent și istoricul comenzilor) și panoul Files/Plots/Packages/Help, care vă permite să navigați prin fișiere, să vizualizați diagrame, să gestionați pachete și să accesați documentația de ajutor.

R Script: În editorul de scripturi, puteți scrie, edita și salva codul R. Este o bună practică să creați și să salvați scripturi R pentru proiectele dvs., deoarece astfel este mai ușor să reproduceți munca dvs. și să o partajați cu alții.

Executarea codului: Pentru a executa codul R, introduceți-l pur și simplu în editorul de scripturi și apăsați Ctrl+Enter (sau Command+Enter pe macOS) sau faceți clic pe butonul „Run”. Codul va fi executat în consolă, iar orice ieșire sau rezultat va fi afișat acolo.

Spațiul de lucru: Panoul Environment/History afișează spațiul de lucru R curent, care include obiecte precum cadre de date, variabile și funcții pe care le creați în timpul sesiunilor R. Este o modalitate utilă de a ține evidența datelor și variabilelor dumneavoastră.

Ajutor: Când aveți nevoie de asistență cu o funcție sau un pachet, puteți utiliza fila Ajutor pentru a accesa documentația R și pentru a găsi informații despre anumite funcții sau pachete.



Cu RStudio ca interfață, acum sunteți gata să vă scufundați în lumea programării R. Următoarele sunt câteva aspecte esențiale pe care trebuie să le înțelegeți:

Tipuri de date: R oferă mai multe tipuri de date fundamentale, inclusiv numerice, caractere, logice și factori (Grolemund & Wickham, 2016). Înțelegerea acestor tipuri de date este crucială pentru o manipulare eficientă a datelor.

Variabile: în R, variabilele sunt folosite pentru a stoca date. Vă puteți gândi la o variabilă ca la un container care deține o anumită valoare, cum ar fi un număr, un caracter sau o valoare logică (adevărată sau falsă). Variabilele sunt utilizate pe scară largă în R pentru analiza datelor.

Operații de bază: R vă permite să efectuați o gamă largă de operațiuni asupra datelor dvs. Aceasta include operații aritmetice (adunare, scădere, înmulțire și împărțire), operații logice (comparații) și multe altele. Stăpânirea acestor operațiuni este esențială pentru manipularea datelor.

Vectori : în R, un vector este o structură de date de bază care conține elemente de același tip de date. Puteți crea vectori cu funcții precum c( ) (combină) sau folosind două puncte : pentru a genera o secvență de numere. Vectorii sunt esențiali pentru analiza și manipularea datelor.



Importul și manipularea eficientă a datelor reprezintă baza unei analize eficiente a datelor. R oferă o multitudine de pachete și funcții pentru a vă ajuta să citiți datele din surse externe și să le pregătiți pentru analiză. Două pachete indispensabile pentru manipularea datelor sunt dplyr și tidyr .

dplyr : Dezvoltat de Hadley Wickham, dplyr este un pachet care oferă o gramatică pentru manipularea datelor. Acesta oferă un set de funcții pentru a efectua sarcini comune de manipulare a datelor cu o sintaxă consistentă și intuitivă. Funcțiile cheie din dplyr includ filter( ) (pentru filtrarea rândurilor), select() (pentru selectarea coloanelor), arrange() (pentru sortare), mutate() (pentru crearea de noi variabile) și summarize() (pentru rezumarea datelor). ). Înțelegerea și utilizarea funcțiilor dplyr vă va permite să vă manipulați și să transformați datele în mod eficient.

tidyr : În timp ce dplyr se concentrează pe manipularea datelor, tidyr se referă la ordonarea datelor. Datele sunt considerate „ordonate” atunci când sunt organizate într-un mod care facilitează lucrul cu acestea. tidyr oferă funcții precum gather( ) (pentru a converti date largi în date lungi) și spread() (pentru a converti date lungi în date largi). Prin ordonarea datelor cu tidyr , le faceți mai accesibile pentru analiză și vizualizare.



Analiza eficientă a datelor se extinde dincolo de simpla manipulare și rezumare a datelor. Vizualizarea datelor joacă un rol esențial în înțelegerea și comunicarea constatărilor dvs. R oferă o multitudine de pachete pentru vizualizarea datelor, ggplot2 fiind una dintre cele mai populare și versatile opțiuni.

ggplot2: Dezvoltat de Hadley Wickham, ggplot2 este un pachet pentru crearea de vizualizări de date complexe și personalizate. Utilizează o gramatică grafică stratificată care vă permite să construiți vizualizări pas cu pas. Cu ggplot2, puteți crea o gamă largă de vizualizări, inclusiv diagrame de dispersie pentru explorarea relațiilor dintre variabile, diagrame cu bare pentru compararea categoriilor și grafice cu linii pentru afișarea tendințelor în timp. Înțelegerea ggplot2 vă va permite să creați vizualizări informative și plăcute din punct de vedere estetic, care dă viață datelor dvs.



Pe măsură ce vă porniți în călătoria în lumea R și a manipulării datelor, ați făcut primul pas către stăpânirea unui instrument versatil și puternic pentru analiza datelor. R și RStudio, atunci când sunt utilizate în armonie, oferă un mediu interactiv și eficient pentru manipularea și vizualizarea datelor. Înțelegând tipurile de date, variabilele, operațiunile de bază și capacitățile dplyr , tidyr și ggplot2, v-ați echipat cu cunoștințele de bază necesare pentru o analiză de succes a datelor. Cu aceste cunoștințe, puteți începe să explorați, să analizați și să vizualizați datele pentru a descoperi informații valoroase și pentru a vă comunica rezultatele în mod eficient.



R, un limbaj de programare gratuit și open-source, este renumit pentru versatilitatea sa în calculul statistic și analiza datelor (Gentleman & Temple Lang, 2004). RStudio, un mediu de dezvoltare integrat (IDE), oferă o platformă interactivă pentru lucrul cu R, făcându-l accesibil utilizatorilor de toate nivelurile. Participanții se vor familiariza cu interfața RStudio, vor învăța cum să navigheze în scripturile R și să înțeleagă fluxul de lucru de încărcare, procesare și vizualizare a datelor.



O înțelegere fundamentală a programării R necesită o înțelegere a tipurilor de date, variabilelor și operațiunilor de bază. R oferă diferite tipuri de date, inclusiv numerice, caractere, logice și factori (Grolemund & Wickham, 2016). Participanții vor învăța cum să declare și să manipuleze variabile, să efectueze operații aritmetice și să folosească funcții pentru a executa sarcini specifice. Prin stăpânirea acestor elemente de bază, participanții pot îndeplini sarcinile legate de date în mod eficient.

A porni într-o călătorie în domeniul programării R înseamnă să îmbrățișezi elementele de bază care stau la baza analizei datelor și calculului statistic. O înțelegere de bază a programării R necesită o înțelegere cuprinzătoare a tipurilor de date, variabilelor și operațiunilor de bază. În acest modul, vom dezvălui esența acestor concepte fundamentale, dotând participanții cu cunoștințele și abilitățile esențiale pentru a manipula datele în mod eficient și a executa sarcini în mod eficient (Grolemund & Wickham, 2016).



În centrul programării R se află noțiunea de tipuri de date. În esență, tipurile de date definesc modul în care R interpretează și interacționează cu informațiile pe care le furnizați. R oferă o gamă versatilă de tipuri de date, iar înțelegerea naturii lor este fundamentală pentru valorificarea capacităților limbajului. Să analizăm cele mai esențiale tipuri de date:

  • Numeric: Tipurile de date numerice cuprind o gamă largă de valori numerice. Acestea pot include numere întregi (numere întregi) și numere reale (zecimale). Înțelegerea tipurilor de date numerice este crucială pentru efectuarea operațiilor matematice și statistice.
  • Caracter: tipurile de date de caractere constau din text și sunt folosite pentru a reprezenta cuvinte, propoziții sau orice altă formă de informații textuale. Abilitatea de a gestiona datele caracterelor este neprețuită atunci când lucrați cu text sau etichete.
  • Logic: Tipurile de date logice sunt de natură binară, reprezentând valori adevărate sau false. Ele sunt esențiale pentru crearea condițiilor și luarea deciziilor în codul dvs. R.
  • Factori: Factorii sunt un tip de date unic în R, reprezentând date categorice. Ele sunt deosebit de utile atunci când se ocupă cu variabile care au un număr finit de categorii sau niveluri.


Variabilele din R sunt asemănătoare cu containerele care dețin date. Ele servesc drept blocuri fundamentale pentru orice program R. Vă puteți gândi la o variabilă ca la o locație de stocare etichetată pentru o anumită informație. Variabilele din R ar trebui să primească nume informative care să reflecte tipul de date pe care le stochează. De exemplu, o variabilă numită „vârstă” poate stoca vârstele indivizilor într-un set de date.

 

În R, declarați o variabilă atribuindu-i o valoare folosind operatorul de atribuire <-. De exemplu, pentru a declara o variabilă „x” cu o valoare de 5, ați scrie:

 

x <- 5

Variabilele pot stoca date de diferite tipuri de date. De exemplu, puteți declara o variabilă caracter astfel:

 

nume <- "Ioan"

Odată ce o variabilă este declarată, o puteți utiliza în codul dvs. R pentru diferite operații și calcule. Abilitatea de a manipula variabile este esențială pentru analiza și programarea datelor în R.



R vă dă putere să efectuați o gamă largă de operațiuni asupra datelor dvs. Aceste operațiuni includ:

  • Operații aritmetice: R vă permite să efectuați operații aritmetice de bază, cum ar fi adunarea (+), scăderea (-), înmulțirea (*) și împărțirea (/). Aceste operații sunt deosebit de utile pentru lucrul cu date numerice.
  • Operații logice: puteți utiliza operatori logici precum mai mare decât (>), mai mic decât (<), egal cu (==) și nu egal cu (!= ) pentru a compara valori și a crea condiții logice. Operațiile logice sunt esențiale pentru luarea deciziilor în codul dvs.
  • Funcții: Funcțiile sunt un concept fundamental în R. R oferă un număr mare de funcții încorporate care servesc diverse scopuri. Funcțiile sunt operații predefinite pe care le puteți utiliza pentru a efectua anumite sarcini. De exemplu, funcția mean( ) calculează media unui set de numere, iar funcția paste() combină șiruri de caractere. Înțelegerea modului de utilizare a funcțiilor este crucială pentru automatizarea sarcinilor și efectuarea de operațiuni complexe.

O înțelegere solidă a tipurilor de date, variabilelor și operațiunilor de bază este baza pe care vă puteți dezvolta competența în programarea R. Cu aceste cunoștințe fundamentale, sunteți echipat pentru a gestiona o gamă largă de sarcini legate de date, de la efectuarea de operații aritmetice simple până la crearea de condiții logice complexe și utilizarea funcțiilor pentru a vă simplifica codul.

Pe măsură ce vă continuați călătoria în lumea programării R, aceste elemente de bază vă vor servi drept ghid, permițându-vă să manipulați eficient datele, să luați decizii informate și să automatizați sarcinile. Cu fiecare pas, te vei apropia de stăpânirea datelor, descoperind potențialul de analiză și explorare aprofundată a datelor.



Importul și manipularea eficientă a datelor sunt piatra de temelie a unei analize eficiente a datelor. În acest modul, ne aprofundăm în domeniul manipulării datelor în mediul R, echipând participanții cu abilitățile necesare pentru a prelua, manipula și pregăti datele pentru analiză. O înțelegere solidă a importului și manipulării datelor este esențială pentru a vă asigura că datele dumneavoastră sunt într-o formă adecvată pentru analiză și pentru eficientizarea întregului flux de lucru de preprocesare a datelor (Wickham et al., 2021).



Pasul inițial în orice efort de analiză a datelor este achiziția de date. R oferă o gamă largă de instrumente și pachete pentru a facilita importul fără probleme a datelor din diverse surse externe. Indiferent dacă datele dvs. se află într-un fișier CSV, o foaie de calcul Excel, o bază de date sau alte formate, R oferă mijloacele pentru a le accesa. Acest modul va explora instrumentele și metodele comune de import de date în R:

  • csv( ) și read.table (): Aceste funcții vă permit să citiți date din fișiere CSV și, respectiv, delimitate de tabulatori. Ele oferă o multitudine de opțiuni pentru personalizarea procesului de import, cum ar fi specificarea delimitatorilor și gestionarea valorilor lipsă.
  • readxl : atunci când aveți de-a face cu fișiere Excel, pachetul readxl este instrumentul dvs. de bază. Simplifică extragerea datelor din registrele de lucru, foi și intervale Excel.
  • readr : Pachetul readr , tot de Hadley Wickham, oferă un set de funcții pentru import rapid și eficient de date. Îmbunătățește procesul de import de date prin furnizarea de funcții precum read_csv ( ) și read_delim () care optimizează citirea datelor bazate pe text.

Conexiuni la baze de date: R se poate conecta la baze de date folosind pachete precum DBI și RODBC, permițându-vă să preluați date direct din sistemele de baze de date. Acest lucru este util în special atunci când lucrați cu seturi de date mari stocate în baze de date.



Manipularea datelor implică adesea sarcini precum filtrarea, rezumarea, gruparea și alăturarea seturilor de date. Pachetul dplyr , creat de Hadley Wickham, simplifică aceste operațiuni, oferind o gramatică consistentă și intuitivă pentru manipularea datelor. Introduce cinci verbe de bază:

  • filter( ): Utilizați acest verb pentru a extrage anumite rânduri din setul dvs. de date pe baza anumitor condiții.
  • arrange( ): aranjați rândurile setului de date pe baza uneia sau mai multor variabile, fie în ordine crescătoare, fie în ordine descrescătoare.
  • select( ): alegeți un subset de coloane din setul de date, ceea ce face mai ușor să vă concentrați asupra datelor relevante.
  • mutate( ): Creați variabile noi sau modificați-le pe cele existente aplicând funcții sau operații datelor dvs.
  • summarize( ): condensează-ți datele în statistici rezumative, agregând informațiile într-un mod semnificativ.


Datele nu sunt întotdeauna în formatul cel mai propice analizei. Pachetul tidyr intervine pentru a vă ajuta să vă remodelați datele într-un format ordonat și organizat. Datele ordonate sunt structurate astfel încât fiecare variabilă să formeze o coloană, fiecare observație să formeze un rând și fiecare tip de unitate de observație să formeze un tabel. Acest format structurat simplifică analiza și vizualizarea datelor. Cu tidyr , puteți efectua operațiuni precum adunarea coloanelor în perechi cheie-valoare și distribuirea lor înapoi în coloane separate.

Până la sfârșitul acestui modul, veți dobândi abilitățile de a importa, manipula și transforma în mod eficient date folosind R. Importul și manipularea datelor sunt elementele inițiale ale analizei datelor, iar aceste abilități sunt esențiale pentru pregătirea datelor pentru o explorare mai profundă. și analiză. Pe măsură ce continuați în călătoria dvs. de analiză a datelor cu R, veți găsi aceste capacități de neprețuit pentru a asigura calitatea și adecvarea datelor dvs. pentru obiectivele dvs. de cercetare sau analiză.



În domeniul analizei datelor, capacitatea de a vizualiza în mod eficient datele este o abilitate de o importanță capitală. Vizualizarea datelor nu numai că ajută la înțelegerea structurii și modelelor subiacente în cadrul datelor, dar servește și ca un mijloc puternic de transmitere a constatărilor altora. În acest modul, vom călători în lumea vizualizării datelor folosind pachetul ggplot2, un instrument versatil pentru crearea unei game largi de vizualizări (Wickham, 2016).



ggplot2 al lui Hadley Wickham este un pachet larg apreciat în ecosistemul R, cunoscut pentru flexibilitatea și sintaxa elegantă. Spre deosebire de grafica de bază R , care poate fi uneori greoaie și mai puțin intuitivă, ggplot2 introduce o gramatică a graficii, care simplifică procesul de creare a vizualizărilor complexe și plăcute din punct de vedere estetic.

Unul dintre principiile fundamentale ale ggplot2 este abordarea straturilor. Adăugați straturi în complot pas cu pas, construind treptat vizualizarea. Această abordare este deosebit de benefică atunci când doriți să creați grafică complicată cu mai multe componente. Să ne aprofundăm în tipurile de parcele pe care le vom explora în acest modul.



Scatterploturile sunt de neprețuit atunci când trebuie să înțelegeți relațiile dintre două variabile continue. Ele vă permit să vizualizați modul în care modificările unei variabile o afectează pe cealaltă. În ggplot2, crearea graficelor de dispersie este un proces simplu. Veți specifica datele, veți mapa variabilele la proprietăți estetice (cum ar fi poziția pe axele x și y) și veți adăuga puncte sau alte geometrii pentru a reprezenta datele.

Locurile de bar sunt o alegere fantastică pentru a compara categorii sau grupuri. Ele sunt utilizate în mod obișnuit pentru afișarea numărului sau proporțiilor de date categorice. Puteți crea atât diagrame cu bare verticale, cât și orizontale, în funcție de preferințele dvs. În ggplot2, crearea graficelor cu bare este intuitivă și foarte personalizabilă. Puteți controla aspectul barelor, etichetelor axelor și culorilor pentru a vă transmite în mod eficient datele.

Graficele liniare sunt alegerea dvs. atunci când doriți să vizualizați tendințele și schimbările în timp. Aceste grafice sunt deosebit de utile pentru datele din seria temporală sau orice date care au o secvență naturală. În ggplot2, crearea de grafice cu linii este atât simplă, cât și foarte personalizabilă. Puteți trasa mai multe linii pe același grafic, puteți personaliza tipurile și culorile liniilor și puteți adăuga etichete și adnotări informative.

Până la încheierea acestui modul, veți avea o înțelegere solidă a modului de a crea diagrame de dispersie, diagrame cu bare și grafice cu linii folosind ggplot2. Abilitățile dobândite aici vă vor permite să explorați vizual și să vă comunicați datele în mod eficient. Vizualizarea datelor este un limbaj universal care transcende granițele disciplinare, iar competența dvs. în crearea de vizualizări convingătoare și informative va fi un atu valoros în călătoria dvs. de analiză a datelor.

Acest modul oferă baza pentru utilizarea competentă a R și RStudio, dând posibilitatea participanților să-și înceapă călătoria în analiza, manipularea și vizualizarea datelor.



Gentleman, R., & Temple Lang, D. (2004). Statistical analyses and reproducible research. Bioconductor Project. https://bioconductor.org/help/course-materials/2003/RESOURCES/inst/doc/HowTo/curation-1.pdf

Grolemund, G., & Wickham, H. (2016). R for data science. O'Reilly Media.

R Core Team. (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer. https://ggplot2.tidyverse.org /

Wickham, H., Averick, M., Bryan, J., Chang, W., McGowan, L. D., François, R., ... & R Studio. (2021). Welcome to the tidyverse. Journal of Open Source Software, 6(1), 1686.