Modulul 2: Statistică descriptivă și inferențială

Măsuri ale variabilității

Interval: puteți calcula intervalul (diferența dintre valorile maxime și minime) datelor dvs. utilizând funcția interval( ). Returnează un vector care conține valorile minime și maxime.

range_result <- range( data_vector )

Varianta și abaterea standard: funcția var( ) calculează varianța, în timp ce funcția sd () calculează abaterea standard. Ambele sunt folosite pentru a evalua răspândirea datelor.

variance_result <- var( data_vector )

sd_result <- sd ( data_vector )

Skewness and Kurtosis: Puteți utiliza pachetul moments pentru a calcula asimetria și curtosis. Mai întâi, trebuie să instalați și să încărcați pachetul:

install.packages ("momente")

bibliotecă (momente)

Apoi, puteți folosi skewness( ) pentru skewness și kurtosis() pentru kurtosis:

skewness_result <- skewness( data_vector )

kurtosis_result <- kurtosis( data_vector )

Afișări grafice

Histogramă: Pentru a crea o histogramă, puteți utiliza funcția hist( ). Vizualizează distribuția datelor dvs. împărțindu-le în coșuri. De exemplu:

hist( data_vector , main = „Histograma datelor”, xlab = „Valori”, ylab = „Frecvență”)

Boxplot: Funcția boxplot( ) este utilizată pentru a crea boxplot, care oferă informații despre tendința și răspândirea centrală a distribuției, precum și despre eventualele valori aberante.

boxplot( data_vector , main = "Boxplot de date", ylab = "Valori")

Urmând acești pași și utilizând funcțiile și pachetele încorporate ale lui R, puteți calcula și vizualiza în mod eficient statisticile descriptive pentru setul dvs. de date. Aceasta oferă o bază solidă pentru înțelegerea caracteristicilor datelor dvs. și pregătirea acestora pentru analize ulterioare.

Statistici inferențiale în R: Deblocarea secretelor inferenței datelor

Statisticile inferențiale vă ridică abilitățile analitice la următorul nivel, permițând luarea de decizii bazate pe date și testarea ipotezelor. Iată la ce vă puteți aștepta în această secțiune:

Testarea ipotezelor: Aflați bazele testării ipotezelor în R. Veți înțelege logica din spatele testării ipotezelor, nivelul de semnificație (alfa) și valoarea p. Vom explora testele comune de ipoteză, inclusiv testul t și testul chi-pătrat și vom parcurge procesul pas cu pas de efectuare a acestor teste.
Intervale de încredere: Descoperiți puterea intervalelor de încredere în cuantificarea incertitudinii din jurul estimărilor punctuale. Veți învăța nu numai cum să calculați intervalele de încredere pentru medii și proporții, ci și cum să le interpretați într-un context real.
Valorile p dezvăluite: Dezvăluie misterele valorilor p, o componentă vitală în testarea ipotezelor. Vom discuta semnificația lor, interpretarea și rolul pe care îl joacă în determinarea semnificației statistice a rezultatelor.

Statisticile inferențiale în R este o parte crucială a analizei datelor, permițând luarea deciziilor bazate pe date și testarea ipotezelor. Iată un ghid pas cu pas despre cum să efectuați testarea ipotezelor, să calculați intervalele de încredere și să înțelegeți semnificația valorilor p în R:

» 1. Testarea ipotezelor

Logic of Hypothesis Testing: The first step in hypothesis testing is to understand the logic behind it. You start with a null hypothesis (H0), which represents a default assumption, and an alternative hypothesis (Ha), which represents what you want to test. For example, H0: μ = 100 (population mean is 100) vs. Ha: μ ≠ 100 (population mean is not 100).

Choosing the Significance Level (Alpha): The significance level, denoted as alpha (α), is the probability of making a Type I error (incorrectly rejecting a true null hypothesis). Common values for alpha are 0.05 or 0.01. You can set alpha using alpha <- 0.05.

Performing Hypothesis Tests: R provides various functions for hypothesis testing, such as t.test() for t-tests and chisq.test() for chi-square tests. For a two-sample t-test, you can use:

t_test_result <- t.test(x, y, alternative = "two.sided")

» 2. Intervale de încredere

Calcularea intervalelor de încredere: intervalele de încredere ajută la cuantificarea incertitudinii în jurul estimărilor punctuale. Puteți calcula un interval de încredere pentru medie folosind t. funcția de testare ( ). Pentru un interval de încredere de 95%:

ci_rezultat <- t. test ( data_vector , conf.level = 0,95)$conf.int

Interpretarea intervalelor de încredere: Un interval de încredere de 95% pentru o medie, să zicem (8,5, 9,5), înseamnă că dacă ar fi să eșantionați din populație de mai multe ori și să calculați intervale, aproximativ 95% dintre acele intervale ar conține media reală a populației.

» 3. Valorile P dezvăluite

Înțelegerea valorilor P: Valorile P sunt esențiale în testarea ipotezelor. Ele cuantifică puterea dovezilor față de ipoteza nulă. Valorile p mai mici indică dovezi mai puternice împotriva nulului. În R, valorile p sunt de obicei calculate și returnate de funcțiile de testare a ipotezelor.

Interpretarea valorilor P: Dacă valoarea dvs. p este mai mică decât alfa (α), respingeți ipoteza nulă. De exemplu, dacă p < 0,05 (cu α = 0,05), aveți dovezi pentru a respinge H0. Dacă p > α, nu reușiți să respingeți H0. Rețineți că valorile p nu dovedesc o ipoteză nulă; ele furnizează dovezi pro sau contra.

Urmând acești pași și utilizând funcțiile încorporate ale lui R pentru testarea ipotezelor, intervalele de încredere și calculele valorii p, puteți debloca secretele statisticilor inferențiale. Acest lucru vă permite să luați decizii bazate pe date, să trageți concluzii semnificative și să testați ipoteze pe baza analizei datelor dvs. în R.