EN | PT | TR | RO | BG | SR
;


NEXT TOPIC

SADRŽAJ JEDINICE




Modul 2: Deskriptivna i inferencijalna statistika




Razviti sposobnost za razunanje i tumačenje mera centralne tendencije.

Naučiti kako se prikazuju podaci putem grafičkih prikaza u programskom jeziku R.

Ovladati osnovnim konceptima inferencijalne statistike.

Razviti sposobnost za sprovođenje linearne regresije u programskom jeziku R, modeliranje odnosa između dve promenljive i interpretaciju dobijenih rezultata regresije.



Bilo da ste iskusni data naučnik ili tek započinjete svoje putovanje u analizi podataka, ovaj modul će vam pružiti sveobuhvatno razumevanje deskriptivne i inferencijalne statistike koristeći svestrano R okruženje. Pokrićemo širok spektar statističkih tehnika i alata za vizualizaciju, opremajući vas veštinama potrebnim za otkrivanje obrazaca i odnosa unutar vaših podataka.



Deskriptivna statistika je temelj analize podataka, omogućavajući nam da sumiramo i razumemo skupove podataka. U ovom delu, istražićemo različite mere koje karakterišu centralnu tendenciju, varijabilnost i distribuciju podataka. R nudi mnoštvo funkcija za izračunavanje ovih mera, a vi ćete postati vešti u izračunavanju:

  • Mere centralne tendencije: Naučićete kako da izračunate srednju vrednost (mean), medijanu (median) i mod (mode), svaka pružajući jedinstvene uvide u centar distribucije vaših podataka. Diskutovaćemo kada i zašto je svaka mera vredna.
  • Mere varijabilnosti: Razumevanje raspona ili varijabilnosti unutar vaših podataka je ključno. Uronićemo u izračunavanje raspona (range), varijanse (variance) i standardne devijacije (standard deviation), opremajući vas alatima za efikasnu procenu disperzije podataka.
  • Grafički prikazi: Brojevi pričaju samo deo priče. Vizualizacije su ključne za razumevanje distribucije vaših podataka. Istražićemo kako da kreirate histograme i boxplot-ove, vizualizujući distribucije podataka i identifikujući potencijalne autlajere ili asimetriju.

Da biste izvršili deskriptivnu statistiku u R-u, potrebno je da koristite različite funkcije i pakete. Evo kako možete izračunati mere centralne tendencije, mere varijabilnosti i kreirati grafičke prikaze u R-u.



Srednja vrednost (Mean): Da biste izračunali srednju vrednost numeričke varijable, možete koristiti funkciju mean(). Na primer, ako imate vektor podataka nazvan data_vector, izračunali biste srednju vrednost ovako:

mean_result <- mean(data_vector)

Medijana (Median): Da biste pronašli medijanu (srednju vrednost) skupa podataka, možete koristiti funkciju median(). Slično srednjoj vrednosti, ako su vaši podaci u data_vector:

median_result <- median(data_vector)

Mod (Mode): Za razliku od srednje vrednosti i medijane, R nema ugrađenu funkciju za direktno računanje moda. Možda ćete morati kreirati prilagođenu funkciju da pronađete mod ako je potreban.



Raspon (Range): Možete izračunati raspon (razlika između maksimalne i minimalne vrednosti) vaših podataka koristeći funkciju range(). Vraća vektor koji sadrži minimalne i maksimalne vrednosti.

range_result <- range(data_vector)

Varijansa i standardna devijacija (Variance and Standard Deviation): Funkcija var() računa varijansu, dok funkcija sd() izračunava standardnu devijaciju. Obe se koriste za procenu rasprostranjenosti podataka.

variance_result <- var(data_vector)

sd_result <- sd(data_vector)

Asimetrija (iskrivljenost) i kurtozis (Skewness and Kurtosis): Možete koristiti paket moments za računanje asimetrije i kurtozis. Prvo, morate instalirati i učitati paket:

install.packages("moments")

library(moments)

Zatim, možete koristiti skewness() za asimetriju i kurtosis() za kurtozis:

skewness_result <- skewness(data_vector)

kurtosis_result <- kurtosis(data_vector)

Grafički Prikazi

Histogram: Da biste kreirali histogram, možete koristiti funkciju hist(). Vizualizuje distribuciju vaših podataka deljenjem na binove. Na primer:

hist(data_vector, main = "Histogram of Data", xlab = "Values", ylab = "Frequency")

Boxplot: Funkcija boxplot() se koristi za kreiranje boxplot-ova, koji pružaju informacije o centralnoj tendenciji i rasponu distribucije, kao i o eventualnim autlajerima.

boxplot(data_vector, main = "Boxplot of Data", ylab = "Values")

Prateći ove korake i koristeći ugrađene funkcije i pakete R-a, možete efikasno izračunati i vizualizovati deskriptivne statistike za vaš skup podataka. Ovo pruža čvrstu osnovu za razumevanje karakteristika vaših podataka i pripremu za dalju analizu.

Inferencijalna Statistika u R-u: Otključavanje Tajni Inference Podataka

Inferencijalna statistika podiže vaše analitičke sposobnosti na viši nivo omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo šta možete očekivati u ovom delu:

  • Testiranje hipoteza: Naučite osnove testiranja hipoteza u R-u. Razumećete logiku iza testiranja hipoteza, nivo značajnosti (alpha) i p-vrednost. Istražićemo uobičajene testove hipoteza, uključujući t-test i chi-square test, i proći kroz korak-po-korak proces izvođenja ovih testova.
  • Intervali pouzdanosti: Otkrijte moć intervala pouzdanosti u kvantifikaciji nesigurnosti oko tačkastih procena. Naučićete kako da izračunate intervale pouzdanosti za srednje vrednosti i proporcije, kao i kako da ih interpretirate u stvarnom kontekstu.
  • Razjašnjavanje p-vrednosti: Razotkrijte misterije p-vrednosti, ključne komponente u testiranju hipoteza. Diskutovaćemo njihovo značenje, interpretaciju i ulogu koju igraju u određivanju statističke značajnosti rezultata.

Inferencijalna statistika u R-u je ključni deo analize podataka, omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo korak-po-korak vodiča kako da izvršite testiranje hipoteza, izračunate intervale pouzdanosti i razumete značaj p-vrednosti u R-u:

Raspon (Range): Možete izračunati raspon (razlika između maksimalne i minimalne vrednosti) vaših podataka koristeći funkciju range(). Vraća vektor koji sadrži minimalne i maksimalne vrednosti.

range_result <- range(data_vector)

Varijansa i standardna devijacija (Variance and Standard Deviation): Funkcija var() računa varijansu, dok funkcija sd() izračunava standardnu devijaciju. Obe se koriste za procenu rasprostranjenosti podataka.

variance_result <- var(data_vector)

sd_result <- sd(data_vector)

Asimetrija (iskrivljenost) i kurtozis (Skewness and Kurtosis): Možete koristiti paket moments za računanje asimetrije i kurtozis. Prvo, morate instalirati i učitati paket:

install.packages("moments")

library(moments)

Zatim, možete koristiti skewness() za asimetriju i kurtosis() za kurtozis:

skewness_result <- skewness(data_vector)

kurtosis_result <- kurtosis(data_vector)

Grafički Prikazi

Histogram: Da biste kreirali histogram, možete koristiti funkciju hist(). Vizualizuje distribuciju vaših podataka deljenjem na binove. Na primer:

hist(data_vector, main = "Histogram of Data", xlab = "Values", ylab = "Frequency")

Boxplot: Funkcija boxplot() se koristi za kreiranje boxplot-ova, koji pružaju informacije o centralnoj tendenciji i rasponu distribucije, kao i o eventualnim autlajerima.

boxplot(data_vector, main = "Boxplot of Data", ylab = "Values")

Prateći ove korake i koristeći ugrađene funkcije i pakete R-a, možete efikasno izračunati i vizualizovati deskriptivne statistike za vaš skup podataka. Ovo pruža čvrstu osnovu za razumevanje karakteristika vaših podataka i pripremu za dalju analizu.

Inferencijalna Statistika u R-u: Otključavanje Tajni Inference Podataka

Inferencijalna statistika podiže vaše analitičke sposobnosti na viši nivo omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo šta možete očekivati u ovom delu:

  • Testiranje hipoteza: Naučite osnove testiranja hipoteza u R-u. Razumećete logiku iza testiranja hipoteza, nivo značajnosti (alpha) i p-vrednost. Istražićemo uobičajene testove hipoteza, uključujući t-test i chi-square test, i proći kroz korak-po-korak proces izvođenja ovih testova.
  • Intervali pouzdanosti: Otkrijte moć intervala pouzdanosti u kvantifikaciji nesigurnosti oko tačkastih procena. Naučićete kako da izračunate intervale pouzdanosti za srednje vrednosti i proporcije, kao i kako da ih interpretirate u stvarnom kontekstu.
  • Razjašnjavanje p-vrednosti: Razotkrijte misterije p-vrednosti, ključne komponente u testiranju hipoteza. Diskutovaćemo njihovo značenje, interpretaciju i ulogu koju igraju u određivanju statističke značajnosti rezultata.

Inferencijalna statistika u R-u je ključni deo analize podataka, omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo korak-po-korak vodiča kako da izvršite testiranje hipoteza, izračunate intervale pouzdanosti i razumete značaj p-vrednosti u R-u:


Raspon (Range): Možete izračunati raspon (razlika između maksimalne i minimalne vrednosti) vaših podataka koristeći funkciju range(). Vraća vektor koji sadrži minimalne i maksimalne vrednosti.

range_result <- range(data_vector)

Varijansa i standardna devijacija (Variance and Standard Deviation): Funkcija var() računa varijansu, dok funkcija sd() izračunava standardnu devijaciju. Obe se koriste za procenu rasprostranjenosti podataka.

variance_result <- var(data_vector)

sd_result <- sd(data_vector)

Asimetrija (iskrivljenost) i kurtozis (Skewness and Kurtosis): Možete koristiti paket moments za računanje asimetrije i kurtozis. Prvo, morate instalirati i učitati paket:

install.packages("moments")

library(moments)

Zatim, možete koristiti skewness() za asimetriju i kurtosis() za kurtozis:

skewness_result <- skewness(data_vector)

kurtosis_result <- kurtosis(data_vector)

Grafički Prikazi

Histogram: Da biste kreirali histogram, možete koristiti funkciju hist(). Vizualizuje distribuciju vaših podataka deljenjem na binove. Na primer:

hist(data_vector, main = "Histogram of Data", xlab = "Values", ylab = "Frequency")

Boxplot: Funkcija boxplot() se koristi za kreiranje boxplot-ova, koji pružaju informacije o centralnoj tendenciji i rasponu distribucije, kao i o eventualnim autlajerima.

boxplot(data_vector, main = "Boxplot of Data", ylab = "Values")

Prateći ove korake i koristeći ugrađene funkcije i pakete R-a, možete efikasno izračunati i vizualizovati deskriptivne statistike za vaš skup podataka. Ovo pruža čvrstu osnovu za razumevanje karakteristika vaših podataka i pripremu za dalju analizu.

Inferencijalna Statistika u R-u: Otključavanje Tajni Inference Podataka

Inferencijalna statistika podiže vaše analitičke sposobnosti na viši nivo omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo šta možete očekivati u ovom delu:

  • Testiranje hipoteza: Naučite osnove testiranja hipoteza u R-u. Razumećete logiku iza testiranja hipoteza, nivo značajnosti (alpha) i p-vrednost. Istražićemo uobičajene testove hipoteza, uključujući t-test i chi-square test, i proći kroz korak-po-korak proces izvođenja ovih testova.
  • Intervali pouzdanosti: Otkrijte moć intervala pouzdanosti u kvantifikaciji nesigurnosti oko tačkastih procena. Naučićete kako da izračunate intervale pouzdanosti za srednje vrednosti i proporcije, kao i kako da ih interpretirate u stvarnom kontekstu.
  • Razjašnjavanje p-vrednosti: Razotkrijte misterije p-vrednosti, ključne komponente u testiranju hipoteza. Diskutovaćemo njihovo značenje, interpretaciju i ulogu koju igraju u određivanju statističke značajnosti rezultata.

Inferencijalna statistika u R-u je ključni deo analize podataka, omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo korak-po-korak vodiča kako da izvršite testiranje hipoteza, izračunate intervale pouzdanosti i razumete značaj p-vrednosti u R-u:


Raspon (Range): Možete izračunati raspon (razlika između maksimalne i minimalne vrednosti) vaših podataka koristeći funkciju range(). Vraća vektor koji sadrži minimalne i maksimalne vrednosti.

range_result <- range(data_vector)

Varijansa i standardna devijacija (Variance and Standard Deviation): Funkcija var() računa varijansu, dok funkcija sd() izračunava standardnu devijaciju. Obe se koriste za procenu rasprostranjenosti podataka.

variance_result <- var(data_vector)

sd_result <- sd(data_vector)

Asimetrija (iskrivljenost) i kurtozis (Skewness and Kurtosis): Možete koristiti paket moments za računanje asimetrije i kurtozis. Prvo, morate instalirati i učitati paket:

install.packages("moments")

library(moments)

Zatim, možete koristiti skewness() za asimetriju i kurtosis() za kurtozis:

skewness_result <- skewness(data_vector)

kurtosis_result <- kurtosis(data_vector)

Grafički Prikazi

Histogram: Da biste kreirali histogram, možete koristiti funkciju hist(). Vizualizuje distribuciju vaših podataka deljenjem na binove. Na primer:

hist(data_vector, main = "Histogram of Data", xlab = "Values", ylab = "Frequency")

Boxplot: Funkcija boxplot() se koristi za kreiranje boxplot-ova, koji pružaju informacije o centralnoj tendenciji i rasponu distribucije, kao i o eventualnim autlajerima.

boxplot(data_vector, main = "Boxplot of Data", ylab = "Values")

Prateći ove korake i koristeći ugrađene funkcije i pakete R-a, možete efikasno izračunati i vizualizovati deskriptivne statistike za vaš skup podataka. Ovo pruža čvrstu osnovu za razumevanje karakteristika vaših podataka i pripremu za dalju analizu.

Inferencijalna Statistika u R-u: Otključavanje Tajni Inference Podataka

Inferencijalna statistika podiže vaše analitičke sposobnosti na viši nivo omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo šta možete očekivati u ovom delu:

  • Testiranje hipoteza: Naučite osnove testiranja hipoteza u R-u. Razumećete logiku iza testiranja hipoteza, nivo značajnosti (alpha) i p-vrednost. Istražićemo uobičajene testove hipoteza, uključujući t-test i chi-square test, i proći kroz korak-po-korak proces izvođenja ovih testova.
  • Intervali pouzdanosti: Otkrijte moć intervala pouzdanosti u kvantifikaciji nesigurnosti oko tačkastih procena. Naučićete kako da izračunate intervale pouzdanosti za srednje vrednosti i proporcije, kao i kako da ih interpretirate u stvarnom kontekstu.
  • Razjašnjavanje p-vrednosti: Razotkrijte misterije p-vrednosti, ključne komponente u testiranju hipoteza. Diskutovaćemo njihovo značenje, interpretaciju i ulogu koju igraju u određivanju statističke značajnosti rezultata.

Inferencijalna statistika u R-u je ključni deo analize podataka, omogućavajući donošenje odluka zasnovanih na podacima i testiranje hipoteza. Evo korak-po-korak vodiča kako da izvršite testiranje hipoteza, izračunate intervale pouzdanosti i razumete značaj p-vrednosti u R-u:




U ovom praktičnom delu, detaljnije ćemo istražiti specifične statističke testove i kako ih izvoditi u R-u:

  • T-testovi: Istražite svet t-testova, osnovni alat za upoređivanje proseka dve grupe. Naučićete kako da sprovedete nezavisne i uparene t-testove, uz primere i interpretaciju rezultata.
  • Hi-kvadrat testovi: Hi-kvadrat testovi su neprocenjivi za analizu kategorijskih podataka. Savladaćete hi-kvadrat test dobre usklađenosti i hi-kvadrat test nezavisnosti. Kroz praktične primere, razumećete njihov značaj i primenu.

Izvođenje t-testova i hi-kvadrat testova u R-u je ključno za upoređivanje proseka i analizu kategorijskih podataka. Evo praktičnog vodiča kako izvesti ove testove u R-u.

U ovom praktičnom delu, detaljnije ćemo istražiti specifične statističke testove i kako ih izvoditi u R-u:

  • T-testovi: Istražite svet t-testova, osnovni alat za upoređivanje proseka dve grupe. Naučićete kako da sprovedete nezavisne i uparene t-testove, uz primere i interpretaciju rezultata.
  • Hi-kvadrat testovi: Hi-kvadrat testovi su neprocenjivi za analizu kategorijskih podataka. Savladaćete hi-kvadrat test dobre usklađenosti i hi-kvadrat test nezavisnosti. Kroz praktične primere, razumećete njihov značaj i primenu.

Izvođenje t-testova i hi-kvadrat testova u R-u je ključno za upoređivanje proseka i analizu kategorijskih podataka. Evo praktičnog vodiča kako izvesti ove testove u R-u.


U ovom praktičnom delu, detaljnije ćemo istražiti specifične statističke testove i kako ih izvoditi u R-u:

  • T-testovi: Istražite svet t-testova, osnovni alat za upoređivanje proseka dve grupe. Naučićete kako da sprovedete nezavisne i uparene t-testove, uz primere i interpretaciju rezultata.
  • Hi-kvadrat testovi: Hi-kvadrat testovi su neprocenjivi za analizu kategorijskih podataka. Savladaćete hi-kvadrat test dobre usklađenosti i hi-kvadrat test nezavisnosti. Kroz praktične primere, razumećete njihov značaj i primenu.

Izvođenje t-testova i hi-kvadrat testova u R-u je ključno za upoređivanje proseka i analizu kategorijskih podataka. Evo praktičnog vodiča kako izvesti ove testove u R-u.




U rezultatima t-testa, obratite pažnju na p-vrednost. Ako je manja od vašeg izabranog nivoa alfa (npr. 0.05), možete odbaciti nultu hipotezu. Mala p-vrednost ukazuje na značajnu razliku između grupa.

U hi-kvadrat testovima, fokusirajte se na p-vrednost i test statistiku. Mala p-vrednost (obično <0.05) ukazuje na značajnu razliku ili povezanost, dok veća p-vrednost sugeriše da nema značajne razlike ili povezanosti.

Uvek interpretirajte vaše rezultate u kontekstu vašeg istraživačkog pitanja. Šta značajan rezultat znači za vašu studiju?

Prateći ove korake i koristeći odgovarajuće R funkcije za t-testove i hi-kvadrat testove, bićete osposobljeni da analizirate i izvučete značajne zaključke iz vaših podataka, bilo da upoređujete proseke ili istražujete odnose između kategorijskih varijabli.



Linearna regresija je temelj statističkog modeliranja, omogućavajući nam da razumemo odnose između varijabli i pravimo predikcije. U ovoj sekciji, obuhvatićemo:

  • Razumevanje linearne regresije: Kompletan uvod u linearnu regresiju, njene pretpostavke i primene. Naučićete kada koristiti jednostavnu linearnu regresiju i višestruku linearnu regresiju.
  • Modelovanje odnosa: Istražićemo kako izgraditi regresione modele u R-u. Postaćete vešti u definisanju prediktorskih i odzivnih varijabli, prilagođavanju modela i tumačenju rezultata.
  • Tumačenje rezultata regresije: Rezultati linearne regresije mogu biti kompleksni. Razložićemo ih, objašnjavajući kako proceniti adekvatnost modela, razumeti koeficijente i njihovu značajnost, i praviti predikcije koristeći regresionu jednačinu.

Linearna regresija je moćna statistička tehnika za modeliranje odnosa između varijabli i pravljenje predikcija. Evo kako izvesti linearnu regresiju u R-u:

Linearna regresija je temelj statističkog modeliranja, omogućavajući nam da razumemo odnose između varijabli i pravimo predikcije. U ovoj sekciji, obuhvatićemo:

  • Razumevanje linearne regresije: Kompletan uvod u linearnu regresiju, njene pretpostavke i primene. Naučićete kada koristiti jednostavnu linearnu regresiju i višestruku linearnu regresiju.
  • Modelovanje odnosa: Istražićemo kako izgraditi regresione modele u R-u. Postaćete vešti u definisanju prediktorskih i odzivnih varijabli, prilagođavanju modela i tumačenju rezultata.
  • Tumačenje rezultata regresije: Rezultati linearne regresije mogu biti kompleksni. Razložićemo ih, objašnjavajući kako proceniti adekvatnost modela, razumeti koeficijente i njihovu značajnost, i praviti predikcije koristeći regresionu jednačinu.

Linearna regresija je moćna statistička tehnika za modeliranje odnosa između varijabli i pravljenje predikcija. Evo kako izvesti linearnu regresiju u R-u:


Linearna regresija je temelj statističkog modeliranja, omogućavajući nam da razumemo odnose između varijabli i pravimo predikcije. U ovoj sekciji, obuhvatićemo:

  • Razumevanje linearne regresije: Kompletan uvod u linearnu regresiju, njene pretpostavke i primene. Naučićete kada koristiti jednostavnu linearnu regresiju i višestruku linearnu regresiju.
  • Modelovanje odnosa: Istražićemo kako izgraditi regresione modele u R-u. Postaćete vešti u definisanju prediktorskih i odzivnih varijabli, prilagođavanju modela i tumačenju rezultata.
  • Tumačenje rezultata regresije: Rezultati linearne regresije mogu biti kompleksni. Razložićemo ih, objašnjavajući kako proceniti adekvatnost modela, razumeti koeficijente i njihovu značajnost, i praviti predikcije koristeći regresionu jednačinu.

Linearna regresija je moćna statistička tehnika za modeliranje odnosa između varijabli i pravljenje predikcija. Evo kako izvesti linearnu regresiju u R-u:


Linearna regresija je temelj statističkog modeliranja, omogućavajući nam da razumemo odnose između varijabli i pravimo predikcije. U ovoj sekciji, obuhvatićemo:

  • Razumevanje linearne regresije: Kompletan uvod u linearnu regresiju, njene pretpostavke i primene. Naučićete kada koristiti jednostavnu linearnu regresiju i višestruku linearnu regresiju.
  • Modelovanje odnosa: Istražićemo kako izgraditi regresione modele u R-u. Postaćete vešti u definisanju prediktorskih i odzivnih varijabli, prilagođavanju modela i tumačenju rezultata.
  • Tumačenje rezultata regresije: Rezultati linearne regresije mogu biti kompleksni. Razložićemo ih, objašnjavajući kako proceniti adekvatnost modela, razumeti koeficijente i njihovu značajnost, i praviti predikcije koristeći regresionu jednačinu.

Linearna regresija je moćna statistička tehnika za modeliranje odnosa između varijabli i pravljenje predikcija. Evo kako izvesti linearnu regresiju u R-u:




Gentleman, R., & Temple Lang, D. (2004). R: A language for data analysis and graphics. Journal of Computational and Graphical Statistics, 5(3), 299-314.

Grolemund, G., & Wickham, H. (2016). R for data science. O'Reilly Media.

R Core Team. (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing.