Analiza de regresie este o metodă statistică utilizată pentru a examina relația dintre o variabilă dependentă și una sau mai multe variabile independente (Uyanık & Güler, 2013: 234). Se bazează pe conceptul de ajustare a unui model de regresie la date și estimarea coeficienților care reprezintă relația dintre variabile.
Contextul teoretic al analizei de regresie se bazează pe conceptul de relație liniară între variabile. Regresia liniară presupune că există o relație liniară, aditivă între variabilele independente și variabila dependentă. Aceasta înseamnă că efectul variabilelor independente asupra variabilei dependente poate fi reprezentat printr-o linie dreaptă într-un diagramă de dispersie.
Scopul analizei de regresie este de a estima parametrii (coeficienții) ecuației liniare care se potrivesc cel mai bine datelor. Cea mai comună formă de regresie liniară se numește regresie liniară simplă, care implică o variabilă dependentă și o variabilă independentă. Ecuația pentru regresia liniară simplă este:
unde Y este variabila dependentă, X este variabila independentă, β0 este intersecția Y (valoarea lui Y când X este 0), β1 este panta (modificarea în Y pentru o schimbare de o unitate în X) și ε este termenul de eroare (reprezentând variabilitatea sau aleatoriul care nu este explicat de model).
Coeficienții β0 și β1 sunt estimați folosind o metodă numită Ordinary Least Squares (OLS), care minimizează suma diferențelor pătrate dintre valorile observate ale variabilei dependente și valorile prezise pe baza ecuației de regresie (Rawlings etal., 1998: 2-4).
Regresia liniară multiplă extinde conceptul de regresie liniară simplă pentru a include mai multe variabile independente. Ecuația devine:
Y = β0 + β1X1 + β2X2 + ... + βnXn + ε
|
(3)
|
unde X1, X2, ..., Xn sunt variabilele independente, iar β1, β2, ..., βn sunt coeficienții corespunzători.
Premisa este că punctele de date ale variabilei dependente, notate ca Y, sunt considerate eșantioane aleatorii din populații de variabile aleatorii, unde media fiecărei populații este reprezentată de Y. Pentru a încorpora diferența dintre o observație Y și media populației Y, o eroare aleatorie este introdusă în modelul statistic (Rawlings etal., 1998: 2).
Analiza de regresie are ca scop estimarea coeficienților (β0, β1, β2, ..., βn) care oferă cea mai bună potrivire la date și permit prezicerea variabilei dependente pe baza variabilelor independente. Acești coeficienți indică direcția și magnitudinea relației dintre variabile. Un coeficient pozitiv sugerează o relație pozitivă (pe măsură ce variabila independentă crește, variabila dependentă tinde să crească), în timp ce un coeficient negativ sugerează o relație negativă.
În plus, analiza de regresie permite testarea ipotezelor și evaluarea semnificației statistice a coeficienților. Testele de ipoteze, cum ar fi testele t sau testele F, sunt utilizate pentru a evalua dacă coeficienții sunt semnificativ diferiți de zero, indicând o relație semnificativă între variabile.
În general, analiza de regresie oferă un cadru statistic pentru înțelegerea și cuantificarea relației dintre variabile, estimarea coeficienților și efectuarea de predicții pe baza ecuației de regresie. Permite identificarea factorilor cheie care influențează variabila dependentă și ajută la descoperirea modelelor și informațiilor din date.
Exemplul 1: Prezicerea prețurilor locuințelor pe baza caracteristicilor
Să presupunem că sunteți agent imobiliar și doriți să preziceți prețurile caselor pe baza diferitelor caracteristici, cum ar fi dimensiunea casei, numărul de dormitoare, locația și vârsta proprietății. Colectați date despre casele vândute recent, inclusiv informații despre aceste caracteristici și prețurile de vânzare corespunzătoare.
Pentru a analiza datele folosind analiza de regresie, ați utiliza un model de regresie liniară multiplă. Ați trata prețul casei ca variabilă dependentă și caracteristicile casei (dimensiunea, numărul de dormitoare, locația, vârsta) ca variabile independente. Analiza de regresie vă permite să estimați relația dintre variabilele independente și variabila dependentă, oferind informații despre modul în care fiecare caracteristică contribuie la variația prețurilor locuințelor. Puteți interpreta coeficienții de regresie pentru a înțelege direcția și magnitudinea efectului fiecărei variabile independente asupra prețurilor locuințelor.
Exemplul 2: Examinarea relației dintre timpul de studiu și scorurile examenelor
Să presupunem că doriți să investigați relația dintre timpul petrecut de studenți studiind și scorurile lor la examene. Colectați date de la un grup de studenți, înregistrând numărul de ore pe care le petrec studiind și scorurile corespunzătoare la examene.
Pentru a analiza datele folosind analiza de regresie, ați utiliza un model simplu de regresie liniară. Ați trata scorul examenului ca variabilă dependentă și timpul de studiu ca variabilă independentă. Analiza de regresie vă permite să estimați panta și interceptarea liniei de regresie, care reprezintă modificarea medie a scorului examenului asociată cu fiecare oră suplimentară de timp de studiu. Examinând coeficientul de determinare (valoarea R-pătrat), puteți determina proporția variabilității punctajelor examenului care poate fi explicată prin variabila de timp de studiu.
În ambele exemple, analiza de regresie vă permite să înțelegeți relația dintre o variabilă dependentă și una sau mai multe variabile independente. Vă ajută să estimați coeficienții și să evaluați semnificația relațiilor, permițând predicții și înțelegând impactul variabilelor independente asupra variabilei dependente.