Регресионният анализ е статистически метод, използван за изследване на връзката между зависима променлива и една или повече независими променливи (Uyanık & Güler, 2013: 234). Основава се на концепцията за напасване на регресионен модел към данните и оценка на коефициентите, които представят връзката между променливите.
Теоретичната основа на регресионния анализ се основава на концепцията за линейна връзка между променливите. Линейната регресия предполага, че между независимите променливи и зависимата променлива съществува линейна, адитивна връзка. Това означава, че ефектът на независимите променливи върху зависимата променлива може да бъде представен чрез права линия в диаграма на разсейване.
Целта на регресионния анализ е да се оценят параметрите (коефициентите) на линейното уравнение, което най-добре отговаря на данните. Най-разпространената форма на линейна регресия се нарича проста линейна регресия, която включва една зависима променлива и една независима променлива. Уравнението за проста линейна регресия е:
където Y е зависимата променлива, X е независимата променлива, β0 е пресечната точка y (стойността на Y, когато X е 0), β1 е наклонът (промяната на Y при промяна на X с една единица), а ε е членът на грешката (представляващ променливостта или случайността, която не се обяснява от модела).
Коефициентите β0 и β1 се оценяват по метод, наречен "Обикновени най-малки квадрати" (OLS), който минимизира сумата от квадратните разлики между наблюдаваните стойности на зависимата променлива и прогнозираните стойности въз основа на регресионното уравнение (Rawlings etal., 1998: 2-4).
Множествената линейна регресия разширява концепцията на простата линейна регресия, като включва повече от една независима променлива. Уравнението става:
Y = β0 + β1X1 + β2X2 + ... + βnXn + ε
|
(3)
|
където X1, X2, ..., Xn са независимите променливи, а β1, β2, ..., βn са съответните коефициенти.
Предпоставката е, че точките от данни на зависимата променлива, обозначени като Y, се разглеждат като случайни извадки от популации от случайни променливи, където средната стойност на всяка популация е представена от Y. За да се включи разликата между наблюдението Y и средната стойност на популацията Y, в статистическия модел се въвежда случайна грешка (Rawlings etal., 1998: 2).
Целта на регресионния анализ е да се оценят коефициентите (β0, β1, β2, ..., βn), които най-добре съответстват на данните и позволяват да се предскаже зависимата променлива въз основа на независимите променливи. Тези коефициенти показват посоката и величината на връзката между променливите. Положителният коефициент предполага положителна връзка (с увеличаване на независимата променлива зависимата променлива има тенденция да се увеличава), докато отрицателният коефициент предполага отрицателна връзка.
Освен това регресионният анализ позволява проверка на хипотези и оценка на статистическата значимост на коефициентите. Тестове на хипотези като t-тестове или F-тестове се използват, за да се оцени дали коефициентите се различават значително от нула, което показва значима връзка между променливите.
Като цяло регресионният анализ предоставя статистическа рамка за разбиране и количествено определяне на връзката между променливите, оценка на коефициентите и изготвяне на прогнози въз основа на регресионното уравнение. Той дава възможност за идентифициране на ключови фактори, които оказват влияние върху зависимата променлива, и помага за разкриване на модели и прозрения в данните.
Пример 1: Предвиждане на цените на жилищата въз основа на характеристики
Да предположим, че сте агент по недвижими имоти и искате да прогнозирате цените на жилищата въз основа на различни характеристики, като например размера на къщата, броя на спалните, местоположението и възрастта на имота. Събирате данни за наскоро продадени къщи, включително информация за тези характеристики и съответните им продажни цени.
За да анализирате данните с помощта на регресионен анализ, ще използвате модел на множествена линейна регресия. Цената на къщата ще се разглежда като зависима променлива, а характеристиките на къщата (размер, брой спални, местоположение, възраст) като независими променливи. Регресионният анализ ви позволява да оцените връзката между независимите променливи и зависимата променлива, давайки представа за това как всяка характеристика допринася за вариациите в цените на къщите. Можете да интерпретирате регресионните коефициенти, за да разберете посоката и величината на ефекта на всяка независима променлива върху цените на жилищата.
Пример 2: Изследване на връзката между времето за учене и резултатите от изпита
Да речем, че искате да проучите връзката между времето, което студентите отделят за учене, и резултатите им на изпитите. Събирате данни от група студенти, като записвате броя на часовете, които те прекарват в учене, и съответните им резултати от изпитите.
За да анализирате данните с помощта на регресионен анализ, ще използвате прост линеен регресионен модел. Резултатът от изпита ще се разглежда като зависима променлива, а времето за учене - като независима променлива. Регресионният анализ ви позволява да оцените наклона и пресечната точка на регресионната линия, която представлява средната промяна в резултата от изпита, свързана с всеки допълнителен час време за учене. Като разгледате коефициента на детерминация (стойността на R-квадрат), можете да определите каква част от променливостта на резултатите от изпита може да бъде обяснена с променливата "време за учене".
И в двата примера регресионният анализ ви позволява да разберете връзката между зависима променлива и една или повече независими променливи. Той ви помага да оцените коефициентите и да оцените значимостта на връзките, като дава възможност за прогнози и за разбиране на въздействието на независимите променливи върху зависимата променлива.