A regresszió során arra a kérdésre keressük a választ, hogy melyik az a függvény, amelynek segítségével az egyik változó X értékét megismerve előrejelzést tehetünk egy másik változó Y értékére. Általában a regressziószámítás alapja az, hogy egyes változók között, ok–okozati és statisztikai összefüggés is feltételezhető, illetve következtethető. Az ok–okozati kapcsolat leírása érdekében a változók közt függvényszerű kapcsolatot keresünk, éspedig az okozatot függő (dependent) változónak tekintjük, a többi befolyásoló változót független (independent) változónak.

A korreláció- és a regressziószámítás hasonlítanak egymásra abban, hogy minkettő esetében a változók közötti kapcsolat meglétére, irányára és erősségére keressük a választ. A kettő között a különbség az, hogy a regresszió során becsült értékeket keresünk. Tehát a regresszió során azt vizsgáljuk, hogy egyik változó változásával a másik milyen irányba és mennyit változik? A korreláció során azt vizsgáljuk, hogy a két változó között milyen irányú és mennyire szoros kapcsolat van?

Angolul: Regression

Példa 1:
Regresszió: Mekkora összegért tudnánk hozzájutni egy olyan 2015-ös évjáratú BMW autóhoz, amelyik egy tulajdonossal rendelkezik és fekete színű? - meg kell határozni a függő és a független változókat
Korreláció: Van-e összefüggés (1) az autó ára és az évjárata között, (2) az autó ára és a tulajdonosok száma között, (3) az autó ára és a színe között? Ha van összefüggés, akkor ez milyen erős? - nem kell megadni, hogy melyik a függő, illetve független változó.

Példa 2:
Egy beavatkozás hatékonyságának a mérése: például egy kísérleti csoportban egyféle beavatkozás előtt felmérik a jelen levők tudását, majd egy hosszabb időn keresztül tartó egyedi foglalkozás után megvizsgálják, mekkora változás állt be a csoport egyedeinek tudásszintjében.
Független változó: a beavatkozás (foglalkozás) időtartama.
Függő változó: a kutatás alanyainak tudásszintjében beállt változás.
A regressziószámítás alapján kijelenthetjük, hogy 1 időegységnyi (óra, hét) beavatkozás mekkora ismeretnövekedést vált ki.

Mikor alkalmazzuk a regressziót?

Amikor választ szeretnénk kapni arra, hogy x változó milyen erősen befolyásolja y változó alakulását?
Egy metrikus függő (okozat) és egy vagy több független változó kapcsolatát vizsgáljuk (befolyásoló változók).

A regresszió típusai

Attól függően, hogy a független és a függő változó „együttállását” milyen alakú függvénnyel írhatjuk le, beszélhetünk lineáris és nem lineáris regresszióról (logaritmikus, exponenciális, polinomiális, hiperbolikus, stb.) A független változók száma szerint beszélhetünk egyváltozós vagy többváltozós regressziószámításról.

1.lépés: A függő és független változók meghatározása

Az okozatot a függő (dependent) változónak tekintjük, a többi befolyásoló változót pedig független változónak (independent).

2.lépés: A kiugró esetek eltávolítása

A változók grafikus ábrázolásával, illetve a Box-plot diagrammal megvizsgáljuk, hogy vannak-e kirívó esetek. A kirívó eseteket ki kell szűrni az adatbázisból. Amennyiben a kiugró értékeket nem szűrjük ki az elemzés elején akkor az eredményeink torzulhatnak.

3.lépés: A regressziószámítás előfeltételei

Regresszióanalízist abban az esetben végezhetünk, hogyha a következők teljesülnek:

  • Normalitás
  • Outlier, influent data
  • Homoszkedaszticitás
  • Autokorreláció

4.lépés: Függvényszerű kapcsolat keresése

Abból a feltételezésből kell kiindulni, hogy a változók között létezik ok-okozati összefüggés. Azt kell meghatározni, hogy melyik az a függvény, amely a legjobban közelíti a függő változó alakulását a független változó mentén. Ez a függvény lehet lineáris, logisztikus, stb. Erre a korrelációs együttható értéke, illetve a grafikus ábrázolásmód alapján lehet következtetni.

5.lépés: Regresszió az SPSS-ben

Analyze → Regression → Curve Estimation →
A Curve Estimation csak idősorok, illetve kétváltozós regresszió esetén végezhető el.
√ Include constant in equation: konstans elem beépítése az egyenletbe
√ Plot models: diagramkészítés

Ezt követően ki kell választani, hogy milyen magyarázómodellel szeretnénk dolgozni.
Az SPSS Statistics által támogatott regressziós modellek:

  • OLS: Ordinary least squares - Ordinális legkisebb négyzetek módszere
  • WLS: Weighted least squares - Súlyozott legkisebb négyzetek módszere
  • 2SLS: Two-stage least squares - Két-utas legkisebb négyzetek módszere
  • NLLS: Nonlinear least squares - Nemlineáris legkisebb négyzetek módszere
  • Logistic: Logistic regression - Logisztikai regressziók módszere
  • GLM: Generalized linear models - Általános lineáris modellek módszere
  • LAD: Least absulute deviation - Abszolút legkisebb deviáció módszere
  • Stepwise: Stepwise regeression - Lépésenkénti regressziós módszerek

Tudtad?

A regresszióanalízis Galton nevéhez fűződik. Ő volt az, aki a statisztikai kapcsolat függvényszerű alakjával bizonyította azt a visszarendezést, amely tapasztalható a fiak és az apák testmagassága között (nagyszámú apára – és fiaikra – vonatkozóan a testmagasságok eloszlása ugyanolyan – minimum, maximum, átlag, szórás).

A reziduum - angolul: residual. A regresszióelemzés során egy olyan egyenest kell meghúznunk, amelynek pontjai a legkisebb távolságra vannak a mérési pontjainktól. Ezeket a távolságokat nevezzük reziduumoknak.