Regresszió
A regresszió során arra a kérdésre keressük a választ, hogy melyik az a függvény, amelynek segítségével az egyik változó X értékét megismerve előrejelzést tehetünk egy másik változó Y értékére. Általában a regressziószámítás alapja az, hogy egyes változók között, ok–okozati és statisztikai összefüggés is feltételezhető, illetve következtethető. Az ok–okozati kapcsolat leírása érdekében a változók közt függvényszerű kapcsolatot keresünk, éspedig az okozatot függő (dependent) változónak tekintjük, a többi befolyásoló változót független (independent) változónak.
A korreláció- és a regressziószámítás hasonlítanak egymásra abban, hogy minkettő esetében a változók közötti kapcsolat meglétére, irányára és erősségére keressük a választ. A kettő között a különbség az, hogy a regresszió során becsült értékeket keresünk. Tehát a regresszió során azt vizsgáljuk, hogy egyik változó változásával a másik milyen irányba és mennyit változik? A korreláció során azt vizsgáljuk, hogy a két változó között milyen irányú és mennyire szoros kapcsolat van?
Angolul: Regression
Példa 1:
Regresszió: Mekkora összegért tudnánk hozzájutni egy olyan 2015-ös évjáratú BMW autóhoz, amelyik egy tulajdonossal rendelkezik és fekete színű? - meg kell határozni a függő és a független változókat
Korreláció: Van-e összefüggés (1) az autó ára és az évjárata között, (2) az autó ára és a tulajdonosok száma között, (3) az autó ára és a színe között? Ha van összefüggés, akkor ez milyen erős? - nem kell megadni, hogy melyik a függő, illetve független változó.
Példa 2:
Egy beavatkozás hatékonyságának a mérése: például egy kísérleti csoportban egyféle beavatkozás előtt felmérik a jelen levők tudását, majd egy hosszabb időn keresztül tartó egyedi foglalkozás után megvizsgálják, mekkora változás állt be a csoport egyedeinek tudásszintjében.
Független változó: a beavatkozás (foglalkozás) időtartama.
Függő változó: a kutatás alanyainak tudásszintjében beállt változás.
A regressziószámítás alapján kijelenthetjük, hogy 1 időegységnyi (óra, hét) beavatkozás mekkora ismeretnövekedést vált ki.
Mikor alkalmazzuk a regressziót?
Amikor választ szeretnénk kapni arra, hogy x változó milyen erősen befolyásolja y változó alakulását?
Egy metrikus függő (okozat) és egy vagy több független változó kapcsolatát vizsgáljuk (befolyásoló változók).
A regresszió típusai
Attól függően, hogy a független és a függő változó „együttállását” milyen alakú függvénnyel írhatjuk le, beszélhetünk lineáris és nem lineáris regresszióról (logaritmikus, exponenciális, polinomiális, hiperbolikus, stb.) A független változók száma szerint beszélhetünk egyváltozós vagy többváltozós regressziószámításról.
1.lépés: A függő és független változók meghatározása
Az okozatot a függő (dependent) változónak tekintjük, a többi befolyásoló változót pedig független változónak (independent).
2.lépés: A kiugró esetek eltávolítása
A változók grafikus ábrázolásával, illetve a Box-plot diagrammal megvizsgáljuk, hogy vannak-e kirívó esetek. A kirívó eseteket ki kell szűrni az adatbázisból. Amennyiben a kiugró értékeket nem szűrjük ki az elemzés elején akkor az eredményeink torzulhatnak.
3.lépés: A regressziószámítás előfeltételei
Regresszióanalízist abban az esetben végezhetünk, hogyha a következők teljesülnek:
- Normalitás
- Outlier, influent data
- Homoszkedaszticitás
- Autokorreláció
4.lépés: Függvényszerű kapcsolat keresése
Abból a feltételezésből kell kiindulni, hogy a változók között létezik ok-okozati összefüggés. Azt kell meghatározni, hogy melyik az a függvény, amely a legjobban közelíti a függő változó alakulását a független változó mentén. Ez a függvény lehet lineáris, logisztikus, stb. Erre a korrelációs együttható értéke, illetve a grafikus ábrázolásmód alapján lehet következtetni.
5.lépés: Regresszió az SPSS-ben
Analyze → Regression → Curve Estimation →
A Curve Estimation csak idősorok, illetve kétváltozós regresszió esetén végezhető el.
√ Include constant in equation: konstans elem beépítése az egyenletbe
√ Plot models: diagramkészítés
Ezt követően ki kell választani, hogy milyen magyarázómodellel szeretnénk dolgozni.
Az SPSS Statistics által támogatott regressziós modellek:
- OLS: Ordinary least squares - Ordinális legkisebb négyzetek módszere
- WLS: Weighted least squares - Súlyozott legkisebb négyzetek módszere
- 2SLS: Two-stage least squares - Két-utas legkisebb négyzetek módszere
- NLLS: Nonlinear least squares - Nemlineáris legkisebb négyzetek módszere
- Logistic: Logistic regression - Logisztikai regressziók módszere
- GLM: Generalized linear models - Általános lineáris modellek módszere
- LAD: Least absulute deviation - Abszolút legkisebb deviáció módszere
- Stepwise: Stepwise regeression - Lépésenkénti regressziós módszerek
Tudtad?
A regresszióanalízis Galton nevéhez fűződik. Ő volt az, aki a statisztikai kapcsolat függvényszerű alakjával bizonyította azt a visszarendezést, amely tapasztalható a fiak és az apák testmagassága között (nagyszámú apára – és fiaikra – vonatkozóan a testmagasságok eloszlása ugyanolyan – minimum, maximum, átlag, szórás).
A reziduum - angolul: residual. A regresszióelemzés során egy olyan egyenest kell meghúznunk, amelynek pontjai a legkisebb távolságra vannak a mérési pontjainktól. Ezeket a távolságokat nevezzük reziduumoknak.