Leíró statisztika, az adatelemzés alapfoka

A leíró statisztika avagy a leíró statisztikai elemzés azt jelenti, hogy az adathalmazunkból minden egyes változót egyenként megvizsgálunk a neki megfelelő statisztikai mutatókkal. A leíró statisztikai elemzést egyváltozós elemzésnek is szokták nevezni. Ez az adatelemzésnek úgymond az "alapfoka". Célja lehet egy változó jellemzőinek a bemutatása, de ugyanakkor egy nagyobb adatstruktúrába való elsődleges betekintés is.
A leíró statisztika az információtömörítés legegyszerűbb formája. Gyakorlatilag ide tartozik a megfigyelt egyedek egy változó (ismérv) szerinti eloszlásának jellemzése: diagramok, táblázatok készítése, a középértékek és a szóródás jellemzése. A leíró statisztikák a kutatás célcsoportjáról gyűjtött adatok rendszerezésére és leírására alkalmasak. Célja a minta adatainak áttekinthető formába történő rendezése, tömörítése, az adatok grafikus megjelenítése, ábrázolása és egyes jellemző értékeinek meghatározása.

A következőkben bemutatom az adatelemzés 3 legfontosabb lépését, amelyet minden egyes változó esetében el kell végezni.

1. lépés: Az adatok letisztítása: a nem releváns adatokat ki kell szűrni az adatbázisból
2. lépés: A változó mérési szintjének a megállapítása: el kell döntenünk, hogy a változónk nominális, ordinális, intervallum vagy arányskála mérési szintű
3. lépés: El kell döntenünk, hogy milyen típusú elemzést szeretnénk végezni: egyváltozós avagy leíró statisztikai elemzést, illetve kétváltozós vagy többváltozós elemzést.

1. lépés: Az adatok letisztítása

Az adatfelvétel és az adatbevitel során számos olyan hiba, véletlen elírás történhet, amely az adatok elemzése során téves eredményekhez vezethet. Ezért az adatelemzések egyik legfontosabb lépése az adatok tisztítása. Ez úgy történik, hogy a Descriptives Statistics - Frequencies menüpontban lekérünk a változónkra egy gyakoriságot. Ezután fel kell tennünk magunknak a kérdést, hogy az ott látott adatok helyesek, valósak vagy sem. Az SPSS használata során minden egyes változó elemzésekor ezt el kell végezni. Ugyanakkor a boxplot diagramot is lehet használni az adatok letisztítására.

Például ha az életkor változó vizsgálata során észrevesszük, hogy az életkorok 20-tól 35-ig vannak felsorolva és a végén van egy 999-es értékünk. Tehát ez a 999-es érték egy elírás következtében kerülhetett az adataink közé és nagyon eltér a többi adattól, ezért ezt nem szabad belevonni az elemzésbe. Az ilyen változókat System missing-be tesszük, ami azt jelenti, hogy az adatelemzés során nem engedjük meg a programnak, hogy ezeket az irreális értékeket bevonja az elemzésbe.

2. lépés: A változó mérési szintjének a megállapítása

A változók mérési szintje szabja meg, hogy milyen statisztikai műveleteket lehet velük végezni. Ugyanakkor arról adnak felvilágosítást, hogy milyenek a sokaság egységeihez tartozó számértékek tulajdonságai. Egy változó mérési szintje alapvetően meghatározza, hogy az elemzés során milyen módszereket lehet használni. Ez az osztályozás hierarchikus felépítésű, mivel minden skála rendelkezik minden őt megelőző skála tulajdonságával, így például az intervallumskála rendelkezik az ordinális és nominális skála tulajdonságaival is. Az SPSS használata során a legtöbb menüpont alatt az intervallum és az arányskála mérési szintű változókra nagyon ritka esetben kell különböző próbákat lekérni, ezért ezt a két típusú mérési szintet együtt fogom elemezni.

Intervallum vagy arányskála mérési szint: A változónkat akkor soroljuk ebbe a kategóriába, ha az értékeinek van értelme és ebből lehet átlagot számolni. Például: Életkor - a változó értékeiből átlagot lehet számolni. Értelmesen meg lehet állapítani, hogy célcsoportunk átlagéletkora x év.

Az ordinális mérési szint esetében nem lehet átlagot számolni, csak sorrendbe állíthatóak az értékek. Például: iskolai végzettség - 1- Alapfokú, 2- Középfokú, 3- Felsőfokú. Ebben az esetben az átlagnak nincs értelme.

A nominális mérési szint esetében pedig se átlagolni, se sorrendbe állítani nem lehet a változó értékeit. Például: nem, 1- nő, 2-férfi. Nem lehet azt mondani, hogy a nők egy felsőbb szintet képeznének, mint a férfiak. Az előző esetben, az ordinális mérési szintű változó esetében viszont ezt meg lehetett állapítani, hiszen a felsőfokú végzettséggel rendelkezők a középfokúhoz képest egy magasabb szintet képviselnek.

Kvantitatív - más néven: metrikus - változónak is nevezik az intervallum, illetve az arányskála mérési szintű változókat.
Nem metrikus - más néven: minőségi, kvalitatív - skála: a nominális, illetve ordinális mérési szintű változó.

3. lépés: Az adatelemzés típusának a kiválasztása

Az adatok elemzésének 3 nagyobb típusa van: egyváltozós elemzés vagy leíró statisztikai elemzés, kétváltozós elemzés, illetve többváltozós elemzés. Attól függően, hogy hány változót szeretnénk bevonni az elemzésbe, választhatunk a kétváltozós, illetve többváltozós elemzési módszerek közül, azonban a leíró statisztikai elemzést minden egyes esetben el kell végezni, hiszen ez az adatelemzés kezdete.

Az egyváltozós elemzés az adatelemzések úgymond alapfoka. Mint ahogy a neve is utal rá, az eljárás során egyszerre csupán egy változót vizsgálunk meg. Azt mutatja meg, hogy hogyan oszlanak meg az esetek egyetlen változó szerint. Míg a két- és többváltozós elemzés elsődleges célja a magyarázat, addig az egyváltozós elemzésé a leírás vagyis a változó alapvető jellemzőinek bemutatása. Tehát célja az adatstruktúrába való elsődleges betekintés az adatbázisban lévő változók egyenkénti elemzésével.

Mit vizsgáljak nominális és ordinális változók esetében?

A nominális skála esetében: Khi négyzet, Cramer's V, Lambda.
Az ordinális skála esetében: Khi négyzet, Gamma.

Az eredmények értelmezésével kapcsolatban tudni kell, hogy:

A két változó között függvényszerű - más néven: determinisztikus - kapcsolat van, ha az egyik változó értékeinek ismerete alapján biztosan következtethetünk a másik változó értékeire. A függvényszerű kapcsolat azt jelenti, hogy minden egyes X értékhez egyértelműen egy-egy Y értéket rendelünk hozzá. Az egyik ismérv változata minden esetben a másik ismérv adott változatával fordul elő.

A csoportképző (X) ismérv egyértelműen meghatározza a másik ismérv (Y) nagyságát vagy értékét. Vagyis az X értéke pontosan megadja Y-ét. Tehát a vizsgált egységek X szerinti hovatartozásának ismeretében teljes egyértelműséggel megmondható azok Y szerinti hovatartozása is.

Nyilvánvalóan a determinisztikus kapcsolat a valóságban igen ritkán fordul elő, sokkal gyakoribbak a sztochasztikus kapcsolatok.
Példa: ha a Nem (X) és a Dohányzás (Y) közötti összefüggést vizsgáljuk, determinisztikus kapcsolat esetén minden férfi dohányzik, míg a nők közül senki sem dohányzik. Tehát ha ismerjük a személy nemét (az X változóra felvett értékét), egyértelműen meghatározhatjuk, hogy dohányzik vagy sem (az Y szerinti értékét).

Milyen mutatókat, jelöléseket használnak a leíró statisztikában?

N: a megfigyelés elemszáma
Összeg - angolul: sum: a változó értékeinek összege
Átlag - angolul: mean, várható érték: a mintaátlag
Medián- ordinális, int., arányskála esetében
Módusz - angolul: modus
Minimum, maximum: a változó legkisebb és a legnagyobb értéke.
Szórás - angolul: Std. Deviation
Csúcsosság - angolul: kurtosis
Ferdeség - angolul: skewness
Kvartilisek
Konfidenciaintervallum: egy általunk megadott megbízhatósági szintű konfidenciaintervallum megállapítása a sokasági várható értékre.

A leggyakrabban használt statisztikai mutatók

Helyzetmutatók: Átlag, Medián, Módusz
Szóródási mutatószámok: Terjedelem, Szórás, Variancia
Alakmutató számok: Csúcsosság, Ferdeség
Egyéb mutatók: Összeg, Esetszám, Minimum, Maximum

Még hogyan osztályozzák a statisztikai mutatókat?

A centrális tendencia a mennyiségi változók értékeinek tipikusságát írja le. Az adatok összegzésére használt statisztikai mutatók közé tartozik.

A centrális tendencia mérőszámai:

A (számtani) átlag
A medián
A pozicionális értékek
A módusz

Még hogyan osztályozzák az adatokat?

Az adatok értékeik avagy jellegük alapján lehetnek: bináris, diszkrét, folytonos adatok.
Az olyan sokaságot, amelynek elemei nem vehetnek fel tetszőleges értéket, hanem csak bizonyos, jól meghatározhatóakat, a számegyenes valamely szakaszát még elméletileg sem képesek összefüggően kitölteni, diszkrét sokaságnak nevezzük. Tehát amikor a valóság jól elkülönülő egységekből áll, akkor diszkrét sokaságról beszélünk.
Példa: egy adott településen élő lakosok száma lehet 2000, 3000 vagy akár 10000 is, de nem lehet 3000,45

Egy adott sokaság tagjai, egységei legtöbbször elég egyértelműek, de vannak olyan esetek is, amikor ezek az egységek nem különülnek jól el egymástól, hanem csak önkényesen definiálhatóak vagy a valóságban nem is léteznek.

A diszkrét változó esetében „mérőeszközünknek” van legkisebb skálázási egysége. Pl: családonkénti gyermekszám, a skála egysége az 1 gyermek.

Folytonos változók ezzel szemben (elvben) bármilyen finom skálán mérhetők, pl. férfi munkaerő aránya adott foglalkoztatottakon belül (0%–100%).
A gyakorlatban számos, elvben diszkrét változót folytonosként kezelünk. Pl. havi nettó jövedelem.

Az egység jellege szerint egy sokaság két típusú lehet: diszkrét és folytonos. Amikor egy sokaság valóságos, de csak önkényesen elkülöníthető egységekből áll, akkor folytonos sokaságról beszélünk. Elemei valamilyen határok között bármilyen értéket felvehetnek, ugyanakkor a számegyenes valamely szakaszát az adatok értékei összefüggően kitölthetik. Az értékek pontossága csak a mérési eljárástól, a mérés pontosságától függ. Elemei, a változók (elvben) bármilyen finom skálán mérhetők, pl. férfi munkaerő aránya adott foglalkoztatottakon belül (0%–100%). A gyakorlatban számos, elvben diszkrét változót folytonosként kezelünk. Pl. havi bruttó jövedelem. Az ilyen sokaságokat vonaldiagrammal szokás ábrázolni.

Példa: A testmagasság a mérés pontosságától függően lehet 183 cm, 1,838 m vagy 183,8542 cm.

A helyzetmutató számok - más néven: középértékek - a mennyiségi ismérvet egyetlen számmal jellemzik. Az adathalmaz közepetáján helyezkednek el. A helyzetmutató számoknak két típusa van: számított középértékek és helyzeti középértékek. Mikor használjuk ezeket? Metrikus mérési szintű változók esetén.

Számított középértékek - más néven: átlagok - mindig számítással határozzuk meg őket. Értéküket minden egyes az átlagolásba bevont érték befolyásolja (számtani, harmonikus, mértani, négyzetes).
Helyzeti középértékek - az értékeknek egy bizonyos intervallumban való elhelyezkedése játszik szerepet. Az előforduló értékek egy része nem befolyásolja a középértékek nagyságát (módusz, medián, kvantilisek).

Az adatok jellegűk szerint lehetnek: minőségi, illetve mennyiségi adatok. Mennyiségi - más néven: mérhető, kvantitatív, metrikus- változóknak nevezzük a számszerűségükből adódóan megszámolható változókat. Ezen változókkal matematikai - statisztikai műveletek végezhetők. Az intervallum, illetve az arányskála mérési szintű változókat soroljuk ebbe a csoportba.
Példa: Jövedelem, fogyasztási szerkezet, életkor, forgalom.

Metrikus skála az intervallum, illetve az arányskála. A skálák egyes pozíciói közötti távolság meghatározott. Fokozatai közti különbségek állandóak. Ezek a skálák rendelkeznek mindazokkal a tulajdonságokkal, mint a nominális és ordinális skálák.
Példa: Testsúly, magasság, jövedelem, életkor

Tipp 1

Az előfordulások megszámlálása – angolul: count – során tudjuk meg, hogy a beállított kritériumok alapján mennyi összesen az esetek száma. A Count menüpontban lehet végrehajtani.
Példa: Az adattáblánkban 105 fizikai munkás beosztású férfi van.

Tipp 2: A kiugró értékek vizsgálata

Mikor vizsgáljuk meg, hogy vannak-e kiugró értékeink? Amikor nekifogunk az adatelemzésnek első lépésként ezt kell megállapítanunk, hogy vannak-e kiugró értékeink az adatbázisban. Ha ezt nem tesszük meg, akkor a későbbiek során ezen értékek eltorzíthatják az eredményeinket.
Kiugró értékeknek - angolul: outlierek - nevezzük azokat az adatok, amelyek úgy látszanak, hogy nem tartoznak az adatbázishoz. Ezek úgymond a hibás adatok, amelyeket az adatattisztítás során törölnünk kell az adatbázisból vagy legalábbis másképpen kell kezelnünk, mint a többi adatot. Hogy mit tekintünk kiugró értéknek az nehezen fejezhető ki egzakt módon. Ezen értékek meghatározása egyike a statisztika legnehezebben kezelhető kérdéseinek.

A túl nagy vagy a túl kicsi értékeket szoktuk kiugró értékeknek nevezni, de ettől némely esetben eltérünk. Például a sokaság elemei csak pozitív értékeket vehetnek fel, és a kicsi értékeknek csekély a jelentőségük, akkor csak a kiugróan nagy értékek érdekesek. Itt fontos megemlíteni, hogy egy tanulmány megírása során mindig meg kell jegyezni, hogy mely adatokat hagytuk ki az elemzésből.

A kiugró értékek vizsgálatára ad lehetőséget az extrém értékek táblázata és a box-plot diagram. Ha ismert az adatsor minimum és maximum értéke, akkor egyértelműen megállapítható, hogy hibás értékről van-e szó. Ilyen esetben az adatbevitelnél történhetett elírás.

Amikor egy adathalmazról el kell döntenünk, hogy a kiugrónak vélt adatokat kizárjuk-e, vagy sem, akkor több fajta módszert is alkalmazhatunk: a Dixon-féle r-próbát, a Nalimov-próbát, illetve a – legegyszerűbb és leggyorsabb – Z-próbát.

A kiugró értékeknek 2 típusa van

Enyhe kiugró értékről beszélünk, ha az adat eltérése a mediántól legalább 1.5-szerese a kvartilis terjedelemnek (a felső és az alsó kvartilis különbsége), de legfeljebb 3-szorosa.
Extrém kiugró értékről beszélünk, ha az adat eltérése a mediántól legalább 3-szorosa a kvartilis terjedelemnek.