Statisztika [PDF]

  • Commentary
  • decrypted from 05E9371D35F121AF069C66FE324ECB3A source file
  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Tátrainé Körmendy E. Katalin

STATISZTIKA

Készült a HEFOP 3.3.1-P.-2004-09-0102/1.0 pályázat támogatásával.

Szerző:

Tátrainé dr Körmendy E. Katalin főiskolai docens

Lektor:

Szalka Éva egyetemi docens

© Tátrainé Körmendy E. Katalin, 2006

Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

A dokumentum használata Vissza



3



A dokumentum használata Mozgás a dokumentumban A dokumentumban való mozgáshoz a Windows és az Adobe Reader megszokott elemeit és módszereit használhatjuk. Minden lap tetején és alján egy navigációs sor található, itt a megfelelő hivatkozásra kattintva ugorhatunk a használati útmutatóra, a tartalomjegyzékre, valamint a tárgymutatóra. A ◄ és a ► nyilakkal az előző és a következő oldalra léphetünk át, míg a Vissza mező az utoljára megnézett oldalra visz vissza bennünket. Pozícionálás a könyvjelzőablak segítségével A bal oldali könyvjelző ablakban tartalomjegyzékfa található, amelynek bejegyzéseire kattintva az adott fejezet/alfejezet első oldalára jutunk. Az aktuális pozíciónkat a tartalomjegyzékfában kiemelt bejegyzés mutatja. A tartalomjegyzék használata Ugrás megadott helyre a tartalomjegyzék segítségével

Kattintsunk a tartalomjegyzék megfelelő pontjára, ezzel az adott fejezet első oldalára jutunk. Keresés a szövegben

A dokumentumban való kereséshez használjuk megszokott módon a Szerkesztés menü Keresés parancsát. Az Adobe Reader az adott pozíciótól kezdve keres a szövegben.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



3



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Bevezetés Vissza



4



Tartalomjegyzék 1. Bevezetés ........................................................................................ 7 1.1. A statisztika fogalma.................................................................................... 7 1.2. Alapfogalmak................................................................................................ 7 1.3. Összefoglalás .............................................................................................. 22 2. Viszonyszámok............................................................................. 25 2.1. A dinamikus (= időbeli) viszonyszám..................................................... 26 2.2. A területi viszonyszám .............................................................................. 29 2.3. A megoszlási viszonyszám........................................................................ 32 2.4. Az intenzitási viszonyszám....................................................................... 35 2.5. Gyakorló feladatok .................................................................................... 38 2.6. Összefoglalás .............................................................................................. 43 2.7. Mintapéldák korábbi vizsgadolgozatokból............................................. 44 3. Középértékek................................................................................ 47 3.1. A középértékek fogalma ........................................................................... 47 3.2. A számtani átlag ......................................................................................... 48 3.3. A mértani átlag ........................................................................................... 53 3.4. A négyzetes átlag........................................................................................ 55 3.5. A harmonikus átlag.................................................................................... 56 3.6. Módusz........................................................................................................ 57 3.7. Medián......................................................................................................... 59 3.8. Gyakorló feladatok .................................................................................... 63 3.9. Összefoglalás .............................................................................................. 66 3.10. Mintapéldák korábbi vizsgadolgozatokból........................................... 69 4. Szóródás........................................................................................ 77 4.1. A szóródás fogalma ................................................................................... 77 4.2. A szóródás legfontosabb mutatói............................................................ 77 4.3. Gyakorló feladatok .................................................................................... 85 4.4. Összefoglalás .............................................................................................. 85 5. A gyakorisági görbék (eloszlások) alakjának vizsgálata.............. 86 5.1. Szimmetria – aszimmetria......................................................................... 86 5.2. Csúcsosság – lapultság .............................................................................. 90 5.3. Gyakorló feladatok .................................................................................... 90

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



4



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Bevezetés Vissza



5



5.4. Összefoglalás .............................................................................................. 91 6. A koncentráció.............................................................................. 92 6.1. Fogalma, fajtái, kimutatása, mérése......................................................... 92 6.2. Gyakorló feladatok .................................................................................... 98 6.3. Összefoglalás .............................................................................................. 99 7. Az ismérvek közötti kapcsolat.....................................................100 A sokaságok egyszerre több ismérv szerinti vizsgálata ..............................100 7.1. Asszociáció ...............................................................................................103 7.2. Vegyes kapcsolat ......................................................................................109 7.3. Korrelációs kapcsolat ..............................................................................115 7.4. Gyakorló feladatok ..................................................................................119 7.5. Összefoglalás ............................................................................................122 7.6. A 4., 5., 6., 7. fejezetek tartalmához kapcsolódó mintapéldák korábbi vizsgadolgozatokból .................................................................123 8. Standardizálás .............................................................................129 8.1. Bevezetés...................................................................................................129 8.2. A standardizálás – elméleti összefoglalás .............................................131 8.3. Gyakorlati alkalmazás..............................................................................135 8.4. Gyakorló feladatok ..................................................................................144 8.5. Összefoglalás ............................................................................................148 8.6. Mintafeladatok korábbi vizsgadolgozatokból ......................................149 9. Ár-, érték-, volumenindex-számítás ............................................154 9.1. Bevezetés...................................................................................................154 9.2. Egyedi elemzések .....................................................................................154 9.3. Összevont (együttes, átlagos) elemzések ..............................................159 9.4. Az ár-, érték-, volumenindexek felhasználási lehetőségei ..................166 9.5. Kiegészítés ................................................................................................173 9.6. Gyakorló feladatok ..................................................................................178 9.7. összefoglalás .............................................................................................180 9.8. Mintafeladatok korábbi vizsgadolgozatokból ......................................183 10. Becslés .......................................................................................187 10.1. Bevezetés.................................................................................................187 10.2. Becsült sokasági jellemzők....................................................................195 10.3. Gyakorló feladatok ................................................................................229

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



5



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Bevezetés Vissza



6



10.4. Összefoglalás ..........................................................................................232 10.5. Mintapéldák korábbi vizsgadolgozatokból.........................................235 11. Hipotézisellenőrzés = statisztikai próbák ................................ 240 11.1. A hipotézisellenőrzés alapfogalmai .....................................................241 11.2. A hipotézisellenőrzés menete ..............................................................247 11.3. Statisztikai próbák..................................................................................248 11.4. Gyakorló feladatok ................................................................................277 11.5. Összefoglalás ..........................................................................................284 11.6. Mintapéldák korábbi vizsgadolgozatokból.........................................287 12. Az idősorok elemezése.............................................................. 292 12.1. Bevezetés.................................................................................................292 12.2. Trendszámítás ........................................................................................294 12.3. A szezonhatás vizsgálata.......................................................................312 12.4. A véletlenhatás vizsgálata .....................................................................319 12.5. Előrejelzés...............................................................................................321 12.6. Záró példa...............................................................................................324 12.7. Gyakorló feladatok ................................................................................335 12.8. Összefoglalás ..........................................................................................337 12.9. Mintapéldák korábbi vizsgadolgozatokból.........................................339 13. Korreláció-, regresszió-számítás............................................... 344 13.1. Bevezetés.................................................................................................344 13.2. Kétváltozós elemzések..........................................................................345 13.3. Háromváltozós elemzések....................................................................376 13.4. Gyakorló feladatok ................................................................................407 13.5. Összefoglalás ..........................................................................................412 13.6. Mintapéldák korábbi vizsgadolgozatokból.........................................416 Táblázatok...................................................................................... 422 Felhasznált irodalom:..................................................................... 435

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



6



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Bevezetés Vissza



7



1. Bevezetés 1.1. A statisztika fogalma A bennünket körülvevő világ1 megismeréséhez igen sokféle adat (= információ) összegyűjtésére, rendszerezésére, feldolgozására, elemzésére van szükségünk. Ezeket a feladatokat végzi el a statisztika. Ebből a szempontból nézve, a statisztika gyakorlati tevékenység. Ahhoz, hogy az összegyűjtött adatokból valóban használható eredményeket kapjunk, és azokból helyes következtetéseket vonjunk le, munkánkat elméletileg is meg kell alapozni. Az alkalmazott módszereket és az eljárási szabályokat az elméleti statisztika foglalja össze. A statisztika ebből a szempontból nézve tudomány. Végül a statisztika magát az összegyűjtött és rendezett adathalmazt is jelenti2. 1.2. Alapfogalmak 1.2.1. Sokaság

Sokaságnak nevezzük azoknak az egyedeknek az összességét (= halmazát), melyekre az adatgyűjtés irányul. A sokaságokat különböző szempontok szerint csoportosíthatjuk. A legfontosabb megkülönböztetés: • álló sokaság; • mozgó sokaság. Az álló sokaság állományjellegű, időpillanatra vonatkozik. (pl.: egy ország lakossága a népszámlálások idején3, egy felsőoktatási intézmény hallgatói a beiratkozások idején.) A mozgó sokaság folyamatot tükröz, időtartamra vonatkozik. (pl.: egy bolt forgalma egy hónap alatt4, egy gyár termelése egy félév alatt, egy család kiadásai egy év alatt.)

1

A bennünket körülvevő világ = természet, társadalom, gazdaság. Szokás még magukat az alkalmazott képleteket (függvényeket) is statisztikának nevezni. 3 Népszámlálások ideje = az év egy rögzített napja (pl. január 1.). Akkor is ennek a napnak az adatait veszik fel a számláló biztosok, ha nem ezen a napon kopogtatnak be egyegy lakásba. 4 A napi forgalom összesíthető hetente, havonta, negyedévente, évente. 2

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



7



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Bevezetés Vissza



8



További – az irodalomjegyzékben felsorolt, a témát részletesebben taglaló tankönyvekben megtalálható – szempontok alapján beszélhetünk: 1. diszkrét (= elemeik jól elkülöníthetőek) és folytonos (= elemeiknek elkülönítéséről gondoskodni kell); 2. egynemű (= elemeiknek csak közös tulajdonságai vannak) és összetett (= elemeiknek nemcsak közös, hanem megkülönböztető tulajdonságai is vannak); 3. véges (= elemeik megszámlálhatóak) és végtelen (= elemeik nem megszámlálhatóak); 4. fő (= az összetett sokaság egésze) és rész (= az összetett sokaság valamilyen szempont alapján elkülönített részei); stb. sokaságokról is. 1.2.2. A sokasági egység

A sokaság egy-egy tagját, elemét sokasági egységnek nevezzük. A sokaság egységei vagy természetükből fakadóan elkülönülnek, vagy a megfigyelés érdekében a statisztikai munkát végzők alakítják ki az elkülöníthető egységeket. A statisztikai munkában betöltött szerepük szerint az egységeknek két típusát különböztetjük meg: • megfigyelési, • számbavételi. Adatgyűjtésünk a megfigyelési egységre (pl.: egy város lakói, egy mezőgazdasági termelő állatállománya, egy gyár termelése) vonatkozik, kérdéseinket pedig a számbavételi egységhez (pl.: egy város lakói5, egy mezőgazdasági termelő6, a gyár statisztikusai, munkaügyi stb. dolgozói7) intézzük. 1.2.3. Ismérv

Azokat a tulajdonságokat, melyek alapján a megfigyelt egységek egy sokaságot képeznek, vagy éppen elkülönülnek, ismérveknek nevezzük. Az ismérvek típusai • • • • • •

közös, megkülönböztető; időbeli, területi, mennyiségi, minőségi.

5

A város lakói a rájuk vonatkozó adatokat meg tudják mondani. A mezőgazdasági termelő képes adatokat szolgáltatni állatállományáról stb. 7 A gyár termeléséről és egyéb adatairól egyes – ezzel a feladattal megbízott – dolgozók tudnak nyilatkozni. 6

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



8



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Bevezetés Vissza



9



A közös ismérv a sokaság minden elemét jellemzi, azok éppen ezek alapján tartoznak a sokasághoz. A megkülönböztető ismérv a sokaság elemeinek csak egy-egy részét jellemzi, részsokaságok képzésére ad lehetőséget. (pl.: Egy egyetem hallgatóinak közös tulajdonsága, hogy az adott időpontban, az adott intézménybe beiratkoztak; hallgatói jogviszonnyal rendelkeznek; de nem mind ugyanabban a városban vagy községben születtek, más középiskolákban tanultak, más szakterületet választottak stb.)

Az időbeli ismérvek időpontokat vagy időszakokat jelölnek; a területiek földrajzi megkülönböztetést fejeznek ki; a mennyiségiek műveletek végzésére alkalmas számok, a megfigyelt egységek nagyságát, méretét, kapacitását adják meg, ismérvváltozataik diszkrétek8, ill. folytonosak9; a minőségi ismérvek változatai pedig szavakkal megfogalmazható tulajdonságok. (Példák a felsorolás sorrendjében: születési dátum, az érettségi megszerzésének éve; születési hely, állandó lakóhely; testmagasság (cm; folytonos), ösztöndíj (forint; folytonos), egy tanuló kötelező iskolai elfoglaltságának mennyisége (óra; diszkrét), testvéreiknek száma (fő; diszkrét), a félév végén leteendő vizsgáik (db; diszkrét) stb.; • családi állapota, foglalkozása, iskolai végzettsége stb.)

• • •

Akármelyik eddig felsorolt ismérvről is van szó, annak vannak változatai, azaz lehetséges kimenetei. Például: a hallgatók születési ideje (= időbeli ismérv): 1980, 1981, 1982 stb., születési helyük (= területi ismérv): Budapest, Győr, Szeged stb.; testmagasságuk (= mennyiségi ismérv): 160 – 165, 165 – 170 cm stb.; szakterületük (= minőségi ismérv): mérnök, közgazdász, jogász stb.

Az ismérvváltozatok, a folytonos mennyiségi ismérveket – ezeket osztályközökbe, azaz „tól – ig” határok közé szokás sorolni – kivéve, jól elkülöníthetők. Az ismérvek különleges csoportját alkotják az un. alternatív ismérvek, melyeknek mindig csak két10 változata van.

8

Ha az egyes ismérvváltozatokhoz tartozó előfordulásokat ábrázoljuk a koordináta rendszerben (lásd: későbbi fejezetekben), akkor a vízszintes tengely nem minden pontjához tudunk előfordulásokat rendelni. 9 Ha az egyes ismérvváltozatokhoz tartozó előfordulásokat ábrázoljuk a koordináta rendszerben (lásd: későbbi fejezetekben), akkor elméletileg a vízszintes tengely minden pontjához tudunk előfordulásokat rendelni. 10 Alternatív ismérvek: férfi – nő, kereső – eltartott.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



9



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Bevezetés Vissza



10



1.2.4. Statisztikai adat

A megfigyelt sokaság egy-egy elemének a vizsgálat tárgyát képező tulajdonságára vonatkozó aktuális értékét statisztikai adatnak nevezzük. A statisztikai adatok különböző szempontok alapján csoportosíthatóak. Így vannak: • • • • • •

szöveges és számszerű; abszolút relatív; eredeti és számított adatok.

Szöveges adatok a szavakkal megfogalmazott ismérvváltozatok, melyek a könnyebb feldolgozhatóság érdekében kódolhatóak. A számszerű adatok lehetnek abszolút jellegűek, melyek adatgyűjtésből származnak, vagy összegzéssel, különbségképzéssel, szorzással állíthatók elő és van mértékegységük; ill. relatív jellegűek, melyek két statisztikai adat hányadosaként állíthatók elő, és nem mindig van mértékegységük. Az eredeti, más néven alapadatok adatgyűjtésből származnak; a számított adatokat pedig különböző matematikai műveletek eredményeként nyerjük. A számított adatok kitüntetett csoportját alkotják a mutatószámok, melyeket rendszeresen, és mindig azonos tartalommal számítunk ki. • • • • • •

(Példák a felsorolás sorrendjében: szöveges: férfi – nő, kereső – eltartott, a hallgatók korábbi iskoláinak listája stb. számszerű, abszolút: havi jövedelmek nagysága, egy ország lakóinak száma stb. számszerű, relatív: egy gyár termelésének növekedése %-ban; eredeti: egy hallgató személyes adatai; számított: minden relatív számszerű adat; mutatószám: egy főre jutó GDP, egy ország népsűrűsége stb.)

A számszerű adatokkal kapcsolatban szokás, különböző mérési-, elemzési szintekről11 is beszélni. Végül azt is fontos tudnunk, hogy a statisztikai adatok korlátozott pontosságúak, vagyis azt kell általánosnak tekintenünk, hogy a statisztikai adatgyűjtés eredményeképpen kapott adatok a valódi értéktől kisebb – nagyobb mértékben eltérnek. Ennek két oka van. Szubjektív, az 11

Névleges: kizárólag megkülönböztetésre szolgáló számok (postai irányítószámok, házszámok); sorrendi (egy sportverseny helyezettjei); különbségi (arányuk nem értelmezhető; az egyes naptári napok középhőmérsékletének eltérései) és arány (az egyes hallgatók ösztöndíjainak hányadosa).

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



10



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



11



adatgyűjtést végző személyek nem pontos munkavégzése, nem megfelelő felkészítése; az esetleg nem egyértelmű kérdések, a válaszadás megtagadása stb. Ennek nagysága nem ismerhető meg, de mindent meg kell tennünk kisebbítése érdekében. Objektív, más néven véletlen hiba. Ez az adatgyűjtés nem teljes-körű voltából adódik. Nagysága szabályos mintavétel esetén megismerhető (= becsülhető). A statisztikai adatok hibáját mind abszolút, mind relatív módon kifejezhetjük. (Példa a statisztikai kiadványokban közölt adatok hibájának számítására: Magyarország népessége 2004-ben 10.11712 ezer fő; •

abszolút hiba13: a = ( A′ − A) = ±500 fő ,



a relatív hiba pedig α =

a 500 = ⇒ 0,004942% . A 10.117.000

1.2.5. Statisztikai adatok rendezése = csoportosítása

Az összegyűjtött illetve kiszámított statisztikai adatokat annak érdekében, hogy azok áttekinthetőek legyenek, rendezni kell. A rendezés megszokott formái a statisztikai sorok (= az adatokat egyetlen szempont alapján csoportosítjuk) és a statisztikai táblák (= az adatokat egyszerre több szempont szerint csoportosítjuk). A statisztikai sorok fajtái az ismérvekhez kapcsolhatóak, ill. alkalmazzuk az un. leíró sort, ez egyetlenegy sokasági egységre vonatkozó különböző jellegű, részben különböző mértékegységű adatokat sorakoztat fel. A statisztikai táblákat az azokban található összesen-rovatok száma alapján különböztetjük meg. Az adatokból akár sorokat, akár táblákat alkotunk, bizonyos formai követelményeknek14 (lásd: 1.2. sz. tábla) is eleget kell tennünk. Kérjük, tekintse át az alábbi példákat, majd az azokról készült rövid összefoglalót! 1.1. sz. tábla Magyarország népessége , (ezer fő) év 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 adat 10.337 10.321 10.301 10.280 10.253 10.222 10.200 10.175 10.142 10.117 adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – hosszú idősorok, 1. oldal) 12

Adatforrás: Magyar Statisztikai Évkönyv 2003 (KSH, 2004 – hosszú idősorok, 1. oldal) a = abszolút hiba, α = relatív hiba, A = tényleges adat (= amire kíváncsiak vagyunk), ′ A = közölt adat (= a statisztikai kiadványokban, jelentésekben) 14 A minta-táblából egyetlen formai kellék hiányzik, az összegrovat. 13

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



11



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



12



1.2. sz. tábla Az élveszületések száma Magyarországon (fő)

A formai kellékek megnevezése15

év

élveszületés

cím, (mértékegység)

1995

112 054

1996

105 272

1997

100 350

1998

97 301

1999

94 645

2000

97 597

2001

97 047

2002

96 804

2003

94 647

2004

92 200*16

fejléc oldalrovat (ismérvváltozatok) megfigyelt adatok

adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – hosszú idősorok, 1. oldal)

1.3. sz. tábla A gazdaságilag aktív népesség néhány európai országban 2003

1.4. sz. tábla Magyarország férfi lakossága életkor szerint 2004. jan. 1.

ország

aktív népesség (ezer fő)

korév17

lakosok (fő)

Ausztria

3.876

0

47.936

Csehország

5.096

1

49.156

Dánia

2.858

2

49.570

Finnország

2.682

3

49.881

Franciaország

26.409

4

47.949

15

A közölt minta alapján a többi sor ill. tábla formai kellékei is azonosíthatóak. Becsült adat. 17 Korév = valakinek az életkora az adott évben (adott év évszáma – születés évszáma) függetlenül attól, hogy a vizsgálat elvi időpontjában az illető már betöltötte-e az adott kort vagy sem. 16

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



12



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

Görögország

4.407

……

Hollandia

8.432

85

4.314

Írország

1.861

86

3.731

Lengyelország

16.946

87

3.214

Magyarország

4.166

…..

……..

összesen



13



4.804.113

adatforrás (1.3. sz.tábla): Magyar statisztikai évkönyv 2003 ((KSH, 2004 – nemzetközi adatok,555. oldal) adatforrás (1.4. sz tábla): Magyar statisztikai évkönyv 2003 (KSH, 2004 –népességi adatok,36. oldal)

1.5.sz. tábla Külföldi érdekeltségű vállalkozások18 saját tőke szerint, Magyao.-on 2003-ban saját tőke – 150 150,1 – 200 200,1 – 250 250,1 – 500 500,1 – 750 750,1 – (millió Ft) szervezetek 22.958 362 283 718 315 1.128 (db) adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – a gazdasági szervezetek adatai, 289. oldal)

1.6.sz. tábla A magyarországi közoktatási intézmények az ellátott feladatok típusa szerint, a 2003/2004 tanévben az intézmény jellege az intézmények száma (db) szakiskola 3 középiskola 99 középfokú iskola 163 általános iskola 335 óvoda 861 iskola + kollégium 390 óvoda + iskola + kollégium 42 többcélú intézmény 297 összesen 2.190 adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – oktatási adatok, 226. oldal) 18

A tábla adatai nem tartalmazzák azokat a vállalkozásokat, ahol a külföldi részesedés 10 % alatti, ill. az un. offshore vállalkozások számát.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



13



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



14



1.7. tábla Írország fontosabb adatai, 2004 megnevezés

mértékegység19

adat

terület

km2

70.283

népesség

millió fő

3,96

%

94

a népesség összetétele ír angol

3

vallások katolikus anglikán

%

presbiteriánus

77 9 ……

hivatalos nyelvek



ír, angol

főváros



Dublin

a főváros lakossága

millió fő

1,0

államforma



köztársaság

az alkotmány kihirdetése



1937

az önállóság elnyerése



1921



166

a törvényhozás létszáma képviselőház szenátus

60

GDP

milliárd USD

152,1

GDP/fő

USD

38.430

gazdasági növekedés

előző évhez %

+ 1,8

infláció munkanélküliség pénznem

% –

+ 2,8 4,8 euró

adatforrás: Zsebvilág 2004, A Föld országai (HVG, 76. old.)

19

A táblák (sorok) egyes rovataiban (celláiban) szereplő jelek: „–” = a rovatban nem szerepelhet adat; „….” = a rovatba tartozó adat ismeretlen; „000” = az adott nagyságrenden a rovatban nem szerepelhet adat.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



14



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



15



1.8. tábla Az 1.2.5. fejezetben szereplő statisztikai sorokhoz kapcsolódó fontosabb ismeretek sorszám típus tudnivalók röviden 1.1. állapot idősor Adatai többszörös halmozódást20 tartalmaznak, így azok összegzése értelmetlen. 1.2. tartam idősor Adatai összegezhetőek.

∑y

1.3.

területi sor

14.

mennyiségi sor diszkrét ismérvváltozat

1.5.

1.6.

1.7.

mennyiségi sor folytonos ismérvváltozat minőségi sor

leíró sor

i

= 987.917 fő21 =

A vizsgált időszakban Magyarországon 987.917 gyermek született. Adatai összegzésének csak akkor lenne értelme, ha a felsorolt országok valamilyen egységet alkotnának. Adatai összegezhetőek.

∑y

i

= 4.804.113 fő =

2004-ben Magyarországnak összesen 4.804.11322 fő férfi lakosa volt. Adatai összeadhatók,

∑y

i

= 425.754 db

2003-ban hazánkban összesen 425.754 külföldi érdekeltségű vállalkozás működött. A tábla adatai összeadhatók,

∑y

i

= 2.190 db

A 2003/2004-es tanévben hazánkban 2.190 olyan közoktatási intézmény működött, ahol a gyermekek 3 és 1823 éves koruk között tanulhatnak. A Föld országainak sokaságából kiválasztottunk egy egységet (= Írország), és erre vonatkozóan közöltünk különböző jellegű adatokat.

20

Halmozódás = aki már a megfigyelés első évében (1996) is élt, és a megfigyelés utolsó évében is (2004), azt kilencszer venné számításba az összegzés stb. 21 y = az időpontokhoz, időszakokhoz tartozó adatok statisztikai jelölése i 22

Ez az adat un. továbbvezetett népességszám. Az előző (2001) népszámlálás adatait növelik a születések és bevándorlások adataival, ill. csökkentik a halálozások és az elvándorlások adataival. 23 Az évismétlők ill. a felnőttképzésben résztvevők esetenként magasabb életkorúak is lehetnek.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



15



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza



16

1.9. sz. tábla Fontosabb népmozgalmi adatok, Magyarország terhességmegszakítás száz élveszületésre

teljes termékenységi arány24

1949 11,7

válás ezer lakosra 1,4

0,9

2,54

1960 8,9

1,7

110,7

2,02

1970 9,3

2,2

126,7

1,97

1980 7,5

2,6

54,4

1,92

1990 6,4

2,4

71,9

1,84

2000 4,7

2,3

60,7

1,33

2001 4,3

2,4

58,1

1,31

2002 4,5

2,5

57,9

1,31

2003 4,5

2,5

56,8

1,28

év

házasságkötés ezer lakosra

adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – népmozgalmi adatok, 2. oldal)

1.10. sz. tábla Országos (Magyarország) közúthálózat jelleg szerint (km) megnevezés

1990

1995

2000

2001

2002

2003

gyorsforgalmi utak autópálya

267

335

448

448

533

542

82

85

57

57

48

90

elsőrendű főút

1.888

2.055

2.713

2.713

2.164

2.177

másodrendű főút

4.499

4.390

4.330

4.330

4.346

4.337

115

159

242

251

276

286

autóút főutak

gyorsforgalmi utak csomóponti ágai mellékutak összekötő út

17.527 17.853 17.916 17.916 17.958 17.998

24

Teljes termékenységi arány = 1000 egy időben született leánygyermek élete folyamán (illetve a szülőképeskor felsőhatáráig – 49 év – eljutva) összesen hány gyermeket szül az adott év termékenységi arányszámának feltételezése mellett. (Köves – Párniczky: Általános statisztika, KJK, 742. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



16



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

bekötőút állomáshoz vezető út összesen



Vissza

17



4.810

4.680

4.646

4.651

4.638

4.609

553

516

495

496

497

497

29.741 30.073 30.307 30.322 30.460 30.536

adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – szállítási adatok, 496. oldal)

1.11. tábla A magyarországi népesség nyelvismerete főbb korcsoportok szerint, 2001. febr.25 korcsoportok (év) nyelv26 – 14 15 – 39 40 – 59 60 – összesen magyar

1.690.679

3.564.984

2.842.430

2.079.130

10.177.223

230

1.116

1.281

886

3.513

19.931

35.656

16.613

4.871

77.071

görög

351

2.503

1.318

987

5.159

horvát

2.626

13.699

13.557

12.667

42.549

lengyel

680

3.481

5.355

1.690

11.206

német

86.105

544.196

251.833

158.652

1.040.786

72

215

141

73

501

román

2.603

44.447

28.226

19.445

94.721

ruszin

143

758

763

562

2.226

szerb

1.082

11.006

6.963

6.432

25.483

szlovák

3.090

11.721

17.843

28.010

60.664

szlovén (vend)

358

1.759

1.886

1.640

5.643

ukrán

925

6.229

4.510

2.325

13.989

1.694.936

3.574.493

2.842.430

2.081.559

10.198.315

bolgár cigány (roma)

örmény

összesen

adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – népességi adatok, 42. oldal)

25 26

Az eddigi utolsó népszámlálás bevallásai alapján. Csak a magyar és a bejegyzett hazai kisebbségek nyelvei.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



17



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



18



1.12. sz. tábla Az 1.2.5. fejezetben szereplő statisztikai táblákhoz kapcsolódó fontosabb ismeretek sorszám típus tudnivalók röviden 1.9.

egyszerű

Adatai sem függőleges, sem vízszintes irányban nem összesíthetők. Függőleges irányban négy állapot idősort, vízszintes irányban pedig kilenc leíró sort tartalmaz27.

1.10.

csoportosító

Adatai csak függőleges irányban összesíthetők.28 Függőleges irányban hat minőségi sort, vízszintes irányban pedig kilenc állapot29 idősort tartalmaz30.

1.11.

kombinációs

Adatai mind függőleges, mind vízszintes irányban összeadhatók. Függőleges irányban öt minőségi sort, vízszintes irányban pedig tizenöt mennyiségi sort tartalmaz. A tábla utolsó sorának (= legalsó) és utolsó oszlopának (= jobb szélső) találkozásában a cella (= rovat) a főösszeg adatot tartalmazza.31

27

A tábla minden adata két statisztikai sorhoz tartozik, így a táblát szokás kétdimenziósnak nevezni. 28 Az összesen rovat adatai az egyes évek teljes közút hálózatának hosszát adják meg. 29 Állapot idősor, mert az egyik évben már meglévő út benne van a következő évi úthosszban is. 30 A tábla adataiból részösszegek is képezhetők (autópálya + autóút = gyorsforgalmi út). Ha ezeket a részösszegeket is kiszámítottuk volna, akkor további három állapot idősorhoz jutottunk volna. 31 Példák az összesen rovat adatainak jelentésére: 1.694.936 = 2001-ben Magyarországon egymillió-hatszázkilencvennégyezerkilencszázharminchat 14 éven aluli gyermek élt. 10.177.223 = 2001-ben Magyarországon tízmillió-százhetvenhétezerkettőszázhuszonhárom magyar nyelvet beszélő ember élt.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



18



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



19



1.2.6. Statisztikai adatok ábrázolása

A statisztikai adatokat egyrészt szemléletesebbé tételük, másrészt elemzési célokból is ábrázolni szoktuk. Az ábrázolás történhet a koordináta rendszerben és azon kívül32 is. Az alábbiakban csak az ábrázolás egyszerűbb módozataira térünk ki röviden. A koordináta rendszer pozitív negyedében készíthetünk

• pont-, • vonal- és • oszlopdiagramot, ill. a sokaságok szerkezetét jól szemléltethetjük a koordináta rendszeren kívül készített kör- vagy oszlopdiagrammal.

népesség (ezer fő)

Magyarország népessége 10350 10300 10250 10200 10150 10100 1994

1996

1998

2000

2002

2004

2006

évek

1. sz. ábra: Pontdiagram az 1.1. sz. tábla adatai alapján

32

Például egy ország jószág-állományának növekedése egyre nagyobb állatfigurákkal, csökkenése pedig egyre kisebbekkel szemléltethető a statisztikához nem értők számára igen érzékletesen.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



19



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



20



élveszületések (fő)

Az élveszületések száma Magyarországon 120 000 100 000 80 000 60 000 40 000 20 000 0 1994

1996

1998

2000

2002

2004

2006

évek

2. sz. ábra: Vonaldiagram az 1.2. sz. tábla alapján

30 000 25 000 20 000 15 000 10 000 5 000

Magyarország

Lengyelország

Írország

Hollandia

Görögország

Franciaország

Finnország

Dánia

Csehország

0

Ausztria

aktív népesség (ezer fő)

A gazdaságilag aktív népesség néhány európai országban (2003)

országok

3.sz. ábra: Oszlopdiagram az 1.3.sz. tábla alapján

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



20



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

14%

0%5%

Vissza



21



7% szakiskola

2%

középiskola

15%

középfokú iskola általános iskola

18%

óvoda + iskola + kollégium óvoda + iskola + kollégium többcélú intézmény

39%

A magyarországi közoktatási intézmények az ellátott feladatok típusa szerint (2003/2004 tanévben)

4.sz. ábra: Kördiagram az 1.6. sz. tábla alapján Néhány fontos szabály az ábrák készítésével kapcsolatban:

• Állapot idősor esetén az adatokat mindig ahhoz az időponthoz veszszük fel, amelyikhez az adat tartozik. • Tartam idősor esetén az adatokat mindig két időpont közé, középen vesszük fel. • Ha idősorok adataiból készítünk vonaldiagramot, akkor a vonal az első és az utolsó időpont adatán túl nem hosszabbítható meg. (Arról ui. nincs információnk, hogy a megfigyelés előtti utolsó időpont adata kisebb vagy nagyobb volt-e, mint az első megfigyelt adat; ill. nem tudjuk, hogyan fog alakulni a vizsgált jelenség a jövőben.)



Ha az állapot idősor adatai ábrázoljuk oszlopdiagrammal, akkor az oszlopok nem érhetnek össze. (Az ábrázolt adatok összege nem értelmezhető,



Az oszlopdiagramok esetén az adattal az oszlopok területe arányos.

így a területek összege sem.) (Éppen ezért, ha egy mennyiségi (= gyakorisági) sor osztályközei nem azonos szélességűek, akkor az ábrázolás előtt átalakításokat kell végeznünk. Hasonló probléma jelentkezik majd a módusz számításánál is.)

• A mennyiségi sorok adataiból készült vonaldiagram neve: gyakorisági görbe (= gyakorisági poligon), az oszlopdiagram neve: hisztogram. • Ha két különböző időpontra vonatkozóan készítünk kördiagramot ugyanarról a sokaságról, akkor ábránk nemcsak a sokaság szerkezetét, hanem a körök területének arányosításával az adatok relatív változását is kifejezi. (Az új kör sugara = rúj =r régi * vd 33) 33

A viszonyszámokat – minden ilyen és ehhez hasonló számításban – együtthatós formájukban használjuk. (A számítás képletében szereplő jelöléseket lásd a következő (2.1.) fejezetben.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



21



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



22



1.3. Összefoglalás34 statisztika

1. tudomány

a módszereket és az eljárásokat foglalja össze

2. gyakorlati tevékenység

adatgyűjtés, rendszerezés, feldolgozás, elemzés

3. adathalmaz

az összegyűjtött és rendszerezett adatok összessége

sokaság

a statisztikai vizsgálat tárgyát képező egyedek összessége

fajtái:

álló – mozgó

időpillanatra – időtartamra

diszkrét – folytonos

jól megkülönböztethető elemek – önkényes megkülönböztetés

egynemű – összetett

nem bontható részsokaságokra – felbontható részsokaságokra

véges – végtelen

elemei megszámlálhatóak – elemei nem megszámlálhatóak

sokasági egység fajtái

ismérv

a sokaság egy-egy eleme 1. megfigyelési

amire az adatgyűjtés vonatkozik

2. számbavételi

akitől az adatot beszerezzük

azok a tulajdonságok, melyek alapján a statisztikai megfigyelés tárgyát képező egységek egy halmazt alkotnak (közös ismérv) ill. különböző sokaságokba oszthatók (megkülönböztető ismérv)

34

Ehhez a fejezethez önálló feladatokat nem állítottunk össze. A következő fejezetek feladatiban azonban lesznek olyan kérdések, melyek ennek a témakörnek a tudását igénylik. (A fogalmak tisztázásának egyébként legfontosabb célja, hogy „egy nyelvet beszéljünk”.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



22



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

fajtái

ismérvváltozat

Vissza



23



1. időbeli

az adatok megkülönböztetése időpontok szerint

2. területi

az adatok megkülönböztetése földrajzi területek szerint

3. mennyiségi

az adatok a megfigyelési egységek nagysága, mérete, kapacitása stb. szerint

4.

minőségi

5.

alternatív

az adatok megkülönböztetése a megfigyelési egységek színe, neme stb. szerint csak két ismérvváltozata van

az ismérvek lehetséges kimenetelei

példák

1. időbeli

a hallgatók születési dátumai (évek)

2. területi

a hallgatók születési helyei (városok)

3. mennyiségi a hallgatók születési súlya (gramm) 4. minőségi 5. alternatív statisztikai adat fajtái

adatgyűjtés fajtái

a megfigyelt sokaság egy-egy elemének a vizsgálat tárgyát képező tulajdonságára vonatkozó aktuális értéke 1. számszerű 1. abszolút adatgyűjtésből, számításból; van mértékegysége 2. relatív számításból; előfordul, hogy nincs mértékegysége 2. szöveges kódolhatjuk

az elemzéshez szükséges adatok „beszerzése” 1. teljes körű a sokaság minden elemére kiterjed 2. részleges35

35

a hallgatók családi állapota (nős, nőtlen, férjezett stb.) férfi – nő v. kereső – eltartott stb.

a sokaság nem minden elemére terjed ki

Lásd: Becslés témakör

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



23



Statisztika

Bevezetés

A dokumentum használata | Tartalomjegyzék | Táblázatok

az adatok hibája

Vissza



24



korlátozott pontosságúak

fajtái

1. adatgyűjtési hi- szubjektív emberi tényezők miatt bák 2. véletlen hibák a nem teljes körű megfigyelés miatt 1. abszolút hiba a= Á−A

a hiba jellege szerint

2. relatív hiba

fajtái a keletkezés oka szerint

α=

a A

statisztikai sorok a statisztikai adatok egyetlen tulajdonság (= ismérv) alapján történő rendezése fajtái 1. minőségi szavakkal megfogalmazható ismérvváltozatok alapján tartalmuk szerint 2. mennyiségi

számokkal megfogalmazható ismérvváltozatok alapján

3. területi

földrajzi megnevezések képezik az ismérvváltozatokat dátumok képezik az ismérvváltozatokat

4. időbeli 5. leíró

fajtái felhasználásuk szerint

statisztikai táblák

egy-egy földrajzi, gazdasági stb. egységre vonatkozóan különböző jellegű adatokat tartalmaz 1. összehasonlító adatainak összege nem értelmezhető 2. csoportosító adatainak összege értelmezhető a statisztikai adatok egyszerre több tulajdonság (= ismérv) alapján történő rendezése

fajtái

1. egyszerű

egyik irányban sem összegezhető

a bennük található összesen

2. csoportosító

csak egyirányú összegzés lehetséges kétirányú összegzés lehetséges

rovatok alapján

3. kombinációs

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



24



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



25



2. Viszonyszámok Az összegyűjtött és rendezett statisztikai adatok elemzésére az elméleti statisztika igen sok módszert dolgozott ki. Ezek közül a legegyszerűbbek a viszonyszámok, melyeket két statisztikai adat hányadosaként állíthatunk elő. Legismertebb és leggyakrabban alkalmazott fajtáit az 2.1. sz. tábla foglalja össze. 2.1. sz. tábla A viszonyszámok fajtái típus

meghatározás

példa36

dinamikus

Két különböző időpontra, időszakra vonatkozó adat hányadosa.

10.117 = 0,9787 10.337

területi ösz- Két különböző földrajzi szehasonlító terület azonos jellegű adatának hányadosa.

megoszlási

A magyar népesség 2004-es adatát viszonyítottuk az 1995-ös adathoz.37

3.876 = 0,9304 4.166 Ausztria gazdaságilag aktív népességének aránya a magyarországi adathoz viszonyítva.38

= relatív gyakoriság 2.079.130 = 0,9988 Az összegezhető statisztikai 2.081.559 sorok egyes részadatainak és A 60 éven felüli magyarul beszélő a sor összesen adatának népesség aránya a teljes 60 éven hányadosa. felüli népességhez viszonyítva.39

36

A viszonyszámok egyes típusaira felírt példáknál – egyelőre – az olvasók korábbi matematika ismereteire támaszkodunk. 37 Lásd: 1.8. sz. tábla. 38 Lásd: 1.10. sz. tábla. 39 Lásd: 1.18. sz. tábla

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



25



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



26



A viszonyszámok fajtái (folytatás) típus

típus

típus

intenzitási Két különböző jellegű, de egymillió fő 3,96 = 0,00005643 mással valamilyen kapcsolatban 70.233 km 2 álló statisztikai adat hányadosa Írország népsűrűsége 2004-ben.40

2.1. A dinamikus (= időbeli) viszonyszám A dinamikus viszonyszámok az időben változó jelenségek elemzésére alkalmasak. Megmutatják, hogy kiválasztott időponthoz (= bázisviszonyszám) vagy a felmérés idejét megelőző időponthoz (= láncviszonyszám) képest a vizsgált sokaság adatai hányszorosára nőttek vagy hányadrészükre csökkentek, illetve hány százalékkal változtak. A viszonyszámok képletei: 2.2. sz. tábla Az időbeli (= dinamikus) viszonyszámok képletei: I.

II.

III.

dinamikus viszonyszám

bázisviszonyszám

láncviszonyszám

vd =

y2 y1

bi =

yi yb

li =

yi yi −1

A képetekben szereplő betűk jelentése:

vd =

bi =

li =

yi =

dinamikus viszonyszám

bázisviszonyszám

láncviszonyszám

a megfigyelt adat

i = 1,2,..., n

n=

a megfigyelt időpontok (időszakok) sorszáma

a megfigyelések darabszáma

Az I. képletet (2.2. sz. tábla) akkor alkalmazzuk, ha megfigyeléseink mindössze két időpontra vonatkoznak; a II. és III. képletet pedig akkor, ha megfigyeléseink hosszabb időszakot ölelnek át. Bázis adatnak általában az idősor első adatát 40

Lásd: 1.14. sz. tábla

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



26



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

27



tekintjük, de vannak esetek, amikor ezt nem tehetjük meg41. Ha a kiszámított arányszámok nullával kezdődnek, az a megfigyelt adat csökkenését jelenti; ha eggyel vagy ennél nagyobb számmal, akkor a vizsgált jelenség növekedéséről beszélhetünk. A dinamikus viszonyszámokat általában százalékban is megadjuk, ez elsősorban a viszonyszámok jelentésének megfogalmazását könnyíti meg. BEMUTATÓ FELADAT 2.3. sz. tábla (az 1.8. sz. tábla alapján) Magyarország népessége , év

1995

1996

1997

1998

1999 2000 2001 2002 2003 2004

i

1.

2.

3.

4.

5.

adat (ezer fő)

10.337 10.321 10.301 10.280 10.253 10.222 10.200

bázis-vsz. 100,0 99,842 99,7 99,4 99,2 (%) 10.337 10.301 bi szá10.321 10.280 10.337 10.337 stb. 10 . 337 10 .337 mítása adat (ezer fő)

98,9

7.

98,7

8.

9.

10.

10.17 10.142 10.117 5 98,4

98,1

97,9

10.337 10.321 10.301 10.280 10.253 10.222 10.200 10.175 10.142 10.117

lánc-vsz. – (%)

99,8

li szá-

10.301 10.280 10.321 10.321 10.301 stb. 10.337

mítása

6.



99,8

99,8

99,7

99,7

99,8

99,8

99,7

99,8

A kiszámított viszonyszámok jelentését többféleképpen is megfogalmazhatjuk43, íme:

b6 = 98,9% 41 Például, a legutóbbi (2001) népszámlálás szerinti magyar népesség létszámadatát nem hasonlíthatjuk egy az I. világháborút megelőző népszámlálási adathoz, hiszen a két időpont között jelentősen csökkent hazánk területe. (Áthidaló megoldás: a korábbi népszámlálások alapadataiból meghatározható a mai területre vonatkozó lakosság.) 42 Az osztás eredményét – 10.321/10.337 = 0,998452162 (= együtthatós forma) – kerekítettük, majd beszoroztuk százzal, így kaptuk meg a viszonyszámot. (A százzal való szorzást a statisztika könyvekben nem szokás feltüntetni.) 43 Természetesen nincs szükség mindig mind a három megfogalmazásra. A feltett kérdést vagy a feladat utasítását kell figyelni, és annak megfelelően fogalmazni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



27



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



28



♥ 2000-ben Magyarország népessége az 1995-ös népesség kilencszáznyolcvankilenc ezred része volt. ♥2000-ben Magyarország népessége az 1995-ös népesség 98,9 %-a volt. ♥ 2000-ben Magyarország népessége 1,1 %-kal kevesebb volt, mint 1995-ben Fontos tudnunk, hogy: • A dinamikus viszonyszámok típusai között matematikai összefüggés van, ezt ismerve az alapadatok hiányában is ki tudjuk számítani a bázisviszonyszámokból a láncviszonyszámokat és fordítva; illetve a már ismert bázisviszonyszámokat felhasználva is lehetőségünk van új bázisra áttérni. 2.4. tábla Összefüggések: k

bk = Π li

= a k-adik bázisviszonyszám kiszámítható az első k láncviszonyszám szorzataként, ill.,

b lk = k bk −1

= a k-adik láncviszonyszám kiszámítható a kadik és a (k-1)-edik bázisviszonyszám hányadosaként.

i =1

búj ,k =

brégi ,k brégi , amit bázisul választottunk

= áttérés új bázisra

• A dinamikus viszonyszámok nemcsak megfigyelt adatokból, hanem más viszonyszám típusok adataiból is számíthatók.44 • Az idősorok adataiból nemcsak azok relatív változását, hanem abszolút változását is kiszámíthatjuk: d i = y i − y i −1 ⇒ például: d 9 = 10117 − 10142 = −25 ezer fő ♥ Magyarország lakossága 2003-ról 2004-re 25 ezer fővel csökkent.

44

Erre a további viszonyszám-típusok tárgyalása után visszatérünk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



28



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



29



A képletben szereplő betűk jelentése:

di

yi

i = 1,2,..., n

abszolút változás

a megfigyelt adat

a megfigyelt időpontok (időszakok) sorszáma

2.2. A területi viszonyszám Két különböző földrajzi terület azonos jellegű adatának hányadosa a területi viszonyszám. Ezzel a viszonyszámtípussal elemezhetjük például a gazdaságilag aktív népességre vonatkozó, különböző európai országokból összegyűjtött adatainkat. Külön képlete nincs, a bázisviszonyszám képletét szoktuk értelemszerűen45 alkalmazni. A viszonyítási alap kiválasztásakor a számítással megválaszolandó kérdésre kell figyelni, illetve vannak esetek, amikor kerülendő az olyan területi egység bázisul választása, melynek adata szélsőséges46 az összehasonlítandó területi egységek sokaságában. További gondot okoz a területi összehasonlítás során az aggregátumok (pl.: egy ország teljes termelési értéke) összehasonlítása ill. az adatok eltérő pénz-mértékegysége47.

45

Értelemszerűen = i ebben az esetben nem az egyes évek sorszáma, hanem a különböző földrajzi területek (országok, megyék, városok stb.) sorszáma. 46 Szélsőséges, azaz kiugróan magas vagy alacsony adatot figyeltünk meg. Számpéldánkban ilyen kiugróan magas adatot találunk Franciaország ill. Lengyelország mellett. (Létszámadataik egy nagyságrenddel nagyobbak a többi ország létszámadatánál.) 47 Erre a kérdésre a későbbiekben még visszatérünk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



29



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



30



BEMUTATÓ FELADAT 2.5. sz. tábla időbeli összehasonlítás

élveszületési arány (ezrelék) ország

i

változás

1970

2003

vint(1)

vint( 2 )

számítás

(%)

1

21,1

9,6

-54,5

Portugália

2

20,8

10,8

-48,1

Szlovákia

3

17,7

9,6

-45,8

4

16,8

9,2

-45,2

5

16,8

8,8

Norvégia

6

16,748

Olaszország

7

16,7

Magyarország Németország

1970

2003

Magyarország = 100 %

1970 = 100 %

Románia

Lengyelország Lettország

területi összehasonlítás (%)

143,5

103,2

141,5

116,1

120,4

103,2

114,3

98,9

-47,6

114,3

94,6

12,0

-28,1

113,6

129,0

9,4

-43,7

8

14,749 9,3

-36,7

9

13,4

-35,8

8,6

← (9,6/21,1)*100100

→ (16,7/14,7)*100

113,6 101,1 100,0 100,0 91,2

92,5

adatforrás: Demográfiai évkönyv, 2003 (KSH, 2004; 110.old.) élveszületési arány = születések ezer lakosra vetítve (= intenzitási viszonyszám, lásd: 2.4. fejezet)

A színes háttérrel jelzett adatok jelentése:

vd1 =

48 49

vint( 2.1) vint(1.1)

50

Kéttizedes pontossággal (az összefüggések bemutatása érdekében) = 16,67. Kéttizedes pontossággal (az összefüggések bemutatása érdekében) = 14,74.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



30



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



31



♥ -54,5 % : 2003-ban Romániában 1000 lakosra vetítve 54,5 %-kal kevesebb gyermek született, mint 1970-ben;

vint(1) =

A1.8 A , ill. vint( 2) = 2.8 B1.8 B2.8

♥ 14,7 ill. 9,3 ezrelék: Magyarországon 1970-ben 1000 lakosra 13,4, 2003-ban pedig 8,6 élveszületés jutott.

vterületi (16 ) =

vint(1.6) vint(1.8)

ill. vterületi ( 26 ) =

vint( 2.6) vint( 2.8)

♥113,6% ill. 129,0% : Norvégiában 1970-ben 13,6 %-kal, 2003-ban pedig 29,0%-kal magasabb volt az élveszületési arány, mint hazánkban. Vizsgáljuk meg, mi bújik meg az eltérő élveszületési arányszámok, ill. azok eltérő változása mögött! Ehhez a 2.4. sz. táblában szereplő adatokra is szükségünk van. 2.6. sz. tábla ország Norvégia

élveszületések (fő) 1970

2003

lakosság (millió fő) 1907 = 100 % 1970

64.551 54.720 84,77

Magyarország 151.819 94.647 63,34

3,87

2003

1907 = 100 %

4,56

117,53

10,30 10,14

98,26

Hasonlítsuk össze Norvégia és Magyarország (= 100%) élveszületési arányszámát51! Ne egyszerűen a 2.5. sz. táblában szereplő adatokkal dolgozzunk, hanem tüntessük fel azokat az adatokat is, melyekből az összehasonlítandó intenzitási viszonyszámokat kiszámítottuk! Majd végezzük el a lehetséges matematikai átalakításokat! Végül a számadatokat helyettesítsük – az általánosítás érdekében – betűjeleikkel!

50

A futó index első száma jelzi, hogy a bázis (1) vagy a tárgyidőszak (2) adatát, a második szám pedig az ország sorszámát. 51 Hasonló levezetést végezhetünk az időbeli viszonyszámok alapján is. A következtetés tökéletesen ugyanaz lesz. (A 2.8. sz. tábla adatait felhasználva próbálja meg!)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



31



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



32



Összehasonlítás a számokkal: vterületi =

vint(16) vint(18)

=

64.551 16,67 3.870 = 64.551 * 10.300 = 64.551 : 3.870 = 0,4252 ≅ 113% ≅ 14,74 151.819 3.870 151.819 151.819 10.300 0,3757 10.300

Összehasonlítás a betűjelekkel: v területi ( az intenzitási viszonyszámra =

v int(16 ) v int(18)

Ai =

Aj

Bi Bj

=

Ai B j Ai Bi * = : = v területi ( A− ra ) : v területi ( B − re ) Bi A j A j B j

Szövegesen megfogalmazva: Két viszonyszám hányadosa egyenlő a viszonyszámok számlálójában szereplő adatok arányának és a viszonyszámok nevezőjében szereplő adatok arányának52 hányadosával. 2.3. A megoszlási viszonyszám A megoszlási viszonyszámok a sokaságok szerkezetének bemutatására szolgálnak. Kifejezik azt, hogy a teljes sokaság hányad részét, hány százalékát képviselik az egyes részsokaságokba (= az egyes ismérvváltozatokhoz) tartozó elemek. 2.7. sz. tábla A megoszlási viszonyszám képlete: relatív

gyakoriság53

mennyiségi sorokból egyéb összeadható sorokból

52 53

megoszlási viszonyszám

gi = gi =

fi = n

fi

∑f

i

wi = g i *100 (%)

yi ∑ yi

A megfogalmazásban szereplő mindkét arány szó helyett írhattuk volna: hányadosának A megoszlási viszonyszám együtthatós formája.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



32



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



33



A képletekben szereplő betűk jelentése:

wi =

gi = relatív gyakoriság

n = ∑ fi

megoszlási viszonyszám

fi =

yi =

megfigyelt előfordulások

a megfigyelt adatok

i = 1,2,..., n

a megfigyelések darab- a megfigyelt ismérvváltozatok sorszáma száma

Tekintettel arra, hogy az egyes részsokaságok elemeinek száma mindig kisebb, mint a teljes sokaság elemeinek darabszáma ( f i 〈 n ) 54, a relatív gyakoriságok mindegyikére igaz, hogy g i 〈1 , illetve ha valamennyi részsokaságra kiszámítjuk a relatív gyakoriságokat, akkor fennáll a következő öszszefüggés: ∑ g i = 1 55. Ha a kiszámított viszonyszámokat százalékos formában adjuk meg, akkor a megismert összefüggések így írhatók fel: wi 〈100 % és ∑ wi = 100 % . Korábbi adatainkat felhasználva számoljunk ki néhány relatív gyakoriságot (megoszlási viszonyszámot), és fogalmazzuk meg jelentésüket!

54

És y i 〈

∑y

i

.

55

Ezt az összefüggést a későbbiekben, például az átlagok esetében, a számítások egyszerűsítésére fogjuk használni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



33



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



34



BEMUTATÓ FELADAT 2.8. sz. tábla Magyarország56 férfi lakossága életkor szerint 2004. jan. 1. lakosok (fő) korév

fi

relatív gyakoriság

gi

megoszlási viszonyszám

számítása

wi

mértékegysége nincs

(%) 47.936 4.804.113 49.156 4.804.113 49.570 4.804.113 49.881 4.804.113

0

47.936

0,009978

1,00

1

49.156

0,010232

2

49.570

0,010318

3

49.881

0,010383

4

47.949

0,009981

1,00 ……

1,02 1,03 1,04

……57

……

……

85

4.314

0,000898

86

3.731

0,000777

0,08

87

3.214

0,000669

0,67 ……

…..

……

……

összesen

4.804.113

1

stb.

1

0,09

100

g i = 0,010383 ≅ 0,01 ⇒ wi = 1,04% ♥ 2004-ben a magyarországi férfi lakosság egyszázad része, azaz egy egész négyszázad százaléka volt hároméves.

56

Lásd: 1.11. sz. tábla. A tábla egyes rovataiban pontokkal jeleztük, hogy nem minden korévet tüntettünk fel, így természetesen a kiszámított viszonyszámok összege szemmel láthatóan nem adja ki az egyet, ill. a száz százalékot.

57

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



34



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



35



2.4. Az intenzitási viszonyszám Az intenzitási viszonyszámok két egymással összefüggésben lévő sokaságot vizsgálva kifejezik, hogy az egyik sokaság egy elemére a másik sokaság elemeiből hány egység jut. Például:

• • • •

egy ország egy területi egységére (km 2 ) jutó lakosok (ezer fő ) száma, az egy házi orvosra ( fő ) jutó lakosok ( fő ) száma, a szülőképeskorú nőkre (ezer fő ) jutó újszülöttek ( fő ) száma, az egységnyi termékre (darab, liter, tonna , stb.) jutó termelési költség (Ft ) .

Tankönyvünk előző oldalain már találkoztak is ezzel a viszonyszámtípussal, így 1.7. sz. tábla Írországra vonatkozó adatai között szerepelt az 1 főre jutó GDP, továbbá az 1.9. sz. tábla 3. és 4. oszlopában a terhességmegszakítás száz élveszületésre, illetve a teljes termékenységi arány. Az intenzitási viszonyszámoknak több fajtáját szokás megkülönböztetni. 2.9. sz. tábla Az intenzitási viszonyszámok fajtái típus

példa

nyers

Egy vállalkozás termelési értékét (= A) a vállalkozás összes dolgozójának létszámához (= B) viszonyítjuk = egy dolgozóra jutó termelési érték (Vnyers = A/B)

Egy vállalkozás termelési értékét (= A) a vállalkozás fizikai dolgozóitisztított nak létszámához viszonyítjuk (= b) = az egy fizikai dolgozóra jutó termelési érték (= Vtisztított = A / b) Egy vállalkozás termelési értékét (= A) a vállalkozás összes dolgozójáegyenes nak létszámához (= B) viszonyítjuk = egy dolgozóra jutó termelési érték ( = Vnyers = A/B) Egy vállalkozás összes dolgozójának létszámát (= B) viszonyítjuk a fordított vállalkozás termelési értékéhez (= A) = az egy (ezer) forintnyi termelési érték előállításához szükséges dolgozó létszám (= V = B / A).

Példáinkból jól látható, hogy a nyers és a tisztított intenzitási viszonyszám csak nevezőjében különbözik. A tisztított viszonyszám nevezőjében

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



35



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

36



a nyers viszonyszám nevezőjének (= B) egy részhalmaza (= részsokasága = b) szerepel; olyan részsokasága, amelyikkel a számlálóban szereplő adatnak szorosabb kapcsolata, mint az egész sokasággal. Az egyenes és a fordított intenzitási viszonyszám egymás reciprokai. Egyenesnek tekintjük azt az intenzitási viszonyszámot, melynek növekedése kedvező, fordítottnak pedig azt, amelyiknek növekedése kedvezőtlen jelenség. Elsősorban a régebbi tankönyvek az itt közölt elhatárolás mellett egy másik szempontot is megadnak. Egyenesnek tekintik azt az intenzitási viszonyszámot, amelyiket a mindennapi életben rendszeresen használunk (pl.: az egy hektárra jutó búzatermés, az egy lakosra jutó GDP, az egy dolgozóra jutó termelési érték stb.), fordítottnak pedig ezek reciprokait, melyek a mindennapi ember számára kissé furcsának hatnak. Ha egy dolgozóra egyre nagyobb termelési érték jut, – feltéve, hogy ez nemcsak az árak növekedésének következménye, – az kedvező; ez ugyanis azt jelenti, hogy a dolgozók nagyobb intenzitással végezték munkájukat. Ha egy (ezer, millió) forintnyi termelési érték előállításához egyre több dolgozóra van szükség, akkor az azt jelenti, hogy a dolgozók csökkenő intenzitással végezték munkájukat, és ennek következtében növekszik a termékek önköltsége. Természetesen vannak olyan intenzitási viszonyszámok, melyek esetében azt a kérdést is fel kell tennünk, hogy kinek a szempontjából mondjuk ki, hogy kedvező, avagy kedvezőtlen egy jelenség. Pl.: egy orvosra egyre több beteg jut, ez az orvosnak anyagilag kedvező, ugyanis több beteg után kapja meg az egészségbiztosítótól az un. kártya-pénzt; a betegeknek viszont kedvezőtlen, mert kevesebb időt tud rájuk fordítani orvosuk.

2.10. tábla Az intenzitási viszonyszámok képletei és azok összefüggései nyers

Vny =

tisztított

A B

Vt =

A b

egyenes

Ve =

A B

fordított

Vf =

B A

összefüggések58

Vnyers =

A b * = Vt * g b B

Ve *V f = 1

58

Az összefüggések ismerete egyes esetekben megkönnyítheti számítási munkánkat, ill. ellenőrzésre is lehetősége ad.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



36



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



37



BEMUTATÓ FELADATOK 2.11 .sz. tábla népsűrűség-számítás terület

népesség

népsűrűség

ezer km2

millió fő

fő / km2

számítás

Magyarország

93

10,13

109

(10,13 / 93)*1000

Németország

357

82,54

231

(82,54 / 357)*1000

ország

adatforrás: Magyar statisztikai évkönyv 2003 (KSH 2004, 549. old. Terület – népesség – főváros)

2.12. sz. tábla telekommunikáció, 2003 ország

népesség59 millió fő

telefon fővo- mobil telenal fon darab / ezer fő

Magyarország

10,13

361

676

Németország

82,54

659

785

telefon mobil fővonalak telefon ezer db 3.656.930 = 361*10.130 29.796.940 = 659*82.540

6.847.880 = 676*10.130 64.793.900 = 785*82.540

adatforrás: Magyar statisztikai évkönyv 2003 (KSH 2004, 549. old. Terület – népesség – főváros ill. 574. old. Telekommunikáció)

A 2.11. sz. és a 2.12. sz. táblák kiemelt adatainak jelentése:

Ve = 109 fő

km 2

♥ Magyarországon egy négyzetkilométernyi területen átlagosan 109 ember él.

59

Évközepi népesség.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



37



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Ve = 659 db

Vissza



38



ezer fő

♥ Németországban ezer lakosra 659 telefon fővonal jut, azaz egy lakosra 0,659 fővonal jut. Az intenzitási viszonyszámokból további viszonyszámok60 számíthatók, ill. ha az ismert viszonyszám számításának csak egyik tényezőjére vonatkozóan rendelkezünk adattal, kiszámíthatjuk a másik tényezőt61 is. 2.5. Gyakorló feladatok 1. feladat Válogassa ki az alábbi adatok közül a viszonyszámokat és állapítsa meg azok típusát! Számadatok: Palau Köztársaság területe: 508 km2 Palau Köztársaságban a maldív lakosság: 96 % Palau Köztársaságban a GDP: 5000 USD/fő Palau Köztársaságban a gazdasági növekedés: 1,1 % Palau Köztársaságban a képviselőház: 16 tagú Katar adóssága:9907,2 millió USD Oroszország népsűrűsége: 8.5 fő / km2 France Albert Renét, a Seychelle-szigetek államfőjét 1977-ben iktatták be hivatalába.

60

Például a 2.12. sz. tábla adatai alapján: v Mo 676 = = 0,861146496 ⇒ 86,1% ⇒ −13,9% , azaz 1000 magyar lakosra 13,9 %-kal kevev No 785

sebb mobil telefon jut, mint 1000 német lakosra, azaz a lakosság mobiltelefonnal való ellátottsága hazánkban rosszabb. (Még nagyobb a lemaradásunk a telefon fővonalak tekintetében. Az előzővel azonos módon elvégzett számítás eredménye: -45,2 %.) 61 Ezt tettük akkor is, amikor meghatároztuk az 2.12. sz. tábla utolsó két oszlopának adatait, tekintettel arra, hogy az adatforrásul szolgáló Statisztikai Évkönyv csak a „népesség” és a „telefonfővonal, ill. mobil telefon ezer lakosra” adatokat közölte.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



38



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



39



2. feladat 1. Állapítsa meg, hogy az alábbi statisztikai adatok, milyen viszonyszámokkal elemezhetők! 2. Végezze el az elemzést! 3. A kiszámított adatok jelentését fogalmazza meg! 4. Soroljon föl minden olyan információt, amit – az 1. fejezetben közölt ismeretek alapján – a feladathoz közölt statisztikai táblákról, a bennük szereplő statisztikai sorokról, ill. adatokról fel tud sorolni. statisztikai adatok A Balaton-part kereskedelemi szálláshelyeinek száma (db) 1993

1994

1995

1996

1997

4.396

3.080

3.208

2.600

1.958

Egy vállalkozás tevékenységeire vonatkozó adatok: megnevezés

1997

1998

termelési érték (millió Ft)

900

825

foglalkoztatottak száma (fő)

180

150

fizikai foglalkoztatottak száma (fő)

120

105

A munkanélküliek száma iskolai végzettségük alapján (ezer fő): iskolai végzettség

1997

1998

8 általánosnál kevesebb

15,4

14,0

áltanos iskola

127,4

108,2

szakmunkásképző

124,8

107,6

gimnázium

30,4

30,6

szakközépiskola

40,9

40,9

főiskola

7,0

7,9

egyetem

2,9

3,8

összesen

348,8

313,0

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



39



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



40



3. feladat A következő megfogalmazások, statisztikai adatok és viszonyszámok alapján írja fel az alábbiakban megfogalmazott viszonyszám számítását! Pl.: egy vállalat termelése 2003-ban 5 milliárd Ft, ez a következő évre 10 %-kal nőtt. Megoldás: 1,1 =

1,1 * 5 5

Figyelem, egyes esetekben több viszonyszám is számítható. megfogalmazások: A 20 – 24 év közötti magyar lakosság (726.714 fő) 51,2 %-a férfi. A magyar népesség 1985-ről (5.591 ezer fő) 1992-re megközelítőleg 7 %-kal csökkent. A kilencvenes években Magyarországon egy orvosra (41.397 fő) 248,3 fő lakos jutott.

4. feladat Egy bank értékpapír-állománya (milliárd Ft) / év eleji adatok / év

1997

1998

1999

2000

2001

2002

2003

2004

2005

adat

510,7

575,0

625,4

641,8

720,2

905,0

1.240,0

1.461,0

1.840,0

1. Számolja ki az állomány változását jellemző viszonyszámokat! Figyelem! A zsebszámológépeknek általában van „állandó osztó vagy állandó szorzó” funkciójuk. Használja ki ! 2. A 2002-es évre mutassa be a kiszámított viszonyszámok közötti öszszefüggést! 3. Fogalmazza meg a 2000 évi adatok jelentését! 4. Állapítsa meg, hogy a közölt adatok milyen jellegűek, ill. milyen statisztikai sor elemeit képezik!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



40



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



41



5. feladat Egy vállalkozás dolgozóit arról kérdezték naponta mennyi időt vesz igénybe a munkahelyre utazásuk ill. a hazafelé út. A válaszokat az alábbi táblába rendezték: utazási idő perc / nap - 10 10 – 20 20 – 30 30 – 50 50 összesen

a dolgozók száma fő 20 30 40 50 10 150

1. Számolja ki a dolgozók utazási idő szerinti megoszlását kifejező viszonyszámokat! 2. Fogalmazza meg egy-egy adat jelentését! 3. Írja fel a kiszámított viszonyszámokkal kapcsolatos összefüggéseket statisztikai jelekkel! 4. Állapítsa meg, hogy a közölt adatok milyen jellegűek, ill. milyen statisztikai sor elemeit képezik! 6. feladat Egy szállítási vállalat gépjárműállományának megoszlása: életkor

év

állomány megoszlás (%) változás (%) 2000. I. 2003. I.1. 2000. I.1. 2003. I.1. állomány szerkezet 1.

stat. jel.: -2 2–4 4–6

70 60 40

50 60 45

6–8

30

30

8 –10 50 összesen 250

15 200

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



41



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



42



1. Számítsa ki a gépjárműállomány életkor szerinti megoszlását kifejező viszonyszámokat mindkét esztendő adatai alapján! 2. Számítsa ki a különböző életkorú gépkocsik darabszámának változását, továbbá az életkor szerinti megoszlás változását! 3. Fogalmazza meg a vastagon bekeretezett adatok jelentését! 4. Mutassa ki a változásokat kifejező viszonyszámok közti összefüggést a 4 – 6 éves gépkocsik esetében! 5. Ha helyesen dolgozott a „változások” egyik oszlopában nem állhat adat az összesen rovatban. Indokolja meg, miért! 6. Állapítsa meg, hogy a közölt adatok milyen jellegűek, ill. milyen statisztikai sor elemeit képezik! 7. feladat A hangversenyek és a hangverseny-látogatók számának alakulása egy városban: év

előadások látogatók az egy előadásra db ezer fő jutó…..

1999 991

452,2

2000 1014

437,5

2001 723

314,3

2002 547 2003 616

210,7 221,1

változások (%) előadások látogatók

az egy …

1. Számolja ki – minden évre – az egy előadásra jutó hallgatók számát! 2. Számolja ki a megadott és az Ön által kiszámított adatok időbeli változását! (Csak a bázis viszonyszámokat kell meghatároznia.) 3. Fogalmazza meg a vastagon bekeretezett cellákban található adatok jelentését! 4. Mutassa ki a 2000 évi adatokra vonatkozóan az összefüggést! 5. Döntse el, kiegészíthetjük-e a feladat tábláját összesen sorral! Döntését indokolja! 6. Állapítsa meg, hogy a közölt és a kiszámítandó adatok milyen jellegűek, ill. milyen statisztikai sor elemeit képezik!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



42



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

43



2.6. Összefoglalás viszonyszám fajtái:

= két statisztikai adat hányadosa 1. dinamikus 2. területi összehasonlító 3. megoszlási 4. intenzitási

dinamikus viszonyszám

= két időpontra / időszakra / vonatkozó adat hányadosa

fajtái

1. bázis az összehasonlítás alapja állandó 2. lánc

megoszlási viszonyszám formái

az összehasonlítás alapja változó

bi =

yi yb

li =

yi y i −1

= a sokaság egy részadatának és összesen adatának hányadosa, a sokaság szerkezetének vizsgálatára alkalmas relatív gyakoriság gyakorisági f gi = i sorból:

∑f

tartam idősorból:

gi =

i

yi ∑ yi

megoszlási viszonyszám (%)

wi = g i *100(%)

összefüggések

∑g

∑w

különbségük

%-pont

intenzitási viszonyszám

= két egymással összefüggésben lévő sokaság adatainak hányadosa 1. egyenes – fordíA B V= V= tott

fajtái

i

=1

i

= 100%

B 2. nyers – tisztított A V= B

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

A A V= b



43



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



44

mértékegysége

kétdimenziós = a megfigyelt adatok mértékegységének hányadosa

összefüggések

A B * =1 B A

előretekintés

az intenzitási viszonyszám „rokonságot” mutat a számtani átlaggal



A A b = * B b B

2.7. Mintapéldák korábbi vizsgadolgozatokból62 1. minta Töltse ki az üres rovatokat! a vállalkozások száma év

ezer db

1988 = 100 %

előző év = 100 %

évenkénti abszolút változás

évenkénti relatív változás

statisztikai jel ⇒ 1988

291,0

1989

110,2

1990

135,2

1991 1992

129,8 606,2

1993 1994

236,7 778,0

1995

93,8

1996

745,2

1997

659,7

1998

222,9

62

A dolgozat írásakor természetesen egy-egy kitöltendő rovat – a bele kerülő adatnak, szövegnek megfelelően – nagyobb terjedelmű. (Ez a megjegyzés minden további mintapélda esetén igaz.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



44



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



45



2. minta Nevezze meg az alábbiakban felsorolt viszonyszámok fajtáját! a viszonyszám típusa

1.

megfogalmazások

2.

Az egy főre jutó GDP Magyarországon 1998-ben 4.694 USD volt, ami az előző évinél 5,1 %-kal volt több.

3. 4.

Az építőiparban a 100 fizikai foglalkoztatottra jutó szellemi foglalkozásúak száma 29 fő, a fizikaiak aránya 77,4 % volt 1998-ban. 1998-ban az 1000 lakosra jutó születések száma 9,6 volt.

5.

A felsőoktatásban egy oktatóra 12,1 hallgató jutott 1998ban.

6.

A PSzF-en 19998-ban oklevelet szerzett hallgatók 61,9 %-a nő volt.

7.

Budapest népessége 1990-ről 1999-re (jan.1.) 8,8 %-kal csökkent.

8.

1998-ban az egy főre jutó évi átlagos gyümölcsfogyasztás 62,6 kg volt.

3. minta Az orvosi ellátottság néhány adata (december 31-i állapotok) /adatforrás:

KSH/ 1980 megnevezés

adat

2002 statisztikai jel.

adat

népesség (ezer fő)

10.705

10.175

az orvosok száma (fő)

30.842

37.295

5.092

5.125

a háziorvosok száma (fő)

statisztikai jel.

1. Számítsa ki az eredmény-táblában megnevezett viszonyszámokat! 2. A 2002-re vonatkozó adatok jelentését fogalmazza meg!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



45



Statisztika

Viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



46



(A kiszámított adatokat és azok megnevezését az eredmény-táblában kell rögzíteni.) eredmény-tábla az orvos-ellátottsági adatok alapján számítható viszonyszámok

megnevezés

eredmény 1980

2002

1 orvosra jutó lakos 1 háziorvosra jutó lakos az ezer lakosra jutó orvos az ezer lakosra jutó háziorvos a népesség változása az orvosok számának változása a háziorvosok számának változása az 1 orvosra jutó lakosok számának változása az 1 háziorvosra jutó lakosok számának változása az ezer lakosra jutó orvosok számának változása az ezer lakosra jutó háziorvosok számának változása

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



46



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



47



3. Középértékek 3.1. A középértékek fogalma A statisztikai elemzések eredményeit felhasználó különböző szakemberek igen gyakran igénylik, hogy a vizsgált sokaságokat egyetlen adattal jellemezzük, erre teremt lehetőséget a különböző fajtájú középértékek számítása. Ezek, ahogy a név is sugallja, a sokaságok elemei között középső helyet63 foglalnak el, és ez teszi alkalmassá a számítás eredményeként kapott adatokat arra, hogy a fenti követelménynek megfeleljenek. A középértékeket két nagy csoportra oszthatjuk:

• számított és • helyzeti középértékek. A számított középértékek alapvető tulajdonsága, hogy nagyságukat az összes rendelkezésre álló adat befolyásolja. A statisztika elmélet többféle változatukat különbözteti meg, ezek:

• • • •

számtani (aritmetikai), mértani (geometriai), négyzetes (kvadratikus =quadratikus) harmonikus.

A helyzeti középértékek esetében azok elhelyezkedési rendje játszik döntő szerepet, éppen ezért nagyságukat nem az összes rendelkezésre álló adat befolyásolja. Speciális helyük következtében értékük ábra64 segítségével határozható meg. Változataik:

• módusz, • medián.

63

[

]

Minden átlagra, minden feladatra, mindig igaz, hogy xmin 〈 x 〈 xmax .

64

Az ábra képletté konvertálható, a gyakorlatban ezt használják, mi is ezt adjuk meg, ezt használjuk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



47



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



48



3.2. A számtani átlag A számtani (aritmetikai) átlag az a szám, melyet az átlagolandó értékek helyébe írva azok összege nem változik. Ebből a definícióból vezethető le a számtani átlag képlete: n

n

∑x

i =1

n

∑ xi = nxa ⇒ xa =

i =1

i

65

A képletben szereplő betűk jelentése:

xi =

xa=

átlagolandó érték,

számtani átlag

n=

i=

a megfigyelt elemek száma

az elemek sorszáma (1-től n-ig)

Abban az esetben, ha a sokaság több elemének azonos a számértéke, lehetőségünk van a számítások egyszerűsítésére. Ez azonban az azonos számértékű (= ismérvváltozatú) elemek előzetes összerendezését követeli meg. Így a képlet a következőképpen módosul: m

∑f x i

xa =

i =1 k

∑f

i

m

66

és x a = ∑ g i xi

i

i =1

i =1

65

Azt a számtani átlagot, amelyiket ezzel a képlettel számítottunk ki egyszerű számtani átlagnak szokás nevezni. 66 Azt a számtani átlagot, amelyiket ezzel a képlettel számítottunk ki súlyozott számtani átlagnak szokás nevezni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



48



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

49



A képletekben szereplő betűk jelentése:

xi =

xa=

átlagolandó érték,

számtani átlag

fi = az azonos ismérvértékű elemek száma

m= a különböző átlagolandó értékek (= az ismérvértékek) darabszáma

i= az azonos ismérvértékű összefüggés: csoportok sorszáma (1-től m-ig)

m

∑f

i

=n

i =1

g i = az azonos ismérv-értékű elemek relatív gyakorisága Számtani átlagot akkor szokás számítani, ha

• az átlagolandó értékek összegének értelme (= jelentése) van, • más számított középérték használata nem indokolt67. A számtani átlag több fontos tulajdonsággal68 rendelkezik, ezek ismerete lehetővé teszi számításaink egyszerűsítését69, eredményeink gyors (= ránézéses70) ellenőrzését, illetve újabb statisztikai módszerek kidolgozását71. A tulajdonságok közül itt és most egyet emelünk ki: a számtani átlag mindig az átlagolandó értékek intervallumán belül helyezkedik el. A számtani átlag nagysága az átlagolandó értékek abszolút nagyságától és a súlyok relatív nagyságától, azaz egymáshoz viszonyított arányától függ. Az átlag minden esetben annak az átlagolandó értéknek a közelében helyezkedik el, amelyiknek a legnagyobb a relatív (= g i ) súlya. Nagyobb számértékű átlagolandó értékek nagyobb számértékű átlagot eredményeznek (és fordítva). Átlagolja a következő adatokat: 2, 4, 6 (átlag = 4); majd 3, 5, 7 (átlag = 5)! Átlagolja a következő adatokat: 2, 4, 6 először 3, 5, 7, majd 6, 10, 14 és végül 4, 8, 9 súlyokkal! Figyelje meg az átlagokat (4,53 – 4,53 – 4,48), vonjon le következtetéseket!

67

Így például, az iskolai bizonyítványok átlagát is számtani átlagként határozzuk meg, pedig az érdemjegyek összegének nincs értelme. (Természetesen sem szorzatuknak, sem négyzetüknek és reciprokuknak sem, így a többi ismertetett átlag-típus számítása sem indokolt.) 68 Részletesen lásd: – többek között – dr Köves P. – dr Párniczky G.: Általános c. tankönyvében. 69 Pl.: az összetett sokaságok átlaga a részsokaságok átlagaként is, – tehát nemcsak az egyedi átlagolandó értékekből, – is meghatározható. (Lásd: vegyes kapcsolat.) 70 Ne fogadjon el olyan eredményt, amelyik az átlag az átlagolandó értékek intervallumán kívül esik. Számításait azonnal kezdje újra! 71 Az un. négyzetes minimum tulajdonságot használható fel a trend- és a regresszióegyenletek illesztésekor.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



49



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



50



BEMUTATÓ FELADAT 3.1. sz. tábla A korbetöltött rokkantsági nyugdíjasok megoszlása a teljes ellátás havi öszszege szerint, 2004. január férfiak az ellátás osztály- értékösszeg relatív gya- értékösszeg koriság „helyettes” havi összege közép ezer Ft72 fő Ft – 9.999 10.000 – 19.999 20.000 – 29.999 30.000 – 39.999 40.000 – 49.999 50.000 – 59.999 60.000 – 69.999 70.000 – 79.999 80.000 – 89.999 90.000 – 99.999 100.000 – összesen

fi

si = f i * y i

yi

gi

g i * yi

25

5.000

125.

0,000154

0,769472

114

15.000

1.710

0,000702

10,526380

759

25.000

18.975

0,004672

116,805900

9.265

35.000

324.275

0,057033

1996,1650

41.515

45 000

1.868.175

0,255557

11500,0700

46.720

55.000

2.569.600

0,287598

15817,8900

25.938

65.000

1.685.970

0,159669

10378,4600

14.413

75.000

1.080.975.

0,088723

6654,24200

8.969

85.000

762.365.

0,055211

4692,9500

6.098

95.000

579.310

0,037538

3566,1040

8.633 162.449

105.000 –

906.465 9.797.945

0,053143 1

5579,9970 60313,9755

adatforrás: Magyar Statisztikai Évkönyv 2003 (KSH, 2004 161. old. Társadalombiztosítás, szociális ellátás)

72

Ahol csak lehet, használja ki az ilyen egyszerűsítéseket (itt a számolás eredménye osztva százzal), kevesebb számjegyet kell leírnia, ill. egy esetleges további számításnál visszabillentyűzni a zsebszámológépbe, és ez kevesebb hibalehetőséget rejt magában.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



50



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

xa =

∑fx ∑f

i i i

=

Vissza



51



9.797.945.000 ≅ 60.314 Ft 162.449

♥ 2004-ben a korbetöltött rokkantsági nyugdíjas férfiak átlagosan 60.314 Ft ellátást73 kaptak havonta. Megjegyzések:

• Tekintettel arra, hogy egy-egy osztályközbe (= egy-egy részsokasága) a sokaság több eleme tartozik, súlyozott átlagot számítottunk. • A rokkantsági nyugdíjak összegének (= értékösszegek összege) van jelentése (= összes ilyen címen kifizetett ellátás), tehát számtani átlagot számítottunk. • Osztályközös gyakorisági sor esetén az átlagolandó érték = osztályközép = xi =

xa + x f 2

74

• A nyitott (= nincs alsó vagy felső határa)75 osztályközök osztályközepét a következő ill. a megelőző osztályköz szélességét feltételezve kell ki számítani. • Vegye észre, ha súlynak a relatív gyakoriságokat használjuk, akkor a g i xi feliratú oszlop – lásd: 3.1. sz. tábla utolsó oszlopa – összesen rovata (minden további művelet elvégzése nélkül) magát az átlagot tartalmazza. • A legnagyobb relatív gyakoriságot a [50 000 – 59 999] osztályköz mellett találjuk, tehát „erre felé” kell megtalálnunk az átlagot.76 73 74

Ellátás = rokkantsági nyugdíj x a = az adott osztályköz alsó határa és

x f = az adott osztályköz felső határa.

75

Az osztályközöket egy-egy vizsgálathoz gyakran előre – korábbi tapasztalataink – alapján elkészítjük. Ha pedig a határokat már ekkor lezárnánk, akkor előfordulhatna, hogy a sokaság egy-egy elemét ki kellene hagynunk a besorolásnál, mert olyan nagy vagy olyan kicsi értéket vettek fel, amire előre nem számítottunk. Ez pedig torzulást okozna, hamis eredményekhez vezetne. 76 Annak oka, hogy az átlag egy osztályközzel „feljebb csúszott”, az hogy a 60 ezer Ft feletti nyugdíjasok aránya (≅ 39 %) nagyobb, mint az 50 ezer Ft alatti nyugdíjasok aránya (≅ 32 %).

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



51



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



52



Számtani átlagot azonban nemcsak mennyiségi sorokból, hanem összegezhető idősorokból, azaz a tartam idősorokból is számíthatunk. Az idősoroknál alkalmazott jelöléseket használva a képlet így módosul: n

ya =

∑y i =1

n

i

.

Például az 1.2. sz. tábla (Az élveszületések száma Magyarországon) adatai alapján:

ya =

112.054 + 105.272 + ... + 94.647 − 92.200 ≅ 98.792 fő , 10

♥ azaz 1995 és 2004 között évente átlagosan 98.792 élveszületés történt hazánkban. • Állapot idősorokból, ezek összege nem értelmezhető, egy speciális súlyozású számtani átlagot = kronologikus átlagot számítunk.

y y1 n −1 + ∑ yi + n 2 i =2 2 y kr = n −1 Az 1.1. sz. tábla adatai alapján:

10.236 10.337 + 10.321 + ... + 10.142 + 2 = 10.236 ezer fő , ykr = 2 9 ♥ azaz hazánk népessége a vizsgált időszakban évente átlagosan 10.236 ezer fő volt. •

A számtani átlagot (és a későbbiekben tárgyalásra kerülő szórást is) kiszámíthatjuk a zsebszámológépek statisztikai programjával is. Ez feleslegessé teszi a 3.1. sz. táblához hasonló nagyméretű munkatáblák kitöltését, azaz munkánk gyorsabbá válik. • Kapcsoljuk be a zsebszámológépet77! ON/C • Állítsuk át statisztikai programra! MODE ⇒ 1 ⇒ 0

77

SHARP EL-531WH (A gépekhez vásárláskor kapott használati útmutatóból derülhet ki, hogy az Ön gépe alkalmas-e statisztikai számítások végzésére, és ha igen, annak leírását is csatolta a gyártó. Ha nem találja a korábban vásárolt gép leírását, keresse a gyártó honlapján!)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



52



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

53



• •

Vigyük be az első átlagolandó értéket! szám(ok) ⇒ STO Vigyük be az első átlagolandó érték súlyadatát! szám(ok) ⇒ M+



Ismételjük az utóbbi két műveletet – az előző sorrendben! – addig, amíg valamennyi átlagolandó értéket ill. azok súlyadatát be nem vittük a gépbe. Nyerjük ki a rész- és a végeredményeket! • számtani átlag RCL , 4 • szórás RCL , 6



• értékösszeg (= a számtani átlag számításakor a számlálóban szereplő adat) RCL , tizedespont . • elemszám (= a számtani átlag számításakor a nevezőben szereplő adat) RCL , 0 • az átlagolandó értékek négyzetének összege RCL , +/-



• A zsebszámológép memóriája mindaddig megőrzi az eredményeket (kikapcsolás esetén is), amíg nem kezdünk (a fent leírt módon) egy újabb átlagszámításba. • Az eredmények kinyeréséhez használt billentyűk statisztikai funkcióját is láthatja a zsebszámológép előlapján; általában a szám- ill. műveleti billentyűk jobb felső sarkánál, apró, színes betűkkel. A számtani átlag (és minden más statisztikai mutató is) meghatározható a személyi számítógépek EXCEL programjával is. (Ennek részletes leírása azonban meghaladja tananyagunk kereteit.)

3.3. A mértani átlag A mértani (= geometriai) átlag az a szám, melyet az átlagolandó értékek helyébe írva azok szorzata változatlan. Ebből a definícióból vezethető le a mértani átlag képlete: n

n

n

xi ⇒ l = n −1 Π li = n −1 bn = n −1 Π xi = x gn ⇒ x g = n Π i =1 i =2 i =1

yn y1

A képletekben szereplő betűk jelentése:

xi = átlagolandó érték,

xg=

n=

geometriai átlag

a megfigyelt elemek száma

A dokumentum használata | Tartalomjegyzék | Táblázatok

i= az elemek sorszáma (1-től n-ig)

Vissza



53



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

54



m

∑ fi

m

x g = i =1 Π x i f i ⇒ l = ∑ i =1

f i −1

m

Π li fi = n−1 bn = n−1

i =2

yn y1

A képletben szereplő betűk jelentése:

m=

xi =

xg=

átlagolandó érték,

geometriai átlag

a különböző átlagolandó értékek (= az ismérvértékek) darabszáma

i = az azonos ismérvértékű csoportok sorszáma (1-től m-ig)

összefüggés:

fi = az azonos ismérvértékű elemek száma

m

∑f

i

=n

i =1

g i = az azonos ismérv-értékű elemek relatív gyakorisága Az elsőként megadott képlettel az un. egyszerű78, a másodikként megadottal az un. súlyozott mértani átlagot számítjuk. A geometria átlagot akkor alkalmazzuk, ha az átlagolandó értékek szorzatának van jelentése, így például a láncviszonyszámok átlagolására.79 BEMUTATÓ FELADAT A 2.3. sz. tábla adatai alapján: l = 9 0,998 * 0,998 * 0,998 * 0,997 * ... * 0,998 = 9 0,979 = 9

10117 = 0,9976 ⇒ 99,76% ⇒ −0,24% 10337

l = 9 0,9986 * 0,997 3 = 0,9976

♥ Magyarország népessége a vizsgált időszakban évente átlagosan 0,24 %kal csökkent. Az idősorokból a relatív változás (= láncviszonyszám) mellett, ahogy arról már volt szó80, az adatok abszolút változását is kiszámíthattuk. A láncviszonyszámokhoz hasonlóan ezek is átlagolhatók:

78

Egyszerű = az átlagolandó értékek egyszer-egyszer fordulnak elő. (Lásd: számtani átlag)

79

Lásd: az egyszerű geometria átlag ill. a súlyozott geometriai átlag képlete mellett, Lásd: 2.1. Dinamikus viszonyszámok.

l.



54

80

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

55



n

d=

∑d

i

i =2

n −1

=

y n − y1 n −1

81Például:

d=

10117 − 10337 ≅ −2,8 ezer fő 9

♥ Magyarország népessége a vizsgált időszakban évente átlagosan ≅ 2800 fővel csökkent. 3.4. A négyzetes átlag A négyzetes (=kvadratikus =quadratikus) átlag az a szám, melyet az átlagolandó értékek helyébe írva azok négyzeteinek összege nem változik. Ebből a definícióból vezethető le a négyzetes átlag képlete: n

n

∑ x = nx ⇒ x q = 2 i

2 q

i =1

m

∑ xi2 i =1

n

∑f x i

ill.

xq =

2 i

i =1 m

∑f

m

∑g x

=

i

2 i

i =1

i

i =1

A képletekben szereplő betűk jelentése:

xi =

x q=

átlagolandó érték,

négyzetes átlag

fi = az azonos ismérvértékű elemek száma

m= a különböző átlagolandó értékek (= az ismérvértékek) darabszáma

i= az azonos ismérvértékű csoportok sorszáma (1től m-ig)

m

összefüggés:

∑f

i

=n

i =1

g i = az azonos ismérv-értékű elemek relatív gyakorisága Az elsőként megadott képlettel az un. egyszerű, a másodikként megadottal az un. súlyozott négyzetes átlagot számítjuk. A számított átlagok ezen típusát akkor alkalmazzuk, ha az átlagolandó értékek négyzetének van jelentése, ill. akkor, ha az átlagolandó értékek között pozitív és negatív 81

Jelmagyarázat: lásd a 2.1. Dinamikus viszonyszámok.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



55



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

56



előjelűek egyaránt előfordulnak, de az előjeleknek vizsgálatunk szempontjából nem tulajdonítunk jelentőséget. Így például a négyzetes átlag az átlagolandó értékek átlagtól való átlagos eltérésének vizsgálatára is (különösen) alkalmas82. 3.5. A harmonikus átlag A harmonikus átlag az a szám, melyet az átlagolandó értékek helyére írva azok reciprokainak összege változatlan. Ebből a definícióból vezethető le a harmonikus képlete: m

n

m

1 = nx h ⇒ x h = ∑ i =1 x i

n

1

∑x i =1

xh =

ill.

∑f i =1 n

fi

∑x i =1

i

i

1 gi ∑ i =1 x i

=

m

i

A képletekben szereplő betűk jelentése:

xi =

xh=

átlagolandó érték,

harmonikus átlag

fi = az azonos ismérvértékű elemek száma

m = a különböző átlagolandó értékek (= az ismérvértékek) darabszáma

i= az azonos ismérvértékű csoportok sorszáma (1től m-ig)

m

összefüggés:

∑f

i

=n

i =1

g i = az azonos ismérv-értékű elemek relatív gyakorisága Az elsőként megadott képlettel az un. egyszerű, a másodikként megadottal az un. súlyozott harmonikus átlagot számítjuk. A számított átlagok

82

Alkalmazására bemutató példát is csak a szóródás taglalásánál talál.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



56



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

57



ezen típusát akkor alkalmazzuk83, ha az átlagolandó értékek reciprokának van jelentése. Például, dolgozók az adott munkamennyiség elvégzéséhez szükséges idejét nem összegezhetjük, hiszen ha együtt végeznék az előírt feladatot, nyilván a leghosszabb egyéni időnél is kevesebbre lenne szükségük a teljesítéshez. Az adott munkamennyiség elvégzéshez szükséges idők reciproka (= egységnyi időre jutó teljesítmény) azonban értelmes. 3.6. Módusz A módusz a legtöbbször előforduló (= legáltalánosabb = tipikus = a legdivatosabb) ismérvérték a sokaságban. Diszkrét ismérvváltozatok esetén: a leggyakrabban előforduló ismérvérték; folytonos ismérvváltozatok esetén: a gyakorisági görbe84 csúcspontjához tartozó ismérvérték. A módusz értékének meghatározása diszkrét ismérvváltozatok esetén ránézéssel történik. A módusz az az ismérvérték, amelyik mellett a legnagyobb előfordulást f max vagy a legnagyobb relatív gyakoriságot g max (megoszlási viszonyszámot, wmax ) találjuk. 3.2./ a sz. tábla Egy hallgatói csoport megoszlása a statisztika vizsgaeredmények alapján eredmények 1

2

3 = Mo

4

5

hallgatók (fő)

25

50 = f max

20

13

12

♥ Az adott hallgatói csoportban tehát a leggyakrabban előforduló vizsgaeredmény a közepes (3). Az osztályközös gyakorisági sorból a módusz meghatározása a fentieknél egy kicsit bonyolultabb. Először ellenőriznünk kell, hogy az osztály83

Ezen átlagtípust leggyakrabban azonban csak „formaként” használjuk, pl. ha számtani átlagot akarunk számítani, de nem ismerünk minden alapadatot, akkor így is dolgozhatunk: m

xa =

∑s i =1 m

∑f i =1

84

m

i

= i

∑s i =1 m

i

(A további felhasználásokat lásd: standardizálás, ár-, érték-, volumenindex-kör.)

si ∑ i =1 x i

Lásd: a statisztikai adatok ábrázolása.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



57



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



58



közök azonos szélességűek-e. Ha igen, akkor ki kell választanunk a modális osztályközt (= ahol a módusz elhelyezkedik)85. Majd be kell helyettesítenünk a módusz képletébe86 a megfelelő adatokat.

Mo = mo +

k1 h k1 + k 2

A képletben szereplő betűk jelentése:

Mo = módusz

k1 = f mo − f mo −1 vagy

k1 = g mo − g mo −1

mo = x mo ,alsó =

k 2 = f mo − f mo +1

a móduszt tartalmazó osztályköz alsó határa

vagy

f mo +1 =

k 2 = g mo − g mo +1 g mo =

a móduszt tartalmazó a móduszt tartalmazó osztályközt követő oszosztályköz relatív gyakotályköz megfigyelt gyakorisága risága

g mo +1 = a móduszt tartalmazó osztályközt követő osztályköz relatív gyakorisága

f mo = a móduszt tartalmazó osztályköz megfigyelt gyakorisága

f mo −1 = a móduszt tartalmazó osztályközt megelőző osztályköz megfigyelt gyakorisága

g mo −1 = a móduszt tartalmazó osztályközt megelőző osztályköz relatív gyakorisága

h = x mo, felső − x mo,alsó =

x mo, felső =

a móduszt tartalmazó osztályköz szélessége

móduszt tartalmazó osztályköz felső határa

85

Ha nem, akkor átalakítást kell végeznünk, de ez nem képezi tananyagunk részét. A módusz értékének ábrával történő meghatározása sem képezi tananyagunk részét, de jó tudnunk, hogy a képlet az ábra koordináta geometriai „lefordítása”.

86

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



58



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



59



BEMUTATÓ FELADAT A 3.1. sz. tábla adatai alapján dolgozunk. 40.000 – 49. 999 41.515

45.000

1.868.175 0,255557

11500,0700

50.000 – 59. 999 46.720

55.000

2.569.600 0,287598

15817,8900

60.000 – 69. 999 25.938

65.000

1.685.970 0,159669

10378,4600

Mo = mo + 50.000 +

k1 46.720 − 41.515 h = 50.000 + (60.000 − 50.000) = (46.720 − 41.515) + (46.720 − 25.938) k1 + k 2 0,287598 − 0,255557

(0,287598 − 0,255557) + (0,287598 − 0,159669)

(60.000 − 50.000) ≅ 52.000 eFt

♥ 2004. januárjában a korbetöltött rokkantnyugdíjas férfiak havi ellátásának leggyakoribb összege 52.00087 Ft volt. Úgy is fogalmazhatunk, hogy a megfigyelt nyugdíjak sűrűsödési88 pontja 52.000 Ft. 3.7. Medián A medián az az érték, amelyiknél a sokaság elemeinek egyik fele kisebb értéket, a másik fele pedig nagyobb értéket vesz fel. A medián értékének kiszámítása sorszámának meghatározásával kezdődik, majd a medián helyének kiválasztásával folytatódik. A következő lépés pedig attól függ, hogy a ismérvváltozataink diszkrétek avagy folytonosak-e. n +1 A medián sorszáma: s Me = 2 A képletben szereplő betűk jelentése:

s Me =

n=

a medián sorszáma

a sokaság elemeinek száma

87

A módusz kiszámított értékét (52002,9 Ft) a megfigyelt adatok nagyságrendjére kerekítettük. 88 A második megfogalmazás kifejezi, hogy nem ismerjük (az adatokat osztályközbe rendezve kaptuk) valamennyi nyugdíjas ellátásának összegét, így szélső esetben meg az is előfordulhat, hogy az általunk kiszámított 52.000 Ft nem is szerepelt az eredeti adatok között, de abban biztosak lehetünk, hogy az ellátások összege e körül az összeg körül tömörül.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



59



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



60



A medián helyének meghatározásához adatainkat az ismérvváltozatok szerint növekvő sorrendbe kell rendezni. ( Lásd: 1.5., 3.1. és 3.2. sz. táblánk; ezeket a szokásoknak megfelelően eleve így adtuk meg.) Majd a megfigyelt vagy a relatív gyakoriságokból képezni kell az un. felfelé kumulált gyakorisági sort. Ennek a statisztikai sornak egyes adatai ( f i′) megmutatják, hogy egy bizonyos xi értéket és annál kisebb értéket a sokaság elemei közül hány elem vesz fel, vagy a sokaság elemeinek hányad része (g i′ ) veszi fel. BEMUTATÓ FELADAT 3.3. sz. tábla (Lásd: 3.1. sz. tábla.) az ellátás havi összege Ft – 9.999



kumulált relatív gyakorisági sor –

gi

g i′

férfiak

kumulált relatív gyakogyakorisági riság sor





f i′

fi 25

25

0,000154

0,000154

10.000 – 19.999

114

139

0,000702

0,000856

20.000 – 29.999

759

898

0,004672

0,005528

30.000 – 39.999

9.265

10.163

0,057033

0,062561

40.000 – 49.999

41.515

51.678

0,255557

0,318118

50.000 – 59.999

46.720

98.398

0,287598

0,605716

60.000 – 69.999

25.938

124.336

0,159669

0,765385

70.000 – 79.999

14.413

138.749

0,088723

0,854108

80.000 – 89.999

89.69

147.718

0,055211

0,909319

90.000 – 99.999

6.098

153.816

0,037538

0,946857

100.000 –

8.633

162.449

0,053143

1

összesen

162.449 –

1 –

♥ A vizsgált nyugdíjasok (162.449 fő) közül 10.613 fő, azaz az összlétszám 6,3 %-a kapott a megfigyelt hónapban legfeljebb 40.000 Ft havi ellátást.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



60



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

61



A medián helye pedig ott található, ahol teljesül a következő nagyságrendi reláció: f i′〉 s Me Példánkban

sMe =

n + 1 162.449 + 1 = = 81.225. , 2 2

ennél a sorszámnál a 6. osztályköz kumulált gyakorisága (98398) már nagyobb, tehát a medián ebben az osztályközben található89. Ha ismérvváltozataink diszkrétek lettek volna, akkor munkánk itt véget is ér. A mediánt (mint a móduszt is) ránézéssel meg tudjuk állapítani90. Állapítsa meg a 3.2./a sz. táblából a medián értékét! 3.2./b tábla Egy hallgatói csoport megoszlása a statisztika vizsgaeredmények alapján eredmények 1

2

3 =Me

4

5

hallgatók (fő) 12

25

50

20

13

kumulált gyak. 12

37

87 > 60.

107

120

♥ A hallgatók egyik fele közepesnél rosszabb, a másik fele pedig közepest jobb eredményt ért el a vizsgán. (Tekintettel arra, hogy ötvenen kaptak közepest, kicsit furcsán hangzik a megfogalmazás, de ha arra gondolunk, hogy a közepesek között is, pl. a teljesítmény-százalék alapján, tudunk különbséget tenni, akkor már nem is olyan megdöbbentő a medián fentiekben leírt megfogalmazása.)

A folyamatos ismérvváltozatok esetén azonban, a módusz becsléséhez hasonlóan, képletre van szükségünk. Me = me +

89

′ −1 ′ −1 s Me − f me 0,5 − g me * h = me + *h f me g me

Ha a relatív gyakoriságokkal akarunk dolgozni, akkor természetesen a medián sorszá-

ma mindig 0,5, ez

∑g

i

fele, de ebben az esetben is ugyanazt az osztályközt választjuk

ki, hisz 0,605716 már nagyobb 0,5-nél. 90

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



61



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



62



A képletben szereplő betűk jelentése:

Me = a medián

′ −1 = f me a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága

f me = mediánt tartalmazó osztályköz gyakorisága

me = x me ,alsó = a mediánt tartalmazó osztályköz alsó határa

′ −1 = g me a mediánt tartalmazó osztályközt megelőző osztályköz kumulált relatív gyakorisága

g me = a mediánt tartalmazó osztályköz kumulált relatív gyakorisága

s Me = a medián sorszáma

h = x me, felső − x me,alsó = a mediánt tartalmazó osztályköz szélessége

x me,alsó = a mediánt tartalmazó osztályköz alsó határa

xme, felső = a mediánt tartalmazó osztályköz alsó határa

′ −1 81.225 − 51.678 sMe − f me (60.000 − 50.000) = * h = 50.000 + 46.720 f me 0,5 − g ′me−1 0,5 − 0,318118 (60.000 − 50.000) ≅ 56.324 Ft me + * h = 50.000 + g me 0,287598 Me = me +

♥ A vizsgált nyugdíjas férfiak egyik fele ≅56.300 Ft-nál kisebb, másik fele pedig ennél nagyobb összegű ellátást kapott 2004. januárjában. Megjegyzések:

• Az osztályközös gyakorisági sorból számított módusz és medián soha nem „lóghat ki” a kiválasztott osztályközből. • A medián képletének értelemszerű alkalmazásával a sokaság más osztópontjait is meg tudjuk határozni, ezeket pedig pl., a sokaság szimmetriájának elemzéséhez használjuk fel. Q1 = Qa = alsó kvaritlis (quartilis) = az az érték, melynél a sokaság elemeinek negyed része kisebb, háromnegyed része pedig nagyobb értéket vesz fel.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



62



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Középértékek Vissza



63



Q3 = Q f = felső kvaritlis (quartilis) = az az érték, melynél a sokaság elemeinek háromnegyed része kisebb, egynegyed része pedig nagyobb értéket vesz fel. D1 = első decilis = az az érték, melynél a sokaság elemeinek egy tized része kisebb, kilenc tized része pedig nagyobb értéket vesz fel. D9 = kilencedig decilis = az az érték, melynél a sokaság elemeinek kilenc tized része kisebb, egy tized része pedig nagyobb értéket vesz fel stb.

3.8. Gyakorló feladatok 1. feladat A következőkben felsorolt számtani átlagokról döntse el, hogy azok milyen típusúak! átlagok: 1. 2.

3.

4.

5.

Egy általános iskolás kisgyermek nap, mint nap feljegyezte hány perc az út otthonról az iskolába. Majd kiszámította az átlagos idő-szükségletet. Egy édesanya egy éven keresztül feljegyezte a család napi villamos-energia fogyasztását. Minden hónap végén kiszámította az egy napra jutó fogyasztást. Majd az év végén a havi átlagokat felhasználva újra kiszámolta a napi fogyasztás átlagát. Egy egyetemi évfolyamon kikérdezték a hallgatókat tanulási szokásaikról. Többek között arra voltak kíváncsiak, hogy a kötelező órákon kívül naponta mennyi időt töltenek tanulással. A kikérdezés után az összegyűjtött adatokat kombinációs táblába rendezték. A tábla oldalrovataiban a tanulásra fordított idő (órában) szerepelt; az adatokat osztályközökbe rendezték. A tábla fejlécében az egyetem különböző szakjai szerepeltek. Először kiszámították a szakonkénti átlagos tanulási időt. Majd az egyetem adott évfolyamának egészére is elvégezték a számítást.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



63



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



64



2. feladat Döntse el, – a számtani átlag tulajdonságai ill. a nagyságát befolyásoló tényezőkről tanultak alapján – hogy lehetnek-e az alábbi átlagok a megadott számpéldák megoldásai! átlagok a)

b)

c)

d)

e)

x = 1500USD

x = 2144 fő

x = 6,95kg

x = 21440 fő

x = 4,95kg

számpéldák:

1.

Egy állattenyésztő juhállományának gyapjúhozamát vizsgálták. A gyapjúhozamra vonatkozó megfigyelt adatokat (kg) osztályközökbe rendezték. Az első osztályköz: − 4,5 , az utolsó osztályköz 8,5 − . Az osztályközök kilogrammonként növekedtek, és a gyakoriságok a középső osztályközöknél tömörültek.

2.

Egy pénzintézetben a lakossági devizaszámlákon található összegeket (USD) rendezték osztályközös gyakorisági sorba. Az első osztályköz: − 100 , az utolsó két osztályköz 50.001 − 10.000 ill. 100.001 − A gyakoriságok a felsőbb osztályközöknél tömörültek.

3.

Zala megye településeit a települések lakóinak száma (fő) szerint rendezték osztályközös gyakorisági sorba. Az első osztályköz: − 499 , az utolsó két osztályköz 10.000 − 49.999 ill. 50.000 − A gyakoriságok az alacsonyabb értékű osztályközöknél tömörültek.

3. feladat Egy vállalkozásnál a női dolgozók átlagkeresete 75.000,– Ft / hó, férfiaké pedig 95.000,– Ft / hó. A vállalat egyes telephelyein az egy dolgozóra jutó béradatokat az alábbi tábla tartalmazza. I. telephely y a = 90.000 Ft / hó

II. telephely y a = 88 . 000 Ft / hó

III. telephely

IV. telephely

y a = 86.000 Ft / hó

y a = 80.000 Ft / hó

Számítással mutassa be, hogy mi a különbség az egyes telephelyek között, hogy az azonos férfi, női átlagbér ellenére más-más átlagbér adódott!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



64



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



65



4. feladat Néhány egyetemi szak hallgatóinak teljesítményei matematikából az első zárthelyi dolgozat alapján: teljesítmény

gépészmérnökök

informatikus

közgazdász

%

villamosmérnökök fő

- 5091

30

20

34

35

51 – 60

20

20

68

88

61 – 70

10

15

34

88

71 – 80

10

10

22

35

81 – 90

6

3

11

28

91 –

4

2

11

6

összesen

80

70

180

280

1. Számítsa ki szakonként és a négy csoportra együttesen is a teljesítmények átlagát! Az együttes átlagot kétféleképpen is számítsa ki! 2. Számítsa ki szakonként és a négy csoportra együttesen is a helyzeti középértékeket, a kvartiliseket és a deciliseket! 3. Minden kiszámított adat jelentését fogalmazza meg! 4. Nevezze meg az adat-tábla típusát, a táblában található statisztikai sorok típusát, darabszámát!

91

Figyelje meg! Bemutató példánkban az osztályközök 9-es számjeggyel végződte, ezért a számítások úgy voltak egyszerűbbek, hogy a következő osztályköz alsó határát tekintettük az előző felső határának. Itt fordított a helyzet. Nincs szabály, az egyszerűbb számításra törekedjen.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



65



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



66



5. feladat Írja fel az alábbiakban megadott átlagok számítását, majd fogalmazza alábbiakban jelentésüket! I.

II.

a gépkocsik számának változása

egy fagylaltárus bevételeinek alakulása

tárgy / bázis (%) +2

januártól áprilisig

havi + 3 %

áprilistól augusztusig

havi +135 %

a vidéki városokban + 4

augusztus októberig

havi – 20 %

községekben

októbertől januárig

havi – 40 %

hol ? Budapesten

–1

3.9. Összefoglalás középérték fajtái

= a sokaság elemei között középső helyet elfoglalva lehetővé teszi a sokaság jellemzését egyetlen adattal 1. számított = értékét minden megfigyelt adat befolyásolja 2. helyzeti = értékét nem minden megfigyelt adat befolyásolja

számított középértékek fajtái

1. 2. 3. 4.

számtani átlag mértani átlag négyzetes átlag harmonikus átlag

helyzeti középértékek fajtái

A dokumentum használata | Tartalomjegyzék | Táblázatok

1. módusz 2. medián

Vissza



66



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

számtani átlag92 fajtái az átlagolandó értékek előfordulása alapján

fajtái összetett sokaság esetén

képletei tulajdonságok

Vissza



67



= az a szám, melyet az átlagolandó értékek helyébe írva azok összege változatlan 1. egyszerű = minden átlagolandó érték egyszer fordul elő 2. súlyozott = az átlagolandó értékek többször fordulnak elő 1. részátlag 2. főátlag

= az egyes részsokaságokra jellemző = a teljes (fő) sokaságra jellemző

1. egyszerű 2. súlyozott

1.

legfontosabb

xa =

∑x

i

n xi (min) 〈 x a 〈 xi (max)

2.

xa =

∑f x ∑f i

i

i

megjegyzés rokonság az értékét befolyásoló tényezők

ez a tulajdonság valamennyi középértékre igaz intenzitási viszonyszámmal 1. egyszerű 2. súlyozott

összefüggés a részés a főátlag között mértani átlag négyzetes átlag

a főátlag =

az átlagolandó értékek abszolút nagysága az átlagolandó értékek abszolút nagysága + a súlyok relatív nagysága a részátlagok súlyozott számtani átlaga

= az a szám, melyet az átlagolandó értékek helyébe írva azok szorzata állandó = az a szám, melyet az átlagolandó értékek helyébe írva azok négyzeteinek összege állandó

92

FONTOS: 1. A számtani átlag a legtöbb, a továbbiakban ismertetésre kerülő statisztikai elemzési módszerben előfordul, így tudása az egész tantárgy tanulása érdekében nélkülözhetetlen. 2. Samuelson92 szerint, mindent, amit a gazdasági életről tudunk a statisztika alapján tudjuk, így tantárgyunk egy közgazdásznak a többi tantárgy tanulásához is nélkülözhetetlen.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



67



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

harmonikus átlag



Vissza

68



= az a szám, melyet az átlagolandó értékek helyébe írva azok reciprokainak összege állandó

fajtáik • az átlagolandó értékek előfordulása alapján • összetett sokaságok esetén

képletek

lásd: számtani átlag

harmonikus

xh =

n

xh =

1 ∑x i

∑f f ∑x

i

=

i i

1 g ∑ xi i

négyzetes

xq =

∑x

2 i

n

xq =

∑f x ∑f i

2 i

i

=

∑g x i

2 i

mértani

x g = ∑ i Πxifi = Πxigi

x g = n Πx i alkalmazásuk

1. harmonikus 2. négyzetes

3. mértani nagyságrendjük

f

ha az átlagolandó értékek reciproka értelmes ha az átlagolandó értékek négyzete értelmes vagy ha az átlagolandó értékek nem mindegyikének azonos az előjele, és az előjelnek nem tulajdonítunk jelentőséget → szórás ha az átlagolandó értékek szorzatának van értelme → lánc viszonyszámok átlagolása

xh 〈 x g 〈 xa 〈 xq

legfontosabb tulajdonságuk a rész- és főátlag összefüggése

lásd: számtani átlag

az értéküket befolyásoló tényezők

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



68



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



69



3.10. Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy lakótelepi háztömb egyik lépcsőházának melegvíz-fogyasztási adatai (2005. január): fogyasztás lakások

m3-re kerekítve

2

3

4

5

6

7

8

összesen

db

2

3

5

20

19

5

6

60

Töltse ki az alábbi eredmény-táblát! eredmény-tábla feladat

statisztikai jel

számítás

számszerű eredmény + mértékegység

megfogalmazás

a sokaságot jellemző számított középérték: a leggyakoribb vízfogyasztás a rangsor középső lakosának vízfogyasztása:

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



69



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



70



2. minta Egy hallgatói csoport megoszlása a tanulóbiztosítás féléves díjai szerint: 2,0 – 2,5

2,5 – 3,0

3,0 – 3,5

3,5 – 4,0

összesen

hallgatók fő 30 25 20 15 Töltse ki az alábbi eredmény-táblát! eredmény-tábla

15

10

5

60

biztosítási díjak

feladat

ezer Ft

0,0 – 1,2

statisztikai jel

1,2 – 1,5

1,5 – 2,0

számítás

számszerű eredmény + mértékegység

megfogalmazás

a sokaságot jellemző számított középérték: a leggyakoribb biztosítási díj a rangsor középső tagjának biztosítási díját A szürke háttérrel és vastagabb kerettel kiemelt osztályközhöz tartozó adatok: osztályközép kumulált gyakoriság relatív gyakoriság kumulált relatív gyakoriság értékösszeg relatív értékösszeg kumulált relatív értékösszeg

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



70



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



71



3. minta Az élveszületések (97301 fő) megoszlása az újszülöttek születési súlya alapján 1998-ban: Minden részadatnak csak az első két tizedesét másolja át a lapra. (Ne kerekítsen, csak másoljon!)

születési súly

az újszülöttek munkatábla megoszlása

gramm

%

- 1.000

0,5

1.001 – 1.500

0,7

1.501 – 2.000

1,7

2.001 – 2.500

5,4

2.501 – 3.000

19,4

3.001 – 3.500

37,7

3.501 – 4.000

26,5

4.001 -

8,1

összesen

100,0

Számítsa ki a sokaságot jellemző számított középértéket! Írja ide a kiszámított középértéket! Csak az egész számok kellenek. Csak másoljon, kerekíteni nem kell.

Számítsa ki a szóródás leggyakrabban használt abszolút és relatív mutatóját! Írja ide a kiszámított relatív szóródási mutatót! Csak az egész számok kellenek. Csak másoljon, kerekíteni nem kell.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



71



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

72



Döntse el igazak (I) avagy hamisak (H)-e az alábbi állítások! sorszám

megfogalmazás Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = megfigyelt 1. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a 1000 gramm alatti súllyal jött világra. Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított 2. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 század része 1000 gramm alatti súllyal jött világra. Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított 3, adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a átlagosan 500 gr súllyal jött világra. Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított 4. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a átlagosan 750 gr súllyal jött világra. 5. Az Ön által kiszámított adatok mértékegysége nem azonos. megoldás 1. 2. 3. 4. 5. Döntse el igazak (I) avagy hamisak (H)-e az alábbi állítások! sorszám 1. 2.

3.

4.

megfogalmazás Az „újszülöttek megoszlása” oszlop (lásd: munkatábla) adatai relatív gyakoriságok. A „születési súly” oszlop (lásd: munkatábla) adatai jelentik az átlagolandó értékeket, s Ön szabadon döntheti el, hogy a két szám közül melyikkel dolgozik. A számított középérték és a szóródás abszolút mutatója súlyozott formában számítandó, hiszen az egyes osztályközökbe nem egy-egy csecsemő tartozik. Súlynak választható a megfigyelt gyakoriság ( f i ) , a megoszlási viszonyszám (g i ) , vagy a relatív gyakoriság (wi ) .

Súlynak választható a megfigyelt gyakoriság ( f i ) , a megoszlási vi-

5.

szonyszám (wi ) , vagy a relatív gyakoriság (g i ) .

megoldás

1.

2.

3.

A dokumentum használata | Tartalomjegyzék | Táblázatok

4.

5.

Vissza



72



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



73



4. minta Tekintettel arra, hogy a számtani átlag és a – következő fejezetben ismertetésre kerülő – szóródás legfontosabb mutatóinak kiszámítása – sok éves tapasztalat – a hallgatók egy jelentős részének nagy gondot okoz, további, a vizsgákon már sokszor szerepelt számpéldákat is közlünk megadva a számtani átlag és a szórás aktuális értékét. Természetesen a feladatokban szereplő adatokból minden egyéb mutatót – módusz, medián stb. kiszámíthat gyakorlásképpen. A feladatokat előveheti a becslés témakörnél (Stat. II.) is, elvégezheti az átlag, a szórás az értékösszeg (kitalálva egy kiválasztási arányt), valamint az egyes osztályközökbe tartozó elemek arányának intervallumbecslését is. 4.1. Egy biztosító társaság új poggyászbiztosításának előkésítése során mintavételes technikával vizsgálja az utazók szokásait, többek között a poggyászok értékét. A megfigyelt adatok: a poggyász értéke Ft93 - 1.000 1.001 – 15.000 15.001 – 20.000 20.001 – 30.000

az utasok száma fő 3 20 35 17

♥ xa = 22.940 Ft

a poggyász értéke Ft 30.001 – 40.000 40.001 – 50.000 50.001 – összesen

az utasok száma fő 10 8 7 100

σ = 14.009 Ft

93

Gyakorlati tanácsok: Célszerű a zsebszámológépbe való billentyűzésnél a sok-sok nullát elhagyni, azaz ezerrel egyszerűsíteni, úgy is mondhatjuk: ezres nagyságrendben dolgozni. Jusson eszébe, az osztályközök alsó határainak utolsó számjegye (1) a megkülönböztetés miatt szükséges, az osztályközepek meghatározásánál nem vesszük figyelembe. Jusson eszébe, a nyitott osztályközök közepének megállapításakor olyan szélesnek feltételezzük azokat, amilyen széles a szomszédos osztályköz. (Természetesen az első osztályköz nem kezdődhet negatív számmal.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



73



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



74



4.2. Egy vállalkozás részmunkaidős dolgozóinak nettó átlagfizetés szerintimegoszlása: nettó átlagfizetés ezer Ft - 50 50 – 60 60 – 70 70 – 80 összesen

dolgozók fő 20 50 100 30 200

♥ xa = 62 ezer Ft σ ≅ 8,4 ezer Ft 4.3. Egy városban, az egyik évben a felépült lakások alapterület szerinti megoszlása a következő volt. alapterület

lakások

m2

%

35,0 – 45,0

10

45,1 – 55,0

20

55,1 – 65,0

35

65,1 – 75,0

25

75,1 – 85,0

10

összesen

100

♥ xa = 60,5 m2

σ ≅ 11,2 m2

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



74



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



75



4.4. Egy magyarországi település vállalkozásainak megoszlása a foglalkoztatott létszám alapján: létszám fő – 20 21 – 50 51 – 100 101 – 300 301 – 500 501 – 1000 1001 – összesen

vállalkozás db 20 12 9 12 3 3 1 60

♥ xa ≅ 140 fő94 σ ≅ 228 fő 4.5. Egy település max. 5 főt foglalkoztató kereskedelmi egységeinek megoszlása havi bevételük alapján: bevétel millió Ft – 18,0 18,1 – 22,0 22,1 – 26,0 26,1 – 30,0 30,1 – 34,0 34,1 – összesen

♥ xa ≅ 23,9 millió Ft

kereskedelmi egység db 6 10 10 8 5 1 40

σ ≅ 5,3 millió Ft

94

A létszámadatokból számított átlagokat, szórásokat a – megfogalmazások során – mindig kerekítse egészekre!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



75



Statisztika

Középértékek

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



76



4.6. Egy nagykereskedelmi vállalat raktárában az ott tárolt 80.000 db dobozos üdítőital töltési tömegének ellenőrzésére 300 elemű mintát vettek. A minta adatai: töltési tömeg

doboz

gramm

db

– 940

15

941 – 960

21

961 – 980

51

981 – 1.000

60

1.001 – 1.020

63

1.021 – 1.040

42

1.041 – 1.060

30

1.061 –

18

összesen

300

♥ xa ≅ 1001 gramm

σ ≅ 35,8 gramm

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



76



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Szóródás Vissza



77



4. Szóródás 4.1. A szóródás fogalma Ha az 1.5., a 3.1. vagy a 3.2. sz. tábla ismérvváltozatait (= átlagolandó értékeit) szemügyre vesszük, különösebb vizsgálódás nélkül is láthatjuk, hogy azok eltérnek egymástól, és ugyanezt tapasztaljuk akkor is, ha adatainkat a saját számtani átlagukhoz (173 millió Ft; 60314 Ft; 2,975 ≅ 3 /közepes/) hasonlítjuk. Ezt a két jelenséget nevezzük szóródásnak. A szóródás vizsgálatára azért van szükségünk, mert így tájékozódhatunk arról, hogy az átlag (= x a ) mennyire jellemző arra a sokságra, melynek adataiból kiszámítottuk, ill. különböző sokaságokat összehasonlíthatunk ebből a szempontból is; továbbá a szóródási mutatókat újabb vizsgálatokhoz (pl.: szimmetria) használhatjuk fel. 4.2. A szóródás legfontosabb mutatói Az átlagolandó értékek és az átlag közötti eltérés elemzésére több különféle mutató áll rendelkezésünkre

• • • • •

terjedelem, kvartilis eltérés, átlagos eltérés, szórás, relatív szórás.

Az átlagolandó értékek egymástól való eltérésének elemzésére leggyakrabban az átlagos különbség (= az eltérések átlaga = G) nagyságát szokás meghatározni. A terjedelem a legkisebb és a legnagyobb átlagolandó érték különbsége (R = x min − x max ) , kijelöli azt az intervallumot, amiben az átlag elhelyezkedik. Gyakorlati haszna azonban nem túl nagy, mert a szélső értékeket a véletlen szeszélyei erősen befolyásolják. A kvartilis eltérés a terjedelemhez hasonlóan különbség jellegű mutató (ITQ = Q3 − Q1 ) , nagyságát a szélső értékek már nem befolyásolják, s mert a rangsorba95 állított adatok középső 50 %-át határolja, alkalmas a kiugró értékek feltárására. 95

A megfigyelt adatok növekvő sorba rendezett halmaza.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



77



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



78



Az átlagos eltérés az egyes átlagolandó értékek és az azokból számított számtani átlag különbségeinek (d i = xi − x a ) számtani átlaga. A különbségek átlagolása során azok előjelétől eltekintünk96, vagyis a különbségek abszolút értékével dolgozunk. Az egyszerű számtani átlagok „párjaként” egyszerű, a súlyozott számtani átlagok „párjaként” pedig súlyozott átlagos eltérést számítunk. k

n

egyszerű: δ =

∑ di i =1

n

súlyozott:

δ=

∑f

di

i

i =1 k

∑f

i

i =1

A szóródás eddig taglalt mutatóinak képleteiben szereplő betűk jelentése:

di =

n = ∑ fi =

fi =

gi = =

megfigyelt előfordulások

relatív gyakoriság

ITQ =

x min =

az átlagolandó érték és számtani átlag különbsége

a megfigyelések darabszáma

δ=

R=

átlagos eltérés

terjedelem

interkvartilis terje- a legkisebb átlagodelem landó érték

Q 1 = Qa =

Q 3= Q f =

alsó kvartilis

felső kvartilis

i = 1,2,... a különböző átlagolandó értékek sorszáma

x max = a legnagyobb átlagolandó érték

Az átlagolandó értékek és az átlag eltérésének jellemzésére azonban leggyakrabban nem az eddig felsoroltakat, hanem a szórás és a relatív szórás mutatóját használjuk. A szórás mellett szól egyrészt a számtani átlag kvadratikus minimum tulajdonsága97, másrészt az a tény, hogy a továbbiakban fontos mutatók98 képezhetők segítségével.

96 97

Az átlagtól való eltérések előjeles összeg = 0 (Lásd: a számtani átlag tulajdonságai.)

∑ (x

− a ) = min., ha a = x a ill. 2

i

∑ f (x i

− a ) = min., ha a = x a Úgy is 2

i

fogalmazhatunk, hogy a számtani átlag az a középérték, amelyik legközelebb áll az egyes átlagolandó értékekhez. 98 Lásd: aszimmetria, ismérvek közötti kapcsolatok.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



78



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

79



A szórás (= σ ) az átlagolandó értékek és az átlag eltérésének négyzetes átlaga, a szóródás abszolút mutatója, melynek mértékegysége mindig azonos az átlagolandó értékek és az átlag mértékegységével. Ha egyszerű számtani átlagot számítottunk, akkor a tapasztalati (1.) ill. az elméleti (2.) szórás képlete: n

∑ d i2

1. σ =

i =1

n

n

=

n

∑ (xi − xa )2

∑ d i2

2. s =

i =1

n

i =1

n −1

n

=

∑ (x

− xa )

2

i

i =1

99

n −1

Ha súlyozott számtani átlagot számítottunk, akkor a tapasztalati(1.) ill. az elméleti (2.) szórás képlete: k

1. σ =



k

f i d i2

i =1 k

∑ i =1

= fi

∑ i =1

f i ( xi − x a )

k

2

k



=

k

∑g d i

∑ f (x i

2 i

2. s =

i =1

i =1

fi

i =1

− xa )

2

i

k

∑f

i

i =1

Fontos, figyelnünk a szórás átlag-voltára. Mint minden átlag esetén, itt is igaz, hogy az átlagnak (= itt a szórás) a legkisebb és a legnagyobb átlagolandó értékek (= itt az átlagtól való eltérések) között kell elhelyezkednie, azaz [d min 〈σ 〈 d max ] . A relatív szórás (= v ) a szórás és a számtani átlag hányadosa; melyet – elsősorban a megfogalmazás megkönnyítése érdekében, – százalékban is kifejezhetünk. Ez a mutató lehetővé teszi, hogy összehasonlítsuk különböző sokaságok (különböző nagyságrendű és mértékegységű) szóródását. A relatív szórás képlete:

v=

σ xa

99

A nevezőben szereplő „-1”-re a Becslés c. fejezetben kapnak magyarázatot. (A becslés témakörének tárgyalásáig számításainkat mindig az (1.) sz. képletek szerint végezzük.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



79



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

80



A képletekben szereplő betűk jelentése:

σ=

xi =

xa=

szórás

átlagolandó érték,

számtani átlag

d i = xi − x a = az átlagolandó értékek és a számtani átlag abszolút eltérése

gi =

fi

∑ fi

fi =

k

az azonos ismérvértékű elemek száma

összefüggés:

i=

k=

az azonos ismérvértékű csoportok sorszáma (1az azonos ismérv-értékű elemek relatív gyakorisága től k-ig)

∑f

i

=n

i =1

a különböző átlagolandó értékek (= az ismérvértékek) darabszáma

v= relatív szórás Az átlagos különbség értékének meghatározása rendkívül munkaigényes és ezért rendkívül hosszadalmas feladat. A számítások elvégzése előtt a megfigyelt adatokat egy olyan kombinációs táblába kell rendeznünk, melynek mind a fejlécében, mind az oldalrovatában az átlagolandó értékeket soroljuk fel, belső rovatai pedig a különbségek abszolút értékeit tartalmazzák. (Átlójában, melyre az adatok szimmetrikusak, pedig természetesen nullák sorakoznak, hiszen az értékek önmaguktól nem különböznek.) Ha az átlagolandó értékek mindegyike csak egyszer fordult elő, akkor a különbségek abszolút értékének képzése után azonnal azok összegzése és átlagolása következik. (Lásd: „egyszerű” képlet) Ha azonban az ismérvváltozatok többször fordultak elő, akkor ezt a lépést még a súlyozás is megelőzi. (Lásd: „súlyozott” képlet.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



80



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok

egyszerű: G =

1 n2

n

n

∑∑ xi − x j



Vissza

súlyozott: G =

i =1 j =1

1 n2

k

k

∑∑ f

i

81



f j xi − x j

i =1 j =1

A képletekben szereplő betűk jelentése:

G=

xi = x j =

átlagos különbség

átlagolandó értékek

k

a megfigyelt elemek száma

i

=n

i =1

k=

fi =

n=

∑f

összefüggés:

az azonos ismérvértékű elemek száma

a különböző átlagolandó értékek (= az ismérvértékek) darabszáma

i= j= az azonos ismérvértékű átlagolandó értékek (1-től n-ig) vagy a csoportok sorszáma (1-től k-ig)

BEMUTATÓ FELADATOK I. 4.1. sz. tábla (az 1.5. sz. tábla adatai alapján) Külföldi érdekeltségű vállalkozások saját tőke szerint, Magyarországon 2003-ban szervezetek

(millió Ft)

( fi )

átlagolandó érték

– 150

22. 958

125

150,1 – 200

362

175

2.869. 750 63.350

200,1– 250

283

225

250,1 – 500

718

500,1 – 750

saját tőke

( xi )

f i xi

f i d i2

di -48

52.895.232

+2

1 448

63.675

+52

765.232

375

269. 250

+202

29.297.272

315

625

196. 875

+452

64.355.760

750,1–

1128

875

987. 000

702

555.882.912

összesen

25.764



4.449. 900



703.197. 856

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



81



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok

k

k

∑fx i

xa =

i

i =1 k

∑f

Vissza

4.449.900 = ≅ 173 millió Ft 25.764

σ=

i

∑fd i

2 i

i =1 k

∑f

=



82



703.197.856 = 165 millió Ft 25.764

i

i =1

i =1

v=

σ xa

=

165 → 95,4% 173

♥ 2003-ban a Magyarországon működő külföldi érdekeltségű vállalkozások átlagos saját tőkéje 173 millió Ft volt, 165 millió Ft-os, azaz 95,4 %os szórás mellett. ♥ Ha részletesebben akarunk fogalmazni, akkor elmondhatjuk, hogy az egyes vállalkozások saját tőkéje átlagosan 165 millió Ft-tal tér el (azaz, 165 millió forinttal kisebb vagy nagyobb) a vállalkozások alkotta sokaságra kiszámított átlagos saját tőkeértéktől, a 173 millió forinttól; és ez az eltérés igen nagymértékű, ≅ 95 %-os A 4.1. sz. tábla d i sorának adatai alapján megfigyelhetjük, hogy a szórás valóban a legkisebb 2 és a legnagyobb 702 eltérés között helyezkedik el. A vállalkozások saját tőkéje átlagosan ≅ 85,3 millió Ft-tal (= δ ) tér el az átlagos saját tőkeértéktől. (Számítása:

22.958 * − 48 + 362 * 2 + ... + 1.128 * 702 ). 25.764

Az átlagtól való átlagos eltérést ez a számítási mód lényegesen kisebbnek mutatja

(δ 〈σ ) , mint az előző, az általában használt szórás elnevezésű mutató; és ez a nagyság-

rendi reláció minden esetben (nemcsak ebben a számpéldában) igaz.100

100

Ha azonos átlagolandó értékekből valamennyi tanult számított átlagtípus értékét

x 〈x 〈x 〈x

kiszámítjuk, azok mindig a következő nagyságrendi sort alkotják: h g a q . (A bizonyítást most mellőzzük, de próbálja meg, pl.: a 4, 5, 6, 7 értékekkel!) Az átlagos különbség pedig lényegében = számtani átlag, a szórás pedig = négyzetes átlag.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



82



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



83



BEMUTATÓ FELADATOK II. 4.2. sz. tábla (a 3.1. sz. tábla alapján) az ellátás havi összege

férfiak

1.



ezer Ft

fi

Ft – 9.999

xi

relatív értékösszeg gyakoriság „helyettes”

súlyozott eltérés négyzetek101

gi

g i d i2

g i * xi

25 5

0,000154

0,769472

471.184

10.000 – 19. 999

114 15

0,000702

10,526380

1.441.458

20.000 – 29. 999

759 25

0,004672

116,805900

1.631.306

30.000 – 39. 999

9.265 35

0,057033

1.996,16500

36.546.666

40.000 – 49. 999

41.515 45

0,255557 11.500,070000

59.932.869

50.000 – 59. 999

46.720 55

0,287598 15.817,890000

8.121.364

60.000 – 69. 999

25.938 65

0,159669 10.378,460000

3.506.107

70.000 – 79. 999

14.413 75

0,088723

6.654,242000

19.135.652

80.000 – 89. 999

8.969 85

0,055211

4.692,950000

33.645.506

90.000 – 99. 999

6.098 95

0,037538

3.566,104000

45.162.665

100.000 –

8.633 105

0,053143

5.579,997000

106.117.994

1

60.313,9755

315.712.771

összesen

162.449 –

1. osztályközép k

x a = ∑ g i x i ≅ 60314 Ft

σ = 315712771 ≅ 17768 Ft

i =1

v=

σ xa

=

17768 → 29,5% 60314

♥ A korbetöltött rokkant nyugdíjas férfiak 2004. januárban átlagosan 60.314 Ft ellátásban részesültek. Ettől az összegtől egy-egy nyugdíjas ellátása átlagosan 17.768 Ft-tal, azaz 29,5 %-kal tér el. Összehasonlítva az előző (saját tőkére) vonatkozó feladat eredményeit és ezen feladat (nyugdíjak) eredményeit, jól láthatjuk, hogy a nyugdíjak szó101

Az oszlop adatai az első tizedesről kerekített egész számok.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



83



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



84



ródása lényegesen kisebb. A nyugdíjasok sokaságát a kiszámított átlag jobban jellemzi.102 Nézze meg, hogy a saját tőkék alapján csoportosított vállalkozások sokaságának ábráját és a nyugdíjasoknak az ellátás összege alapján készített ábráját! Figyelje meg a jelentős különbségeket! A külföldi érdekeltségű magyar vállalkozások megoszlása a saját tőke nagysága alapján (2003)

a vállalkozások száma (db)

25 000 20 000 15 000 10 000 5 000 0 0

200

400

600

800

1000

saját tőke (millió Ft)

4.1. sz. ábra

a nyugdíjasok száma (fő)

A korbetöltött rokkantnyugdíjas férfiak megoszlása az elltása összege alapján (2004. jan.) 50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 0

20000

40000

60000

80000

100000

az ellátás összege (Ft)

102

Eredményeinken kevésbé lepődnénk meg, ha részletesen foglalkoztunk volna a terjedelemmutatókkal. A nyugdíjak egy 100.000 egység szélességű, a saját tőkék pedig egy 750.000.0000 egység szélességű intervallumban helyezkednek el.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



84



Statisztika

Szóródás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

85



4.2. sz. ábra 4.3. Gyakorló feladatok Gyakorló feladatokat a 7. fejezet végén talál, de dolgozhat a 3. fejezet feladataival is. 4.4. Összefoglalás szóródás

Az a jelenség, hogy az átlagolandó értékek eltérnek egymástól és az átlagtól. 1. terjedelem

R = x max − x min

2. kvartilis terjedeITQ = Q3 − Q1 lem 3. átlagos eltérés = az átlagtól való átlagos δ = eltérés abszolút mutatója

∑f d ∑f i

i

(súlyozott) mutatók i az átlag és az átlagolandó értékek eltérésének kimutatáf i d i2 4. szórás σ= sára = az átlagtól való átlagos fi eltérés abszolút mutatója (súlyozott)

∑ ∑

5. relatív szórás σ = az átlagtól való átlagos v = xa eltérés relatív mutatója mutató az átlagolandó értékek egyátlagos különbség mástól való eltérésének kimutatására

megjegyzések

nem képezi a számkérendő tananyag részét

a leggyakrabban használt mutatók: szórás + relatív szórás a szórás formailag = négyzetes átlag, tehát

d min 〈σ 〈 d max

a szóródás vizsgálatának célja

1. az átlag jellemző voltának vizsgálata 2. egyéb mutatók képzése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



85



Statisztika

A gyakorisági görbék (eloszlások) alakjának vizsgálata

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

86



5. A gyakorisági görbék (eloszlások) alakjának vizsgálata 5.1. Szimmetria – aszimmetria A gyakorisági görbék alakjának vizsgálata azt a cél szolgálja, hogy megállapítsuk az egyes vizsgált sokaságok eloszlása milyen irányban és milyen mértékben tér el a normális eloszlás elméleti görbéjétől. A normális eloszlás elméleti görbéje103: Standard normális eloszlásfüggvény értékei a z-változóhoz tartozó függvényé.

0,6 0,5 0,4 0,3 0,2 0,1 0 -4

-2

0

2

4

z-változó

5.1.sz. ábra A normális eloszlás szimmetrikus eloszlás, jellemzője, hogy Mo = Me = x a . Ha a korábbi definíciókat végiggondoljuk – módusz a gyakorisági görbe csúcspontjához tartozó érték, a medián a középső érték, a számtani átlag nagyságát a súlyok relatív nagysága befolyásolja – a három középérték egyenlősége már természetesnek tűnik. A szimmetria következtében a z = 0 ponttól balra és jobbra elhelyezkedő elemek száma egyenlő, ill. a z = 0 ponttól balra és jobbra azonos „lépést megtéve”, mindig azonos nagyságú súlyt (= előfordulást vagy relatív gyakoriságot = előfordulási valószínűséget = előfordulási esélyt) találunk. 103

z=

xi − x a

σ

(Részletesebben a Becslés fejezetben)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



86



Statisztika

A gyakorisági görbék (eloszlások) alakjának vizsgálata

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



87



Az aszimmetria mérése, tehát, ezeket az értékeket felhasználva történhet. Mutatói:

A=

x a − Mo

σ

P=

3( x a − Me )

σ

A képletekben szereplő betűk jelentése:

A=

P=

Pearson-féle aszimmetria mutató (1.)

Pearson-féle aszimmetria mutató (2.)

számtani átlag

σ=

Mo =

Me =

szórás

módusz

medián

xa=

A mutatók előjele az aszimmetria irányát jelzi. A pozitív előjel baloldali (= a gyakorisági görbe jobbra hosszan elhúzódik, az átlag a görbe csúcspontjától jobbra található; lásd: 4.1. sz. ábra), a negatív előjel jobboldali (= a gyakorisági görbe balra hosszan elhúzódik, az átlag a görbe csúcspontjától jobbra található) aszimmetriát jelez. Az A jelű mutató abszolút értékének elméleti felső határa nincs, de a gazdasági statisztika gyakorlatában előforduló, többé-kevésbé szabályos aszimmetrikus gyakorisági sorokra vonatkozólag igaz: A〈1 és a mutató 0,5-nél nagyobb abszolút értéket felvéve már erős aszimmetriát jelez. A P jelű mutató is – a látszat ellenére (a képletben a medián szerepel), – a módusz és a számtani átlag eltérésén alapszik. Mérsékelten aszimmetrikus sokaságokra ugyanis igaz, hogy a medián az átlag és a módusz, átlaghoz közelebbi harmadoló pontján helyezkedik el, azaz x a − Mo = 3(x a − Me ) . A mutató abszolút értékének elméleti felső határ három, de mérsékelten aszimmetrikus sokaságok esetén nem szokott egynél nagyobb értéket felvenni. Ha számításainkat osztályközös gyakorisági sorból végezzük, akkor a gyakorlatban célszerűbb ezt a mutatót alkalmazni, mert a medián értékét pontosabban tudjuk meghatározni (= becsülni). Mind az A , mind a P , jelű mutató nevezőjében szerepel a szórás, azaz nem egyszerűen a középértékeknek az aszimmetriára utaló eltérését vesszük figyelembe. A szórással való osztásra azért van szükségünk, hogy a vizsgált jelenség mérésére egy az adatok nagyságrendjétől és mértékegységétől független mutatószám álljon rendelkezésünkre. Következtetéseket levonni, és összehasonlításokat végezni csak így áll módunkban.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



87



Statisztika

A gyakorisági görbék (eloszlások) alakjának vizsgálata

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



88



Ismertek és használatosak még további mutatók is, pl.: F0 , 25 (a kvartilisek és a medián eltérésére alapozva) ill. F0 ,1 (decilisek és a medián eltérésére alapozva). A számí-

tógépes programok pedig egy α -jelű mutatóval dolgoznak (a momentumokra alapozva), de ennek nincs elméleti felső határa, így értékéből igen nehéz bármilyen következtetés levonni. (Ezek a mutatók nem képezik tananyagunk részét.)

Az szimmetria – aszimmetria kapcsán leírtak összefoglalása104:

5.2. sz. ábra BEMUTATÓ FELADATOK I. 5.1. sz. tábla (az 1.5. és a 4.1. sz. táblák alapján) Külföldi érdekeltségű vállalkozások saját tőke szerint, Magyarországon 2003-ban saját tőke 150,1 – 200,1 – 250,1 – 500,1 – – 150 750,1 – összesen 200 250 500 750 (millió Ft) szervezetek 22.958

( fi ) ( f i′)

22.958

362

283

718

315

1.128

25.764

23.320

23.603

24.321

24.636

25.764



Korábbi számításainkból ismert, hogy x a = 173 millió Ft, és σ = 165 millió Ft. 104

Korpás Attiláné: Statisztika I. (Nemzeti Tankönyvkiadó, Budapest – 1996)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



88



Statisztika

A gyakorisági görbék (eloszlások) alakjának vizsgálata

A dokumentum használata | Tartalomjegyzék | Táblázatok

A medián sorszáma105 = 12882,5; 12.882,5 − 0 (150 − 0) ≅ 84,2 millió Ft. 0+ 22.958

Vissza

értéke



89

pedig

► =

3(173 − 84,2 ) ≅ 1,61 , vagyis igen nagy mértékű. 165 Ha a sokaság ábrájára tekintünk (4.1. sz ábra), ezen nem is csodálkozhatunk.106 Így az aszimmetria: P =

BEMUTATÓ FELADATOK II. A korbetöltött rokkantnyugdíjas férfiak sokaságára vonatkozóan már meghatároztuk a számtani átlag: 60.314 Ft107, a módusz: 52.000 Ft108 és a medián értékét: 56.00 Ft109, valamint a szórás nagyságát: 11.768 Ft110. Ez a statisztikai sor azonos szélességű osztályközökbe rendezve tartalmazta az adatokat, így mindkét tanult aszimmetria mutató értékét meghatározhatjuk:

A=

60.314 − 52.000 3(60.314 − 56.300) ≅ 0,47 és P = ≅ 0,68 17.768 17.768

♥ A vizsgált sokaságra a meglehetősen erős aszimmetria jellemző. (Ezt jelzi az is, hogy a korábbiakban ismertetett, és a mérsékelten aszimmetrikus sokaságokra igaz, összefüggés most nem teljesül, 60314 − 52000 ≠ 3(60314 − 56300) → 8314 ≠ 3 * 4014 )

105

Lásd: 3.7. sz. fejezet A másik tanult mutató meghatározására most nem kerülhetett sor, mert nem egyenlő hosszúságú osztályközök esetére nem ismertük meg a módusz számítását. 107 Lásd: 3.2. fejezet 108 Lásd: 3.6. fejezet 109 Lásd: 3.7. fejezet 110 Lásd: 4.2. fejezet 106

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



89



Statisztika

A gyakorisági görbék (eloszlások) alakjának vizsgálata

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



90



5.2. Csúcsosság – lapultság A tapasztalati gyakorisági görbék nemcsak jobbra vagy balra elhúzódva térhetnek el a normális eloszlás elméleti görbéjétől, hanem abban is, hogy annál hegyesebbek vagy lapultabbak. A csúcsosság (lapultság) mérésére leggyakrabban a szélső kvartilisek ill. a szélső decilisekre alapozó „K”-jelű mutatót (ennek értéke normális eloszlás esetén: 0,263) használják, ill. a számítógépes programok itt is egy α -jelű111 mutatóval operálnak. Ha egy adott sokaságra kiszámítottuk „K” értékét és az az etalon-értéknél nagyobb, akkor a sokaság görbéje lapultabb a normális eloszlás görbéjénél, (és fordítva).

K=

Q3 − Q1 126 − 42 = ≅ 0,255 2(D9 − D1 ) 2(182 − 17 )

♥ A külföldi érdekeltségű magyar vállalkozások (2003) saját tőkéjük nagysága alapján felírt tapasztalati eloszlás görbéje (= gyakorisági görbéje) valamivel hegyesebb, mint a normális eloszlás elméleti görbéje.

A mutatóban szereplő kvartilisek és decilisek értékét, – tekintettel arra, hogy ezek számítására csak utalást tettünk (a medián képletének értelemszerű alkalmazásával határozható meg nagyságuk) – megadtuk. Jelentésük: ♥ Q3 = A vizsgált vállalkozások háromnegyed részének ≅126 millió Ft-nál kisebb, egynegyed részének pedig ennél nagyobb a saját tőkéje. ♥ Q1 =A vizsgált vállalkozások egynegyed részének ≅42 millió Ft-nál kisebb, háromnegyed részének pedig ennél nagyobb a saját tőkéje. ♥ D9 =A vizsgált vállalkozások kilenctized részének ≅182 millió Ft-nál kisebb, egytized részének pedig ennél nagyobb a saját tőkéje. ♥ D1 = A vizsgált vállalkozások egytized részének ≅17 millió Ft-nál kisebb, kilenctized részének pedig ennél nagyobb a saját tőkéje. (Mindegyik adat kiszámítása a sorszám meghatározásával kezdődött, az előbbi sorrendben:

n +1 n +1 n +1 n +1 *3 , , *9 , . Majd megkerestük a kvartilisek ill. decilisek helyét 4 10 4 10

a kumulált gyakorisági sorban. Végül alkalmaztuk a már többször hivatkozott képletet.)

5.3. Gyakorló feladatok Gyakorló feladatokat a 7. fejezet végén talál, de dolgozhat a 3. fejezet gyakorló feladatival is.

111

Gond, hogy ennek sincsenek elméleti határai.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



90



Statisztika

A gyakorisági görbék (eloszlások) alakjának vizsgálata

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



91



5.4. Összefoglalás szimmetria

a sokaság olyan eloszlása, amikor x a = Mo = Me

aszimmetria

a sokaság olyan eloszlása, amikor x a ≠ Mo ≠ Me

fajtái

A= mérőszámai (= mutatói)

Mo〈 Me〈 x a

1. baloldali 2. jobboldali

P=

Mo〉 Me〉 x a

x a Mo

baloldali aszimmetria esetén előjelük: „+”

σ

3 * ( x a − Me )

σ

(Q − Me ) − (Me − Q1 ) F= 3 (Q3 − Me ) + (Me − Q1 ) 0〈 P 〈 3

jobboldali aszimmetria esetén előjelük: „–”

a mutatók etalon-értékei

0〈 A 〈 0,5

0〈 F 〈 0,2

csúcsosság (lapultság)

= a vizsgált sokaság eloszlás görbéjének eltérése a normális eloszlás görbéjétől a függőleges tengely mentén

mérőszáma

K=

a mérőszáma etalonértéke

0,263

Q3 − Q1 = 2(D9 − D1 )

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



91



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

A koncentráció Vissza



92



6. A koncentráció 6.1. Fogalma, fajtái, kimutatása, mérése A koncentráció szó általában összevonást, összpontosítást, tömörítést jelent. Közgazdaságtanból ismert fogalom például a tőke-koncentrációja, az eredetileg felaprózott kis tőkék (kisvállalatok) nagy tőkévé (nagyvállalatokká) egyesülése; földrajzi, történelmi tanulmányainkból pedig tudjuk, hogy egyes országok lakossága – egészen régi időktől fogva (koronként és országonként ugyan eltérő intenzitással, de) napjainkra egyre inkább a nagyobb települések köré csoportosul, ahol az emberek védelemre, munkára, szolgáltatásokra és az élet legkülönbözőbb területein több lehetőségre számíthatnak. Koncentrációról a statisztika akkor beszél, ha a sokasághoz tartozó teljes ⎛ n ⎞ értékösszeg ⎜ ∑ si ⎟ jelentős része (vagy egésze) a sokaság kevés egységére ⎝ i =1 ⎠ összpontosul. Ha egy vizsgált sokaság nagyon kicsi (= igen kevés elemből áll), akkor beszélünk abszolút koncentrációról. (pl. a magyar autógyártás); ha viszont a sokaság nagy (= sok, igen sok eleme van), akkor a definícióban szereplő kevés kifejezés csak relatív módon (a teljes sokaság nagyságához viszonyítva) értelmezhető. Ha a sokaság egységei között az értékösszeg egyenletesen oszlik meg, akkor a koncentráció teljes hiányáról szokás beszélni. A lehető legnagyobb fokú koncentráció pedig az, amikor a teljes értéköszszeg egyetlen egységre jut. A koncentráció fokát különböző mutatószámokkal jellemezhetjük. Ezek egyik része inkább az abszolút, másik része inkább a relatív koncentráció számszerű kimutatására alkalmas. Léteznek azonban olyan mutatók is, melyek mindkét típus esetében jól használhatóak. A szakirodalomban fellelhető sok mutató közül most csak néhányat emelünk ki. Az abszolút koncentrációt legegyszerűbben az elemek (egységek) számával ( = n ) vagy átlagos nagyságával (= x a ) jellemezhetjük. Minél kisebb, pl. egy iparágban a termelőegységek száma és nagyobb az azokban foglalkoztatott létszám átlagos nagysága, annál nagyobb az abszolút koncentráció.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



92



Statisztika

A koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



93



A relatív koncentráció mértékét legszemléletesebben az un. Lorenzgörbe mutatja be. A Lorenz-görbe a kumulált relatív gyakoriságok (g i′ ) függvényében ábrázolja a kumulált relatív értékösszegeket (zi′ ) . A függvényt egy négyzetben, melynek átlója (a zérus ponttól fut az k

k

∑g = ∑z i

i =1

i =1

i

= 1 pontig) alatt szokás elhelyezni. Az átló (g i′ = zi′ ) fejezi ki

a koncentráció teljes hiányát. Ha a görbe az átlóhoz közel helyezkedik el, akkor a koncentráció alacsony (minél közelebb, annál alacsonyabb); ha a görbe az átlótól távol helyezkedik el, akkor a koncentráció magas (minél távolabb, annál magasabb.) A Lorenz-görbe megszerkesztése előtt célszerű meggyőződni arról, hogy az éppen vizsgált sokaságban jelen van-e egyáltalán a koncentráció. Erre a relatív gyakoriságok (g i ) és a relatív értékösszegek (zi ) összevetése alapján következtethetünk. Ha az alacsony értékű ismérvértékek esetén g i 〉 zi , a magas értékűeknél pedig megfordul a nagyságrendi reláció, akkor a koncentráció egész biztosan jelen van, elemezhető. A Lorenz-görbe nevezetes pontja az átlagpont. Ennek abszcisszája112 az átlagnál kisebb egységek sokaságon belüli arányát, ordinátája113 pedig az ezekhez tartozó értékösszeg arányát mutatja. Az átlagpont koordinátáit megállapíthatjuk, ha meghúzzuk a Lorenz-görbe átlóval párhuzamos érintőjét, és az érintési ponthoz tartozó értékeket leolvassuk mind a két tengelyről. A gyakorlatban ezt a pontot csak akkor tanácsos meghatározni, ha a görbét meglehetősen sok pontja alapján (= folytonosnak tekinthető) szerkesztettük meg. A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha ezt a területet az átló alatti egész területhez viszonyítjuk, akkor kapjuk meg az un. koncentrációs együtthatót. Ennek értéke egyszerűbben (a területek tényleges ismerete nélkül) is meghatározható114.

L=

G 2 xa

112

Abszcissza = a pont távolsága zérustól a vízszintes tengelyen mérve. Ordináta = a pont távolsága zérustól a függőleges tengelyen mérve. 114 A matematikai bizonyítást mellőzzük. 113

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



93



Statisztika

A koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



94



A képletben szereplő betűk jelentése:

L= koncentrációs együttható

xa= számtani átlag

G= átlagos különbség115

A koncentráció leggyakrabban használt általános mutatói (= mind az abszolút, mind a relatív koncentráció mértékét kifejezik) CR-arányszám és a HI-index (Herfindahl-index). A CR-arányszám megmutatja, hogy a sokaság néhány legnagyobb egysége, hogyan részesedik a teljes értékösszegből. Rendszerint a 3 – 20 legnagyobb egységet szokás használni a koncentráció jellemzésére. Különösen kedveltek a négy legnagyobb egységnek a teljes értékösszegből való részesedését mutató arányszámok. Ha például egy ország autógyártásának 70 %-a a négy legnagyobb gyár adja, akkor az ország autóipara erősen koncentrált. A HI-index

1 és 1 határok között mozogva méri a koncentráció nagysán

gát. A koncentráció hiánya esetén minden egység egyformán részesedik a teljes értékösszegből, ezt jelzi:

1 . Ez az index, pl. öt gyár (HI = 0,2) létezése n

esetén egy iparág koncentrációját feltétlenül nagyobbnak jelzi, mint nyolc gyár (HI = 0,125) működése esetén. A HI-index nagysága azonban nemcsak a sokaság egységeinek számától függ, hanem a megfigyelt értékek szóródásától is. Az eddigieket figyelembe véve számítása a következő képletekkel történik. k

HI = ∑ zi2 vagy

HI =

i =1

v2 +1 n

A képletekben szereplő betűk jelentése:

HI = Herfindahl-index = a koncentráció általános mutatója

zi =

si

=

k

∑s

i

i =1

v=

σ xa

=

relatív szórás relatív értékösszeg116 n = az eltérő ismérvértékek (bemutató példáinkban az osztályközök) száma

115

Értékét – ha a példamegoldásokhoz szükséges – megadjuk. Tulajdonképpen zi is egy relatív gyakorisági mutató. Az új jelölést azért alkalmazzuk, hogy jól elkülöníthető legyenek a Lorenz-görbe abszcisszái és ordinátái. 116

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



94



Statisztika

A koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

95



BEMUTATÓ FELADATOK I. A külföldi érdekeltségű magyar vállalkozások saját tőke szerinti koncentrációját vizsgáljuk. 6.1. sz. tábla (4.3. sz. tábla alapján)

xi

gi

g i′

zi

zi′

zi2

125 175

0,891088 0,014051

0,891088 0,905139

0,644902 0,014236

0,644902 0,659138

0,415899 0,000203

225

0,010984

0,916123

0,014309

0,673448

0,000205

375

0,027868

0,943992

0,060507

0,733955

0,003661

625

0,012226

0,956218

0,044243

0,778197

0,001957

875

0,043782

1

0,221803

1

0,049196

összesen

1



1



0,471121

♥ A vizsgált 25.764 vállalkozás 1,5 %-a rendelkezik átlagosan 175 millió Ft értékű saját tőkével. ♥ A vizsgált 25.764 vállalkozás 91,6 %-nak legfeljebb 250117 milliót Ft értékű a saját tőke állománya. ♥ A vizsgált 25.764 vállalkozás összes saját tőkéjének (≅ 4.449,9 milliárd Ft) 6 %-ával azok a vállalatok rendelkeznek, melyek saját tőkéje 250 és 500 millió Ft között van. ♥ A vizsgált 25.764 vállalkozás összes saját tőkéjének (≅ 4.449,9 milliárd Ft) 77,8 %-a olyan vállalkozások kezében van, melyeknek saját tőke állomány legfeljebb 750 millió Ft.

117

Lásd: 4.1. sz. tábla

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



95



Statisztika

A koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

96



A külföldi érdekeltségű magyar vállalkozások saját tőke szerinti koncentrációja

kumulált relatív értékösszeg

1 0,8 0,6 0,4 0,2 0 0

0,2

0,4

0,6

0,8

1

kumulált relatív gyakoriság

6.1. ábra A Lorenz-görbét az 6.1. sz. tábla vastagon bekeretezett oszlopainak adatai alapján szerkesztettük meg. A 0 pontból induló egyenes a négyzet átlója, a koncentráció hiányát jelzi. Az ugyanonnan induló görbe alapján alacsony mértékű koncentrációról beszélhetünk. Ennek az az oka, hogy bár az értékösszeg több mint fele egyetlen osztályközben (az elsőben) található, de igen nagymértékű (a széles terjedelem miatt) a sokaság szórása. A koncentráció számszerű mértéke: k

HI = ∑ zi2 = 0,471121 vagy i =1

HI =

v 2 + 1 0,956 2 + 1 = = 0,319 n 6

118

Mindkét számérték a mutató elméleti alsó határához ⎛⎜ 1 ≅ 0,17 ⎞⎟ van köze⎝6



lebb, tehát a Lorenz-görbéhez hasonlóan alacsony koncentrációt jeleznek.119 118 A mutató számításához szükséges adatokat a 4.1. táblához tartozó számításokból vettük.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



96



Statisztika

A koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



97





97



BEMUTATÓ FELADATOK – II. A korbetöltött rokkantnyugdíjas férfiak koncentrációja havi ellátásuk alapján

kumulált relatív értékösszeg

1

0,8

0,6

0,4

0,2

0 0

0,2

0,4

0,6

0,8

1

kumulált relatív gyakoriság

6.2. ábra

119

Számértékűk eltérésnek oka, hogy kevés osztályközzel dolgoztunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

Statisztika

A koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

98



6.2. sz. tábla (a 4.2. sz. tábla alapján)

xi

gi

g i′

zi

z i′

5.000

0,00015

0,00015

1,3E-05

1,3E-05

15.000

0,0007

0,00086

0,00017

0,00019

25.000

0,00467

0,00553

0,00194

0,00212

35.000

0,05703

0,06256

0,0331

0,03522

3,75054E06 0,00109536

45.000

0,25556

0,31812

0,19067

0,22589

0,036355081

55.000

0,28760

0,60572

0,26226

0,48815

0,068779823

65.000

0,15967

0,76538

0,17207

0,66022

0,029609406

75.000

0,08872

0,85411

0,11033

0,77055

0,012171982

85.000

0,05521

0,90932

0,07781

0,84836

0,006054188

95.000

0,03754

0,94686

0,05913

0,90748

0,003495844

1

0,09252

1

0,008559179



1



0,166124644

105.000 0,05314 1

zi2 1,62761E10 3,04595E08

A Lorenz-görbét most is a vastagon bekeretezett oszlopok adatai alapján szerkesztettük meg. Az átló és a görbe elhelyezkedéséből a koncentráció igen csekély voltára, gyakorlatilag hiányára következtethetünk. Ugyanezt jelzi a Herfindahl-index is ≅ 0,17 6.2. Gyakorló feladatok Gyakorló feladatokat a 7. fejezet végén talál, de dolgozhat a 3. fejezet gyakorló feladatainak adataival is.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



98



Statisztika

A koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



99



6.3. Összefoglalás koncentráció általánosságban:

= összevonás, összpontosítás, tömörítés

statisztikában

= ha a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul, azaz

fajtái kimutatás Lorenz-görbe

ha xi

akkor

kis értékű

g i 〉 zi

nagy értékű

g i 〈 zi

1. 2. 1. 2.

abszolút relatív Lorenz-görbe koncentrációs együtthatók

= egy egységnyi oldalú négyzetben elhelyezett vonaldiagram

vízszintes tengelyen:

kumulált relatív gyakoriság (g ′)i

függőleges tengelyen

kumulált relatív értékösszeg (zi′ )

ha nagy a koncentráció

a görbe messze van az átlótól

ha kicsi a koncentráció

a görbe közel van az átlóhoz = a koncentrációs terület és a az átló alatti terület hányadosa

koncentrációs együtthatók

=K =

G 2 xa k

HI = ∑ zi2 ≅ HI = i =1

az együtthatók határértékei

0〈 K 〈1 1 〈 HI 〈1 n

v2 +1 n

alsó = nincs koncentráció felső = erős (teljes) a koncentráció

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



99



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



100



7. Az ismérvek közötti kapcsolat A sokaságok egyszerre több ismérv szerinti vizsgálata Két egyetemi évfolyam hallgatóinak (90 – 90 kiválasztott személynek) tettük fel a kérdést, sportol-e rendszeresen, avagy sem. A kapott válaszokat a hallgatók nemét is figyelembe véve kombinációs táblákba rendeztük. 7.1.1. sz. tábla I. évfolyam nem→ férfiak nők sportol?↓

összesen

igen nem

15 15

30 30

45 45

27 3

18 42

45 45

összesen

30

60

90

30

60

90



II. évfolyam férfiak

nők



összesen

7.1.2. sz. tábla I. évfolyam nem→ férfiak nők sportol?↓

összesen

igen

50

50

50

90

30

50

nem

50

50

50

10

70

50

100

100

100

100

100

%

összesen 100

II. évfolyam férfiak

nők

%

összesen

7.1.3. sz. tábla I. évfolyam nem→ férfiak nők sportol?↓

összesen

igen

50

50

100

60

40

100

nem

50

50

100

6,7

93,3

100

66,7

100

33,3

66,7

100

%

összesen 33,3

II. évfolyam férfiak

nők

%

összesen

Hasonlítsuk össze a két évfolyamra vonatkozó adatokat!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



100



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az ismérvek közötti kapcsolat Vissza



101



Az I. évfolyamon mind a férfiaknak, mind a nőknek ugyanakkora hányada sportol ill. nem sportol. A II. évfolyam esetében viszont ezek az arányok nem azonosak. A férfiakra jellemező, hogy sportolnak, 90 százalékuk válaszolt igennel; míg a nőkre inkább az a jellemező, hogy nem sportolnak, 70 százalékuk válaszolt nemmel. A II. évfolyam adatai alapján elmondható, hogy a „férfi” ismérvváltozat vonzza a „sportol, a „nő” ismérvváltozat pedig a „nem sportol” ismérvváltozatot. Ezeket az adatokat ismerve a II. évfolyamon a 91. hallgató nemét ismerve (férfi) nyugodtan gondolhatunk (asszociálhatunk) arra, hogy az illető sportol, és gondolatunk 90 %-os biztonsággal igaznak tűnik. Megfigyelhetjük továbbá, hogy az I. évfolyamra vonatkozó, az eredeti megfigyelt adatokat tartalmazó 7.1.1. sz. tábla egyik ill. másik oszlopának belső rovataiban (kettős vonallal kerítettük) azonos számok szerepelnek; a megoszlási viszonyszámokat tartalmazó 7.1.2.sz. (100 % = a férfiak ill. a nők száma), valamint a 7.1.3.sz. (100 % = a sportolók ill. a nem sportolók száma) táblákban pedig csupa azonos adatot láthatunk. Ezzel szemben a II. évfolyamra vonatkozó táblák adatai nem egyformák, viszont mindhárom táblában a bal felső sarokból a jobb alsó sarokba tartó átlón (szürke háttérrel kiemeltük) helyezkednek el a nagyobb számok, az ezekhez tartozó ismérvváltozat-párokról írtuk az előbbiekben azt, hogy vonzzák egymást. Általánosítsuk tapasztalatainkat! A sokaságok elemei (mindig) több különféle tulajdonsággal rendelkeznek, azaz a legkülönbözőbb ismérvek szerint rendezhetők, elemezhetőek. Ha a sokaságok elemeit tulajdonságaik alapján csoportosítjuk, azaz az ismérvváltozatok szerint rendezzük, akkor a különféle szempontok alapján megmutatkozó szerkezetük mutathat hasonlóságot, azonosságot, de lehet teljesen eltérő is. Ragadjunk ki az elméletileg lehetséges szempontok szerint most csak kettőt, melyekről azt gondoljuk, van köztük valamilyen kapcsolat! Tekintsük az egyik szempontot befolyásoló tényezőnek, a másikat befolyásolt tényezőnek, és végezzük el a sokaság csoportosítását egyszerre a két szempont szerint! Az adatok így egy kombinációs táblába rendezhetőek. Ennek általános sémája:

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



101



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

102



7.2. sz. tábla az egyik ismérv változatai → a másik ismérv változatai↓

y1

y2

x1

f 11

f 12

x2

f 21

……

yj

yt

…..

f1 j

összesen

f 1. f 2.

….

xi

f i1

f ij

f i.

f. j

n

….

xs

f is

összesen

f .1

f .2

A kombinációs tábla sémájában szereplő betűk jelentése:

xi =

yj =

az egyik ismérv változatai

a másik ismérv változatai

f. j =

f i. =

f ij = megfigyelt gyakoriságok

i = 1....s =

a megfigyelt gyakoriságok az egyik ismérv vála megfigyelt gyakoriságok oszlop szerinti összesen adata sor szerinti összesen adata tozatainak száma

j = 1....t =

f . j és f i . =

a másik ismérv változatainak száma

peremgyakoriságok s

t

i =1

j =1

s

t

n = ∑ f i . = ∑ f . j = ∑∑ f ij = i =1 j =1

a megfigyelt sokaság elemeinek száma

s〈t a Csuprov és a Cramer mutatónál

Ha a megfigyelt előfordulások mindegyike a tábla főátlójában helyezkedik el (árnyékolással jeleztük), akkor azt mondhatjuk, hogy az egyik ismérvhez való tartozás egyértelműen meghatározza a másik ismérvhez való tartozást. (Nagyon fontos szem előtt tartani, hogy az egyértelműen kifejezéssel nagyon óvatosan kell bánnunk. Statisztikai vizsgálataink ugyanis szinte mindig a sztochasztikus = közelítő jellegű kapcsolatokra terjednek ki, melyek erősségét befolyásolja a megfigyelés helye, ideje, köre stb. ill. az a

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



102



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



103



tény, hogy az esetek többségében nem a teljes, hanem csak mintasokaságokkal dolgozunk.) Ha az előfordulási adatok a főátló körül tömörülnek, és attól távolodva egyre kisebbek, akkor az egyik ismérvhez való tartozás erősen befolyásolja a másik ismérvhez való tartozást. Ha pedig az előfordulási adatok a tábla majdnem minden rovatában azonos (megközelítően azonos) nagyságúak, akkor az egyik ismérvhez való tartozás nem befolyásolja a másik ismérvhez való tartozást. Az előfordulási adatok táblában való elhelyezkedése jelzi ugyan, hogy létezik-e az ismérvek között kapcsolat, sőt utal annak erősségére, de nem egzakt mutatója annak. A mutatószámok kapcsolattípusonként különbözőek. A következőkben ismérvek közötti kapcsolatok három típusát tárgyaljuk. 1. Asszociáció = a megfigyelt adatok csoportosításához két minőségi, két területi vagy egy minőségi és egy területi ismérvet használunk. 2. Vegyes kapcsolat = a megfigyelt adatok csoportosításához egy minőségi (= befolyásoló tényező) és egy mennyiségi (= befolyásolt tényező) ismérvet használunk. 3. Korreláció = a megfigyelt adatok csoportosításához kettő vagy több mennyiségi ismérvet használunk. Ebben az esetben a befolyásolt és a befolyásoló tényező szerepe – két ismérv esetén – általában felcserélhető. Több ismérv esetén pedig a befolyásoló tényezők száma nő. 7.1. Asszociáció Tekintettel arra, hogy ebben az esetben az ismérvváltozatok nem számokkal fejezhetők ki, a kapcsolat szorosságát kifejező mutatók a megfigyelt ( f ij ) és

( )

a függetlenséget kifejező f ij* előfordulásokra alapoznak. A független események egyszerre történő bekövetkezésének valószínűségéről tanultak120 felhasználásával tudjuk meghatározni az elméleti előfordulásokat, amelyek megmutatják, hogy xi , y j ismérvváltozat-pároshoz a sokaság hány eleme tartozna, ha az ismérvek között nem lenne kapcsolat. Összehasonlítva a kétféle előfordulást tudunk következtetni a kapcsolat szorosságára. Ha ( f ij )

( )

és f ij* adatok rendre azonosak, akkor az ismérvek között nincs kapcsolat (= függetlenek egymástól), ha pedig eltérésük igen nagy, akkor a kapcsolat erős. Annak érdekében, hogy ezt az „igen nagy” kifejezést ne szubjektív módon értelmezzük, meg kell határozni azt az elméleti értéket, amihez a 120

Két független esemény egyszerre történő bekövetkezésének valószínűsége egyenlő a két esemény bekövetkezési valószínűségének szorzatával.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



103



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



104



különbségeket hasonlítani lehet. Így egy mértékegység nélküli mutatószámhoz jutunk, ami a különböző időpontokban, helyeken, és a különböző sokaságokra vonatkozó számításaink összehasonlítását is lehetővé teszi. Az asszociáció leggyakrabban használt mutatói:

χ2

Csuprov-féle mutató: T =

Cramer-féle mutató: C =

n

(s − 1)(t − 1)

χ2

n (s − 1)

Ha az ismérvváltozatok száma mindkét ismérvre vonatkozóan kettő121, akkor a mutató egyszerűsíthető:

Yule-féle mutató: a =

f 22 f11 − f12 f 21 g 22 g11 − g12 g 21 ≅ f 22 f11 + f12 f 21 g 22 g11 + g12 g 21

Az asszociációra vonatkozó képletekben szereplő betűk jelentése: T = a Csuprov-féle asz- C = a Cramer-féle asszo- a = a Yule-féle asszociászociációs együttható ciós együttható ciációs együttható s = az egyik ismérv válto- t = a másik ismérv válto- n = a sokaság elemeinek zatainak száma (s 〈 t ) zatainak száma (s 〈 t ) száma122 s

t

χ 2 = ∑∑ i =1 j =1

(f

− f ij* )

2

ij

f ij*

f i . = sor szerinti peremgyakoriságok

f ij = a megfigyel gyakoriságok

f . j = oszlop szerinti peremgyakoriságok

f ij* =

f i. f . j n

= a függet-

lenséget kifejező számított előfordulások123

g ij = a megfigyelt előfordulásokból számított relatív gyakoriságok

121

A csupán két ismérvváltozatú ismérveket nevezik alternatív ismérveknek. Lásd a kombinációs tábla általános sémájánál található betűjel-magyarázatot. 123 Az egyik ismérv szerinti előfordulás valószínűsége = f i. , a másik ismérv szerinti 122

n f . j előfordulás valószínűsége = . Szorzatuk adja az egyszerre történő bekövetkezés valón

színűségét, ezt kell az elemszámmal szorozni, hogy a megfigyelttel azonos mértékegységű adathoz jussunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



104



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



105



A mutatók jelentésének megfogalmazásához ismernünk kell azok határértékeit, és a határértékek jelentését. mutató

határok

Csuprov-féle asszociációs együttható

0〈T 〈1 , ha s = t

0〈T 〈 4

(s − 1) , ha (t − 1)

s〈t

Cramer-féle asszociációs 0〈C 〈1 együttható Yule-féle asszociációs együttható jelentések mindhárom esetben

0〈a 〈1

(megoszlási viszonyszám jellegű mutató)124

0 = (alsó határ) =

1 = (felső határ) = szoros

nincs kapcsolat

a kapcsolat

BEMUTATÓ FELADAT A Magyar statisztikai évkönyv125 adatait felhasználva 1992 és 2003 évekre vonatkozóan a foglalkoztatottakat egyszerre két ismérv (ágazat = minőségi ismérv ill. nem = minőségi ismérv) szerint csoportosítottuk. Egyrészt kíváncsiak voltunk arra, hogy van-e kapcsolat az ágazatok és a foglalkoztatottak neme között. (Van-e olyan ágazat, amelyik „vonzza” férfiakat, ill. van-e olyan, amelyik „vonzza” a nőket?) Másrészt kíváncsiak voltunk rajta, hogy megváltozott-e a mutató értéke az eltelt évtized alatt? A 7.3. sz. tábla első része (I.) az 1992-re, a 7.4. sz. tábla első része (I.) pedig a 2003ra vonatkozó megfigyelt adatokat tartalmazza. Ezekből megtudjuk pl., hogy 1992ben a mezőgazdaságban 316.700 (= f 1;1 ) (68,8 %) férfi és 143.400 ( f 1;2 ) (31,2 %) nő dolgozott. Az adott ágazatban foglalkoztatottak létszáma 2003-ra jelentősen (53,2 %) csökkent, és megváltozott a férfiak nők aránya is. 2003-ban a mezőgazdaság 166.600 (= f 1;1 ) (77, 4 %) férfi és mindössze 48.600 ( f 1;2 ) (22,6 %) nő számára biztosított munkahelyet. Vannak azonban olyan ágazatok is (építőipar, kereskedelem stb.), ahol éppen ellenkező előjelű változások történtek, azaz nőtt a dolgozók létszáma. Ha a nemzetgazdaság egészére vonatkozó adatokat vesszük szemügyre (öszszesen sor), akkor szintén csökkenést figyelhetünk meg. 2003-ban 1,6 %-kal keve124

Figyelje meg a mutató számlálója és nevezője ugyanazokat a szorzatokat tartalmazza, csak a szorzatok közötti előjel különböző! 125 Magyar Statisztikai évkönyv 2003 (KSH, 2004) http://portal.ksh.hu/pls/ksh/docs/hun/xftp/idoszaki/merofelm/merofelm

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



105



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



106



sebb férfi és 3,7 %-kal kevesebb női munkavállalóról tudott a statisztika. A létszámváltozások mellett egy csekély mértékű arányváltozást is megfigyelhetünk. A férfiak aránya 53,7 %-ról 54,2 %-ra (0,9 %-kal, azaz 0,5 százalékponttal) nőtt, a nőké pedig 46,3 %-ról 45,8 %-ra (-1,1 %, azaz -,5 százalékponttal) csökkent.126 A 7.3. sz. és a 7.4. sz. táblák második része (II.) a függetlenséget feltételező adatokat tartalmazza. Az építőipar sorában, a férfiak oszlopában található szám (116.400 = f 5*; 2 ) azt jelenti, hogyha semmiféle kapcsolat nem lenne a foglalkoztatottak ágazat és a nem szerinti megoszlása között, akkor ebben a rovatban nem a megfigyelt 184.300 főnek, hanem ennél kevesebbnek (116.400 fő = f 5; 2 ) kellene szerepelnie. A táblák harmadik része (III.) a megfigyelt és a függetlenséget kifejező adatok összehasonlítását, a mutatók (Csuprov, Cramer) számlálójában szereplő χ 2 részszámításait tartalmazza. Így a Csuprov-féle mutató értéke 1992-ben ill. 2003-ban:

T=

452,3966 563,328 ≅ 0,1766 T = ≅ 0,1996 4025,8 (2 − 1)(14 − 1) 3922 (2 − 1)(14 − 1)

A Cramer-féle mutató értéke pedig 1992-ben ill. 2003-ban:

C=

452,3966 ≅ 0,3352 4025,8 * (2 − 1)

C=

563,328 ≅ 0,379 3922 * (2 − 1)

A mutatók alsó (= 0) ill. felső (Cramer: 1, Csuprov: 0,5266) határait figyelembe véve levonhatjuk a következtetést, hogy ♥ a foglalkoztatottak gazdasági ágazat és nem szerinti megoszlása között van kapcsolat, s ez a kapcsolat az eltelt évtized alatt erősebbé vált. (A mutatók értéke nőtt.) Befejezésül fontos megjegyeznünk, hogy

• A Cramer-féle mutató számértéke, ha s〈 t , akkor mindig nagyobb. (Csak a kisebbik ismérvváltozat darabszám szerepel a nevezőben.) • A tananyag második felében – hipotézisellenőrzés – megismerünk majd egy módszert annak kimutatására, hogy a mutatók által jelzett kapcsolat jelentős (= szignifikáns) mértékű-e avagy sem. 126

A 6.3. és a 6.4. sz. táblák adatainak elemzése során dinamikus és megoszlási viszonyszámokat számítottunk. (Lásd: 2.1., 2.3. fejezetek.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



106



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



107



7.3. sz. tábla 1992 1992 megnevezés megfigyelt adatok

f ij

függetlenséget felté- a megfigyelt és a függettelező adatok lenséget feltételező adatok

f ij* =

I.

1992

összehasonlítása = χ öszszetevőinek számítása127

f i. * f . j

2

n

II.

ágazat

férfi



össz.

férfi

mező-gazd.

316,7

143,4

460,1

bányászat

45,5

7,2

52,7

feldolgozó ipar

590,6

462,9

villamosenergiaipar

76,7

építőipar

184,3

III. nő

férfi



össz.

247,01 213,09 460,1

19,662

22,791

42,453

28,29

10,465

12,131

22,597

1.053,5 565,58 487,92 1053,5 1,106

1,283

2,389

31,4

108,1

58,03

6,003

6,959

12,962

32,5

216,8

116,39 100,41 216,8

39,621

45,928

85,549

kereskedelem 200,7

279,7

480,4

257,90 222,49 480,4

12,690

14,710

27,400

vendéglátás

48,7

66,9

115,6

62,06

2,877

3,334

6,211

szállítás

243

103,4

346,4

185,96 160,43 346,4

17,490

20,274

37,763

pénzügyi szolgáltatás

16,5

52,2

68,7

36,88

31,82

68,7

11,264

13,057

24,321

ingatlanügyek 68,4

71,9

140,3

75,32

64,98

140,3

0,636

0,737

1,373

közigazgatási 134,8 szolgáltatás

101,9

236,7

127,08 109,63 236,7

0,470

0,544

1,014

oktatás

75,4

236,4

311,8

167,39 144,41 311,8

50,556

58,604

109,161

egészségügy

58,9

177,4

236,3

126,86 109,44 236,3

36,407

42,203

78,610

egyéb szolg.

101,1

97,3

198,4

106,51 91,89

0,275

0,319

0,594

összesen

2.161,3 1.864,5 4.025,8 2.161,3 1.864,5 4.025,8 209,522 242,875 452,3966

24,41

50,07

53,54

össz. 52,7

108,1

115,6

198,4

127 A számításokat az EXCEL programmal végeztük. Az adatokat a matematika szabályai szerint kerekítettük. Ha azonban soronként ill. oszloponként ellenőrizni kívánja az összeadásokat, akkor kis „hibát” találhat, mert a gép a háttérben a nem kerekített adatokkal dolgozik. Ez a megjegyzés minden további táblánkra igaz, ahol a terjedelem miatt nem tekinthettünk el a kerekítésektől.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



107



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



108



7.4. sz. tábla 2003 2003 a megfigyelt és a füg2003 függetlenséget feltételegetlenséget feltételező megnevezés megfigyelt adatok ző adatok adatok összehasonlítá-

f ij

f ij* =

f i. * f . j

sa = χ összetevőinek számítása128 2

n

ágazat

férfiak nők

össz. férfiak

nők

mezőgazd.

166,6

48,6

215,2 116,686 98,5134 215,2 21,351 25,290 46,640

bánya

11

1,8

12,8 6,940

2,374

2,812 5,187

feldolgozó ipar

547,3

378,2 925,5 501,828 423,672 925,5 4,120

4,880 9,001

villamos energiaipar

50,2

18

68,2 36,980

5,598 10,324

építőipar

275,1

24,3

299,4 162,342 137,058 299,4 78,319 92,767 171,086

5,860

31,220

össz. férfiak nők 12,8

68,2

4,726

össz.

kereskedelem 267,6

285,5 553,1 299,904 253,196 553,1 3,480

4,121 7,601

vendéglátás

59,7

79,7

139,4 75,586

3,955 7,293

szállítás

219,5

83,7

303,2 164,402 138,798 303,2 18,467 21,871 40,338

pénzügyi szolgáltatás

22,6

50,2

72,8 39,474

63,814

72,8

7,213

8,544 15,757

ingatlanügyek 143,7

122,3 266 144,231 121,769 266

0,002

0,002 0,004

közigazgatási 151,5 szolgáltatás

143,9 295,4 160,173 135,227 295,4 0,470

0,556 1,026

oktatás

71,4

257,6 329 178,391 150,609 329

egészségügy

62,5

204,7 267,2 144,882 122,318 267,2 46,844 55,485 102,329

egyéb szolgál77,9 tatás összesen

128

96,9

33,326

139,4 3,339

64,169 76,006 140,175

174,8 94,781

80,019

174,8 3,006

3,561 6,568

2126,6 1795,4 3922 2126,6

1795,4

3922 257,879 305,45 563,328

Lásd: a 7.3. sz. táblához csatolt lábjegyzet.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



108



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az ismérvek közötti kapcsolat Vissza



109



7.2. Vegyes kapcsolat Vegyes kapcsolatról beszélünk, ha a megfigyelt adatok csoportosításához egy minőségi (= befolyásoló tényező, csoportképző ismérv) és egy mennyiségi (= befolyásolt tényező) ismérvet használunk, például, ha arra vagyunk kíváncsiak, hogy egy vállalkozás (nemzetgazdasági ág, vagy az egész nemzetgazdaság) férfi és női dolgozóinak keresete (bére, jövedelme) között van-e eltérés, azaz befolyásolja-e a fizetéseket a foglalkoztatottak neme. A kapcsolat erősségének kimutatására a szórásokat használjuk fel. Egy összetett sokaság esetén kétféle számtani átlag és háromféle szórást értékét határozhatjuk meg.

• Az egyes részsokaságokra vonatkozóan a részátlagokat (= x j ) ,

• az egész sokaságra vonatkozóan pedig a főátlagot ( x ) számíthatunk. Majd ezek ismeretében vizsgálhatjuk:

• az egyes részsokaságokban az átlagolandó értékek és az adott csoport részátlagának átlagos eltérését (= csoportszórás = σ j ), és a csoportszórásokat átlagolhatjuk is (= belső szórás = σ B ). • Vizsgálhatjuk az egyes átlagolandó értékek és a főátlag átlagos eltérését (= teljes szórás = σ T ). • Végül kiszámíthatjuk a részátlagok és a főátlag átlagos eltérését (= külső szórás = σ K ). A felsorolt átlagok és szórások számítása. Jelöléseink részben a 7.2. sz. táblához igazodnak, ill. – egyes esetekben – egyszerűbb súly-jelölések is szerepelnek.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



109



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

részátlag = csoport átlag

xj =

ij

az átlagolandó értékekből:

xi

a részátlagokból: t

s

i =1 s

∑f



110

főátlag

s

∑f



Vissza

x=

.j

i =1

∑f

x

i. i

x=

i =1 s

∑f

∑ f. j x j j =1 t

∑f

i.

s

σj =

∑ f (x ij

i =1

∑n x j

=

.j

j =1

i =1

csoportszórás

t

i

j =1 t

∑n

j

j =1

− xj)

2

i

s

∑f

.j

i =1

t

t

σB =

belső szórás

∑ f . jσ 2j j =1 t

∑f

∑n σ j

=

j =1 t

∑n

.j

j =1

σK =

j

j =1

t

külső szórás

2 j

∑ f . j (x j − x )

t

2

j =1

t

∑f

∑ n (x j

=

− x)

2

j

j =1

t

∑n

.j

j =1

j

j =1

teljes szórás az alapadatokból: s

σT =

∑ f (x i.

i =1

− x)

2

i

s

∑f

az összefüggés alapján:

σ T = σ B2 + σ K2

i.

i =1

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



110



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



111



A képletekben szereplő betűk jelentése:

xi = a befolyásolt ismérv változatai

f ij = megfigyelt gyakoriságok

f . j = a megfigyelt gyakoriságok oszlop szerinti öszszesen adatai, ezeket gyakran így is jelölik: n j

t

t

i =1

j =1

j =1

riságok sor szerinti összesen adata

i = 1....s = az egyik ismérv változatainak száma

j = 1....t = a másik is-

f . j és f i . = peremgyakoriságok s

f i . = a megfigyelt gyako-

mérv változatainak száma s

t

n = ∑ f i . = ∑ f . j = ∑ n j = ∑∑ f ij = a megfii =1 j =1

gyelt sokaság elemeinek száma

x j = részátlag = csoportátlag

x = főátlag

x j = részátlag

σ j = csoport szórás

σ B = belső szórás

σ K = külső szórás

σ T = teljes szórás

A szórások (külső – belső – teljes) közötti összefüggés bizonyítása129 a következő elgondolásból indul: ( xi − x ) = (xi − x j ) − (x j − x ) . Számítsuk ki, hogy a teljes szórásnégyzet hányad részét (hány százalékát) teszi ki egyik ill. másik összetevője!

1=

σ K2 σ B2 + σ T2 σ T2

Az így kapott megoszlási viszonyszámok közül mutatóul a külső szórásnégyzet és a teljes szórásnégyzet hányadosát használjuk, tekintettel arra, hogy a belső szórás nagyságát nem a csoporthoz tartozás, hanem sok más tényező befolyásolja. (A bevezetőben említett dolgozói bérek példát folytatva, a férfiak (vagy a nők) csoportjában a bérek azért térnek el egymástól és az átlagtól, mert a dolgozók nem ugyanannyi ideje állnak alkalmazásban, nem ugyanolyan iskolai- ill. szakképzettséggel rendelkeznek, nem egyformán teljesítik a normát stb.)

129

A teljes levezetést a matematika tankönyvekben keressék.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



111



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



112



A vegyes kapcsolat szorossági mutatója (= H ) ill. a befolyásolás mértékét kifejező mutató (= H 2 ) tehát:

H=

σK σ2 = 1 − B2 σT σT

H2 =

σ K2 σ B2 = 1 − → % 130 σ T2 σ T2

A mutatók megoszlási viszonyszám-jellegéből következik, hogy alsó határuk 0, felső határuk pedig 1, ill. 100 %. Ha külső szórás nulla (vagy ahhoz nagyon közeli érték), az azt jelenti, hogy a részátlagok nem (vagy csak nagyon kevéssé) térnek el a főátlagtól, azaz egy-egy sokasági elem számára teljesen mindegy, hogy melyik csoporthoz tartozik. A H ≅ 0 tehát a kapcsolat hiányát jelenti. Ha külső szórás a teljes szórás igen nagy részét teszi ki (esetleg egyenlő azzal), azaz a belső szórás igen kicsi (esetleg nulla), akkor épp ellenkező helyzettel találkozunk. A H ≅ 1 tehát az igen szoros kapcsolatot jelenti. BEMUTATÓ FELADAT A Magyarországon kiadott szépirodalmi művek131 példányszám (= menynyiségi ismérv) és műfaj szerinti (= minőségi ismérv) megoszlására vonatkozóan az alábbi adatokat ismerjük. 7.5. sz. tábla példányszám (db) – 500 500 – 1.000 1.000 – 2.000 2.000 – 3.000 3.000 – 5.000 5.000 – 10.000

verses mű (%) 65,5 13,8 7,2 5,5 7,2 0,8

regény és elbeszélés (%) 7,7 8,7 14,7 23,6 23,2 11,3

színmű (%) 30,5 22 16,9 6,8 8,5 11,9

egyéb széppróza (%) 15,8 23,0 21,9 21,3 13,1 4,9

130

A mutatókban szereplő betűk jelentését az átlagok és a szórások számítási képletei mellett megtalálják. 131 Magyar statisztikai évkönyv, 2003 (KSH, 2004; 255. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



112



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

10.000 – 20.000 20.000 – 30.000 30.000 – 40.000 40.000 – összesen db

– – – – 100 348

3,4 3,4 2,9 1,1 100 1.575

Vissza

3,4 – – – 100 59



113



– – – – 100,0 183

A 7.5. sz. tábla adatai alapján a következő statisztikai jellemzőket számítottuk ki. 7.6. sz. tábla részátlag132 (db) csoportszórás133 (db)

861

5.541

2.407

1.964

1.219

8.242

3.295

1.719

A részátlagok súlyozott számtani átlagaként meghatároztuk a főátlagot (4.401 db). A csoportszórások négyzetes átlaga adta a belső szórást (7.085 db). A részátlagok és a főátlag átlagos eltérése jelenti a külső szórást (1.889 db). A szórások között fennálló összefüggést felhasználva pedig megismertük a teljes szórást (7.332 db). Végül kiszámítottuk a vegyes kapcsolat mutatóit (H = 0,26 ill. H2 = 6,8 %). főátlag: t

x=

∑f

.j

xj

j =1 t

∑f

= .j

348 * 861 + 1.575 * 5.541 + ... ≅ 4.401 db 348 + 1.575

j =1

132

A megoszlásokkal súlyozott számtani átlagokat számítottunk, az eredményeket egészekre kerekítettük. (Lásd: 3.2.) 133 A csoportszórásokat a megoszlásokkal súlyozva számítottuk ki, az eredményeket egészekre kerekítettük. (Lásd: 4.2.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



113



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



114



belső szórás: t

σB =

∑f

.j

σ 2j

348 *1.219 2 + 1.575 * 8.242 2 + ... = ≅ 7.085 db 348 + 1.575...

j =1 t

∑f

.j

j =1

külső szórás: t

σK =

∑ f (x j =1

.j

− x)

2

j

=

t

∑f

.j

j =1

=

348 * (861 − 4.401) 2 + 1.575 * (5.41 − 4.401) 2 + .... ≅ 1.889 db 348 + 1.575 + ...

teljes szórás:

σ T = σ B2 + σ K2 = 7.0852 + 1.8892 = 7.332 db H=

σ K 1.889 = ≅ 0,26 σ T 7.332

H=

σ 2 1.8892 = ≅ 0,262 ⇒ 6,6% 2 2 7.332 σ K

T

♥ SZÖVEGES ELEMZÉS 2003-ban hazánkban 2.165 különféle szépirodalmi művet adtak ki átlagosan 4.400 (4.401) példányban, igen magas (167 %-os) szórás mellett. A legnagyobb átlagos példányszámot (5.541 db) a regények + elbeszélések kategóriában figyelhetjük meg, a legkisebbet pedig a verses művek csoportjában (861 db). A legnagyobb (8.242 db) és a legkisebb csoportszórások (1.219 db) is ugyanezekre a részsokaságokra jellemzőek. Az egyes szépirodalmi kategóriákban megjelent átlagos példányszámok átlagosan 1.889 darabbal térnek el (= kisebbek vagy nagyobbak) a teljes sokaságra számított átlagos példányszámtól. A különböző példányszámok (= átlagolandó értékek) pedig átlagosan 7.332 darabbal térnek el a teljes sokaságra számított átlagos példányszámtól. A szépirodalmi művek jellege és a megjelenési példányszámok között gyenge (H = 0,26) kapcsolat figyelhető meg; a művek jellege mindössze 6,6 %-ban (= H2) befolyásolja azok megjelentetett mennyiségét.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



114



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



115



7.3. Korrelációs kapcsolat Ha megfigyelt adatok csoportosításához kettő vagy több mennyiségi ismérvet használunk, akkor beszélünk korrelációs kapcsolatról. Ebben az esetben a befolyásolt és a befolyásoló tényező szerepe – két ismérv esetén – általában felcserélhető. Több ismérv esetén mindig csak a befolyásoló tényezők száma nőhet. A továbbiakban csak a kétváltozós esetekre térünk ki röviden134. Ha a kapcsolat szorosságát két mennyiségi ismérv között akarjuk kimutatni, és az adatokat kombinációs táblába rendeztük (6.2. sz.), akkor a vegyes kapcsolatnál megismert H-mutató és H2-mutatót használhatjuk, de mindkét mutatóból kettőt számíthatunk ki, tekintettel arra, hogy a csoportképző ismérv szerepe nem eleve adott. Ha az x-vel jelzett változó tölti be ezt a szerepet, akkor csak y változó adataival számolunk (y ismérvértékeit átlagoljuk, azok szórását határozzuk meg), ill. fordítva, ha az y-val jelzett változó tölti be a befolyásoló tényező szerepét, akkor csak x változó adataival számolunk (x ismérvértékeit átlagoljuk, azok szórását határozzuk meg). A mutatókat a futóindexben alkalmazott jelölésekkel különböztetjük meg. H futóindexében a függőleges vonal előtt mindig a befolyásolt tényező (= eredményváltozó), a függőleges vonal után pedig a befolyásoló tényező (= magyarázó változó, csoportképző ismérv) betűjelét láthatjuk. A szórások futóindexében pedig annak a változónak a betűjele olvasható zárójelben, amelyik változó ismérvértékeivel számoltunk. Ha x a befolyásoló tényező: H y x =

σ K ( x) σ T ( x)

Ha y a befolyásoló tényező: H x y =

σ K ( y) σ T ( y)

134

A többváltozós esetekről tananyagunk későbbi fejezetében lesz szó.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



115



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



116



BEMUTATÓ FELADAT Egy hallgatói csoport két zárthelyi dolgozatot írt statisztikából. A hallgatók létszámadatait a két eredmény közötti kapcsolat vizsgálata érdekében kombinációs táblába rendeztük. 7.6. sz. tábla ZH I. → - 30 ZH II.↓ - 30 7

31 – 40

41 – 50

51 – 60

61 – 70

71 – 80

81 – 90

91 100

együtt

1



3



1





12

31 – 40

2



2





1





5

41 – 50

4



1

2

1

1

1

1

11

51 – 60

9

2

2

3

2

1

2

1

22

61 – 70

9





2

1

2

3





2

1

1









2









3

5

12

5

71 – 1 80 81 –90 – 90 100



együtt 32

17 3

8

2

2

6



1



1

9

9

7

82

A létszámadatok főben, a zárthelyi dolgozatok eredményei %-ban (= elért pontszám / elérhető pontszám). Jelöljük az első ZH (ZH I.) eredményeit „x”-vel és a második ZH (ZH II.) eredményeit „y”-val! Legyen először a magyarázó változó az első ZH eredménye (ennek a dolgozatnak az eredményadataival nem számolunk, ezek a csoportképző ismérv szerepét töltik be), majd másodszor a második ZH eredménye (most pedig ennek a dolgozatnak az eredményadataival nem számolunk, ezek a csoportképző ismérv szerepét töltik be)!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



116



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



117



Munkánk mindkét esetben a részátlagok ill. a csoportszórások kiszámításával kezdődik. Például azon hallgatók ZH II. átlag-eredménye, akik a ZH I. dolgozatot átlagban 15 %-ra teljesítették (= első, nyitott osztályköz) ≅47,2% = 7 *15 + 2 * 35 + 4 * 45 + 9 * 55 + 9 * 65 + 1 * 75

32 Átlagolandó értékek az osztályközepek: 15, 35, 45, 55, 65, 75, 85, 95. A súlyok pedig az első oszlopban szereplő megfigyelt előfordulások. (Ugyanígy járunk el a további számítások során.) A további részátlagok: 41,67 /45,0 / 48,33 / 59,0 / 58,33 / 68,33 / 70,7.

Azoknak a hallgatóknak, akik a ZH I. dolgozatot átlagban 15 %-ra teljesítették, az egyéni teljesítménye a csoport átlageredményétől (47,2%) átlagosan:

7 * (15 − 47,2) 2 + 2 * (35 − 47,2) 2 + ... + 1(75 − 47,2) 2 32 A további csoportszórások: 18,86 / 8,94 /21,34 /1,20 / 22,12 /15,63 /14,00.

19,16 %-ponttal =

tér el.

A fenti eredmények ismeretében kiszámíthatjuk a főátlagot (= a részátlagok súlyozott számtani átlaga), majd a külső szórást (= a részátlagok átlagos eltérése a főátlagtól) és az un. belső szórást (= a csoportszórások súlyozott négyzetes átlaga). Majd a szórások közötti összefüggést felhasználva meghatározhatjuk a teljes szórás (= az átlagolandó értékek és a főátlag átlagos eltérése) értékét. főátlag:

x=

32 * 47,19 + 3 * 41,67 + ... + 7 * 70,71 ≅ 53,29% 82

külsőszórás: σK =

32 * (47,19 − 53,29) 2 + 3 * ( 41,67 − 53,29) 2 + ... + 7 * (70,71 − 53,29) 2 ≅ 9,1% 82

belső szórás:

σB =

32 *19,16 2 + 3 *18,86 2 + ... + 7 *14,0 2 ≅ 18,03% 82

teljes szórás:

σ T = 9,12 + 18,032 ≅ 20,2%

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



117



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



118



A kapcsolat szorossági mutatója:

H=

9,1 ≅ 0,45 . 20,2

A befolyásolás mértéke: H=

9,12 ≅ 0,45 2 ⇒ 20,3% 20,2 2

♥A hallgatók a ZH II. dolgozat elérhető pontszámának átlagosan 53,29 %-át érték el, egyéni eredményeik átlagosan 20,2 %-ponttal térnek el ettől az átlagtól. ♥ A ZH I. dolgozat eredménye gyenge közepes kapcsolatban van a ZH II. eredményével. ♥ A ZH I. eredménye mindössze 20,3 %-ban befolyásolja a ZH II. eredményét. (Más tényezők, mint az egyéni képességek, a szorgalom, a feladatok nehézsége, a vizsgarutin stb. együttesen jelentősebb szerepet játszottak.) Ha a változók szerepét felcseréljük, ebben az esetben az átlagolandó értékek nem változnak, hiszen ugyanolyan osztályközöket képeztünk az első és a második ZH eredményeiből. A súlyok viszont változnak, a sorokban szereplő előfordulásokkal kell dolgoznunk. Így az első részátlag: x1 =

7 *15 + 1 * 35 + 3 * 55 = 31,67% , 12

azaz azok a hallgatók, akik a második ZH elérhető pontszámának maximum 30 %-át érték el, az első ZH elérhető pontszámának átlagosan 31,67 %-át érték el. A további részátlagok: 39,0 / 48,64 / 42,27 /42,06 / 68,75 /85,0 / 85,0.

Az első részátlaghoz tartozó csoportszórás: σ1 =

7 * (15 − 31,67) 2 + 1* (35 − 31,67) 2 + 3 * (55 − 31,67) 2 = 21,34% − pont , 12

vagyis egy-egy – a vizsgált részsokaságba tartozó – hallgató átlagosan 21,34 %-ponttal ért el jobb vagy rosszabb eredményt, mint az átlagos teljesítményszázalék (= 31,67). A további csoportszórások: 22,45 / 28,69 /26,83 /29,86 /25,95 /8,16 / 0,0.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



118



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



119



A belső szórás értéke: 25,62, a külső szórásé: 14,79, a teljes szórás pedig: 29,58; így a kapcsolat szorossága (= H) 0,5, ebből következően a befolyásolás mértéke (= H2) 25 %. Összehasonlítva a két számítás eredményét azt tapasztaljuk, hogy a változók szerepének felcserélése befolyásolja H és H2 mutatók értékét. Tekintettel arra, hogy az egyik ill. a másik esetben nem azonos súlyokkal dolgoztunk (más példákban az átlagolandó értékek között is adódhat eltérés), természetesen nem azonos átlag- és szórás-adatokat kaptunk. Általánosságban, ha a változók szerepét felcseréljük, akkor H és H2 mutatók értéke csak a két szélső esetben („nincs kapcsolat” = H y x = H x y = 0 ill. „igen szoros a kapcsolat” = H y x = H x y = 1 ) azonos. A korrelációs kapcsolatra – amikor a megfigyelt adatokat adat-párokba rendezve (= lista) adjuk meg – még visszatérünk135. 7.4. Gyakorló feladatok 1. feladat Halálozások a meghaltak neme és a halál oka szerint

(Magyarország, 2003)136 a meghaltak neme

→ férfi



összesen

a halál oka ↓ daganatos betegségek

19.063

14.999

34.062

táplálkozási és anyagcsere

1.101

1.650

2.751

keringési rendszer

31.841

37.210

69.051

légzőrendszer

3.210

2.229

5.439

emésztőrendszer

5.846

3.599

9.445

összesen

61.061

59.687

120.748

Vizsgálja meg, van-e kapcsolat a meghaltak neme és a halál oka között!

135

Lásd: Korreláció-és regressziószámítás fejezet Magyar statisztikai évkönyv, 2003 (KSH, 2004; 68. – 70. old.) /A legfőbb halálokokat emeltük ki, a halálestek 88 %-át./

136

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



119



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



120



2. feladat A Magyarországra bevándorló külföldiek száma (fő) életkoruk szerint 137 életkor (év)

1980 férfi

2002 nő

összesen

férfi



összesen

0 – 14

165

145

310

652

611

1.273

15 – 19

205

157

362

608

707

1.315

20 – 24

241

475

716

1.568

1.536

3.103

25 – 29

182

330

512

1.773

1.406

3.179

30 – 39

221

199

420

2.119

1.296

3.415

40 – 49

73

81

154

1.213

671

1.884

50 – 59

32

47

79

569

384

953

60 –

19

40

59

229

294

523

1.138

1.474

2.612

8.741

6.905

15.646

összesen

1. Vizsgálja meg, volt-e kapcsolat a bevándorlók életkora és neme között 1980-ban ill. 2002-ben! 2. A kapott eredményeket hasonlítsa össze! 3. A részeredmények jelentését (pl.: a bevándorló férfiak átlagéletkora stb.) is fogalmazza meg egy-egy mondattal! 4. Ábrázolja a megfigyelt adatokat! 5. Számolja ki a relatív gyakoriságokat! 6. Vizsgálja meg a koncentrációt, az aszimmetriát, a csúcsosságot mindkét év adatai alapján együttesen és nemenként is! 7. Nevezze meg a tábla, a benne szereplő sorok és adatok típusát is! Figyelem! Egyes feladatok ismétlő jellegűek, ha szükséges, lapozzon vissza az előző fejezetekhez!

137

Demográfiai évkönyv, 2003 (KSH, 2004; 90. old.) /Az ismeretlen korúak – számuk elenyésző– nélkül./

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



120



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



121



3. feladat Egyetemünk hallgatói körében néhány éve felmérést végeztünk, többek között arra voltunk kíváncsiak, mennyi családjukban az egy főre jutó jövedelem. A „bevallott” adatokat szakonként csoportosítva osztályközös gyakorisági sorba rendeztük. nettó jövedelem ezer FT – 30 31 – 50 51 – 70 71 – 100 101 – 200 201 – összesen

hallgatók (fő) szakok szerint jogász

közgazdász (egyetem)

közgazdász (főiskola)

mérnök (közlekedés)

együtt

1 5 13 22 42 17 100

2 6 23 26 33 10 100

5 12 14 37 22 10 100

3 9 32 29 24 3 100

11 32 82 114 121 40 400

1. Szakonként és a sokaság egészére is számítsa ki

• • • • • • • •

a számtani átlagot, a szórást a móduszt, a mediánt, az aszimmetria mutatóit, a koncentráció mutatóit, a csúcsosság mutatóját! Szerkessze meg a Lorenz-görbét!

2. Ábrázolja az adatokat! 3. Elemezze a kapcsolatot! 4. feladat 1. Gyűjtsön adatokat melyek alapján a megismert szorossági mutatók számítását be tudja mutatni! 2. A gyűjtött adatokkal végezze el a számításokat! 3. Írjon szöveges elemzéseket!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



121



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



122



7.5. Összefoglalás ismérvek kö= ha a vizsgált sokaság különböző ismérvek alapján feltáruló zötti kapcsolat szerkezete hasonlóságot, vagy azonosságot mutat 1. asszociáció fajtái 2. vegyes kapcsolat 3. korreláció 1. sztochasztikus (ezt vizsgáljuk) jellege 2. függvényszerű

a=

1. Yule

az asszociáció mutatói

2. Csuprov

T=

3. Cramer

C=

f 11 f 22 − f 12 f 21 g11 g 22 − g12 g 21 ≅ f 11 f 22 + f 12 f 21 g11 g 22 + g12 g 21

χ2

n

(s − 1)* (t − 1) χ2

n (s − 1)

szorossági a vegyes kapcsolat mutatói

H=

σK σ2 = 1 − B2 σT σT

szorossági a korrelációs kapcsolat mutatói

σ K ( x) ill. σ T ( x) σ K ( y) = σ T ( y)

befolyásolás

H2 =

σ K2 σ B2 = 1 − → % σ T2 σ T2

befolyásolás

Hy x = Hx y

a kapcsolat muta- általában kivétel: Csuprov, ha s〈t tók határértékei a határértékek alsó = jelentése a kapcsolat teljes hiánya

A dokumentum használata | Tartalomjegyzék | Táblázatok

mint vegyes kapcsolat

0〈mutató〈1 0〈T 〈 4

s −1 t −1

felső = igen szoros kapcsolat

Vissza



122



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



123



7.6. A 4., 5., 6., 7. fejezetek tartalmához kapcsolódó mintapéldák korábbi vizsgadolgozatokból 1. minta Egy 80 főt foglalkoztató vállalkozás adatai: havi nettó kereset

fizikai dolgozók

szellemi dolgozók

férfi

férfi

ezer Ft



– 60



1





61 – 80

2

6



1

81 – 100

11

8



2

101 – 120

13

4

1

3

121 – 140

12



2

1

141 – 160

8



2



161 –





2

1

összesen

46

19

7

8







1. Állapítsa meg, hogy a dolgozók jövedelmét nemük (férfi, nő) vagy foglalkoztatásuk jellege (fizikai, szellemi) befolyásolja-e nagyobb mértékben! 2. A szorossági mutató nevezőjében szereplő szórás kiszámítására a szórások közötti összefüggést használja! 3. Vegye észre, és használja a számolás gyorsításához beírt adatokat, továbbá az azonos adatokat! 4. A szükséges számítások elvégzéshez az alábbi munkatáblát szokás összeállítani.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



123



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



124



1. munkatábla férfiak nők férfiak nők havi netátlagotó kerelandó set (ezer fő értékösszeg érték Ft)

férfiak

nők

súlyozott eltérés négyzet

– 60 61 – 80 81 – 100 101 – 120

Nem kell kitölteni.

121 – 140 141 – 160 161 – összesen

6.330,00 2.510,00 31.683,18 14.962,96

2. munkatábla szellemi havi net- átlago- fizikai szellemi fizikai szellemi fizikai tó kereset landó súlyozott eltérés értékösszeg fő érték (ezer Ft) négyzet – 60 61 – 80 81 – 100 101 – 120

Nem kell kitölteni.

121 – 140 141 – 160 161 – összesen

6.950,00 1.890,00 40.984,60 13.760,00

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



124



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



125



1. eredménytábla a mutatók megnevezés

statisztikai jele

számítása

értéke, mértékegységgel

a férfiak átlagbére a nők átlagbére a férfiak átlagbérének szórása a nők átlagbérének szórása a két csoport szórásának átlaga a kapcsolat szorossági mutatója 2. eredménytábla a mutatók megnevezés

statisztikai jele

számítása

értéke, mértékegységgel

a szellemi dolgozók átlagbére a fizikai dolgozók átlagbérének szórása a szellemi dolgozók átlagbérének szórása a két csoport szórásának átlaga a kapcsolat szorossági mutatója

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



125



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



126



2. minta Egy reprezentatív felmérés során vizsgálták a magyarok szabadság-kivételi szokásainak és jövedelmi helyzetének kapcsolatát. A megfigyelés során 2.500, 14 évnél idősebb magyar állampolgárt kérdeztek meg. megfigyelt adatok: a szabadságot jövedelem

egyben

2 hetet egyszerre

elaprózva

összesen

veszi igénybe alacsony

88

472

240

800

közepes

120

680

200

1000

magas

112

497

91

700

összesen

320

1649

531

2500

Állapítsa meg, van-e kapcsolat az állampolgárok jövedelmi helyzete és szabadság-kivételi szokásai között! számított adatok: a szabadságot 2 hetet egyszerre

elaprózva

527,68

169,92

közepes

659,60

212,40

magas

461,72

148,68

jövedelem

egyben

összesen

veszi igénybe alacsony

102,40

összesen

Töltse ki a fenti tábla üres rovatait! Az adatokat zsebszámológépe kijelzőjéről két tizedes pontossággal másolja át! (Kerekíteni nem kell.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



126



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



127



mellékszámítás: A szabadságot jövedelem

egyben

2 hetet egyszerre

elaprózva

összesen

veszi igénybe alacsony közepes magas

Nem kell kitölteni!

36,79 1,85 30,66

összesen

9,19

69,30

51,99

Töltse ki a fenti tábla üres rovatait! A zsebszámológép kijelzőjéről az egész számot és az első két tizedest másolja át, kerekíteni nem kell. eredménytábla megnevezés

a mutatók statisztikai jele

számítása

értéke, mértékegységgel

az egyik tanult mutató a másik tanult mutató

3. minta Egy hallgatói csoport megoszlása a tanulóbiztosítás féléves díjai szerint: biztosítási díjak ezer Ft 0,0 – 1,2 1,2 – 1,5 1,5 – 2,0 2,0 – 2,5 2,5 – 3,0 3,0 – 3,5 3,5 – 4,0 összesen

hallgatók fő 30 25 20 15 15 10 5 60

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



127



Statisztika

Az ismérvek közötti kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



128



1. 2. 3. 4.

Számítsa ki a szóródás két leggyakrabban használt mutatóját! Számítsa ki az aszimmetria „A” és „P” jelű mutatóit! Készítse el a Lorenz-görbét! Fogalmazza meg a kiszámított mutatók jelentését, továbbá az újabb részeredmények jelentését! 5. A Lorenz-görbe alapján nyilatkozzon a sokaság koncentrációjáról! biztosítási díjak ezer Ft

hallgatók

0,0 – 1,2

30

1,2 – 1,5

25

1,5 – 2,0

20

2,0 – 2,5

15

2,5 – 3,0

15

3,0 – 3,5

10

3,5 – 4,0

5

összesen

60



1. eredmény-tábla Az első üres sorba a kiszámított mutató statisztikai jelét, a második üres sorba pedig számértékét és mértékegységét kell írni. a szórás abszolút mutatója az aszimmetria mutatója a megfigyelt gyakoriságokkal súlyozva

a relatív a szórás gyakori- relatív ságokkal mutatója súlyozva

a számtani átlag és a módusz összehasonlításával

a számtani átlag és a medián összehasonlításával

2. eredmény-tábla Írjon szöveges elemzést!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



128



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



129



8. Standardizálás 8.1. Bevezetés Magyarországon az alkalmazásban álló fizikai foglalkozásúak bruttó átlagkeresete 2000-ben 61.930138Ft, 2003-ban pedig 91.397 Ft volt. Ugyanezen években az alkalmazásban álló szellemi foglalkozásúakra vonatkozó adatok: 121.779 Ft ill. 143.753 Ft. A fizikai foglalkozásúak átlagkeresete tehát ≅ 48 %-kal139, a szellemi foglalkozásúaké pedig ≅ 18 %-kal emelkedett. A nemzetgazdaság egészére vonatkozó bruttó átlagkereset (= a fizikai és szellemi foglalkozásúak átlagkeresetének súlyozott számtani átlaga) a két megfigyelt évben 87.645 ill. 137.193 Ft, azaz 2003-ban 56,5 %-kal140 magasabb volt. Hogyan lehetséges az, hogy a nemzetgazdasági átlagkereset növekedése mind a fizikai, mind a szellemi dolgozók átlagkeresetének növekedését meghaladta? A feltett kérdésre könnyebben tudunk válaszolni, ha végiggondoljuk a fentiekben felsorakoztatott átlagkereseti adatok számítását, ill. felírjuk számításukat statisztikai jelekkel, képletekkel. Az átlagkereseteket kétféleképpen is kiszámíthatjuk.

• Egy összegben ismerve a bérjellegű kifizetéseket ( A) és a foglalkozta(B ) , tottak létszámát intenzitási viszonyszámként (v ) .Képletszerűen: A rész-intenzitási viszonyszám (= részátlag): v = ill. B összetett intenzitási viszonyszám (főátlag): V =

∑A ∑B

• A dolgozókat bérkategóriák szerint ( xi ) osztályközös gyakorisági ( f i ) sorba rendezhetjük, és súlyozott számtani átlagként határozhatjuk meg az átlagkereseti adatokat. Képletszerűen:

138

Adatforrás: Magyar statisztikai évkönyv, 2003 (KSH – Budapest 2004, 96. – 97. old.) if= 91.397 / 61.930 = 1,4758 → + 48 % ill. isz = 143.753 / 121.779 = 1,18044 → + 18 % 140 I = 137.193 / 87.645 =1,5653 → + 56,5 % 139

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



129



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

részátlag (=rész-intenzitási viszonyszám): x j =

∑fx ∑f i

i



130



ill.

i

főátlag (=összetett intenzitási viszonyszám): x =

∑n x ∑n j

j

j

A képletben szereplő súly adat ( f i ) a részsokaságra vonatkozó osztályközönkénti megfigyelt előfordulás, ezek összege egy-egy részsokaságra vonatkozóan = n j .

A két számítás eredménye természetesen azonos, a téma további tárgyalásának egyszerűsítése érdekében pedig csak az intenzitási viszonyszámoknál megszokott jelöléseket alkalmazzuk. Írjuk fel a fősokaságra vonatkozó összetett intenzitási viszonyszámok relatív változásának számítását a szokásos statisztikai jelöléseket alkalmazva141!

∑A

1

∑B v

1 1

V1 ∑ B1 = ∑ B1 = V0 ∑ A0 ∑ B0 v0 ∑ B0 ∑ B0 A részletezett képletből jól látható, hogy az átlagkeresetek csökkenése vagy növekedése nem egyetlen adat változásának a következménye. A két időpontban ugyanis eltérő szerkezetű142 létszám (B ) és eltérő abszolút értékű egyedi bér (v ) adatokat figyelhettünk meg. E két tényező változásának hatását elkülönítve kaphatunk választ az első bekezdésben feltett kérdésünkre. A hatások elkülönítésére alkalmas módszer a standardizálás.

141

Tulajdonképpen dinamikus viszonyszámot számítunk. A létszámadat a számítás során súlyként szerepel. A súlyokról pedig tudjuk, hogy nem abszolút, hanem relatív nagyságukkal befolyásolják a számítás eredményét. Természetesen lehetséges, hogy a B-jelű adatok abszolút értéke is megváltozik. (Erre a problémára még visszatérünk.) 142

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



130



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Standardizálás Vissza



131



8.2. A standardizálás – elméleti összefoglalás A standardizálás olyan statisztikai módszer, mellyel főátlagokat, azaz öszszetett intenzitási viszonyszámokat143 hasonlíthatunk össze. S ahogy már említettük, lehetőségünk van az eltérést kialakító tényezők feltárására is. Az összehasonlítást elvégezhetjük indexek (i, I ) és különbségek (k, K ) formájában is, mind térbeli, mind időbeli adatokra vonatkozóan. A számítások eredményeként az alábbiakban felsorolt indexekhez és különbségekhez jutunk.

• Egyedi indexek = a részviszonyszámok relatív változása (eltérése144). (A bevezetőben megadott a fizikai és szellemi dolgozók bruttó átlagbérének 48 ill. 18 %-os emelkedése szintén egyedi index.) • Egyedi különbségek = a részviszonyszámok abszolút változása. (A fizikai dolgozók bruttó átlagbére 29.467145, a szellemi dolgozóké pedig 21.974 Ft-tal magasabb volt 2003-ban.) • Főátlagindex = az összetett intenzitási viszonyszámok relatív változása, a két befolyásoló tényező hatását együtt tartalmazza. (A bevezetőben megadott, a nemzetgazdaság valamennyi dolgozójára vonatkozó 56,5 %-os növekedés szintén főátlagindex.) • A főátlagok különbsége = az összetett intenzitási viszonyszámok abszolút változása, a két befolyásoló tényező hatását, akárcsak a főátlagindex, együtt tartalmazza. (A nemzetgazdaság valamennyi dolgozójára vonatkozó bruttó átlagbér 2003-ban 49.548146 Ft-tal magasabb volt, mint 2000-ben.) • Részátlagindex = az összetett intenzitási viszonyszámoknak a részviszonyszámok növekedése vagy csökkenése miatt bekövetkező relatív 143 A rész-intenzitási viszonyszámok és a részátlagok, ill. az összetett intenzitási viszonyszámok és a főátlagok tartalmi és számértékének azonosságát belátva, a továbbiakban csak a viszonyszám elnevezést tüntetjük fel. 144 Változásról beszélünk, ha az összehasonlítás különböző időpontokra vonatkozó adatok alapján történik. Eltérésről szólunk, ha különböző területekre vonatkozó adatok összehasonlítását végezzük. A továbbiakban mindig csak a változás szót tüntetjük fel, mondataink egyszerűbbé tétele érdekében. 145 k = 91.397 – 61.930 = + 29.467 Ft ill. k = 143.753 – 121.779 = + 21.974 Ft f sz 146 K = 137.193 – 87.645 = 49.548 Ft

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



131



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



132



változás. Számításához147 a másik befolyásoló tényezőt – a súlyok szerkezetét – állandónak kell tekintetni. • A főátlagok különbsége (= abszolút változása) a részviszonyszámok eltérése miatt. Számításához a másik befolyásoló tényezőt – a súlyok szerkezetét – ahogy az indexnél is, állandónak kell tekintetni. • Összetételindex = az összetett intenzitási viszonyszámoknak a B-jelű adatok (súlyok) szerkezetének módosulása miatt bekövetkező relatív változását fejezi ki. Számításához a másik befolyásoló tényezőt – a részviszonyszámokat –állandónak kell tekintetni. • a főátlagok különbsége a B-jelű adatok (súlyok) szerkezetének módosulása következtében (= abszolút változása). Számításához a másik befolyásoló tényezőt – a részviszonyszámokat – akárcsak az indexnél, állandónak kell tekintetni. A felsorolt indexeket és különbségeket a következő képletekkel számíthatjuk ki:

• egyedi indexek: i =

v1 v0

• egyedi különbségek: k = v1 − v0

∑A ∑B = ∑A ∑B

1

• főátlagindex: I =

V1 V0

1 0 0

∑Bv ∑B = ∑B v ∑B

1 1 1

0 0

=

∑g v ∑g v

1 1

0 0

0

• a főátlagok mindkét hatást tartalmazó különbsége: K = V1 − V1 • részátlagindex, ha állandónak tekintjük a régebbi időszak súly adatait:

147

Ennek az indexnek és a továbbiakban felsorolásra kerülő mutatóknak a számításához még további elméleti ismeretekre van szükségünk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



132



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

∑B v ∑B = ∑B v ∑B

0 1

I′ =

Vst (1) V0

0

=

0 0

∑B v ∑B v

0 1

=

0 0

∑g v ∑g v

0 1

Vissza

=

0 0



133



∑ B v *i = ∑ B v ∑B v ∑ B v 0 0

0 1

0 0

0 1

i

0

ha állandónak tekintjük az újabb időszak súly adatait:

∑B v ∑B = ∑B v ∑B

1 1

I′ =

V1 Vst ( 2 )

1

=

1 0

∑B v ∑B v

1 1

1 0

=

∑g v ∑g v

1 1

=

1 0

∑ B v *i = ∑ B v ∑B v ∑ B v 1 0

1 1

1 0

1 1

i

1

főátlagoknak a részviszonyszámok eltérése miatti különbsége: K ′ = Vst (1) − V0 vagy K ′ = V1 − Vst ( 2 )

• összetételindex, ha állandónak tekintjük a régebbi időszak átlagolandó értékeit:

∑B v ∑B = ∑B v ∑B

1 0

I ′′ =

Vst ( 2 ) V0

1

0 0

=

∑g v ∑g v

1 0

, ahol g 0 =

0 0

B0 B és g1 = 1 ∑ B0 ∑ B1

0

ha állandónak tekintjük az újabb időszak átlagolandó értékeit:

∑B v ∑B = ∑B v ∑B

1 1

I ′′ =

V1 Vst (1)

1

0 1

=

∑g v ∑g v

1 1 0 1

0

a főátlagoknak a súly adatok szerkezeti változása miatt adódó különbsége: K ′′ = Vst ( 2 ) − V0 vagy K ′′ = V1 − Vst (1)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



133



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



134



A képletekben szereplő betűk jelentése:

A=

B=

v=

az intenzitási viszonyszám számlálójában szereplő adat

az intenzitási viszonyszám nevezőjében szereplő adat = súly

egyedi intenzitási viszonyszám = részátlag = az összetett intenzitási viszonyszám számításánál az átlagolandó érték

i= egyedi index

I′=

k=

I= egyedi különbfőátlagindex ség

K′=

a főátlagok különbsége részátlagindex a részátlagok eltérése miatt

K ′′

K a főátlagok különbsége

V0

I ′′

összetett intenzitási összetételindex viszonyszám = főátlag (régebbi)

Vst (1)

V1

a főátlagok különbsége a összetett intenzitási súly adatok szerkezetéviszonyszám = főátlag nek eltérése miatt (újabb)

Vst ( 2 )

standard (= állandó tényezőt tartalmazó) fiktív főátlagok

g0 =

g1 =

a B0 adatok megoszlása = relatív gya-

a B1 adatok megoszlása = relatív gyakoriság

koriság

A felsorakoztatott képleteket végigtekintve, láthatjuk, hogy a részátlagindex az egyedi indexek átlagaként is előállítható, azaz nemcsak nevében átlag (mert két átlagot viszonyítva kapjuk meg értékét), hanem tartalmában is az. Tehát igaz rá, hogy [i min 〈 I ′〈i max ]. A főátlagindexre és az összetételindexre ilyen nagyságrendi relációt nem tudunk megadni. Ezek lehetnek kisebbek a legkisebb egyedi indexnél, és nagyobbak a legnagyobb egyedi indexnél, de az egyik ismeretében (számítása után) már biztosak lehetünk a másik nagyságrendjében.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



134



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



135



• ha [i min 〈 I 〈i max ] és I 〈 I ′ , akkor I ′′〈100% • ha [i min 〈 I 〈i max ] és I 〉 I ′ , akkor I ′′〉100% • ha I 〈imin , akkor I ′′〉100% • ha I 〉 imax , akkor I ′′〈100% A három, a sokaság egészére vonatkozó index és a hozzájuk tartozó különbségek között nemcsak logikai (= a szétbontott hatások egyesíthetőek), hanem számszaki összefüggés is felírható. I = I ′ * I ′′ ill. K = K ′ + K ′′ A tökéletes számszaki egyezőség azonban csak az un. keresztbe-súlyozással érvényesül, vagyis ha a részátlagindex számításánál a régebbi időszak súly adatait vettük állandónak, akkor az összetételindex számításánál az újabb időszak részviszonyszámait kell állandónak venni (és fordítva). Végezetül megjegyezzük, hogy tananyagunkban ugyan nem szerepel, de ismert a többszörös standardizálás módszere is, amikor nemcsak két, hanem több befolyásoló tényező hatását is ki tudjuk mutatni (természetesen egyszerre több másik tényezőt állandónak véve). 8.3. Gyakorlati alkalmazás BEMUTATÓ FELADAT I. – különböző időpontokra vonatkozó adatok összehasonlítása A 8.1. sz. tábla a bevezetőben szereplő adatokat, valamint az ott nem közölt súlyadatokat tartalmazza. 8.1.1.sz. tábla megnevezés → állománycsoport fizikai szellemi együtt statisztikai jelölés

dolgozók megbruttó átlagbér oszlása Ft / fő / hó % 2000 2003 2000 2003 61.930 91.397 0,57033 0,1253 121.779 143.753 0,42967 0,8747 87.645 137.193 1 1

fiktív adatok a hatások elkülönítéséhez 1. 2. 52.126 7.760 61.766 106.520 113.892 114.280

v0 és V0

g 0 ∗ v1 = g1 ∗ v0 =

v1 és V1 g 0

A dokumentum használata | Tartalomjegyzék | Táblázatok

g1

Vst (1)

Vissza

Vst ( 2)



135



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



136



8.1.2. sz. tábla megnevezés



a bruttó átlagbér változása

állománycsoport %

Ft / fő / hó

fizikai

147,6

29.467

szellemi

118,0

21.974

együtt

156,5 i és I

49.548 k és K

statisztikai jelölés

A nemzetgazdasági bruttó átlagbér változásának összetevőit a következőkben mindkét megismert módon meghatározzuk.

• Részátlagindexek és a hozzájuk tartozó különbségek: ha állandónak tekintjük a régebbi időszak súly adatait I′ =

Vst (1) V0

=

∑g v ∑g v

0 1

=

0 0

113.892 = 129,9% 87.645

K ′ = Vst (1) − V0 = 113.892 − 87645 = 26.247 Ft

ha állandónak tekintjük az újabb időszak súly adatait I′ =

V1 ∑ g1v1 = 137.193 = 120,0% = Vst ( 2) ∑ g1v0 114.280

K ′ = V1 − Vst ( 2 ) = 137.193 − 114.280 = 22.913 Ft

• Összetételindexek és a hozzájuk tartozó különbségek: ha állandónak tekintjük a régebbi időszak átlagolandó értékeit I ′′ =

Vst ( 2 ) V0

=

∑g v ∑g v

1 0 0 0

=

114.280 = 130,4% 87.645

K ′′ = Vst ( 2) − V0 = 114.280 − 87645 = 26.635 Ft

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



136



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



137



ha állandónak tekintjük az újabb időszak átlagolandó értékeit I ′′ =

V1 ∑ g1v1 = 137.193 = 120,5% = Vst (1) ∑ g 0 v1 113.892

K ′′ = V1 − Vst (1) = 137.193 − 113.892 = 23.301 Ft

• Összefüggések az indexek és a különbségek között: I = I ′ ∗ I ′′ =

Vst (1) V0



Vst ( 2 ) V1 V = 1,299 ∗1,205 = 1 ∗ = 1,200 ∗1,304 = 156,5% Vst (1) Vst ( 2 ) V0

K = K ′ + K ′′ = (Vst (1) − V0 ) + (V1 −V

st (1)

) = 26.247 + 23.301 = 49.548 Ft

ill. K = K ′ + K ′′ = (V1 − Vst ( 2 ) ) + (Vst ( 2) −V 0 ) = 22.913 + 26.635 = 49.548 Ft

♥ SZÖVEGES ELEMEZÉS148: Hazánkban az alkalmazásban állók nemzetgazdasági bruttó átlagbére 2003-ban 56,5 %-kal, azaz 49.548 Ft-tal magasabb volt, mint 2000-ben. A növekedést két azonos előjelű tényező okozta. Egyrészt mind a fizikai (≅+48%,+29.467 Ft), mind a szellemi (+18 %, +21.974 Ft) dolgozók bruttó átlagbére növekedett; másrészt megváltozott a két alkalmazotti csoport egymáshoz viszonyított aránya. A magasabb átlagbérű szellemi dolgozók aránya jelentős mértében – 44,5 %-ponttal – megemelkedett. A nagyobb átlagolandó érték így nagyobb súlyt kapott. A fizikai ill. szellemi dolgozók bruttó átlagbérének növekedése a nemzetgazdasági bruttó átlagbér növekedéséhez 20,0 %-kal (22.913 Ft-tal); a dolgozó csoportok létszámarányának megváltozása pedig 30,4 %-kal (26.635 Ft-tal) járult hozzá.

148

A szöveges elemzést csak az egyik – a részátlagindex számításánál az újabb időszak relatív gyakoriságait állandónak véve – írtuk le.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



137



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



138



BEMUTATÓ FELADAT II. – különböző időpontokra vonatkozó adatok összehasonlítása Magyarországi születési arányszámok149 összehasonlítása. 8.2.1. sz. tábla élveszületés életkora (fő) (év) 1960 2003 az anya

-14

a nők létszáma (fő)

1000 nőre jutó születés (fő / 1000 fő) = (‰)

1960

1960

2003

2003

79

118

386.877

300.605

0,20420

0,39254

15 – 19

19.562

6.483

375.000

316.852

52,16533

20,46067

20 – 24

55.929 20.143

349.364

364.223

160,08800

55,30403

25 – 29

38.426 37.089

367.770

413.333

104,48380

89,73152

30 – 34

20.343 22.022

386.309

354.986

52,65992

62,03625

35 – 39

9.882

7.452

395.865

314.267

24,96306

23,71232

150

2.210

1.340

616.748

750.476

3,58331

1,78553

148.391 96.650

2.879.893

2.816.745

51,52657

34,31266

40 –

együtt

statisztikai A0 jel

A1

B0

B1

v0 és V0

v1 és V1

8.2.2. sz. tábla az anya relatív életkora változás (év)

abszolút fiktív adatok változás 1. 2.

a nők megoszlása (%) 1960

2003

-14

1,922

0,188 151.865,4 61.383,321 13,4

10,7

15 – 19

0,392

-31,705 7.672.746 16.528.690 13,0

11,2

20 – 24

0,346

-104,784 19.321.237 58307.748 12,1

12,9

25 – 29

0,859

-14,752 33.000.563 43.186.594 12,8

14,7

30 – 34

1,178

9,376 23.965.161 18.693.533 13,4

12,6

149

adatforrás: Demográfiai évkönyv 2003 (KSH – Budapest –2004, 11. old. , 40. old.) Az adatforrásként használt évkönyv 1960-ra ill. 2003-ra nem azonos bontásban tartalmazza az adatokat, a számítások érdekében a 40 év feletti nőket egy korcsoportba vontuk össze. 150

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



138



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



35 – 39

0,950

-1,251 9.386.878 7.845.064,6 13,7

11,2

40 –

0,498

-1,798 1.101.224

26,6

együtt

0,666

statisztikai i és I jel

2.689.189 21,4

-17,214 94.599.675 147.312.203 ≅1

k és K

B0 v1

B1v0

139



≅1

g0

g1

8.2.3./1. sz. tábla megnevezés

számítás

eredmény

számítás

eredmény ‰-pont

főátlagindex és a főátlagok különbsége

I és K

34,3 51,5

66,6 %

34,3 − 51,5

-17,2

standard főátlagok

Vst (1) , ahol (B0 v1 ) Vst ( 2) , ahol

(B1v0 )

94.599.675 2.879.893

32,8 ‰

147.312.203 2.816.745

52,3 ‰

részátlagindex és a hozzá tartozó különbség

I ′ és K ′ standard: B0

32,8 51,5

63,7 %

32,8 − 51,5

-18,7

I ′ és K ′ standard: B1

34,3 52,3

65,4 %

34,3 − 52,3

-18,0

összetételindex és a hozzá tartozó különbség

I ′′ és K ′′ standard: v0

52,3 51,5

101,6 %

52,3 − 51,5

+0,8

I ′′ és K ′′ standard: v1

34,3 32,8

104,6 %

34,3 − 32,8

+1,5

összefüggések

0,637*1,046 0,654*1,016

I = 66,6 -18,7+1,5 % -18,0+0,8

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

K=17,2



139



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Standardizálás Vissza



140



♥ SZÖVEGES ELEMEZÉS151: Magyarországon ezer szülőképeskorú nőre 1960-ban 51,5; 2003-ban pedig 34,3 születés jutott. A születési arányszám tehát 33,4 %-kal (= 100 – 66,6 %), azaz 17,2152 ezrelékponttal csökkent. A csökkenésnek két ellenkező előjelű összetevője van. Egyrészt a korosztályok majd mindegyikében (a legtermékenyebbek mindegyikében) csökkent a születési arányszám; másrészt megváltozott a nők korosztályonkénti összetétele. A korosztályonkénti születési arányszámok változása következtében az országos adat 36,3 %-kal (= 100 – 63,7 %), vagyis 18,7 ezrelékponttal csökkent. A nők korosztályonkénti szerkezeti változása önmagában az országos adat növekedéséhez vezetett volna. (4,6 % relatív növekedés, ami 1,5 ezrelékpont abszolút növekedést jelent.) A szerkezetváltozás növekedést eredményező hatása annak következménye, hogy éppen a két legtermékenyebb korosztályban (20 – 24 és 25 – 29 évesek) emelkedett a szülőképeskorú nők aránya (+0,8 ill. +1,9 százalékponttal), így a legmagasabb abszolútértékű részviszonyszámok kapták a legnagyobb súlyokat. Fontos megfigyelni a szülőképeskorú nők létszámának alakulását. 1960-hoz képest 63.148 fővel kevesebben voltak 2003-ban. Ennek ellenére az összetételindex növekedést jelez. Ez is jól mutatja azt, amire már többször felhívtuk a figyelmet, a súlyoknak nem az abszolút, hanem a relatív nagysága a befolyásoló tényező.

151

A szöveges elemzést csak az egyik – a részátlagindex számításánál a régebbi időszak relatív gyakoriságait állandónak véve – írjuk le. 152 17,2 ezrelékpont = minden 1000 nő tizenhéttel kevesebb gyereket szül.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



140



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



141



BEMUTATÓ FELADAT III. – területi153 összehasonlítás 8.3.1. sz. tábla megnevezés

bruttó átlagbér (2003) Ft / fő / hó

→ ágazat ipar nem férfi

144.907

mezőgazdaság 89.940



105.133

együtt statisztikai jelölés

dolgozók megoszlása (2003) %

ipar

mezőgazdaság

fiktív adatok

a hatások elkülönítéséhez 1.

2.

0,60436

0,76177

54.356

110.386

78.510

0,39564

0,23823

31.062

25.046

129.171

87.217

1

1

85.418

135.432

v0 és V0

v1 és V0

g 0 ∗ v1 =

g1 ∗ v 0 =

Vst (1)

Vst ( 2)

g0

g1

8.3.2. sz. tábla megnevezés

részátlagindexek és összetételindex és a bruttó átlagbérek különbségek különbségek eltérése standard: v0 standard: B0

állománycso% port

Ft / fő / hó

85.418 / 129.171 = 66,1 %

135.432 / 129.171 =104,8

fizikai

62,1

-54.967

85.418 - 129.171 = 43.753 Ft

135.432 / 129.171 = +6.261 Ft

szellemi

74,7

-26.623

standard: B1

standard: v1

együtt

67,5

-41.954

87.217 / 135.432 = 64,4 %

87.217 / 85.418 = 102,1 %

statisztikai jelölés

i és I

k és K

87.217 - 135.432 = 48.215 Ft

87.217 - 85.418 = +1.799 Ft

153

A területi összehasonlítás nem feltétlenül földrajzi ételemben használatos. A gazdasági szaknyelvben szokás a nemzetgazdaság különböző területeiről beszélni, miközben az egyes nemzetgazdasági ágakra, ágazatokra gondolunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



141



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Standardizálás Vissza



142



♥ SZÖVEGES ELEMEZÉS 2003-ban Magyarországon a mezőgazdasági alkalmazottak bruttó átlagbére 32,5 %-kal, azaz 41.954 Ft-tal alacsonyabb volt, mint az ipari alkalmazottaké. Az eltérést két ellentétes előjelű hatás okozza. Egyrészt mind a két megfigyelt részsokaságban (férfiak, nők) alacsonyabb az alkalmazottak bruttó átlagbére. Ha a nemzetgazdaság két vizsgált ága között csak ebben lenne eltérés (vagyis a nemek aránya azonos lenne), akkor a mezőgazdasági és az ipari átlagbérek között még nagyobb különbség mutatkozna. A mezőgazdasági átlagbér 35,6 %-kal, azaz 48.215 Ft-tal lenne alacsonyabb. Az eltérés másik oka a dolgozók nemek szerinti összetételének különbözősége. A mezőgazdaságban a magasabb átlagbérű férfiak aránya majdnem 16 %-ponttal nagyobb, tehát a magasabb átlagolandó érték nagyobb súlyt kap. Ezért, ha csak a nemenkénti szerkezet eltérésére figyelünk, azt tapasztaljuk, hogy a mezőgazdasági átlagbérek 4,8 %-kal, azaz 6.261 Ft-tal magasabbnak látszanak. Fontos megjegyezni, hogy területi adatok elemzése esetén nem adódik értelemszerűen, hogy melyik adatot jelöljük „0”-val és melyiket „1”-vel; ezt eldönteni a számítást végzők feladata. A döntéshez azonban az elemzés során végig ragaszkodnunk kell. Ha a jelöléseket fordítva osztottuk volna ki, természetesen részben más számadatokat kapunk eredményül, de a következtetéseink a jelen megoldás következtéseivel azonosak lennének. Tekintsük viszonyítási alapnak (0) a mezőgazdaságra vonatkozó adatokat és viszonyítandó értéknek (1) az ipar adatait. A főátlagindex = 148,1 %, a főátlagok eltérése epdig +41954 Ft. A részátlagindex (standard az újabb időszak súly adata) = 151,2 %, az összetételindex (a tanult számszaki összefüggésre figyelve) = 97,9 %. A két indexhez tartozó különbségek pedig (az eddigi sorrendnek megfelelően) +43.753 Ft / fő / hó ill. -1.799 Ft / fő / hó. (Az indexek reciprokai az előzőekben kiszámítottaknak, a különbségeknek pedig csak az előjele változott.) És most így fogalmazhatunk: az iparban dolgozók bruttó átlagbére 48,1 %-kal magasabb stb. A standardizálás módszerét árak elemzésére is felhasználhatjuk, de csak homogén árucsoportok esetén. Erre az ár-, érték-, volumenindex számítás témakörben visszatérünk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



142



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

143



záró megjegyzések: Az intenzitási viszonyszámok és a számtani átlag szoros "rokonságot" mutat, ezért 1. V =

∑B v = g v = ∑ f x = g ∑ ∑ ∑B ∑f = v , ∑ f = B , ∑ g = 1 és s = f * x

∑A ∑B

ahol: xi

ij

ij ij

=

ij

ij

ij

i

ij

ij ij

i

ij

i

i

i

i

ij

xij =

∑s

ij

f ij

=

∑s n

ij

= xa

i

A képletekben két futóindexeket kellene alkalmaznunk (pl Bio ), az első a részeket (csoportokat) jelentené, a második az eltérő időpontokat ill. az eltérő területeket, a 2. képletek egyszerűbb írása érdekében azonban az első futóindex feltüntetésétől eltekintünk. A kapott számszerű eredmények szöveges megfogalmazásánál vigyáznunk kell a megfelelő kifejezések használatra. 3. Ha időbeli összehasonlítást végzünk, akkor növekedésről, csökkenésről, ha térbeli összehasonlítást végzünk, akkor eltérésről (azaz az egyik terület adata kisebb, kevesebb vagy nagyobb, több lehet a másik terület adatánál) beszélhetünk. Az indexeket ( I ) %-os formában használjuk, 100 % feletti részük jelenti a növekedést, ill. azt, hogy a számlálóban szereplő területre vonatkozó adat nagyobb; a 100 4. %-ra kiegészítő adat pedig a csökkenést ill. azt, hogy a számlálóban szereplő területre vonatkozó adat kisebb. 5. A különbségek ( K ) mértékegysége értelemszerűen megegyezik V mértékegységével. 6.

A standardizálás módszerét homogén árucsoportok esetében az árak elemzésére is felhasználhatjuk. Erre a 9. fejezetben tértünk ki.

Ahogy a bemutató példákból is jól látható, a részátlagindex és az összetételindex ill. az ezekhez tartozó különbségek nagysága, attól függően, hogy melyik adatokat 7. tekintettük állandónak, eltérő (egyes esetekben igen erősen). Az eltérés részletes vizsgálata nem képezi tananyagunk részét, de a módszer használatakor éppen ezért célszerű mindig mind a két súlyozást alkalmazva kiszámítani az adatokat.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



143



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



144



8.4. Gyakorló feladatok 1. feladat A magyar lakosság és a meghaltak életkoronkénti és nemenkénti megoszlása, 2003154 meghaltak lakosság életkor nők férfiak nők férfiak fő –10

399

503

496.256

521.953

11 – 20

122

232

617.457

642.727

21 – 30

250

763

777.656

811.908

31 – 40

599

1.492

669.253

682.514

41 – 50

2.546

6.043

750.476

716.010

51 – 60

5.052

11.262

715.045

629.522

61 – 70

8.599

14.979

595.429

434.170

71 – 80

19.623

19.800

484.446

284.551

81 –

28.617

14.942

217.888

95.101

összesen

65.807

70.016

5.323.906

4.818.456

1. Mutassa ki az ezer lakosra jutó halálozási arányszámok nemenkénti eltérését, továbbá az eltérést okozó tényezőket indexek és különbségek formájában is! 2. Írjon szöveges elemzést! 3. Számítsa ki155 valamennyi részsokaságra vonatkozóan valamennyi eddig tanult és kiszámítható statisztikai adatot (középértékek, szóródás stb.) 4. Készítsen ábrákat! 5. Hasonlítsa össze a rész és a fősokaságok megoszlását, koncentrációját!

154 Adatforrás: Demográfiai évkönyv (KSH, Budapest – 2004; 58. – 59. old. ill. 8. – 9. old. ) 155

Az ismétlő feladatok megoldása érdekében, ha szükséges, lapozzon vissza az előző fejezetekhez!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



144



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



145



2. feladat A 15 – 74 éves népesség gazdasági aktivitása nemek szerint Magyarországon156 a gazdaságilag aktív 15 – 74 éves megnevezés népesség ezer fő

foglalkoztatott népesség

a gazdaságilag nem aktív 15 – 74 éves népesség

2000

2003

2000

2003

2000

2003

férfi

2.264,7

2.265,0

2.105,8

2.126,5

1.441,0

1.426,4



1.855,2

1.901,4

1.750,4

1.795,4

2.218,6

2.152,1

1. 2. 3. 4.

Elemezze az aktivitási arány időbeli változását! Elemezze a munkanélküliségi ráta időbeli változását! Mindkét esetben mutassa ki az eltérést okozó tényezők hatását! Írjon szöveges elemzést!

3. feladat Az alkalmazásban álló nők bruttó átlagkeresete (Ft / fő / hó) 1998-ban és 2003-ban

• fizikaiak: 52.421 ill. 98.173 • szellemiek: 118.914 ill. 246.984 • együtt: 71.931 ill. 147.345 1. Elemezze a nők bruttó átlagkeresetének változását tényezőkre bontással indexek és különbségek formájában is! 2. Írjon szöveges elemzést!

156

Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004; 86. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



145



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

146



4. feladat Az alkalmazásban álló férfiak bruttó átlagkeresetének (Ft / fő / hó) változását vizsgálták 1998 és 2003 adatait összehasonlítva. A számítások során a következő eredmények adódtak:

I = 2,048421404 I ′′ = 1,038840633

K ′′ = 5509

standard: B0

1. Számítsa ki – a tanult indexösszefüggéseket szem előtt tartva – az elemzéshez hiányzó adatokat! 2. Írjon szöveges elemzést! 5. feladat Egy vállalkozás bér- és létszámadatai: bázis év

tárgy év

bérkategória

nettó bér ezer Ft

bérkategória

nettó bér ezer Ft

A

70 – 90

35

A

80 – 100

40

B

90 – 110

80

B

100 – 120

80

C

110 – 130

120

C

120 – 150

120

D

130 – 150

15

D

150 – 180

10

250

együtt

együtt

dolgozók fő

dolgozók fő

250

stat. jelölés

1. Számítsa ki az egy főre jutó bér változását, továbbá a változást okozó tényezőket %-ban és Ft-ban is! (állandó: B1) 2. Írjon szöveges elemzést!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



146



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



147



6. feladat foglalkozási csoport

létszám megoszlás (%)

egy főre jutó bér (2004) e Ft

egy főre jutó bér (2005) e Ft

szellemi

68,8

200

220

adminisztratív

25,0

150

160

fizikai

6,2

100

115

összesen

100,0



203

2004. jan.

1. Elemezze az egy főre jutó bér alakulását! 2. Mutassa ki befolyásoló tényezők hatását! A relatív és az abszolút változást is számolja ki! 3. Írjon szöveges elemzést! 7. feladat Egy termék gyártását egy vállalkozás budapesti és vidéki gyáregysége egyaránt rendszeresen végzi. A termék gyártásával kapcsolatban a következő adatok állnak rendelkezésünkre: 2005. jan. gyáregység

2006. jan.

Ft / db

a termelés megoszlása %

az önköltség változása Ft / db

5 000

2 500

60

+ 400

5 000

2 000

40

+ 400

termelés

önköltség

db Budapest vidék együtt

1. Elemzze az önköltség változását, mutassa ki a befolyásoló tényezők hatását külön-külön, Ft-ban és %-ban is! 2. Írjon szöveges elemzést!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



147



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



148



8. feladat Két bánya 2005 évi termelési adatait hasonlítjuk össze. „Z” bánya termelése a külszíni és a földalatti termelési mód között 75 – 25 %-ban oszlik meg. A két bánya termelékenységét (= termelés létszámra vetítve) összehasonlítva („Y” hasonlítva „Z”-hez) a következő indexeket kapjuk: külszíni: 0,93

földalatti:1,00

együttesen: 1,10.

1. Számítsa ki a két bánya termelékenységének eltérését okozó tényezők hatását indexek formájában! 2. Írjon szöveges elemzést! 8.5. Összefoglalás = olyan statisztikai módszer, mellyel főátlagokat vagy összetett intenzitási viszonyszámokat hasonlíthatunk össze úgy, hogy nemcsak azok standareltérésének relatív (I = index) vagy abszolút (K = különbség) nagysádizálás gát tudjuk megállapítani, hanem lehetőségünk nyílik az eltérést kialakító tényezők (= összetétel, egyedi indexek) hatásának kimutatására is. az összehasonlítás elvégezhető: – térben – időben alkalmazott képletek

I

=

V1 , ahol V0

V1 =

V1 , Vst ( 2 )

Vst ( 2 ) =



I′

=

átlagfor- ahol → mában Vst (1) is szá= , mít-ható V 0

ahol →

∑B v ∑B

1 1

V0 =

1

∑B v ∑B

0 0

= V1 − V0

K

0

∑B v ∑B

1 0

= V1 − Vst ( 2 )

1

Vst (1) =

∑B v ∑B

0 1

K′ = Vst (1) − V0

0

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



148



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

= I ′′

Vissza

Vst ( 2 )



149



= Vst − V0

V0

K ′′

V = 1 Vst (1)

= V1 − Vst (1)

Összefüggések: (lásd: 6. sz. megjegyzés)

I st′ :B1 * I st′′:v0 vagy I st′ :B0 * I st′′:v1

I

K

Kst′ :B1 + Kst′′:v0 vagy Kst′ :B0 + Kst′′:v1

8.6. Mintafeladatok korábbi vizsgadolgozatokból 1. minta Egy kereskedelmi vállalkozás két részlegének adatai: a forgalom megoszlása

az egy eladóra jutó forgalom

2005

2003

%

ezer Ft / fő / hó

58

2.960

4.000

rövidáru

2.467

3.360

együtt

2.592

részlegek

konfekció

1. 2. 3. 4.

2005

Elemezze az egy eladóra jutó forgalom nagyságát! Mutassa ki a változásban szerepet játszó tényezők hatását! Írjon szöveges elemzést! A számításokat kétféleképpen is végezze el!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



149



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Standardizálás Vissza



150



eredménytábla A dolgozat-lapon természetesen több helye lesz az adatok beírására. megfogalmazás számadat mértékegység stat. jelölés a konfekció osztályon történt abszolút változás a konfekció osztályon történt relatív változás a rövidárú osztályon történt abszolút változás a konfekció osztályon történt relatív változás az együttes abszolút változás az együttes relatív változás a termelékenység változásának hatása – abszolút változás (standard: a 2003-as létszámmegoszlás) a termelékenység változásának hatása – relatív változás (standard: a 2003-as létszámmegoszlás) a szerkezetváltozás hatása – abszolút változás a szerkezetváltozás hatása – relatív változás a termelékenység változásának hatása – abszolút változás (standard: a 2005-ös létszámmegoszlás) a termelékenység változásának hatása – relatív változás (standard: a 2005-ös létszámmegoszlás) a szerkezetváltozás hatása – abszolút változás a szerkezetváltozás hatása – relatív változás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



150



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



151



2. minta Egy mezőgazdasági termelő háromféle szőlőt termeszt. A tárgyidőszaki termésátlagok a következők: „A”: 5,0 tonna/ha, „B”: 6,5 tonna/ha, „C”: 7,0 tonna/ha. Az együttes termésátlag pedig 6,6 tonna/ha. Az egyes fajták termésátlagainak változása a bázisidőszakról a tárgyidőszakra: – 0,5; -0,7; -1,0 tonna/ha (adatok az előző sorrend szerint). Az átlagos termésátlagok változása: + 0,3 tonna/ha. A termőterületi arányok megváltozása miatt az együttes termésátlag a vizsgált időszakban 0,9 tonna/ha-ral növekedett. Elemezze az átlagos szőlőtermés változását indexek és különbségek formájában is! Standard: B1. A főátlagok abszolút változása a részátlagok változása miatt. Előjel is kell. A zsebszámológép kijelzőjéről csak az egésze számokat és az első tizedest másolja át!

.…... A főátlagok relatív változása. Előjel is kell. A zsebszámológép kijelzőjéről csak az egésze számokat és az első tizedest másolja át!

……. A főátlagok relatív változása az összetétel változása miatt. Előjel is kell. A zsebszámológép kijelzőjéről csak az egésze számokat és az első tizedest másolja át! …….. Döntse el az alábbi kijelentésekről, hogy igazak-e! Az üres cellákba I (= igaz) vagy H (= hamis) betűt kell írni. Az Ön által megoldott feladatban a fiktív főátlag az összetételindex nevezőjében szerepelt, így tudtuk a másik összetevő állandóságát biztosítani. Az Ön által megoldott feladatra vonatkozóan igaz, hogy a termőterületi arányok a magasabb átlaghozamú fajták javára módosultak. Az Ön által megoldott feladatra vonatkozóan igaz, hogy a termésátlagok átlagosan csökkentek. Ha a standardizálásnál az állandónak vett tényezőt megváltoztatjuk, lehetséges, hogy más előjelű eredményeket (K’ és K”-re) kapunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

igaz / hamis



151



Statisztika

Standardizálás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

152



3. minta Két ország (K, L) halálozási arányszámait (=halálozási ráta, ezrelékben) hasonlítottuk össze (a viszonyítási alap = K ország) az alábbi adatok ismeretében: életkor év

népesség

halálozási ráta

millió fő

ezrelék

K

L

K

L

0 – 14

6

3

2,0

1,5

15 – 59

12

15

3,5

2,5

60 -

2

12

50,0

45,0

együtt

20

30

Miután elvégezte a szükséges számításokat (ahol standard: B0 ), írja be az alábbi elemző szövegbe a hiányzó számadatokat, illetve fogalmakat!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



152



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Standardizálás Vissza



153



szöveges elemzés a színnel nem jelzett keretekbe szöveget, a kék színűbe számokat, a zöld színűbe mértékegységeket kell írni. Két ország ……………………….. (= meghaltak / lakosság) hasonlítottuk össze korcsoportonként és együttesen; abszolút és relatív módon is. Az öszszehasonlítás során ………………………. adatait tekintettük ……………………..... A korcsoportonkénti halálozási ráták rendre …………………….-ban ………………., ennek ellenére az együttes halálozási ráta …………………….-ban a …………..,kerekítve …….. ……., azaz ……. ………….. Ha két országban ……………….. lenne a lakosság ………………………………… és csak a korcsoportonkénti halálozási ráták térnének el, akkor természetesen ugyanarra az eredményre jutnánk, mint a korcsoportonkénti összehasonlításnál; vagyis ……………….-ban az együttes halálozási ráta ………. …….., azaz ……… ………….. ……………… lenne. Az eltérő következtetés oka, hogy a lakosság korszerinti összetétele jelentősen …………. ………………-ban a lakosság ………….. ………….., mint ………………-ban. A ……………….. életkorban pedig természetesen ………………. a …………………. (Azaz ………………. átlagolandó értékhez ……………. …………………. = súlyok tartoznak és fordítva. Ez pedig lefelé viszi a főátlagot /……………………………./. Ha tehát a lakosság ……………………….. ………… lenne azonos a két országban és csak a korszerinti összetétel térne el, akkor ………………….ban az együttes halálozási ráta …………. ………., azaz ……………. …………….. lenne ……………... A standardizálással kapcsolatos számítások elvégzéshez szükségünk volt egy …………. kiszámítására. Jelen esetben ………….. létszám adataival súlyoztuk …………… halálozási ráta adatait. Az így kapott standard főátlag: ………….. …………… Ennek jelentését kétféleképpen is megfogalmazhatjuk. 1000 lakosra …………. halálozás jutna ……….., ha ott is az ……………….. halálozási ráták lennének érvényesek. 1000 lakosra ………… halálozás jutna …………….., ha ott is a ………………. létszámarányok lennének érvényesek.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



153



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Ár-, érték-, volumenindex-számítás Vissza



154



9. Ár-, érték-, volumenindex-számítás 9.1. Bevezetés Egy család fogyasztásának, egy vállalat vagy egy nemzetgazdasági ág termelésének, egy kereskedő forgalmának – és folytathatnánk a sort – összesítése a fogyasztási javak, az előállított ill. az értékesített termékek sokszor igen különböző természetes mértékegységei157 miatt gyakorlatilag egyetlen módon lehetséges, ha ismerjük a megfigyelt javak, szolgáltatások stb. árait. Ha ugyanis ezek mennyiségét (qi ) beszorozzuk egységárukkal ( pi ) már összesíthető adatokhoz – a fogyasztás, a termelés, az értékesítés – értékéhez (vi = qi ∗ pi ) jutunk. Ebben a fejezetben egy olyan statisztikai módszerrel ismerkedünk meg, melynek segítségével az árakat, a mennyiségeket és az értéket egyedileg és együttesen is elemezhetjük; változásukat, eltérésüket és összefüggéseiket különbségek (k , K ) ill. indexek (i, I ) formájában kimutatva. 9.2. Egyedi elemzések

Egy-egy termék árát (i p ) , önköltségét; eladott vagy megtermelt mennyiségét

(i ) két időszak vagy két földrajzi terület adatai alapján is összehasonlíthatjuk. q

A két változás (eltérés) együtt a vizsgált termékek értékének (iv ) , összköltségének változását mutatja meg. Természetesen a statisztikai megfigyelés nem terjed ki mindenegyes hazánkban előállított vagy forgalmazott termékre. A teljes körű megfigyelés megoldhatatlan feladat (pénz, idő stb.) és tulajdonképpen felesleges is. A tapasztalatok ugyanis azt mutatják, hogy egyes termékcsoportokra vonatkozóan mindig kiválasztható egy-egy un. vezértermék, és elég ennek változásait megfigyelni. (A vezértermék „húzza maga után” a termékcsoport többi termékét.) Ilyen vezértermék pl. a tej-féleségek esetén a 2,8 %-os literes kiszerelésű zacskós tej, vagy a kenyérféleségek esetén az 1 kg-os félbarna kenyér. A vezértermékek közös jellemzője, hogy igen nagy mennyiségben

157

Gondoljuk meg, pl. az élelmiszerboltokban kilogrammban mérik a kenyeret, a húst, literben a tejet, tubusban árulják a fogkrémet, különböző méretű flakonokban az üdítőt, dobozokban a konzervet stb.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



154



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



155



állítják elő, és nagyon sokan vásárolják az alacsonyabb jövedelmű lakossági rétegek számára is elérhető áruk miatt. Az egyedi vizsgálatok során számíthatunk:

• indexeket (= relatív változás, relatív eltérés158) és • különbségeket (= abszolút változás) az árakra, az értékekre és a volumenre (= mennyiségre) vonatkozóan is. A felsorolt indexek és különbségek képletei:

ip =

p i1 pi 0

árindex

iq =

qi1 qi 0

mennyiségi index

iv =

vi1 qi1 pi1 = vi 0 qi 0 pi 0

értékindex

k p = pi1 − pio

k q = qi1 − qi 0

az árak változása

a mennyiségek változása

k v = vi1 − vi 0 az érték változása

A képletekben szereplő betűk jelentése:

pi = az i-edik termék ára

ip = egyedi árindex

kp = az egyedi árak abszolút változása

qi =

vi =

i=

az i-edik termék mennyisége

az i-edik termék értéke

a vizsgált termékek sorszáma

iq =

iv =

0=

egyedi mennyiségi index

egyedi értékindex

a bázisul választott időszak jelölése

kq =

kv =

1=

az egyedi mennyiségek abszolút változása

egy-egy termék értékének abszolút változása

a bázishoz hasonlítandó időszak adata

Egyedi indexek esetén a számítás közvetlen eredménye mértékegység nélküli szám, ezt százalékszámmá alakítjuk, majd a 100 %-hoz hasonlítva 158

A továbbiakban mindig csak változásról fogunk beszélni (= időbeli összehasonlítás), ahogy a standardizálás témakörénél is tettük. A bemutató feladatok között azonban találnak területi összehasonlításra vonatkozót is.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



155



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



156



(= változatlanság) megkapjuk a relatív változásokat kifejező adatokat. (A megfogalmazásokban rendszerint ez utóbbiak szerepelnek.) A három egyedi indexek között – ahogy azt a képletek felírásából is láthatjuk – összefüggés van, az értékváltozás két részre bontható, azaz nemcsak a megadott formában, hanem a két másik index szorzataként159 is felírható.

iv = i p ∗ i q Az egyedi különbségek mindegyikének van mértékegysége, az árak és az értékek esetén ez valamilyen pénznem, a mennyiségek esetében pedig db, kg, l stb. lehet, a termék jellegétől függően. Az eltérő mértékegységek azonban nem teszik lehetetlenné, hogy az értékek változását pénzben kifejezve is szétbontsuk összetevőire. A standardizálásnál megismert „állandó tényező” gondolatát kell itt is követnünk. Ha az árak okozta értékváltozást akarjuk felírni, akkor a mennyiségeket kell állandónak tekinteni, így:

q1 p1 − q1 p0

vagy

q0 p1 − q0 p0 .

Ha pedig a mennyiségek változásának az értékre gyakorolt hatását akarjuk kimutatni, akkor az egységárakat kell állandónak tekinteni, így:

q1 p1 − q0 p1

vagy

q1 p0 − q0 p0 .

Ezekből a különbségekből azután „összerakható” a teljes értékváltozás, így:

k v = (q1 p1 − q1 p0 ) + (q1 p0 − q0 p0 ) vagy

k v = (q0 p1 − q0 p0 ) + (q1 p1 − q0 p1 ) Az értékváltozás az árváltozásból és a mennyiségváltozásból adódó része forintban kifejezve, ha az egyik ill. a másik számítást alkalmazzuk, eltérő adatokat eredményez, ezért mindig alaposan meg kell gondolni160, melyik képletet alkalmazzuk, ill. célszerű mindkét számítást elvégezni. (Számottevő különbség a két számítás részeredményei között azonban csak akkor 159 160

Az indexek szorzása mindig együtthatós formájukkal történik. Az összevont indexeknél visszatérünk a problémára.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



156



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

157



van, ha olyan jelentős mértékű árváltozás történt, ami erősen befolyásolta a mennyiségek alakulását.) BEMUTATÓ FELADAT 9.1.1. tábla A magyar mezőgazdaság adatai161 (kiemelés) 2000 2003 felvásármegneve- termésmennyitermésmennyilási átzés ség ség lagár ezer tonna ezer tonna Ft / tonna búza 3.692 27.778 2.941 statisztikai q0 p0 q1 jelölés

felvásárlási átlagár Ft / tonna 30.195

p1

9.1.2. tábla 1. munkatábla megnevezés

a felvásárolt búza értéke milliárd Ft

búza

2000 102,6

2003 88,8

a felvásárolt búza értéke, fiktív adatok milliárd Ft 1. 2. 111,5 81,7

statisztikai jelölés

q0 p0

q1 p1

q0 p1

161

q1 p0

Magyar statisztikai évkönyv 2003 (KSH – Budapest, 2004. 339., 393. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



157



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



158



9.1.3. tábla 2. munkatábla indexek megnevezés

búza statisztikai jelölés

különbségek mennyiár mennyiség érték ár érték ség milliárd % Ft ezer tonna Ft 88,8 = 30.195 30.195 = 2.941 = 2.941 – 88,8 102,6 27.778 3.692 27.778 = 3.692 = 102,6= =108,70 = 79,66 = 86,60 =2.417 =(-751) =(-13,8)

ip

iq

iv

kp

kq

kv

9.1.4. tábla 3. munkatábla értékváltozás (milliárd Ft) az árak válto- a mennyiség zása változása állandó következtében 111,5 - 102,6= 81,7 - 102,6= a 2000 évi adat =8,9 =(-20,9) statisztikai q0 p1 − q0 p0 q1 p0 − q0 p0 jelölés 88,8 - 81,7= 88,8 - 111,5= a 2003 évi adat =7,1 =(-22,7) statisztikai q1 p1 − q1 p0 q1 p1 − q0 p1 jelölés megnevezés

A dokumentum használata | Tartalomjegyzék | Táblázatok

az értékváltozás öszszetevőkből milliárd Ft 8,9 + (- 22,7) = (-13,8)

7,1 + (- 20,9) = (-13,8)

Vissza



158



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



159



♥ SZÖVEGES ELEMEZÉS A magyar búzatermelés 2000 és 2003 évi mennyiségi adatait (ezer tonna) és felvásárlási árait (Ft/tonna) hasonlítottuk össze. Megállapítottuk, hogy a felvásárlási ár 8,7 %-kal (i p ) emelkedett, a termelt mennyiség viszont ≅20 %kal (iq ) csökkent. A két ellentétes hatás következtében a megtermelt búza

értéke is – 1≅3,4 %-kal (iv ) –– csökkent. Végezetül elkülönítettük az értékváltozás összetevőinek hatását pénzmértékegységben is. Ha csak az árak változtak volna, akkor az érték is növekedett volna 8,9 milliárd Ft-tal. Ha csak a mennyiség változott volna a ténylegesnél nagyobb 22,7 milliárd Ftos lett volna az értékcsökkenés. (És ez a csökkenés az erősebb hatás.) 9.3. Összevont (együttes, átlagos) elemzések Tekintettel arra, hogy az egyes termékek, szolgáltatások ára és mennyisége nem egyforma mértékben és nem azonos irányban változik, még akkor sem tudjuk biztosan megmondani, hogy például egy család helyzete javulte vagy éppen romlott, azaz jövedelméért a korábbinál nagyobb vagy kisebb mennyiségű terméket ill. szolgáltatást tudott-e megvásárolni, ha fogyasztói kosarának igen sok vagy majdnem minden összetevőjére meghatározzuk az egyedi indexeket. Hasonló a helyzet, ha a vállalatok akarják megtudni, helyzetük hogyan alakult, akár mint vevőknek a beruházási javak vagy a munkaerő piacán, akár mint eladóknak értékesítési piacaikon. Ezért van szükség az összevont indexek és különbségek számítására is. Ezek a termékek egy-egy csoportját vagy akár teljes sokaságát együtt vizsgálják, és az átlagos ár-, mennyiség- és értékváltozást mutatják. Továbbá szükség van ezen együttes változások pénzben (abszolút változás) történő kifejezésére is. Az együttes változások számítása legkönnyebb az értékváltozások kimutatása esetében. Az értékadatok ugyanis összesíthetőek, összegüknek van jelentése. Megmutatják egy család teljes fogyasztását, egy áruház teljes forgalmát stb. Ezek az összesített adatok pedig oszthatóak egymással ill. kivonhatóak egymásból. Képletszerűen: Iv =

∑q p ∑q p

1 1

0

0

aggregát értékindex

K v = ∑ q1 p1 − ∑ q0 p0

aggregát értékváltozás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



159



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

160



A különböző termékek árainak és mennyiségi adatainak összesítése azonban értelmetlen. Sőt – ahogy erről a bevezetőben már írtunk – a mennyiségek összesítése sokszor lehetetlen is. Az árak összesítése pedig, ha azt feltételezzük, hogy van olyan vásárló, aki minden megfigyelt áruból egyetegyet vesz, akkor sem lehetséges, hiszen az egy itt q-jelű, mennyiségi adat, amivel szorozni kellett az árat (természetesen ez a számadaton nem változtatott), így az eggyel szorzott áradatok összege, már értékadat. Az öszszesítési nehézséget úgy oldjuk meg, ahogy azt az egyedi értékváltozás összetevőkre bontásánál is tettük, értékeket összesítünk, majd ezeket osztjuk egymással, ill. vonjuk ki egymásból. Ezek az értékadatok azonban mindig csak egyik tényezőjükben különböznek. Ennek az a következménye, hogy a kiszámított ár- és mennyiségi index mindig kétféle jelentést hordoz. Egyrészt átlagos átváltozást ill. átlagos mennyiségváltozást fejeznek ki, másrészt az árváltozások ill. a mennyiségváltozások következtében kialakult értékváltozást, vagyis az értékváltozás összetevőit mutatják. Képletszerűen: I 0p =

∑q p ∑q p 0

1

0

0

I 1p =

∑q p ∑q p 1

1

1

0

I q0 =

∑q p ∑q p 1

0

0

0

I q1 =

∑q p ∑q p 1

1

0

1

Laspeyres féle Paasche féle Laspeyres féle Paasche féle árindex árindex mennyiségi- mennyiségi index index Ha felsorolt indexek számlálójában szereplő adatból kivonjuk a nevezőjében szereplő adatokat, akkor jutunk a már említett abszolút változást kifejező különbségekhez. Ezek az indexek felsorolási rendjének megfelelően:

• Az árváltozásokból bekövetkező értékváltozások: K p0 = ∑ q0 p1 − ∑ q0 p0 K 1p = ∑ q1 p1 − ∑ q1 p0

• A mennyiségváltozásokból bekövetkező értékváltozások: K q0 = ∑ q1 p0 − ∑ q0 p0 K q1 = ∑ q1 p1 − ∑ q0 p1

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



160



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



161



A gyakorlati tapasztalatok azt mutatták, hogy a különböző szemléletű (bázis- = Laspeyres, tárgyidőszaki = Paasche) indexek esetenként nemcsak kisebb-nagyobb mértékben eltérőnek mutatták az árak vagy a mennyiségek változását, hanem még előjelükben sem egyeztek meg. Ezért célszerűnek látszott átlagformulákat kidolgozni. Ezek közül a legismertebbek a Fisher-féle ár- és mennyiségi index, a Laspeyres- és a Paasche-féle indexek mértani átlaga. (Ezekhez azonban nem tudunk különbségeket rendelni.)

I pF = I p0 * I 1p

I qF = I q0 * I q1

árindex mennyiségi index Az eddig felsorolt összevont (aggregát) képletekben szereplő betűk jelentése: (Azokat a betűjeleket, melyek már az egyedi index-képletekben előfordultak, nem ismételjük.)

Ip =

Iq =

összevont árindex

összevont mennyiségi index összevont értékindex

Kp =

Kq =

az árváltozások miatt bekövetkezett értékváltozás pénzben kifejezett nagysága

Iv =

a mennyiségváltozások mi- K v = att bekövetkezett értékvál- az értékváltozás pénzben kifejezett nagysága tozás pénzben kifejezett nagysága

0 = L = Laspeyres-féle = 1 = P = Paasche-féle = a a bázisszemléletű indexek tárgyidőszaki szemléletű jelölése indexek jelölése

F = a Fisher-féle átlagformula jelölése

Az eltérő szemléletű árindexekkel kapcsolatban igen sok vita volt és folyik napjainkban is. A bázisidőszaki súlyozás azt jelenti, hogy az árváltozás indukálta mennyiségváltozásokat a számítások során nem vesszük figyelembe. Ezzel szemben a tárgyidőszaki súlyozás alkalmazása során már, az esetleg nagyon nagy mértékű áremelés következtében erősen megváltozott fogyasztási szerkezettel dolgozunk. A lehetséges árindexek közül való választás tehát alkalmas egy jelentős áremelés „elfedésére” is.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



161



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

162



Az elemzéshez felsorolt indexekkel kapcsolatban leírtuk, átlagjelentéssel bírnak. Ha számításuk további lehetséges képleteit felírjuk, és alaposan áttekintjük, ennek részletes magyarázatára már nincs is szükség.

• értékindex: I v =

∑ q p *i ∑q p 0

0

0

v

=

0

∑q p qp ∑ i 1

1

1

1

v

• árindexek: I p0 =

∑q p *i ∑q p 0

0

0

p

=

∑q p qp ∑ i

ill. I 1p =

∑q p qp ∑ i

ill. I q1 =

0 1 0 1

0

∑q p *i ∑q p 1

0

1

p

=

0

p

∑q p qp ∑ i 1

1

1

1

p

• mennyiségi indexek: I q0 =

∑q p *i ∑q p 0

0

0

q

=

1 0 1 0

0

∑ q p *i ∑q p 0

1

0

1

q

q

=

∑q p qp ∑ i

1 1 1 1 q

Általános szabály, hogy ha az aggregát képlet nevezőjében szereplő értékadatot alkalmazzuk súlynak, akkor a számtani átlagformát; ha pedig a számlálójában szereplő értékadatot alkalmazzuk súlynak, akkor a harmonikus átlagformát kell használnunk. Ezekben a formákban az értékadatok helyett természetesen azok megoszlása is szerepelhet.162 Például:

Iv =

∑q p *i ∑q p 0

v

0

0

0

= ∑ g 0iv =

∑q p qp ∑ i 1

1

1

1

v

ahol g 0 =

=

1 , g1 ∑i v

q0 p0 q p és g1 = 1 1 ∑ q0 p0 ∑ q1 p1

Végezetül az összefüggésekre kell figyelmünket fordítani! Ahogy az egyedi vizsgálatnál láttuk, az ár- és a mennyiségváltozás az értékváltozás 162

Lásd: a számtani átlaggal kapcsolatban tanultakat!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



162



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



163



két tényezője, így az értékindex az ár- és a mennyiségi index szorzataként előállítható, és az értékváltozás forintban kifejezett nagysága is felosztható a két tényező elkülönített hatására. Ez a lehetőség az aggregát indexek és különbségek esetében is fennáll, de a különböző szemléletmódok miatt nem minden esetben, számszakilag pontos csak az un. keresztbesúlyozással lesz.

I v = I p0 * I q1 = I 1p * I q0 = I pF * I qF

K v = K 1p + Kq0 = K p0 + Kq1

BEMUTATÓ FELADAT I. 9.2.1.sz. tábla A magyar mezőgazdaság adatai163: fontosabb zöldségfélék 2000

2003

termésmennyiség ezer tonna

piaci átlagár Ft / kg

termésmennyiség ezer tonna

piaci átlagár Ft / kg

fejeskáposzta

120

65,8

153

90,7

paradicsom

203

197,1

281

232,8

34

372,4

30

393,3

89

154,7

81

180,1

uborka

103

192,1

94

184,5

vöröshagyma

117

95,2

94

129,1

zöldbab

27

296,0

26

278,3

zöldpaprika

98

276,5

84

267,3

statisztikai jelölés

q0

p0

q1

megnevezés

petrezselyemgyökér sárgarépa

163

p1

Magyar statisztikai évkönyv 2003 (KSH – Budapest, 2004. 339., 393. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



163



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

164



9.2.2.sz. tábla 1. munkatábla megnevezés

a zöldségfélék piaci értéke (millió Ft) 2000 2003

fejeskáposzta 7.896,0 paradicsom 40.011,3 petrezselyemgyökér 12.661,6 sárgarépa 13.768,3 uborka 19.786,3 vöröshagyma 11.138,4 zöldbab 7.992,0 zöldpaprika 27.097,0 együtt 140.350,9 statisztikai jelölés

q0 p0

a zöldségfélék piaci értéke, fiktív adatok (millió Ft) 1. 2.

13.877,1 65.416,8 11.799,0 14.588,1 17.343,0 12.135,4 7.235,8 22.453,2 164.848,4

10.884,0 47.258,4 13.372,2 16.028,9 19.003,5 15.104,7 7.514,1 26.195,4 155.361,2

10.067,4 55.385,1 11.172,0 12.530,7 18.057,4 8.948,8 7.696,0 23.226,0 147.083,4

q1 p1

q0 p1

q1 p0

9.2.3. sz. tábla 2. munkatábla indexek megnevezés ár mennyiség % fejeskáposzta 137,8 127,5 paradicsom 118,1 138,4 petrezselyemgyökér 105,6 88,2 sárgarépa 116,4 91,0 uborka 96,0 91,2 vöröshagyma 135,6 80,3 zöldbab 94,0 96,2 zöldpaprika 96,7 85,7 együtt – – statisztikai jelölés

ip

iq

175,7 163,5 93,2 105,9 87,7 109,0 90,5 82,9 117,5

különbségek ár mennyiség Ft / kg ezer tonna 24,9 33 35,7 78 20,9 -4 25,4 -8 -7,6 -9 33,9 -23 -17,7 -1 -9,2 -14 – –

érték millió Ft +5.981,1 +25.405,5 -862,6 +819,8 -2.443,3 +997,0 -756,2 -4.643,8 +24.497,5

iv

kp

kv

érték

A dokumentum használata | Tartalomjegyzék | Táblázatok

kq

Vissza



164



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



165



9.2.4. sz. tábla értékkülönbségek (millió Ft)

indexek (%) ár

mennyiség érték

I p0 = I q0 = 110,7 104,8

I 1p = I q1 = 112,1 106,1

I pF = 111,4

I v = 117,5 I p0 ∗ I q1

mennyiségárváltozás együtt változás miatt miatt

K p0 =

K q0 =

Kv =

+15.010,3

+6.732,5

+24.497,5

K 1p =

K q1 =

≅ +17.765,0 1,107*1,061

+9.487,2

K p0 + K q1 = +15.010,3+9.487,2

I 1p ∗ I q0

K 1p + K q0

1,121*1,048

= +17.765,0+6.732,5

I qF = 105,4 ≅

I pF ∗ I qF ≅ 1,114*1,054

♥ SZÖVEGES ELEMEZÉS A Magyar statisztikai évkönyv (2003) adatai alapján a legfontosabb zöldségfélék piaci értékének változását vizsgáltuk. A zöldségfélék ára átlagban 10,7 %-kal (I p0 ), termelt mennyisége pedig 6,1 %-kal I q1 emelkedett. E két változás következtében a piaci érték 17,5 %-kal magasabb volt 2003ban, mint 2000-ben. Ha csak az árak változtak volna, akkor 15.010,3 millió Ft-tal, ha pedig csak a termelt mennyiségek változtak volna, akkor 9.487,2 a millió Ft-tal, és így együtt 24.497,5 millió Ft-tal emelkedett a kiemelt termékek együttes piaci értéke. A termékeket egyedileg vizsgálva megállapíthatjuk, hogy a legnagyobb árnövekedés a fejeskáposztát jellemzi (+37,8%), a legnagyobb árcsökkenés pedig a zöldbabot (-6%). A termelt mennyiségek általában csökkentek, kivéve a fejeskáposztát (+27,5%) és a paradicsomot (+38,4%). A mennyiségek átlagos növekedése annak köszönhető, hogy ezen, növekvő mennyi-

( )

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



165



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



166



ségű termékek aránya a megfigyelt sokaságon belül elég jelentős. A vizsgált termékek közül négynek emelkedett a piaci értéke, legnagyobb mértékben – és ez az előzőek figyelembevételével nem meglepő – a fejeskáposzta esetén (+75,7%); négy termék esetében pedig csökkenést tapasztaltunk, s ez a zöldpaprikára vonatkozóan a legnagyobb, ≅17 %. Fontos megjegyeznünk, hogy mezőgazdasági termékekről lévén szó a termelt mennyiségeket nagymértékben befolyásolhatta az időjárás, és ez természetesen jelentős hatást gyakorolt a piaci árakra is. Az ár-, és a mennyiségi indexek jelentésének megfogalmazása így is helyes lenne, azaz a szöveges elemzés első bekezdésében ez is szerepelhetett volna: A zöldségfélék piaci

( ) 0

árának átlagos növekedése következtében 10,7 %-kal I p , termelt mennyiségének változása miatt

( ) 1

pedig 6,1 %-kal I q emelkedett piaci értékük.

9.4. Az ár-, érték-, volumenindexek felhasználási lehetőségei Az eddigiekben bemutatott indexeket nemcsak az árak, a mennyiségek és az értékek időbeli változásának elemzésére használhatjuk. A módszert felhasználhatjuk: 1. 2. 3. 4. 5. 6. 7.

területi és nemzetközi elemzésekhez, a jövedelmek értékének vizsgálatára, indexsorok képzésére és az un. árollók számítására is, valamint a tőzsdei árfolyamok jellemzésére, továbbá piacelemzésre, az egyedi ár- és mennyiségi indexek közötti korrelációs kapcsolatot megfigyelve.

1. A területi összehasonlítás során két különböző földrajzi hely piacán vizsgálunk azonos termékeket. A számítások megkezdése előtt mindig el kell döntenünk, hogy melyik terület adatát használjuk viszonyítási alapnak (= bázisnak), és melyik területét viszonyítandó értéknek. Döntésünkhöz a számítások során végig ragaszkodnunk kell. A szöveges elemzés készítése közben pedig vigyáznunk kell a helyes szóhasználatra, nem írhatunk növekedésről, csökkenésről, változásról. Egyik terület árai csak alacsonyabbak (kisebbek) vagy magasabbak (nagyobbak) lehetnek a másik területen jellemző áraknál, azaz eltérhetnek egymástól, ill. lehetnek azonosak.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



166



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Ár-, érték-, volumenindex-számítás Vissza



167



2. A területi összehasonlítás speciális esete a nemzetközi összehasonlítás, amikor is két országban figyeljük meg valamely termékek árait, termelt vagy fogyasztott mennyiségeit, majd elvégzzük a számításokat. Fontos, hogy az elemzés során nem váltjuk át egyik ország valutáját sem a másikéra. Ennek következtében az értékindex értelmezhetetlenné válik, az árindex jelentése megváltozik, egyedül a mennyiségi index őrzi meg eredeti jelentését, és csak az ehhez tartozó különbség értelmezhető. A számítások során kötelező a Fisher-féle indexek használata, ugyanis az egyes országok esetleg igen eltérő árarányai ill. termelési, fogyasztási szerkezete miatt gyakran tapasztaljuk, hogy a különböző szemléletű indexek más előjelű eredményt mutatnak, ezért elengedhetetlen az átlagolás. Milyen új jelentést kap az árindex? Akármelyik szemléletű árindexet is számítjuk ki, mindegyik azt fogja megmutatni, hogy az egyik országban hányszor több (vagy kevesebb) saját valutát kell kiadni azonos mennyiségű terméktömeg megvásárlása esetén. Ebből következik, hogy az árindex ebben az esetben a valutákat (és nem az árakat) hasonlítja össze. Ha például a számlálóban szereplő értékadat a nagyobb, vagyis az osztás eredménye egy egész fölötti, akkor annak az országnak a valutája a roszszabb, amelyiknek adatai éppen a számlálóban szerepeltek.

(Gondoljunk egy egyszerű, és nagyon sokunk által személyesen is ismert tényre! Ausztriában egy kg banánt 1 euró körüli áron, itthon pedig 300 Ft körüli áron tudunk megvásárolni – 2006. március –, és mindannyian tudjuk azt is, hogy nem a forint az erősebb valuta.)

A vizsgálat további érdekessége – és tulajdonképpen ez adja az elemzés igazi értelmét – az, hogy a különböző termékcsoportok vizsgálata gyakran igen eltérő eredményre vezet. Tehát a forint / euró arány más lesz az élelmiszerek, más a szolgáltatások (fodrász, fogász, optikus stb.) és megint más a vendéglátás stb. megfigyelése esetén. Ennek oka, hogy az egyes termékek és szolgáltatások árainak arányai és a termelt vagy fogyasztott mennyiségek arányai sem azonosak az egyes országokban. (Ezek a vizsgálatok egyébként magyarázatot adhatnak az un. bevásároló turizmusra is.) Néhány gyakran vásárolt élelmiszerre vonatkozóan gyűjtöttünk adatokat. Az egységárakat a Billa-lánc (Ausztria) ill. a TESCO-lánc (Magyarország) húsvéti katalógusából vettük, a mennyiségeket pedig egyéni kikérdezés (két négytagú család) alapján jegyeztük föl. A megfigyelt adatokat a 9.3.1. sz. tábla, a mutatók értékének meghatározásához szükséges számításokat pedig a 9.3.2. sz. tábla tartalmazza. (Az indexekben a 9.3.2. sz. tábla összesen adatai szerepelnek.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



167



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



168



BEMUTATÓ FELADAT 9.3.1. sz. tábla megnevemértékzés egység

egységár

mennyiség / hó

alma

kg

Ausztria Magyarország Ausztria Magyarország euró/kg Ft / kg 2,25 296 30 20

banán

kg

1,69

349

30

10

ementáli sajt

kg

11,9

1.850

2

1

húsvéti sonka

kg

3,99

1.450

2

2

Zippfer sör 0,5 liter

0,67

280

60

30

ásványvíz

liter

0,29

119

120

30

Fanta üdítő liter

0,66

260

30

12

statisztikai jelölés

p1

p0

q1

q0

9.3.2. sz. tábla megnevezés q0p0

q1p1

q0p1

alma

5.920

67,5

45

banán

3.490

50,7

16,9

10.470

ementáli sajt

1.850

23,8

11,9

3.700

húsvéti sonka Zippfer sör

2.900 8.400

7,98 40,2

7,98 20,1

2.900 16.800

ásványvíz

3.570

34,8

8,7

14.280

Fanta üdítő

3.120

19,8

7,92

7.800

együtt

29.250

244,78

118,5

A dokumentum használata | Tartalomjegyzék | Táblázatok

q1p0 8.880

64.830

Vissza



168



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



169



9.3.3. sz. tábla indexek

Laspeyres

Paasche

Fisher

ár

0,00405

0,003776

0,003911

mennyiség

2,21641

2,065654

2,139705

♥ A két család közül a vizsgált élelmiszerekből az Ausztriában élő család átlagosan ≅ 114 %-kal többet vásárolt, és azonos mennyiségű termékért saját valutájából kevesebbet kellett kiadnia (I pF 〈1) . A vizsgált termé-

kek körében 1Ft = 0,003911Euró , ill. 1Euró = 255,689 Ft . Ez azt jelenti, hogy az osztrák családnak akkor érdemes hazánkban beszereznie a vizsgált termékeket (eltekintve most az utazás költségeitől), ha 1Euróért legalább egy bank többet ad ≅ 256 Ft-nál. Ebben az esetben a többlet pénzt a 9.3.1. sz. táblában szereplő termékekből még nagyobb mennyiségek megvásárlására fordíthatja, vagy más termékeket is megvehet.

3. Mindennapi tapasztalataink mutatják, hogy egyes esetekben hiába emelkedik keresetünk, családunk összes jövedelme (= nominálértéke), nem tudunk több terméket fogyasztani, több szolgáltatást igénybe venni, sőt esetenként vissza kell fogni fogyasztásunkat (= reálérték). Az értékindex alkalmas arra, hogy kimutassuk a jövedelmek nominálértékének változását, a mennyiségi index pedig a reálérték változását mutatja meg. A két index közötti kapcsolatot az árszínvonal változása (= átlagos árváltozás) teremti meg. A KSH 2002-es és 2003-as bruttó ill. nettó átlagkereseti adatai alapján vizsgáltuk a nomináljövedelmek (értékindex) és a reáljövedelmek (mennyiségi index) alakulását külön a férfiakra és a nőkre, ill. a szellemi és fizikai foglalkozásúakra. Számításainkhoz a hivatalos fogyasztói árindexet (104,7 % = I p ) használtuk164.

164

adatforrás: Magyar statisztikai évkönyv 2003 (KSH – 2004, 99., 101. és 348. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



169



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



170



BEMUTATÓ FELADAT 9.4.1. sz. tábla nettó bruttó átlagkeátlagkereset megne- reset Ft / fő / hó Ft / fő / hó vezés 2002 férfiak

2003

2002

2003

a nettó átlaga bruttó átlagkereset kereset változása változása 2003 / 2002 (%) I v

147.345/131.243=1,124 +13,1 +12,4 111.725 128.931 72.036 84.199 +15,4 +16,9

131.143 147.345 82.745 93.604

nők fizikai alkalma- 84.751 91.397 58.472 66.716 +7,8 zottak szellemi alkalma- 169.826 193.275 101.615 115.739 +13,8 zottak

+14,1

+13,9

9.4.2. sz. tábla

megnevezés

a fogyasztói árindexszel korrigált átlagkereset változások bruttó nettó 2003 / 2002 (%) I q

1,124/1,047= 1,0735 +7,4 nők +10,2 fizikai alkalmazottak +3,0 szellemi alkalmazottak +8,7 férfiak

+8,0 +11,7 +9,0 +8,8

♥ A 9.4. sz. táblák adatiból kiolvashatjuk, hogy 2002-ről 2003-ra a mind a bruttó, mind a nettó átlagkereset a nők esetében emelkedett legnagyobb mértékben (+15,4 ill. +16,9%), így természetesen a reáljövedelem is a foglalkoztatottak ezen csoportjában nőtt a leginkább (+10,2 ill. +11,7 %). A

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



170



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



171



felsorakoztatott indexek körül a lakosság helyzetének javulását legpontosabban a fogyasztói árindexszel korrigált nettó jövedelem-változás adatai fejezik ki. 4. Abban az esetben, ha a vizsgált termékek körére nemcsak két év adatai állnak rendelkezésünkre, lehetőségünk van indexsorokat összeállítani. Az indexsorok165 egyes elemei lehetnek bázisviszonyszámok166 és láncviszonyszámok167. Vonatkozhatnak mind az árakra, mind a mennyiségekre és az értékekre is. Képezhetünk indexsorokat állandó- és változó súlyozással; ill. Laspeyres vagy Paasche szemléletben is. Az eddigiekben felsorolt indexsorok mindegyikének vannak előnyei és hátrányai. Például az igen hosszú indexsorok esetén az állandó súlyozás a valóságtól való nagymértékű elszakadást eredményezheti. (Ilyen esetekben megoldás lehet a szakaszosan változó – pl.: 5 évente – súlyozás alkalmazása.) A változó súlyozás viszont a számszaki összefüggéseket nem biztosítja, azaz két indexsor tagjainak ismeretében nem tudjuk pontosan meghatározni a harmadik indexsor egyes elemeit. (Egyébként, ha nincs más lehetőségünk, akkor a számítások során csak a logikai összefüggésre alapozunk.)

• a bázis érték-indexsor (%): 100,0 ;

∑q ∑q

i1

pi1

i 0 pi 0

;

∑q ∑q

pi 2

i2

i 0 pi 0

;∑

qi 3 p i 3

∑q

i 0 pi 0

; stb.

• lánc érték-indexsor (%):

∑q ∑q

i2

pi 2

i1 pi1

;

∑q ∑q

i3

pi 3

i 2 pi 2

; stb.

• bázis ár-indexsor változó súlyokkal, Paasche-szemléletben (%): 100,0;

∑q ∑q

i1

pi1

i1 p i 0

;

∑q ∑q

i2

pi 2

i 2 pi 0

;

∑q ∑q

i3

pi 3

i 3 pi 0

; stb.

5. A gazdaságstatisztikai elemzésekben gyakori, hogy két egymással valamilyen kapcsolatban álló termékcsoport indexeit hasonlítják össze, és az összehasonlítás eredményét ugyancsak hányados (%-os) formában adják meg. Az ilyen jellegű összehasonlítás az árindexekre vonatkozóan a leg165

Az indexsorok részletesebb tárgyalása nem képezi tananyagunk részét. Mindig a legelső év adatai képezik a viszonyítási alapot. 167 Mindig az előző év adatai képezik az összehasonlítás alapját. 166

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



171



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



172



gyakoribb. Az eredményül kapott adatot pedig árollónak nevezik. A két legismertebb árolló a cserearányindex és az agrárolló. Az agrárolló a mezőgazdasági termeléshez felhasznált különböző termékekre és szolgáltatásokra vonatkozó árindex és a mezőgazdaság által előállított, értékesített termékek árindexének hányadosa. (A két termékhalmaz közti kapcsolat mibenléte különösebb magyarázatra sem szorul. A mezőgazdasági termékek értékesítése feltétele annak, hogy a termelők beszerezhessék azokat az ipari termékeket – gépeket, növényvédő-szereket stb. –, melyek nélkül nem tudják folytatni tevékenységüket.) A cserearányindex, a kivitel (export) és a behozatal (import) közötti hasonló kapcsolatra alapozva, hasonlítja össze az export- és az importárindexeket. Az árolló azt mutatja meg, hogy valamely bevételt biztosító termékek bázisidőszakival azonos, illetve egységnyi volumenéért mennyivel nagyobb vagy kisebb volumenű másféle termék kapható cserébe a tárgyidőszakban. árolló =

I bp I pk

I bp = a bevételt biztosító termék árindexe (kivitel) I pk = a vásárolni kívánt termék árindexe (behozatal)

Például, hazánkban 1993-ban az importált termékek ára 9,4 %-kal volt magasabb, mint az előző évben, az exportált cikkek ára pedig 11,9 %-kal. Ugyanezek az adatok 1999/2000 viszonylatában +12,9 % ill. +9,9 %, végül a 2003-as és a 2002-es adatokat összehasonlítva: +0,1 ill. -0,4 %. ♥ Így 1993-ban a cserearány javulását mutatott az előző évhez képest (1,119 / 1,094 = 102,3 %). Ez azt jelenti, hogyha az egész exportból származó bevételt importra fordítottuk volna, akkor az import mennyiségét 2,3 %-kal emelhettük volna. 2000-re vonatkozóan viszont a cserearány romlását figyelhettük meg (1,099 / 1,129 = 97,3 %), vagyis ha az egész exportból származó bevételt importra fordítottuk volna, akkor is csak kisebb (2,7 %kal) mennyiségű árut importálhattunk volna. Az utolsó megfigyelés szintén cserearány-romlást jelez (0,996 / 1,001 = 0,995 → -0,5 %).

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



172



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



173



6. A tőzsdeindex elnevezést kétféle értelemben is használják, egyrészt a részvények átlagos árszintjének, másrészt a részvények átlagos árfolyamának megjelölésére is. A legnevezetesebb tőzsdeindex az 1884 óta számított Dow-Jones ipari index (USA). Értékét 30 különböző iparágban működő, vezető iparvállalat részvényeinek árfolyamát átlagolva határozzák meg, folyamatosan követve a napi árfolyammozgásokat. (1991-től a Budapesti Értéktőzsde indexe – BUX168 – is meghatározásra kerül. Értéke: 1992-ben = 988,4; 2003-ban = 9.914,1. Bázis = 1991. jan. 2.) 7. Az egyedi ár- és mennyiségi indexeket a koordináta rendszerben ábrázolva (a vízszintes tengelyen az árindexek, a függőleges tengelyen pedig a mennyiségi indexek értékeit felvéve) általában (ha nem un. sznobtermékekről stb. van szó) a megfigyelt (számított) adatok pontjai közé egy negatív lejtésű egyenes (görbe) illeszthető. Ennek alapján azt feltételezhetjük, hogy a két index között negatív korrelációs kapcsolat van. Ilyen ábra elkészítése a bemutató példáinkban szereplő igen kevés adat miatt nem lehetséges, de gondoljunk elméleti közgazdaságtani tanulmányainkra, a keresleti görbe ereszkedő jellegére. 9.5. Kiegészítés A standardizálás tárgyalása során megemlítettük, hogy egyes esetekben – homogén árucsoportok – a megfigyelt adatok mind a standardizálás módszerével, mind az ár-, érték-, volumenindexekkel elemezhetők. Az alábbiakban egy bemutató példával szemléltetjük az ilyen eseteket. Megfigyeléseink két magyarországi üdülőkörzetre vonatkoznak, és az egy éjszakára jutó szállásdíj elemzését végezzük el. Legfontosabb megfigyelésünket előre bocsátjuk: I ′ = I p0 , ha standard: B0 és I ′ = I 1p , ha standard: B1

Az elemzés lényeges különbsége, hogy a standardizálás során az átlagár változását, az ár-, érték-, volumenindex-kör mutatóinak kiszámításával pedig az átlagos árváltozást lehet vizsgálni. 168

Az indexkosárban szereplő részvénytársaságok piaci értékének (= piaci ár szorozva a törzsrészvények mennyiségével) változását tükrözi. Az index ezen értékpapírcsomag bázisidőponthoz viszonyított értékváltozását mutatja. (Magyar statisztikai évkönyv 2003, KSH-2004 349. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



173



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

174



9.5.1. sz. tábla Az egy vendégéjszakára jutó szállásdíjak, és a vendégéjszakák két kiemelt üdülőkörzet adatai, 2003169 szállásdíj (Ft) / éjszaka vendégéjszaka (ezer db) SopronSopronmegnevezés BalatonBalatonKőszeg hegyKőszeg hegypart part alja alja szálloda 5.048 4.124 642 2.608 panzió 3.303 3.185 119 240 turistaszállás 1.284 1.254 44 86 ifjúsági szálló 1.273 1.403 8 265 üdülőház 988 3.136 89 299 kemping 1.599 1.531 218 893 p0 p1 q0 q1 statisztikai jelölés v0 v1 B0 B1

9.5.2. sz. tábla 1. munkatábla: részszámítások170 A0= A1= B0*v1 stat.jel. B0*v0 B1*v1 megnev. q0*p0 q1*p1 q0*p1

B1*v0 q1*p0

i= v1/v0 ip = p1/p0

i= B1/B0 iq= q1/q0

i= A1/A0 iv=v1/v0= iq*ip

szálloda panzió

az adatok ezer Ft-ban 3.240,8 10.755,3 2.647,6 13.165,2 0,8170 4,0623 393,1 764,4 379,0 792,7 0,9643 2,0168

3,3187 1,9448

turistaszállás

56,5

107,8

55,2

110,4

0,9766 1,9545

1,9089

ifjúsági szálló 10,2

371,8

11,2

337,3

1,1021 33,1250 36,5078

üdülőház kemping

87,9 348,6

937,7 1.367,2

279,1 333,8

295,4 1.427,9

3,1741 3,3596 0,9574 4,0963

összesen

4.137,1 14.304,2 3.705,9 16.128,9 –

169 170



10,6635 3,9221 –

Adatforrás: Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004; 479. old.) Lásd: a 7.3. táblához írt lábjegyzetet

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



174



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



175



9.5.3. sz. tábla 2. munkatábla: az indexek és a különbségek számítása főátlagok (= összetett intenzitási ár-, érték-, volumenindexek viszonyszámok) standardizálás stat. stat. eredmények számítás eredmények számítás jelölés jelölés 14.304.278 / 14.304.278 / Iv 3.257,636 3,4576 V1 4.391 4.137.067 4.137.067 / 14.304.278 – Kv 3.693,81 10.167.211 V0 1.120 4.137.067 3.705.885 / I p0 Vst:B0 3308,826 0,8958 3705885 / 1120 4.137.067 K p0

-431.182

I 1p

0,8869

K 1p

-1.824.714

I q0

3,8987

K q0

11.991.925

I q1

3,8599

K q1

10.598.393 3,4576

összefüggés

3,4576 10.167.211 10.167.211

3.705.885 – 4.137.068 14.304.278 / 16.128.992 14.304.278 – 16.128.993 16.128.992 / 4.137.067 16.128.992 – 4.137.068 14.304.278 / 3.705.885 14.304.278 – 3.705.886 0,895776 * 3,859882 0,886867 * 3,898654 -431.182 + 10.598.393 -1.824.714 + 11.991.925

Vst:B1

3.673,193

I

0,881918

K

-436,174

I st′ :B0

0,895776

K st′ :B0 -384,984 I st′ :B1

0,886867

K st′ :B1

-415,558

I st′′:v0

0,994419

K st′′:v0

-20,6165

I st′′:v1

0,984529

K st′′:v1

-51,1903

A dokumentum használata | Tartalomjegyzék | Táblázatok

16.128.992 / 4.391 3257,636 / 3693,81 3.257,636 – 3.693,82 3.308,826 / 3.693,81 3.308,826 – 3.693,82 3.257,636 / 3.673,193 3.257,636 – 3.673,194 3.673,193 / 3.693,81 3.673,193 – 3.693,82

3.257,636 / 3.308,826 3.257,636 – 3.308,827

Vissza



175



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



176



2. munkatábla: az indexek és a különbségek számítása (folytatás) főátlagok (= összetett intenzitási ár-, érték-, volumenindexek viszonyszámok) standardizálás stat. stat. eredmények számítás eredmények számítás jelölés jelölés 0,895776 * 0,881918 0,984529 0,886867 * 0,881918 0,994419 összefüggés (-384,174) + -436,174 (-51,1903) (-415,558) + -436,174 (-20,665)

9.5.4. sz. tábla Üdülőkörzet →

Sopron-Kőszeg hegyalja Balaton-part

⎛ Bi szálláshely típus megoszlás ⎜ ⎜ B ↓ i ⎝



⎞ ⎟% ⎟ ⎠

szálloda

57,32

59,39

panzió

10,63

5,47

turistaszállás

3,93

1,96

ifjúsági szálló

0,71

6,04

üdülőház

7,95

6,81

kemping

19,46

20,34

összesen

100

100

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



176



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Ár-, érték-, volumenindex-számítás Vissza



177



♥ SZÖVEGES ELEMZÉS A Sopron-Kőszeg hegyalja és a Balaton-part üdülőkörzetekre vonatkozó adatok – eltöltött vendégéjszakák (ezer db) és az egy éjszakára jutó szállásdíj (Ft), 2003-ban – összehasonlítását végeztük el kétféle módszerrel. 1. Kimutattuk az egy vendégéjszakára jutó szállásdíj eltérését és az eltérést okozó tényezők hatását. (= standardizálás) 2. Elemeztük a szálláshelyek bevételeinek változását kimutatva az átlagos ár- és mennyiségváltozásokat is. (ár-, érték-, volumenindex-kör) Az összehasonlítás során viszonyítási alapnak a Sopron-Kőszeg hegyalja üdülőkörzetet tekintettük. A számításokat pedig mindkét súlyozási rendszerrel (Laspeyres, Paasche ill. standard: B0 és standard: B1) elvégeztük, a szöveges elemzésben azonban csak az egyik rendszer ( I v = I p0 ∗ I q0 és az ezzel ekvivalens standardizálás: I st′ :B0 ) számadatai szerepelnek. (A kétféle súlyozással számított eredmények egyébként az eltéréseket minden esetben azonos előjelűnek mutatják.) Az azonos számértékű indexeket vastagabb számokkal írtuk, és szürke háttérrel, valamint erősebb kerettel is kiemeltük. (9.5.3. sz. tábla) A Balaton-part üdülőkörzetben a szállásdíjakból származó bevételek a vizsgált évben 246 %-kal, azaz 10.167.211 ezer Ft-tal magasabbak voltak, mint a Sopron-Kőszeg hegyalja üdülőkörzetben. Az eltérésnek két ellentétes előjelű összetevője van. A Balaton-parton az árak (= szállásdíjak / éjszaka) átlagosan 10,4 %-kal alacsonyabbak, viszont az eltöltött vendégéjszakák száma átlagosan 289,9 %-kal több. Az árak eltérése a Balatonpart bevételi előnyét 431.182 ezer Ft-tal csökkentette. A vendégéjszakák eltérő nagyságára figyelve (azonos árakat feltételezve) viszont még nagyobb tóparti többletet figyelhetünk meg (+ 10.598.393 ezer Ft). A Balaton-part üdülőkörzetben egy vendégéjszakára átlagosan ≅ 3.258 Ft jutott 2003-ban, a Sopron-Kőszeg hegyalja üdülőkörzetben pedig ≅ 3.694 Ft, azaz a tóparton ≅ 12 %-kal, ≅ 436 Ft-tal kevesebbet kellett fizetni a felsorolt szálláshelyeken egy éjszakáért. Az eltérésnek két azonos előjelű oka van. Egyrészt majdnem minden szálláshely típus esetén a Balaton-part üdülőkörzetben kisebbek az egy vendégéjszakára jutó bevételek (= részintenzitási viszonyszámok), így átlagosan is alacsonyabbak 10,4 %-kal, azaz ≅ 385 Ft-tal. Másrészt eltérő volt a két üdülőkörzetben a vendégéjszakák szálláshely típusonként való megoszlása, (9.5.4.sz. tábla) bár ez csak igen csekély mértékű ≅ 1,5 %-os, azaz mindössze ≅ 51 Ft-os különbséget jelez a főátlagokra vonatkozóan. (Ennyivel alacsonyabbak azonos egy éjszakára jutó betételeket feltételezve a Balaton-part üdülőkörzet szállásdíjai.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



177



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Ár-, érték-, volumenindex-számítás Vissza



178



9.6. Gyakorló feladatok 1. feladat a vizsgált kereskedelmi vállalko- változások a bázis évzás bevételei (millió Ft) hez viszonyítva (%) mennyimegnevezés a bázis évben érték ár ség a tárgybázis tárgyidőszaki évben áron áron 111. bolt 200 +15 -2 112. bolt 400 450 +20 „A” város 211. bolt 150 300 +25 212. bolt 500 -5 „B” báros 500 +20 vállalkozás

1. Számítsa ki a hiányzó adatokat! 2. A vállalkozás egészére vonatkozóan írjon szöveges elemzést! A szöveges elemzésben szerepeljenek az abszolút változások is! 2. feladat Egy mezőgazdasági őstermelő öt különféle zöldséget vitt ki szombaton és vasárnap is a piacra. A szombati bevétele 15.000 Ft-tal, azaz 30 %-kal volt nagyobb, mint a vasárnapi. Vasárnap a zöldségeket átlagosan 25 %-kal drágábban árulta (bázis szemléletű index). 1. Számítsa ki az őstermelő szombati ill. vasárnapi bevételét, valamint a bevétel változásának tényezőit abszolút és relatív módon is! 2. Írjon szöveges elemzést! Az összehasonlítás alapja: szombat.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



178



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

179



3. feladat 2005. április171 egy győri kiskereskedő adatai

egy budapesti kiskereskedő adatai

eladott mennyiség

egységár

eladott mennyiség

egységár

kg

Ft / kg

kg

Ft / kg

idared

250

250

800

230

jonagold

200

220

400

200

starking

120

190

100

190

jonatán

200

150

150

140

zöld

100

310

200

280

összesen

870



1650



alma féleségek

1. Hasonlítsa össze az alma átlagárát (viszonyítási alap = budapesti kiskereskedő) ill. mutassa ki az átlagos árváltozást! 2. Írjon szöveges elemzést! 4. feladat Egy áruház-lánc árbevétele egyik évről a másikra 30 %-kal, azaz 3 milliárd Ft-tal emelkedett, az árak pedig átlagosan 20 %kal nőttek. 1. Számítsa ki a tanult indexeket és különbségeket mindkét súlyozási módszerrel. 2. Írjon szöveges elemzést!

171

Adatforrás: saját gyűjtés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



179



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

180



9.7. összefoglalás

érték

mennyiség

ár

indexek, indexösszefüggések p i p = i1 egyedi pi 0 együttes = átlagos

I p0 =

∑q ∑q

egyedi

iq =

qi 1 qi 0

együttes = átlagos

I q0 =

∑q ∑q

egyedi

iv =

vi1 = iv = i p * iq vi 0

együttes = átlagos

Iv =

∑q ∑q

i0

pi1

i 0 pi 0

i1

pi 0

i 0 pi 0

i1

p i1

i0

pi 0

I 1p =

∑q ∑q

I q1 =

∑q ∑q

i1

p i1

I pF = I 0p I 1p

i1 p i 0

i1

p i1

I qF = I q0 I q1

i 0 p i1

= I v = I 0p * I q1 = I 1p * I q0 = I pF * I qF

különbségek, különbség összefüggések

k p = pi1 − pi 0

ár mennyiségi

k q = qi1 − qi 0

egyedi

k v = vi1 − vi 0 = (qi1 pi1 − qi1 pi 0 ) + (qi1 pi 0 − qi 0 pi 0 ) = (qi 0 pi1 − qi 0 pi 0 ) + (qi1 pi1 − qi 0 pi1 )

érték érték

K v = ∑ qi1 pi1 − ∑ qi 0 p i 0 = K p0 + K q1 = K 1p + K q0

együttes

átlagformák ár

I 1p =

∑ q p *i ∑q p 1 0

1 0

p

=

∑q p qp ∑ i

1 1 1 1

vagy I p0 =

∑ q p *i ∑q p

p

A dokumentum használata | Tartalomjegyzék | Táblázatok

0

0

0

0

p

=

∑q p qp ∑ i

0 1 0 1 p

Vissza



180



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

átlagformák mennyiségi

I q0 =

∑ q p *i = ∑ q p ∑q p ∑ q p i 0

0

0

q

1 0 1 0

0

vagy I q1 =

∑ q p *i ∑q p 0 1

q

0 1

q

érték

Iv =

∑ q p *i ∑q p 0

0

0

v

0

=



Vissza

=

181



∑q p qp ∑ i

1 1 1 1 q

∑q p qp ∑ i 1

1

1

1

v

együttes = átlagos

egyedi

az indexek jelentései (általánosságban) Megmutatja, hogy valamely termék (szolgáltatás) ár ára hányszorosára (hány százalékkal) változott. Megmutatja, hogy valamely termék (szolgáltamennyiségi tás) mennyisége hányszorosára (hány százalékkal) változott. Megmutatja, hogy valamely termék (szolgáltaérték tás stb.) értéke hányszorosára (hány százalékkal) változott. Megmutatja, hogy a vizsgált termékek (szolgáltatások) ára átlagosan hányszorosára (hány százalékkal) változott. ár vagy A mennyiségeket állandónak tekintjük.. Megmutatja, hogy a vizsgált termékek értéke az árak változása következtében hányszorosára (hány százalékkal) változott. Megmutatja, hogy a vizsgált termékek (szolgáltatások) mennyisége (= volumene) átlagosan hányszorosára (hány százalékkal) változott. mennyiségi Az árakat állandónak vagy tekintjük.. Megmutatja, hogy a vizsgált termékek értéke a mennyiségek változása következtében hányszorosára (hány százalékkal) változott. Megmutatja, hogy a vizsgált termékek (szolgálérték tatások stb.) értéke hányszorosára (hány százalékkal) változott.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



181



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

érték

Vissza



182



vagy Megmutatja, hogy a vizsgált termékek (szolgáltatások stb.) értéke átlagosan hányszorosára (hány százalékkal) változott.

együttes = átlagos

egyedi

a különbségek jelentései (általánosságban) Megmutatja, hány forinttal változott valamely terár mék ára. Megmutatja, hány kilogrammal (darabbal stb.) válmennyiségi tozott valamely termék eladott (gyártott stb.) menynyisége. Megmutatja, hány forinttal változott valamely termék érték eladott (gyártott stb.) mennyiségének értéke. ár Megmutatja, hány forinttal változott a vizsgált termékek (szolgáltatások stb.) forgalma (termelési értéke A mennyiségestb.) annak következtében, hogy a bázis- és a tárgyket állandónak időszakban nem ugyanazon árak voltak érvényesek. tekintjük.. Megmutatja, hány forinttal változott a vizsgált termennyiségi mékek (szolgáltatások stb.) forgalma (termelési érAz árakat állan- téke stb.) annak következtében, hogy a bázis- és a dónak tekintjük.. tárgyidőszakban nem ugyanazokat a mennyiségeket értékesítették (gyártották stb.). Megmutatja, hány forinttal változott a vizsgált terérték mékek (szolgáltatások stb.) forgalma (termelési értéke stb.). a módszer felhasználható

9.4. fejezet

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



182



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

183



9.8. Mintafeladatok korábbi vizsgadolgozatokból 1. minta Egy sportcikkeket árusító bolt forgalmát figyeltük meg két egymást követő évben. A vizsgálatba bevont kiemelt áruféleségek, ill. a már megkezdett számítások adatait tartalmazza az alábbi tábla. a vizsgálatba bevont termékek sportruha sportcipő egyéb termékek statisztikai jelölés

forgalom a bázis évben millió Ft 20 15 30

árváltozás forgalomváltozás % +15 +10 +20

+20 +10 +65

1. Az alábbi 1. sz. segédtáblából válassza ki azokat a betű-jeleket, melyek a fenti táblában szereplő adatokat jelölik, majd sorszámukat írja be a fenti tábla utolsó sorába. Írja be a fenti tábla utolsó sorába a kiválasztott betűjelek sorszámát! 1. segédtábla (statisztikai betűjelek) 1. 2. 3.

4.

5.

6.

p0

p1

q0

q1

v0

v1

7.

8.

9.

10.

11.

12.

ip

iq

iv

kp

kq

kv

13.

14.

15.

16.

17.

18.

Iv

Kv

23.

24.

1 p

K 1p

29.

30.

∑q 19.

0

p0

∑q p

∑q

20.

21.

1

1

0 p

Iv

Kv

I

25.

26.

27.

I

0 q

K

0 q

I

1 q

0

p1

∑q p 1

0

22. K

0 p

28. K

1 q

A dokumentum használata | Tartalomjegyzék | Táblázatok

I

I

F p

I qF

Vissza



183



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

31.

32.

33.

34.

Vissza

35.



184



36.

i q * 100 − 100 i p * 100 − 100 iv * 100 − 100 I * 100 − 100 I v * 100 − 100 I p0 * 100 − 100 1 p

37.

38.

39.

40.

41.

42.

I * 100 − 100

I * 100 − 100

I * 100 − 100

I * 100 − 100

q 0 p1

q1 p 0

0 q

1 q

F p

F q

2. Számítsa ki azokat az adatokat, melyeket az alábbi eredménytábla oldalrovatában szövegesen megfogalmaztunk! Majd válassza ki az 1.sz. segédtáblából ezek statisztikai betűjeleit, és azok sorszámait szintén írja be az eredménytáblába! 1. eredménytábla : egyedi számítások statisztikai sporta kiszámítandó adat megnevezése ruha jelölés forgalom tárgyidőszak (millió Ft) mennyiségi változás (egyedi) % forgalom millió Ft , azt feltételezve, hogy csak az értékesítési árak változtak forgalom millió Ft , azt feltételezve, hogy csak az értékesítés menynyisége változott forgalomváltozás (egyedi) millió Ft

sportcipő

egyéb termékek

3. Számítsa ki a 2. sz. eredménytáblában szövegesen megadott indexeket és különbségeket! A számítások eredményeit írja be az üres rovatokba! 2. eredmény-tábla: együttes számítások számadat megfogalmazás átlagos árváltozás Laspeyres-szemléletben (Előjel is kell!) átlagos mennyiségváltozás (%) Paasche-szemléletben (Előjel is kell!) forgalomváltozás (%) az árak miatt Paasche-szemléletben (Előjel is kell!)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



184



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



185



forgalomváltozás (%)a mennyiségek változása miatt Laspeyresszemléletben (Előjel is kell!) a különböző szemléletű árváltozások átlaga (%)(Előjel is kell!) a különböző szemléletű mennyiségváltozások átlaga (%) a forgalom értékének abszolút változása (egész boltra) (Előjel is kell!) a forgalom értékének abszolút változása az árak változása következtében Paasche-szemléletben (Előjel is kell!) a forgalom értékének abszolút változása a mennyiségek változása következtében Paasche-szemléletben (Előjel is kell!)

4. Döntse el, igazak-e az alábbi kijelentések! A 3. sz. eredménytábla utolsó, üres oszlopába írjon „I” (= igaz) vagy „H” (= hamis) betűt! 3. eredménytábla: igaz – hamis kijelentések I/H A vizsgált bolt forgalmának növekedése elsősorban az árak nagymértékű növekedésének köszönhető. A bolt forgalma 138 %-kal növekedett annak köszönhetően, hogy a második évben magasabb áron adták el a termékeket. A bolt forgalma 10500000 Ft-tal növekedett annak köszönhetően, hogy a termékeket a második évben magasabb áron tudta értékesíteni. (súly: tárgyidőszaki) A sportcipők kivételével a bolt termékei iránti kereslet az áremelkedések ellenére nem csökkent. A bolt által értékesített termékek az áremelkedésre úgy reagáltak, ahogy ez általánosságban történik, visszaesett az eladás mennyisége. A bázis- és a tárgyidőszaki súlyozású indexek nem azonos irányúnak mutatják az átlagos ár- és az átlagos mennyiségváltozást. A 6.4. eredmény-tábla utolsó két adatának szorzataként kiszámítható a forgalom értékének változása, hiszen az ár- és a mennyiségváltozás együtt az értékek változását jelenti. A vizsgált bolt forgalmának növekedése elsősorban az értékesített mennyiségek kb. 20 % -os növekedésének köszönhető. Ebben a feladatban tulajdonképpen felesleges volt az „F” jelű indexek kiszámítása, olyan csekély az eltérés a kétféle súlyozás eredményei között.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



185



Statisztika

Ár-, érték-, volumenindex-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



186



A 2.sz. eredmény-tábla utolsó két adatának szorzataként nem kiszámítható ki a forgalom értékének változása, bár az ár- és a mennyiségváltozás együtt az értékek változását jelenti, de „keresztbe” kellett volna súlyoznunk. A bolt forgalma 10500 eFt-tal növekedett annak köszönhetően, hogy a termékeket a második évben magasabb áron tudta értékesíteni. (súly: bázisidőszaki) A bolt forgalma 38 %-kal növekedett annak köszönhetően, hogy a második évben magasabb áron adták el a termékeket. A sportcipők kivételével a bolt termékei iránti kereslet az áremelkedések ellenére növekedett.

2. minta Két kisebb magánvállalkozás („A” és „B”; viszonyítási alap = „B”) bevételi adatai alapján a következő indexeket és különbségeket számoltuk ki:

Iv

I q1

K p0

0,95

0,864

+50 mFt

Számítsa ki hiányzó indexeket, különbségeket, valamint a két vállalkozás forgalmi forgalmának adatait! A számítások eredményeit írja be az alábbi eredménytáblába! eredménytábla szöveges megfogalmazás

statisztikai jel

adat

„A” vállalkozás forgalma „B” vállalkozás forgalma a két vállalkozás forgalmának különbsége a mennyiségek eltérése miatt forgalom különbség az árak eltérését mutató index

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



186



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



187



10. Becslés 10.1. Bevezetés A társadalmi-, gazdasági jelenségekre vonatkozó adatokat a megfigyelést végzők egyes esetekben a vizsgált sokaságok minden egyes tagjára (= elemére) vonatkozóan összegyűjtik ekkor teljeskörű felvételről beszélünk; más esetekben viszont csak a vizsgált sokaság elemeinek egy részére terjed ki az adatgyűjtés, ezt részleges felvételnek nevezzük. Teljeskörű felvétel pl.: népszámlálások, a népmozgalmi jelenségek megfigyelése (születés, halálozás stb.), vetésterület összeírása; részleges felvétel pl.: a különböző termékek árainak megfigyelése, közvéleménykutatások.

A részleges adatfelvétel eredményeként kiszámított sokasági jellemzők (átlag, szórás stb.) sajátossága, hogy kisebb – nagyobb hibával tükrözik a valóságot, ennek ellenére nem lehet célunk minden esetben a teljeskörű felvétel. Ennek egyrészt technikai okai vannak, másrészt az idő és a pénz szűkössége. A mezőgazdaság várható terméseredményeinek megállapításához nem szedhetjük le még a beérés előtt az összes gyümölcsöt. A termékek megsemmisüléssel, használhatatlanná válással járó minőségellenőrzése során (pl. villanyégők) nem vizsgálhatunk meg minden elkészült darabot. A gazdasági élet valamennyi szereplője a folytonosan változó feltételekre a lehető leggyorsabban akar reagálni, vagyis rövid idő alatt szükséges döntéseket hoznia, és ez nem engedi meg a hosszas adatgyűjtési-elemzési munkát. A pénz pedig még a leggazdagabb államokban is mindig kevesebb mint, amennyit az egyes célok megvalósítása igényel. Kevesebb sokasági egyedre adatot gyűjteni és kevesebb adatot feldolgozni, elemezni pedig természetesen kevesebb idő és kevesebb pénz.

A részeleges adatfelvétel fajtái172 közül jegyzetünkben kizárólag a reprezentatív adatgyűjtéssel foglalkozunk. Reprezentatív felvétel esetén a megismerni kívánt teljes sokaságból (= alapsokaságból; elemeinek száma = N ) szigorú szabályok szerint kiválasztunk egy részsokaságot (= mintasokaságot = mintát; elemeinek 172További

részleges adatfelvételi fajták: - a monográfia. Ez leginkább segédeszköznek tekinthető a vizsgált sokaság egyedeinek megismerésében. - a kísérleti eredmények gyűjtése. Ebben az esetben az azonos feltételek biztosításával érjük el, hogy megfigyelési eredményeinket egy végtelen sokaság egy-egy ismertté vált elemének tekintsük. - egyéb (nem reprezentatív) részleges megfigyelések, lásd: 10.1.4.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



187



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



188



száma = n ), és csak ennek elemire vonatkozóan gyűjtünk adatokat. A minta adatainak feldolgozása után a kapott eredményeket viszont a teljes sokaságra vonatkoztatjuk. Tulajdonképpen tudományos indukciót173 végzünk, vagyis az egyesből következtetünk az általánosra. A reprezentatív adatgyűjtéssel kapcsolatban felmerülő legfontosabb kérdések: 1. Milyen elméleti alapokon nyugszik az eljárás? 2. Milyen szabályok szerint kell elvégeznünk a mintába kerülő elemek kiválasztását, továbbá: hány elem kerüljön a mintába? 3. Hogyan értékelhetjük eredményeinket, figyelembe véve, hogy nem a teljes sokságra vonatkozó adatokkal dolgozunk, azaz hogyan következtessünk a mintából a teljes sokaságra? 1. A reprezentatív adatfelvételi módszer elmélete a valószínűségszámítás törvényein, más szóval a véletlen tömegjelenségek törvényein nyugszik. Ezért követelmény, hogy az alapsokaság a szó szoros értelmében sokaság legyen, azaz nagytömegű egységet foglaljon magában. Elméletileg adott alsó korlát a nagy tömegre nincs, a gyakorlatban azonban az alapsokaság174 több ezer, esetleg több millió egyedből áll. 2. Az alapsokasági elemek közül a mintasokaságba kerülő elemeket a következő alapvető módszerekkel választhatjuk ki: 2.1. véletlenen alapuló kiválasztás:

• • • •

egyszerű véletlen, egylépcsős (csoportos), többlépcsős rétegzett mintavétel. 2.2. nem véletlenen alapuló kiválasztási eljárások175

173Az

indukció "párja", "ellentettje" a dedukció, amikor az általános ismeretek segítenek az egyes megismerésében. 174Elméletileg természetesen az alapsokaság elemeinek száma lehet végtelen is, de mert a közgazdasági gyakorlatban véges sokaságokkal dolgozunk, jegyzetünkben is csak az ezekre vonatkozó számításokkal foglalkozunk. 175 Ezekkel jegyzetünkben nem foglalkozunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



188



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



189



2.3. szisztematikus kiválasztás176. A minta elemeinek kiválasztása matematikai szempontból lehet ismétléses (= visszatevéses) vagy ismétlés nélküli (= visszatevés nélküli). Ismétléses kiválasztásnál az alapsokaság bármelyik elemének

1 N

esélye (=

valószínűsége) van a mintába bekerülni. Ez az esély a kiválasztás során végig meg is marad, hiszen minden húzás N elem közül történik. Az ismétlés nélküli mintavétel során a kihúzható elemek száma egyre csökken. Az első kiválasztás után már csak (N-1) elem közül választhatjuk ki a második elemet, majd (N-2) elem közül a harmadikat és így tovább. Így 1 1 ⎛1 ⎞ elméletileg egyre nagyobb esélye ⎜ 〈 〈 〈...⎟ van a maradék ⎝ N N −1 N − 2 ⎠ elemek közül egynek – egynek a mintába kerülni, de gyakorlatilag a kiválasztási valószínűség ebben az esetben is

1 N

, vagyis az előzővel azonos,

1 1 1 ≅ ≅ ≅...., úgy is N N −1 N − 2 1 fogalmazhatunk: a kiválasztási valószínűség határértéke = . N 2.1. A mintavétel véletlensége azt jelenti – ahogy erről már volt szó –, hogy az alapsokaság minden elemének egyenlő esélye van arra, hogy a mintasokaság eleme legyen, azaz a mintába kerüljön. Így a minta elfogulatlanul, minden emberi szubjektivitást kizárva tükrözi a valóságot. 2.1. a) Az egyszerű véletlen kiválasztás végrehajtásának alapvető feltétele, hogy a homogén alapsokaság elemeiről teljes körű nyilvántartással rendelkezzünk. A szükséges nyilvántartás az alapsokaság minden elemét kell hogy tartalmazza, de valamennyit bizonyosan csak egyszer.

hiszen N igen nagy számot jelent177 és így

A nyilvántartás lehet egy névjegyzék (pl.: a SZE beiratkozott hallgatóinak névsora), egy térkép (pl.: Magyarország valamennyi települését feltüntető térkép), valamilyen lista (pl.: egy termelővállalat által előállított valamennyi termékféleség tételes felsorolása). 176

Például egy főiskola hallgatói (= N ) közül úgy választunk ki egy n-elemű mintát, hogy

N -dik hallgató a mintába kerül. Jegyzetünkben ezzel a módszerrel sem foglaln kozunk, de megjegyezzük, hogy az ilyen speciális eljárások nagy körültekintést igényelnek, illetve az így nyert eredmények pontossága nagyban függ az alkalmazási feltételek szakszerű kezelésétől. 177 Lásd: 10.1.3.

minden

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



189



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

190



Fontos megjegyeznünk, hogy napjainkban tömegesen alkalmazzák a "találomra" való kiválasztást, – véletlen mintának feltüntetve! – például a közvélemény-kutatások, az internetes szavazások alkalmával. Ezek a módszerek sokszor jóval olcsóbban és gyorsabban adnak eredményt, mint egy szabályosan megvalósított mintavételes eljárás, de ezekben az esetekben le kell mondanunk arról, hogy a hiba nagyságáról objektív ismereteink legyenek178. A rendelkezésre álló teljes körű nyilvántartásból technikai szempontból sokféleképpen választhatunk egyszerű véletlen mintát, például:

• sorsolással, • a véletlenszám-tábla felhasználásával, • a számítógép véletlenszám-generátora segítségével. A sorsolás lebonyolításához a fentiekben említett teljes körű nyilvántartáson kívül egy sorsolási gömbre (= "nagy kalapra") és benne az alapsokaság elemeit képviselő kis cédulákra (ezeken van az elemek neve vagy sorszáma) van szükség. A kiválasztás a cédulák újra és újra történő összekeverése után azok kihúzogatásával történik. Ha a kiválasztás ismétléses, akkor a kihúzott cédula, a rajta szereplő adatok feljegyzése után, visszakerül a sorsolási gömbbe; ha pedig ismétlés nélküli, akkor természetesen nem kerül vissza. A véletlenszám-táblás kiválasztás segédeszköze majd minden statisztika könyvben megtalálható. Íme egy részlet: 10.1.sz. tábla sor-szám

oszlopszám 1.

2.

3.

8.

9.

10.

sor-szám

16.

01 47 69 71 21 02 … … 15 78 24 38 32 13 16.

17.

17 71 98 82 87 19

22 62 78 63 37 25 17.

18.

14 40 28 22 68 48

68 16 03 89 52 54 18.

19.

61 71 92 22 42 33

45 43 48 76 93 08 19.

20.

25 91 04 91 31 66

51 72 37 09 57 06 20.

178Például

interneten csak az szavazhat, akinek van hozzáférési lehetősége és azok közül is csak az, akinek kedve is van az adott kérdéssel kapcsolatban véleményt nyilvánítani, vagyis a véletlen törvényszerűségein alapuló matematikai módszerekről le kell mondanunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



190



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



191



Használatához elengedhetetlen az alapsokaság elemeinek sorszámozása. A mintavétel a tábla véletlenszerűen kiválasztott pontjától kezdődik. Az egymás mellett szintén véletlenszerűen (innen a tábla neve) sorakozó négy (vagy több) jegyű számok közül azokat jegyezzük fel, melyek sorszámként179 szerepelnek nyilvántartásunkban, a sorszámként nem szereplő számokat pedig "átugorjuk". Ezt mindaddig folytatjuk, amíg annyi sorszámot nem jegyeztünk fel, ahány elemű mintára szükségünk van. Számításainkat pedig a feljegyzett sorszámokhoz tartozó elemek adataival végezzük. A véletlenszám-táblát ismétléses kiválasztással állították össze, ha mégis ismétlés nélküli kiválasztáshoz akarjuk segédeszközként használni, akkor azokat a számokat, melyeket egyszer már feljegyeztünk, át kell „ugranunk”. A legkorszerűbb módszer a számítógép alkalmazása, ehhez azonban meg kell vásárolnunk a megfelelő szoftvereket, és az alapsokaságról készült nyilvántartásunk adatait gépre kell vinnünk. A mintavétel ebben az esetben a program leírásában szereplő parancsok megfelelő végrehajtásával történik. 2.1. b) Egylépcsős (= csoportos) mintavételt akkor alkalmazunk, ha a vizsgálni kívánt alapsokaságról nem rendelkezünk (és nem is lehet könynyen, gyorsan beszerezni) teljes körű nyilvántartással. Ebben az esetben egy közbülső, úgy is mondhatjuk, közvetítő, azaz elsődleges sokaságot kell keresnünk. Ha például az általános iskolát befejező tanulók olvasási színvonalát akarjuk felmérni, akkor hiába keresünk olyan nyilvántartást, amelyik hazánk összes nyolcadik osztályos tanulójának legfontosabb – a megkülönböztetéshez és a felleléshez szükséges – adatait tartalmazná. Találunk viszont nyilvántartást az Oktatási Minisztériumban az általános iskolákról. Az általános iskolák sokasága lesz az elsőleges, a közvetítő sokaság.

A minta elemeinek megismerése a közvetítő sokaság ismeretében két lépésben történik. Első lépcsőben – innen az elnevezés – a közvetítő sokaság elemei közül választunk (például egyszerű véletlen módszerrel), majd a mintába került közvetítő sokaságbeli elemek valamennyi elemét "megvizsgáljuk". Az általános iskolák közül választunk, de a kiválasztott iskola valamennyi nyolcadikos tanulóját kikérdezzük.

Ennél az adatfelvételi módnál – általában – azonos költségek mellett az egyszerű véletlen kiválasztásnál nagyobb mintát képezhetünk. A nagyobb elemszám pedig a sokaság jobb megismerését teszi lehetővé. 179Az

alapsokaság elemeinek sorszámozása, ha a táblánk négyjegyű, természetesen nem egyessel kezdődik, hanem "0001"-vel.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



191



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



192



2.1. c) A többlépcsős kiválasztást is a vizsgálni kívánt alapsokság nyilvántartásának hiányában kell esetenként alkalmaznunk. Az egylépcsős (= csoportos) mintavételtől ez a módszer annyiban különbözik, hogy nem egyszer, hanem többször alkalmazzuk a mintavételt.

Előző példánkat folytatva, a kiválasztott iskolákban nem minden tanuló olvasás-tudását vizsgáljuk meg; vagyis újabb, általában EV, mintavételt hajtunk végre.

Ennél a mintavételi módnál – homogén (=egynemű) elsődleges mintavételi egységek esetén – lehetőségünk van kisebb elemszámú mintával dolgozni ( = költségkimélő megoldás). Ha pedig mégis azonos elemszámú mintát veszünk, az a hiba nagyságának csökkenését eredményezi. 2.1. d) A rétegzett kiválasztás során a heterogén (= összetett) alapsokaság elemeit valamely kiegészítő információ (= megkülönböztető ismérv) alapján csoportosítjuk, arra törekedve, hogy minél egyneműbb részsokaságokat nyerjünk. A mintavétel ebben az esetben nem a bontatlan alapsokaságból történik (amikor is előfordulhat, hogy lesz olyan réteg, amelyiknek egyetlen eleme sem kerül be a mintába), hanem az egyes rétegekből külön-külön, azokon belül pedig az egyszerű véletlen mintavétel szabályai szerint. A nyolcadikosokra vonatkozó példánkat folytatjuk. Ha korábbi tapasztalataink azt mutatják, hogy a családi háttér – például a szülők iskolai végzettsége – befolyásolja a tanulók olvasási színvonalát, akkor célszerű újabb mintavételünket is a tanulók családi háttér szerinti megoszlását ismerve elvégezni. Természetesen előzetes ismeretek hiányában is feltehetjük a kérdést, befolyásoló tényező-e a szülők végzettsége, ill. utólagos rétegzést is végezhetünk.

A rétegzett mintavétel óriási előnye180, hogy egyetlen adatgyűjtés eredményeként az egyszerű véletlen mintavételhez képest sokkal több és pontosabb (= kisebb a hiba) eredményhez jutunk. Példánkban nemcsak néhány szám, az olvasásra kapott érdemjegyek átlaga, módusza, mediánja, szórása stb., fogja jellemezni a sokaságot, hanem annyiszor több szám, ahány rétegre tudtuk bontani a tanulókat, sőt az ismérvek közti kapcsolatok számítására is sor kerülhet.

A rétegzett mintavétellel kapcsolatban két nehéz kérdést kell megoldanunk.

180A rétegzett mintavételnek más előnyei is vannak. Ezeket részben már említettük részben később említjük meg.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



192



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



193



1. Megtalálni azt a rétegképző ismérvet, amely alapján – a vizsgált probléma szempontjából – valóban homogén részsokságokhoz jutunk. 2. A minta elemeit fel kell osztani az egyes rétegek között. Ez történhet: 1. egyenletesen, 2. arányosan, 3. optimálisan: – szórás alapján – költségek alapján. 2.1. Egyenletes rétegzés esetén az alapsokaság minden egyes rétegéből azonos számú (n1 = n2 = n j ) elemet választunk ki, függetlenül attól, hogy az egyes rétegek az alapsokaságon belül azonos vagy éppen igen eltérő súlyt képviselnek-e. Előnye, hogy egyszerű végrehajtani; hátránya, hogy nagyfokú torzítást okozhat. 2.2. Arányos rétegzés esetén az alapsokaság nagyobb elemszámú rétegéből több (ha N1 〉 N 2 akkor n1 〉 n2 ), a kisebb elemszámú rétegéből kevesebb elemet (ha N1 〈 N 2 akkor n1 〈 n2 ) választunk, arra ügyelve, hogy az egyes rétegekből olyan arányban kerüljenek elemek a mintába, amilyen arányt az adott réteg az alapsokaságban képvisel. 2.3. Az optimális rétegzés összefoglaló elnevezés, a nem arányos rétegzés egyik fajtája. Az eljárásnak az optimalizálási kritériumtól függően több változata is ismert. Ha például célunk (= kritériumunk) a hibanagyság minimalizálása, akkor az elemszámot az egyes rétegek között úgy kell elosztani, hogy a standardhiba181 a lehető legkisebb legyen, ezért figyelembe kell vennünk az egyes rétegek eltérő szórását is. Amelyik réteg szórása kisebb, abból kevesebb (ha σ 1 〈σ 2 akkor n1 〈 n2 ), amelyik réteg szórása nagyobb, abból több elem (ha σ 1 〉σ 2 akkor n1 〉 n2 ) kerül a mintába. Egy kevéssé szóródó sokaságot kevesebb eleme segítségével is megismerhetünk, míg egy nagyon szóródó sokaság megismerése csak több különböző eleme révén lehetséges. Ha célunk (= kritériumunk) a költségek csökkentése, akkor pedig figyelembe vesszük azt is, hogy az egyes rétegek adatainak beszerzése eltérő költségigényű. Ha igen szűkösek az anyagi lehetőségeink, akkor a magas adatgyűjtési költségű réteg elemei közül kevesebb, az alacsonyabb költségű 181Lásd:

10.1.7.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



193



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



194



réteg elemei közül több kerül a mintába. (A kétféle szempontot – szórás és költség – természetesen együtt is figyelembe vehetjük.) Ha például az adatgyűjtést, feldolgozást végző szervezetek székhelyétől távoli településen élők adatainak felmérése több pénzbe kerül /utazás, szállás, posta stb./, mint az adatgyűjtővel azonos helyen élőké, akkor a székhelyen kérdeznek ki több és a székhelytől távolabb kevesebb embert.

Az egyes rétegekbe kerülő mintaelemszám meghatározása egyenletes rétegzés

nj =

arányos rétegzés

Nj

n m

N

szórás optimális rétegzés

nj = n∗

j

nj n

Nj

⇒ nj =

N

∗n

szórás- és költség-optimális rétegzés −

w j ∗σ j

∑w

=

nj = n∗

∗σ j

1

w j ∗ σ jπ j 2 −

1

∑ w j ∗ σ jπ j 2

Az elemszám meghatározására szolgáló képletekben szereplő betűk jelentése nj = Nj = n= a j-edik réteg elemszáma a a minta teljes elemszáma, mintában wj =

Nj N

=

a j-edik réteg aránya a teljes sokaságban

N =

az alapsokaság elemeinek száma

a j-edik réteg elemeinek száma az alapsokaságban

σj = a j-edik réteg szórása

πj = az egyes rétegekből történő adatgyűjtés költsége egy elemre vetítve

A véletlenen alapuló kiválasztás eddig leírt bármelyik formáját is alkalmazzuk, előre el kell döntenünk, hogy hány elem (n) kerüljön a mintába. Az erről való döntést megnehezíti, hogy két ellentétes igénynek kell eleget tennünk. Nyilvánvaló, hogy a vizsgált sokaságról minél pontosabb képet akarunk kapni, ez pedig főleg a minta elemszámának növelésével érhető el. Ugyanakkor gyorsan és a lehető legkisebb költség mellett akarunk eredményhez jutni, ez pedig a minta elemszámának csökkentésével valósítható meg. A gyakorlatban a megoldást az ésszerű kompromisszumok jelentik.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



194



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



195



A felvázolt ellentét élét tompítja, hogy a statisztikai vizsgálatok tárgyát képező sokaságok általábann igen magas elemszámúak (N ) , így egy vi⎛ ⎞ szonylag csekély arányú ⎜ ⎟ kiválasztás esetén is elég nagy elemszámú ⎝ N ⎠ ami a jól kiválasztott mintavételi módszer (n) minta áll rendelkezésünkre, mellett lehetővé teszi a sokaság alapos megismerését. A minta elemszámának mind abszolút (= hány elemű a minta), mind relatív (= kiválasztási arány) nagysága befolyásolja a számítások gyakorlati menetét. A minta elemszám abszolút nagyságát figyelve, ha n〈100 , akkor kismintáról beszélünk. n A kiválasztási arányt figyelve pedig akkor beszélünk kismintáról, ha 〈 0,1 . N 10.2. Becsült sokasági jellemzők A mintavételből származó adatokból kiszámítható statisztikai jellemzők közül

• • • •

az átlag (10.2.1), az értékösszeg (10.2.3), a szórás (10.2.2.) és az arány (10.2.4.) 182

számítási módszerét, becslését ismertetjük egyszerű véletlen kiválasztást (= EV) illetve arányos rétegzést (= AR) feltételezve. A megkezdett témakör részletes kifejtése előtt fontosnak tartjuk felhívni figyelmet arra, hogy amikor a következőkben az idősorok elemzésével – trendszámítás stb. – és a regresszió-számítással fogunk foglakoztunk, akkor is becslésről van szó. Hiszen a számításokhoz felhasznált idősoraink nem végtelen hosszúak, a 10 – 15 év kiválasztásával mintegy mintát veszünk a végtelen időből. Amikor pedig például a lakosság jövedelme és fogyasztása között keressük a kapcsolatot, akkor sem ismerjük ezeket az adatokat – hiszen mintát veszünk – a lakosság minden egyedére vonatkozóan. 10.2.1. Számtani átlag becslése egyszerű véletlen (EV) mintából

Ha egy soksági jellemző becslését akarjuk elvégezni először is ki kell választanunk a megfelelő becslőfüggvényt. A becslőfüggvény egy olyan n-változós függvény, amely valamely sokasági jellemző értékének mintából történő meghatározására szolgál. 182Lásd:

viszonyszámok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



195



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



196



Egy becslőfüggvényt akkor tartunk megfelelőnek, ha torzítatlan183, konzisztens184 és hatásos185. Jegyzetünkben a becslőfüggvények közötti választással nem foglalkozunk, egy-egy sokasági jellemző (= paraméter) meghatározására általában egyetlen becslőfüggvényt adunk meg. Bármely sokasági jellemző becslését, így a számtani átlagét is, elvégezhetjük pontbecslésként (= egyetlen szám az eredmény), ekkor a számításokban szinte semmi különbség nincs ahhoz képest, amit már a középértékek taglalásakor leírtunk, de amit eddig a számtani átlag képletének hívtunk, azt a továbbiakban a számtani átlag becslőfüggvényének nevezzük. Egyszerű számtani átlag186 esetén: Súlyozott számtani átlag esetén:

xa =

∑x

xa =

i

n

∑fx = gx ∑ ∑f i i

i i

i

A számtani átlag becslőfüggvényeiben szereplő betűk jelentése:

xa =

xi =

n =

a számtani átlag

az átlagolandó értékek

a minta elemeinek száma

fi =

gi =

fi

∑f

= i

fi = n

az egyes értékek előfordu- az egyes értékek előfordulási aránya a mintában (= lása (db, fő) a mintában relatív gyakoriság, %-os formában pedig megoszlási viszonyszám)

A megadott becslőfüggvény alapján meghatározott átlagról tudjuk, hogy az nem a sokaság minden tagjára vonatkozó adatok ismeretében számítódott ki, és így bizonytalanságot rejt magában (= mintavételi hiba). De a bizonytalanság nagyságáról, vagy a másik oldalról közelítve a problémá183Torzítatlan,

ha várható értéke megegyezik a becsülni kívánt sokasági jellemző értékével. 184Konzisztens, ha n minden határon túl való növelése esetén annak valószínűsége, hogy a becsülni kívánt sokasági jellemző értékének és a becslőfüggvény értékének eltérése kisebb egy ε számnál = 1 (azaz biztos esemény) 185Két (vagy több) becslőfüggvény közül az a hatásosabb, amelyiknél kisebb becsült sokasági jellemző szórása. 186 Egyes, főleg az újabb tankönyvek „x” helyett „y” jelölést alkalmaznak. Javasoljuk, ne a betűjeleket rögzítse memóriájában! Így jobb: számtani átlag = az átlagolandó értékek összege osztva az elemek darabszámával.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



196



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



197



hoz, a becslés pontosságának nagyságáról semmit sem tudunk. Ezekhez az ismeretekhez az intervallumbecslés segítségével juthatunk el. Az intervallumbecslés során valamely előre meghatározott valószínűség mellett megadjuk azt az alsó határt, aminél kisebb nem lehet a mintából számított és az egész sokaságra vonatkoztatott átlag, illetve megadjuk azt a felső határt, amelynél pedig nagyobb nem lehet.

[xa ± ∆] A keretbe foglalt megfogalmazás egy két oldalról zárt intervallumot jelent, a statisztikai gyakorlatban azonban előfordul, hogy valamely sokasági jellemzőnek csak az alsó vagy a felső határa lényeges (pl. termékek méret ill. minőségi követelményei), ezekben az esetekben egyoldalú intervallumokat írunk fel [x − ∆ ) 187 ill. (x + ∆ ] 188. Az alulról és felülről is zárt intervallum kétoldalú-, a csak egyik oldalon zárt intervallum pedig egyoldalú becslés eredménye. A hibahatár egy a becslés valószínűségéhez tartozó szorzószám ( z = standard normális eloszlású valószínűségi változó) és az úgynevezett standardhiba (σ x ) felhasználásával számítható ki.

∆ = z ∗σ x A hibahatár számításában szereplő betűk jelentése:

xa = a számtani átlag

∆= hibahatár = maximális hiba

σx =

a becslés standardhibája

z =

a választott valószínűségtől függő standard normális valószínűségi változó

187 188

Alulról zárt. Fölülről zárt.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



197



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

198



Matematikai tanulmányainkból tudjuk, hogy N elemből n elemet nem csak egyféleképpen lehet kiválasztani.189 Ennek az a következménye, hogy az egyes mintákból számított átlagok nem tökéletesen azonosak, azaz mintáról mintára ingadoznak. Legyen az alapsokaság 10 elemű (= N), és válaszunk belőle 2 elemű (= n) visszatevés nélküli mintákat! Az alapsokaság elemei (A-tól J-ig) és értékük: A

B

C

D

E

F

G

H

I

J

1

2

3

1

3

2

4

3

2

1

Az alapsokaság átlaga:

xa

∑x = N

i

⇐ xi

Az alapsokság szórása:

22 = = 2,2 10

σ=

∑ (x

i

− xa )

N

2

=

9,6 9

=0,98

A kiválasztható ismétlés nélküli minták száma: ⎛10 ⎞ ⎛ 10! ⎞ ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ =45 db ⎝ 2 ⎠ ⎝ 8!∗2!⎠

A kiválasztott minták elemei és átlagai: 10.2. sz. tábla AB: 1,5 AC: 2,0 AD: 1,0 AE: 2,0 AF: 1,5 AG: 2,5 AH: 2,0 AI: 1,5 AJ: 1,0 BC: 2,5 BD: 1,5 BE: 2,5 BF: 2,0 BG: 3,0 BH: 2,5 BI: 2,0 BJ: 1,5 CD: 2,0 CE: 3,0 CF: 2,5 CG: 3,5 CH: 3,0 CI: 2,5 CJ: 2,0 DE: 2,0 DF: 1,5 DG: 2,5 DH: 2,0 DI: 1,5 DJ: 1,0 EF: 2,5 EG: 3,5 EH: 3,0 EI: 2,5 EJ: 2,0 FG: 3,0 FH: 2,5 FI: 2,0 FJ: 1,5 GH: 3,5 GI: 3,0 GJ: 2,5 HI: 2,5 HJ: 2,0 IJ: 1,5

⎛N⎞ ⎛ N + n − 1⎞ ⎟⎟ nélküli kiválasztásnál ⎜⎜ ⎟⎟ , ismétléses kiválasztásnál pedig ⎜⎜ n n ⎝ ⎠ ⎝ ⎠ darab n-elemű mintát választhatunk. 189Ismétlés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



198



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



199



A mintából számított átlag nagysága (és így más sokasági jellemző nagysága is) tehát annak függvénye, hogy a sokaság mely elemei kerültek a mintába, azaz a becsült sokasági jellemző = valószínűségi változó, melyet várható értékével, szórásával és eloszlásával jellemezhetünk. Foglalkozzunk először az eloszlás kérdésével! A valószínűségszámítás központi határeloszlás tételét felhasználva bizonyítható, hogy a mintából számított átlag normális eloszlású. (Ábrázolva alakja egy haranghoz hasonlít. Ez az úgynevezett haranggörbe, más néven Gauss-görbe.) Ennek alapján van lehetőségünk felírni azt a valószínűséget Ψ ( z ) = P(M − zσ 〈 X 〈 M + zσ ) , mely kifejezi, hogy az átlag milyen környezetben helyezkedik el. A valószínűség előzőekben megadott képletében nem találjuk a menynyiségi változókra alkalmazott eddigi jelölésünket (xi ) . Ennek oka, hogy a mintaátlagot, mint valószínűségi változót nulla várható értékű és egységnyi szórású változóvá (= standard normális valószínűségi változó) kell transzformálni annak érdekében, hogy az éppen vizsgált sokaság adatainak nagyságrendjétől és mértékegységétől el tudjunk vonatkoztatni. z=

xi − x a

σ

Értékeit "standard normális eloszlású változó eloszlásfüggvényének értékei" c. táblából190 olvashatjuk ki. A tábla z értékei (az átalakítás következtében) [−4,+4] határok közé esnek, vagyis P = 100 % annak a valószínűsége, hogy az átalakított változó [− 4,+4] között lesz. Ha a táblában található értékek ábráját is elkészítjük, majd a görbe alatt különböző szélességű intervallumokat jelölünk ki, továbbá kikeressük az intervallumok határaihoz ( zi ) tartozó valószínűségeket Φ ( z i ) , akkor azt tapasztaljuk, hogy ha az intervallum szűk, akkor kisebb, ha az intervallum szélesebb, akkor nagyobb a valószínűsége annak, hogy egy transzformált változó benne található. Tehát a becsült átlag (és más sokasági jellemző) köré szerkesztett intervallumok 190

Lásd a jegyzet végén.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



199



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



200



szélessége és az intervallumba kerülés valószínűsége azonos irányban változnak. Azaz minél biztosabb (= nagyobb valószínűséggel igaz) eredményt akarunk kapni, annál szélesebb intervallummal kell dolgoznunk. Gondoljuk végig, hogy mit is jelent ez a gyakorlatban! Egy gyümölcstermeléssel foglalkozó vállalkozó még a teljes beérés előtt leszedi néhány véletlenszerűen kiválasztott fáról a termést, leméri, majd az egy fára jutó átlag termés nagyságát (kg/fa) beszorozza fáinak számával, annak érdekében, hogy megtudja, mekkora termésre számíthat, azaz termésbecslést végez. Ha nem pontbecsléssel akarja meghatározni az eredményt, akkor valamilyen valószínűség mellett kiszámítja az össztermés legkisebb és legnagyobb várható mennyiségét, az értékösszeget. Ha nagyobb valószínűség mellett például [50 ± 10] kg/fa lenne a várható termés, akkor kisebb valószínűség mellett – a fenitek értelmében –, feltételezzük csak [50 ± 5] kg/fa termést becsülne. Ez pedig 1000 db fa mellett az összetermés alsó és felső határában már jelentős különbséget eredményezne. Ami például a gyümölcs elszállításához szükséges ládák megrendelésénél okozna számára nagy gondot, nem lesznek-e költségei túl magasak az esetleg feleslegesen megrendelt ládák miatt, ha a termés nem a becslés felső határa közelében alakul; vagy nem lesz-e ládahiány, ha túl óvatos és az alsó határ közelében lévő termés mennyiséghez rendel csomagolóeszközöket, de térjünk vissza az elmélethez!

Összefoglalva: a becsült átlag körül elhelyezkedő intervallum szélessége a választott valószínűségtől (is) függ. A valószínűségi követelmény az intervallum szélességét a hibahatáron keresztül befolyásolja. A hibahatár számításának másik tényezője az úgy nevezett standardhiba (= véletlen hiba). A standard hiba létezése annak következménye, hogy nem a teljes sokságra vonatkozóan ismerjük az adatokat. Ahogy ezt már említettük is, egy-egy teljes sokságból elvileg sok n-elemű minta válaszható ki. Az ezekből számított átlagok191 egymástól és a teljes sokság adataiból számított átlagtól kisebb – nagyobb mértékben különböznek, de matematikailag bizonyítható, hogy a teljes sokságra jellemző átlag a mintabeli átlagok határértéke; másképpen fogalmazva, a minta átlagok a teljes sokságra jellemző átlag körül ingadoznak. Ha a teljes sokságból az elméletileg lehetséges összes n-elemű mintát vennénk, kiszámolnánk ezek átlagait, majd megnéznénk, hogy ezek átlagosan mennyivel térnek el az alapsokaság átlagától akkor kapnánk meg a stan-

191

Lásd: példánkat a 9. oldalon.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



200



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



201



dardhibát192, amit végül is az egyetlen ténylegesen ismert minta szórásának segítségével határozunk meg (= becsüljük meg). σx =

σ n

sx =

s n

A standardhiba számításában szereplő betűk jelentése:

sx = a becsült standard hiba

σ= sokaság szórása

n = a minta elemeinek száma

s= a minta szórása

A hibahatár és a standardhiba képletét együtt vizsgálva, jól látható, hogy a szórás a hibahatárral, azaz az intervallum szélességével egyenesen arányos (= a szórás a számlálóban szerepel), vagyis, ha a minta nagyon szóródó, akkor azonos valószínűségi követelmény mellett szélesebb határok között fog mozogni a becsült érték. A minta elemszáma (= a nevezőben szerepel) viszont fordítottan arányos a hibahatárral, azaz az intervallum szélességével. Számítási képlet nélkül – a formális logika alapján is – világos, hogy egyre több adat ismeretében (= n egyre nagyobb), a teljes sokságról egyre többet tudva, pontosabb eredményt kaphatunk, vagyis azonos valószínűség mellett a becsült érték szűkebb határok között mozoghat. A valószínűségi szint és az intervallum szélessége, valamint a minta elemszáma és az intervallum szélessége közötti összefüggés felismerése és megértése azért is fontos, mert mind a valószínűségről, mind a minta elemszámáról a statisztikai munkát végző szakemberek döntenek, illetve a döntéshez ők adnak tanácsot a munkát megrendelőknek, akik nem feltétlenül jártasak a statisztika tudományában.

192A

lunk.

standardhiba számításához egyes esetekben még egy un. korrekciós tényezőt is felhaszná-

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



201



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



202



BEMUTATÓ FELADAT I. Egy egyetem hallgatóinak köréből (= teljes sokaság) egyszerű véletlen mintát vettünk (n = 100 fő, a kiválasztási arány =1,6 %). Célunk a hallgatók szórakozási kiadásainak vizsgálata volt. A minta adatai: 10.3.sz. tábla szórakozási kiadás

osztályközép

a hallgatók száma a mintában

ezer Ft / hó /fő

xi

fi

– 5,0

3,5

6

5,1 – 8,0

6,5

10

8,1 – 11,0

9,5

18

11,1 – 14,0

12,5

35

14,1 – 17,0

15,5

15

17,1 – 20,0

18,5

11

20,0 –

21,5

5

összesen

-

100

adatforrás: saját gyűjtés SZE, 2006. márc.

A mintában szereplő hallgatók havi szórakozási kiadásainak átlaga ≅12.380 Ft (= x a ) 193 Továbbá ismert – egy korábbi teljeskörű felvételből – a szórakozási kiadások szórása, σ = 4.407 Ft . Az átlagra vonatkozó eredmény pontbecslés. Számításainkat kétoldalú intervallumbecsléssel (P = 95% ) folytatjuk, ennek lépései:

1. a standard hiba kiszámítása: σ x =

σ n

=

4.430 ≅ 443 Ft 100

2. a táblabeli érték (= z ) kikeresése, (lásd: a megoldás után) 3. a hibahatár (± ∆ ) kiszámítása: ± ∆ = z ∗ σ x = 1,96 ∗ 443 ≅ 868 Ft

193

Ha az osztályközepek megállapításával gondja van, lapozzon vissza a középértékek tárgyalásához. Használja a tudományos számológépét!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



202



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



203



4. az intervallum felírása, megfogalmazása:

[xa ± ∆ ] = [12.380 ± 868] ≅ [11.510〈 xa 〈13.250] Ft 2. A táblabeli értéket ( z i ) a "standard normális eloszlású változó eloszlásfügg-

vényének értékei" (= z − tábla ) c. táblából194 kerestük ki. Ezt a táblát akkor használhatjuk különböző becslési, hipotézisellenőrzési feladatokhoz, ha a minta elemeinek száma száz vagy annál több, és ismerjük az alapsokaság szórását. A két feltételnek együtt kell teljesülnie. A táblabeli érték kikeresését az is befolyásolja, hogy egy- vagy két oldali becslést végzünk-e. Abban az esetben, ha csak egy oldalról zárt intervallumot akarunk szerkeszteni, akkor a tábla belső rovataiban megkeressük a becslési valószínűség megadott vagy kiválasztott értékének együtthatós alakját, majd leolvassuk a tábla oldalrovatából (egész szám és az első tizedes), ill. fejlécéből (második tizedes) a zi értéket. A két oldalról zárt intervallum szerkesztéséhez azonban a táblában való keresgélés előtt el kell végezni a megadott, kiválasztott valószínűség átalakítását. Φ (z ) =

Ψ (z ) + 1 1 − Ψ (z ) = Ψ (z ) + 2 2

A teljes valószínűség, a biztos esemény = 1,0. Ebből levonjuk a becslésnél használni kívánt valószínűség értékét, a 0,95-t. A fennmaradó rész – 0,05 – az intervallumon kívül esés valószínűsége, amit α -val jelölünk és szignifikancia-szintnek nevezünk.195 Ez az egyoldalú becslés esetén az intervallum egyik végén található. Ezt, a szimmetria elérése érdekében szétosztjuk az intervallum két oldalára. Ennek következtében 0,025-val jobbra csúszik az intervallum alsó és felső határa is.

Az átalakítási képletben szereplő betűk jelentése

Ψ (z ) =

Φ(z ) = az átalakított, a kétoldalú becsléshez használt becslési valószínűség együtthatós formában

194Lásd: 195Lásd:

a megadott, kiválasztott becslési valószínűség, amit átalakítás nélkül az egyoldalú becslésnél használunk, együtthatós formában

a jegyzet végén hipotézisellenőrzés.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



203



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



204



Az átalakításra azért van szükség, mert a tankönyvekben közölt táblákat úgy állították össze, hogy azok a változók előfordulási valószínűségét a mínusz végtelen és az oldalrovatban (+ fejlécben) meghatározott pozitív z érték közti intervallumra adják meg. S mert 1 − Ψ (z ) = Ψ (− z ) 196, ezért egyúttal ismert egy adott negatív z érték és a pozitív végtelen közötti előfordulási valószínűség is. Ezért, ha például P = 95 %-os valószínűséggel dolgozunk, akkor a táblában egyoldalú becslés esetén Ψ (z ) ≅ 0,95-nél kell a z (1,65) értéket kikeresnünk, kétoldalú becslés esetén pedig Φ ( z ) = 0,975 értéknél. Így számpéldánkban a táblából kikeresett z érték: 1,96197. 10.4.sz. tábla A standard normális eloszlásfüggvény értékei, Φ ( z i ) , részlet198 z

0

1

2

3

4

5

6

7

8

9

… 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545 1,7 0,9554 0,9564 0,9572 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633 1,8 0,9461 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767 …

♥ Ha a vizsgált egyetem hallgatói köréből az elméletileg lehetséges összes 100 elemű EV mintát vettük volna, az azokból számított átlagos szórakozási kiadások (= minta átlagok) a teljes sokság adataiból kiszámítható átlagos szórakozási kiadástól átlagosan 450 forinttal térnének el. (= a standardhiba jelentése) ♥A vizsgált egyetem hallgatói havonta és fejenként átlagosan 12.380 forintot költenek szórakozásra. (= a pontbecslés jelentése) 196

A normális eloszlás = szimmetrikus eloszlás. tábla belsejében találja növekvő sorrendben a valószínűségeket. Addig keressen, amíg 0,9750-t nem talál. Majd olvassa le a sor elején található z érték első két-két számjegyét, itt 1,9! Végül a 0,975-t tartalmazó oszlop tetején olvassa le a z érték harmadik számjegyét is. Ha valamilyen z vagy Φ (z ) értéket nem talál meg pontosan, alkalmazza a kerekítés matematikai szabályait! 198A táblákban a könnyebb keresés érdekében szokták egy egyes sorokat eltérő háttérrel megkülönböztetni. 197A

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



204



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



205



♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.510 és legfeljebb 13.250 forintot költenek szórakozásra. (= az intervallum becslés jelentése) Ha számításainkat egyoldalú intervallumbecsléssel (P = 95% ) végeztük volna, akkor a munka menete a táblabeli érték kikeresésétől módosul, és természetesen más intervallum határokat kapunk:

1. a standard hiba kiszámítása: σ x =

σ n

=

4.430 ≅ 443 Ft 100

2. a táblabeli érték (= z ) kikeresése, (lásd: a kétoldalú becslés leírásánál) 3. a hibahatár (± ∆ ) kiszámítása: ± ∆ = z ∗ σ x = 1,65 ∗ 443 ≅ 731 Ft 4. az intervallum felírása, megfogalmazása.

[x + ∆ ) = ([12.380 − 731〈 X 〈+∞ )) ≅ [11.650) Ft vagy

(x − ∆] = (− ∞〈 X 〈(12.380 + 731)] ≅ (13.110] Ft. ♥ A 100 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy a vizsgált egyetem hallgatói havonta legkevesebb 11.650 Ft-t költenek szórakozásra. ♥ A 100 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy a vizsgált egyetem hallgatói havonta 13.110 Ft-nál nem költenek többet szórakozásra.199

199

Gyakorlati kérdés: Honnan tudjuk, hogy egy- vagy kétoldalú becslést kell-e végeznünk? A kérdésfeltevésből. Ha egy termék (pl. liszt, cukor stb.) zacskókba töltésénél a munkát végző vállalkozás vagy az értékesítést végző kereskedő számára csak az lényeges, hogy a vevőt ne károsítsák meg, akkor elég a töltési tömeg alsó határára figyelni. Ha viszont egy teherszállító eszközről van szó (pl. lift), ahol baleset történhet a túlterhelésnél, elég a hasznos teher felső határára figyelni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



205



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



206



BEMUTATÓ FELADAT II. Figyeljük meg, hogyan változnak az I. bemutató feladatban szereplő számítás eredményei, ha:

• a minta elemszáma növekszik vagy csökken: legyen n 2 = 200 , illetve n3 = 50 , • a becslés valószínűsége változik, kisebb illetve nagyobb lesz: 4. legyen P = 90% , 5. illetve P = 98% ! Annak érdekében, hogy az egyik (elemszám) ill. a másik tényező (valószínűség) a rész– ill. a végeredményre gyakorolt hatását ki tudjuk mutatni, az éppen nem vizsgált tényezőt állandónak kell tekintenünk. A minta elemszámának változtatása esetén a valószínűség állandó, jelen esetben marad az eredeti 95 %, a valószínűség változtatása esetén pedig a minta elemszáma marad változatlan, itt az eredeti 100 elemmel dolgozunk. Az átlag és a szórás is mindig azonos! Ha nem történik új mintavétel, hogyan is gondolhatjuk, hogy a megemelt számú, illetve a csökkentett elemszámú minta is ugyanazt az átlagot eredményezi? Ha a minta átlagát elfogadtuk sokasági átlagnak (= indukció), akkor a sokasági átlagot elfogadhatjuk az új minta átlagának (= dedukció)

Az egyes változtatások következtében módosult eredmények: 1. n 2 = 200 és P1 = 95% Változik a standardhiba:

σx =

σ n

=

4.430 ≅ 313 Ft, 200

és ennek következtében a hibahatár:

± ∆ = z ∗ σ x = 1,96 ∗ 313 ≅ 613 Ft, és természetesen az intervallum alsó és felső határa is:

[xa ± ∆] = [12.380 ± 612] ≅ [11.770〈 xa 〈12.990]Ft.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



206



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



207



Az intervallum szélessége = 2 ∗ ∆ = 2 ∗ 613 ≅ 1.220 ≅ [( x + ∆ ) − ( x − ∆ ) = 12.990 − 11.770 = 1.220] Ft

♥ A 200 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.770 és legfeljebb 12.990 forintot költenek szórakozásra. 2. n3 = 50 és P1 = 95% Ebben az esetben is változik a standardhiba:

σx =

σ n

=

4.430 ≅ 626 Ft, 50

a hibahatár:

± ∆ = z ∗ σ x = 2,00 ∗ 626 ≅ 1.250 Ft, és az intervallum alsó és felső határa is:

[xa ± ∆] = [12.380 ± 1.250] ≅ [11.130〈 xa 〈13.630] Ft. Az intervallum szélessége = 2 ∗ ∆ = 2 ∗1.250 = 2.500 ≅ [( x + ∆ ) − ( x − ∆ ) = 13.630 − 11.130 = 2.500] Ft A táblabeli értéket, tekintettel arra, hogy az ismertetett két feltétel – száz vagy annál nagyobb elemszám és az alapsokaság szórásának ismerete – közül csak az egyik teljesült, nem a már bemutatott, hanem a Student eloszlás táblából kerestük ki. Ezt a táblát a számítások után ismertetjük.

♥ Az 50 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.130 és legfeljebb 13.630 forintot költenek szórakozásra.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



207



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



208



3. n1 = 100 és P2 = 90% Változik a táblából kikeresett érték:

Φ(z ) =

Ψ ( z ) + 1 0,90 + 1 = = 0,95 → z i = 1,65 200, 2 2

ennek következtében a hibahatár is:

± ∆ = z ∗ σ x = 1,65 ∗ 443 ≅ 731 Ft, ill. az intervallum alsó és felső határa is:

[xa ± ∆] = [12.380 ± 731] ≅ [11.650〈 xa 〈13.110] Ft. Az intervallum szélessége = 2 ∗ ∆ = 2 ∗ 731 = 1.460 ≅ [( x + ∆ ) − (x − ∆ ) = 13.110 − 11.650 = 1.460]Ft.

♥ A 100 elemű EV minta alapján 90 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.650 és legfeljebb 13.110 forintot költenek szórakozásra. 4. n1 = 100 és P3 = 98% Változik a táblából kikeresett érték:

Φ(z ) =

Ψ ( z ) + 1 0,98 + 1 = = 0,99 → z i = 2,33 , 2 2

a hibahatár :

± ∆ = z ∗ σ x = 2,33 ∗ 443 ≅ 1.031 Ft, ill. az az intervallum alsó és felső határa is:

[xa ± ∆] = [12.380 ± 1.032] ≅ [11.350〈 xa 〈13.410] Ft.

200

A 10.3. sz. táblában ez az első bekeretezett érték.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



208



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



209



Az intervallum szélessége = 2 ∗ ∆ = 2 ∗1.032 = 2.060 ≅ [( x + ∆ ) − ( x − ∆ ) = 13.410 − 11.350 = 2.060] Ft

♥ A 100 elemű EV minta alapján 98 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói havonta legalább 11.350 és legfeljebb 13.410 forintot költenek szórakozásra. Megfigyeléseink:

• Az 1. és a 2. esetben az elemszám növekedése illetve csökkenése következtében – a fordított arányosság miatt – csökken, ill. növekszik az intervallum szélessége. (Eredeti szélesség = 1.740, megváltozott szélesség: n 2 = 200 → 1.220 (= szűkebb) és n3 = 50 → 2.500 (= tágabb) • A 3. és a 4. esetben a becslési valószínűség növekedése illetve csökkenése következtében – az adatok egyező irányban való mozgása miatt – növekszik, ill. csökken az intervallum szélessége. (Eredeti szélesség = 1.740, megváltozott szélesség: P2 = 90% → 1.460 (= szűkebb) és P3 = 98% → 2.060 (= tágabb) Összefoglalva: a minta elemszámának növelése (csökkentése) az intervallum szélességét csökkenti (növeli); a becslés valószínűségének növelése (csökkentése) pedig az intervallum szélességét növeli (csökkenti). Az 50 elemű mintából történt számítás során a hibahatár meghatározásához – ahogy ezt jeleztük is – másik táblából kerestük ki az adott valószínűséghez tartozó értéket. Miért? A számtani átlag becslésének elméleti leírása során már említettük, hogy a számtani átlagot, mint valószínűségi változót többek között szórása is jellemzi. A szórást azonban egyes esetekben ismertnek (korábbi teljeskörű felmérésből) tekinthetjük, azonban nem mindig. (Nincs minden esetben korábbi, s főleg teljeskörű felmérés.) Tehát magát a szórást is mintából becsüljük, azaz a szórás is mintáról mintára ingadozó valószínűségi változó, és számításához egy nem független201 valószínűségi változót (= átlag) is felhasználunk. Ennek következménye, hogy a z -változó helyett t -

201

A függetlenség kérdésére a szórás becslésével kapcsolatban térünk ki.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



209



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



210



változót kell használnunk. Ennek értékeit tartalmazza a Student -féle tábla. A t -változót változókat pedig szabadságfokuk (= n − 1 ) (is) jellemzi202. A becslés szabadságfoka203 a számítások során felhasznált független elemek számát jelenti. Ez itt és most azért n − 1 , mert a t -változó számításánál szereplő értékek közül a szórás nem független valószínűségi változó. Példánkban (2. változat) ez 49 (v = n − 1 = 50 − 1) . A Student-táblában ezt az értéket nem találjuk, ezért a hozzá legközelebb található 60-as szabadságfokhoz tartozó " t" értéket keressük ki. Ez a keresett érték: 2,0. A Student -táblával még nem dolgoztunk, ezért röviden ismertetjük szerkezetét. Az oldalrovatban található a szabadságfokok (v ) felsorolása. A táblában található utolsó szabadságfok 120. E fölött gyakorlatilag nincs különbség a Student-tábla és a " z" -tábla értékei között. A tábla fejrovatában vannak a valószínűségi értékek. (Ezek száma jóval kevesebb, mint a " z" tábla esetén, de csak – a helyhiány miatt – az oktatási célra készült jegyzetekben.) Ezt a táblát is egyoldalú becslésre adták meg, így itt is "el kell tolni" az intervallum határokat, vagyis ha a becslés megadott valószínűsége 95 %, akkor abban az oszlopban kell a "t" értéket keresni, amelyiknek a fejlécében 0,975 található.204 10.5. sz. tábla A Student eloszlás értékei, (t i ) , részlet

v

0,55

0,60

0,70

0,75

0,80

0,90

0,95

0,975 0,99

0,995

1

0,158 0,325 0,727 1,000 1,376 3,08

6,31

12,71 31,82 63,66

40

0,126 0,255 0,529 0,681 0,851 1,30

1,68

2,02

2,42

2,70

60

0,126 0,254 0,527 0,679 0,848 1,30

1,67

2,00

2,39

2,66

120

0,126 0,254 0,526 0,677 0,845 1,29

1,66

1,98

2,36

2,62



0,126 0,253 0,524 0,674 0,842 1,28

1,65

1,96

2,33

2,58



202

A z-változó szabadságfoka = végtelen, ezért ezzel nem kellett foglalkoznunk. részletesebben: 2.1.8.1.1. 204 Gyakorlatias megközelítés: z-tábla: valószínűség a tábla belsejében, leolvasandó érték az oldalrovatban (+fejlécben), t-tábla: valószínűség a fejlécben, leolvasandó érték a tábla belsejében. 203Lásd

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



210



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



211



10.2.2. Szórás becslése egyszerű véletlen (EV) mintából

A szórás mintából történő számítása előtt két fontos elméleti kérdést kell tisztázni:

• a függetlenség, • a szórás eloszlása. 1. Függetlenség Már említettük, hogy matematikai szempontból a mintavétel lehet visszatevéses (= ismétléses) és a visszatevés nélküli (= ismétlés nélküli). A viszszatevéses mintavételt alkalmazva minden választásunk N elem közül történik, azaz egyik elem mintába kerülése nem befolyásolja a másik elem mintába kerülését. Másképpen fogalmazva, bármelyik elem mintába kerülése független a többi elem mintába kerülésétől. A visszatevéses mintavétel független mintát eredményez. A visszatevés nélküli mintavételnél a kiválasztható elemek száma folyamatosan csökken. Egy-egy elem mintába kerülése javítja a többi elem mintába kerülési esélyeit, hiszen – ha igen csekély mértékben is –, de nő a kiválasztás valószínűsége. Vagyis ez a mintavételi módszer nem eredményez tökéletesen független mintát, de mert általában az alapsokaság elemeinek száma igen nagy és ehhez képest a minta elemeinek száma kicsi, azaz a kiválasztási arány alacsony (= 10 % alatti), ezért az így kapott mintát is függetlennek tekinthetjük. A függetlenség problémája azonban más megközelítésben is felmerül. Kérdés, hogy a mintákból számított statisztikai adatok (átlag, módusz, medián stb.) függetlenek-e? Azok a statisztikai adatok, amelyeknek számításához csak az alapsokaságból véletlenszerűen kiválasztott adatokat használunk fel (pl.: átlag) független valószínűségi változók. Azok a statisztikai adatok (pl.: a szórás), melyeknek a számításához nemcsak az alapsokaságból véletlenszerűen kiválasztott adatokat használunk fel, hanem olyanokat is, melyek értéke mintáról mintára ingadozik nem függetlenek.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



211



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

212



A számítás során felhasznált független elemek számát nevezzük szabadságfoknak. Mivel a szórás számításánál csak az átlag szerepel, mint nem független elem, ezért a szórás szabadságfoka: v = n − 1 .205 A szabadságfok figyelembevételével a szórás korábban megismert – de csekély mértékben módosult – képlete = becslőfüggvénye: Ha egyszerű számtani átlagot Ha súlyozott számtani átlagot számítottunk számítottunk:

s=

∑ (x

− xa )

2

i

n −1

=

∑d

2 i

n −1

∑ f (x − x ) ∑ f −1

2

i

s=

i

a

i

=

∑fd ≈ ∑ f −1 i

2 i

g i d i2

i

A szórás (pont)becslőfüggvényeiben szereplő betűk jelentése:

xa =

xi =

a számtani átlag

az átlagolandó értékek

fi = az egyes értékek előfordulása (db, fő) a mintában

gi =

fi

∑f

= i

n = a minta elemeinek száma

fi = n

az egyes értékek előfordulási aránya a mintában (= relatív gyakoriság, %-os formában pedig megoszlási viszonyszám)

di = az átlagolandó értékek és a számtanis átlag különbsége

A képletek nevezőjében szereplő " −1" tagot a gyakorlatban csak kisminta (n〈100) esetén érvényesítjük, hiszen, ha n 〉 100 , akkor n és n − 1 között elhanyagolható a különbség.206 2. A szórás eloszlása A szórás eloszlására a szórás köré szerkesztendő intervallum miatt kell figyelnünk. A szórás nem normális eloszlású valószínűségi változó. Jól látható ez, ha a 10.2. sz. táblában szereplő egyszerű példánk szórásait ábrázoljuk. 205

Fontos megjegyezni, hogy ha a minta elemszáma kisebb száznál (= kisminta), akkor az átlag becslésénél is felvetődik a függetlenség problémája (különösen azért, mert ilyenkor nagyobb az esély a szélsőséges mintára), ahogy erről a t-tábla használatával kapcsolatban már volt szó. 206 Például 10 ≅ 3,16 és 11 ≅ 3,32 vagy 500 ≅ 22,36 és 501 ≅ 22,38

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



212



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



213



10.6.sz. tábla a szórás értéke

előfordulás

0,0

9

0,5

22

1,0

11

1,5

3

A 10.2. sz. táblában szereplő N = 10 elemű alapsokaságból választott n = 2 elemű minták szórásainak megoszlása

előfordulás (db)

25 20 15

Adatsor1

10 5 0 0

0,5

1

1,5

2

szórások (nincs mértéke.)

10.1. ábra Az ábra jobbra elnyújtott. Ezt az eloszlás-típust χ 2 (kh’ )2 -eloszlásnak nevezzük.207 A másféle – aszimmetrikus – eloszlás-típus a számítások során másik tábla – "a χ 2 = (kh’ )2 -eloszlású változó eloszlásának kvantilis értékei" – használatát teszi szükségessé. A tábla szerkezete – így az abban való keresés is – azonos a t-táblánál megismerttel. Az elméleti problémák tisztázása után íme a szóráshoz tartozó intervallum számításának képlete = becslőfüggvénye:

(n − 1)s 2 〈σ 2 〈 (n − 1)s 2 χ2α

χ α2

2

2

1−

207A

minta elemszámának növelésével a szórások eloszlása is közelíti a normális eloszlást.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



213



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



214



A szórás intervallumának becslőfüggvényében szereplő betűk jelentése: σ = s= n = az alapsokaság becsülni a mintából becsült szórás a minta elemeinek száma kívánt szórása

χ2α = 1−

χ α2 =

2

2

táblabeli érték az intervallum alsó határához α = 1− P = szignifikancia-szint

táblabeli érték az intervallum felső határához P = a becslés valószínűsége

BEMUTATÓ FELADAT Folytassuk a számtani átlag becslésénél megkezdett (10.2. sz. tábla), az egyetemi hallgatók szórakozási kiadásaira vonatkozó példát! A szórás pontbecslése:

∑ f (x − x ) ∑ f −1

2

i

s=

i

i

a

=

194.256.000 ≅ 4430 Ft 100 − 1

Az intervallum meghatározásának lépései: 1. a táblabeli értékek kikeresése, 2. az intervallum határainak kiszámítása, megfogalmazása. A számtani átlag intervallumának meghatározásához képest – a becslőfüggvényre nézve ez egyértelmű – kevesebb műveleti lépésre van szükségünk; de nem egy, hanem két különböző táblabeli értéket kell kikeresnünk, továbbá – és ez lényeges különbség – a számítás közvetlen eredménye nem a szórás, hanem annak négyzete (= variancia). Jelen feladatunkban, a becslés valószínűsége 95 % (= P ) , így a szignifikancia-szint 5 % (= α ) , ami azt jelenti, hogy a szórás alsó határának kiszámításához a hoz pedig a 1 −

α 2

= 0,025 feliratú oszlopban, a felső határ kiszámításá-

α

= 0,975 feliratú oszlopban keressük ki a táblabeli érté2 ket. Mivel a szabadságfok 99 (= n − 1 = 100 − 1) , kerekítve 100, ezért a két kikeresett adat a az előbbi sorrendben: 74,2 illetve 129,6.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



214



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



215



10.7. sz. tábla

( )

A Khi-négyzet eloszlás χ i2 értékei, részlet v

0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,990 0,995

1

0,00 0,00 0,00 0,00 0,02 0,10 0,46 1,32 2,71 3,84 5,02 6,63 7,88

… 70 43,3 45,4 48,8 51,7 55,3 61,7 69,3 77,6 85,5 90,5 95,0 100,4 104,2 80 51,2 53,5 57,2 60,4 64,3 71,1 79,3 88,1 96,6 101,9 106,6 112,3 116,3 90 59,2 61,8 65,6 69,1 73,3 80,6 89,3 98,6 107,6 113,1 118,1 124,1 128,3 100 67,3 70,1 74,2 77,9 82,4 90,1 99,3 109,1 118,5 124,3 129,6 135,8 140,2

Így az intervallum:

(n − 1)s 2 〈σ 2 〈 (n − 1)s 2 χ2α

χ α2

2

2

1−

99 ∗ 4430 2 2 99 ∗ 4430 2 = 〈σ 〈 = 129,6 74,2

14.991.243,1〈σ 2 〈 26.184.165,8 ⇒ ≅ [3872〈σ 〈5117] Ft ♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatóinak havi szórakozási kiadása legalább 3.870 és legfeljebb 5.120 forinttal tér el (= kisebb vagy nagyobb) a szórakozásra átlagosan elköltött összegtől. Figyeljük meg az intervallum aszimmetriáját! A mintából számított (= becsült) szórás és az alsó határ között 560 Ft, illetve a becsült szórás és a felső határ között 690 Ft a különbség. Ha számításainkat kisebb elemszámú mintából végeztük volna, a fenti két különbség között nagyobb lenne az eltérés; ha pedig nagyobb elemszámú mintával dolgoztunk volna, az eltérés kisebb lenne. 10.2.3. Az értékösszeg becslése egyszerű véletlen (EV) mintából

A becslés célja – ahogy erről már a fejezet bevezetőjében is szó volt – egy sokasági jellemző értékének kiszámítása az egyetlen ismert minta alapján úgy, hogy az abból számított értéket – egy adott valószínűség mellett – vonatkoztatjuk a teljes sokaságra. Az átlag és a szórás esetében ez úgy teljesült, hogy a számítások végeredménye, a minta átlaga és a szórása egy-

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



215



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



216



ben a teljes sokaságra vonatkozó átlag és szórás is egy alsó és felső határ között. A minta értékösszegéről azonban soha nem mondhatjuk, hogy az a teljes sokaság értékösszege lenne. Gondoljuk el, meg akarjuk becsülni egy egyetemen a hallgatók közlekedési kiadásainak havi, vagy éves összegét, az semmiképp nem azonos a mintában szereplő, lényegesen kevesebb számú hallgató kiadásainak összegével. A teljes sokaságra vonatkozó értékösszeget tehát csak két lépésben tudjuk meghatározni, így számításához feltétlenül ismernünk kell

• vagy a sokaság elemeinek számát (= N ) , ekkor a becsült átlagból kapjuk meg az értékösszeget; n • vagy a minta kiválasztási arányát ⎛⎜ = ⎞⎟ , ekkor a mintára vonatkozó ⎝

N⎠

értékösszegből számítjuk ki a teljes sokaságra vonatkozót. A sokasági értékösszeg számításának (pont)becslőfüggvényei:

N és x ismeretével

n és x′ ismeretével N

X ′ = N ∗ x 208

X′=

N x′ n

A sokasági értékösszeg számításának intervallum-becslőfüggvényei:

[X ′ ± ∆] = N ∗ [xa ± ∆]

[X ′ ± ∆] = N ∗ [x′ ± ∆′] = N ∗ [xa ± ∆] n

n

A sokasági értékösszeg becslőfüggvényeiben szereplő betűk jelentése: x′ = n ∗ x = x = X′ = a minta sokaságra vonata mintából számított és a teljes a teljes sokságra vonatkozó becsült értékösszeg kozó számított értékösszeg sokságra vonatkoztatott átlag N = ∆′ = n ∗ ∆ = n = a teljes sokság elema mintára vonatkozó értéka minta elemszáma száma összeg hibahatára ∆ =

208

A második képlet az elsőből – az összefüggések figyelembevételével – értelemszerűen adódik.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



216



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



217



az átlag hibahatára

BEMUTATÓ FELADAT Folytassuk a számtani átlag becslésénél megkezdett (10.2. sz. tábla), majd a szórás számításával továbbvitt, az egyetemi hallgatók szórakozási kiadásaira vonatkozó példát! Kiegészítő adat: a vizsgált egyetem hallgatóinak száma = 6.250 (= 100 / 0,016) fő. Az értékösszeg pontbecslése és intervallumbecslése: X ′ = N ∗ x = 6.250 ∗12.380 ≅ 77.375.000 Ft = 77,4 millió Ft

[X ′ ± ∆] = N ∗ [xa ± ∆] = 6.250[12.380 ± 868] ≅ [72,0〈 X ′〈82,8] millió Ft ♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állítjuk, hogy a vizsgált egyetem hallgatói (6.250 fő) legalább 72,0 és legfeljebb 82,8 millió forintot költenek el havonta szórakozásra. 10.2.4. Sokasági arány becslése egyszerű véletlen (EV) mintából

A nem homogén sokaságok valamely megkülönböztető ismérv alapján részsokaságokra bonthatók, ahogy a bemutató feladatban szereplő egyetem hallgatói is szórakozási kiadásaik nagysága alapján (és természetesen egyéb ismérvek alapján is). Az egyes részsokaságok aránya azonban mintáról mintára kisebb-nagyobb mértékben változhat. Ezért ebben az esetben sem elégedhetünk meg a pontbecsléssel, hanem intervallumbecslést kell végezni, azaz meg kell állapítani, hogy az egyes részsokságok a teljes sokaság legalább és legfeljebb hányad részét adják. Az egyes részsokaságok arányára vonatkozó becslést azonban csak úgy tudjuk elvégezni, ha a csoportképzésre használt ismérvváltozatokat alternatív-ismérvekké alakítjuk. Az egyik csoport azon elemeké, amelyek arányát éppen ki akarjuk számítani (= "1"-vel jelzett ismérvváltozat), a másik csoportot pedig a sokaság összes többi eleme (= "0"-val jelzett ismérvváltozat) alkotja. Ha például egy egyetem hallgatói közül azok arányának intervallumát akarjuk kiszámítani, akik az adott intézmény székhelyén szüleikkel élnek, akkor ők képezik az egyik részsokságot = "1"-vel jelzett ismérvváltozat; az összes többi hallgató pedig a másik részsokságot jelenti = "0"-val jelzett ismérvváltozat. Az alternatív ismérvek szerinti részsokaságokra való felbontás után a számítás menete azonos az átlag becslés lépéseivel, vagyis: 1. a sokasági arány, azaz az alternatív ismérvek átlagának (= p ) és

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



217



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



218



2. a szórásnak ( = s ) kiszámítása a mintából, 3. a standardhiba (= σ p ) meghatározása ,

4. a táblabeli érték (= z ) kikeresése , 5. a hibahatár (= ± ∆ ) kiszámítása ,

6. a becsült arányhoz tartozó intervallum (= [ p ± ∆ ]) felírása, megfogalmazása.

Átlagnak209 tekintjük alternatív ismérvek arányának meghatározása esetén az "1"-es ismérvváltozattal jelzett részsokaság mintából meghatározott arányát. Az alternatív ismérvek szórása pedig az alternatív részsokságok arányának mértani átlaga. A soksági aránynak és az arány szórásának (pont)becslőfüggvénye: arány szórás

p=

fk = n

fk

∑f

≅ gi

s=

i

p∗q

A becsült arányhoz tartozó alapsokasági elemszám becslőfüggvénye:

N j = N ∗ pj

[N

j

]

[

± ∆ = N ∗ pj ± ∆p

]

A sokasági arány, az arányra vonatkozó szórás és az alapsokasági elemszám becslőfüggvényeiben szereplő betűk jelentése: p= q = 1− p = s= a vizsgált részsokság az alternatív ismérvek az alternatív részsokaság mintából számított szórása aránya aránya

Nj = n =

a minta elemszáma

209

a becsült arányhoz tartozó alapsokasági elemszám (pontbecslés)

N= az alapsokaság elemszáma

x = p ∗1 + q ∗ 0 = p

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



218



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



219



BEMUTATÓ FELADAT Folytassuk a számtani átlag becslésénél megkezdett (10.2. sz. tábla), az egyetemi hallgatók szórakozási kiadásaira vonatkozó példát! 10.8. sz. tábla osztály-

a hallgatók száma a mintában

szórakozási kiadás

közép

ezer Ft / hó /fő

xi

fi

– 5,0

3,5

6

5,1 – 8,0

6,5

10

8,1 – 11,0

9,5

18

11,1 – 14,0

12,5

35

14,1 – 17,0

15,5

15

17,1 – 20,0

18,5

11

20,0 –

21,5

5

összesen

-

100

Határozzuk meg azon hallgatók arányát és számát, akiknek a havi szórakozási kiadása 15.000 Ft vagy annál magasabb! A feladat megoldása első ránézésre lehetetlennek tűnik, hiszen 15.000 forintos osztályköz határ nincs. Osszuk fel tehát azt az osztályközt, amelyik a megadott értéket tartalmazza! A felosztásnál azt feltételezzük, hogy az elemek egyenletesen helyezkednek el az osztályközön belül210. Így a megjelölt (szürke háttér, vastagabb keret) osztályköz a felbontás után két részből áll: 14,1 – 15,0 és 15,1 – 17,0, a részekbe tartozó gyakoriságok pedig: 5 és 10. Most már összegezhetjük a kritériumnak megfelelő előfordulásokat: f k = 10 + 11 + 5 = 26 , majd elvégezhetjük a megadott sorrendben a számításokat:

210

Mint a módusz számításánál.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



219



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



220



26 = 0,26 q = 1 − 0,26 = 0,74 100 2. s = pq = 0,26 ∗ 0,74 ≅ 0,44 s 0,44 3. σ p = = ≅ 0,044 n 100 5. ± ∆ = z ∗ σ p = 1,96 ∗ 0,044 ≅ 0,086 ⇒ 8,6% 211

1. p =

6. [ p ± ∆ ] = [26 ± 8,6] = [17,4 ; 34,6]% 100 7. N j ± ∆ = [0,174 ; 0,346] ≅ 1088〈 N j 〈 2163 fő 0,016

[

]

[

]

Ezzel a feladattal először a számtani átlag becslésével találkoztunk, ott közöltük a kivá-

⎛ ⎝

lasztási arány ⎜ =

n⎞ ⎟ nagyságát (1,6 %), ezt az adatot használtuk fel most az alapsokaN⎠

ság elemszámának meghatározására (N = 6.250 fő).

♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állíthatjuk, hogy a vizsgált egyetem hallgatói közül legalább 1.088 és legfeljebb 2.163 fő havonta 15.000 forintnál többet költ szórakozásra. 10.2.5. Adott intervallum-szélességhez (=adott hibahatárhoz) tartozó elemszám illetve valószínűség meghatározása (EV minta)

Az eddig bemutatott példákban mindig adott mintából dolgoztunk és előre adott valószínűség mellett számítottuk ki a becsülni kívánt sokasági jellemzők aktuális értékét. A kérdés azonban „fordítva” is felmerülhet: 1. Mekkora mintát kell vennünk adott valószínűség mellett egy sokaságból, hogy a hibahatár egy előre megadott értéknél ne legyen nagyobb? 2. Hány %-os valószínűséggel kerül valamelyik sokasági jellemző adott mintaelemszám mellett egy előre meghatározott szélességű intervallumba? A fenti kérdéseinkre roppant egyszerűen válaszolhatunk. Mivel a kérdés „megfordult”, a válaszadás során is "visszafelé" kell gondolkodnunk!

211

Tekintettel arra, hogy ugyanazon feladatot folytattuk, és a valószínűségi előíráson sem változtattuk, új táblabeli értéket nem kellett keresni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



220



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



221



1. Adott valószínűség, adott hibahatár → elemszám? ⎡

A [xa ± ∆ ] = [xa ± z ∗ σ x ] = ⎢ xa ± z ∗ ⎣

σ ⎤

⎥ képletből ismert az átlag (= x a ) és a n⎦

szórás (= σ ) , például egy korábbi mintavétel eredményeképpen; a valószínűség pedig és ennek következtében a " z" -érték adott. Fejezzük ki tehát az összefüggésből az ismeretlent, az elemszámot!212 ±∆ = z∗

⎛ z ∗σ ⎞ σ z ∗σ ⎟ → n= → n=⎜ ⎝ ∆ ⎠ ∆ n

2

213

2. Adott elemszám, adott hibahatár → valószínűség? ⎡

Az előbbiekben már felírt [xa ± ∆ ] = [xa ± z ∗ σ x ] = ⎢ xa ± z ∗ ⎣

σ ⎤

⎥ képletből a n⎦

címben megadott feltételek alapján a valószínűség ismeretlen volta miatt a " z" -érték a kiszámítandó adat. Fejezzük ki, tehát ezt! ±∆ = z∗

σ n

→ z=

∆∗ n

σ

Ha egyoldalú becslést végeztünk, akkor a képlet alapján kiszámított z értékhez tartozó valószínűség kikeresésével választ kapunk a feltett kérdésre. Ha azonban kétoldalú becslést végzünk akkor még nem vehetjük kézbe a táblát. A kiszámított " z" -értékhez tartozó Φ (z ) értéket át kell alakítanunk214, ennek képlete: P = Φ (z ) − (1 − Φ (z ))

212Lehet,

hogy ez a megközelítés túlságosan matematikai jellegű, de egyrészt a statisztika a matematikára épül, másrészt a statisztika-elmélet részletesebb ismerete nélkül – talán – így a legegyszerűbb. 213 A betűjelek a korábbi képletekből mind ismertek. 214Ha szükséges, lapozzon vissza a számtani átlag becsléséhez! (A táblában való keresésről leírt tudnivalókhoz.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



221



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



222



BEMUTATÓ FELADAT215 A vizsgált hallgatók szórakozási kiadásának becslésekor legyen az előre meghatározott hibahatár 400 Ft. 1. A keresett elemszám (a valószínűség az eredeti):

• kétoldalú becslést feltételezve: 2

2

⎛ z ∗ σ ⎞ ⎛ 1,96 ∗ 4.430 ⎞ n=⎜ ⎟ =⎜ ⎟ ≅ 471 fő 400 ⎝ ∆ ⎠ ⎝ ⎠ • egyoldalú becslést feltételezve: 2

2

⎛ z ∗ σ ⎞ ⎛ 1,65 ∗ 4.430 ⎞ n=⎜ ⎟ =⎜ ⎟ ≅ 334 fő 400 ⎝ ∆ ⎠ ⎝ ⎠ 2. A keresett valószínűség (az elemszám az eredeti):

• kétoldalú becslést feltételezve: 400 ∗ 100 ≅ 0,90 σ 4430 Φ ( z i ) = 0,8159

z=

∆∗ n

=

Ψ ( z i ) = Φ (z i − (1 − Φ ( z i ))) = 0,8159 − (1 − 0,8159) = 0,6318

• egyoldalú becslést feltételezve: 400 ∗ 100 ≅ 0,90 σ 4430 Φ ( z i ) = 0,8159

z=

∆∗ n

=

♥ Ha az a cél, hogy a hibahatár 868 Ft-ról (kétoldalú becslés) ill. 731 Ft-ról (egyoldalú becslés) 400 Ft-ra csökkenjen (= szűkebb legyen az intervallum), akkor 95 %-os valószínűség mellett 471 (kétoldalú becslés) ill. 334 (egyoldalú becslés) elemű EV mintát kell venni az alapsokaságból.

215

Gyakorlati megoldás: az ilyen jellegű feladatoknál mindig „z”-táblával dolgozunk, ui. több valószínűségi adat közül válogathatunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



222



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



223



♥ Ha az a cél, hogy a hibahatár 868 Ft-ról (kétoldalú becslés) ill. 731 Ft-ról (egyoldalú becslés) 400 Ft-ra csökkenjen (= szűkebb legyen az intervallum), akkor az alapsokaságból vett 100 elemű EV minta alapján csak 63 (kétoldalú becslés) ill. 81 %-os (egyoldalú becslés) valószínűség mellett igazak az intervallumhatárok.216 10.2.6. Korrekciós tényezők

1. A mintavétel egyik ismertetett módszere az ismétlés nélküli (visszatevés nélküli) kiválasztás. Alkalmazásának előnye, hogy elkerülhető egyetlen elemnek többszöri mintába kerülése, és ezzel a valóságot torzan tükröző minta létrejötte. Ezzel szemben hátránya, hogy a kiválasztás során a függetlenség követelménye sérül. Azt már tudjuk, hogy az alapsokaság elemeinek (= N ) nagy száma, a szó szoros értelemben vett sokaság és ehhez n viszonyítva a minta elemeinek (= n ) alacsony száma ⎛⎜ 〈10% ⎞⎟ a független⎝N



ség sérüléséből adódó problémákat enyhíti. Vannak azonban olyan esetek, amikor vagy az alapsokaság nem igazán nagy tömegű, vagy a kiválasztási arány nem 10 % alatti, ilyenkor számítási eredményeink pontosítása érdekében korrekciós tényezőt kell alkalmaznunk. A korrekciós tényezőt (= k ) számításaink során a standardhiba meghatározásánál iktatjuk be a műveleti sorrendbe. Képletét bizonyítás217 nélkül közöljük. k=

N −n ≅ N −1

1−

n N

A korrekciós tényező gyakorlatban alkalmazott egyszerűsített képlete (= bekeretezve) egyértelműen mutatja, hogy az ismétlés nélküli kiválasztás standard hibája, ebből következően pedig – azonos valószínűségi követelmény mellett – hibahatára is kisebb, azaz szűkebb intervallumba kerül a becsült soksági jellemző.218

216

Az elemszámra és valószínűségre vonatkozó eredmények minden külön magyarázat nélkül logikusan következnek a számtani átlag becslésekor levezetett II. bemutató feladat megállapításaiból. 217A bizonyítás a valószínűség számítással foglalkozó tudományos irodalomban és egyes matematikai tankönyvekben is megtalálható. 218 A gyök alatti tényező mindenképpen kisebb egynél.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



223



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



224



A következő (10.8. sz.) kis tábla pedig azt szemlélteti, miért is van lehetőség 10 % alatti kiválasztási arány esetén a korrekciós tényező elhagyására. Alacsony kiválasztási arány mellett az ismétléses (számolás a korrekciós tényező nélkül) és az ismétlés nélküli kiválasztás (számolás a korrekciós tényezővel) eredménye között rendkívül csekély az eltérés.219. 10.9. sz. tábla kiválasztási arány (%)

a korrekciós tényező értéke

50

0,707

30

0,837

20

0,894

10

0,949

5

0,975

4

0,980

2

0,990

1

0,995

2. Korrekciós tényezőt – de másféle képlettel és módon – alkalmazunk abban az esetben is, ha a becsülni kívánt sokasági arány nem folytonos eloszlású sokaságra vonatkozik, pl.: ha a hallgatók érdemjegyek220 szerinti eloszlását vizsgáljuk. A korrekciós tényezőt ebben az esetben a pontbecslésnél iktatjuk a számítás menetébe.

p=

fk 1 + n 2n

221

Ha a minta elemszáma alacsony, akkor alkalmazása mindenképpen indokolt, ha azonban n elég nagy szám használata nem módosítja számottevően az eredményt.

219A

végső kerekítések során sokszor nagyobb eltéréseket okozunk. A korrekciós tényező alkalmazására itt feladatot nem mutatunk be. 220 Az érdemjegyek egész számok, a tapasztalati eloszlásfüggvénynek szakadásai vannak. 221 A képletben szereplő betűjelek már ismertek.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



224



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



225



10.2.7. Arányos rétegzés (AR)

Rétegzett kiválasztás alkalmazására akkor kerülhet sor, ha az alapsokaságról készült nyilvántartásában az egyes elemekre vonatkozóan olyan többlet információ (= megkülönböztető ismérv) is található, melynek alapján egyértelműen elvégezhető a részsokaságokra (= rétegekre) bontás. A rétegzett kiválasztás egyik, már említett előnye, hogy a sokaságról biztosan pontosabb képet kapunk, mint az egyszerű véletlen mintavétel esetén, hiszen biztosított, hogy mindegyik rétegből kerül elem a mintába. A rétegzett mintavétel ezen előnyét a mintavétel költségeinek csökkentésére is felhasználhatjuk. Ha ugyanis lemondunk a pontosabb eredményről, azaz megelégszünk az azonos szélességű intervallummal, akkor ez kevesebb elemet kell kiválasztani és megfigyelni. A rétegzett kiválasztási módszer számítási képleteit itt csak a több szempontból is legegyszerűbb, úgy is fogalmazhatunk, hogy a legkézenfekvőbb, arányos rétegzésre vonatkozóan mutatjuk be. A számítások menete – és ez nemcsak az arányos rétegzésre igaz – mindig két részre tagolódik. Először a rétegeken belül dolgozunk, másodszor pedig a rétegek eredményeiből számítjuk ki a teljes sokaságra jellemző adatokat. Mivel az egyes rétegekből egyszerű véletlen kiválasztással történik a mintába kerülő elemek kiválasztása, új képletekkel ehhez a munkaszakaszhoz nem kell megismerkedni. A második munkaszakaszban a rétegekre jellemző statisztikai jellemzőkből a teljes sokságra vonatkozó adatok az alábbiak szerint határozhatók meg: számtani átlag

standardhiba

xa = ∑ w j x j

σx =

1 ∑ w jσ 2j n

Az arányos rétegzésre vonatkozó becslőfüggvényekben szereplő betűk jelentése: n = xj = nj = xa = teljes sokaság az egyes réte∑ n j = a minta az egyes rétegek elemátlaga gek átlaga száma a mintában elemszáma

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



225



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

wj =

Nj N

=

nj

N =

n

= az egyes rétegek aránya a teljes sokaságban és a mintában σj σx

∑N

Vissza



226



Nj = j

= a teljes

sokság elemszáma

az egyes rétegek elemszáma az alapsokaságban

= az átlag = az egyes standard hibája rétegek szórása

Az arányosan rétegzett minta átlaga az egyes rétegek átlagának súlyozott számtani átlaga, ahol a súlyként a rétegek alapsokaságbeli (= minta sokaságbeli) arányát használjuk. Vegyük észre, hogy

• a teljes sokaságra vonatkozó standardhiba közvetlenül a rétegek szórásából számítható; • továbbá, hogy a

∑N σ ∑N j

w jσ = 2 j

2 j

= σ B szorzat nem más, mint

j

egy belső szórás (=a rétegek szórásának négyzetes átlaga). S mert a belső szórás kisebb222 a teljes szórásnál, matematikai magyarázatot is kapunk arra, hogy miért is kisebb a az arányos rétegzés hibája, mint az egyszerű véletlen mintáé. Természetesen, ha ismerni akarjuk a rétegek átlagához tartozó intervallumok alsó és felső határait, akkor a szokásos módon kiszámíthatjuk az egyes rétegek standard hibáit is, illetve, ha szükséges a teljes sokaság szórása is kiszámítható a rétegek szórásainak súlyozott négyzetes átlagaként, ahol súlyként a rétegek teljes sokaságbeli arányát (= a minta sokaságbeli arányát) használjuk. Figyelembe véve a σ T = (σ K + σ B ) összefüggést, tudjuk, hogy σ B ≤ σ T , vagyis a kétféle mintavétel szórása és így standard hibája legfeljebb azonos lehet, de többnyire a rétegzett mintavételé a kisebb. (A teljes és a belső szórás abban az esetben azonos, amikor tulajdonképpen feleslegesen rétegeztünk, mert az egyes rétegek átlagai megegyeznek egymással és a főátlaggal is, amiből pedig az következik, hogy a külső szórás nulla, továbbá az is, hogy a rétegzéshez felhasznált megkülönböztető ismérv, nem befolyásolja a rétegekre jellemző paraméterek alakulását.)

222

2

2

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



226



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

227



Záró megjegyzés Ha egyenletes rétegzéssel (ER) dolgozunk, akkor a teljes sokaságra vonatkozó átlag becslése ugyanúgy történik, mint az AR esetében (= a rétegek átlagának alapsokaságbeli aránnyal súlyozott átlaga), de a standard hiba számításához a teljes szórást kell ismerni. BEMUTATÓ FELADAT A számtani átlag becslésénél bemutatott példa folytatása. A hallgatók szórakozási kiadásának átlagát nemenkénti bontásban is kiszámoltuk. A becslési valószínűség 95 %-os.223 10.10. sz. tábla a hallgatók aránya a teljes sokságban és a mintában

a hallgatók neme

% wj =

a hallgatók átlaga

a teljesítmények szórása

ezer Ft Nj N

=

nj n

xj =

∑fx ∑f i

∑ f (x − x ) ∑f

2

i

σj =

i

i

j

i

i

férfi

61

≅ 13.800

≅ 4.010



39

≅ 10.200

≅ 4.100

együtt

100

≅ 12.400

A hallgatók átlagos teljesítményének standard hibája AR mintavétel: σx =

1 n

∑w σ j

2 j

=

(

)

1 4045 ∗ 0,61∗ 4.010 2 + 0,39 ∗ 4.100 2 ≅ ≅ 405 Ft 100 100

A 95 %-os becslési valószínűség esetén – az előző feladatokban már kikeresett – " z"− érték: 1,96

223

Ha más valószínűséget választanánk, nem látnánk egyértelműen az EV és az AR mintavételből adódó különbséget.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



227



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

228



A becsült érték hibahatára:

± ∆ = z ∗ σ x = 1,96 ∗ 405 = 810 Ft A hallgatók átlagos szórakozási kiadásának intervalluma:

[x

a

[

± ∆ ] = 12.380 ± 810

] ≅ [11.570〈 X 〈13.190] Ft

♥ 100 elemű AR minta alapján 95 %-os valószínűséggel állítjuk, hogy a vizsgált egyetem hallgatóinak havi szórakozási kiadása legalább 11.570 és legfeljebb 13.190 Ft. Az intervallum szélessége = 2∆ = 2 ∗ 810 ≅ 1620 Ft (Emlékeztetőül az EV minta intervallumának szélessége = 2∆ = 2 ∗ 868 ≅ 1740 Ft.) A hallgatók átlagos szórakozási kiadásaira vonatkozó intervallum számítása ER mintavétel esetén, lépésenként:

σ B = w jσ 2j = 0,61∗ 4.010 2 + 0,39 ∗ 4.100 2 ≅ 4.45 Ft

∑ w (x − x ) ∑w

2

σK =

j

j

= 0,61(13.800 − 12.380 ) + 0,39(10.200 − 12.380 ) = 1.756 Ft 2

2

j

σ T = σ B2 + σ K2 = 4.045 2 + 1.756 2 = 4415 ≅ 4410 Ft σx =

σT n

=

4410 = 441 Ft 100

∆ = z ∗ σ x = 1,96 ∗ 441 = 864 Ft

[x ± ∆] = [12.380 ± 864] ≅ [11.510〈 X 〈13.240] Ft ♥ 100 elemű ER minta alapján 95 %-os valószínűséggel állítjuk, hogy a vizsgált egyetem hallgatóinak havi szórakozási kiadása legalább 11.510 és legfeljebb 13.240 Ft. Az intervallum szélessége = 2∆ = 2 ∗ 864 ≅ 1.730 Ft (Emlékeztetőül az EV minta intervallumának (2∆ = 2 ∗ 868 ≅ 1.740 ) és az AR intervallumának (2∆ = 2 ∗ 810 ≅ 1.620 ) szélessége Ft. Összehasonlítva az intervallumszélességek (szórások, standardhibák, hibahatárok): AR 〈 ER 〈 EV

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



228



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



229



A bemutató feladatban a háromféle mintavétel intervallumszélessége csak csekély eltérést mutat. Ennek oka, hogy a két réteg (férfiak, nők) átlagos szórakozási kiadása és annak szórása is igen hasonló. A hallgatók neme mindössze 15,9 %-ban befolyásolja a hallgatók szórakozási kiadását.224

10.3. Gyakorló feladatok 1. feladat Mintavételes eljárással vizsgáljuk egy egyetemen különböző szakokon tanuló diákjainak teljesítményét matematikából. 10.11. sz. tábla a minta adatai: villamosteljesítmény mérnökök % fő - 50 30 51 – 60 20 61 – 70 10 71 – 80 10 81 – 90 6 91 – 4 összesen 80

gépészinformatikus közgazdász mérnökök 20 20 15 10 3 2 70

34 68 34 22 11 11 180

35 88 88 35 28 6 280

1. Becsülje meg szakonként a hallgatók a teljesítményének átlagát! 2. Becsülje meg szakonként a hallgatók a teljesítményének szórását! 3. Feltételezzük, hogy a mintavétel egyenletes rétegzéssel történt, becsülje meg az egyetemi átlagot, ha a kiválasztási arány 4 %! 4. Feltételezzük, hogy a mintavétel arányos rétegzéssel történt, becsülje meg az egyetemi átlagot, ha a kiválasztási arány 4 %! 5. Becsülje meg a villamosmérnök hallgatók esetében a 80 % feletti teljesítmény nyújtók arányát és számát, ha a kiválasztási arány 4 %!

224

H 2 mutatót számítottunk. Ha szükséges, lapozzon az ismérvek közötti kapcsolatok

fejezethez (Stat. I.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



229



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



230



6. Vegye alapul a gépészmérnök hallgatókra végzett átlagbecslés (P =95 %) eredményeit! Változzon a hibahatár kétszeresére, majd felére! Milyen valószínűség mellett (elemszám az eredeti) tudja garantálni az adott intervallumszélességet? Hány elemű mintát kell venni (a valószínűség az eredeti? Ha szorgalmas, a fenti adatokból még egyéb becslési feladatokat is elvégezhet. Minden becslési feladatot P = 90%, majd P = 95 %, végül P = 98 % valószínűségen is végezzen el! 2. feladat A háztartások villamosenergia-fogyasztásának vizsgálatára egyik megyénkben 1,4 % -os ( n = 200) EV mintát vettek. A minta adatai: 10.12. sz. tábla fogyasztás kWh – 80 81 – 100 101 – 120 121 – 160 161 – 200 201 – 300 301 – összesen

a háztartások aránya a mintában % 5,0 12,5 20,0 22,5 20,0 12,5 7,5 100

1. Becsülje meg a háztartások átlagos villamosenergia-fogyasztását! Egyoldalú és kétoldalú intervallumot is szerkesszen! 2. Becsülje meg a háztartások átlagos villamosenergia-fogyasztásának szórását! 3. Becsülje meg az egyes fogyasztási kategóriákba (= osztályközökbe) tartozó fogyasztók számát! 4. Becsülje meg az összes fogyasztást! 5. Milyen intervallumok adódnának az átlagra (a felsorolt valószínűségeken), ha a minta 2,5 %-os kiválasztású lenne?

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



230



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



231



Minden becslési feladatot P = 90%, majd P = 95 %, végül P = 98 % valószínűségen is végezzen el! 3. feladat Egy gazdaságban, ahol két fajta almát termesztenek, a 2000 almafa össztermését kívánják megbecsülni. A két fajtából arányosan vesznek mintát. a fák száma fajta

db

A B

összesen 1500 500

minta 150 …

minta átlaga kg /fa 107 100

szórása 25 18

1. Becsülje meg egy almafa átlagtermését! 2. Becsülje meg a gazdaság teljes almatermését! A becslések eredményeit 95 %-os megbízhatósági intervallumban akarjuk ismerni. 4. feladat Egy régióban 6.000 lakás épült az elmúlt évben. Az újonnan épült lakások közül 500 lakást választottunk ki rétegzett mintavétellel az átlagos kivitelezési idő becslésére. A minta adatai: az új lakások száma kivitelezés vállalkozó által egyéni

a régióban db 4.000 2.000

a mintában 250 250

a kivitelezési idő a mintában átlaga szórása hó 15 5 24 6

Becsülje meg 5 %-os megbízhatósági szinten az átlagos kivitelezési időt!

• a vállalkozói kivitelezésben épült lakásokra vonatkozóan, • az egyéni kivitelezésben épült lakásokra vonatkozóan, • az összes lakásra vonatkozóan!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



231



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

232



10.4. Összefoglalás becslés

fajtái:

történhet:

= valamely alapsokasági jellemző meghatározása mintasokasági adatok ismeretében = az eredmény egyetlen szám1. pontbecslés adat = az eredmény egy minimum 2. intervallumbecslés és egy maximum érték (tól – ig) egyszerű véletlen mintából225 rétegzett mintából

egyenletes arányos

EV a számtani átlag becslése

lépések

standardhiba

hibahatár

∑ ∑

becslőfüggvény: f i xi xa = = (a leggyakrabban haszf i nált formák) 1. pontbecslés 2. standardhiba (= átlagos hiba) 3. hibahatár (= maximális hiba) 4. intervallum

σ

∑g x

i i

s n

becslőfüggvény:

σx =

becslőfüggvény:

∆ = z ∗ σ x vagy ∆ = t ∗ σ x

n



z-tábla

ha n〉100 és σ = ismert

t-tábla

ha n〈100 vagy σ = nem ismert

szabadságfok valószínűség = a becsléshez használt független elemek száma pl.: az átlagbecslésnél = (n-1) – egyoldalú becslésnél átalakítás nél= adott feltétel kül, – kétoldalú becslésnél átalakítással keresés a táblákban

szabadságfok valószínűség

225

Vannak egyéb mintavételi módok (többet fel is soroltunk), de számítási feladatokat csak ezekre vonatkozóan mutattunk be.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



232



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

a szórás becslése



[x − ∆;+∞ ) vagy (− ∞; x + ∆]

becslőfüggvény: (a leggyakrabban használt)

s=

szabadságfok

(n-1)

intervallum

233

[x ± ∆]

egyoldalú kétoldalú

intervallum



Vissza

∑ f (x − x ) ∑ f −1

2

i

i

a

=

i

∑fd ≈ ∑ f −1 i

2 i

g i d i2

i

(n − 1)s 2 〈σ 2 〈 (n − 1)s 2 χ2α

χ α2

2

2

1−

A négyzetgyökvonásról ne feledkezzünk meg!

χ 2 -tábla

Két értéket kell kikeresni.

a sokasági arány becslése

becslőfüggvény:

feltétel:

alternatív ismérvekké alakítás

1− fk fk , q= , n n p + q =1

p=

f k = amire a vizsgálat vonatkozik n − f k = összes többi

lépések:

ua. mint számtani átlag, de

az értékösszeg becslése

kiindulás a számtani átlag intervallumából

[X ′ ± ∆] = N ∗ [x ± ∆]

az alapsokasági elemszám becslése

kiindulás a sokasági arány intervallumából

[N

A dokumentum használata | Tartalomjegyzék | Táblázatok

s=

j

p∗q

]

± ∆ = N ∗ [ p ± ∆]

Vissza



233



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

adott hibahatárhoz elemszám (EV)

Vissza



234



a hibahatár képletét át kell rendezni n-re ⎛ z ∗σ ⎞ n=⎜ ⎟ ⎝ ∆ ⎠

2

a hibahatár képletét át kell rendezni z-re, z=

adott hibahatárhoz valószínűség (EV)

∆∗ n

σ majd kikeresni a z-hez tartozó valószínűséget, – ha egyoldalú a becslés, ez az eredmény – ha kétoldalú a becslés, át kell alakítani P = Φ (z ) − (1 − Φ (z ))

ER

AR

a standardhiba számításánál a képletben szereplő szórást a külső, belső és teljes szórás megismert összefüggése alapján számítjuk a standardhiba számításánál a képletben szereplő szórás = az un. belső szórás

σx =

A dokumentum használata | Tartalomjegyzék | Táblázatok

1 w jσ 2j ∑ n

Vissza



234



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



235



10.5. Mintapéldák korábbi vizsgadolgozatokból226 1. minta 80 véletlenszerűen kiválasztott lakótelepi lakás vízfogyasztását figyelték meg (m3 / hónap / lakás). Az átlagos fogyasztás 12,4m3 3,7m3 szórás mellett. Végezzen intervallumbecslést mindkét pontbecslés mellé (P = 98 %)! Fogalmazza meg az átlagra vonatkozó adatok jelentését! 1. intervallum

2. intervallum

megfogalmazás Ha az átlagra vonatkozó becslés estén ∆ = ±1,1 adódott volna, hány %-os valószínűséggel tudná az eredményeket „garantálni”? valószínűség indoklás Válaszoljon röviden! Milyen fajtái és milyen előnyei vannak a rétegzett mintavételnek? fajták előnyök

2. minta Egy konzervgyár zöldborsót exportál. A szabvány szerinti töltési tömeg 3000 g, 50 g szórás mellett. Egy véletlenül kiválasztott napon a délelőtti és a délutáni műszakban is 3030 elemű EV mintát vettek. A minták adatai:

• •

délelőtt: átlagos töltési tömeg 3050 g, 52 g szórás mellett délután: átlagos töltési tömeg 2950 g, 49 g szórás mellett

226

Ahogy már az előző fejezetekben is utaltunk rá, a dolgozatíráskor a számításokhoz és a szöveges válaszokhoz lényegesen több (= elegendő) hely áll majd rendelkezésére, mint amennyit itt az üres rovatok jeleznek.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



235



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



236



P = 90 %

Számítsa ki, hány elemű mintát kellene venni (P = mint eddig), hogy az intervallum szélessége felére csökkenjen! A délelőtti műszak adataival dolgozzon! Magyarázza meg a kapott eredményt! Válaszoljon! Kaphat-e eltérő eredményt, ha a délutáni műszak adatival dolgozik. (Ne számoljon, gondolkodjon!)

Számítsa ki, milyen valószínűséggel kellene dolgoznia (elemszám = az eredeti), ha az intervallum szélességét duplájára akarná növelni! A délutáni műszak adataival dolgozzon! Magyarázza meg a kapott eredményt!

3. minta

év

munkanélküliek fő

- 20

48

20 – 25

90

25 – 30

120

30 – 40

180

40 – 50

150

50 -

12

összesen

600

korcsoport

95 %-os valószínűség mellett adjon becslést a munkanélküliek átlagos életkorára ill. annak szórására! átlag

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



236



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Becslés Vissza



237



szórás

98 %-os valószínűség mellett adjon becslést a 40 év feletti munkanélküliek arányára és létszámára, ha a kiválasztási arány 2 ezrelékes! arány

létszám

Fogalmazza meg az előzőekben kiszámított adatok jelentését! átlag + létszám

arány + létszám

4. minta Az alábbi kijelentésekről döntse el, hogy igazak-e! A kijelentések melletti üres oszlopba írjon I (= igaz) vagy H (= hamis) betűt! kijelentések I/H 1. Reprezentatív felvétel esetén a megfigyelni kívánt sokságból tetszés szerint veszünk mintát. 2. Reprezentatív adatgyűjtés esetén az alapsokaság elemeinek öszszességére vonatkozik az adatgyűjtés. 3. Reprezentatív adatgyűjtés esetén a kapott eredményeket az alapsokaságra vonatkoztatjuk. 4. Reprezentatív adatgyűjtés esetén az alapsokaság akár 50 – 100 elemű is lehet. 5. A reprezentatív adatgyűjtés során nincs jelentősége annak, hogy hány elemű mintát választunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



237



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

6.

A reprezentatív adatgyűjtéssel való vizsgálódást a matematika fejlődése, konkrétan a valószínűségszámítás elméleti fejlődése teszi lehetővé.

7.

A mintából számított adatokat mindenféle megfontolás nélkül vonatkoztathatjuk a teljes sokaságra.

8.

A mintába került elemek számának meghatározásakor két ellentétes igénynek (minél pontosabb eredmény, alacsony költéség) kell eleget tennünk.



238



5. minta Egy egyetemi szak hallgatóinak (EV) teljesítménye matematikából az első zárthelyi dolgozat alapján:

%

villamosmérnökök fő

- 50

30

51 – 60

20

61 – 70

10

71 – 80

10

81 – 90

6

91 –

4

összesen

80

teljesítmény

1. Számítsa ki a hallgatók teljesítményének átlagát! 2. Számítsa ki a hallgatók teljesítményének szórását! 3. Mind az átlagot, mind a szórást határozza meg pont- és intervallumbecsléssel (P = 95 %, kétoldalú becslés) is! 4. Fogalmazza meg mindkét intervallumbecslés eredményét! A kiszámított adatokat és a számítás részeredményeit is írja az eredménytábla megfelelő rovatába! Minden részeredményt 3 tizedesig számítson, és 2 tizedesre kerekítve használja tovább!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



238



Statisztika

Becslés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



239



Ha az eredmény-tábla valamely rovatába nem kerülhet adat, akkor abba tegyen egy vízszintes vonalat! Ha olyan szabadságfokkal kell dolgoznia, amit nem talál meg a megfelelő statisztikai táblában, akkor mindig FELFELÉ kerekítsen (= az adott szabadságfok feletti adatnál keresgéljen a táblában). eredmény-tábla pontbecslés intervallumbecslés

átlag

szórás

átlag

szórás

standard hiba valószínűség (együtthatós formában) szabadságfok táblabeli érték hibahatár

az intervallum alsó határa az intervallum felső határa az intervallum szélessége

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



239



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



240



11. Hipotézisellenőrzés = statisztikai próbák A statisztikai becslések során a vizsgált sokaságok egy-egy jellemzőjének megismerése érdekében a teljes sokaságból mintát veszünk. Ugyanakkor mindig van egy előzetes feltevésünk (= hipotézisünk) is a vizsgált paraméterre vonatkozóan. A két érték – a mintából származó és az előre megadott – azonban nem feltétlenül azonos "számtani" értelemben227, ennek ellenére a statisztikus még nyilatkozhat azok egyezőségéről. A statisztikai egyezőség ugyanis azt jelenti, hogy a mintából származó érték benne van egy előre meghatározott, az előzetesen feltételezett érték körül elhelyezkedő intervallumban (= konfidencia intervallum). Feltevéseink nemcsak paraméterekre (átlag, arány stb.) vonatkozhatnak, hanem a sokaságok eloszlására is. A hipotézisellenőrzés (= hipotézisvizsgálat = tesztelés) célja pedig az, hogy feltevéseink helyességéről meggyőződjünk, vagy éppen azok elvetéséről döntsünk. Az ellenőrzés során tehát a mintából számított statisztikai jellemzőket egy korábbi teljes körű felvétel eredményeihez, az esetleg létező normaértékekhez, egy másik mintavétel eredményeihez hasonlítjuk. Ennek során a kérdés mindig úgy merül fel, hogy az eredmények közötti számszerű eltérést lényegesnek (= szignifikánsnak) tekintjük-e, vagy elhanyagolható mértékűnek (= nem szignifikánsnak). Az összehasonlítás megoldására szolgálnak a statisztikai próbák. Fontos tudnunk, hogy a jegyzetünkben leírt ellenőrzési módszerek mind a sokaság normális eloszlását feltételezik, amiről már ezen próbák elvégzése előtt meg kell győződnünk. Erre szolgál az illeszkedésvizsgálat.

227

A mintabeli érték lehet kisebb és nagyobb is, azaz nincs szó a számadatok utolsó tizedesjegyig való tökéletes azonosságáról.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



240



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



241



11.1. A hipotézisellenőrzés alapfogalmai A hipotézisellenőrzés első lépése feltevéseink matematikai formában való megfogalmazása. Ha például azt akarjuk ellenőrizni, hogy egy cukorkát csomagoló gép egy-egy zacskóba valóban a szabványban megadott menynyiséget rakja-e, akkor egyszerű véletlen mintát veszünk egy véletlenül kiválasztott időpontban. Majd a számítások (= átlagos töltősúlyra, ill. annak szórására vonatkozó intervallumbecslés) befejezése után összehasonlítjuk a mintából adódó átlagot ( = x a ) a szabványban előírt értékkel (= X 0 ) . Ha a két érték megegyezik (= nincs szignifikáns eltérés), azaz a gép az előírásoknak megfelelően dolgozik, akkor különbségük határértéke nulla. Matematikai formában: lim(X a − X 0 ) = 0

Az előbbiekben kifejtett gondolatból kiindulva kapjuk hipotézis-felírásunk általános alakját, és ebből a felírásból adódik hipotézis neve: nullhipotézis. Az ellenőrzés során azonban soha nem elég egyetlen hipotézist felírnunk. Feltevéseinket (= nullhipotéziseinket) mindig egy ellenhipotézissel, azaz alternatív hipotézissel szemben kell megfogalmaznunk, méghozzá úgy, hogy a két feltevés megvalósulása tökéletesen kizárja egymást. Az alternatív hipotézis lehet egyoldalú és kétoldalú is, sőt megfogalmazhatunk konkrét ellenhipotézist is. Statisztikai hipotézisek matematikai formában: alternatív hipotézisek nullhipotézis

H 0 : xa = X 0

228Jegyzetünkben

kétoldalú

H 1 : xa ≠ X 0

egyoldalú

konkrét228:

baloldali

jobboldali

H 1 : xa 〈 X 0

H 1 : xa 〉 X 0

H 1 : xa = X 2

ezzel a az esettel nem foglalkozunk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



241



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



242



A hipotézisek felírásában szereplő betűk jelentése:

H0 = a nullhipotézis jele

xa =

H1 =

az alternatív hipotézis jele

a mintából számított sokasági jellemző, itt átlag

X0=

X2 =

az előre megadott (feltételezett) sokasági jellemző, itt átlag

egy másik előre megadott (feltételezett) sokasági jellemző, itt átlag

Azt, hogy a két állítás, azaz a nullhipotézis és az alternatív hipotézis közül melyiket fogadjuk el, statisztikai próbákkal döntjük el. A statisztikai próba során egy megfelelő próbafüggvény aktuális értékének és az ehhez alkalmas statisztikai tábla kikeresett értékének összehasonlítása történik meg. Ha kétoldalú alternatív hipotézist fogalmaztuk meg, akkor a nullhipotézist abban az esetben fogadjuk el, illetve az alternatív hipotézist abban az esetben vetjük el, ha a próbafüggvény abszolút értéke kisebb a megfelelő táblából kikeresett értéknél. A táblabeli érték kikeresése pedig éppen úgy történik, mint a kétoldalú becslésnél. Az elfogadás és elvetés szabálya megfogalmazható másképp is. A kikeresett táblabeli érték ugyan pozitív előjelű, de mert a normális eloszlás görbéje szimmetrikus, ez az érték két azonos abszolút nagyságú, de különböző előjelű adatot jelent, ahogy a 11.1. sz. ábra is mutatja. Ez a két érték a görbe alatt kijelöl egy tartományt [− z 〈 0〈+ z ] . Ezt a tartományt nevezzük elfogadási tartománynak. A határokon kívül található részt pedig kritikus tartománynak. Ha a megoldott próbafüggvény értéke az elfogadási tartományba kerül, akkor a nullhipotézist fogadjuk el (és egyúttal elvetjük az alternatív hipotézist), ha a próbafüggvény értéke a kritikus tartományba kerül, akkor a nullhipotézist elvetjük (és egyúttal elfogadjuk az alternatív hipotézist).

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



242



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



243



11.1. ábra: elfogadási- és kritikus tartomány kétoldalú alternatív hipotézis esetén Ha az alternatív hipotézis H 1 : X a 〈 X 0 formájú, azaz egyoldali (baloldali), akkor nullhipotézist abban az esetben fogadjuk el (és vetjük el az alternatív hipotézist), ha a próbafüggvény előjeles értéke nagyobb ( − z ) értéknél, azaz nagyobb az elfogadási tartomány alsó határánál (Ebben az esetben az elfogadási tartomány felső határa a pozitív végtelen). Ellenkező esetben a nullhipotézist vetjük el, és természetesen az alternatív hipotézist fogadjuk el. (Lásd: 11.2.. sz. ábra)

11.2.. ábra:elfogadási- és kritikus (baloldali) tartomány egyoldalú alternatív hipotézis esetén

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



243



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



244



Ha az alternatív hipotézis H 1 : X a 〉 X 0 formájú, azaz egyoldali (jobboldali), akkor a nullhipotézist abban az esetben fogadjuk el (és vetjük el az alternatív hipotézist), ha a próbafüggvény előjeles értéke kisebb (+ z ) értéknél, azaz kisebb az elfogadási tartomány felső határánál. (Az elfogadási tartomány alsó határa a negatív végtelen). Ellenkező esetben a nullhipotézist vetjük el, és természetesen az alternatív hipotézist fogadjuk el. (Lásd: 11.3.. sz. ábra)

11.3. ábra: elfogadási- és kritikus (jobboldali) tartomány egyoldalú alternatív hipotézis esetén A hipotézisvizsgálatok során, bármilyen pontosan is megtartjuk az előírásokat mind a mintavételre, mind az ellenőrzésre vonatkozóan, hibákat követhetünk el. Ezek a hibák abból adódnak, hogy nem ismerjük a teljes sokaságot, így eredményeinket csak bizonyos valószínűség mellett tudjuk elfogadni. Az elkövethető hibák fajtái:

• elsőfajú hiba ( = α ) ,

• másodfajú hiba ( = β ) Elsőfajú hibát akkor követünk el, ha a nullhipotézis helyes (= igaz), de a próbafüggvény alapján mégis annak elvetése mellett döntünk. Másodfajú hibát akkor követünk el, ha a nullhipotézis nem helyes (= nem igaz), de a próbafüggvény alapján mégis annak elfogadása mellett döntünk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



244



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



245



A hipotézisellenőrzés során elkövethető hibákat mutatja be az 11.4.. sz. ábra és az 11.1 .sz. tábla foglalja össze. 11.1. sz. tábla a H 0 -ban megfogal-

a H 0 -ra vonatkozó döntés

mazott állítás

elfogadjuk

elvetjük

igaz

helyes döntés

rossz döntés = elsőfajú hiba

*

1−α

α

nem igaz

rossz döntés = másodfajú hiba * β

helyes döntés 1− β

* a döntések, illetve a hibák elkövetésének valószínűsége

11.4. ábra: a hipotézisellenőrzés során elkövethető hibák A hibákat bemutató ábrából (11.4. sz.) és táblából (11.1. sz.) kiolvasható a becslés valószínűségi követelménye és az elsőfajú hiba elkövetési valószínűségének összefüggése. A becslés valószínűsége (= P ) a becsült sokasági jellemző intervallumba kerülési valószínűségét adja meg, és ennek komplementere (1 − P ) az intervallumon kívül esés valószínűségével egyenlő, (hiszen a két esemény teljesen kizárja egymást), így együtt a biztos eseményt jelentik. A hipotézisellenőrzés során pedig éppen akkor követjük el az elsőfajú hibát, ha egy olyan nullhipotézist vetünk el, ami helyes, vagyis a

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



245



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



246



sokasági jellemző az intervallumban van, de a próbafüggvény alapján mégis azt állítjuk, hogy az intervallumon kívül helyezkedik el. Ebből az következik, hogy az elsőfajú hiba elkövetési valószínűsége éppen egyenlő az intervallumon kívül esés valószínűségével. Az elsőfajú hiba elkövetésének valószínűsége α = 1 − Ψ (z ) α = 1 − P (%) Az elsőfajú hiba elkövetési valószínűségének képletében szereplő betűk jelentése α = az elsőfajú hiba elkövetési valószínűsége (az első képletben %-os, a másodikban együtthatós formájú)

P

=

a becslés valószínűségi követelménye (%) Ψ (z )

=

a becslés valószínűségi követelménye együtthatós formában

Az elsőfajú hiba elkövetési valószínűségét szokás szignifikanciaszintnek229 is nevezni. Az első- és másodfajú hibával kapcsolatban fontos tudni, hogy azok elkövetési valószínűsége ellenkező irányban változik. Ha tehát mindent megteszünk annak érdekében, hogy az elsőfajú hiba elkövetésének valószínűségét csökkentsük, akkor a másodfajú hiba elkövetésének valószínűsége – és ezt nem akadályozhatjuk meg – növekedni fog. Illetve, ha a másodfajú hiba elkövetési valószínűségét akarjuk mindenáron csökkenteni, akkor számolnunk kell az elsőfajú hiba elkövetési valószínűségének növekedésével. A gyakorlati életben mindig a megoldandó probléma sajátosságai, illetve a becslés célja dönti el, hogy melyik hiba elkövetése a nagyobb baj, és ennek elkövetési valószínűségét igyekeznek korlátozni, természetesen úgy, hogy semmiképpen ne emelkedjen túl magasra a másik hiba elkövetési valószínűsége sem.

Bonyolítja a helyzetet, hogy a két hiba elkövetési valószínűsége nem számítható ki közvetlenül (például egyszerű kivonással) egymásból230.

229Szignifikáns

= jelentőséggel bíró, valamit meghatározó, eldöntő; a hipotézis megengedhető voltát igazoló, a feltevés helyességét valószínűsítő. 230A kérdés részletesebb tárgyalása nem képezi tananyagunk részét. Ez kérdéskör bővebben megismerhető az irodalomjegyzékben felsorolt szakkönyvekből.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



246



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



247



11.2. A hipotézisellenőrzés menete 1. Megfogalmazzuk a nullhipotézist és vele szemben felállítjuk az alternatív hipotézist. 2. Kiválasztjuk a megfelelő próbafüggvényt.

A próbafüggvény a mintaelemeknek egy olyan függvénye, amelynek eloszlása a nullhipotézis igazságát feltételezve pontosan ismert, a mintavétel előtt azonban ennek értéke is valószínűségi változó. A próbafüggvénynek több szempont szerint kell megfelelőnek lennie, egyrészt a nullhipotézisben megfogalmazott állításnak, azaz nem minden nullhipotézis ellenőrizhető azonos próbafüggvénnyel; másrészt a minta eloszlás-típusának, valamint a mintavétel módjának is. Mi csak azokkal az esetekkel foglalkozunk, amikor

• az alapsokasági elemek kiválasztása egyszerű véletlen módszerrel történik, • a kiválasztási arány kicsi, és • így a minta jó közelítéssel függetlennek tekinthető. 3. Megválasztjuk az elsőfajú hiba elkövetésének valószínűségét, azaz megadjuk a szignifikancia-szintet, figyelembe véve mindazt, amit ezzel kapcsolatban elmondtunk. 4. A szignifikancia-szintnek és a szabadságfoknak (ahol van) megfelelően kijelöljük az elfogadási tartományt és a kritikus tartományt. 5. Végrehajtjuk a mintavételt, a mintából meghatározzuk azokat a sokasági jellemzőket, amelyek a vizsgálat céljának megvalósítása érdekében szükségesek. Majd kiszámítjuk a kiválasztott próbafüggvények számszerű értékeit. Az ellenőrzési feladat gyakran már a mintára vonatkozó átlag ismeretében merül fel. Természetesen ekkor nincs szükség az újbóli mintavételre. 6. Döntést hozunk a megfogalmazott H 0 és H 1 hipotézisekkel kapcsolatban. Ha a próbafüggvény értéke az elfogadási tartományba esik, akkor elfogadjuk a H 0 és elvetjük a H 1 hipotézist. Ha pedig a próbafüggvény értéke a kritikus tartományba esik, akkor fordítva döntünk, azaz elfogadjuk a H 1 és elvetjük a H 0 hipotézist.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



247



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



248



11.3. Statisztikai próbák A statisztika elmélet a próbákat több különféle szempont szerint csoportosítja. Így többek között beszélhetünk:

• paraméteres és nem-paraméteres, • egyoldali és kétoldali, illetve • egymintás és kétmintás próbákról. A paraméteres statisztikai próbákat csak meghatározott eloszlású sokaságok esetén használhatjuk, a nem-paraméteres próbákat, pedig bármely eloszlás esetén. A próba egyoldalisága illetve kétoldalisága a felállított alternatív hipotézis jellegétől függ. Az egymintás statisztikai próbák esetén egyetlen mintavétel történik, és az ebből számított soksági jellemzőket például valamilyen norma-értékhez hasonlítjuk, kétmintás próba esetén viszont két mintavétel történik, azonos feltételek mellett (a minták elemszáma azonban lehet különböző), és a két mintából számított sokasági jellemzőket egymáshoz hasonlítjuk. Jegyzetünkben ezeket a csoportosításokat nem használjuk, hiszen csak néhány próba-fajtát ismertetünk. Várható értékre irányuló próbák:

" z" -próba Akkor alkalmazzuk, ha a mintából231 számított átlagot, értékösszeget, soksági arányt akarjuk hasonlítani egy a mintától független értékhez (pl.: norma, szabvány, korábbi teljeskörű felmérés adata stb.), és ismert az alapsokaság szórása, azaz a próbafüggvényben szereplő szórás nem a mintából származik. További feltétel, hogy n ≥ 100 . A hipotézissel kapcsolatos döntéshez szükséges elméleti értéket a " z" -táblából keressük ki. A táblabeli érték kikeresésének módja attól függ, hogy az alternatív hipotézis egyavagy kétoldali. A próba szabadságfoka = végtelen.

231A

sokaságról feltételezzük – lásd a bevezetőben –, hogy normális eloszlású.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



248



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



249



Elfogadási tartomány különböző ellenhipotézisek esetén:

H 1 : xa 〈 X 0 → [zα ; ∞[ ⎡ ⎤ H 1 : xa ≠ X 0 → ⎢ z α ; z α ⎥ ⎣ 2 2⎦ ⎤ ⎤ H 1 : xa 〉 X 0 → ⎥ − ∞; z α ⎥ 1− 2 ⎦ ⎦ egymintás " t" -próba Akkor alkalmazzuk, ha a mintából számított átlagot, értékösszeget, sokasági arányt akarjuk hasonlítani egy a mintától független értékhez, de a próbafüggvényben szereplő szórás is a mintából számítódott, ill. ha n〈100 . Ez utóbbi ténynek az a következménye, hogy a próbafüggvény értékét egy nem független változó (a mintáról mintára ingadozó átlag) is befolyásolja, ezért szabadságfoka (= n − 1) . Így a döntéshez szükséges értéket a " t" -táblából keressük ki attól függően, hogy milyen – egy- avagy kétoldalú – ellenhipotézist állítottunk fel. Elfogadási tartomány különböző ellenhipotézisek esetén:

H 1 : xa 〈 X 0 → [tα ; ∞[ ⎡ ⎤ H 1 : xa ≠ X 0 → ⎢t α ; t α ⎥ ⎣ 2 2⎦ ⎤ ⎤ H 1 : xa 〉 X 0 → ⎥ − ∞; t α ⎥ 1− 2 ⎦ ⎦ kétmintás " t" -próba Ha két egymástól független mintavétel eredményeit akarjuk összehasonlítani, akkor kétmintás próbákkal dolgozunk. (Például két főiskola hallgatóinak átlagos tanulmányi eredményeit, két gép által csomagolt termékek átlagos töltősúlyát, két megyében a iskolás korú gyerekek arányát stb.).

Ezen próbák közül jegyzetünkben csak egyet tárgyalunk. A próba szabadságfoka a két minta elemszámától függ: (n1 + n2 − 2 ) 232. A döntéshez 232Mindkét

mintában szerepel egy-egy nem független változó.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



249



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



250



szükséges értéket most is a " t" -táblából keressük ki, az előzőekben már részletezett módon233. A próbafüggvény használatánál – és ez a helyes következtetések miatt nagyon fontos – nincs jelentősége annak, hogy melyik mintát tekintjük "egyesnek" és melyiket "kettesnek". A " t " -próba elnevezéssel még fogunk találkozni. Azonos nevű próbát végzünk majd azonos táblából vett elméleti értékek felhasználásával, de más próbafüggény-képlettel a regressziós egyenletek paramétereinek tesztelésekor (= a paraméterekkel kapcsolatos hipotézisek ellenőrzésére) is.

F-próba Alkalmazási esetei: a) ha két minta szórásait akarjuk összehasonlítani, illetve b) ha kettőnél több minta átlagainak azonosságáról akarunk meggyőződni = variancianalízis Az átlagok összehasonlítását természetesen páronként is megoldhatjuk, de háromnál több minta esetén ez már – különösen számítógépi segítség nélkül – igen hosszadalmas munkát jelentene.

a) Ha két szórást hasonlítunk össze, akkor a próbafüggvény tört formájú, és mind a nevezőjében, mind a számlálójában olyan statisztikai adat szerepel, amely nem tökéletesen független valószínűségi változó, ezért a számlálónak (v1 = n1 − 1) és a nevezőnek (v2 = n2 − 1) a minták elemszámának azonossága (eltérése) miatt azonos vagy eltérő a szabadságfoka. Így az elméleti F-értékek felsorolására nem elég egyetlen tábla, mert annak mind a fejrovatában – (v1 ) –, mind az oldalrovatában – ( v2 ) – szabadságfokok szerepelnek. (A valószínűségeket pedig a tábla címében kell keresni.) Az F-táblában való adatkeresés egyszerűsítése érdekében a próbafüggvény számlálójába mindig a nagyobbik szórás kerül. Ennek az a következménye, hogy nem kell az elfogadási tartomány alsó határát kiszámítanunk. A döntéshozatalnál elég arra figyelnünk, hogy a próbafüggvény számszerű értéke nagyobb-e vagy kisebb-e a táblából kikeresett értéknél, ha nagyobb, akkor a nullhipotézis ( H0 ) elvetése és az alternatív hipotézis ( H1 ) elfogadása mellett kell döntenünk, ha pedig kisebb, akkor éppen ellenkező döntést hozunk. 233

Elfogadási tartomány, mint az egymintás esetben.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



250



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



251



b) Amikor több minta átlagát hasonlítjuk össze, akkor varianciaanalízist végzünk. Az F-táblában való keresésben különbséget jelent az, hogy a kizárólag egyoldali ellenhipotézis miatt a megadott szignifikancia-szint átalakítására soha nem kerül sor. Felmerülhet a kérdés, miért használhatók a szórásokat az átlagok egyezőségének eldöntésére? Ha figyelembe vesszük az ismérvek közötti kapcsolatokról tanultakat234, akkor erre a kérdésre könnyen válaszolhatunk. Az egyes átlagok akkor térnek el egymástól és a főátlagtól lényegesen, ha a megkülönböztető ismérvnek (ennek alapján képeztük a részsokságokat) jelentős befolyásoló szerepe van (magas a külső szórás értéke, szoros kapcsolatot jelez a H-mutató), ha pedig a megkülönbözető ismérvnek nincs jelentős szerepe, akkor a részátlagok közel vannak egymáshoz (vagy megegyeznek) illetve a főátlaghoz. A próbafüggvény számlálójának (= a külső szórásnak) m − 1 a szabadságfoka, a nevezőnek (= a belső szórásnak) pedig n-m. Az m − 1 szabadságfokot a főátlag nem független jellege magyarázza, az n-m szabadságfokot pedig a belső szórás számításánál felhasznált m darab nem független minta-szórás felhasználása. Az F-próba elnevezéssel jegyzetünkben még fogunk találkozni. Azonos nevű próbát végzünk majd azonos táblából vett elméleti értékek felhasználásával, de más próbafüggény-képlettel a regressziós egyenletek paramétereinek tesztelésére (= a paraméterekkel kapcsolatos hipotézisek ellenőrzésére).

χ 2 -próba. Ezt a próbát több egészen különböző statisztikai jellemző ellenőrzésére használhatjuk. Így a) a mintabeli szórások és a teljes sokaságra vonatkozó szórások összehasonlítására, b) a sokságok eloszlásának tesztelésére (= illeszkedésvizsgálat) és c) az ismérvek függetlenségének igazolására. Az alkalmazott próbafüggvény, a próba szabadságfoka és a felírásra kerülő hipotézisek a felhasználás céljától függően változnak, azonos viszont a

234Lásd:

vegyes kapcsolat

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



251



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

(

Vissza



252



)

tábla – "a χ 2 khí 2 eloszlású változó eloszlásának kvantilis értékei”, ahonnan az elméleti értékeket kell kikeresni.235 a) Ha egy mintából származó és egy mintától független szórást akarunk öszszehasonlítani, akkor próba szabadságfoka: n − 1 . Elfogadási tartomány különböző ellenhipotézisek esetén:

[

H 1 : s 〈σ 0 → χ α2 ( v ) ; ∞

[

⎡ ⎤ H 1 : s ≠ σ 0 → ⎢ χ α2 ; χ α2 ⎥ ⎣ 2 (v) 2 (v) ⎦ ⎤ ⎤ H 1 : s〉σ 0 → ⎥ − ∞; χ α2 ⎥ (v) 2 ⎦ ⎦

b) Az eloszlásvizsgálat célja azt ellenőrizni, hogy a annak a sokaságnak, melyből az aktuális mintát vettük eloszlása illeszkedik-e valamilyen matematikából ismert elméleti eloszlás-típusra, vagyis az ismérvértékek tapasztalati (= megfigyelt) előfordulásai ( fi ) azonosak-e azokkal az előfordulási ( fi ∗ ) adatokkal, amit a feltétezett eloszlás-típus elméleti adatai alapján számíthatunk ki. A nullhipotézis elfogadása itt azt jelenti, hogy a vizsgált sokság eloszlása illeszkedik a feltételezett matematikai eloszlás-típusra, az ellenhipotézis elfogadása pedig ennek épp az ellenkezőjét (= nem illeszkedik). A próba legtöbb számítási munkát igénylő része az elméleti előfordulások ( fi ∗ ) meghatározása. Ennek lépései, ha azt feltételezzük, hogy a sokaság eloszlása a normális eloszlás elméleti görbéjére illeszkedik:

235

Ennek bemutatására itt nincs szükség, ezt alkalmaztuk a szórások intervallumának számításánál is.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



252



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



253



3. az ismérvértékek átalakítása (= transzformációja) standard normális valószínűségi változóvá = " z" 236 a táblabeli értékek = Ψ( z ) kikeresése a kikeresett értékek átalakítása az egyes osztályközökbe (= intervallumokba) tartozó valószínűségi értékekké = p∗ A " z" -táblából kikeresett Ψ( z ) értékek átalakítására azért van szükség, mert minden kikeresett érték a negatív vagy a pozitív végtelen és az adott " z" érték közti intervallumra adja meg az előfordulás valószínűségét, a tapasztalati előfordulások azonban egy-egy osztályközre vonatkoznak. Az összehasonlításhoz tehát az elméleti előfordulásoknak is egy-egy osztályközre kell vonatkozniuk. Ez az átalakítás, ha a transzformált ismérvérték (= " z" ) negatív, akkor két lépésben történik; ha azonban a transzformált ismérvérték pozitív előjelű, akkor csak egy lépésre van szükség. A negatív transzformált ismérvérték esetén először a kikeresett valószínűség komplementerét 1 − Ψ( z) kell kiszámítani. A második lépésben – és ez mind a negatív, mind a pozitív " z" esetében szükséges tennivaló – az átfedéseket szüntetjük meg. Ezek után kezdhetjük el a próbafüggvényben szereplő elméleti előfordulások f i ∗ kiszámítását, illetve a próbafüggvény érté-

( )

kének meghatározását, majd következhet a döntéshozatal. Az illeszkedésvizsgálatnak – és ez a próba szabadságfokának meghatározása miatt is fontos – két típusát különböztetjük meg:

• tiszta illeszkedésvizsgálat és • becsléses illeszkedésvizsgálat. Tiszta illeszkedésvizsgálatról akkor beszélünk, ha az ismérvértékek átalakításakor nem a mintából számított átlagot és szórást használjuk, hanem a teljes sokaságra vonatkozó adatokat. Becsléses illeszkedésvizsgálatról akkor beszélünk, ha az átalakításnál használt szórás és /vagy/ átlag a mintából származik. A szabadságfok meghatározása ennél a próbánál nem a minta elemeinek számából indul ki, hanem az osztályközök darabszámából. Ugyanis egyetlen mintába került elem osztályközbe sorolása sem maradhat el, ezért ha valamelyik elem sem az első, sem a második stb. osztályközbe nem illik bele, akkor az utolsóba "kénytelenek" vagyunk besorolni, vagyis itt már 236Az

átalakítás képletét lásd: a becslés fejezet bevezetőjében.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



253



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



254



nincs szabad döntési lehetőségünk, a függetlenség megsérült. (Ezért is gyakori, hogy a szélső osztályközök nyitottak.) A szabadságfok tehát:

• tiszta illeszkedésvizsgálat esetén: k − 1 • becsléses illeszkedésvizsgálat esetén: k − 1 − r . (Ahol k = az osztályközök száma; r = 1, ha csak az átlag vagy csak a szórás származik a mintából, és r = 2 , ha mind az átlag, mind a szórás a mintából ismert.) Az illeszkedés vizsgálatot végezni nagyon kevés elemszámú minta esetén tilos, mert hamis eredményre juthatunk. Ezért az alkalmazás minimum feltételei:

• legalább öt osztályköz, • osztályközönként legalább öt elem. Ha az egyes osztályközökben ötnél kevesebb elem található, de az osztályközök száma több mint öt, akkor élhetünk az összevonás lehetőségével. A próbát ugyanis nem csak azonos hosszúságú osztályközökre bontott sokasággal szabad elvégezni. Az illeszkedésvizsgálat mindig valamilyen konkrét ismérv alapján történik, ebből következik, hogy ha ugyanazt a sokaságot egy másik ismérv alapján is felosztjuk, akkor az illeszkedésvizsgálatot újból el kell végezni. Az illeszkedésvizsgálat próbafüggvényének számított értékét a már ismert χ 2 -táblából kikeresett elméleti értékhez hasonlítjuk. A táblabeli érték nagysága függ a szabadságfoktól és a szignifikancia-szinttől. A megadott α érték alapján a tábla 1 − α feliratú oszlopából választjuk ki a megfelelő adatot. A valószínűségek átalakítására, a próba egyoldalisága miatt, nem kerül sor. Fontos gyakorlati kérdés. A sokaságok elemeinek osztályközökbe sorolásánál egyes esetekben a legutolsó osztályköz nyitott, azaz felső határa elméletileg a végtelen, más esetekben viszont az osztályköz felső határa adott. Ez a "lezárás" lehetetlenné teszi, hogy a ∑ pi∗ = 1 szabály (= a valószínűségek összege = a megoszlási viszonyszámok összege = 1, azaz 100 % ) teljesüljön. Ezért akkor is, ha osztályköz felülről lezárt, felső határát végtelennek tekintjük, az ehhez tartozó valószínűsége pedig 1, azaz a biztos esemény.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



254



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



255



c) A függetlenségvizsgálat segítségével az asszociáció237 mutatóinak igazságtartalmát lehet ellenőrzi. Nullhipotézise a függetlenséget, alternatív hipotézise pedig az összefüggést feltételezi. Próbafüggvénye gyakorlatilag megegyezik238 az illeszkedésvizsgálat próbafüggvényével. Eltérő viszont az elméleti előfordulások kiszámítása.239 A próba szabadságfoka a két ismérv ismérvváltozatainak számából határozható meg: v = ( s − 1)(t − 1) A próba során a szabadságfok és az előre megadott szignifikancia-szint α ( ) alapján a χ 2 -táblából az 1 − α feliratú oszlopban kell a megfelelő elméleti értéket kikeresni. A valószínűségek átalakítására, a próba egyoldalisága miatt, ebben az esetben sem kerül sor. A próba "érdekessége" – az eddig tárgyalt összes próbához hasonlítva –, hogy tulajdonképpeni cél a kapcsolat kimutatása és annak ellenőrzése, ez mégis az ellenhipotézisben kerül megfogalmazásra. A felsorolt próbák függvényei: " z" -próbamegjegyzés a tábla alatt

z=

xa − X 0

σx

=

xa − X 0

σ

n

egymintás "t" -próba

t=

xa − X 0 xa − X 0 = s sx n

kétmintás "t" próba

t=

x1 − x2 1 1 sd ∗ + n1 n2

Megjegyzés: A " z" -próba próbafüggvényét a számtani átlag ellenőrzését feltételezve adtuk meg, de értelemszerűen a számlálóban szerepelhet P = a mintából számolt sokasági arány és P0 = a "kívülről" megadott arány, illetve a nevezőben az ehhez tartozó szórásból számítva a sokasági arány standard hibája stb. (Megjegyzésünk érvényes az egymintás- és a kétmintás t-próbára, a szórások összehasonlítására szolgáló próbákra és a variancia-analízisra is.)

237Lásd:

ismérvek közötti kapcsolat, Csuprov-, Cramer, Yule mutatók. A különbség csupán annyi, hogy a tapasztalati és az elméleti előfordulások betűjelének futóindexében mindig két betű szerepel. Emlékezzen, az adatokat kombinációs táblába rendeztük! 239 Lásd: a felsorolt mutatóknál. 238

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



255



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

" F " -próba szórások összehasonlítására

" F " -próba

F=

" χ 2 " -próba szórások összehasonlítására

χ

2

(n − 1)s 2 = σ2

SB

256

vK

(n1 − 1)s12 + (n2 − 1)s2 2

sd =

n1 + n2 − 2

vB

" χ 2 " -próba

" χ 2 " -próba

illeszkedésvizsgálat

függetlenségvizsgálat

χ2 = ∑

(f

i



a kétmintás "t" -próbában szereplő szórás számítása

varianciaanalízis

SK

s2 F = 12 s2



Vissza

− f i∗ f i∗

)

2

χ = ∑∑

f i∗ = p∗ ∗ n

2

f ij∗ =

(f

ij

− f ij∗ f ij∗

)

2

f i. ∗ f . j n

A próbafüggvényekben szereplő betűk jelentése: X0=

σx =

xa =

az előre megadott (feltételezett) sokasági jellemző, itt átlag

a mintából számított sokasági jellemző, itt átlag

n =

s = a minta szórása

a minta elemszáma

n1 és n2 =

s1 és s2 =

a két minta elemszáma

a két minta szórása, ahol s1 〉 s2

x1 , x2 = a két minta átlaga

v K = (m − 1) és v B = (n − m ) = szabadságfokok (varianciaanal.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

σ n

=

a mintától független – megadott –szórásból és a minta elemszámából számított standard hiba σ = a mintától független – megadott – szórás

sx = a minta szórásból és elemszámából számított standard hiba

sd a két minta szórásának négyzetes átlaga, az alábbi képlet alapján számítva

Vissza



256



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

f ij =

fi =

tapasztalati előfordulások,

(illeszkedésvizsg.)

(függetlenségvizsg.)



fi = elméleti előfordulások,

∑f

i



∑∑ f

ij

=n

f ij∗ = elméleti előfordulások,

=n

(illeszkedésvizsg.)

∑∑ f



257



SK =

tapasztalati előfordulások, fi = n



Vissza

∗ ij

=n

(függetlenségvizsg.)

a részátlagok és főátlag súlyozott eltérésnégyzeteinek összege

SB = az egyes minták szórásnégyzeteinek súlyozott összege

f i. és f . j =



p = elméleti valószínűség ≈ elméleti megoszlási viszonyszám

peremgyakoriságok = a kombinációs tábla sorainak ill. oszlopainak összesen adatai(függetlenségvizsg.)

m= a független minták darabszáma

BEMUTATÓ FELADATOK 11.3.1. " z" -próba

Folytatjuk a számtani átlag becslésénél megkezdett példánkat.240 Egy egyetem hallgatóinak köréből egyszerű véletlen mintát vettünk (n = 100 fő, a kiválasztási arány =1,6 %). Célunk a hallgatók szórakozási kiadásainak vizsgálata volt. A megfigyelt és rendezett adatokat a 11.2. sz. tábla tartalmazza. A minta átlaga ≅12.380 Ft, ≅4.430 Ft szórás mellett.

240

Lásd: 10. fejezet

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



257



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



258



11.2.sz. tábla osztály-

szórakozási kiadás

közép

a hallgatók száma a mintában

ezer Ft / hó /fő

xi

fi

– 5,0

3,5

6

5,1 – 8,0

6,5

10

8,1 – 11,0

9,5

18

11,1 – 14,0

12,5

35

14,1 – 17,0

15,5

15

17,1 – 20,0

18,5

11

20,0 –

21,5

5

összesen



100

adatforrás: saját gyűjtés SZE, 2006. márc.

Egy korábbi teljes körű adatgyűjtésből ismert, hogy a hallgatók szórakozási kiadásainak átlaga 11.000 Ft (= X 0 ) 4.000 Ft szórás (= σ 0 ) mellett. A két átlag számszaki eltérése miatt felmerül a kérdés, valódi változás történt-e, magasabbak lettek-e a hallgatók szórakozási kiadásai. A választ 5 %-os szignifikancia szinten kell megadni. Kövessük a hipotézisellenőrzés felvázolt műveleti sorrendjét!241

1. A hipotézisek megfogalmazása: változat

nullhipotézis

alternatív hipotézis

próba

a

H 0 : X a = 11.000 Ft

H 1 : X a ≠ 11.000 Ft

kétoldalú

b

H 0 : X a = 11.000 Ft

H 1 : X a 〉11.000 Ft

egyoldalú (jobb)

A gyakorlati munka során általában nem fogalmaznak meg több hipotézist, itt a bemutatás kedvéért szerepel a két különböző lehetőség. (A harmadik lehetőséget – baloldali – fel sem írtuk, nevetséges lenne azt állítani, hogy a 12.380 Ft kisebb a 11.000 Ft-nál.)

241

Lásd: 11.2.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



258



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



259



2. A próbafüggvény kiválasztása: Erre most nincsen szükség, hiszen a bemutatásra kerülő próbafüggvényhez készítettünk példát. 3. A szignifikanciaszint kijelölése: A szignifikancia-szintet a feladat megadta: α = 5% → 0,05 . Ez az általánosan használt szignifikancia-szint, ezért ha valamelyik feladatban nem szerepel valószínűségre vonatkozó előírás, akkor ezzel az értékkel szokás számolni.

4. Az elfogadási és a kritikus tartomány kijelölése: A tartományok határainak kijelölése a "z" -tábla segítségével történik. A megadott szignifikancia-szintből kiindulva meg határozzuk azokat a valószínűségeket / (Ψ (z )) vagy (Φ (z )) /, amelyeknél kikeressük a táblából a tartományok határait jelentő " z" -értéket. A tartományok határai attól függnek, hogy egyoldali vagy kétoldali próbát végzünk-e. Kétoldali próba esetén a kritikus tartomány két részre oszlik és az elfogadási tartomány bal illetve jobb oldalán helyezkedik el (11.1. sz. ábra), ezért az intervallumbecslésnél leírt módon átalakítjuk az (1 − α ) = Ψ (z ) valószínűséget, és Φ (z ) = 0,975 értéknél keressük ki a döntéshez szükséges " z" -értéket, ami 1,96. Ha egyoldali próbát végzünk, akkor a kritikus tartomány egésze az elfogadási tartomány egyik vagy másik oldalán helyezkedik el. Tehát nincs szükség az (1 − α ) = Ψ (z ) valószínűség átalakítására, azaz a Ψ (z ) = 0,95 valószínűséghez tartozó " z" -értéket kell kikeresnünk, ami 1,65. A keresett tartományok határai242 változat

elfogadási tartománya

a)

[− 1,96 ↔ +1,96]

b)

[− ∞ ↔ +1,65]

kritikus tartomány [− ∞ → −1,96] és

[+ 1,96 → +∞] [+ 1,65 → +∞]

242 Ha a hipotéziseket még a mintavétel és az abból történt számítás előtt írjuk fel, akkor előfordulhat, hogy a szórakozási kiadások csökkenését feltételezzük, vagyis baloldali alternatív hipotézist írunk fel. Ebben az esetben a tartományok így alakultak volna: elfogadási = [− 1,65 ↔ +∞ ] ; kritikus [− ∞ → −1,65] .

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



259



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



260



5. A próbafüggvény számszerű értékének meghatározása:

z=

xa − X 0

σx

=

12.380 − 11.000 ≅ 3,45 4.000 100

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről: A döntések adatai változat

alternatív hipotézis

H0

H1

a)

H 1 : xa ≠ 11.000 Ft

elvetve

elfogadva

b)

H 1 : xa 〉11.000 Ft

elvetve

elfogadva

a) Mivel a próbafüggvény számszerű értéke (3,45) az elfogadási tartományon kívül esik, illetve úgy is fogalmazhatunk, hogy a próbafüggvény értéke nagyobb a táblabeli értéknél 3,45〉1,96 ezért a nullhipotézist elvetjük és egyúttal az alternatív hipotézist elfogadjuk. Azaz ♥ a 100 elemű EV minta alapján 5 %-os szignifikancia-szinten állítjuk, hogy a hallgatók havi szórakozási kiadásainak átlaga nem azonos a korábbi teljeskörű felvétel eredményével. Úgy is fogalmazhatunk, hogy szignifikáns különbség van a két adat között. b) Mivel a próbafüggvény számszerű értéke (3,45) a kritikus tartományba esik, így döntésünk az a) változatnál leírttal teljesen azonos, de kicsit másképp fogalmazhatunk. Az alternatív hipotézis felírási módjából, ui. egyértelmű, hogy ♥ a 100 elemű EV minta alapján 5 %-os szignifikancia-szinten állítjuk, hogy a hallgatók havi szórakozási kiadásainak átlaga az eltelt időszakban növekedett, nagyobb a korábbi teljeskörű felvétel eredményénél. Felmerülhet a kérdés, van-e olyan szignifikancia-szint, ami mellett nem vetjük el a nullhipiotézist? Vegyük elő az eddig is használt táblát, és keressük meg a próbafüggvény eredményénél már nagyobb „z” értékhez tartozó Φ ( z ) értéket! Ha z = 3,46 , akkor Φ ( z ) = 0,9997 . Ha egyoldalú ellenhipotézissel dolgoztunk, akkor már ismert is a válasz, α = 0,03% . Ha azonban kétoldalú ellenhipotézissel dolgoztunk, akkor még el kell végezni

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



260



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



261



a szokásos átalakítást243, így α = 0,06% . (Azaz nagyobb az elsőfajú hiba elkövetésének valószínűsége.) 11.3.2. Egymintás " t " -próba

Ismét a számtani átlag becslésénél megkezdett – és a z-próbával továbbvitt – példával dolgozunk. Legyen most a minta elemszáma 50 (= n2 ) , és tételezzük föl, hogy csak a minta szórását (s = 4.430 ) ismerjük. Természetesen most is rendelkezésünkre áll a korábbi teljes körű felvétel átlaga X 0 = 11.000 , és megválaszolandó kérdéseink is ugyanazok. Történt-e igazi változás, vagy csak a véletlennek – a véletlen mintának – köszönthető a nem tökéletes számszaki egyezés? Ismét kövessük a hipotézisellenőrzés felvázolt műveleti sorrendjét! Az előző részletességtől azonban eltekintünk, a megoldást rövidítve mutatjuk be.244 1. A hipotézisek megfogalmazása: változat

nullhipotézis

alternatív hipotézis

próba

a)

H 0 : X a = 11.000 Ft

H 1 : xa ≠ 11.000 Ft

kétoldali

b)

H 0 : X a = 11.000 Ft

H 1 : xa 〉11.000 Ft

jobboldali

4. Az elfogadási és a kritikus tartomány kijelölése: A tartományok határainak kijelöléséhez szükséges értékeket a " t" -táblából keressük ki. A szabadságfok v = (n − 1) = 49 . A valószínűségek értéke

pedig ismét attól függ, hogy egyoldali t 049,95 = 1,67 vagy kétoldali t 049,975 = 2,00 becslést végzünk. A táblában a 49-es szabadságfokot nem találjuk meg, így az adatot a v = 60 sorból vettük. Egyúttal ismerkedjünk meg a táblabeli értékek szokásos jelölésével! A kitevőben a szabadságfokot, az alsó futóindexben pedig a valószínűségi értéket találjuk.

243

Lásd: 10.2.5. műveletek sorszámát azonban megtartottuk, ezért követi az 1. sz. lépést a 4. sz. lépés! (A további példákban is így teszünk.) 244A

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



261



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



262



Így az egyes hipotézis-változatokhoz tartozó tartományok a következők: elfogadási tartomány

változatok

H1

a)

H 1 : xa ≠ 11.000 Ft [− 2 ↔ +2]

b)

H 1 : xa 〉11.000 Ft

[− ∞ ↔ +1,67]

kritikus tartomány

[− ∞ → −2] és [+ 2 → +∞] [+ 1,67 → +∞]

5. A próbafüggvény számszerű értékének meghatározása:

t=

X a − X 0 12.380 − 11.000 = = 2,2 4.430 sx 50

Annak következtében, hogy a minta elemszáma kisebb (n1 = 100 〉 n2 = 50 ) , a nevező

értéke nagyobb, ezért lesz a próbafüggvény számszerű értéke (3,45〉 2,2 ) kisebb, mint a z-próbánál.

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről: A döntések adatai változat

alternatív hipotézis

H0

H1

a)

H 1 : xa ≠ 11.000 Ft

elvetve

elfogadva

b)

H 1 : xa 〉11.000 Ft

elvetve

elfogadva

A következtetés mindkét változat esetén azonos a " z" -próbánál meghozott döntéssel, a próbafüggvény számított értéke ugyanis most sem része az elfogadási tartománynak, azaz ♥ az 50 elemű egyszerű véletlen minta alapján 5 %-os szignifikanciaszinten állítjuk, hogy a hallgatók havi szórakozási kiadásainak átlaga az eltelt időszakban növekedett, nagyobb a korábbi teljeskörű felvételkor megállapított értéknél. Ha egy átlagra (arányra stb.) vonatkozó ellenőrzést " t " -próbával kell elvégeznünk nagyon fontos szem előtt tartanunk azt a szabályt, hogy a vizsgálatot a szórások ellenőrzésével kell kezdenünk (feltéve, ha a teljes sokaságra vonatkozóan ismerjük a mintától független szórást). Abban az esetben, ha a szórásokra vonatkozó egyezőségi ( H0 : s = σ ) hipotézist

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



262



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



263



elvetjük az adott szignifikancia-szinten, akkor az ellenőrzendő paraméterek összehasonlítását már el sem kell végeznünk. Azok az átlagok (arányok stb.) ugyanis, melyekhez nem azonos szórás tartozik nem egyformán jellemzik a sokságot, tehát semmiképpen nem tekinthetők azonosnak. 11.3.3. Kétmintás " t " -próba

Az adatok egyik részét ismét az átlagbecslésnél megoldott, és azóta többször is szereplő példából vesszük. Ez tekintjük most "egyes" mintának, ahol a szórakozási kiadások átlaga 12.380 Ft (= x1 ) 4.430 ( = s1 ) szórás

mellett, a minta elemeinek száma pedig: 100 (n1 ) . A mintavételt egy másik

egyetemen is elvégeztük 50 ( = n2 ) főt kiválasztva. Ott a szórakozási ki-

adások átlagára 13.600 Ft-os becsült érték adódott (= x2 ) 4.800 Ft ( = s2 ) szórás mellett. Az adatok összehasonlítását a következőkben három különböző szignifikancia-szinten is elvégezzük egyoldalú és kétoldalú ellenhipotézissel szemben is.

Az ellenőrzést a megismert szabály szerint a szórások azonosságának vagy eltérőségének megállapításával kellene kezdenünk, ettől most eltekintünk, de a kérdésre még visszatérünk.

Kövessük a hipotézisellenőrzés már megismert és az előzőekben is alkalmazott műveleti sorrendjét (ismét rövidítve)!

1. A hipotézisek megfogalmazása: változat a) b)

nullhipotézis

alternatív hipotézis

próba

H 0 : x1 = X 2

H 1 : x1 ≠ x2

kétoldalú

H 0 : x1 = x2

H 1 : x1 〈 x2

baloldali

4. Az elfogadási és a kritikus tartomány kijelölése: A tartományok határainak kijelöléséhez szükséges értékeket a " t " -táblából keressük ki. A szabadságfok = 148 = (n1 + n2 − 2 ) . A valószínűségek értéke pedig most is attól függ, hogy egyoldali vagy kétoldali becslést végzünk. 148 Így kétoldali próba esetén t 0,975 = 1,96 , egyoldali próba esetén pedig t 0148 , 95 = 1,65 a táblából kikeresett érték.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



263



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

264



A táblában a 148-as szabadságfokot nem találjuk meg, így az adatot a v = ∞ sorból vettük. Így az egyes hipotézis-változatokhoz tartozó tartományok a következők:

α = 5% változat

H1

elfogadási tartomány

a)

x1 ≠ x2

b)

x1 〈 x2

[−1,96 ↔ +1,96] [−∞ → −1,96] és [+1,96 → +∞] [−1,65 ↔ +∞] [−∞ → −1,65]

α = 5% a)

x1 ≠ x2

b)

x1 〈 x2

kritikus tartomány

[− 1,65 ↔ +1,65] [− ∞ → −1,65] és [+ 1,65 → +∞] [− 1,28 ↔ +∞] [− ∞ → −1,28]

A tábla a következő oldalon folytatódik.

α = 1,0% a)

x1 ≠ x2

b)

x1 〈 x2

[− 2,58 ↔ +2,58] [− ∞ → −2,58] és [+ 2,58 → +∞] [− 2,33 ↔ +∞] [− ∞ → −2,33]

5. A próbafüggvény számszerű értékének meghatározása: t=

sd =

x1 − x2 12.380 − 13.600 = ≅ −1,58 , ahol 1 1 1 1 + + sd ∗ 4456 ∗ n1 n2 100 50

(n1 − 1)s12 + (n2 − 1)s 2 2 n1 + n2 − 2

=

(100 − 1)4.430 2 + (50 − 1)4.800 2 148

≅ 4.456 Ft

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről:

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



264



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



265



A döntések adatai

α = 5% változat

alternatív hipotézis

H0

H1

a)

H 1 : x1 ≠ x2

elfogadva

elvetve

b)

H 1 : x1 〈 x2

elfogadva

elvetve

a)

H 1 : x1 ≠ x2

elfogadva

elvetve

b)

H 1 : x1 〈 x2

elvetve

elfogadva

a)

H 1 : x1 ≠ x2

elfogadva

elvetve

b)

H 1 : x1 〈 x2

elfogadva

elvetve

α = 10%

α = 1,0%

♥ A két – 100 ill. 50 elemű – minta alapján 5 és 1 % os szignifikanciaszinten is, mind az egy-, mind a kétoldalú alternatív hipotézissel szemben a nullhipotézis elfogadása mellett döntöttünk, azaz a két egyetem hallgatóinak havi szórakozási kiadásai nem térnek el egymástól jelentős mértékben. A 10 %-os szignifikancia-szinten azonban már eltérést tapasztalunk az egyoldali ellenhipotézis alapján. Nagyon fontos tehát, hogy egy-egy ellenőrzés során alapos körültekintéssel válasszunk szignifikancia-szintet, és fogalmazzuk meg alternatív hipotézist. 11.3.4. F-próba

Két mintából számított szórás összehasonlítása A kétmintás " t " -próbánál közöltük azt a szabályt, hogy az átlagokra felállított hipotézisek ellenőrzését meg kell előzze a szórásokra vonatkozó hipotézisek tesztelése. Végezzük el most az ott közölt két minta szórásainak összehasonlítására az F-próbát! Tekintettel arra, hogy az átlagok összehasonlíthatósága csak a szórások egyezősége esetén lehetséges nincs értelme az egyoldali ellenhipotéziseknek.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



265



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



266



1. A hipotézisek megfogalmazása:

Ho s1 = s2

H1 s1 ≠ s2

a próba kétoldalú

4. Az elfogadási és a kritikus tartomány kijelölése: Ha α = 5 %-os szignifikancia szinten dolgozunk, akkor azt az F-táblát kell használnunk, amelyik felett ezt olvassuk: 1 − α = 0, 975 . A számláló szabadságfoka (itt szerepel a második minta szórása): 49, a nevezőé (itt szere, 99 = 1,53 . pel az első minta szórása) pedig 99. Így az elméleti érték: F049,975 A táblákban nem szereplő 49-es és 99-es szabadságfokok helyett a 60as és a 120-as szabadságfokokhoz tartozó értékeket olvastuk le. 5. A próbafüggvény számszerű értékének meghatározása:

F=

s12 4.800 2 = = 1,17 s 22 4.430 2

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről. Ennél a próbánál elég megvizsgálnunk – ahogy ezt már jeleztük – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját:

számított (1,17) 〈 táblabeli (1,53) Az alternatív hipotézist elvetjük és ezzel szemben a nullhipotézist elfogadjuk, azaz ♥ 5 %-os szignifikanci-szinten állítjuk, hogy a két minta szórása azonos; vagy így is fogalmazhatunk, a szórások között nincs szignifikáns különbség. Variancia-analízis Egészítsük ki a két minta átlagát (= a hallgatók szórakozási kiadásai) öszszehasonlító példát újabb mintákból vett adatokkal! Döntsük el, van-e lényeges különbség az egyes mintákból számított átlagok között!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



266



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



267



11.3. sz. tábla sorszám

elemszám db

átlag Ft

szórás Ft

1.

100

12.380

4.430

2.

50

13.600

4.800

3.

65

14.500

5.200

4.

30

15.300

5.100

5.

70

11.500

3.600

1. A hipotézisek megfogalmazása az aktuális feladattól függetlenül mindig azonos:

H 0 : x1 = x2 = x3 = ..... = xm = X H 1 : xi ≠ x j Szavakkal megfogalmazva, A nullhipotézis szerint valamennyi minta átlaga – természetesen csak az adott szignifikancia-szinten – azonos és egyben megegyezik az átlagok átlagával, a főátlaggal. ( x1 ,..., xm az egyes minták átlagai, ezeket részátlagoknak is tekinthetjük;

X = az egyes minták átlagainak átlaga, ezt főátlagnak is tekinthetjük.) Az alternatív hipotézis szerint a vizsgált átlagok közül legalább kettő nem egyezik meg egymással. Ha a mintákat nem ugyanazokból a sokaságokból vettük (ha mind az öt minta más-más egyetemen végzett vizsgálat eredménye), akkor azt mondhatjuk, az egyes sokaságok átlagai nem azonosak, de ha nincs információnk a minták eredetéről, akkor így fogalmazhatunk: az egyes minták nem származhatnak ugyanabból a sokaságból.

4. Az elfogadási és a kritikus tartomány kijelölése: α = 5 %-os szignifikancia-szinten dolgozunk, akkor az elfogadási tartoHa mány felső határa F = 1,83 . 4 ;310 0 , 95

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



267



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



268



5. A próbafüggvény számszerű értékének meghatározása: Az öt minta átlagának (súlyozott számtani) átlaga = főátlag: x=

∑n ∗ x ∑n j

j

j

=

100 ∗12.380 + 50 ∗13.600 + ... + 70 ∗11.500 ≅ 13.094 Ft 315

Az öt minta szórásainak (súlyozott négyzetes) átlaga = belső szórás245:

σB =

SB = ∑nj

∑n ∗s ∑n j

2 j

=

j

100 ∗ 4.430 2 + 50 ∗ 4.800 2 + ... + 70 ∗ 3.600 2 ≅ 4.563 Ft 315 A számításhoz a belső szórás képletének számlálójában lévő érték ( S B ) szükséges: S B = 6.559.590.000 A négy minta átlagának és a főátlagnak (súlyozott négyzetes) átlagos eltérése = külső szórás:

σK =

∑ n (x − x ) ∑n

2

SK = ∑nj

j

j

=

j

100 ∗ (12.380 − 13.094) + 50 ∗ (13.600 − 13.094 ) + ... + 70(11.500 − 13.094) ≅ 1.280 315 2

2

2

Ft A számításhoz a külső szórás képletének számlálójában lévő érték ( S K ) szükséges: S K = 516.127.301,6

245 Mind külső, mind a belső szórás számításánál a mintaelemek összege (315) szerepel a nevezőben. A szórás becslésénél tanult ”-1”-t azért lehetett elhagyni, mert ekkora elemszám esetén már nincs jelentősége. (Elhagyása nem módosítja az eredményeket, ill. legfeljebb akkora mértékben, amennyit a számítások végén úgy is „elkerekítünk”.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



268



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



269



A próbafüggvény értéke: SK F=

SB

vK

516.127.301,6 =

vB

6.559.590.000

4 ≅ 6,1 310

Egyes tankönyvek a variancia-analízis képletet a szórások felhasználásával (is) közlik:

σ 2K F=

σ 2B

vK vB

1.280 2 =

4.563

2

4 ≅ 6,1

310

A két eredmény azonossága, a matematikai összefüggéseket ismerve, nem meglepő. Ebből következik, hogy mindkét számítás használható, attól függően, mely rész-, ill. végeredmények állnak rendelkezésünkre. (Egyébként az alkalmazott jelölésekben is eltérnek az egyes tankönyvek – és nemcsak ebben az esetben –, mi a legegyszerűbb jelölési rendszerhez próbáltunk igazodni.)

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről. Ennél a próbánál is elég megvizsgálnunk – ahogy ezt már jeleztük – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját:

számított (6,1) 〉 táblabeli (1,83) Ennek alapján az alternatív hipotézist fogadjuk el, és egyúttal a nullhipotézist elvetjük, azaz ♥5 %-os szignifikancia-szinten állítjuk, hogy a minták átlagai közül legalább kettő nem azonos. Ha pontosan akarjuk tudni, melyik két átlag nem egyezik, akkor mégis el kell végeznünk páronként az összehasonlítást, és ezt nyilvánvalóan a legkisebb és a legnagyobb mintaátlag összevetésével célszerű kezdeni. (Összehasonlítva a legkisebb és a legnagyobb átlaghoz tartozó szórásokat – F = 5.100 2 / 3.600 2 ≅ 2 – a szokásos szignifikancia-szinten arra következtetésre jutottunk, hogy a 15.300 Ft-os és a 11.500 Ft-os kiadási átlag nem véletlenül térnek el egymástól. Ezután elhagyva az öt mintaátlag közül a legkisebbet, ismét elvégeztük a variancia-analízist. A próbafüggvény értéke: ≅4,1, a táblabeli érték: 2,6, azaz döntésünk nem változott.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



269



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

11.3.5.

Vissza



270



χ 2 (kh’ 2 ) -próba

A mintából származó és a mintától független szórás összehasonlítása Ismét a hallgatók szórakozási kiadásaira vonatkozó példa adataival dolgozunk. A vizsgált egyetem hallgatóinak köréből egyszerű véletlen mintát vettünk (n = 100 fő). A mintából számított átlaga ≅12.380 Ft, ≅4.430 Ft szórás mellett. Ezeket az eredményeket hasonlítjuk egy korábbi teljeskörű adatgyűjtésből származó átlaghoz (X 0 = 11.000 Ft ) , melyhez 4.000 Ft szórás (= σ 0 ) tartozik. A két átlag összehasonlítását már kétféleképpen is elvégeztük (z-próba, egymintás t-próba). Azt is tudjuk, hogy ezeket a próbákat meg kellett volna előzze a szórások összevetése, ennek bemutatása következik most. A választ az általában használt 5 %-os szignifikanciaszinten kell megadni.

1. A hipotézisek246 megfogalmazása:

Ho

H1

a próba

s1 = σ 0

s1 ≠ σ 0

kétoldalú

4. Az elfogadási és a kritikus tartomány kijelölése:

H1

elfogadási tartomány



s≠σ

2 0 , 025 ( 99 )

]

↔ χ 02,975( 99 ) → [74,2 ↔ 129,6]

5. A próbafüggvény számszerű értékének meghatározása:

χ2 =

(n − 1)s 2 = (100 − 1)4.430 2 σ 02

4.000 2

≅ 121,4

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről. 246

Tekintettel arra, hogy az átlagok összehasonlíthatósága csak a szórások egyezősége esetén lehetséges nincs értelme az egyoldali ellenhipotéziseknek. (Lásd: F-próba a mintából származó szórások összehasonlítására.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



270



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



271



A próbafüggvény számított értéke a táblabeli értékek által határolt intervallumon belül helyezkedik el, a nullhipotézist tehát elfogadjuk, az alternatív hipotézist pedig elvetjük, így ♥5 %-os szignifikancia-szinten állítjuk, hogy annak a sokaságnak, melyből a minta származik a szórása azonos a korábbi teljeskörű felmérésből származó szórással. Illeszkedés (= eloszlás) vizsgálat A becslés témakörének taglalásakor már többször említettük, hogy a tankönyvünkben tárgyalt módszerek alkalmazása a vizsgált sokaságok normális eloszlását feltételezik, vagy legalábbis azt, hogy az attól való eltérés statisztikai értelemben ne legyen jelentős mértékű. Ennek ellenére mindeddig nem győződtünk meg arról, hogy az egyetemi hallgatók sokasága a szórakozási kiadások alapján normális eloszlásúnak tekinthető-e. A következőkben ezt vizsgáljuk.

1. A hipotézisek megfogalmazása az aktuális feladattól függetlenül mindig azonos:

H 0 : P( X i ) = Pi ∗ H1: létezik olyan P( X i ) ≠ Pi ∗ 4. Az elfogadási és a kritikus tartomány kijelölése: Ha α = 5 %-os szignifikancia szinten dolgozunk, és becsléses illeszkedésvizsgálatot végzünk, akkor az elfogadási tartomány felső határa

χ 02,95( 4 ) = 9,49 . 5. A próbafüggvény számszerű értékének meghatározása:

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



271



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



272



11.4. sz. tábla (a 10.2.sz. tábla alapján) a hallgatók szórakozási száma a kiadás mintában zi

Ψ ( z i ) 1 − Ψ ( z i ) pi∗

χ2

f i ∗ összete-

ezer Ft / hó /fő

fi

– 5,0

6

-1,66605 0,95215 0,04785

0,04785 4,79 0,306

5,1 – 8,0

10

-0,98879 0,83862 0,16138

0,11353 11,35 0,161

8,1 – 11,0

18

-0,31154 0,62231 0,37769

0,21631 21,63 0,609

11,1 – 14,0

35

0,36571 0,64271

0,26502 26,50 2,726

14,1 – 17,0

15

1,04297 0,85151

0,20880 20,88 1,656

17,1 – 20,0

11

1,72022 0,95730

0,10579 10,58 0,017

20,0 –

5



1,0000

0,04270 4,27 0,171

összesen

100





1,0000 100

vői

5,646

A tábla egyes adatait (szürke háttér, dupla vonalas keret) így számítottuk ki:



z1 = −1,66605 ≅

5 − 12,38 4,43

A számításokat EXCEL-programmal végeztük. A számítógép nem kerekített, így 4,429652 ezer Ft-os szórással dolgozott. (Ezért, ha ellenőrizni akarja munkánkat, Ön se kerekítsen.)



Ψ ( z 2 ) = 0,83862 ≅ 0,8365 ↔ 0,8389 Az egyes z értékekhez tartozó táblabeli értékeket is a számítógép kereste ki, ha az órai munkához megvásárolható táblagyűjtemény z-táblájából keressük ki az értéket, – ez négy tizedes pontosságú – a 0,8365 vagy a 0,8389 áll rendelkezésünkre. (Célszerű a kerekítés matematikai szabályai szerint eljárni, vagy végezhetünk interpolációt.)



1 − Ψ ( z 3 ) = 1 − 0,62231 = 0,37769 A táblából kikeresett érték komplomenterének (= kiegészítőjének) kiszámítására azért van szükség, mert ha z negatív, akkor a táblából kikeresett valószínűség az adott negatív határ és a pozitív végtelen közötti előfordulást valószínűségét adja meg, azaz nem kezelhető együtt a pozitív z értékekhez kikeresett valószínűségekkel.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



272



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza



273



p4∗ = 0,26502 = 0,64271 − 0,37769 A táblából kikeresett pozitív z értékhez tartozó valószínűségek és az „átfordított” valószínűségek is mind a negatív végtelen és az adott határ közötti előfordulás esélyét adják meg, de a megfigyelt gyakoriságok ( f i ) osztályközökre vonatkoznak, ezért a normális eloszlást kifejező előfordulási esélyeket (≅ relatív gyakoriságokat) is osztályközökre vonatkoztatva kell megadnunk.



f 5∗ = n ∗ p5∗ = 100 ∗ 0,2088 = 20,88 ♥ Ha a hallgatók szórakozás kiadás szerinti eloszlása illeszkedne a normális eloszlás elméleti görbéjére, akkor a sokaság 20,88 % (0,2088-ad része) költene havonta erre a célra 14 és 17 ezer Ft közötti összeget, azaz a mintában ≅ 21 fő esne ebbe az osztályközbe. A létszámadatokat tartalmazó oszlopban talán furcsának tűnnek a tizedes pontosságú adatok A próbafüggvény értékének pontosabb számítása érdekében nem kerekítettünk. (A megfogalmazásnál azonban, ahogy az előző bekezdésben látható is, igen.)



χ

2

(f egyik összetevője:

6

− f 6∗ f 6∗

) = (11 − 10,58) 2

2

10,58

≅ 0,017

Az oszlop összesen adata = a próbafüggvény értéke.

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről. Tekintettel arra, hogy ez próba egyoldali, elég megvizsgálnunk – ahogy ezt már többször is jeleztük – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját:

számított (5,646) 〈 táblabeli (9,49) Következtetésünk: a nullhipotézist elfogadjuk, az alternatív hipotézist pedig elvetjük, azaz ♥ a vizsgált egyetem hallgatóinak szórakozási kiadás szerinti eloszlása a megfigyelés időpontjában normálisnak tekinthető, a tapasztalati eloszlás görbe jól közelíti az elméleti haranggörbét. Azokat a mutatókat, melyeket csak normális eloszlás esetén használhatunk, kiszámíthatjuk, értelmezhetjük, alkalmazhatjuk a sokaság jellemzésére.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



273



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



274



A vizsgált egyetem hallgatóinak szórakozási kiadás szerinti eloszlása

előfordulások a mintában (fő)

40 35 30 25

Adatsor1

20 15 10 5 0 0

5

10

15

20

25

szórakozási kiadások (ezer Ft)

11.1.sz. ábra Függetlenségvizsgálat A próba az asszociáció mutatóinak igazságtartalmát ellenőrzi. Ezért a 7.1. fejezetben247 található bemutató példát folytatjuk. Ott 1992 és 2003 évekre vonatkozóan a foglalkoztatottakat egyszerre két ismérv (ágazat = minőségi ismérv ill. nem = minőségi ismérv) szerint csoportosítottuk. Egyrészt kíváncsiak voltunk arra, hogy van-e kapcsolat az ágazatok és a foglalkoztatottak neme között. (Van-e olyan ágazat, amelyik „vonzza” férfiakat, ill. van-e olyan, amelyik „vonzza” a nőket?) Másrészt kíváncsiak voltunk rajta, hogy megváltozott-e a mutató értéke az eltelt évtized alatt? Most pedig azt akarjuk ellenőrizni, hogy véletlen-e a mutatók nullától való eltérése, azaz valódi kapcsolat van-e az ismérvek között, vagy csak a mintavétel szeszélyei miatt (pl. szélsőséges minta) kaptuk az alábbi eredményeket. 11.5.sz. tábla A számítások eredményei év Csuprov-mutató 1992

247

T=

Cramer féle mutató

452,3966 ≅ 0,18 4025,8 (2 − 1)(14 − 1)

C=

452,3966 ≅ 0,34 4025,8 * (2 − 1)

Statisztika I.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



274



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

2003

T=

563,328 ≅ 0,20 3922 (2 − 1)(14 − 1)

Vissza

C=



275



563,328 ≅ 0,38 3922 * (2 − 1)

1. A hipotézisek megfogalmazása az aktuális feladattól függetlenül mindig azonos: H0 : Pij = Pi∗ ∗ P∗ j H 1 : van olyan i és j, melyre Pij ≠ Pi∗ ∗ Pj∗

A nullhipotézis a függetlenséget, hiszen azt állítja, hogy a megfigyelt relatív gyakoriságok, azonosak a függetlenséget feltételező relatív gyakoriságokkal (= előfordulási valószínűségekkel) Az alternatív hipotézis pedig, éppen ellenkező állításával, az összefüggést feltételezi. A hipotézisekben szereplő betűk jelentése: Pi∗ = Pij = a kontingencia tábla peremgyakorisága (oszlopkét ismérvváltozat vektor), a "j"-vel jelölt együttes előfordulásáismérvváltozat szerinti nak valószínűsége előfordulás valószínűsége

Pj∗ = a kontingencia tábla peremgyakorisága (sorvektor), az "i"-vel jelölt ismérvváltozat szerinti előfordulás valószínűsége

4. Az elfogadási és a kritikus tartomány kijelölése: Ha α = 5 %-os szignifikancia szinten dolgozunk, és becsléses illeszkedésvizsgálatot végzünk, akkor az elfogadási tartomány felső határa figyelembe véve a szabadságfokot v = ( s − 1)(t − 1) : χ 02,95(13) = 22,4 . A megfelelő elméleti értéket a χ 2 -táblából az 1 − α feliratú oszlopban kell kikeresni.

5. A próbafüggvény számszerű értékének meghatározása: Erre most nincs szükség, egyszerűen átvesszük a korábban megoldott feladatból a szükséges értékeket.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



275



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



276



11.6. sz. tábla 1992

1992 megnevezés

1992 megfigyelt adatok

f ij

f i. * f . j

f ij* =

I. ágazat

a megfigyelt és a függetfüggetlenséget feltételező lenséget feltételező adatok adatok összehasonlítása =

χ 2 összetevőinek számítá-

n

sa

II.

férfi

mezőgazd. 316,7

III.



össz.

Férfi



össz.

143,4

460,1

247,0103 213,0897 460,1

férfi



össz.

19,66174 22,79159 42,45332

…. összesen 2.161,3 1.864,5 4.025,8 2.161,3

1.864,5

4.025,8 209,5219 242,8746 452,3966

11.7. sz. tábla 2003

2003

függetlenséget felté2003 megfigyelt adatok telező adatok megnevezés

f ij

f ij* =

f i. * f . j

a megfigyelt és a függetlenséget feltételező adatok összehasonlítása =

χ 2 összetevőinek számítása

n

ágazat

férfiak nők

össz. férfiak nők

össz. férfiak

mezőgazd.

166,6 48,6

215,2 116,686 98,5135 215,2 21,3509

nők

össz.

25,2895

46,6404

305,45

563,328

…….. összesen

2.126,6 1.795,4 3.922 2.126,6 1.795,4 3.922 257,879

Az 1992-re vonatkozó számítás szerint a próbafüggvény értéke: ≅452, a 2003-ra vonatkozó számítás szerint pedig: ≅ 563.

6. Döntés a hipotézisek elfogadásáról illetve elvetéséről. Tekintettel arra, hogy ez próba is egyoldali, elég megvizsgálnunk – ahogy ezt már többször is jeleztük is – a táblabeli érték és a próbafüggvény számszerű értékének nagyságrendi relációját: 1992: számított (≅ 452) 〉 táblabeli (22,4) 2003: számított (≅ 563) 〉 táblabeli (22,4)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



276



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



277



Így következtetésünk mindkét évben azonos: a nullhipotézist elvetjük, az alternatív hipotézist pedig elfogadjuk, azaz ♥ 5 %-os szignifikancia-szinten állítjuk, hogy a foglalkoztatottak neme és az ágazatok jellege között számottevő kapcsolat van, vannak olyan ágazatok tehát, melyek (inkább) a női és olyanok, melyek (inkább) a férfi dolgozókat vonzzák (alkalmazzák). 11.4. Gyakorló feladatok 1. feladat Mintavételes eljárással vizsgáljuk egy egyetemen különböző szakokon tanuló diákjainak teljesítményét matematikából. 11.8. sz. tábla (=10.10. sz. tábla) a minta adatai: villamosteljesítmény mérnökök % fő - 50 30 51 – 60 20 61 – 70 10 71 – 80 10 81 – 90 6 91 – 4 összesen 80

gépészinformatikus közgazdász mérnökök 20 20 15 10 3 2 70

34 68 34 22 11 11 180

35 88 88 35 28 6 280

A 11.8. sz. táblában foglalt adatokkal már találkozott a becslés gyakorló feladatai között. Most az ott kiszámított eredményekre is szüksége lesz. 11.9. sz. tábla Egy korábbi mintavétel eredményei: villamosmérnökök

gépészmérnökök

informatikus

közgazdász

együtt

elemszám

50

35

100

100

285

átlag

65

60

65

70

66

szórás

16

18

14

12

13

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



277



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



278



1. Állapítsa meg szakonként és az együttes adatra vonatkozóan is – több különböző szignifikancia szinten is, – hogy a hallgatók a teljesítményének szórása azonos-e a 11.9. sz. táblában megadott értékekkel! 2. Állapítsa meg a villamosmérnök hallgatók esetében, hogy a 80 % feletti teljesítmény nyújtók aránya azonos-e a többi szakon azonos teljesítmény nyújtok arányával! Az összehasonlítást páronként és egyetlen próbával is végezze el! 3. Vizsgálja meg, hogy a közgazdászok teljesítmény-százalék szerinti eloszlása normálisnak tekinthető-e! Ha szorgalmas, a fenti adatokból még egyéb összehasonlítási lehetőségeket is talál, és azokat is elvégezheti. 2. feladat A háztartások villamosenergia-fogyasztásának vizsgálatára egyik megyénkben 1,4 % -os ( n = 200) EV mintát vettek. A minta adatai: 11.10. sz. tábla (=10.11. sz. tábla) fogyasztás

a háztartások aránya a mintában

kiegészítő oszlop, adatok az előző évre

kWh

%

%

– 80

5,0

7,0

81 – 100

12,5

15,0

101 – 120

20,0

25,0

121 – 160

22,5

20,0

161 – 200

20,0

18,0

201 – 300

12,5

10,0

301 –

7,5

5,0

összesen

100

100

A 11.10. sz. táblában foglalt adatokkal már találkozott a becslés gyakorló feladatai között. Most az ott kiszámított eredményekre is szüksége lesz.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



278



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



279



1. Ellenőrizze, hogy a háztartások villamosenergia-fogyasztás szerinti eloszlása illeszkedik-e a normális eloszlás elméleti görbéjére! 2. Állapítsa meg, vannak-e olyan osztályközök (= fogyasztási kategóriák), amelyekbe azonos arányú fogyasztó tartozik! 3. Igaz-e az állítás, növekedett a villamosenergia-felhasználás együttesen és kategóriánként is az előző évhez viszonyítva. (Az előző évre vonatkozó megoszlási viszonyszámokat a 11.10. sz. tábla kiegészítő oszlopában találja meg.) Az előző évben 100 elemű mintát vettek. Az ellenőrzéseket több különböző szignifikancia-szinten is végezze el! 3. feladat 11.11. sz. tábla Halálozások a meghaltak neme és a halál oka szerint (Magyarország, 2003)248 a meghaltak neme nő → férfi a halál oka ↓

összesen

daganatos betegségek

19.063

14.999

34.062

táplálkozási és anyagcsere

1.101

1.650

2.751

keringési rendszer

31.841

37.210

69.051

légzőrendszer

3.210

2.229

5.439

emésztőrendszer

5.846

3.599

9.445

összesen

61.061

59.687

120.748

Ezekkel az adatokkal a 7. fejezetben már találkozott, ott azt a feladatot kapta, vizsgálja meg, van-e kapcsolat a meghaltak neme és a halál oka között! Most ellenőrizze, hogy a kapcsolat szignifikáns-e! Munkáját egyszerűsítheti, ha a korábban kiszámított eredményeket felhasználja.

248

Magyar statisztikai évkönyv, 2003 (KSH, 2004; 68. – 70. old.) /A legfőbb halálokokat emeltük ki, a halálestek 88 %-át./

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



279



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



280



4. feladat 11.12. sz. tábla A Magyarországra bevándorló külföldiek száma (fő) életkoruk szerint 249 életkor (év)

1980

2002

férfi



összesen

férfi



összesen

0 – 14

165

145

310

652

611

1.273

15 – 19

205

157

362

608

707

1.315

20 – 24

241

475

716

1.568

1.536

3.103

25 – 29

182

330

512

1.773

1.406

3.179

30 – 39

221

199

420

2.119

1.296

3.415

40 – 49

73

81

154

1.213

671

1.884

50 – 59

32

47

79

569

384

953

60 –

19

40

59

229

294

523

összesen

1.138

1.474

2.612

8.741

6.905

15.646

A 7. fejezetben már ezekkel az adatokkal is találkozott, ott azt a feladatot kapta: vizsgálja meg, volt-e kapcsolat a bevándorlók életkora és neme között 1980ban ill. 2002-ben! Most új feladatokat kap. 1. Döntse el, hogy 1980-ban ill. 2002-ben azonos volt-e a bevándorló férfiak, nők, ill. az összes bevándorló átlagos életkora, ill. életkorának szórása! α = 2,5% ill. α = 5,0% 2. Döntse el, változott-e az eltelt évek alatt a bevándorló férfiak, nők, ill. az összes bevándorló átlagos életkora ill. annak szórása! Szignifikancia-szint: ua. 3. Állapítsa meg, mindkét évre, mindkét nemre és a bevándorlók öszszességére, igaz-e a kijelentés: életkor szerinti eloszlásuk normálisnak tekinthető! α = 5,0% ill. α = 10,0% 4. Állapítsa meg, vannak-e olyan életkor-kategóriák, ahol a bevándorlók aránya azonos! Szignifikancia-szint: az általános. 5. Előző döntése alapján válaszoljon, vannak-e olyan életkor-kategóriák, ahol a bevándorlók száma azonos! Munkáját egyszerűsítheti, ha a korábban kiszámított eredményeket felhasználja. 249

Demográfiai évkönyv, 2003 (KSH, 2004; 90. old.) /Az ismeretlen korúak – számuk elenyésző– nélkül./

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



280



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



281



5. feladat – a gyakorló órákon a feladatokat nem mindig az eddigi részletező formában kapják meg a hallgatók, az alábbiakban erre látnak példákat. Egy város 60 ezer 25 éven felüli lakosa közül 300 elemű EV mintát vettek az iskolai végzettség vizsgálatára. A minta szerint a 25 éven felüli lakosok által sikeresen elvégzett iskolaévek átlagos száma 9,2 (szórás: 2,6 ). Számítsa ki P = 98,8% az átlagosan elvégzett iskolai évek számát! Ellenőrizze azt feltevést, hogy a sikeresen elvégzett iskolaévek száma a) kevesebb 10 – nél, b) több 10-nél, c) éppen 10! Vizsgálja meg, milyen döntések születtek volna 80, 90 és 95 %-os becslési szint mellett! Egy városban a szelektív hulladékgyűjtés bevezetését tervezik. A hulladékfajták becslésére a város háztartásaiból 10 %-os EV mintát vettek. Az éves szilárd hulladékok megoszlása (m3) a mintában:

papír

műanyag textil

üveg

fém

veszélyes szerves

egyéb

162

122

56

24

6

166

40

246

Adjon intervallumbecslést 96 %-os megbízhatósággal az egyes hulladékfajták arányára! Adjon pontbecslést a város évi összes hulladékmennyiségére! 4. Az egészségügyi kormányzat pontos adatok hiányában statisztikai becsléssel kívánja megállapítani, hogy az orvosok hány %-a praktizál magánrendelésen. Ebből a célból 300 elemű EV mintát vettek. A mintába került orvosok közül 72 fő rendelkezett privát pacientúrával. Adjon becslést – 95,5 %-os megbízhatósággal – a privát pacientúrával rendelkező orvosok számára, ha ismeretes, hogy a Magyarországon dolgozó orvosok száma ≅28.000 fő! Becsülje meg az orvosok beteglátogatással töltött havi átlagos idejét, ha ez a mintába 53 óra 12 óra szórással! Állapítsa meg, hogy hány elemű mintát szükséges kiválasztani ahhoz, hogy az időre vonatkozó becslés maximális hibája 1 óra legyen! 5. A háztartások egy főre jutó évi élelmiszer-kiadását 2003-ben, az egyik megyében rétegzett kiválasztás alapján becsülték. Az 500-as mintában a városi háztartások száma 300, átlagos élelmiszer-kiadás 156 ezer Ft, 40 ezer Ft szórás mellett. A községekben az átlag 120 ezer Ft, 17,5 %-os relatív szórás mellett. A megye háztartásainak 45 %-a városi. Állapítsa meg a városokra, a községekre és az egész megye egy háztartására vonatkozó átlagot! Becsülje meg mindhárom esetben az összes kiadást, ha tudjuk, hogy a megyében 180 ezer háztartás van! 6. Egy főiskolán felmérést végeztek arra vonatkozóan, hogy a hallgatók mennyi időt fordítanak hetente sportolásra. A kikérdezés EV mintavétellel történt. Az 1000 lányból és a 700 fiúból 100 – 100 elemű mintát vettek. A minta adatai: lányok 4,2 óra (2,0 óra szórással), fiúk 8,6 óra (2,5 óra szórással). Ismert továbbá, hogy a megkérdezett lányok között 6 óránál többet sportol 12 %, a fiúk körben ez az arány 40 %. Adjon

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



281



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



282



intervallumbecslést a hallgatók egyes csoportjaira és összességére vonatkozóan is a heti sportolási idő átlagára és szórására különböző valószínűségi szinteken! Az eredményeket hasonlítsa össze, vonjon le következtetést! Adjon intervallumbecslést a 6 óránál többet sportolók arányára és számára rétegenként és együttesen is a szokásos valószínűségi követelményt alkalmazva! 7. Egyik megyénkben az elmúlt évben összesen 4.500 fő ment nyugdíjba, közöttük a férfiak aránya 40 % volt. Az átlagos szolgálati idő vizsgálatára nemenként egymástól függetlenül 100 – 100 fős EV mintát vettek. A mintába került nők átlagos szolgálati ideje 36 év (szórás: 12 év); a 35 évnél hosszabb szolgálati idővel rendelkezők aránya: 65 %. A férfiak adatai:

év

- 15

- 20

- 25

- 30

- 35

- 40

40 -

%

3

5

7

10

15

15

45

8.

9.

10.

11.

12.

Becsülje meg (P = 95 %) a férfiak átlagos szolgálati idejét, a 35 évnél hosszabb szolgálati idővel rendelkezők arányát és számát; az összes nyugdíjasra vonatkozóan ugyanezen adatokat! Számítsa ki, hogy hány elemű AR mintára lett volna szükség, ha az átlagos szolgálati időre vonatkozó hibahatárt megtarthatjuk! Hasonlítsa össze a férfiakra és a nőkre vonatkozó adatokat! Egy fogkrém szabvány szerinti pH-értéke 7,75; a megengedett szórás 0,75. (A pHérték normális eloszlása feltételezhető.) A szabvány-érték meglétének ellenőrzésére vett 25 elemű EV minta adatai: 7,25 (0,85 szórás). Írja fel a tanult hipotéziseket, ellenőrizzen különböző szinteken! Egy bizonyos típusú személygépkocsi átlagos fogyasztása a gyártó szerint 8,5 liter/100 km. (A fogyasztás normális eloszlása feltételezhető.) Az ellenőrzés céljára vett EV minta adatai: 9,1 (2,2 szórás). Állapítsa meg, hogy a tényleges fogyasztás nagyobb-e gyártó által garantáltnál! Egy kereskedelmi vállalatnál a kártyás fizetési mód bevezetését tervezi azokban az üzletekben, ahol ezt a vásárlók legalább 40 %-a igényli. Ennek felmérésére két üzletben kikérdezték (EV minta) a vevőket. A Kínai Áruházban 120 megkérdezett közül 41, az Angol Használtruha Áruházban pedig 150 megkérdezett közül 77 igényelné. Bevezeti-e valamelyik üzletében ezt a fizetési módot a kereskedelmi vállalat? Egy töltőgép mosóport tölt dobozokba. Hosszú hónapok tapasztalata szerint a töltési tömeg szórása 8 gramm. (A töltési tömeg normális eloszlása feltételezhető.) Két egymást követő napon 40 – 40 dobozt felbontottak, lemértek. Az eredmények: 1. nap: 595,5 gramm átlagos töltési tömeg, 2. nap: 603,7 gramm. Állapítsa meg, van-e szignifikáns különbség a két napi töltési tömeg között! Egy nagykereskedelmi vállalat raktárában tárolt 80 000 db dobozos üdítőital töltési tömegének vizsgálatára 300 elemű EV mintát vettek. A minta megoszlása:

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



282



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



283



töltési tömeg

mintabeli gyak.

töltési tömeg

mintabeli gyak.

gramm

db

gramm

db

- 940

15

- 1020

63

- 960

21

- 1040

42

- 980

51

- 1060

30

- 1000

60

1060 -

18

Ellenőrizze 5 %-os szignifikancia-szinten, hogy a dobozok töltési tömeg szerinti eloszlása normálisnak tekinthető-e! Becsülje meg az átlagos töltési tömeget, az 1000 grammnál kisebb tömegű dobozok arányát és számát! 13. Egy benzinkútnál feljegyezték a 8 és 16 óra között érkező autók számát óránkénti bontásban:

idő

8–9

gépkocsi 24

9 – 10 32

10 – 11 56

11 – 12 32

12 – 13 22

13 – 14 28

14 – 15 36

15 -16 46

Ellenőrizze azt az állítást, hogy óránként azonos valószínűséggel érkeznek a gépkocsik az adott benzinkúthoz! 14. A magyar felnőtt népességet reprezentáló 1200 fős minta alapján vizsgálták a szabadidő-eltöltési szokásokat. A minta adatai:

eltöltés ⇒

családdal családdal a egyedül barátokkal egyéb otthon természetben otthon szórakozóhelyen

lakóhely Budapest

41

43

39

32

61

város

208

115

77

49

97

község

219

70

44

39

66

házas 278 egyedülálló 176

152 62

63 108

32 97

107 125

gyermek van

321

185

104

72

120

nincs

147

64

56

43

88

életkor (év) 18 – 29 66

46

26

83

65

30 – 39

46

23

15

45

családi állapot

62

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



283



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



40 – 49

86

61

33

14

40

50 – 59

72

44

25

13

36

60 -

167

30

57

3

42

102

90

60

90

88

50

47

105

45

23

11

52

284



iskolai végzettség legfeljebb 258 8 év középfokú 130 felsőfokú

49

Vizsgálja meg, hogy a szabadidő-eltöltésének módja mely ismérvvel (ismérvekkel) van szignifikáns kapcsolatban! 11.5. Összefoglalás hipotézis

= feltevés valamely sokasági jellemezőre vagy a sokaság eloszlására

hipotézisellenőrzés

= feltevésünk ellenőrzése egy (vagy több) minta alapján

szükséges

mert a sokasági jellemzők számítása mintából történik

a munka menete

a hipotézis felírása

1. a hipotézis felírása 2. a próbafüggvény értékének meghatározása 3. a táblabeli érték kikeresése (adott P → α alapján) 4. összevetés → döntés → megfogalmazás mindig két hipotézissel dolgozunk

követelmény

– –

fajtái:

1. nullhipotézis 2. ellenhipotézis = alternatívhipotézis : egyoldali, kétoldali

nullhipotézis pl.: ellenhipotézis pl.:

együtt sose lehessenek igazak merítsék ki az összes lehetőséget

H0 : x = X egyoldalú

kétoldalú

H1 : x ≠ X

H1 : x 〈 X

A dokumentum használata | Tartalomjegyzék | Táblázatok

H1 : x 〉 X

vagy

Vissza



284



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

próbafüggvény

fajtái (csak a tankönyvben szereplők)

z -próba

Vissza



285



= a mintaelemeknek egy olyan függvénye, amelynek eloszlása a nullhipotézis igazságát feltételezve pontosan ismert 1. z -próba 2. egymintás t-próba 3. kétmintás t-próba 4. F-próbák 5.

χ 2 -próbák

Ha n〉100 és a szórás ismert (nem a mintából!) átlag, arány stb. ellenőrzésére, szabadságfoka = végtelen.

z=

xa − X 0

σ

n Ha n〈100 és/vagy a szórás csak a mintából ismert

egymintás t-próba

átlag, arány stb. ellenőrzésére, szabadságfoka = ( n − 1) .

t=

xa − X 0 s n

Két minta átlagának, arányainak stb. összehasonlítására, kétmintás t-próba

szabadságfoka = ( n1 + n2 − 2) .

t=

x1 − x2 1 1 sd ∗ + n1 n2

2 minta szórásának összehasonlítására, F-próbák szórásokra

szabadságfoka = számláló: ( n1 − 1) , nevező :

(n2 − 1) , ahol n1 〉 n2 .

s12 F= 2 s2

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



285



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



286



Több átlag összehasonlítására, szabadságfoka = számláló: (m − 1) , nevező: n − m .

SK

variancia-analízis

F=

χ -próbák 2

szórásra

eloszlásvizsgálat

SB

vK vB

Mintabeli és pl. szabvány szórás összehasonlítására, szabadságfoka = ( n − 1) .

χ = 2

(n − 1)s 2

Annak eldöntésére, illeszkedik-e egy vizsgált sokaság eloszlása valamely ismert (legtöbbször: normális) eloszlás típusra, szabadságfoka = (k − 1 − r ) .

χ =∑ 2

függetlenségvizsgálat

σ2

(f

χ = ∑∑

fajtái

− f i∗ f i∗

)

2

Az asszociációs kapcsolat szignifikáns voltának eldöntésére, szabadságfoka = ( s − 1)∗ (t − 1) . 2

véletlen hiba

i

(f

ij

− f ij∗ f ij∗

)

2

Döntésünk nem lesz mindig helyes. Eredete: nem teljes körű az adatfelvétel. Minden próba csak adott szignifikancia-szinten (1-P) végezhető el 1. elsőfajú hiba 2. másodfajú

elsőfajú hiba

A null-hipotézis igaz, mégis elvetjük. Valószínűsége: α = 1 − P → α = 1 − Ψ ( z )

másodfajú

Az ellenhipotézist fogadjuk el. Valószínűsége: β

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



286



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

fontos

– – –

Vissza



287



a két hiba egymásból nem számítható ki! a két hiba csak egymás kárára csökkenthető célszerű mindkettőt alacsony szinten tartani

elfogadási tartomány

H 0 -ra vonatkozik, egyoldali, kétoldali

kritikus tartomány

H 1 -re vonatkozik, egyoldali, kétoldali

döntés

A próbafüggvény értékének és a táblabeli értékeknek összevetése alapján.

11.6. Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy gazdaságban a juhállomány gyapjúhozamát vizsgálták. A kiválasztott juhokra (n = 300 db fésűs merinó) vonatkozó adatok: Ha nem a zsebszámológép statisztikai programjával dolgozik, ezt a munkatáblát használja a becslési feladatokhoz! gyapjúhozam juhok kg/db

- 4,00 4,01 – 4,50 4,51 – 5,00 5,01 – 5,50 5,51 – 6,00 6,01 – 7,00 7,01 – 8,00 8,01 – összesen

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



287



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



288



Ezt a munkatáblát használja az első (1.3.) hipotézisellenőrzési feladathoz! gyapjú-hozam

juhok

kg/db - 4,00 4,01 – 4,50 4,51 – 5,00 5,01 – 5,50 5,51 – 6,00 6,01 – 7,00 7,01 – 8,00 8,01 – összesen

% 5,0 8,3 9,3 14,0 15,0 27,0 15,0 6,3 ≈ 100

A dolgozatokban gyakran nem különülnek el (= egymásra épülnek) a becslési és hipotézisellenőrzési feladatok, ezt mutatjuk be az alábbiakban. 1.1. 95 %-os valószínűség mellett adjon becslést a juhok átlagos gyapjúhozamára ill. annak szórására! átlag250

szórás

1.2. 98 %-os valószínűség mellett adjon becslést a 6 – 8 kg gyapjúhozamú juhok arányára és számára, ha a kiválasztási arány 2 százalékos! arány

létszám

250

Ahogy már többször jeleztük, a vizsgán egy-egy számítás levezetéséhez ill. megfogalmazás leírásához nem ilyen kevés hely áll majd rendelkezésére.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



288



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



289



1.3. Az általánosan használt valószínűség mellett döntse el, normálisnak tekinthető-e a juhok gyapjúhozam szerinti eloszlása!

1.4. Fogalmazza meg az 1.1. (átlag), 1.2. (szám) és a 1.3. feladatok kiemelt eredményeinek jelentését! átlag

létszám

eloszlás

2. minta Egy tejipari vállalatnál a tejfölösdobozok töltését automata gép végzi. A dobozok névleges töltési tömege 5 dl, a megengedett szórás 0,15 dl. A gyár egyik szállítmányából 75 elemű EV mintát vettek. A mintában az átlagos töltési tömeg 4,95 dl volt, a szórás 0,125 dl.

feladatok: 2.1. Becsülje meg (P = 95 %) a minta adatai alapján az átlagos töltési tömegnek és a szórásnak az intervallumát! Fogalmazza meg a kiszámított átlag (intervallum) jelentését! átlag szórás

2.2. Ellenőrizze (valószínűség, mint az előző feladatban), hogy az előző mintavétel óta történt-e változás! Az előző mintavétel elemszáma: 50, a töltősúly 4,9 dl 0,15 dl szórás mellett 1. ellenőrzés 2. ellenőrzés

megfogalmazás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



289



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



290



3. minta Egy vidéki város szülészetén az alábbi adatokat figyelték meg:

születési hossz (cm)

fiúk fő)

lányok (fő)

40 – 44

3

3

44 – 48

4

5

48 – 52

36

36

52 – 56

25

25

56 – 60

14

9

összesen

82

78

feladatok: 3.1. Határozza meg (P = általánosan használt) a fiúk átlagos születési hosszát és annak szórását! (kétoldalú becslés) 3.2. Fogalmazza meg a kiszámított adatok jelentését! 3.3. Döntse el, azonos hosszúságúak-e a fiúk és a lányok születésükkor! a döntéshez szükséges és a lányokra vonatkozó adatok megnevezése

számítása

próbák 3.4. Fogalmazza meg az elvégzett ellenőrzés eredményét! 3.5. Ha a fiúk átlagos testhosszának intervalluma 2,2 szélességű, milyen elemszámú minta alapján dolgozott? (P = mint eddig) Milyen megállapítást tehet a számítás alapján? az új elemszám megállapítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



290



Statisztika

Hipotézisellenőrzés = statisztikai próbák

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



291



4. minta Az alábbiakban egy, a gépkocsik gumiabroncsainak futásteljesítményére (km) vonatkozó hipotézisellenőrzés adatait látja:

adatok

megfogalmazások (4.1. Egy-egy mondattal írja le mit takar a jelölés és a hozzátartozó számadat! A számok mértékegységét is tüntesse fel!)

X = 80.000

σ = 18.000 n = 100

x = 78ezer s = 20ezer

α = 0,05 H0 : x = X H1 : x ≠ X H0 : s = σ H1 : s ≠ σ 4.2. Fejezze be az elkezdett ellenőrzést! (Ehhez végezze el a szükséges számításokat!) a döntéshez szükséges adaszámítás rövid megfogalmazás tok 1. döntés 2. döntés

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



291



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az idősorok elemezése Vissza



292



12. Az idősorok elemezése 12.1. Bevezetés Az idősor251 olyan statisztikai sor, melyben az ismérv az idő, az ismérvváltozatok pedig különböző dátumok. Az idősorok két alapvető típusa az állapot- és a tartam idősor. A koordináta rendszerben történő ábrázolásuk során, a vízszintes tengelyen rendszerint a dátumokat tüntetjük fel, a függőleges tengelyen pedig az egyes időpontokhoz tartozó megfigyelt adatokat. Ábrájuk lehet pont-, vonal- és oszlopdiagram252. Az idősorok adatait elemezhetjük dinamikus viszonyszámokkal253, ezek a megfigyelt adatok relatív változását mutatják. A bázis viszonyszám (bi ) egy kiválasztott (= bázis) adathoz, a láncviszonyszám (li ) mindig az előző adathoz hasonlítja az idősor i-edik adatát. Megoszlási viszonyszámot (wi ) pedig csak a tartam idősorokból számíthatunk. Mind az idősorok megfigyelt adatai, mind az azokból számított változások átlagolhatók254. A tartam idősorok számtani ( y a ) , az állapot idősorok pedig kronologikus ( y kr ) átlaggal jellemezhetők. Az átlagos abszolútváltozás (d i ) a megfigyelt adatok különbségeit, az átlagos relatívváltozás (li ) pedig a láncviszonyszámokat sűríti egyetlen adatba. Az idősorok az eddig megismert módszereken kívül további eszközökkel is elemezhetők. Ehhez az idősorok adatait összetevőikre kell bontani:

• alapirányzat ( yˆ ij ),

• szezonhatás (s j , s ∗j ) ,

• véletlenhatás (v j , v ∗j ) , • ciklushatás.

251

Lásd: 1. fejezet Lásd: 1. fejezet 253 Lásd: 2. fejezet 254 Lásd: 3. fejezet 252

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



292



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az idősorok elemezése Vissza



293



Az alapirányzat (= trend) az idősorban megmutatkozó tartós tendenciát jelenti, ami lehet

• növekedés, amikor is d i = y i − y i −1 pozitív ill. li =

yi 100 %-nál y i −1

nagyobb;

• csökkenés, amikor is d i = y i − y i −1 negatív ill. li =

yi 100 %-nál y i −1

kisebb;

• stagnálás, amikor is d i = y i − y i −1 ≅ 0 ill. li =

yi ≅ 1. yi −1

A társadalmi-, gazdasági életben lezajló időbeli folyamatok igen gyakran nem mutatnak töretlen fejlődést vagy folyamatos csökkenést. Az alapvető tendencia feltárását azonban ez a tény nem zavarja. A szezonhatás rendszeresen – évente vagy egy évnél is rövidebb időközönként – visszatérő hatás. Ismerete az alkalmazkodás és a jövőre vonatkozó gazdasági tervek készítésekor igen fontos. Kapcsolódhat az időjárás változásához, (Nyáron több fagylaltot, hideg üdítőitalt fogyasztunk, mint télen.) ünnepekhez, (A karácsonyi, húsvéti postai forgalom sokszorosa az egyébként jellemző havi forgalomnak.), törvényi előírásokhoz (Pl.: adó befizetési határidők) stb. A véletlenhatás előre nem látható, nem tervezhető. Oka mindig valamilyen társadalmi vagy gazdasági esemény. Fontos tudnunk, hogy a véletlen szót a statisztika nem a hétköznapi értelemben használja. A ciklushatás hosszabb időközönként visszatérő hatás, a gazdasági élet hullámzását (= konjunktúra, dekonjunktúra) jelenti. Elemzése túlmutat tananyagunk keretein.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



293



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az idősorok elemezése Vissza



294



12.2. Trendszámítás Az idősorokban megmutatkozó alapirányzat kimutatására két módszerrel ismerkedünk meg:

• analitikus és • mozgóátlagolású trendszámítás. Az analitikus trendszámítás eredményeként valamilyen matematikából ismert egyenlettel írjuk le a változást, adjuk meg a „kiinduló értéket” ill. az időszakonként megmutatkozó abszolút vagy relatív változás nagyságát. A mozgóátlagolású trendszámítás eredménye egy az eredetinél rövidebb idősor, melynek elemei vagy egyre nagyobbak (= növekedés) vagy egyre kisebbek (= csökkenés), esetleg közel állandóak (= stagnálás) 12.2.1. Analitikus trendszámítás

Az időbeli változások leírására,

• ha az abszolút változások (d i ) megközelítőleg azonos nagyságúak és kevés kivételtől eltekintve azonos előjelűek, akkor lineáris egyenletet; • ha a relatív változások (100 − l1i ) megközelítőleg azonos nagyságúak és kevés kivételtől eltekintve azonos előjelűek, akkor exponenciális egyenletet számítunk. • Ha az idősorban megmutatkozó változások egy adott időpontban előjelet váltanak (szélső értéke van a függvénynek), akkor a parabolafüggvényt használjuk. • Ha igen hosszú idősorokat kell elemeznünk, akkor gyakran alkalmazzuk az un. logisztikus egyenletet. Az analitikus trendszámítás alapvető kérdése, hogyan illesszük az egyenletet a megfigyelt pontok közé. Úgy is fogalmazhatnánk, hogyan válasszuk ki az elvileg létező végtelen lehetőség közül a legjobbat. Ha az idősor megfigyelt adatait úgy ábrázoljuk a koordináta rendszerben, hogy a tengelyeken felvett skála meglehetősen nagy léptékű, akkor jól látható, hogy a pontdiagram (= a megfigyelt adatok alapján készítjük) pontjai közé sok-sok egyenes vagy görbe rajzolható be.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



294



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



295



A lineáris és az exponenciális függvények255 (egyenletek) esetén az un. legkisebb négyzetek módszerét256 alkalmazzuk. Azt az egyenletet tartjuk a legjobbnak, amelyiknek pontjai legközelebb vannak a megfigyelt pontokhoz. A döntéshez összehasonlítjuk az egyes időpontokhoz tartozó megfigyelt és számított (= az egyenesen vagy görbén elhelyezkedő) adatokat, azaz képezzük ezek különbségét. A különbségek között lesznek negatívak (= az egyenes vagy a görbe a megfigyelt pont fölött fut) és pozitívak (= az egyenes vagy a görbe a megfigyelt pont alatt fut) is. Ezek összege – hiszen egyetlen pont alapján nem hozhatunk döntést – kellően sok megfigyelés esetén, nulla. Ezért nem egyszerűen a különbségekkel, hanem azok négyzetével dolgozunk, és azt a függvényt fogadjuk el legjobbnak, ahol

∑(y

i

2 2 − yˆ i ) = ∑ ei2 = ∑ ( yi − β 0 − β1t i ) → min .! .

A képletben szereplő betűk jelentése:

yˆ i =

yi =

ei = yi − yˆ i = az egyenesen vagy a megfigyelt görbén rajta lévő adat = rezidium adat számított adat = trendadat

i= az időszakok, időpontok sorszáma,

i = 1,2,3,....n

A fenti meggondolást és matematikai ismereteinket felhasználva képleteket257 tudunk megadni a különböző egyenlettípusok paramétereinek kiszámításához. Első lépésben az un. normálegyenletekhez jutunk el. Majd kétféleképpen is folytathatjuk a levezetést, dolgozhatunk:

∑t a ∑t

• a

i

= 0 és a



i

≠ 0 módszerrel is.

ti = 1,2,3,...n egy segédváltozó, a dátumokat helyettesíti. Ugyanúgy kifejezi az idő egységnyi lépésekkel való múlását, mint a dátumok, de lehetővé teszi, hogy kisebb számokkal dolgozzunk, és azt, hogy az egyenletek β 0 255

A másik két megemlített egyenlettípus nem képezi tananyagunk részét, de megjegyzzük, hogy a parabolát ugyancsak a legkisebb négyzetek módszerével illesztik; a logisztikus egyenlet esetén pedig az un. három-pontos illesztést alkalmazzák. 256 Természetesen egyéb módszerek is léteznek, de ez a legegyszerűbb. 257 A részletes levezetéseket megtalálják az irodalomjegyzékben felsorolt, és az Önök által éppen olvasottnál részletesebb tankönyvekben.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



295



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



296



paraméterét könnyebben értelmezhessük. (Tananyagunk csak a másodikként megadott módszert ismerteti, a feladatok megoldása során csak azzal dolgozunk.) Lineáris egyenlet:

yˆ i = β 0 + β 1ti

β1 =

∑ t y − (∑ t )(∑ y )/ n ∑ t − (∑ t ) / n i

i

i

i

2

2 i

β 0 = y − β1 * t ,

i

ahol y =

∑y

i

n

és t =

∑t

i

n

Exponenciális egyenlet:

yˆ i = β 0 * β 1ti lg β 1 =

lg yˆ i = lg β 0 + t i ∗ lg β1 258

∑ t lg y − (∑ t )(∑ lg y )/ n ∑ t − (∑ t ) / n i

i

i

2 i

i

lg β 0 = lg y − lg β 1 * t ,

2

i

ahol lg y =

∑ lg y

i

n

A képletben szereplő betűk jelentése: Az előző magyarázó táblában szereplő betűjeleket nem ismételtük meg.

β0 =

β1 =

matematika: metszéspont az ytengelyen statisztika: lásd a szöveges magyarázat

matematika: a kapcsolatot kifejező tényező statisztika: lásd a szöveges magyarázat

n= a megfigyelések darabszáma

258

A logaritmikus átalakítással lineáris kapcsolathoz jutottunk, s értelemszerűen alkalmazhatjuk a már ismert képleteket.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



296



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



297



A lineáris egyenlet β 1 paramétere az átlagos abszolút változással azonos tartalmú adat, kifejezi a vizsgált jelenség időegységre jutó állandó abszolút változását (Itt a szabályos egyenesre gondolunk.), de úgyis fogalmazhatunk: kifejezi a vizsgált jelenség időegységre jutó átlagos (Itt arra gondolunk, hogy a társadalmi-, gazdasági életben a jelenségek kisebb-nagyobb mértékben „hullámzanak”.)

abszolút változását. Legyen yˆ 1 =

β 0 + β1t1

és yˆ 2 =

β 0 + β1t 2 , valamint t 2 − t1 = 1 . Ebben az esetben:

yˆ 2 − yˆ 1 = β 1 . Ugyanerre a megoldásra jutunk a matematikából tanultak alapján. Lineáris egyenlet esetén, a vízszintes tengelyen egységnyit lépve, a függőleges tengelyen mindig az egyenlet meredekségének megfelelő nagyságú lépést kell megtennünk. Azaz egységnyi abszolút változáshoz (a független változóra – a trendszámításnál ezt a szerepet az idő tölti be – vonatkoztatva), állandó abszolútváltozás (a függő változóra – a trendszámításnál ezt a szerepet a megfigyelt jelenség adatai töltik be – vonatkoztatva) tartozik.

Az exponenciális egyenlet β 1 paramétere az átlagos relatív változással azonos tartalmú adat, kifejezi a vizsgált jelenség időegységre jutó állandó relatív változását (Itt a szabályos görbére gondolunk.), de úgyis fogalmazhatunk: kifejezi a vizsgált jelenség időegységre jutó átlagos (Itt arra gondolunk, – ahogy a lineáris egyenlet esetében is – hogy a társadalmi-, gazdasági életben a jelenségek alakulása kisebb-nagyobb „kilengéseket” mutat.) relatív változását. Legyen yˆ 1 =

β0 * β t

1

1

és yˆ 2 =

β0 * β t 1

2

, valamint t 2 − t1 = 1 . Ebben az esetben:

yˆ 2 / yˆ 1 = β 1 . Exponenciális egyenlet esetén, a vízszintes tengelyen egységnyit lépve, a függőleges tengelyen szereplő adat mindig annyiszorosára változik, ahogy azt az egyenlet x-hez tartozó paramétere mutatja. Azaz egységnyi abszolút változáshoz (a független változóra – a trendszámításnál ezt a szerepet az idő tölti be – vonatkoztatva), állandó relatívváltozás (a függő változóra – a trendszámításnál ezt a szerepet a megfigyelt jelenség adatai töltik be – vonatkoztatva) tartozik.

A β 0 paraméter jelentése a lineáris és az exponenciális egyenlet esetén azonos, a megfigyelés előtti utolsó időpont trendadata.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



297



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Legyen

Vissza



298



ti = 0 , és helyettesítsük be ezt az értéket mindkét egyenletbe!

Ekkor yˆ 0 =

β 0 + β1t10 = β 0

0 ill. yˆ 0 = β 0 * β 1 =

β0 .

De eszünkben juthat az is,

amit matematikából tanultunk. Mind a lineáris, mind az exponenciális egyenlet

β 0 259

paramétere az y –tengelyen vett metszéspontot jelenti. Abban a pontban pedig x = 0 .

BEMUTATÓ PÉLDA I. A következőkben a Magyarországon forgalomban lévő személygépkocsik darabszámára vonatkozó adatokat260 elemezzük a trendszámítás módszerével. Először lineáris, majd exponenciális trendet is számítunk. A számításokat EXCEL programmal végeztük. Az eredményeket a program kerekítette egy tizedesre, de a számítások az összes tizedest megtartva történtek.

lineáris trend 12.1. sz. tábla év

yi

ti

t i2

t i ∗ yi

yˆ i

ei2

1989

1.732,4

1

1

1.732,4

1.879,7

21.693,6

1990

1.944,6

2

4

3.889,2

1.930,2

207,3

1991

2.015,5

3

9

6.046,5

1.980,7

1.209,7

1992

2.058,3

4

16

8.233,2

2.031,2

732,5

1993

2.091,6

5

25

10.458,0

2.081,8

97,0

1994

2.176,9

6

36

13.061,4

2.132,3

1.992,0

1995

2.245,4

7

49

15.717,8

2.182,8

3.920,8

1996

2.254,2

8

64

18.033,6

2.233,3

436,8

1997

2.297,1

9

81

20.673,9

2.283,8

176,45

1998

2.340,0

10

100

23.400,0

2.334,3

32,1

1999

2.382,9

11

121

26.211,9

2.384,8

3,8

259

Lehet, hogy a matematika tanulmányaik során más betűjelekkel operáltak. Arról a paraméterről van szó, amelyik független az x adattól. 260 Magyar statisztikai évkönyv 2003 (KSH – 2004. 19. old., kiemelés, ill. a KSH metodika váltása miatt az utolsó évek közölt adatait korrigáltuk.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



298



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



299

2000

2.425,8

12

144

29.109,6

2.435,4

91,5

2001

2.468,7

13

169

32.093,1

2.485,9

295,2

2002

2.511,6

14

196

35.162,4

2.536,4

614,9

2003

2.554,5

15

225

38.317,5

2.586,9

1.050,6

összesen 33.499,5

120

1240

282.140,5 33.499,5

átlag

8

2.233,3



32.554,1

Megjegyzések a 12.1. sz. táblához: •

• •

• • •

A megfigyelt adatok állapot idősort alkotnak, ennek ellenére számtani átlagot (33.499,5 / 15 = 2.233,3) számítottuk → ez szerepel a tábla utolsó sorában. A trendszámítás során ui. nem teszünk különbséget a különböző jellegű idősorok között. A t i − adatok átlaga – ahogy a közölt képletből is látható – egyszerű számtani átlag (120 / 15 = 8). Jelentése nincs. A tábla összesen sorában szereplő adatok egyikének sincs statisztikai jelentése. (A megfigyelt adatok ill. a trendadatok összege, ha tartam idősort elemeznénk jelentéssel bíró adat lenne.)

∑ y = ∑ yˆ i

i

, és ez az egyenlőség minden esetben fennáll.

Az utolsó oszlopban szereplő adat számításának okát hamarosan ismertetjük. A trendadatok (= az egyenesre illeszkedő adatok) is statisztikai jelentéssel bíró adatok. A szürke háttérrel, vastagabb vonallal jelzett 2536,4 = ♥Ha a Magyarországon forgalomban lévő személygépkocsik darabszáma szabályosan a lineáris egyenlet szerint alakult volna, akkor 2002-ben ≅2.536.400 gépkocsit számolhattunk volna össze.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



299



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

300



A Magyarországon forgalomban lévő személygépkocsik száma (1989 - 2003)

g é p k o c s i ( m illió d b )

3000 2500 2000 1500 1000 500 0 0

5

10

15

20

évek

12.1.1. sz. ábra: megfigyelt adatok261 A Magyarországon forgalom ban lévő szem élygépkocsik szám a (1989 - 2003) y = 50,514x + 1829,2

gépkocsi (millió db)

3000 2500 2000 1500 1000 500 0 0

5

10

15

20

évek

12.1.2. sz. ábra: a lineáris trend adatai

261 A megfigyelt és a számított adatokat általában egyetlen ábrán szokás feltüntetni, de ebben az esetben olyan mértékű az egybeesés, hogy a közös ábrán nem látnánk elkülönülni a pontokat (= megfigyelés) és az egyenest (= számítás). Hasonlóképpen jártunk el az exponenciális egyenletnél is. (Lásd: 12.2.1. és 12.2.2. sz. ábrák.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



300



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

301



A lineáris egyenlet paramétereinek számítása:

β1 =

282140,5 − 120 ∗ 33499,5 / 15 = 50,511607 ≅ 50,5 ezer db 1240 − 120 2 / 15

β 0 = 2233,3 − 8 ∗ 50,511607 = 1829,171 ≅ 1829,2 ezer db A lineáris egyenlet:

yˆ i = 1829,2 + 50,5t i (ezer db) A lineáris egyenlet paramétereinek jelentése: ♥ β 0 ≅ 1829,2 → Ha a Magyarországon forgalomban lévő személygépkocsik száma szabályosan a lineáris trend szerint alakult volna, akkor 1989-ben 1.829.200 db gépkocsi szerepelt volna a nyilvántartásban (és a KSH adatai között). ♥ β1 ≅ 50,5 → Ha a Magyarországon forgalomban lévő személygépkocsik száma szabályosan a lineáris trend szerint alakult volna, akkor évről évre 50.500 darabbal emelkedett volna az állomány, és ha a befolyásoló tényezők nem változnak meg jelentősen, akkor az elkövetkező években is ekkora abszolút változás várható. Vagy így is fogalmazhatunk: a magyarországi személygépkocsi állomány évente átlagosan 50.500 darabbal növekedett a vizsgált időszakban. BEMUTATÓ PÉLDA II. exponenciális trend 12.2. sz. tábla év

yi

ti

t i2

lg yi

t i ∗ lg yi

yˆ i

ei2

1989

1.732,4

1

1

3,23865

3,23865

1.889,2

24.587,4

1990

1.944,6

2

4

3,28883

6,57766

1.933,5

124,1

1991

2.015,5

3

9

3,30438

9,91315

1.978,7

1.350,7

1992

2.058,3

4

16

3,31351

13,25403

2.025,1

1.102,2

1993

2.091,6

5

25

3,32048

16,60239

2.072,5

363,4

1994

2.176,9

6

36

3,33784

20,02703

2.121,1

3.115,1

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



301



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



302



1995

2.245,4

7

49

3,35129

23,45906

2.170,8

5.569,2

1996

2.254,2

8

64

3,35299

26,82394

2.221,6

1.061,3

1997

2.297,1

9

81

3,36118

30,25062

2.273,7

549,3

1998

2.340,0

10

100

3,36922

33,69216

2.326,9

171,0

1999

2.382,9

11

121

3,37711

37,14816

2.381,4

2,2

2000

2.425,8

12

144

3,38485

40,61826 2.437,2

130,3

2001

2.468,7

13

169

3,39247

44,10209

2.494,3

655,7

2002

2.511,6

14

196

3,39995

47,59931

2.552,7

1.692,2

2003

2.554,5

15

225

3,40731

51,10959

2.612,5

3.367,8

1240

50,20005 404,41610 33.491,3 43.841,9

összesen 33.499,5 120 átlag

2.233,3

8

3,34667

Megjegyzések a 12.2. sz. táblához: • •

Azokat a megjegyzéseket, melyek azonosak lennének a 12.1. sz. táblánál leírtakkal, nem ismételjük. A megfigyelt adatok logaritmusainak átlagát számtani átlagként számítjuk, statisztikai jelentése nincs.



∑ y ≅ ∑ yˆ



kétszeri logritmikus átalakítás miatt rendszerint nagyobb, mint amit a lineáris egyenlet számítása során tapasztalunk.) Az yˆ i jelölt trendadatoknak is van jelentése (és nemcsak ebben a feladatban). Pl.:

i

i

, és ez az összefüggés minden esetben fennáll. (Bár az eltérés a

2.437,2 ezer db (szürke háttérrel és vastagabb betűvel jeleztük a 12.2. sz. táblában) = ♥ Ha a magyarországi személygépkocsik állománya szabályosan az exponenciális trend szerint alakult volna, akkor 2000-ben 2.437.200 db gépkocsit számlálhattunk volna meg.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



302



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

303



A Magyarországon forgalomban lévő személygépkocsik száma (1989 - 2003)

g é p k o c s i ( m illió d b )

3000 2500 2000 1500 1000 500 0 0

5

10

15

20

évek

12.2.1. sz. ábra (ua.12.1.1.): megfigyelt adatok A Magyarországon forgalom ban lévő szem élygépkocsik szám a (1989 - 2003) y = 1846e0,0232x

gépkocsi (millió db)

3000 2500 2000 1500 1000 500 0 0

5

10

15

20

évek

12.2.2. sz. ábra: az exponenciális trend adatai262

262

Ahogy már többször jeleztük, a számításokat az EXCEL-programmal végeztük, és ez az exponenciális egyenlet β1 paraméterét természetes alapú logaritmussal számolja, ezért

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



303



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



304



Az exponenciális trend paramétereinek számítása:

404,41610 − 120 ∗ 50,20005 / 15 = 0,010056 → β1 ≅ 1,0234 ↓ 1240 − 120 2 / 15 102,34% → +2,34% / év lg β 0 = 3,34667 − 8 ∗ 0,010056 = 3,266223 → β 0 ≅ 1846 ezer db

lg β1 =

Az exponenciális trendegyenlet:

yˆ i = 1846 ∗1,0234 ti (ezer db) Az exponenciális trendegyenlet paramétereinek jelentése: ♥ β 0 ≅ 1846 → Ha a Magyarországon forgalomban lévő személygépkocsik száma szabályosan az exponenciális trend szerint alakult volna, akkor 1989-ben 1.846.000 db gépkocsi szerepelt volna a nyilvántartásban (és a KSH adatai között). ♥ β1 ≅ 1,0234 → Ha a Magyarországon forgalomban lévő személygépkocsik száma szabályosan az exponenciális trend szerint alakult volna, akkor évről évre 2,34 %-kal emelkedett volna az állomány, és ha a befolyásoló tényezők nem változnak meg jelentősen, akkor az elkövetkező években is ekkora abszolút változás várható. Vagy így is fogalmazhatunk: a magyarországi személygépkocsi állomány átlagos növekedési üteme a vizsgált időszakban 2,34 %. Állítsuk egymás mellé a kétféle trendszámítás eredményeit! 12.3. sz. tábla év

1989

1990

**

1732,4

1944,6

lin.

1879,7

exp.

1889,2

1996

1997

2002

2003

2511,6

2554,5

összesen 33499,5

2297,1

1930,2

… 2254,2 2233,3

2283,8

2536,4

2586,9

33499,5

1933,5

2221,6

2273,7

2552,7

2612,5

33491,3



** megfigyelt adat

lát más adatot az ábrára íratva. (A kitevő függvényt alkalmazva megkapjuk az általunk kiszámított β1 adatot.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



304



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az idősorok elemezése Vissza



305



Megfigyelhetjük, hogy az egyes évekre vonatkozó tény- (= gyűjtött) és trendadatok kisebb-nagyobb mértékben eltérnek egymástól. Ennek egyik oka, hogy a megfigyelt adatok nagyságát nemcsak az alapirányzat befolyásolja. (Ezért nem azonosak a megfigyelt és a trendadatok.) A másik ok, hogy a változást a két számítás során nem azonos jellegűnek feltételeztük. Az eltérést látva felmerül a kérdés, melyik egyenlettípus írja le jobban a vizsgált jelenség, jelen esetben a magyarországi személygépkocsi állomány időbeli alakulását. A kérdésre ugyanazzal a módszerrel – a legkisebb négyzetek módszerével – adhatjuk meg a választ, amivel az elvileg lehetséges megoldások közül a legjobb lineáris ill. e legjobb exponenciális egyenletet kiválasztottuk. A döntéshez szükséges adat a szerepel a 12.1. sz. és a 12.2. sz. táblák utolsó oszlopában ei2 jelöléssel. Az elvégzett számítások alapján, a lineáris egyenlet írja jobban a vizsgált változást. (lineáris ∑ e i2 = 32554,1 〈 exponenciális ∑ e i2 = 43841,9) A két (esetleg több) egyenlettípus közötti döntést azért fontos, mert az egyenleteket a múltban lezajló társadalmi-, gazdasági folyamatok jobb megismerésére, és ezáltal a jövőre vonatkozó mind tökéletesebb tervek elkészítésére akarjuk felhasználni. Az előrejelzésnek természetesen szigorú szabályai vannak. Ezek közül az egyik legfontosabb, hogy nem elég egy-egy gazdasági jelenséget önmagában megfigyelni, és alakulását leírni. Elemezni kell a jelenséget befolyásoló tényezőket is, különösen azt, hogy azokban a közeljövőben várhatóak-e lényeges változások, ha igen, akkor az előrejelzés lehetősége esetleg meghiúsul, vagy az elsődleges számítási eredményeket korrigálni kell stb. 12.2.2. Mozgóátlagolású trendszámítás

Az időben változó jelenségekben megmutatkozó alapirányzat kimutatásának másik lehetséges módszere a mozgóátlagolás. A mozgóátlagolás alapvető problémája a tagszám (= k ) meghatározása. A tagszámot úgy kell megválasztani, hogy az idősorban megmutatkozó hullámzás eltűnjön, vagyis a tagszám egy teljes periódust átfogjon. Egy teljes periódusban mindig vannak visszaesést ill. kiugrást mutató időszakok, és ezek rendszeresen ismétlődnek. Az ismétlődés ritmusát megtalálni olyan idősorok esetén, melyek évekre vonatkozó adatokból állnak elég nehéz és hosszadalmas feladat, ezért mi is olyan idősort esetén mutatjuk be a módszert, ahol a periódus egy év hosszúságú. A levélpostai küldemények idősorát fogjuk elemezni. Ez azonban nem jelenti azt, hogy a mozgóátlagolás ne lenne alkalmazható bonyolultabb esetekben is.263 263

Gyakori hallgatói tévedés: hónapokra (negyedévekre stb.) vonatkozó adatokból „csak” mozgóátlagolással mutatható ki az alapirányzat; ill. az évekre vonatkozó adatokból „csak” analitikus trendszámítással.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



305



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az idősorok elemezése Vissza



306



A mozgóátlagolás lényege a hullámzás eltüntetésével az alapirányzat kimutatása. E feladat megoldásának menete:

• • • •

a tagszám (k ) megállapítása, a mozgóösszege kiszámítása, a mozgóátlagok meghatározása, (szükség esetén) centrírozás.

A mozgóösszeg számítása során először a tagszámnak megfelelő első k adatot adjuk össze, az összeget feljegyezzük, majd elhagyva az idősor első adatát ismét k adatot összegzünk. (Most az összeadás első eleme az idősor második adata, utolsó eleme pedig az idősor (k + 1) -dik eleme.) És így tovább. Abban az esetben, ha k = páratlan szám (van középső időpont), akkor az összeget a középső időpont mellé írjuk; ha k = páros szám (nincs középső időpont), akkor az összeget a két „középső” időpont közé írjuk. (Az adat „lóg a levegőben".) A mozgóátlagolás a mozgóösszegeknek a tagszámmal való osztását jelenti. (Lényegében egyszerű számtani átlagokat számítunk.) Ezek az átlagszámok abban az esetben, ha k = páratlan szám, a keresett trendadatokat jelentik. Ha azonban a k = páros szám, akkor az átlagok sem tartoznak időponthoz, ez lehetetlenné teszi az eredeti és a számított adatok összehasonlítását. A probléma megoldását a centrírozás, a középre igazítás jelenti. Ez tulajdonképpen egy újabb mozgóátlagolás, ahol a tagszám mindig kettő. Tehát páros tagszám esetén a centrírozott adatok jelentik a trendértékeket. A mozgóátlagolású trendszámításnak, mint módszernek a statisztikai gyakorlat szempontjából előnyei és hátrányai is vannak. Egyik hátránya, hogy a trendadatok sora kevesebb elemből áll, mint a megfigyelt adatok sora. Ezt a jelenséget nevezzük adatvesztésnek. Emiatt, bár egyes szerzők ajánlják, nagyon megfontolandó, hogy tagszám egészszámú többszöröseit használjuk az átlagok (= a trendadatok) kiszámítására. Fontos tudni, hogy ha a tagszám páratlan, akkor (k − 1) , ha pedig páros, akkor éppen (k ) adatot vesztünk. Az adatvesztés egyik fele az idősor elején, másik fele pedig az idősor végén jelentkezik. Másik hátránya, hogy eredményül nem egyenletet kapunk, azaz a változás abszolút vagy relatív nagyságát nem tudjuk egyetlen adattal jellemezni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



306



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



307



Ezen a gondon sokszor úgy segítenek, hogy a mozgóátlagokból trendegyenletet számítanak. Harmadik hátrányos tulajdonsága, hogy alkalmazásával sokkal bonyolultabbá válik az előrejelzés, (amihez az átlagos abszolút- ill. relatívváltozást ismerete szükséges). Természetesen, ha a mozgóátlagokból kiszámítottuk az előbbiekben említett egyenletet, akkor ez a gond is megoldódik. Kétségtelen előnye, hogy alkalmazása kevesebb matematikai ismeretet követel, ill. segédeszközök (zsebszámológép, személyi számítógép stb.) hiányában is könnyen megkapjuk a trendértékeket. Bár ez sem elhanyagolható, ennél fontosabb, hogy a trendadatok nagyságát mindig csak a környezetükben lévő megfigyelt adatok befolyásolják. Különösen igen hosszú idősorok esetén lényeges ez a szempont. Például egy család jelenlegi és az elkövetkező néhány hónapra várható húsfogyasztását nagyon kevéssé – sőt talán mondhatjuk azt is, hogy egyáltalán nem – befolyásolja a 10 évvel ezelőtti húsfogyasztása.

BEMUTATÓ PÉLDA A kapuvári postahivatal levélforgalmi adatai 2001 – 2005 havi bontásban, (db)

12.4.sz. tábla évek 2001. jan. 17.603 febr. 12.864 márc. 15.781 ápr. 18.570 máj. 14.973 jún. 12.632 júl. 13.811 aug. 15.869 szept. 12.994 okt. 15.636 nov. 13.944 dec. 28.418 összesen 193.095 hónapok

2002. 17.695 14.980 22.697 15.691 16.414 18.176 16.245 16.200 15.924 17.902 14912 27.703 214.539

2003. 15.848 14.530 12.866 17.665 12.492 12.265 14.548 11.261 14.859 15.864 12.583 25.893 180.674

A dokumentum használata | Tartalomjegyzék | Táblázatok

2004. 18.145 13.019 15.202 16.393 14.274 16.470 13.500 13.461 13.190 13.480 13.495 17.713 178.342

2005. 13.004 12.425 15.085 12.814 13.349 12.588 15.391 14.054 14.182 13.865 16.249 19.141 172.147

Vissza



307



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



308



Ha a 12.4. sz. tábla adatain végignézve kétféle következtetést tudunk levonni. Szeptember és november hónapokat kivéve a 2005 egyes hónapjainak levélforgalma alacsonyabb, mint 2001 azonos hónapjainak forgalma; vagyis az idősorban megmutatkozó alapirányzat = csökkenés. Erre enged következtetni az is, hogy az éves forgalmi adatok is egyre kisebbek. (Lásd: összesen sor.) Ha egy-egy éven belül hasonlítjuk össze a havi forgalmi adatokat, akkor pedig azt tapasztaljuk, hogy a februárban a januárinál mindig alacsonyabb a forgalom; majd egyes években már márciusban, más években pedig csak áprilisban újra magas adatokat látunk. Az újabb visszaesést egy nyári növekedés, majd decemberben egy kiugrás követi; vagyis a forgalomban szezonális ingadozást is megfigyelhetünk. A 12.4. sz. tábla adatai alapján leírt megfigyeléseinket a 12.3. sz. ábra jól szemlélteti. 12.3. sz. ábra Kapuvár levélforgalmi adatai 2001 - 2005 30000

levélforgalom (db)

25000 20000

Adatsor1

15000 10000 5000 0 0

10

20

30

40

50

60

70

évek / hónapok

Az idősorra jellemző alapirányzatot most (először) mozgóátlagolással határozzuk meg. A 12.5. sz. tábla az ehhez szükséges munkatábla.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



308



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



309



12.5. sz. tábla levél év

2001

2002

Hónap yij

centrirozott mozgó öszeg mozgóátlag adat

yˆ ij

jan. febr. márc. ápr. máj.

(db) 17.603 12.864 15.781 18.570 14.973

jún. júl. aug. szept. okt. nov. dec. jan. febr. márc. ápr. máj.

12.632 193.095 13.811 193.187 15869 195.303 12.994 202.219 15.636 199.340 13.944 200.781 28.418 206.325 17.695 208.759 14.980 209.090 22.697 212.020 15.691 214.286 16.414 215.254

16.091,25 16.098,92 16.275,25 16.851,58 16.611,67 16.731,75 17.193,75 17.396,58 17.424,17 17.668,33 17.857,17 17.937,83

– 16.095 16.187 16.563 16.732 16.672 16.963 17.295 17.410 17.546 17.763 17.898

jún. júl. aug. szept. okt. nov. dec. 2003 jan. febr. márc. ápr.

18.176 214.539 16.245 212.692 16.200 212.242 15.924 202.411 17.902 204.385 14.912 200.463 27.703 194.552 15.848 192.855 14.530 187.916 12.866 186.851 17.665 184.813

17.878,25 17.724,33 17.686,83 16.867,58 17.032,08 16.705,25 16.212,67 16.071,25 15.659,67 15.570,92 15.401,08

17.908 17.801 17.706 17.277 16.950 16.869 16.459 16.142 15.865 15.615 15.486

A dokumentum használata | Tartalomjegyzék | Táblázatok

– – – – –

Vissza



309



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

2004

2005

Vissza



máj. jún. júl. aug. szept. okt. nov. dec. jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. jan. febr. márc. ápr. máj.

12.492 182.484 12.265 180.674 14.548 182.971 11.261 181.460 14.859 183.796 15.864 182.524 12.583 184.306 25.893 188.511 18.145 187.463 13.019 189.663 15.202 187.994 16.393 185.610 14.274 186.522 16.470 178.342 13.500 173.201 13.461 172.607 13.190 172.490 13.480 168.911 13.495 167.986 17.713 164.104 13.004 165.995 12.425 166.588 15.085 167.580 12.814 167.965 13.349 170.719

15.207,00 15.056,17 15.247,58 15.121,67 15.316,33 15.210,33 15.358,83 15.709,25 15.621,92 15.805,25 15.666,17 15.467,50 15.543,50 14.861,83 14.433,42 14.383,92 14.374,17 14.075,92 13.998,83 13.675,33 13.832,92 13.882,33 1.3.965,00 13.997,08 14.226,58

15.304 15.132 15.152 15.185 15.219 15.263 15.285 15.534 15.666 15.714 15.736 15.567 15.506 15.203 14.648 14.409 14.379 14.225 14.037 13.837 13.754 13.858 13.924 13.981 14.112

jún.

12.588 172.147

14.345,58

14.286

júl. aug. szept. okt. nov. dec.

15.391 14.054 14.182 13.865 16.249 19.141

A dokumentum használata | Tartalomjegyzék | Táblázatok

310



310



– – – – – –

Vissza



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

311



Megjegyzések a 12.5.sz. táblához: •



• •

A mozgóösszegek és a mozgóátlagok oszlopok adatai nem taroznak egyik időponthoz sem. Ezt úgy szokás bemutatni, hogy az adatok két sor között szerepelnek, táblánk azonban így nagyon terjedelmessé válna, ezért a rácsozat elhagyásával érzékeltetjük ezt a tény. Néhány mozgóösszeg = tény adat, egy–egy év teljes levélforgalmát mutatja, (Ezeket vastagabb betűvel kiemeltük.) bár tulajdonképpen az oszlop minden további adata éves forgalmi adat, csak ezek az „évek” nem januárral kezdődnek. Egy mozgóösszegre (200.781) vonatkozóan – a könnyebb megértés érdekében – hármas-vonallal bekereteztük azokat az adatokat, melyeket össze kellett adnunk. A centrírozott adatok (= trendadatok) a megfigyelt adatokhoz hasonlóan egy-egy időpontra vonatkoznak, és jelentéssel bírnak. Pl.: (szürke háttérrel, kerettel, vastagabb betűvel) ♥ Ha a kapuvári posta levélforgalmában nem mutatkozna szezonális ingadozás, akkor az alapirányzatnak (= csökkenés) megfelelően 2005. júniusában 14.286 levelet vettek volna föl.

A 12.4. és a 12.5.sz. ábrák jól szemléltetik a kétféle trendszámítási módszer különbségét. A mozgóátlagolás adatai nem folyamatos csökkenést jeleznek, a lineáris trend egyenese viszont állandónak mutatják azt. 12.4. sz. ábra Kapuvár levélforgalmi adatai 2001 - 2005 30000

levélforgalom (db)

25000 20000 15000 10000 5000 0 0

10

20

30

40

50

60

70

évek / hónapok

az ugrálást mutató vonal = megfigyelt adatok a kisebb hullámzást mutató vonal = mozgóátlagolással számított trendadatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



311



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



312



12.5. sz. ábra Kapuvár levélforgalmi adatai 2001 - 2005

y = -42,411x + 16940 30000

levélforgalom (db)

25000 20000 15000 10000 5000 0 0

10

20

30

40

50

60

70

évek / hónapok

az ugrálást mutató vonal = megfigyelt adatok az összefüggő egyenes vonal = az EXCEL programmal meghatározott lineáris trend 12.3. A szezonhatás vizsgálata A szezonhatás rendszeresen – egy évnél rövidebb időközönként – viszszatérő hatás. Ahogy a bevezetőben említettük, kapcsolódhat például az időjárás változásához, egyes ünnepekhez, törvényi előírásokhoz stb. Nagyságának vagy mértékének ill. jellegének (= a trendtől való eltérés előjele) kimutatásához a megfigyelt (= tény) és a számított (= alapirányzat) adatok összehasonlítására van szükségünk. Ha a két adat különbségét ( yij − yˆ ij )

képezzük, akkor eredményül szezonális eltéréseket (s j ) ; ha azonban a

két adat hányadosát ( yij / yˆ ij ), akkor szezonindexeket (s ∗j ) kapunk. A szezonális eltérések ill. a szezonindexek számításához a különbségeket ill. a hányadosokat egy speciális munkatáblába szokás rendezni. A munkatáblák oldalrovata tartalmazza az egymást követő periódusok elnevezését. Ezeknek a sorszámát adjuk meg y futóindexének i -betűjével (i = 1,2,3...n ) . A munkatáblák fejlécébe pedig a perióduson belüli szezonok (= azonos jellegű eltérést mutató időpontok, időszakok) megnevezé-

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



312



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



313



sét írjuk. Ezeknek a sorszámát adjuk meg y futóindexének j -betűjével ( j = 1,2,3...k ) . Így egymás alá kerülnek az azonos jellegű szezonokra számított különbségek vagy hányadosok. Ezekről látni fogjuk, hogy – általában – kisebb-nagyobb mértékben eltérnek egymástól. Ennek oka, az idősor harmadik összetevőjének, a véletlenhatásnak a jelenléte. Ezt az eltérést átlagolással szűrhetjük ki, azaz a táblában egymás alatt sorakozó, tehát azonos jellegű szezonhoz tartozó adatokat összegezzük, majd darabszámukkal elosztjuk (= egyszerű számtani átlagot számítunk). Az előzőekben leírt átlagszámítással kapcsolatban két fontos megjegyzésünk van.



Az osztóba n (= a megfigyelt periódusok száma) csak akkor kerülhet, ha a tényadatokból egyenletet számítottunk, tehát nincs adatvesztés, és így a két adatsor azonos elemszámú, azaz minden időponthoz tartozóan van kisebbítendőnk (vagy osztandónk) ill. kivonandónk (vagy osztónk). Ha azonban a trendértékeket mozgóátlagolással határoztuk meg, azaz van adatvesztés, akkor az átlagoláskor az osztóban (n − 1) fog szerepelni.



A szezonindexek esetén – elméleti megfontolások alapján – lehetséges az egyszerű számtani átlag helyett a hányadosok mértani átlagát számítani. Ez azonban már feltétlenül szükségessé teszi valamilyen segédeszköz használatát. (Ki tud úgymond „fejben” pl. tizedik gyököt vonni?)

Az átlagolással kiszámított szezonális eltéréseket ill. szezonindexeket szokás még korrigálni annak érdekében, hogy a különbségek összege nulla (∑ s j = 0) , ill., hogy az indexek átlaga együtthatós formában egy egész (százalékos formában 100) legyen. Gondoljon arra, hogy

∑y

ij

= ∑ yˆ ij ! Azaz, amennyivel magasabb (átlagosan) az egyik

adat a szezon hatására, annyival alacsonyabbnak (átlagosan) kell lennie a másik adatnak. Ha pedig képezzük a kiszámított indexek (%) és a 100 % (= nincs eltérés) különbségét és ezeket összegezzük, akkor nullát kell kapnunk. (∑ s ∗j − 100 ) = 0

A korrigálás szezonális eltérés esetén úgy történik, hogy minden még korrigálatlan adathoz (a szezonra számított átlagos eltéréshez) hozzáadjuk a korrekciós tényezőt, szezonindex esetén pedig minden korrigálatlan adatot (a szezonra számított átlagos hányadost) elosztunk a korrekciós tényezővel. Ezek (k j ill. k ∗j ) számítása mindkét esetben azonos módon történik. A még korrigálatlan átlagokat összeadjuk, majd az összeget elosztjuk a szezonok számával. A korrekciós tényezőnek szezonális eltérés esetén előjele is van. Ha az átlagok összege nagyobb nullánál, akkor negatív, ha pedig az átlagok összege kisebb nullánál, akkor pozitív. (Gondoljon arra, mindig a nulla irányába kell elmozdulni!)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



313



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



314



A szezonális eltérések azt fejezik ki, hogy különböző rendszeresen ismétlődő hatások következtében az egyes szezonokban átlagosan mennyivel tér el a tényadat a trendértéktől, azaz mennyivel (hány Ft-tal, darabbal stb.) kisebb vagy nagyobb annál. A szezonindexek pedig ugyanezt százalékos formában adják meg. (Legalábbis megfogalmazni mindig ilyen formában – és nem a számítás közvetlen eredményeként kapott együtthatós formában – egyszerűbb jelentésüket.) Az eddig elmondottak képletszerűen:

• szezonális eltérés: sj =

∑ (y

− yˆ ij )

ij

n

+ k j , ahol k j =

∑s

j

k

(Fontos: adatvesztés esetén a nevezőben: (n-1) szerepel.)

• szezonindex: s ∗j =

∑ (y

ij

n

/ yˆ ij )

/ k ∗j . , ahol k j =

∑s

∗ j

k

(Fontos: adatvesztés esetén a nevezőben: (n-1) szerepel.)

BEMUTATÓ PÉLDA A kapuvári levélforgalomra vonatkozó adatokkal dolgozunk tovább, a mozgóátlagolás trendadatait felhasználva. Először szezonális eltérést számítottunk. Ennek érdekében meghatároztuk a megfigyelt és a trendadatok különbségét (= yij − yˆ ij ) , majd berendeztük azokat a 13.6. sz. táblába, ahol az azonos szezonokra vonatkozó adatok egy-egy oszlopba egymás alá kerültek. Ezután elvégeztük az átlagolást és a szükséges korrigálást. 12.6.a) sz. tábla hó → év↓

jan.

febr.

márc.

ápr.

máj.

jún.

2001













2002

400

-2.430

5151

-2072

-1.484

-1.556

2003

-294

-1.335

-2.749

2.179

-2.812

-2.867

2004

2.479

-2.695

-534

826

-1.232

1.267

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



314



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

2005 össz.

-750 1.835

-1.433 -7.893

1.161

Vissza

-1.167

3.029

-234

-763



315



-1.698

-6.290

-4.854

átlag

458,79

-1.973,26

757,27

-58,40

-1.572,47

-1.213,41

korrigált átlagok

551

-1.881

850

34

-1.480

-1.121

nov.

dec.

12.6.b) sz. tábla hó → év↓

júl.

aug.

szept.

okt.

2001

-2.284

-318

-3.569

-1.096

-2.728

11.455

2002

-1.556

-1.506

-1.353

952

-1.957

11.244

2003

-604

-3.924

-360

601

-2.702

10.359

2004

-1.148

-948

-1.189

-745

-542

3.876

2005













össz.

-5.592

-6.695

-6.472

-288

-7928

36.934

átlag

-1.397,97

-1.673,74

-1.617,92

-71,9583

-1.982,08

9.233,54

korrigált átlagok

-1.305

-1.581

-1.525

21

-1.889

9.326

Magyarázatok és megjegyzések a 12.6. a) és b) sz. táblához: • • • • • • •

A számításokat az EXCEL-programmal végeztük. A program az összes tizedest megtartva (ami itt nem is látszik) dolgozott. A táblát terjedelme miatt helyeztük el kettéosztva. Az első kiemelt adat (2002. jan.) számítása:

y 2,1 − yˆ 2,1 = 17695 − 17295 = 400 (A tábla valamennyi belső adatát (400 –tól 3.876-ig) azonos módon számítottuk ki.) 2001 első hat, ill. 2005 utolsó hat hónapjában az adatvesztés miatt nincsenek különbség adatok. Az oszlopok adatainak összegzése az előjelek figyelembevételével történt, és történik mindig. Az oszlopok adatainak átlagolása során – az adatvesztés miatt – néggyel osztottunk. Pl.: május: − 7.928 / 4 = −1.982 (Az átlag a rovatban 1982,08 szerepel – ahogy utaltunk is rá – a háttérben lévő tizedesek miatt.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



315



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza



316



A korrekciós tényező számítása:

458,79 + (−1.973,26) + ... + (−1.982,08) + 9.233,54 ≅ −92,6337 12 •

A korrekciós tényező előjele mutatja, hogy pozitív irányban kell elmozdulni annak érdekében, hogy az átlagok összege nulla legyen. Pl. júliusban:

− 1.397,97 + 92,6337 ≅ −1.305 A szezonális eltérések alapján az év hónapjait három csoportba oszthatjuk. Vannak hónapok, amikor gyakorlatilag az alapirányzat érvényesül: április és október. (A 34 és a 21 db levélnyi eltérés sokkal inkább a véletlen, mint valamilyen visszatérő és rendszeres hatás.) Az alapirányzathoz képest kevesebb levelet adtak föl az ügyfelek februárban, májusban, júniusban, júliusban, augusztusban, szeptemberben és novemberben. A legnagyobb negatív eltérés februárban és novemberben figyelhető meg. (A nyári hónapok negatív szezonális eltérései jól jelzik, hogy a város nem nyaralóhely és nem is idegenforgalmi célpont. Egy Balaton környéki postahivatal forgalmát vizsgálva, egészen biztos más eredményre jutottunk volna.) Az alapirányzatnál nagyobb forgalom jellemezte januárt, márciust és decembert. Ezek a pozitív eltérések részben az adófizetési határidőknek, részben a karácsonyi üdvözlőlap feladásoknak köszönthető. A legnagyobb pozitív eltérést decemberben tapasztaltuk, és ezt részletesebben így fogalmazhatjuk meg. ♥ Különböző rendszeresen ismétlődő hatások következtében decemberben a vizsgált postahivatal levélforgalma átlagosan 9.326 darabbal magasabb, mint ahogy arra az alapirányzat ismeretében számíthattunk. Bár egy-egy élesben zajló vizsgálat során általában nem kerül sor a szezonális ingadozás kétféle módszerrel való bemutatására, tankönyvünk – a szemléltetés kedvéért – ugyanezen adatok segítségével a szezonindex számítását is közli. Először ismét a megfigyelt és a trendadatok összehasonlítására került sor (= yij / yˆ ij ) , majd a hányadosokat a 12.7. sz. táblába rendeztük, ahol az azonos szezonhoz tartozó adatok egy-egy oszlopot alkotnak. Ezután elvégeztük az átlagolást és a szükséges korrigálást.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



316



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

317



12.7. a) sz. tábla hó → jan. év↓

febr.

márc.

ápr.

máj.

jún.

2001













2002

1,0231

0,8604

1,2936

0,8834

0,9171

1,0150

2003

0,9818

0,9158

0,8239

1,1407

0,8163

0,8106

2004

1,1583

0,8285

0,9661

1,0531

0,9206

1,0834

2005

0,9455

0,8966

1,0834

0,9165

0,9459

0,8811

összesen 4,1086

3,5014

4,1670

3,9937

3,5999

3,7900

átlag

0,875342 1,041745 0,998418 0,899972 0,947505

1,02716

korrigált 1,0321 átlagok eltérés

%

+3,21

0,8795

1,0467

1,0032

0,9043

0,9520

-12,05

+4,67

+0,32

-9,57

-4,8

12.7. b) sz. tábla hó → júl. év↓

aug.

szept.

okt.

nov.

dec.

2001

0,8581

0,9803

0,7845

0,9345

0,8364

1,6753

2002

0,9126

0,9150

0,9217

1,0562

0,8840

1,6832

2003

0,9601

0,7416

0,9763

1,0394

0,8232

1,6669

2004

0,9217

0,9342

0,9173

0,9476

0,9614

1,2801

2005













3,5711

3,5998

3,9777

3,5050

6,3054

összesen 3,6525 átlag

0,913115 0,892787 0,899957 0,994418 0,876251 1,57636

korrigált 0,9175 átlagok

0,8970

0,9043

0,9992

0,8804

1,5839

eltérés % -8,25

-10,3

-9,57

-0,08

-11,96

+58,39

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



317



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



318



Magyarázatok és megjegyzések a 12.7.sz.. táblához: • • •

. A táblát terjedelme miatt helyeztük el kettéosztva. A számításokat ismét az EXCEL-program segítségével végeztük. Az első kiemelt adat (2002. jan.) számítása:

• • •

(A tábla valamennyi belső adatát (1,0231 –tól 1,2801-ig) azonos módon számítottuk ki.) 2001 első hat, ill. 2005 utolsó hat hónapjában az adatvesztés miatt nincsenek hányados adatok. Az oszlopok adatainak átlagolása során – az adatvesztés miatt – néggyel osztottunk. Pl.: május: 3,79 / 4 = 0,9475



A korrekciós tényező számítása:

y2,1 / yˆ 2,1 = 17695 / 17295 = 1,0231

1,02716 + 0,875342 + ... + 0,876251 + 1,57636 ≅ 0,995252 12 •

A korrekciós tényezővel az átlag-sorban szereplő valamennyi adatot elosztottuk (a korrigálást minden estben így kell megoldanunk), majd kerekítettünk. Pl.: július

0,913115 / 0,995252 ≅ 0,9175 A 12.7. sz. tábla adatai alapján természetesen ugyanazokat a következtetéseket vonhatjuk le, mint előző (12.6. sz. tábla) számítások végén. Egy „furcsaságot” azonban megfigyelhetünk. Október hónapban (eltérő háttérrel kiemeltük) a szezonális eltérés pozitív, a szezonindex negatív = s ∗j ∗ 100 − 100% , ez azonban nem jelent ellentmondást. Már a korábbiakban jeleztük, októberben tulajdonképpen nincs is szezonhatás. A látszólag ellentmondó eredmény, a módszerek különbségéből adódik. Végül példaként ismét megfogalmazzuk az egyik szezonindex jelentését. ♥ Különböző rendszeresen ismétlődő hatások következtében decemberben a vizsgált postahivatal levélforgalma átlagosan ≅ 58 %-kal magasabb, mint ahogy arra az alapirányzat ismeretében számíthattunk.

(

)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



318



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



319



12.4. A véletlenhatás vizsgálata A véletlenhatás előre nem látható, nem tervezhető. Ahogy a bevezetőben is írtuk, oka mindig valamilyen társadalmi vagy gazdasági esemény.

v∗ v A véletlenhatást (különbség: ij ill. index: ij ) un. maradéktagként számíthatjuk ki. Tekintettel arra, hogy az idősorok összetevői – ezek az alapesetek – összegszerűen (= additív módon) ill. szorzatszerűen (= multiplikatív módon) kapcsolódhatnak, a még nem ismert véletlentagot kivonással ill. osztással határozhatjuk meg. •

Additív kapcsolat esetén:

yij = yˆ ij + s j + vij → vij = yij − yˆ ij − s j

= véletlen eltérés

• Multiplikatív kapcsolat esetén: ∗ yij = yˆ ij ∗ s ∗j ∗ v ∗ij → vij =

yij yˆ ij ∗ s ∗j

= véletlen index

A különbséggel megállapított véletlentagnak ugyanaz a mértékegysége, mint a tényadatnak és a trendadatnak, a hányadosként megállapított véletlentagnak pedig nincs mértékegysége (= együtthatós forma), ill. %-ká alakíthatjuk. A véletlen eltérés a különböző nem rendszeresen ismétlődő hatások abszolút nagyságát mutatja meg, ahhoz az adathoz képest, amit a trend- és a szezonhatás alapján vártunk, a véletlenindex ugyanezt %-os formában adja meg. Fontos tudnunk, és ezt a feladatok megoldása során ellenőrizni is kell, hogy a kiszámított véletlenhatások semmiféle szabályosságot nem mutathatnak, (sem előjelűk, sem abszolút nagyságuk nem lehet rendszeresen azonos az egyes szezonokra vonatkozóan). Ha mégis szabályszerűséget tapasztalunk, számításainkat meg kell ismételni, másféle módszerekkel. BEMUTATÓ PÉLDA A mozgóátlagolású trendszámítás bemutatásánál megkezdett és a szezonhatások számításával folytatott példánk adataival dolgozunk tovább. Meghatároztuk mind a véletlen eltéréseket (vij ) , mind a véletlen indexeket

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



319



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



320



(v ) . Számításainkból kiemeltük a 2002-re vonatkozó eredményeket, eze∗ ij

ket közöljük a 12.8. sz. táblában. 12.8. sz. tábla 2002

vij

vij∗

jan. febr. márc. ápr. máj.

-152 -550 4.301 -2.106 -4

0,9913 0,9783 1,2358 0,8806 1,0142

jún.

1.389

1,0661

júl. aug. szept. okt. nov. dec.

-251 76 172 931 -67 1.918

0,9947 1,0200 1,0193 1,0571 1,0041 1,0627

Példaként nézzük a júniusra vonatkozó véletlenhatások számítását és szöveges megfogalmazását!

v26 = 18176 − 17908 − (−1121) = 1389 db v2∗, 6 =

18176 ≅ 1,0661 → 106,61% → +6,61% 17908 ∗ 0,952

♥ Különböző nem rendszeresen ismétlődő hatások következtében 2002. júniusában a vizsgált postahivatal levélforgalma 1.389 darabbal (a másik módszer szerint 6,61 %-kal)magasabb volt, mint ahogy azt a megismert alapirányzat és a szezonhatás alapján vártuk. Fontos! Hasonlítsuk össze a szezonhatások és a véletlenhatások megfogalmazását!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



320



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Az idősorok elemezése Vissza



321



• A szezonhatások általában vonatkoznak egy-egy szezonra, ismétlődnek; a véletlenhatások konkrét dátumhoz kapcsolhatók. • A szezonhatások csak egy összetevőhöz (= alapirányzat), a véletlenhatások viszont két összetevőhöz (= alapirányzat + szezonhatás) hasonlított eltérést mutatnak. • Egyik adat megfogalmazásában sem szerepeltek (nem is szerepelhet!) a csökken, nő szavak, eltérésről szóltunk, írhattuk volna még pl.: júniusra vonatkozóan, hogy 1.389 darabbal több (magasabb) vagy januárra vonatkozóan, hogy 152 darabbal kevesebb (alacsonyabb). 12.5. Előrejelzés Az idősorok vizsgálatának, ahogy erről már eset szó, kettős célja van.

• A múltban lezajló folyamatok alaposabb megismerése. • Előrejelzés készítése a jövőre vonatkozóan. Az előrejelzések készítése azonban soha nem történhet valamiféle automatizmus szerint. Szem előtt kell tartanunk azt a tényt, hogy az általunk éppen vizsgált időben változó jelenségeket sok-sok tényező befolyásolja. A bemutató példáinkban vizsgált postai levélforgalmat például az is befolyásolja, hogy a megfigyelt időszakban voltak-e választások; de a jövőben egészen biztos hatással lesz rá a számítógépek még nagyobb mértékű elterjedése. (A családi levelezések is áttevődhetnek az internetre, az elektronikus aláírás elfogadásával pedig egy sor hivatalos irat sem feltétlenül fog papíralapú dokumentum formájában utazni az ország egyik helyéről a másikra stb.) Ezek szerint, az előrejelzés szerves része kell, hogy legyen a befolyásoló tényezők vizsgálata. Ilyen jellegű elemzésekre azonban az oktatás keretei nem nyújtnak lehetőséget. Az el nem végzett vizsgálat szükségességét azonban a szöveges megfogalmazásban érzékeltetni tudjuk. Az előrejelzést technikája más az analitikus és más a mozgóátlagolású trendszámítás esetén. Ha egyenletekkel fejeztük ki az alapirányzatot, akkor első lépésben meg kell állapítanunk az előre jelezni kívánt időhöz tartozó t i adatot, (Továbbvezetjük a számítások során használt t i sorozatot.) majd ezt az adatot behelyettesítjük az egyenletbe. Így megkapjuk a jövőre vonatkozó trendadatot. Ha az alapirányzat kimutatására a mozgóátlagolás módszerét használtuk, akkor több megoldás is kínálkozik az előrejelzésre. A legegyszerűbb eljárás a következő. A trendadatokból kiszámítjuk az átlagos abszolút

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



321



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



322



változást vagy az átlagos relatív változást, s ennek további jellemző voltát feltételezve kapjuk meg a jövőre vonatkozó trendadatot. Természetesen, ha az idősorban szezonális ingadozást is megfigyeltünk, akkor elsődleges előrejelzéseinket ennek a hatásnak a nagyságát (mértékét) kifejező adattal (szezonális eltérés vagy szezonindex) módosítani kell. BEMUTATÓ PÉLDA I. Jelezzük előre a magyarországi személygépkocsi állomány nagyságát 2006, 2007, 2008 évekre! (Lásd: 12.1. és 12.2. sz. tábla!) Az utolsó megfigyelt év 2003 volt. Ez a t i = 15 jelzőszámot kapta, így 2004-hez t i = 16 , 2005-höz t i = 17 és az első előrejelzendő évhez t i = 18 stb. tartozik. Ezeket behelyettesítve a személygépkocsik mennyiségének alakulását leíró lineáris ill. exponenciális egyenletekbe, a következő adatokat kapjuk. A lineáris egyenlet:

yˆ i = 1829,2 + 50,5t i (ezer db) yˆ 2006 = 1829,2 + 50,5 ∗18 = 2738,2 ezer db yˆ 2007 = 1829,2 + 50,5 ∗19 = 2788,7 ezer db yˆ 2008 = 1829,2 + 50,5 ∗ 20 = 2839,2 ezer db Az exponenciális trendegyenlet:

yˆ i = 1846 ∗1,0234 ti (ezer db) yˆ 2006 = 1846 ∗1,023418 = 2799,3 ezer db yˆ 2007 = 1846 ∗1,023419 = 2864,8 ezer db yˆ 2007 = 1846 ∗1,0234 20 = 2931,8 ezer db Jól látható, hogy a kétféle egyenlet eltérő „jóslattal” szolgál. Az exponenciális egyenlet az egyes évekre mindig nagyobb gépkocsi darabszámot mutat, mint a lineáris. Sőt a különbség az előre jelzett adatok között egyre nő

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



322



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



323



(+2,2264; +2,7; +3,3 %), ezért nem mindegy, hogy melyik egyenletet fogadjuk el jobbnak, és használjuk. Tekintettel arra, hogy az eltérésnégyzet-összeg a lineáris egyenletnél kisebb (32.554,1〈43.841,9), javasolt ezzel dolgozni.265 BEMUTATÓ PÉLDA II. Jelezzük előre a vizsgált postahivatal levélforgalmát 2006 egyes hónapjaira, azt feltételezve, hogy a levélforgalom alapirányzata az állandó abszolút változás! (Lásd: 12.5., 12.6. és 12.7. sz. táblák.) A mozgóátlagolású trendszámítás eredményeként kapott első trendadat (2002. július) 16.095, az utolsó (2005. június) 14.286 db, ezeket alapul véve az átlagos abszolút változás:

d=

14286 − 16095 ≅ −38,5 db 48 − 1

Ha ez a csökkenő tendencia folytatódik, akkor 2006 egyes hónapjaira a következő adatok várhatók: 12.9. sz. tábla hónap jan.

yˆ ij

febr.

márc.

… szept.

okt.

nov.

dec.

14.248 14.209 14.171 … 13.940 13.902 13.863 13.825

Ha azonban a jövőre vonatkozóan csak a 12.9.sz. táblában sorakozó adatokat közölnénk a postahivatal vezetőivel, akkor nem tudnának alaposan felkészülni az egyes hónapok csúcsforgalmára. (Pedig ez a szezonhatás vizsgálatának célja.) Módosítsuk előre jelzésünket a szezonhatással először abszolút, majd relatív módon! 12.10. sz. tábla hónap

jan.

yˆ ij

14.248 14.209 14.171 … 13.940 13.902 13.863 13.825

yˆ ij + s j

14.779 12.328 15.021 … 10.834 13.923 11.974 23.151

yˆ ij ∗ s ∗j

14.705 12.497 14.833 … 12.606 13.891 12.204 21.897

264

febr.

márc.

… szept.

okt.

nov.

dec.

2.799,2/2.738,2=1,022277→102,2%→+2,2%; stb.

265 Természetesen a számítógépek korában már könnyen mondhatjuk, célszerűbb minden lehetsé-

ges változatot végigszámolni, és a terveket (az előrejelzéseket) is több variációban elkészíteni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



323



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



324



A kiemelt adatok számítása:

yˆ 2006. X . = 13902 + 21 = 13923 db yˆ 2006. X . = 13902 ∗ 0,9992 = 13891 db A kiemelt adatok jelentése. ♥ Abban az esetben, ha a postai levélforgalmat befolyásoló tényezők elkövetkező időben nem változnak meg jelentős mértékben, akkor a kimutatott alapirányzat és a rendszeresen ismétlődő szezonhatások figyelembe vételével arra számíthatunk, hogy 2006. októberében a vizsgált postahivatalban 13.923 db levelet fognak feladni az ügyfelek (a szezonális ingadozást eltérés formájában számítva).266 12.6. Záró példa Ahogy arról már esett szó, gyakori hallgatói tévedés, hogy a szezonokra bontott idősorokból nem lehet egyenletet számolni, ezért fontosnak tartjuk ennek bemutatását. A következőkben postai levélforgalom adatait elemezzük mindkét tanult egyenlettípussal. 12.6.1. Lineáris egyenlet, szezonális eltérés, véletlen eltérés

12.10.sz. tábla év



2001 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov.

ti

yij

t i2

t i yij

yˆ ij

eij

eij2

1 2 3 4 5 6 7 8 9 10 11

17.603 12.864 15.781 18.570 14.973 12.632 13.811 15.869 12.994 15.636 13.944

1 4 9 16 25 36 49 64 81 100 121

17.603 25.728 47.343 74.280 74.865 75.792 96.677 126.952 116.946 156.360 153.384

16.898 16.855 16.813 16.770 16.728 16.686 16.643 16.601 16.558 16.516 16.474

705 -3.991 -1.032 1.800 -1.755 -4.054 -2.832 -732 -3.564 -880 -2.530

497.405 15.930.635 1.064.837 3.238.205 3.080.334 16.432.300 8.021.735 535.613 12.705.271 774.461 6.398.999

266

Hasonlóképpen lehet megfogalmazni a szezonindex figyelembevételével számított adatot.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



324



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

dec. 2002 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. 2003 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. 2004 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt.

12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46

28.418 17.695 14.980 22.697 15.691 16.414 18.176 16.245 16.200 15.924 17.902 14.912 27.703 15.848 14.530 12.866 17.665 12.492 12.265 14.548 11.261 14.859 15.864 12.583 25.893 18.145 13.019 15.202 16.393 14.274 16.470 13.500 13.461 13.190 13.480

144 169 196 225 256 289 324 361 400 441 484 529 576 625 676 729 784 841 900 961 1.024 1.089 1.156 1.225 1.296 1.369 1.444 1.521 1.600 1.681 1.764 1.849 1.936 2.025 2.116

341.016 230.035 209.720 340.455 251.056 279.038 327.168 308.655 324.000 334.404 393.844 342.976 664.872 396.200 377.780 347.382 494.620 362.268 367.950 450.988 360.352 490.347 539.376 440.405 932.148 671.365 494.722 592.878 655.720 585.234 691.740 580.500 592.284 593.550 620.080

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

16.431 16.389 16.346 16.304 16.262 16.219 16.177 16.134 16.092 16.050 16.007 15.965 15.922 15.880 15.837 15.795 15.753 15.710 15.668 15.625 15.583 15.541 15.498 15.456 15.413 15.371 15.329 15.286 15.244 15.201 15.159 15.116 15.074 15.032 14.989

11.987 1.306 -1.366 6.393 -571 195 1.999 111 108 -126 1.895 -1.053 11.781 -32 -1.307 -2.929 1.912 -3.218 -3.403 -1.077 -4.322 -682 366 -2.873 10.480 2.774 -2.310 -84 1.149 -927 1.311 -1.616 -1.613 -1.842 -1.509

Vissza



325



143.683.050 1.706.151 1.867.028 40.870.684 325.551 37.962 3.997.002 12.246 11.679 15.755 3.590.619 1.108.170 138.785.226 1.016 1.709.464 8.579.357 3.657.108 10.357.021 11.579.197 1.160.815 18.679.690 464.565 133.825 8.252.800 109.822.894 7.695.367 5.333.960 7.077 1.320.855 859.894 1.718.998 2.613.019 2.602.005 3.391.720 2.277.841



325



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

nov. dec. 2005 jan. febr. márc. ápr. máj. jún. júl. aug. szept. okt. nov. dec. össz.:

47 48 49 50 51 52 53 54 55 56 57 58 59 60 1.830

13.495 17.713 13.004 12.425 15.085 12.814 13.349 12.588 15.391 14.054 14.182 13.865 16.249 19.141 93.8797

2.209 2.304 2.401 2.500 2.601 2.704 2.809 2.916 3.025 3.136 3.249 3.364 3.481 3.600 73.810

634.265 850.224 637.196 621.250 769.335 666.328 707.497 679.752 846.505 787.024 808.374 804.170 958.691 1.148.460 27.870.129

Vissza

14.947 14.904 14.862 14.820 14.777 14.735 14.692 14.650 14.608 14565 14.523 14.480 14.438 14.396 938.797

-1.452 2.809 -1.858 -2.395 308 -1.921 -1.343 -2.062 783 -511 -341 -615 1.811 4.745 0



326



2.107.843 7.888.063 3.452.238 5.734.153 94.742 3.689.426 1.804.662 4.251.706 613.785 261.270 116.100 378.624 3.280.035 22.519.744 663.101.798

Az egyenlet paramétereinek számítása és a levélforgalom alakulását leíró lineáris egyenlet:

β1 =

27870129 − 1830 ∗ 938797 / 60 = −42,4106 db 73810 − 1830 2 / 60

β0 =

938797 1830 − (−42,4106) ∗ = 16940,14 db 60 60

yˆ ij = 16940 − 42,4t i (db ) A szezonális eltérés számítása: 12.11.a) sz. tábla hó →

jan.

febr.

márc.

ápr.

máj.

jún.

2001

705

-3.991

-1.032

1.800

-1.755

-4.054

2002

1.306

-1.366

6.393

-571

195

1.999

2003

-32

-1.307

-2.929

1.912

-3.218

-3.403

2004

2.774

-2.310

-84

1.149

-927

1.311

2005

-1.858

-2.395

308

-1.921

-1.343

-2.062

összesen 2.896

-11.369

2.656

2.370

-7.049

-6.208

átlag

-2.274

531

474

-1.410

-1.242

év↓

579

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



326



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



327



12.11.b) sz. tábla hó →

júl.

aug.

szept.

okt.

nov.

dec.

2001

-2.832

-732

-3.564

-880

-2.530

11.987

2002

111

108

-126

1.895

-1.053

11.781

2003

-1.077

-4.322

-682

366

-2.873

10.480

2004

-1.616

-1.613

-1.842

-1.509

-1.452

2.809

2005

783

-511

-341

-615

1.811

4.745

összesen -4.632

-7.070

-6.554

-744

-6.096

41.801

átlag

-1.414

-1.311

-149

-1.219

8.360

év↓

-926

A szezonális eltérések számítása most is átlagolással történt, de az osztóban 5 szerepelt (az egyenletek számítása esetén nincs adatvesztés); korrigálásra pedig nem volt szükség, az egyes hónapokra meghatározott átlagok összege ui. mindössze 1 darabbal tér el a nullától. Néhány a 12.11. sz. táblában szereplő adat számítása (Szürke háttérrel és erősebb kerettel emeltük ki.):

y 2001.VII . − yˆ 20001.VII . = 13811 − 16643 = −2832 db sVII . =

− 4632 ≅ −926 db 5

A véletlenhatás (eltérés) számítása: 12.12.a) sz. tábla hó →

jan.

febr.

márc.

ápr.

máj.

jún.

2001

126

-1.717

-1.563

1.326

-345

-2.812

2002

727

907

5.862

-1.045

1.605

3.241

2003

-611

-611

966

-3.460

1.438

-1.808

2004

2.195

-36

-615

675

483

2.553

2005

-2.437

-121

-223

-2.395

66

-820

év↓

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



327



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



328



12.12.b) sz. tábla hó →

júl.

aug.

szept.

okt.

nov.

dec.

2001

-1.906

682

-2.254

-731

-1.310

3.627

2002

1.037

1.522

1.185

2.044

166

3.420

2003

-2.161

-151

-2.908

629

515

-1.654

2004

-690

-199

-531

-1.360

-233

-5.552

2005

1.710

903

970

-467

3.030

-3.615

év↓

A kiemelt adat számítása:

v2003.I . = y2003.I . − yˆ 2003. I . − sI . = 15848 − 15880 − 579 = −611 db ♥SZÖVEGES ELEMZÉS: A postai levélforgalom megfigyelt adatai alapján kiszámított, az alapirányzatot kifejező lineáris trendegyenlet szerint – ha egyéb hatások nem érvényesültek volna – 2000. decemberében 16.940 (β 0 ) darab levelet adtak volna fel az

ügyfelek; ill. a levélforgalom negyedévről negyedévre ≅ 42 (β1 ) darabbal csökkent, és ha a befolyásoló tényezőkben lényeges változás nem következik be, akkor ekkora csökkenésre számíthatunk az elkövetkező hónapokban is. A postai levélforgalomban – legalábbis egyes hónapokban – jelentős szezonális eltéréseket is megfigyelhettünk, és ezek további ismétlődésére is számíthatunk. Így például februárban a trend alatti (-2.274 db), decemberben pedig a trend feletti (+8.360 db) forgalomra kell felkészülni. A vizsgált időszak egyes hónapjaiban jelentős véletlenhatást is észleltünk, így például 2001. februárjában a szokásosnál is kisebb volt a forgalom, ill. 2005. decemberében valamilyen – ezt még elemezni kell – ok miatt nem érvényesült olyan erősen a karácsony hatása, mint más években.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



328



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

329



12.6.sz. ábra267 Kapuvár levélforgalmi adatai 2001 - 2005

y = -42,411x + 16940 30000

levélforgalom (db)

25000 20000 15000 10000 5000 0 0

10

20

30

40

50

60

70

évek / hónapok

A kiugrásokat mutató vonal = megfigyelt adatok a negatív meredekségű egyenes = lineáris egyenlet pontjainak halmaza 12.6.2. Exponenciális egyenlet, szezonindex, véletlen index

12.13. sz. tábla

yˆ ij

yij / yˆ ij

eij2

ti

yij

2001 jan.

1

17.603 1

4,2456

4,2456

16.511 1.191.530

1,0661

febr. 2

12.864 4

4,1094

8,2188

16.471 13.007.039

0,7810

márc. 3

15.781 9

4,1981

12,5944

16.430 420.848

0,9605

ápr.

4

18.570 16

4,2688

17,0752

16.389 4.756.628

1,1331

máj. 5

14.973 25

4,1753

20,8765

16.348 1.891.817

0,9159

jún.

6

12.632 36

4,1015

24,6088

16.308 13.512.511

0,7746

júl.

7

13.811 49

4,1402

28,9816

16.268 6.034.592

0,8490

aug.

8

15.869 64

4,2005

33,6044

16.227 128.339

0,9779

t i2

lg yij

t i ∗ lg yij



év

267

Az ábrát az EXCEL-program grafikon szerkesztőjével készítettük, az egyenletet a program írta fel.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



329



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



330



szept. 9

12.994 81

4,1137

37,0237

16.187 10.195.556

0,8027

okt.

10

15.636 100

4,1941

41,9413

16.147 261.071

0,9684

nov. 11

13.944 121

4,1444

45,5883

16.107 4.678.370

0,8657

dec.

12

28.418 144

4,4536

53,4431

16.067 152.545.829 1,7687

2002 jan.

13

17.695 169

4,2479

55,2221

16.027 2.781.370

1,1041

febr. 14

14.980 196

4,1755

58,4572

15.988 1.015.167

0,9370

márc. 15

22.697 225

4,3560

65,3395

15.948 45.549.643

1,4232

ápr.

16

15.691 256

4,1957

67,1304

15.908 47.284

0,9863

máj. 17

16.414 289

4,2152

71,6586

15.869 296.980

1,0343

jún.

18

18.176 324

4,2595

76,6710

15.830 5.504.972

1,1482

júl.

19

16.245 361

4,2107

80,0037

15.791 206.552

1,0288

aug.

20

16.200 400

4,2095

84,1903

15.751 201.237

1,0285

szept. 21

15.924 441

4,2021

88,2431

15.712 44.779

1,0135

okt.

22

17.902 484

4,2529

93,5638

15.673 4.966.357

1,1422

nov. 23

14.912 529

4,1735

95,9913

15.635 522.213

0,9538

dec.

24

27.703 576

4,4425

106,6206 15.596 146.581.520 1,7763

2003 jan.

25

15.848 625

4,2000

104,9994 15.557 84.517

1,0187

febr. 26

14.530 676

4,1623

108,2189 15.519 977.617

0,9363

márc. 27

12.866 729

4,1094

110,9550 15.480 6.834.585

0,8311

ápr.

28

17.665 784

4,2471

118,9192 15.442 4.941.917

1,1440

máj. 29

12.492 841

4,0966

118,8023 15.404 8.478.036

0,8110

jún.

30

12.265 900

4,0887

122,6600 15.366 9.613.412

0,7982

júl.

31

14548 961

4,1628

129,0469 15.327 607.602

0,9491

aug.

32

11.261 1024

4,0516

129,6505 15.290 16.228.981

0,7365

szept. 33

14.859 1089

4,1720

137,6757 15.252 154.172

0,9743

okt.

34

15.864 1156

4,2004

142,8140 15.214 422.672

1,0427

nov. 35

12.583 1225

4,0998

143,4924 15.176 6.724.591

0,8291

dec.

36

25.893 1296

4,4132

158,8746 15.139 115.657.359 1,7104

2004 jan.

37

18.145 1369

4,2588

157,5740 15.101 9.265.393

1,2016

febr. 38

13.019 1444

4,1146

156,3539 15.064 4.180.726

0,8643

márc. 39

15.202 1521

4,1819

163,0941 15.026 30.846

1,0117

ápr.

40

16.393 1600

4,2147

168,5863 14.989 1.970.804

1,0937

máj. 41

14.274 1681

4,1545

170,3364 14.952 459.707

0,9547

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



330



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



331



jún.

42

16.470 1764

4,2167

177,1011 14.915 2.418.088

1,1043

júl.

43

13.500 1849

4,1303

177,6044 14.878 1.898.978

0,9074

aug.

44

13.461 1936

4,1291

181,6794 14.841 1.904.896

0,9070

szept. 45

13.190 2025

4,1202

185,4110 14.804 2.606.342

0,8910

okt.

46

13.480 2116

4,1297

189,9657 14.768 1.658.287

0,9128

nov. 47

13.495 2209

4,1302

194,1181 14.731 1.528.102

0,9161

dec.

48

17.713 2304

4,2483

203,9180 14.695 9.110.294

1,2054

2005 jan.

49

13.004 2401

4,1141

201,5898 14.658 2.736.621

0,8871

febr. 50

12.425 2500

4,0943

204,7148 14.622 4.826.650

0,8497

márc. 51

15.085 2601

4,1785

213,1058 14.586 249.257

1,0342

ápr.

52

12.814 2704

4,1077

213,5996 14.550 3.012.355

0,8807

máj. 53

13.349 2809

4,1254

218,6488 14.514 1.356.230

0,9198

jún.

54

12.588 2916

4,1000

221,3977 14.478 3.570.670

0,8695

júl.

55

15.391 3025

4,1873

230,2997 14.442 901.058

1,0657

aug.

56

14.054 3136

4,1478

232,2768 14.406 123.894

0,9756

szept. 57

14.182 3249

4,1517

236,6490 14.370 35.457

0,9869

okt.

58

13.865 3364

4,1419

240,2314 14.335 220.622

0,9672

nov. 59

16.249 3481

4,2108

248,4388 14.299 3.801.736

1,1364

dec.

19.141 3600

4,2820

256,9179 14.264 23.787.319

1,3419

60

össz. 1.830

938.7 73810 251,1606 7641,015 921.640 668.721.998 – 97

Az egyenlet paramétereinek számítása és a levélforgalom alakulását leíró exponenciális egyenlet:

7641,015 − 1830 ∗ 251,1606 / 60 = −0,001077149 → β1 = 0,9975 ↓ 73810 − 1830 2 / 60 99,75% → -0,25% 251,1606 1830 lg β 0 = − (−0,001077149) ∗ = 4,218863 →≅ 16552,5 db 60 60

lg β1 =

yˆ ij = 16552,5 ∗ 0,9975ti db

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



331



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



332



A szezonindex számítása: 12.14.a) sz. tábla hó → jan. év↓ 2001 1,0661

febr.

márc.

ápr.

máj.

jún.

0,7810

0,9605

1,1331

0,9159

0,7746

2002

1,1041

0,9370

1,4232

0,9863

1,0343

1,1482

2003

1,0187

0,9363

0,8311

1,1440

0,8110

0,7982

2004

1,2016

0,8643

1,0117

1,0937

0,9547

1,1043

2005

0,8871

0,8497

1,0342

0,8807

0,9198

0,8695

összesen 5,2776

4,3683

5,2607

5,2377

4,6356

4,6948

átlag

1,0555

0,8737

1,0521

1,0475

0,9271

0,9390

korrigált 1,0367 átlag

0,8581

1,0334

1,0289

0,9106

0,9222

%

-14,1915

3,3389

2,8869

-8,9411

-7,7789

3,6693

12.14.b) sz. tábla hó → év↓ 2001 2002 2003 2004 2005 összesen átlag

júl.

aug.

szept.

okt.

nov.

dec.

0,8490 1,0288 0,9491 0,9070 1,0657 4,7996 0,9599

0,9779 1,0285 0,7365 0,8910 0,9756 4,6094 0,9219

0,8027 1,0135 0,9743 0,8910 0,9869 4,6683 0,9337

0,9684 1,1422 1,0427 0,9128 0,9672 5,0333 1,0067

0,8657 0,9538 0,8291 0,9161 1,1364 4,7011 0,9402

1,7687 1,7763 1,7104 1,2054 1,3419 7,8027 1,5605

korrigált 0,9428 átlag

0,9055

0,9170

0,9887

0,9234

1,5327

%

-9,4550

-8,2985

-1,1287

-7,6551

53,2724

-5,7186

A szezonindexek számítása az egyszerűbb átlagolással (= az oszlopok adatainak összege osztva az évek számával) történt. Az átlagok összege azonban nem pontosan 12 volt, ezért korrigáltunk. Majd meghatároztuk a 100 % (= nincs szezonhatás) –tól való pozitív (= a szezon hatására a trendadatnál nagyobb a megfigyelt adat) és negatív (= a szezon hatására a trendadatnál kisebb a megfigyelt adat) eltéréseket.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



332



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



333



Példa az átlagolásra: július ⎛ yij

átlag =

∑ ⎜⎝

⎞ yˆ ij ⎟⎠

n

=

0,8490 + 1,0288 + ... + 1,0756 4,7996 = ≅ 0,9599 5 5

Példa a korrigálásra:

• korrekciós tényező = k

∗ j

∑s =

∗ j

k

=

1,0555 + 0,8737 + ... + 0,9402 + 1,5605 ≅ 1,01815 12

• korrigálás július = ∗ sVII . =

átlag 0,9599 = = 0,9428 → 94,28% →≅ −5,72% k ∗j 1,01815

A véletlenhatás (index) számítása: 12.15.a) sz. tábla hó → jan. év↓

febr.

márc.

ápr.

máj.

jún.

2001

1,0284

0,9102

0,9295

1,1013

1,0058

0,8399

2002

1,0650

1,0919

1,3772

0,9587

1,1359

1,2451

2003

0,9826

1,0911

0,8043

1,1119

0,8906

0,8655

2004

1,1590

1,0072

0,9790

1,0630

1,0484

1,1974

2005

0,8557

0,9903

1,0008

0,8560

1,0101

0,9428

12.15.b) sz. tábla hó → júl. év↓

aug.

szept.

okt.

nov.

dec.

2001

0,9005

1,0800

0,8754

0,9794

0,9375

1,1540

2002

1,0912

1,1359

1,1052

1,1552

1,0328

1,1589

2003

1,0067

0,8134

1,0624

1,0546

0,8979

1,1159

2004

0,9624

1,0017

0,9716

0,9232

0,9920

0,7864

2005

1,1304

1,0774

1,0762

0,9783

1,2306

0,8755

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



333



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



334



Példa a véletlenindex számítására: 2003. január: ∗ = v2003 .I .

yij yˆ ij ∗ s

∗ j

=

15848 = 0,9826 → 98,26% → −1,74% 15557 ∗1,0367

♥SZÖVEGES ELEMZÉS: A postai levélforgalom megfigyelt adatai alapján kiszámított, az alapirányzatot kifejező exponenciális trendegyenlet szerint – ha egyéb hatások nem érvényesültek volna – 2000. decemberében ≅ 16.553 (β 0 ) darab levelet adtak volna fel az ügyfelek. A levélforgalom negyedévről negyedévre ≅ 0,25 (β1 ) %-kal csökkent, és ha a befolyásoló tényezőkben lényeges változás nem következik be, akkor ekkora csökkenésre számíthatunk az elkövetkező hónapokban is. A postai levélforgalomban – legalábbis egyes hónapokban – jelentős szezonális eltéréseket is megfigyelhettünk, és ezek további ismétlődésére is számíthatunk. Így például februárban a trend alatti (≅ -14,2 %), decemberben pedig a trend feletti (≅ +53,3 %) forgalomra kell felkészülni. A vizsgált időszak egyes hónapjaiban jelentős véletlenhatást is észleltünk, így például 2001. februárjában a szokásosnál is kisebb volt a forgalom (≅ -9,0 %), ill. 2005. decemberében valamilyen – ezt még elemezni kell – ok miatt nem érvényesült olyan erősen a karácsony hatása (≅ -12,6 %), mint más években. A 12.7. sz. ábrán a megfigyelt adatok közé illesztett exponenciális egyenlet görbéjét láthatjuk. Az EXCEL-porgram segítségével az egyenletet is kiírattuk az ábrára. Aki így dolgozik, annak a kitevő függvény használatára is szüksége van, mert az EXCEL a természetes alapú logaritmussal számol. (Ezért láthatunk – az előzőekben kiszámítotthoz hasonlítva – más formátumú egyenletet az ábrán.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



334



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



335



12.7.sz. ábra Kapuvár levélforgalom 2001 - 2005 30000

y = 16552,4294e-0,0025x

levélforgalom (db)

25000 20000

Adatsor1

15000

Expon. (Adatsor1)

10000 5000 0 0

10

20

30

40

50

60

70

évek / hónapok

12.7. Gyakorló feladatok 1. feladat A sziú indiánok lélekszáma (ember fő) az 1990-es évtizedben a következőképpen alakult:: 12.16.sz. tábla 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 19.251 19.427 19.362 19.513 19.725 20.184 20.462 20.591 20.873 21.240

1. 2. 3. 4. 5. 6. 7. 8.

Nevezze meg az idősor típusát! Számítsa ki az idősor megfigyelt adatainak átlagát! Számítsa ki az évenkénti abszolút változásokat! Számítsa ki az átlagos abszolút változást (kétféleképpen)! Számítsa ki az évenkénti relatív változásokat! Számítsa ki az átlagos relatív változást (kétféleképpen)! Számítsa ki dinamikus viszonyszámokat! Az 1994 évi bázis viszonyszámra vonatkozóan mutassa be a lánc- és bázisviszonyszámok közötti összefüggést! 9. Az 1997 évi láncviszonyszámra vonatkozóan mutassa be a lánc- és bázisviszonyszámok közötti összefüggést! 10. Fogalmazza meg az 1995 évi lánc- és bázisviszonyszám jelentését! 11. Fogalmazza meg a kiszámított átlagok jelentését 12. Ábrázolja az idősort, készítsen pontdiagramot! 13. Számítsa ki a lineáris trend paramétereinek értékét!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



335



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



336



14. Számítsa ki az exponenciális trend paramétereinek értékét! 15. Fogalmazza meg mindkét trend paramétereinek jelentését! 16. Számítsa ki minden évre a trendadatokat mindkét egyenlet-típus esetén! 17. Fogalmazza meg a egy-egy trendadat (lineáris, exponenciális) jelentését!Magyarázza meg, miért térnek el egymástól a két egyenlet alapján számított trendadatok! 18. Döntse el, hogy melyik egyenlettípus jellemzi jobban a sziú indiánok létszám alakulását! Döntését természetesen indokolja is! 19. Végezzen előrejelzést 2005-re! 20. Fogalmazza meg az előre jelzett adat jelentését! 21. Nevezze meg a munkatáblák azon oszlopait, melyek összesen adata egyenlő. Indokolja az egyenlőséget! 22. Keresse meg az utóbbi évek adatait! Csatolja azokat az eredeti idősorhoz! Végezzen el minden számítást a hosszabb idősorral is! 23. Hasonlítsa össze az utóbbi évekre vonatkozó megfigyelt adatokat és a rövidebb idősor alapján végzett előrejelzési adatait! Vonjon le következtetéseket! 2. feladat Megfigyeltük egy vállalat dolgozóinak létszámát, majd a megfigyelt adatokból kiszámítottuk mind a lineáris, mind az exponenciális egyenletet. Az alábbi tábla ezt a három adatsort tartalmazza. Számítsa ki mindkét egyenlet paramétereit, de ne a szokásos módon, használja fel a paraméterek jelentésével kapcsolatban tanultakat! 12.17. sz. tábla év megfigyelt lineáris exponenciális

1998 220 219 222

1999 238 239 239

2000 261 259 257

2001 277 279 276

A dokumentum használata | Tartalomjegyzék | Táblázatok

2002 297 299 297

2003 325 319 320

Vissza

2004 340 339 344



336



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



337



3. feladat 12.18. sz. tábla Építőipari tevékenység (egy régióban) millió Ft év I. negyedév II. negyedév III. negyedév 1998 3.639,7 3.662,1 3.714,9 1999 3.759,3 3.801,8 3.832,6 2000 3.803,7 3.834,9 3.881,2 2001 3.860,0 3.859,0 3.891,0 2002 3.840,0 3.867,5 3.886,2 2001 3.859,6 3.923,9 3.952,2 2004 3.891,5 3.894,1 3.906,6 2005 3.870,6 3.891,5 3.927,6

1. 2. 3. 4. 5. 6. 7. 8.

IV. negyedév 3.765,8 3.843,6 3.904,8 3.863,1 3.888,9 3.952,3 3.909,2 3.916,4

Számítsa ki az alapirányzatot kifejező adatokat mindhárom tanult módon! Számítsa ki mindhárom estben mind a két tanult módon a szezonhatásokat! Számítsa ki mindhárom estben mind a két tanult módon a véletlenhatásokat! Végezzen előrejelzést! Írjon szöveges elemzést! Számítsa ki az átlagos abszolút- és relatív változást! (ismétlés268) Számítsa ki a tanult dinamikus viszonyszámokat! (ismétlés) Készítsen ábrát! (ismétlés)

12.8. Összefoglalás idősor

= olyan statisztikai sor, melyben az ismérv az idő 1. tartam idősor

fajtái 2. állapot idősor

elemzése

268

1. 2. 3. 4.

= mozgó sokaság, összege értelmes = álló sokaság, összege nem értelmes

viszonyszámok középértékek ábrázolás összetevőkre bontás

Ha szükséges, lapozzon vissza az 1., a 2. és a 3. fejezethez!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



337



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

1. bázis [bi ] viszonyszámok

középértékek



Vissza

338



2. lánc [li ]

Mindkét típus adataiból.

3. megoszlási [g i → wi ]

Csak a tartam idősor adataiból.



a megfigyelt adatokból [ y a ]



a változást kifejező adatokból d

vagy

[ ykr ]

[ ]és/vagy [l ] i

– koordináta rendszerben ⎣pont-, vonal-, oszlopdiagram⎦ – koordináta rendszeren kívül ⎣oszlop, kör stb.⎦ 1. alapirányzat (trend) 2. szezonhatás 3. véletlenhatás 4. konjunktúra hatás ⎣nem tananyag⎦

ábrázolás

összetevők

az alapirányzat kimutatása a szezonhatás kimutatása

a véletlenhatás kimutatása

1. analitikus trendszámítás ⎣lineáris, exponenciális stb.⎦ 2. mozgóátlagolású trendszámítás

[ ]

1. szezonális eltérés s j

[ ] véletlen eltérés [v ] véletlen index [v ]

2. szezonindex s ∗j 1. 2.

ij

∗ ij

β 0 = y − β 1t lineáris egyenlet

yˆ i = β 0 + β1ti

β1 =

∑ t y − (∑ y )(∑ t )/ n ∑ t − (∑ t ) / n i

i

i

i

2

2 i

i

lg β 0 = lg y − lg β1t exponenciális egyenlet

yˆ i = β 0 β 1ti

lg β1 =

∑ t lg y − (∑ lg y )(∑ t )/ n ∑ t − (∑ t ) / n i

i

i 2

2 i

i

i

t i = 1,2,3,..., n a legjobb egyenlet kiválasztása

legkisebb négyzetek módszere

A dokumentum használata | Tartalomjegyzék | Táblázatok

∑e = ∑(y 2 i

− yˆ i ) min.! 2

i

Vissza



338



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



339



β 0 mindkét típusnál a t i = 0 időpont (időszak), azaz a megfigyelés kezdete előtti időpont (időszak) trendadata

β1 lineáris

a paraméterek jelentése

az időpontról időpontra (az időszakról időszakra) bekövetkező abszolút változás vagy így is fogalmazhatunk

( )

átlagos abszolút változás ≅ d

β1 exponenciális az időpontról időpontra (az időszakról időszakra) bekövetkező abszolút változás vagy így is fogalmazhatunk

( )

átlagos abszolút változás ≅ d az összetevőkre bontás felhasználása

a múlt megismerése a jövő előrejelzése

12.9. Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy kereskedelmi vállalat forgalmának (ezer Ft) leírására 2000-2005 év elejétől – év végéig) közötti időre (negyedéves bontásban) az alábbi egyenletet találták a legjobbnak: yˆ i = 6040 + 80t i

Egyes megfigyelt adatok időrendben:

2002. I. né.

2002. II. né.

2004. II. né.

2004. III. né.

6000

7600

8000

8900

Ismerjük továbbá az egyes negyedévekre vonatkozó korrigált szezonális eltérések (eFt)

- 600

+680

…………

A dokumentum használata | Tartalomjegyzék | Táblázatok

-1780

Vissza



339



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



340



2.1. Fogalmazza meg az egyenlet paramétereinek, valamint a III. negyedévi szezonindexnek a jelentését! 1. paraméter 2. paraméter szezonindex 2.2. Végezzen becslést, azaz határozza meg az alábbi időpontokra a trendadatokat! 1999. III. né. 2002. II. né. 2005. IV: né. 2007. II. né

2.3. Fogalmazza meg a 2002. II. negyedévére vonatkozó adat jelentését!

2.4. Számítsa ki 2.2. részfeladatban megadott időpontokra a véletlenhatást! 1999 III. né.

2002. II. né.

2005. IV: né.

2007. II. né

2.5. Fogalmazza meg a 2.4. feladatban kiszámított egyik (tetszőleges) adat jelentését!

2.6. Nevezze meg az analitikus trendszámítás és a mozgóátlagolású trendszámítás közti alapvető különbséget!

Megjegyzés: a vizsgán természetesen több hely lesz a számítások és a megfogalmazások feltüntetésére.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



340



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



341



2. minta Az egy főre jutó húsfogyasztás ( = hús + húskészítmény) (kg):

év

hús

1990

75,8

1991

74,1

1992

75,2

1993

70,5

1994

69,0

1995

65,2

1996

61,9

1997

60,8

1998

63,7

1999

63,3

2000

73,2

2001

70,4

2002

75,4

összesen 2.1. Írja fel az alapirányzatot kifejező lineáris trendfüggvényt!

2.2. Fogalmazza meg a változást kifejező paraméter pontos jelentését!

2.3. Az idősor alapirányzatát kifejezendő az alábbi egyenletet is kiszámították:

yˆ i = 71,469 * 0,9948t Fogalmazza meg itt is a változást kifejező paraméter pontos jelentését!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



341



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



342



2.4. Végezzen előrejelzést! 2006 2007 2010 2.5. Mit kellett volna másképp tenniük az adatokat összegyűjtő szakembereknek, hogy havi bontásban adhassunk előrejelzést! 2.6. Hogyan lehet előrejelzést végezni, ha az egyes hónapok eltérő jellegét is figyelembe akarjuk venni? Kétféle megoldást kérek.

3. minta Egy hazánkba érkező külföldire jutó idegenforgalmi bevétel (USD) alakulása:

év

bevétel

1990

21,7

1991

30,2

1992

36,8

1993

29,1

1994

35,8

1995

43,7

1996

56,4

1997

69,2

1998

78,4

1999

93,4

2000

110,0

2001

124,5

2002

109,7

2003

101,2

összesen

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



342



Statisztika

Az idősorok elemezése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



343



3.1. Írja fel az alapirányzatot kifejező exponenciális trendfüggvényt! 3.2. Fogalmazza meg a változást kifejező paraméter pontos jelentését! 3.3. Az idősor alapirányzatát kifejezendő az alábbi egyenletet is kiszámították:

yˆ i = 6,68 + 8,06 xi

(∑ t

i

≠ 0 )Fogalmazza meg itt is a változást kifejező

paraméter pontos jelentését!

3.4. Végezzen előrejelzést! 2006 2007 2010

4. minta Egy gázszolgáltató vállalat bevételeiről (millió Ft) az 1998-2005 között időszakra negyedéves bontásban az alábbiakat ismerjük: yˆ i = 200 * 1,024 ti

(ti

= 1,2,3..., n )

a korrigált szezonindexek (időrenben): 135, 95, 75,…. %

4.5. Számítsa ki a 4. szezonindexet és fogalmazza meg jelentését! 4.6. Becsülje meg a 2006 év egyes negyedéveinek várható bevételeit! 2006. I. né.

2006. II. né.

2006. III. né.

2006. IV. né.

4.7. Fogalmazza meg a becsült adatok egyikének jelentését!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



343



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



344



13. Korreláció-, regresszió-számítás 13.1. Bevezetés A korrelációszámítással már a 7. fejezetben foglalkoztunk, így a fogalom jelentése – mennyiségi ismérvek közötti kapcsolat – már ismert. Sőt arról is esett szó, hogy ha a megfigyelt adatokat kombinációs (korrelációs) táblába rendezzük, akkor az elemzéshez felhasználhatjuk a vegyes kapcsolat szorossági mutatóit H , H 2 , s ezeket – a változók szerepének felcserélése révén – kétféle szemléletben is kiszámíthatjuk. Ebben a fejezetben a kapcsolat vizsgálatának további szorossági mutatóival ismerkedünk meg, illetve azokkal az egyenlettípusokkal, melyeket leggyakrabban használnak a kapcsolat matematikai jellegű leírására. Ezekhez a számításokhoz az adatokat azonban már nem kombinációs táblába rendezve, hanem listaszerűen adjuk meg. A kétváltozós modellekben adat-párokat, a háromváltozósban pedig adat-hármasokat sorakoztatunk fel egymás alatt. A korreláció- és regresszió-számítás témakörét a szakirodalom általában két részre tagolva – kétváltozós és többváltozós modellek – tárgyalja, tankönyvünk is ezt a felosztást alkalmazza. A kétváltozós kapcsolatok egyik szereplője a magyarázó változó (matematikai szóhasználattal: a független változó, befolyásoló tényező), a másik pedig az eredményváltozó (matematikai szóhasználattal: a függő változó, befolyásolt tényező). A kétváltozós egyenletek statisztikai felhasználásnak egyik sajátossága, hogy a változók szerepe felcserélhető. Ha a kérdést úgy tesszük fel, milyen mértékben járult hozzá egy országban a GDP növekedéséhez a szállítási ágazat, akkor magyarázó változónak tekinthetjük pl. a járműállomány valamely jellemzőjét (darabszámát, teherbíró-képességét stb.), és eredményváltozónak a GDP nagyságát. A kérdést azonban fordítva is feltehetjük, milyen mértékben járult hozzá a GDP növekedése az ország és azon belül a szállítási ágazat gépjárműállományának növekedéséhez. Ez utóbbi esetben a GDP értéke (növekedése) a magyarázó változó, és természetesen a gépjárműállomány nagysága az eredményváltozó. Így a kapcsolatot pl. lineárisnak feltételezve, két egyenletet írhatunk fel: yˆ y x = β 0( y x ) + β1( y x ) xi ill. xˆ y x = β 0( x y ) + β1( x y ) yi és több

(

)

szorossági mutatót is. (Erről majd a későbbiekben szólunk részletesen.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



344



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Korreláció-, regresszió-számítás Vissza



345



A társadalmi-, gazdasági élet eseményeit elemezve azonban rendszeresen azt tapasztaljuk, hogy egy-egy vizsgált jelenség nagyságát nem egyetlen tényező befolyásolja. Pl.: a paradicsom termésátlaga függ a felhasznált vetőmag, növényvédő szer, műtrágya minőségétől, mennyiségétől; az eső ill. a kiöntözött víz mennyiségétől; a napsütéses órák számától, és egyéb időjárási tényezőktől; a földeken végzett munka mennyiségétől, az odafigyeléstől (= a munka minőségétől), a kártevők elszaporodásától vagy éppen hiányától stb. De hozhatunk példát az élet egészen más területéről is. Egy család életszínvonala függ a keresők és eltartottak számától (arányától), jövedelmük nagyságától, az adózási és társadalombiztosítási elvonásoktól (a bruttó jövedelemből mennyi a szabadon felhasználható rész), a család által fogyasztott javak és szolgáltatások árának változásától stb. Példáink – remélhetőleg – mindenki számára egyértelműen bizonyították, hogy valóban szükség van több változó együttes vizsgálatára. Az ilyen modellekben a magarázó változók száma lehet egynél több, de a különböző lehetséges tényezők modellbe való bevonásának logikai, matematikai, számítástechnikai és pénzügyi korlátai is vannak. A többváltozós modellek közül tananyagunk csak a háromváltozós lineáris egyenletet tartalmazza. 13.2. Kétváltozós elemzések A matematikából ismert különböző egyenlettípusok közül elsődlegesen a megfigyelt adatok ábrázolásának segítségével tudunk választani. Az ábrát, egy pontdiagramot a koordinátarendszer pozitív negyedében helyezzük el. A vízszintes tengelyen tüntetjük fel a magyarázó változó, a függőleges tengelyen pedig az eredményváltozó értékeit.

• Ha a megfigyelt pontok közé leginkább egy egyenest tudunk illeszteni, akkor a lineáris egyenlet paramétereinek kiszámítását érdemes elkezdeni. • Ha a megfigyelt pontok közé leginkább egy görbét tudunk illeszteni, akkor a célszerű újabb ábrát készíteni, ahol vagy csak az eredményváltozó vagy mindkét változó logaritmusai szerepelnek. Ha a görbe így „kiegyenesedik”, akkor vagy az exponenciális- (csak az eredményváltozó megfigyelt értékeinek logaritmikus átalakítását végeztük el), vagy a hatványkitevős (mindkét változó megfigyelt értékeinek logaritmikus átalakítását elvégeztük) egyenlet paramétereinek kiszámítását célszerű elvégezni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



345



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Korreláció-, regresszió-számítás Vissza



346



• Ha az ábrán a pontok vonulata egy olyan görbét mutat, melyen minimum vagy maximum helyet fedezünk fel, akkor a parabola egyenlet (= másodfokú polinom) használata indokolt. • Ha pedig az ábrán elhelyezkedő pontok vonulata mindkét tengelyt aszimptotikusan közelíti (többnyire intenzitási viszonyszámok megfigyelése esetén találkozunk ilyen ábrákkal), akkor hiperbolára kell gondolnunk. Természetesen az ábrák elkészítése nem kis feladat, – bár a számítógépek ebben is segítségünkre vannak –, de semmiképpen nem felesleges tevékenység. Pl.: ha a megfigyelt pontok alapján elkészített ábránkba beillesztjük a regressziós egyenlet vonalát, abból további következtetéseket vonhatunk le; vagy egyszerűen ellenőrizhetjük addigi számításainkat. (Ha pl., a görbe vagy az egyenes teljes terjedelmében a pontok fölött vagy alatt fut, akkor biztos, hogy hibát követtünk el.)

Az egyenletekkel kapcsolatban elsőként ugyanaz a probléma merül fel, mint amiről a trendszámítás során már szóltunk: a pontok közé illeszthető, elvileg végtelen sok egyenes vagy görbe közül melyiket fogadjuk el a legjobbnak. Most is az un. legkisebb négyzetek módszerét269 alkalmazzuk. Azt az egyenletet fogadjuk el a kapcsolat jellemzésére legjobbnak, amelyiknek pontjai legközelebb vannak a megfigyelt pontokhoz,270 azaz meg2 keressük a ∑ ( yi − yˆ i ) függvény minimum helyét. Ennek érdekében képezzük a függvény első deriváltját, ahol ez a nulla értéket felveszi, ott van a minimum hely. A szükséges matematikai műveletek, és a lehetséges egyszerűsítések után kapjuk meg az un. normálegyenleteket. A keresett egyenlet paramétereit közvetlenül ezekből is meghatározhatjuk, de a statisztikában inkább a képletek alkalmazása és értelmezése a szokásos megoldás. A normálegyenletekből kétféle módon alakíthatunk ki képleteket.

• Az egyenletek rendezésével. Ekkor ugyanazokhoz a formulákhoz jutunk, mint a trendszámításnál, csak t i helyett xi szerepel az összefüggésekben. • A másik lehetséges módszer a koordinátatengelyek x és y -val való eltolása. Ennek következtében normálegyenleteink „rövidülnek” (= egyes tagok „kiesnek”), és az előző módszer képleteinél egyszerűbbekhez jutunk.

269 270

Természetesen egyéb módszerek is léteznek, de ez a legegyszerűbb. Lásd: 12.2.1.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



346



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



347



Az exponenciális és a hatványkitevős egyenleteket – a trendszámításoz hasonlóan – a logaritmikus átalakítás következtében lineáris összefüggésként kezeljük. A parabola egyenlet megoldását a háromváltozós egyenletre vezetjük vissza. A hiperbola egyenlet esetén pedig a reciprokképzés teszi lehetővé a lineáris egyenlet értelemszerű alkalmazását. Lineáris egyenlet:

yˆ i = β 0 + β1 xi • ha nincs tengelyeltolás, és a magyarázó változó = x:

β1 = ∑

xi yi − (∑ xi )(∑ yi )/ n

∑ x − (∑ x )

2

2 i

i

ahol y =

∑y

β 0 = y − β1 * x ,

/n

i

és x =

n

∑x

i

n

• tengelyeltolással, ha a magyarázó változó = x:

β1 =

∑d d ∑d x

y

β 0 = y − β1 * x ,

2 x

ahol d x = ( xi − x ) és d y = ( yi − y ) Exponenciális egyenlet:

yˆ i = β 0 * β1xi → •

lg yˆ i = lg β 0 + xi ∗ lg β1

ha nincs tengelyeltolás, ha a magyarázó változó = x:

lg β1 =

∑ x lg y − (∑ x )(∑ lg y )/ n ∑ x − (∑ x ) / n i

i

i

2 i

i

2

lg β 0 = lg y − (lg β1 )* x ,

i

ahol lg y =

∑ lg y

i

n

• tengelyeltolással, a magyarázó változó = x:

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



347



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

lg β1 =

∑d d ∑d x

Vissza



348



lg β 0 = lg y − (lg β1 )* x ,

v

2 x

ahol vi = lg yi és d v = (vi − v ) 271 Hatványkitevős egyenlet272:

lg yˆ i = lg β 0 + β1 (lg xi )

yˆ i = β 0 * xiβ1 →

• ha nincs tengelyeltolás, ha a magyarázó változó = x:

β1 = ∑

(lg xi )(lg yi ) − (∑ lg xi )(∑ lg yi )/ n 2 2 ∑ (lg xi ) − (∑ lg xi ) / n

lg β 0 = lg y − β1 * lg x ,

ahol ↓

lg y =

∑ lg y n

i

= v és lg x =

∑ lg x n

i

=u

• tengelyeltolással, a magyarázó változó = x:

β1 =

∑d d ∑d u

2 u

v

lg β 0 = lg y − β1 ∗ u ,

ahol ↓

vi = lg yi és d v = (vi − v ) és ui = lg xi és d u = (ui − u )

271

A segédváltozó (vi ) bevezetésére a képletek egyszerűbb felírása érdekében kerül sor.

272

Erre az egyenlettípusra bemutató példát nem talál, a részletes tárgyalás nem képezi tananyagunk részét.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



348



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



349



Parabola – egyenlet273:

yˆ i = β 0 + β1 ∗ xi + β 2 ∗ xi2

yˆ i = β 0 + β1 ∗ x1 + β 2 ∗ x2 ,

→ ahol ↓

x1i = xi ( parabola ) és x2i = xi2( parab.) Hiperbola – egyenlet274:

yˆ i =

1

→ zˆi = β 0 + β1 xi ,

β 0 + β 1 ∗ xi ahol z i =

1 yi

• ha nincs tengelyeltolás, ha a magyarázó változó = x:

β1 = ∑

xi zi − (∑ xi )(∑ z i )/ n

β 0 = z − β1 * x ,

∑ xi2 − (∑ xi ) / n 2

ahol z =

∑z

i

n

és x =

∑x

i

n

• tengelyeltolással, ha a magyarázó változó = x:

β1 =

∑d d ∑d x

z

2 x

ahol

d x = ( xi − x )

β 0 = z − β1 * x , és d z = ( yi − z )

273

Részletezésére a háromváltozós egyenletnél kerül sor. Erre az egyenlettípusra bemutató példát nem talál, a részletes tárgyalás nem képezi tananyagunk részét. 274

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



349



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



350



A képletekben szereplő betűk jelentése:

β0 =

β1 =

n=

matematika: metszéspont az ytengelyen statisztika: lásd a szöveges magyarázat

matematika: a kapcsolatot kifejező tényező statisztika: lásd a szöveges magyarázat

a megfigyelések darabszáma

xi =

yi

u i , vi , z i =

a magyarázó változó az eredményváltozó segédváltozók megfigyelt értékei megfigyelt értékei

x, y, u , v, z= egyszerű számtani átlagok

d x , d y , du , dv , d z =

yˆ i =

a változók egyes értékeinek és átlaguknak különbsége (= eltérése)

regresszióérték, a kapcsolatot leíró egyenletek xi helyeken vett értékei, melyek rajta vannak a megfigyelt pontok közé illeszkedő egyenesen vagy görbéken

13.2.1. Lineáris kapcsolat (egyenlet)

A lineáris egyenlet β 1 paramétere a magyarázó változó egységnyi abszolút változásához tartozó, és az eredményváltozóra vonatkozó abszolút változás275. Mértékegysége a megfigyelt yi mértékegységével azonos. (Pl.: ha a családok összes bevétele276 (ezer Ft / év) = év) =

xi

és szórakozási kiadásaik összege (ezer Ft /

yi , akkor β 1 megmutatja, hogy az összes bevétel ezer forintos emelkedése – pozitív kapcso-

latot feltételezve – hány ezer forinttal emeli meg szórakozási kiadásaik nagyságát.)

A lineáris egyenlet β 0 paramétere elvileg az xi = 0 helyen vett regresszió érték, de gyakorlatilag igen kevés esetben van konkrét statisztikai jelentése. (Előző példánkat folytatva: olyan család, amelyiknek összes bevétele a vizsgált évben nulla, nyilván nincs; tehát β 0 paraméternek statisztikai jelentése nincs.)

275 276

Lásd: 12. fejezet, a lineáris trend paramétereinek jelentése. Bevétel = bér + családi pótlék + ösztöndíj + kamatjövedelmek + stb.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



350



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



351



BEMUTATÓ FELADAT Néhány európai ország lakosságának születéskori várható élettartama277 (év) 2003-ban: 13.1.sz. tábla országok Ausztria Belgium Bulgária Csehország Dánia Finnország Franciaország Görögország Hollandia Írország Lengyelország Magyarország Nagy-Britannia Németország Norvégia Olaszország Portugália Románia Spanyolország Svájc Svédország Szlovákia Szlovénia Törökország összesen átlag:

277

élettartam (év)

xi

yi

75,8 75,1 68,6 72,1 74,8 74,9 75,6 75,4 76,0 75,2 70,4 68,3 75,5 75,6 76,4 76,8 73,8 67,6 75,7 77,8 77,7 69,9 72,3 66,2 1.767,5

81,7 81,1 75,3 78,4 79,5 81,5 82,9 80,7 80,7 80,3 78,8 76,5 80,2 81,3 81,5 82,9 80,5 74,9 83,1 83,0 82,1 77,6 79,9 70,9 1.915,3

73,6458 79,8041

d x d y d x2 2,2 1,5 -5,0 -1,5 1,2 1,3 2,0 1,8 2,4 1,6 -3,2 -5,3 1,9 2,0 2,8 3,2 0,2 -6,0 2,1 4,2 4,1 -3,7 -1,3 -7,4 0,0

1,9 1,3 -4,5 -1,4 -0,3 1,7 3,1 0,9 0,9 0,5 -1,0 -3,3 0,4 1,5 1,7 3,1 0,7 -4,9 3,3 3,2 2,3 -2,2 0,1 -8,9 0,0

d y2

4,6 3,6 2,1 1,7 25,5 20,3 2,4 2,0 1,3 0,1 1,6 2,9 3,8 9,6 3,1 0,8 5,5 0,8 2,4 0,2 10,5 1,0 28,6 10,9 3,4 0,2 3,8 2,2 7,6 2,9 9,9 9,6 0,0 0,5 36,6 24,1 4,2 10,9 17,3 10,2 16,4 5,3 14,0 4,9 1,8 0,0 55,4 79,3 262,0 203,7 szórás 3,3754 2,9764

dxd y

yˆ i

ei2

4,0839 1,8843 22,7273 2,1706 -0,3511 2,1269 6,0498 1,5714 2,1089 0,7706 3,2594 17,6635 0,7339 2,9231 4,6706 9,7648 0,1073 29,6500 6,7702 13,2760 9,3077 8,2564 -0,1290 66,2989 215,6954

81,6 81,0 75,7 78,5 80,8 80,8 81,4 81,2 81,7 81,1 77,1 75,4 81,3 81,4 82,1 82,4 79,9 74,8 81,5 83,2 83,1 76,7 78,7 73,7 1.915,3 rez. szórás:

0,0150 0,0098 0,1230 0,0174 1,5730 0,4402 2,2120 0,3004 1,0857 0,6138 2,7809 1,2017 1,2778 0,0127 0,3263 0,2495 0,3237 0,0052 2,5759 0,0500 1,0843 0,7730 1,4488 7,7017 26,20193 1,091328

Magyar statisztikai évkönyv 2003 (KSH – 2004; 554. old.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



351



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



352



Megjegyzések a 13.1. sz. táblához: •

A tábla első oszlopa a megfigyelt országokat abc sorrendben tartalmazza, ennek az egyenlet paraméterei, a kapcsolat szorossága és jellege szempontjából nincs befolyásoló szerepe.



A feladat megoldása során a tengelyeltolásos módszerrel dolgoztunk. (Így kisebb számokat kell feljegyeznünk, és a következő műveleteknél ismét bebillentyűzni a zsebszámológépbe.) A módszer következménye, – és ez egy ellenőrzési pont is – hogy

∑d = ∑d x

y

= 0 , az ettől való esetleges (néhány tizednyi vagy még ki-

sebb értékű) eltérés a kerekítések következménye.



Figyeljék meg!

∑ y = ∑ yˆ i

i

Ez az egyezőség mindig fennáll, legfeljebb a kerekí-

tések miatt adódhat csekély eltérés.

• •

x , y = egyszerű számtani átlag, azaz x =

σy =



i

(n − 2)

pedig

∑(y

− y)

2

i

n −1

és

σe =

n

és y =

∑y

i

n A két változó szórásának számításakor a nevezőben (n − 1) , a reziduális szórás számításakor



∑x

szerepelt,

azaz

σx =

∑ (x

− x)

2

i

n −1

,

( yi − yˆ i )2 n−2

A feladatot EXCEL-programmal oldottuk meg. A számítások során a számítógép az összes tizedest megtartva dolgozott, így ha az összesen oszlop számadatait (kerekített értékek) behelyettesítjük a képletekbe, akkor a 3. – 4. tizedestől némi eltérést tapasztalunk.) FONTOS! Tanulja meg zsebszámológépe statisztikai programját használni, úgy sokkal gyorsabban, a munkatábla kitöltögetése nélkül, a számok újra és újra történő billentyűzése nélkül eredményhez juthat. Például, a SHARP ElL-531WH típusú zsebszámológéppel így kellene dolgozni: o Bekapcsoljuk a zsebszámológépet. ON/C o Átállítjuk a megfelelő (lineáris egyenlet) statisztikai programra. MODE 1 1 o Bebillentyűzzük a magyarázó változó (x) első megfigyelt adatát (itt az Ausztriára vonatkozó 75,8-t), majd megnyomjuk a STO feliratú műveleti billentyűt. o Bebillentyűzzük az eredményváltozó (y) első megfigyelt adatát (itt az Ausztriára vonatkozó 81,7-t), majd megnyomjuk az M+ feliratú műveleti billentyűt. o Az utóbbi két műveletet addig ismételgetjük (természetesen felváltva, és mindig ebben a sorrendben), amíg az összes adat-párt be nem vittük a zsebszámológép memóriájába.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



352



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

o

Vissza



353



Ezután következik a eredmények és a részeredmények kinyerése. Ehhez mindig két műveleti billentyűt kell használnunk, és az első mindig az RCL. ƒ

β 0 paraméter ← RCL

(

bemutató példánkban: 19,18329212

ƒ ƒ ƒ ƒ ƒ ƒ

paraméter ← RCL ) bemutató példánkban: 0,823140587 r szorossági mutató ← RCL ÷ bemutató példánkban: 0,933488779 x ← RCL 4 bemutató példánkban: 73,64583333 y ← RCL 7 bemutató példánkban: 79,80416667 A magyarázó változó szórása, nevezőben: (n − 1) RCL 5 bemutató példánkban: 3,375355591 Az eredményváltozó szórása, nevezőben: (n − 1) ← RCL 8 bemutató példánkban: 2,97635306

β1

ƒ

∑ x ← RCL tizedespont

ƒ

∑ xi2 ← RCL + /_

i

bemutató példánkban: 1767,5 bemutató példánkban: 130431,05

ƒ

∑y

i

ƒ

∑y

2 i

← RCL 2 bemutató példánkban: 1915,3

← RCL 3 bemutató példánkban: 153052,67

ƒ

∑ xy ← RCL 1

bemutató példánkban: 141269,56 ƒ n ← RCL 0

o

bemutató példánkban: 24 A zsebszámológép a tengelyeltolás nélküli módszerrel dolgozik, de az alábbi matematikai összefüggéseket felhasználva megkaphatjuk a tengelyeltolásos módszerhez szükséges részeredményeket is.

∑x

i

− n ∗ x 2 = ∑ d x2

∑y

− n ∗ y 2 = ∑ d y2

∑x y i

i

i

− n ∗ x ∗ y = ∑ dxd y

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



353



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

o o

Vissza



354



A zsebszámológép segítségével az adatok egyszeri bevitelével mindkét egyenlet – a változók szerepe felcserélve – felírható. A zsebszámológép segítségével a regresszió-értékeket is könnyen meghatározhatjuk. ƒ Bebillentyűzzük a magyarázó változó azon értékét, amelyikhez a regresszió-értéket meg akarjuk határozni, majd megnyomjuk a 2ndF ) billentyűket. (A zárójel-billentyű bal felső sarkában látjuk is a szokásos statisztikai jelet.) ƒ Ha valamennyi regresszió-értéket meg akarjuk ismerni, akkor természetesen ezt a művelet-sort minden xi érték számológépbe billentyűzése mellett el kell végezni.

• megoldás tengelyeltolással, ha a magyarázó változó = x: (13.1.1. sz. ábra)

β1( y x ) =

∑d d ∑d x

y

=

2 x

215,6954 = 0,823141 ≅ 0,82 év 262

β 0( y x ) = y − β1( y x ) x = 79,80417 − 0,823141 ∗ 73,64583 = 19,18239 ≅ 19,2 év yˆ i = 19,2 + 0,82 xi év

• megoldás tengelyeltolással, ha a magyarázó változó = y: (13.1.2. sz. ábra)

β1(x y ) =

∑d d ∑d x

2 y

y

=

215,6954 = 1,05863 ≅ 1,06 év 203,7

β 0( x y ) = x − β1( x y ) y = 73,64583 − 79,80417 ∗1,05863 = −10,8372 ≅ −10,8 év xˆi = −10,8 + 1,06 yi év Az első egyenlet – yˆ i = 19,2 + 0,82 xi év – paramétereinek kiszámításánál magyarázó változónak tekintettük a férfiak születéskori várható életkorát, ennek megfelelően a ♥ β 0 paraméternek nincsen statisztikai jelentése (Egyik országban sem szerepelt x megfigyelt értékei között nulla, vagy ahhoz nagyon közeli érték.) ♥ β1 paraméter szerint pedig abban az országban, ahol 1 évvel több a férfiak születéskori várható élettartama, 0,82 évvel magasabb a nők születéskori várható élettartama.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



354



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Korreláció-, regresszió-számítás Vissza



355



A második egyenlet szerint – xˆi = −10,8 + 1,06 yi év – paramétereinek kiszámításánál magyarázó változónak tekintettük a nők születéskori várható életkorát, és ennek megfelelően a β 0 paraméternek most nincsen statisztikai jelentése (Egyik országban sem szerepelt y megfigyelt értékei között nulla, vagy ahhoz nagyon közeli érték.) ♥ β1 paraméter szerint pedig abban az országban, ahol 1 évvel több a nők születéskori várható élettartama, 1,06 évvel magasabb a férfiak születéskori várható élettartama. Ahogy a trend-egyenesre (görbére) illeszkedő értékeknek, úgy regreszszió-egyenesre illeszkedő pontoknak is van statisztikai jelentése. A megfogalmazás azonban nem olyan egyszerű, mint a trendértékek jelentésének leírása. A trendszámítás során a magyarázó változó (= az idő) folyamatosan halad előre, nincs két azonos t i adat, így ha lineáris egyenlet esetén β1 ≠ 0 , akkor yˆ i értékek mind különböznek egymástól. A regresszió-számítás során azonban a magyarázó változó értékei nem mind különböznek egymástól. Egy végtelen elemszámú (vagy véges, de kellően nagy elemszámú) sokaság több egysége is felvehet azonos xi értéket, így az yˆ i értékek sem egyetlen sokasági egységhez tartozhatnak. Számpéldánkban ez azt jelenti, hogy nemcsak Dániára lehet jellemző férfiak esetén a 74,8 év, mint születéskori várható élettartam, tehát a regresszió-értéket semmiképpen sem vonatkoztathatjuk csak Dániára. A megfogalmazás tehát így helyes. ♥ Azokban az országokban, ahol a férfiak születéskori várható élettartama 2003-ban 74,8 év – a lineáris regresszió szerint – a 2003-ban világra jött nők születésükkor 80,8 éves élettartamra számíthatnak. A bevezetőben említett és a zsebszámológép statisztikai programjának ismertetésénél szereplő szorossági mutató(k)ra később térünk vissza.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



355



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



356



a nőkre vonatkozó adat (év)

Néhány európai ország férfi és női lakosásságának születéskori várható élettartama (2003)

y = 0,8231x + 19,183 R2 = 0,8714

84,0 82,0 80,0 78,0

Adatsor1

76,0

Lineáris (Adatsor1)

74,0 72,0 70,0 65,0

70,0

75,0

80,0

a férfiakra vonatkozó adat (év)

magyarázó változó = a férfiak születéskori várható élettartama

13.1.1. sz. ábra278

a férfiakra vonatkozó adatok (év)

Néhány európai ország férfi és női lakosságának születéskori várható élettartama (2003)

y = 1,0586x - 10,837 R2 = 0,8714

79,0 77,0 75,0 73,0

Adatsor1

71,0

Lineáris (Adatsor1)

69,0 67,0 65,0 70,0

75,0

80,0

85,0

a nőkre vonatkozó adatok (év)

magyarázó változó = a nők születéskori várható élettartama

13.1.2. sz. ábra

278

Az EXCEL-program minden szorossági mutatót R betűvel jelöl.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



356



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



357



13.2.2. Exponenciális kapcsolat (egyenlet)

BEMUTATÓ FELADAT

ország

13.2. sz. tábla

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24.

élettartam (év)

xi

75,8 75,1 68,6 72,1 74,8 74,9 75,6 75,4 76 75,2 70,4 68,3 75,5 75,6 76,4 76,8 73,8 67,6 75,7 77,8 77,7 69,9 72,3 66,2 1.767,5 Σ átl. 73,65

yi 81,7 81,1 75,3 78,4 79,5 81,5 82,9 80,7 80,7 80,3 78,8 76,5 80,2 81,3 81,5 82,9 80,5 74,9 83,1 83,0 82,1 77,6 79,9 70,9 1.915,3 79,80

dx 2,1542 1,4542 -5,0458 -1,5458 1,1542 1,2542 1,9542 1,7542 2,3542 1,5542 -3,2458 -5,3458 1,8542 1,9542 2,7542 3,1542 0,1542 -6,0458 2,0542 4,1542 4,0542 -3,7458 -1,3458 -7,4458 0

dx 4,6404 2,1146 25,4604 2,3896 1,3321 1,5729 3,8188 3,0771 5,5421 2,4154 10,5354 28,5779 3,4379 3,8188 7,5854 9,9488 0,0238 36,5521 4,2196 17,2571 16,4363 14,0313 1,8113 55,4404 262,04

lg yi

dv

d xdv

yˆ i

ei2

1,9122 1,9090 1,8768 1,8943 1,9004 1,9112 1,9186 1,9069 1,9069 1,9047 1,8965 1,8837 1,9042 1,9101 1,9112 1,9186 1,9058 1,8745 1,9196 1,9191 1,9143 1,8899 1,9025 1,8506 45,6414 1,9017

0,0105 0,0073 -0,0249 -0,0074 -0,0014 0,0094 0,0168 0,0051 0,0051 0,0030 -0,0052 -0,0181 0,0024 0,0084 0,0094 0,0168 0,0041 -0,0272 0,0179 0,0174 0,0126 -0,0119 0,0008 -0,0511 0,0000

0,0226 0,0106 0,1258 0,0115 -0,0016 0,0118 0,0329 0,0090 0,0121 0,0046 0,0169 0,0966 0,0045 0,0163 0,0260 0,0531 0,0006 0,1647 0,0367 0,0721 0,0512 0,0444 -0,0011 0,3803 1,2018

81,6 81,0 75,6 78,5 80,7 80,8 81,4 81,2 81,8 81,1 77,1 75,4 81,3 81,4 82,1 82,5 79,9 74,8 81,5 83,3 83,2 76,7 78,6 73,7 1.915,1 rez.sz.

0,0135 0,0137 0,0967 0,0033 1,5056 0,4729 2,2145 0,2917 1,1162 0,5909 3,0210 1,2729 1,2678 0,0125 0,3631 0,2024 0,3856 0,0069 2,5667 0,1059 1,2938 0,8910 1,6290 7,9450 27,28 1,1136

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



357



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



358



Megjegyzések a 13.2. sz. táblához: • • •

A tábla ugyanazoknak az országoknak – és ugyanazon sorrendben – a megfigyelt adatait tartalmazza, mint a 13.1. sz. A számítási munkát most is az EXCEL programmal végeztük. A feladat megoldása során a tengelyeltolásos módszerrel dolgoztunk. A módszer következménye, hogy

∑d = ∑d x

v

= 0 , az ettől való esetleges (néhány tizednyi

vagy még kisebb értékű) eltérés a kerekítések következménye.



Figyeljék meg!

∑ y = ∑ yˆ i

i

Ez az egyezőség mindig fennáll, legfeljebb a kerekí-

tések miatt adódhat csekély eltérés. Bár az exponenciális egyenlet esetében, főleg ha manuálisan dolgoztunk (és rendszeresen kerekítettünk) az eltérés nagyobb is lehet, mint a lineáris egyenletnél.

∑x

i

i

i

x , v = egyszerű számtani átlag, azaz x =



Az EXCEL program az ábrára természetes alapú logaritmust alkalmazva írja ki az egyenletet, ezért látunk részben más számokat a 13.2.sz. ábrán és a képletek alapján végzett számítások között. Ha össze akarjuk hasonlítani a tízes alapú logaritmust alkalmazó megoldást (13.2.sz. tábla) és a számítógépes megoldást, akkor az EXCEL program kitevő függvényét kell alkalmazni. A korábban megnevezett (lineáris megoldás) zsebszámológép segítségével is meg-



n

és y =

∑ lg y = ∑ v



n

n

kaphatjuk az exponenciális egyenlet paramétereit. Ekkor a MODE 1 3 programot kell választanunk. A megoldás során a zsebszámológép is a természetes alapú logaritmusnak megfelelően írja ki β1 paraméter értékét, ezért ha a tízes alapú logaritmussal számított értékre van szükségünk (értelmezni ezt tudjuk), akkor azt a következő billentyűsorozat segítségével kapjuk meg: RCL



)

2ndF ln =

A zsebszámológép segítségével a regresszió-értékeket is könnyen meghatározhatjuk. ƒ Bebillentyűzzük a magyarázó változó azon értékét, amelyikhez a regresszió-értéket meg akarjuk határozni, majd megnyomjuk a 2ndF ) billentyűket. ƒ Ha valamennyi regresszió-értéket meg akarjuk ismerni, akkor természetesen ezt a művelet-sort minden xi érték számológépbe billentyűzése mellett el kell végezni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



358



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



359



a nőkre vonatkozó adatok (év)

Néhány európai ország lakosságának születéskori várható élettartama 2003

y = 36,6414e0,0106x

84 82 80 78

Adatsor1

76

Expon. (Adatsor1)

74 72 70 65

70

75

80

a férfiakra vonatkozó adatok (év)

magyarázó változó = a férfiak születéskori várható élettartama279

13.2.sz. ábra Az európai országok férfi (= magyarázó változó) és női lakóinak (= eredményváltozó) születéskori várható élettartama között exponenciális kapcsolatot feltételezve, a tengelyeltolásos módszert alkalmazva a következő egyenlethez jutunk.

lg β1 =

∑d d ∑d

x v 2 x

=

1,2018 = 0,00458619 ↓ 262,0396

β1 = 1,01061605 → 101,061605% →≅ +1,06% lg β 0 = lg y − (lg β1 ) * x =

= 1,901726 − 0,00458619 ∗ 73,64583& = 1,56397178 ↓ β 0 = 36,64137625 ≅ 36,6 év

279

A lineáris egyenletet kivéve minden esetben (exponenciális, hatványkitevős stb.) a „görbe” kifejezést használtuk az egyenletek képére utalva. Ezzel szemben a 13.2. és később a 13.3. ábrán a megfigyelt adatokat ábrázoló pontok közé az EXCEL-program által illesztett vonal nem tűnik görbének. Ennek kettős oka van, egyrészt az ábra mérete, de ennél is fontosabb a másik ok. Igen kevés adat-párral dolgoztunk az átláthatóság (oktatási cél) érdekében.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



359



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



360



yˆ i = 36,6 ∗1,0106 xi év A lineáris egyenlet paramétereinek jelentését taglaló magyarázatunkat, és a trendszámítással kapcsolatban tanultakat figyelembe véve: az exponenciális egyenlet ♥ β 0 paraméterének sincs statisztikai jelentése,

♥ a β1 paraméter szerint pedig abban az országban, ahol a férfiak születéskori várható élettartama (2003) egy évvel nagyobb, az adott évben született nők születéskori várható élettartama 1,06 %-kal magasabb. Példaként ismét megfogalmazzuk egy regresszió-értének a jelentését is. ♥ Azokban az országokban, ahol a férfiak születéskori várható élettartama 76,8 év (így Olaszországban is), a nők születésükkor – a változók között szabályos exponenciális kapcsolatot feltételezve – arra számíthatnak, hogy 82,5 évet fognak élnek. 13.2.3. Hatványkitevős kapcsolat (egyenlet)

BEMUTATÓ FELADAT 13.3.sz. tábla élettartam (év)

xi

yi

75,8 75,1 68,6 72,1 74,8 74,9 75,6 75,4 76,0 75,2 70,4 68,3 75,5

81,7 81,1 75,3 78,4 79,5 81,5 82,9 80,7 80,7 80,3 78,8 76,5 80,2

lg xi

du

d u2

lg yi

dv

d u d v yˆ i

ei2

1,8797 1,8756 1,8363 1,8579 1,8739 1,8745 1,8785 1,8774 1,8808 1,8762 1,8476 1,8344 1,8779

0,0130 0,0089 -0,0304 -0,0088 0,0072 0,0078 0,0118 0,0107 0,0141 0,0095 -0,0191 -0,0323 0,0112

0,0002 0,0001 0,0009 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002 0,0001 0,0004 0,0010 0,0001

1,9122 1,9090 1,8768 1,8943 1,9004 1,9112 1,9186 1,9069 1,9069 1,9047 1,8965 1,8837 1,9042

0,0105 0,0073 -0,0249 -0,0074 -0,0014 0,0094 0,0168 0,0051 0,0051 0,0030 -0,0052 -0,0181 0,0024

0,0001 0,0001 0,0008 0,0001 0,0000 0,0001 0,0002 0,0001 0,0001 0,0000 0,0001 0,0006 0,0000

0,0119 0,0073 0,0879 0,0164 1,6048 0,4233 2,1713 0,3155 1,1144 0,6350 2,8613 1,3374 1,3090

A dokumentum használata | Tartalomjegyzék | Táblázatok

81,6 81,0 75,6 78,5 80,8 80,8 81,4 81,3 81,8 81,1 77,1 75,3 81,3

Vissza



360



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

75,6 76,4 76,8 73,8 67,6 75,7 77,8 77,7 69,9 72,3 66,2 1.767,5



Vissza

361



81,3 1,8785 0,0118 0,0001 1,9101 0,0084 0,0001 81,4 0,0160 81,5 1,8831 0,0164 0,0003 1,9112 0,0094 0,0002 82,1 0,3416 82,9 1,8854 0,0187 0,0003 1,9186 0,0168 0,0003 82,4 0,2373 80,5 1,8681 0,0014 0,0000 1,9058 0,0041 0,0000 79,9 0,3137 74,9 1,8299 -0,0368 0,0014 1,8745 -0,0272 0,0010 74,8 0,0218 83,1 1,8791 0,0124 0,0002 1,9196 0,0179 0,0002 81,5 2,5319 83,0 1,8910 0,0243 0,0006 1,9191 0,0174 0,0004 83,2 0,0539 82,1 1,8904 0,0237 0,0006 1,9143 0,0126 0,0003 83,2 1,1031 77,6 1,8445 -0,0222 0,0005 1,8899 -0,0119 0,0003 76,7 0,8292 79,9 1,8591 -0,0076 0,0001 1,9025 0,0008 0,0000 78,7 1,4529 70,9 1,8209 -0,0458 0,0021 1,8506 -0,0511 0,0023 73,6 7,1066 1.915,3 44,8008 0 0,0095 45,6414 0 0,0073 1915,1 25,9035 reziduális átlag: átlag: 1,8667 1,9017 szórás:1,085096

Megjegyzések a 13.3. sz. táblához: • • •

A tábla ugyanazoknak az országoknak – és ugyanazon sorrendben – a megfigyelt adatait tartalmazza, mint a 13.1. sz. A számítási munkát most is az EXCEL programmal végeztük. A korábban megnevezett (lineáris megoldás) zsebszámológép segítségével is megkaphatjuk a hatványkitevős egyenlet paramétereit. Ekkor a MODE 1 4 progra-



mot kell választanunk. A feladat megoldása során a tengelyeltolásos módszerrel dolgoztunk. A módszer következménye, hogy

∑d = ∑d u

v

= 0 , az ettől való esetleges (néhány tizednyi

vagy még kisebb értékű) eltérés a kerekítések következménye.



Figyeljék meg!

∑ y = ∑ yˆ i

i

Ez az egyezőség mindig fennáll, legfeljebb a kerekí-

tések miatt adódhat csekély eltérés.



u,v = v=

egyszerű

∑ v = ∑ lg y i

n

számtani

átlag,

azaz

u=

∑ u = ∑ lg x i

n

i

és

n

i

n

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



361



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



362



a nőkre vonatkozó adatok (év)

Néhány európai ország lakosságának születéskori várható élettartama (2003) 84

y = 2,9817x 0,7646

82 80 78

Adatsor1

76

Hatvány (Adatsor1)

74 72 70 65

70

75

80

a féfiakra vonatkozó adatok (év)

magyarázó változó = a férfiak születéskori várható élettartama

13.3.sz. ábra Az európai országok férfi (= magyarázó változó) és női lakóinak (= eredményváltozó) születéskori várható élettartama között hatványkitevős kapcsolatot feltételezve, a tengelyeltolásos módszert alkalmazva a következő egyenlethez jutunk.

β1 =

∑d d ∑d u

2 u

v

=

0,0073 = 0,764595 ≅ 0,76 0,0095

lg β 0 = lg y − β1 ∗ u = 1,9017 − 0,764595 ∗ 1,8667 = 0,474457 ↓

β 0 = 2,981652 ≅ 3 év yˆ i = 3 ∗ xi0, 76 év Az egyenlet ♥ β 0 paraméterének ebben az esetben sincs jelentése, (A férfiak várható élettartama minden országban lényegesen nagyobb egy évnél280.) 280

yˆ i = β 0 , ha xi = 1

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



362



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



363



♥ β1 paramétere szerint pedig, amelyik országban 1 %-kal magasabb a férfiak születéskori várható élettartama, ott a nők születéskori várható élettartama 0,76 %-kal magasabb. A hatványkitevős egyenlet β1 paramétere tehát nem más, mint az elaszticitás (= rugalmasság). Ennek általános értelmezése: az egyik változó (pl.: az eladásra kínált áruk árának) 1 %-os változása, a másik változó (pl.: a megvásárolt áruk mennyiségének) hány %-os változását vonja maga után. Általánosságban:

E (%) =

∆y ∆x : y x

281,

ahol a törtek számlálójában a megfigyelt jelenségek abszolút változása, a nevezőben pedig azok bázis értéke található, azaz maguk a törtek a relatív változásokat fejezik ki. A rugalmasság rendkívül fontos közgazdasági kategória, lehetővé teszi a legkülönbözőbb mértékegységű és abszolút értékű jelenségek változásának összehasonlítását. A mutató rendkívüli fontossága miatt a lineáris egyenlethez kapcsolódó számítását is meg kell ismernünk. egyedi xi − yi adat-pár mellé:

E = β1

xi yˆ i

ill. x − y adat-páros mellé:

Elin = β1

281

x y

A

hatványkitevős egyenlet jelöléseit β β yˆ − yˆ1 x2 − x1 β 0 x2 − β 0 x E= 2 : = : 0,01 ≅ β1 yˆ1 x1 β 0 x1β (0,01= a magyarázó változó 1%-os változása együtthatós formában) 1

alkalmazva:

1

1

1

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



363



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



364



A hatványkitevős egyenlet β1 paramétere és a lineáris egyenlethez kapcsolódó rugalmassági együttható(k) között azonban alapvető különbség van. A görbe vonalú egyenlet ívrugalmasságot ad, ezzel szemben az egyenes vonalú kapcsolatot csak pontrugalmasságokkal tudjuk jellemezni, vagyis elméletileg annyi különböző E-értéket tudunk meghatározni, ahány pontja van az egyenesnek. (13.4. sz. tábla). Az egyes országokra vonatkozó megfigyelt adatokat most a magyarázó változó szerint növekvő sorrendben adtuk meg, így a szabályosságot is észrevehetjük. Az alacsonyabb xi értékekhez kisebb, a magasabb xi értékekhez pedig nagyobb rugalmasság tartozik, az x -átlaghoz tartozó rugalmasság pedig (13.4. sz. tábla, vastagabb számokkal írtuk, szürke háttérrel kiemeltük) megközelítőleg azonos a hatványkitevős egyenletből ismert ívrugalmassággal.

Elin = β1

x = 0,75962 ≅ β1( hatv.) = 0,764595% y

♥ A magyarázó változó átlagához tartozó rugalmasság jelentése: Ha az európai országok férfi lakosságának születéskor várható átlagéletkorának (≅ 73,7 év) környezetében 1 %-os változás történik, akkor – a változók között lineáris kapcsolatot feltételezve – arra számíthatunk, hogy a nők születéskor várható átlagéletkorának (≅ 79,8 év) környezetében ≅ 0,76 %-os változás történik. (A kapcsolat az egységnyi rugalmasságnál kisebb.) Hasonlóképpen lehet megfogalmazni a több kiszámított adatot. Pl.: ♥ A nők születéskori várható élettartamának (≅ 73,7 év) környezetében ≅ 0,74 %-os változásra számíthatnak azokban az országokban, ahol a férfiak születéskori várható élettartamának (≅ 66,2 év) környezetében 1 %-os változás történik. (A két élettartam között lineáris kapcsolatot feltételezve.) 13.4.sz. tábla

xi

yi

yˆ i

E (%)

66,2 67,6 68,3 68,6 69,9

70,9 74,9 76,5 75,3 77,6

73,7 74,8 75,4 75,7 76,7

0,739623 0,743633 0,745592 0,746423 0,74996

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



364



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

70,4 72,1 72,3 73,64583 73,8 74,8 74,9 75,1 75,2 75,4 75,5 75,6 75,6 75,7 75,8 76,0 76,4 76,8 77,7 77,8

78,8 78,4 79,9 79,80417 80,5 79,5 81,5 81,1 80,3 80,7 80,2 82,9 81,3 83,1 81,7 80,7 81,5 82,9 82,1 83

77,1 78,5 78,7 79,9 80,8 80,8 81,0 81,1 81,2 81,3 81,4 81,4 81,5 81,6 81,7 82,1 82,4 83,1 83,2

Vissza



365



0,751294 0,755726 0,756237 0,75962 0,760002 0,762448 0,76269 0,763173 0,763413 0,763892 0,764131 0,76437 0,76437 0,764608 0,764845 0,765319 0,76626 0,767194 0,769269 0,769497

13.2.4. A kétváltozós kapcsolatok szorossági mutatói

A megfigyelt változók között egyenes vonalú kapcsolatot feltételezve a lineáris korrelációs együttható (r ) és a korrelációs index (I ) , görbe vonalú kapcsolatot feltételezve pedig csak a korrelációs index (I ) számítására van lehetőségünk. Ezek fejezik ki a kapcsolat szorosságát. A lineáris korrelációs együttható alapgondolata a következő.

• Ha két változó között pozitív kapcsolat van, akkor o az egyik átlagos értékéhez a másik átlagos értéke; o az egyik átlag feletti értékéhez, a másik átlag feletti értéke, és o az egyik átlag alatti értékéhez a másik átlag alatti értéke tartozik. • Ha a két változó között negatív kapcsolat van, akkor o az egyik átlagos értékéhez a másik átlagos értéke; o az egyik átlag alatti értékéhez a másik átlag feletti értéke, és o az egyik átlag feletti értékéhez a másik átlag alatti értéke tartozik.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



365



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



366



A fentiek alapján logikus, ha a változók értékeinek saját átlaguktól való eltérését (d x , d y → d x d y ) használjuk a kapcsolat szorosságának kimutatására. Az eltérés szorzatok összegének előjele a kapcsolat jellegét adja meg. Ez negatív, ha a változók „ellenkező irányban mozognak”. (Például, ha a családok egy főre jutó jövedelmének alakulását vizsgáljuk az eltartottak számának függvényében.) A kapcsolat pedig pozitív, ha a változók „azonos irányban mozognak”. (Például, ha a szórakozási kiadások értékét vizsgáljuk a jövedelmek nagyságának függvényében.) Határértékkel rendelkező mutatóhoz pedig akkor jutunk, ha az eltérés szorzatok összegét (= az együttes szórást) annak maximális értékéhez viszonyítjuk.

r=

∑d d ∑d ∑d x

2 x

y

2 y

=

(∑ x

∑x y i

2 i

− nx

2

i

− nx y

)(∑ y

2 i

− ny

2

)

= β1

σx σy

282

A lineáris korrelációs együttható (= r ) négyzetét determinációs együtthatónak = r 2 nevezzük és %-os formában értelmezzük. Ez a mutató a befolyásolás mértékét mutatja meg.

(

)

A lineáris korrelációs együttható és a determinációs együttható határértékei, és azok jelentése azonos a H ill. a H 2 mutatóknál megtanultakkal. A nulla r esetén itt is a kapcsolat hiányát az egy ill. az ahhoz közeli érték a szoros kapcsolatot jelzi; r 2 (% ) esetén a nulla érték azt jelzi, hogy a magyarázó változó növekedése vagy csökkenése nincs befolyásoló hatással az eredményváltozóra, míg a 100 % vagy az ahhoz közeli érték azt jelenti, hogy a magyarázó változón kívüli tényezők nem nagyon befolyásolják az eredményváltozó alakulását. A lineáris korrelációs együttható és az abból számított determinációs együttható sajátossága, hogy nagyságukat a változók szerepének felcserélése nem befolyásolja.283 A korrelációs index (= I ) a H mutatóhoz hasonlóan a teljes szórás (=az eredményváltozó megfigyelt értékeinek szórása) összetevőkre bontá282

A mutatóban szereplő betűk jelentése korábbról már ismert. A mutatónak egyéb felírásai is ismertek. 283 Matematika: a szorzás tényezőinek sorrendje…

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



366



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

367



sán (= a regresszió-értékek szórása és a rezídiumok (e = yi − yˆ i ) szórása) alapszik. Határértékei és azok jelentése pedig az előzőekben leírtakkal (r ) azonos. Ugyanez igaz korrelációs index négyzetére is, melyet szin-

tén determinációs együtthatónak (= I ) nevezünk. A korrelációs indexnek előjele nincs, így a kapcsolat jellegét nem mutatja meg. 2

I = 1−

σe =

∑e

σ y2ˆ σ e2 ∑ ei2 ,284 ahol = ≅ 1 − σ y2 σ y2 ∑ d y2

2 i 285

, σy =

n−2

∑d

2 y

n −1

és σ yˆ =

∑ ( yˆ

− y)

2

i

n −1

BEMUTATÓ FELADAT Az előzőek folytatása (13.1., 13.2., 13.3. táblák alapján). Lineáris kapcsolat:

∑d d ∑d ∑d x

r=

2 x

y

2 y

= 0,823140587 ∗

I = 1−

=

σ 215,6954 = β1 x = σy 262 ∗ 203,7

3,375356 ≅ 0,933 → r 2 ≅ 87% 2,976353

σ y2ˆ 1,0913282 2,7783922 σ e2 = 1 − = = ≅ 2,9763532 2,9763532 σ2 σ y2 y

≅ 1−

284

sül. 285

A

∑e ∑d

σ y2 = σ y2ˆ + σ e2

2 i 2 y

= 1−

26,2093 ≅ 0,93 → I 2 ≅ 86,6% 203,7

összefüggés tökéletesen csak a lineáris kapcsolat esetén érvénye-

σ e = reziduális szórás, a nevezőben (n − 2 ) = a szabadságfok. (A másik két szórás-

ban (n − 1) szintén a szabadságfok. Lásd: becslés)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



367



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



368



Exponenciális kapcsolat:

σ y2ˆ σ e2 1,0913282 2,801424 2 = = ≅ I = 1− 2 = 1− σ σ y2 2,9763532 2,9763532 y



∑e 1− ∑d

2 i 2 y

= 1−

27,2827 ≅ 0,93 → I 2 ≅ 86,6% 203,7

Hatványkitevős kapcsolat:

σ y2ˆ 1,0850962 2,8103782 σ e2 I = 1− 2 = 1− = = ≅ 2,9763532 2,9763532 σ σ y2 y

≅ 1−

∑e ∑d

2 i 2 y

= 1−

25,9035 ≅ 0,931 → I 2 ≅ 86,7% 203,7

♥Az európai országok férfi és női lakóinak születéskori várható élettartama (2003) közötti kapcsolatot mind a három mutató (gyakorlatilag) egyformán szorosnak jelzi. A férfiak születéskori várható élettartama erősen, ≅ 87 %-ban befolyásolja a nők születéskori várható élettartamát.286 Milyen következtetést vonhatunk le a mutatók számértékének (itt csekély) eltéréséből? Az egyenesen (lineáris kapcsolat) és a görbéken (exponenciális, hatványkitevős kapcsolat) lévő pontok nem egyforma távolságra vannak a megfigyelt pontoktól, azaz a három egyenlet nem egyformán jól jellemzi a kapcsolatot. A különbség jelen esetben ugyan igen kicsi, de ∑ ei2 a hatványkitevős kapcsolatnál a legkisebb (≅ 25,9 ) , ezért I itt a legnagyobb (≅ 0,931) , vagyis ha további (pl.:becslési287) feladatokat kell végeznünk, akkor azokhoz célszerű a hatványkitevős egyenletet felhasználni.

286

A lineáris korreláció együttható jelentését így is megfogalmazhatjuk: a nők születéskori várható élettartama 87 %-ban befolyásolja a férfiak születéskori várható élettartamának alakulását (szóródását). Sőt így is fogalmazhatunk: a vizsgált változók kölcsönösen 87 %ban magyarázzák meg egymás alakulását (szóródását). 287 Becslési feladatokat tananyagunk azonban csak a lineáris egyenlethez kapcsolódóan tartalmaz.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



368



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Korreláció-, regresszió-számítás Vissza



369



13.2.5. Betekintés a lineáris kapcsolathoz tartozó becslési és ipotézisellenőrzési feladatokba

Tekintettel arra, hogy a mennyiségi változók közötti kapcsolatok vizsgálatához sem tudunk teljes körű adatgyűjtést végezni, azaz számításainkat szinte minden esetben mintasokaságok alapján végezzük, a paramétereket és a regresszió-értékeket egyaránt valószínűségi változónak kell tekintenünk. A valószínűségi változókról pedig tudjuk, hogy azok értéke mintáról mintára kisebb nagyobb mértékben ingadozik, ezért célszerűnek látszik azt az intervallumot is megismerni, melyben ezek a becsült értékek adott valószínűség mellett megtalálhatóak. Továbbá célszerű kételkedni a kapcsolat szignifikáns jellegében, és ellenőrizni azt. A paraméterek és a regresszió-értékek intervallumának becslése hasonló módon történik, mint a számtani átlag becslése.

• Pontbecslés (= a tanult képletek alapján). • A standardhiba kiszámítása. • Az adott valószínűség és szabadságfok alapján a megfelelő táblabeli érték kikeresése. • A hibahatár kiszámítása. • Az intervallum határaink felírása. A standardhibák képleteinek felsorakoztatása előtt egy kis kitérőt kell tennünk. A regresszió-értékeket ugyanis kétféle felfogásban kezelhetjük. A férfiak és nők születéskori várható élettartamára vonatkozó többféleképpen is megoldott példánkban szerepelő adat a ≅ 75 éves férfiakra vonatkozó életkor felfogható a környezetében elhelyezkedő értékek (Belgium 75,1 év; Dánia 74,8 év; Finnország 74,9 év; Görögország 75,4 év; Írország 75,2 év stb.) átlagának, és felfogható egyedi értéknek. Az átlagos értékek becslése kisebb, az egyedi értékek becslése pedig nagyobb hibával végezhető, így a regresszió értékek becsléséhez két standardhiba képletre van szükségünk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



369



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



370



A lineáris egyenlet β 0 paraméterének standardhibája:

σβ =σe 0

∑x n∑ d

2 i 2 x

A lineáris egyenlet β1 paraméterének standardhibája:

1 = ∑ d x2

σβ =σe 1

σe

∑d

2 x

Az átlagos regresszió érték ( yˆ i ) standardhibája: 1 ( xi − x ) + n ∑ d x2

2

σ yˆ = σ e i

Az egyedi regresszió érték ( yˆ i ) standardhibája: 1 ( xi − x ) + + 1 288 n ∑ d x2 2

σ yˆ = σ e i

A hibahatár – ahogy azt a becsléssekkel kapcsolatban már bemutattuk – egy táblabeli érték és a standard hiba szorzataként számítható ki. A szükséges tábla jelen esetben a Student-féle t-eloszlás. A becslés szabadságfoka ( v = a tábla oldalrovatában találhatjuk értékeit) = (n − m − 1) 289, tekintettel arra, hogy a regresszió egyenleteknek két mintáról mintára ingadozó paramétere (β 0 , β1 ) van. A táblában való keresésnél a becslés valószínűségének (értékei a fejlécből olvashatók le együtthatós formában) figyelembe vétele 1− P ⎞ ⎛ ugyanúgy történik, mint az átlagok kétoldalú becslésénél, azaz ⎜ P + ⎟. 2 ⎠ ⎝ 288

Az egyedi és az átlagos regresszió érték standard hibájának számítása mindössze a négyzetgyök jel alatti „+1” tagban tér el. Ez a látszólag csekély eltérés azt eredményezi, hogy az egyedi regresszió érték standard hibája nagyobb, az átlagos regresszió érték standard hibája pedig kisebb a reziduális szórásnál. 289 m = az egyenlet magyarázóváltozóinak száma

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



370



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



371



Az eddigiek alapján a becsült értékek intervallumának képletei: A lineáris egyenlet β 0 paraméterének kétoldalú intervalluma:



[β 0 ± ∆] = ⎢β 0 ± t⎛ P+1− P ⎞ ∗ σ β ⎢⎣

⎜ ⎝

⎟ 2 ⎠

⎤ ⎥ 0 ⎥⎦

A lineáris egyenlet β1 paraméterének kétoldalú intervalluma:





[β1 ± ∆] = ⎢β1 ± t⎛ P+1−P ⎞ ∗ σ β ⎥ ⎢⎣

⎜ ⎝

1

⎟ 2 ⎠

⎥⎦

Az átlagos és az egyedi regresszió érték ( yˆ i ) kétoldalú intervalluma:





[ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ⎢⎣

⎜ ⎝

⎟ 2 ⎠

i

⎥⎦

A kapcsolat jelentősségének ellenőrzése is hasonlóan folyik, mint ahogy azt a korábbiakban (lásd: két számtani átlag, két szórás stb. összehasonlítása) ismertettük. A hipotézisek felírása A megfelelő próbafüggvény kiválasztása, aktuális értékének kiszámítása. A próbafüggvényhez illő táblából az adott ellenőrzési szinthez és adott szabadságfokhoz tartozó érték kikeresése. A próbafüggvény értékének és a táblabeli értéknek összehasonlítása alapján döntéshozatal. 1. A kapcsolat szignifikáns voltának ellenőrzésére az alábbi két hipotézis írjuk fel.

H 0 : β1 = 0 H 1 : β1 ≠ 0 Emlékezzünk matematikai tanulmányainkra! Ha egy függvény meredeksége = 0, akkor a függvény a vízszintes tengellyel párhuzamosan halad, és teljesen mindegy, hogy a független változó (= statisztikában a magyarázó változó) milyen értéket vesz fel, a függő változó (statisztikában az eredményváltozó) értékei rendre azonosak, vagyis y teljesen független x -től.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



371



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



372



2. Az elméletben előforduló próbafüggvények közül kettővel ismerkedünk meg, az egyik (= t − próba ) a vizsgált paraméternek a saját standard hibájához való viszonyára alapozza a döntést, a másik (= F − próba ) pedig tulajdonképpen varianciaanalízis290, azaz az eredményváltozó szórásnégyzetét összetevőire bontja, majd ezeket hasonlítja egymáshoz.

t=

β1 σβ

1

SSR MSR F= = 1 = MSE SSE n−2

∑ ( yˆ

− y)

2

i

1

∑ ( y1 − yˆ1 )2 n−2

3. A szükséges tábla a próbafüggvény betűjeléből egyértelműen leolvasható. Ha az ellenőrzést a t − próbával akarjuk megoldani, akkor az adott valószínűségi értéket a táblában való kereséshez éppúgy át kell alakítani (= kétoldalú próba), mint ahogy azt pl. a számtani átlagok összehasonlításakor megtettük. (Az átalakított valószínűségi értéket pedig együtthatós formában a Student-tábla fejlécében találjuk meg.) A hipotézisellenőrzés szabadságfoka: (v = n − 2 ) . Ennek magyarázatát a becsléssel kapcsolatban már leírtuk. (A szabadságfokot a nevezett tábla oldalrovatában találjuk meg.) Ha az ellenőrzést a F − próbával akarjuk megoldani, akkor az adott valószínűségi értéket a táblában való kereséshez nem kell átalakítani (= egyoldalú próba), de ezt az értéket most a tábla címében kell keresnünk. (Lásd: 10. és 11. fejezetek. Emlékezzen, a tábla fejlécét és oldalrovatát a számlálóra (v1 = 1) ill. a nevezőre (v2 = n − 2 ) vonatkozó szabadságfokok foglalják el.) 4. Döntésünket tökéletesen úgy hozzuk meg, mint a korábbiakban.

• Ha a próbafüggvény számított értéke kisebb, mint a táblából kikeresett érték, akkor a null-hipotézist, • ha pedig a próbafüggvény számított értéke nagyobb, mint táblából kikeresett érték, akkor az alternatív-hipotézist fogadjuk el.

290

Tekintettel arra, hogy szinte minden tankönyv közli a képletben szereplő adatok angol megnevezésének rövidítését, mi is közöljük Vegyük észre a számlálóban tulajdonképpen a regresszió szórásnégyzete, a számlálóban pedig a reziduális szórásnégyzet szerepel.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



372



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



373



BEMUTATÓ FELADAT Az előzőek folytatása (13.1. sz. tábla alapján). A lineáris egyenlet β 0 paraméterének standardhibája:

σβ =σe 0

∑x n∑ d

2 i 2 x

=1,091328

130431,05 = 4,97037924 24 ∗ 262

A lineáris egyenlet β1 paraméterének standardhibája:

σβ =σe 1

1 = ∑ d x2

σe

∑d

2 x

=

1,091328 = 0,067422469 262

A Student táblából kikeresett érték P = 95% valószínűség mellett: −2 t 024.975 = 2,07

A lineáris egyenlet β 0 paraméterének kétoldalú intervalluma:

[β 0 ± ∆] = [19,18 ± 2,07 ∗ 4,97] ≅ [8,9〈 β 0 〈 29,5] év A lineáris egyenlet β1 paraméterének kétoldalú intervalluma:

[β1 ± ∆] = [0,82 ± 2,07 ∗ 0,067] ≅ [0,68〈 β1 〈0,96] év Az intervallumok határainak jelentése: ♥ A 24 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy az európai férfiak és nők születéskori várható élettartama közötti kapcsolatot leíró lineáris regresszió egyenlet β 0 paramétere legalább 8,9 és legfeljebb 29,5; β1 paramétere pedig legalább 0,68 és legfeljebb 0,96 év. De így is fogalmazhatunk: ♥ A férfiak és a nők születéskori várható élettartama között lineáris kapcsolatot feltételezve, a 24 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy ha az európai férfiak születéskori várható élettartama 1 évvel változik, akkor a nők születéskori várható élettartama legalább 0,68 és legfeljebb 0,96 évvel változik. A regresszió értékek intervallumai:

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



373



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



374



ország

13.5.sz. tábla

σ yˆ

i

átlagos

∆ yˆi

az átlagos intervallum σ yˆi határai egyedi alsó felső

∆ yˆi

az egyedi intervallum határai alsó felső

1. 0,265925 0,551495 81,0 82,1 1,12326 2,329499 79,2 2. 0,243384 0,504748 80,5 81,5 1,118138 2,318876 78,7 3. 0,406627 0,843292 74,8 76,5 1,164621 2,415276 73,2 4. 0,245939 0,510046 78,0 79,0 1,118697 2,320035 76,2 5. 0,235965 0,489361 80,3 81,2 1,116547 2,315576 78,4 6. 0,238273 0,494148 80,3 81,3 1,117037 2,316592 78,5 7. 0,258808 0,536735 80,9 81,9 1,121596 2,326049 79,1 8. 0,252211 0,523055 80,7 81,8 1,120093 2,32293 78,9 9. 0,273522 0,56725 81,2 82,3 1,125083 2,333279 79,4 10. 0,357855 0,742146 82,5 84,0 1,148502 2,381848 80,8 11. 0,246177 0,51054 80,6 81,6 1,118749 2,320144 78,8 12. 0,312265 0,647598 76,5 77,8 1,135124 2,354103 74,8 13. 0,423692 0,878682 74,5 76,3 1,170688 2,427859 73,0 14. 0,255442 0,529754 80,8 81,9 1,120824 2,324448 79,0 15. 0,258808 0,536735 80,9 81,9 1,121596 2,326049 79,1 16. 0,290002 0,601428 81,5 82,7 1,129203 2,341823 79,7 17. 0,307966 0,638682 81,8 83,0 1,133949 2,351666 80,0 18. 0,223009 0,462492 79,5 80,4 1,113881 2,310047 77,6 19. 0,464498 0,963309 73,9 75,8 1,186067 2,459752 72,4 20. 0,262304 0,543985 81,0 82,0 1,122408 2,327732 79,2 1,146877 2,378477 80,8 21. 0,352604 0,731255 82,4 83,9 1,142101 2,368573 74,4 22. 0,336747 0,69837 76,0 77,4 1,117521 2,317598 76,4 23. 0,240535 0,49884 78,2 79,2 1,221722 2,533696 71,1 24. 0,549188 1,138946 72,5 74,8 Az országok sorrendje azonos, mint a 13.1., 13.2. és 13.3. sz. táblában.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza

83,9 83,3 78,1 80,9 83,1 83,2 83,7 83,6 84,1 85,6 83,4 79,5 77,8 83,7 83,7 84,4 84,8 82,2 77,3 83,8 85,5 79,1 81,0 76,2



374



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



375



Az Ausztriára vonatkozó adatok számítása, jelentése:

• Átlagos:





[ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ≅ [81,6 ± 2,07 ∗ 0,266] ≅ [81,6 ± 0,55] ⎣⎢

⎜ ⎝

⎟ 2 ⎠

⎦⎥

i

♥ A 24 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy azokban az európai országokban, ahol a férfiak születéskori élettartama átlagosan 75,8 év (13.1. sz. tábla) ott a nők születéskori várható élettartama – a változók között lineáris kapcsolatot feltételezve –legalább 81 és legfeljebb 82,1 év. (Az intervallum szélessége = 2 ∗ ∆ = 1,1 ) • Egyedi:





[ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ≅ [81,6 ± 2,07 ∗1,123] ≅ [81,6 ± 2,33] ⎣⎢

⎜ ⎝

⎟ 2 ⎠

i

⎦⎥

♥ A 24 elemű EV minta alapján 95 %-os valószínűséggel állíthatjuk, hogy abban az európai országoban, ahol a férfiak születéskori élettartama 75,8 év (13.1. sz. tábla) ott a nők születéskori várható élettartama – a változók között lineáris kapcsolatot feltételezve –legalább 79,2 és legfeljebb 83,9 év. (Az intervallum szélessége = 2 ∗ ∆ = 4,7 . Jól látható tehát, hogy az egyedi becslés intervalluma, a nagyobb standard hibának köszönhetően – azonos becslési valószínűség mellett – 0,82 β1 t = = ≅ 12,24 lényegesen nagyobb.) σ β1 0,067 Ellenőrizzük 2,5; 5 ill. 10 %-os szignifikancia szinten, hogy szignifikáns-e a kapcsolat a férfiak és a nők születéskori várható élettartama között az európai országokban! A hipotéziseket nem ismételjük meg, hiszen azok példa-függetlenek (állandóak). SSR MSR = 1 = F= MSE SSE n−2

∑ ( yˆ

− y)

2

i

1 2 ∑ ( y1 − yˆ1 ) n−2

177,5477 1 = = 155,85 26,20193 23

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



375



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



376



a 13.3. sz. tábla kiegészítése A nők születéskori várható élettartamára vonatkozó lineáris regresszióértékek szórásának mellékszámítása. (Az adatok az eredeti táblában szereplő sorrendben – 1. sor, 2. sor., 3. sor – kerültek feltüntetésre: Ausztria → Törökország) 3,1442 1,6366

1,4328 7,1384

17,251 19,3633

1,6191 2,3294

0,9026 2,5875

1,0658 5,1396

2,8590

11,6927

11,1366

9,5070

1,2272

37,5642

2,5875 2,0849 6,7409 0,0161 összeg: 177,5477

3,7551 24,7663

A t − próbához kikeresett, a megadott szignifikancia-szintekhez tartozó táblabeli értékek: t 023,95 = 1,71

t 023,975 = 2,07

t 023,9875≈0,99 = 2,12

Az F − próbához kikeresett, a megadott szignifikancia-szintekhez tartozó táblabeli értékek: F01,;923 = 2,92

F01,;9523 = 4,28

23 F01,;975 = 5,75

A próbafüggvények értékei valamennyi táblából kikeresett értéknél nagyobbak, így minden esetben ugyanazt a döntést kell hoznunk.

H 0 : β1 = 0 → elvetve H 1 : β1 ≠ 0 → elfogadva

♥ A 24 elemű minta alapján 2,5; 5,0 és 10,0 %-os szignifikancia-szinten is állíthatjuk, hogy az európai országokban a férfiak és a nők születéskori várható élettartama között nem elhanyagolható lineáris kapcsolat áll fenn. 13.3. Háromváltozós elemzések 13.3.1. Három változó regresszió-számítás

Tananyagunk, elsősorban technikai okok miatt, a többváltozós összefüggések közül csak azzal az esettel foglalkozik, amikor az eredményváltozó ( yi ) alakulását két magyarázó változó (x1 , x2 ) alakulásával hozza összefüggésbe. A témakör további szűkítését jelenti, hogy csak a lineáris kapcsolatot leíró egyenletet ill. az ahhoz tartozó szorossági mutatókat tárgyaljuk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



376



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



377



A háromváltozós lineáris regresszió-egyenlet:

yˆ i = β 0 + β1 x1i + β 2 x2i A képletben szereplő betűk jelentése az eddigiek alapján egyértelmű. (Lásd: 13.2.sz. fejezet) A magyarázó változók ( x1 , x2 ) futóindexében szereplő 1 ill. 2 a változó sorszáma, az i pedig a megfigyelések sorszáma.

A megfigyelt pontok közé ebben az esetben is a legkisebb négyzetek módszerével illesztjük az egyenest. A parciális deriválás és a lehetséges matematikai egyszerűsítések után most három normálegyenletet kapunk.

∑y ∑x ∑x A

(x

tengelyeltolás

→ d x2 = x 2 i − x 2 egyszerűsödnek. 2i

i

= nβ 0 + β1 ∑ x1i + β 2 ∑ x2i

1i

yi = β 0 ∑ x1i + β1 ∑ x12i + β 2 x1i x2i

2i

yi = β 0 ∑ x2i + β1 ∑ x1i x2i + β 2 x22i

)

módszerét

(y

és

1

alkalmazva

y

= β1 ∑ d12 + β 2 ∑ d1d 2

∑d d

y

= β1 ∑ d1d 2 + β 2 ∑ d 22

2

)

→ d y = yi − y ) – a normálegyenletek így

∑d d 1

(

– x1i → d x1 = x1i − x1 ,

β 0 = y − β1 x1 − β 2 x2 A harmadik „maradék-egyenlet” már képlet, logikailag azonos a kétváltozós egyenlet β 0 paraméterének képletével. Újabban291 szokás a másik két „maradék-egyenlet” átrendezésével β1 és β 2 regressziós együtthatókra is képletet292 felírni.

291

A régebbi tankönyvek kivétel nélkül az egyenletek matematikai megoldásával dolgoznak. 292 Ennek elsősorban technikai jelentősége van. A munkatábla összesen oszlopaiban szereplő adatokat a megfelelő műveleti jelek és a szükséges zárójelek közbeiktatásával folyamatosan billentyűzhetjük be a zsebszámológépbe, majd az egyenlőségjel billentyű lenyomása után azonnal megkapjuk a regressziós paraméter értékét. (Elmarad az

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



377



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d ∑d d − β ∑d d = ∑d d − β ∑d = ∑d ∑d d 1

β2 =

1

y

1

2

2

1

β1

Vissza

y

2 2 1

2

378



2 1

y

2 2

2

1

2



2 1

2

y

2

1

2 2

2

A háromváltozós lineáris egyenlet β 0 paraméterének statisztikai értelmezéséhez nem egyszerűen azt kell megvizsgálnunk, hogy a magyarázó változók felvehetik-e és felveszik-e (a megfigyelt értékek között szerepel-e) a nulla értéket (lásd: kétváltozós), hanem arra is figyelnünk kell, hogy megtörténik-e ez egyszerre. Ha igen, akkor

β 0 = (x1 = x2 = 0) - helyen vett regresszióérték. Ha nem, akkor β 0 -nak statisztikai jelentése nincs. Az egyenlet β1 paramétere csak constans (= állandó) második magyarázóváltozó mellett ill. a β 2 paramétere csak constans (= állandó) első magyarázó változó mellett lehetséges. Így β1 megmutatja, hogy az első magyarázóváltozó egységnyi abszolút változása mekkora abszolút változást okoz az eredményváltozóban, β 2 pedig megmutatja, hogy a második magyarázóváltozó egységnyi abszolút változása mekkora abszolút változást okoz az eredményváltozóban. (Ezért szokás parciális regressziós együtthatónak nevezni a β1 és a β 2 paramétereket.)

egyenletek papíron való rendezgetése.) Hasonló segítséget jelentenek a képletek az EXCEL-programmal való munkavégzés esetén is.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



378



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



379



BEMUTATÓ FELADAT 13.6./1. sz. tábla A rendszeres szociális segélyben részesülők (= 1..), az alkalmazásban állók havi nettó átlagkeresete (= 2.) és a regisztrált munkanélküliek (= 3. ) száma megyénként, 2003293 1. 2. 3. d y = yi − y d1 = x1i − x1 d 2 = x2i − x2 sor-szám megye ezer fő ezer Ft ezer fő 1 Pest 3,1 85,6 16,8 -3,931578947 5,605263 -1,14736842 2 Fejér 2,4 87,1 13,2 -4,631578947 7,105263 -4,74736842 3 Komárom-E. 1,4 83,9 7,6 -5,631578947 3,905263 -10,3473684 4 Veszprém 2,4 79,1 12,4 -4,631578947 -0,89474 -5,54736842 5 Győr-M.-S. 0,8 86,1 8,1 -6,231578947 6,105263 -9,84736842 6 Vas 0,9 80,3 6,7 -6,131578947 0,305263 -11,2473684 7 Zala 2,2 78,9 9,8 -4,831578947 -1,09474 -8,14736842 8 Baranya 8,8 80,8 19,7 1,768421053 0,805263 1,75263158 9 Somogy 7,1 75,4 17,6 0,068421053 -4,59474 -0,34736842 10 Tolna 3,4 81,0 11,4 -3,631578947 1,005263 -6,54736842 11 Borsod-A.-Z. 33,3 79,6 53,6 26,26842105 -0,39474 35,6526316 12 Heves 5,8 80,4 13,1 -1,231578947 0,405263 -4,84736842 13 Nógrád 5,5 77,7 13,3 -1,531578947 -2,29474 -4,64736842 14 Hajdú-B. 12,9 78,3 27,9 5,868421053 -1,69474 9,95263158 15 Jász-N.-Sz. 6,7 77,0 17,9 -0,331578947 -2,99474 -0,04736842 16 Szabolcs-Sz.-B. 20,7 75,5 36,9 13,66842105 -4,49474 18,9526316 17 Bács-K. 5,5 76,3 22,1 -1,531578947 -3,69474 4,15263158 18 Békés 7,8 76,1 17,2 0,768421053 -3,89474 -0,74736842 19 Csongrád 2,9 80,8 15,7 -4,131578947 0,805263 -2,24736842 összesen 133,6 1519,9 341 0 0 0 átlag 7,031579 79,99474 17,94737

Azt feltételezve, hogy szociális segélyt azok kérnek, akik munkanélküliek (= korábbi jövedelmüket a munkanélküli segély meg sem közelíti, vagy nem is kapnak segélyt), ill. akik alacsony keresetből kénytelenek élni, családot fenntartani, kerestük a kapcsolatot:

293

Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004, 108., 109. és 175. old.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



379



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



380



• a rendszeres szociális segélyben részesülők (= eredményváltozó = yi ) száma (ezer fő) és • a nettó átlagkeresetek (ezer Ft / hó) (= első magyarázó változó = x1 ) valamint • a regisztrált munkanélküliek száma (= ezer fő) (= második magyarázó változó = x 2 ) között. A számításokhoz a normálegyenletekben ill. a képletekben szereplő adatoknak megfelelően állítottuk össze a munkatáblát (13.6.1. és 13.6.2. sz.) tekintettel arra, hogy a tengelyeltolásos módszert alkalmaztuk, kiszámítottuk (= egyszerű számtani átlag) a megfigyelt adatok számtani középértékét. ♥ 2003-ban egy-egy magyar megyében átlagosan ≅7030 fő részesült rendszeres szociális segélyben. ♥ 2003-ban egy-egy magyar megyében az alkalmazottak átlagosan ≅80 ezer Ft nettó átlagbért kaptak havonta. ♥ 2003-ban egy-egy magyar megyében átlagosan ≅17950 fő munkanélkülit tartottak nyilván. 13.6./2. sz. tábla A 13.6./1. tábla folytatása (= a tábla jobb oldalára)294

d y2

d12

d 22

d y d1

d yd2

d1 d 2

yˆ i

ei2 = ( yi − yˆ i )

15,4573 21,4515 31,7147 21,4515 38,8326 37,5963 23,3442 3,1273 0,00468 13,1884 690,0300

31,4190 50,4848 15,2511 0,8006 37,2742 0,0932 1,1984 0,6484 21,1116 1,0106 0,1558

1,3165 22,5375 107,0680 30,7733 96,9707 126,5033 66,3796 3,0717 0,1207 42,8680 1.271,1101

-22,0375 -32,9086 -21,9928 4,1440 -38,0454 -1,8717 5,2893 1,4240 -0,3144 -3,6507 -10,3691

4,5110 21,9878 58,2720 25,6931 61,3647 68,9641 39,3647 3,0994 -0,0238 23,7773 936,5383

-6,4313 -33,7313 -40,4092 4,9634 -60,1208 -3,4334 8,9192 1,4113 1,5961 -6,5818 -14,0734

5,8848 3,3399 -0,2567 3,3199 -0,0609 -0,6327 1,5659 8,1700 7,0963 2,5159 31,2887

7,7551 0,8833 2,7446 0,8462 0,7411 2,3491 0,4021 0,3969 1,36E-05 0,781713 4,0454

2

294

Ahogy már többször jeleztük, a számításokat az EXCEL-program végezte, majd kerekítettünk (négy tizedesre). (Ha az adatok összegzését ellenőrizni akarja, ezt vegye figyelembe.)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



380



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



381



1,5168 0,1642 23,4970 -0,4991 5,9699 -1,9644 3,7105 4,3658 2,3457 5,2658 21,5980 3,5146 7,1178 10,6645 4,0232 2,1808 34,4384 2,8721 99,0549 -9,9454 58,4062 -16,8671 13,9068 1,0137 0,1099 8,9684 0,0022 0,9930 0,0157 0,1419 7,1955 0,2455 186,8257 20,2027 359,2022 -61,4360 259,0526 -85,1871 20,2070 0,2431 2,3457 13,6511 17,2443 5,6588 -6,3601 -15,3429 10,0958 21,1214 0,5905 15,1690 0,5586 -2,9930 -0,5743 2,9108 6,7786 1,0432 17,0700 0,6484 5,0507 -3,3270 9,2852 -1,8097 5,4514 6,5098 1141,4412 226,3895 2.294,9274 -188,3668 1.576,4616 -255,34526 133,6000 57,6688

A számtani középértékek meghatározását követte az átlagtól való eltérések számítása ( ∑ d y = ∑ d1 = ∑ d 2 ); majd az eltérésnégyzetek (= ezekből meghatároztató mindegyik változó szórása), és a az eltérés szorzatok meghatározása. y-ra: σ =

7,96 1141,44105 ≅ 7,96efő → v = → 113,2% 7,03 18

x1 –re: σ =

226,38947 12,58 ≅ 12,58eFt → v = → 15,7% 18 79,99

x2 –re: σ =

2294,92737 11,29 ≅ 11,29efő → v = → 62,9% 18 17,95

A relatív szórások – az eltérő mértékegységek és jelentés miatt csak ezek hasonlíthatók össze – nagyon különbözőek. Ha végigtekintünk a megfigyelt adatokon ez mindjárt érthetővé válik. A nettó átlagkeresetek egy viszonylag szűk ( T = x1max − x1min = 87,1 − 75,4 = 11,7 ) intervallumban helyezkednek el, ezzel szemben a rendszeres segélyben részesülők száma egy igen széles ( T = y max − y min = 33,3 − 0,8 = 32,5 ) intervallumban található. (A kiszámított szórások felhasználhatóak a szorossági mutatók meghatározásához is.) A mellékszámítások elvégzése után a képletek segítségével meghatároztuk a háromváltozós lineáris regresszió-egyenlet paramétereinek értékét.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



381



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

β2 =

Vissza

∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d 1

1

y

2

2

1

2

2

y

2 2

2 1

2 1



382



=

(− 188,36684) ∗ (− 255,34526) − 1576,46158 ∗ 226,38947 = 0,679649 ≅ 0,68 (− 255,34526)2 − 2294,92737 ∗ 226,38497 = β1

∑d d = 1

y

− β 2 ∑ d1 d 2

∑d

2 1

∑d d − β ∑d = ∑d d 2

y

2

1

2

2 2

=

− 188,36684 − 0,679649 ∗ (− 255,34526) = −0,06547 ≅ −0,065 226,38947 = =

1576,46158 − 0,679649 ∗ 2294,92737 = −0,06547 ≅ −0,065 − 255,34526

β 0 = y − β1 x1 − β 2 x2 = = 7,031579 − (−0,06547) ∗ 79,99474 − 0,679649 ∗ 17,94737 = 0,070963 ≅ 0,071 A keresett egyenlet:

yˆ i = 0,071 − 0,065 x1i + 0,68 x2i (ezer Ft)

♥ β 0 ≅ 0,071 , tekintettel arra, hogy a magyarázó változók megfigyelt értékei között nem szerepelt 0, ennek a paraméternek ebben az egyenletben nincs statisztikai jelentése. ♥ β1 ≅ −0,065 , ha két megyében azonos a regisztrált munkanélküliek száma (= constans a 2. magyarázó változó), akkor abban, ahol ezer forinttal (= egy egységgel) nagyobb a nettó havi átlagkereset 65 fővel kevesebben részesülnek rendszeres szociális segélyben. ♥ β 2 ≅ 0,68 , ha két megyében azonos a nettó havi átlagkereset (= constans az 1. magyarázó változó), akkor abban, ahol ezer fővel (= egy egységgel) nagyobb a regisztrált munkanélküliek száma 680 fővel többen részesülnek rendszeres szociális segélyben. A paraméterek előjeléből arra következtethetünk – és ezt tapasztaljuk majd a szorossági mutatók számításakor is, és ezt látjuk akkor is, ha az

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



382



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



383



eredményváltozót csak az egyik ill. csak a másik magyarázóváltózóval párban ábrázoljuk (13.4. és 13.5. sz. ábrák) –, hogy a nettó átlagkereset és a rendszeres segélyben részesülők száma között negatív kapcsolat van (= a nettó átlagkereset növekedése a segélyt kérők és kapók számának csökkenését vonja maga után, és fordítva). A regisztrált munkanélküliek és a rendszeres segélyben részesülők száma között pedig pozitív kapcsolat van (= a regisztrált munkanélküliek számának növekedése a segélyt kérők és kapók számának növekedését vonja maga után, és fordítva.

a segélyezettek száma (ezer fő)

A rendszeres segélyben részesülők és a nettó átlagkereset kapcsolata (2003, Magyaro.)

y = -0,832x + 73,591 R2 = 0,1373

35 30 25 20

Adatsor1

15

Lineáris (Adatsor1)

10 5 0 70

75

80

85

90

nettó átlagkereset (ezer Ft/fő/fó)

13.4.sz. ábra

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



383



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



384



rendszeres segélyben részesülők (ezer fő)

A regisztrált munkanélküliek és a rendszeres segélyben részsülők kapcsolata (2003, Magyaro.)

y = 0,6869x - 5,2971 R2 = 0,9487

35 30 25 20

Adatsor1

15

Lineáris (Adatsor1)

10 5 0 -5

0

10

20

30

40

50

60

regisztrált munkanélküliek (ezer fő)

13.5.sz. ábra A vizsgált változók közötti kapcsolatot leíró egyenletbe rendre behelyettesítettük a magyarázó változók megfigyelt értékeit, így jutottunk a regreszszió-értékekhez (= yˆ i ), ezek jelentéssel bíró adatok. Pl.: ♥ Azokban a megyékben, ahol a nettó átlagkereset 87.100 Ft/fő/hó és a regisztrált munkanélküliek száma 13.200 fő – a változók között lineáris kapcsolatot feltételezve – a rendszeres segélyben részesülők száma 3.300 fő. A munkatábla utolsó oszlopa a rezidium-négyzeteket (= ei2 ) tartalmazza, ezek összegét részben egy szorossági mutató (= I), részben pedig a kapcsolódó becslési feladatokhoz295 használjuk.

295

A háromváltozós egyenlethez kapcsolódóan ezekkel nem foglalkozunk részletesen.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



384



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

385



13.3.2. Háromváltozós korreláció-számítás

A vizsgált változók kapcsolatát nemcsak egyenlettel, hanem szorossági mutatókkal is jellemezhetjük. A kiszámítható mutatókat három csoportba oszthatjuk:

• páronként számítottak, (mintha csak kétváltozós kapcsolatot vizsgálnák) = totális korrelációs együtthatók; • páronként számítottak, az éppen nem vizsgált változók hatásának kiszűrésével = parciális korrelációs együtthatók; • az összes magyarázó változó eredményváltozóra gyakorolt hatását együtt bemutatva = többszörös korrelációs együttható. Az első csoportba tartozó mutatók a kétváltozós lineáris korrelációs együttható mintájára írhatók fel.

ry1 =

∑d d ∑d ∑d 1

2 1

y

ry 2 =

2 y

∑d d ∑d ∑d 2

y

2 2

r12 =

2 y

∑d d ∑d ∑d 1

2

2 1

2 2

Az r betű futóindexében azoknak a változóknak a jele szerepel, melyek között a kapcsolatot vizsgáljuk. A jelek feltüntetési sorrendjének gyakorlatilag nincs jelentősége (a kapcsolat kölcsönös, 13.2.4.sz. fejezet), de általában az itt alkalmazott sorrendet használjuk.

A második csoportba tartozó mutatók csak háromváltozós esetben határozhatók meg képlettel, ha a változók száma ennél több, a mátrixalgebrát296 kell segítségül hívnunk. ry1.2 =

ry1 − ry 2 r12

(1 − r )(1 − r ) 2 y2

2 12

ry 2.1 =

ry 2 − ry1r12

(1 − r )(1 − r ) 2 y1

2 12

r12. y =

r12 − ry1ry 2

(1 − r )(1 − r ) 2 y1

2 y2

A harmadik csoportba tartozó mutatók közül van már ismert (= I) és új is (= R). S mert mind a két mutató négyzetgyökvonással számítható, előjelük nincs; így a kapcsolat irányát nem, csak annak szorosságát mutatják meg.

I = 1−

296

σ y2ˆ σ e2 ∑ ei2 = ≅ 1 − σ y2 σ y2 ∑ d y2

R=

ry21 + ry22 − 2ry1ry 2 r12 1 − r122

Nem képezi tananyagunk részét.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



385



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



386



A statisztikai gyakorlatban a kapcsolatok jellemzésére valamennyi felsorolt szorossági mutatónak a négyzetét (= determinációs együttható) is használjuk, általában %-ban kifejezve. BEMUTATÓ FELADAT A 13.3.1. fejezet bemutató példáját folytatjuk.

ry1 =

∑d d ∑d ∑d 1

y

2 1

2 y

=

− 188,36684 = −0,37055 → ry21 ≅ 13,7% 226,38347 ∗1141,44105

♥ A 2003 évi nettó átlagkeresetek nagysága és a rendszeres szociális segélyben részesülők száma között lineáris összefüggést feltételezve – figyelmen kívül hagyva, hogy a modellben egy másik magyarázó változó is szerepel – gyengének mondható negatív kapcsolatot tártunk fel. A változók kölcsönösen 13,7 %-ban befolyásolják egymás alakulását (egymás szóródását297). (Hasonlítsuk össze a β1 regressziós együtthatóval és a 13.4. sz. ábrával!) ry 2 =

∑d d ∑d ∑d 2

2 2

y

2 y

=

1576,46158 = 0,97403 → ry21 ≅ 94,9% 2294,92737 ∗1141,44105

♥ 2003-ban a munkanélküliek száma, mint magyarázó változó és a rendszeres szociális segélyben részesülők száma, mint eredményváltozó között az összefüggést lineárisnak feltételezve – figyelmen kívül hagyva, hogy a modellben egy másik magyarázó változó is szerepel – erős pozitív kapcsolatot mutattunk ki. A változók kölcsönösen ≅95 %-ban magyaráz-

297

A zárójelben olvasható megfogalmazás az elméletileg pontosabb, de a hétköznapi gyakorlatban nem ezt szokták használni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



386



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



387



zák meg egymás alakulását.298 (Hasonlítsuk össze a β 2 regressziós együtthatóval és a 13.5. sz. ábrával!)

r12 =

∑d d ∑d ∑d 1

2

2 1

2 2

=

− 255,34526 = −0,35425 → ry21 ≅ 12,5% 226,38947 ∗ 2294,92737

♥ A két magyarázó változó között lineáris összefüggést feltételeztünk. A számítás során – figyelmen kívül hagyva, hogy a modellben egy másik magyarázó változó is szerepel – gyenge negatív kapcsolatot fedeztünk föl. A változók mindössze 12,5 %-ban befolyásolják egymás alakulását. (Lásd: 13.6.sz. ábra) Gondoljon az elméleti közgazdaságtanban tanultakra! A munkaerőpiacon magas munkanélküliség esetén nagy a munkaerő kínálat, ami lefelé viszi a munkaerő-áru árát.

nettó átlagkereset (ezer Ft/fő/hó)

A regiszrált munkanélküliek és a nettó átlagkereset összefüggése (2003, Magyaro.) 88

y = -0,1113x + 81,992 R2 = 0,1255

86 84 82

Adatsor1

80

Lineáris (Adatsor1)

78 76 74 0

10

20

30

40

50

60

regisztrált munkanélküliek (ezer fő)

13.6.sz. ábra

298

Az előző és ezen szöveges megfogalmazás közötti különbségekkel akartuk érzékeltetni, hogy nincs kötelező szabvány szöveg. A tartalom legyen igaz.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



387



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

ry1.2 =

ry1 − ry 2 r12

(1 − r )(1 − r ) 2 y2

2 12

− 0,37055 − 0,97403 ∗ (− 0,35425)

(1 − 0,97403 )∗ (1 − (− 0,35425) ) 2

2

Vissza



388



=

= −0,12042 → ry21.2 ≅ 1,5%

♥ A 2003 évi nettó átlagkeresetek nagysága és a rendszeres szociális segélyben részesülők száma között lineáris összefüggést feltételezve – kiszűrve a modellben szereplő másik magyarázó változó hatását – még gyengébb negatív kapcsolat mutatható ki. A változók kölcsönösen 1,5 %-ban (mondhatni, alig) befolyásolják egymás alakulását. ry 2.1 =

ry 2 − ry1r12

(1 − r )(1 − r ) 2 y1

2 12

0,97403 − (− 0,37055) ∗ (− 0,35425)

(1 − (− 0,37055) )∗ (1 − (− 0,35425) ) 2

2

=

= 0,970276 → ry22.1 ≅ 94,1%

♥ 2003-ban a munkanélküliek száma, mint magyarázó változó és a rendszeres szociális segélyben részesülők száma, mint eredményváltozó között az összefüggést lineárisnak feltételezve – kiszűrve a modellben szereplő másik magyarázó változó hatását – erős pozitív kapcsolatot mutattunk ki. A változók kölcsönösen ≅94 %-ban magyarázzák meg egymás alakulását.299 r12. y = =

r12 − ry1ry 2

(1 − r )(1 − r ) 2 y1

− 0,35424 − (− 0,37055) ∗ 0,97403

(1 − (− 0,37055) )∗ (1 − 0,97403 ) 2

2

2 y2

= 0,031738 → r122 . y ≅ 0,1%

♥ A két magyarázó változó között lineáris összefüggést feltételeztünk. A számítás során – kiszűrve a modellben szereplő eredményváltozó hatását – csak igen gyenge negatív kapcsolatot mutattunk ki. A változók mindössze 0,1 %-ban befolyásolják egymás alakulását. (Gyakorlatilag line299

Az előző és ezen szöveges megfogalmazás közötti különbségekkel akartuk érzékeltetni, hogy nincs kötelező szabvány szöveg. A tartalom legyen igaz.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



388



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



389



áris kapcsolat nincs köztük, mondhatnánk, de ezt biztosan csak a szükséges hipotézisellenőrzés után állíthatjuk, akkor is csak egy adott szignifikanciaszint mellett.)

σ y2ˆ ei2 σ e2 ∑ ≅ 1− = I = 1− 2 = σy σ y2 ∑ d y2 = 1−

1,84 2 7,76 2 57,66880 = ≅ 1− ≅ 0,97 → I 2 ≅ 95% 2 2 7,96 7,96 1141,44105 ry21 + ry22 − 2ry1ry 2 r12

R=

1 − r122

(− 0,37055)2 + 0,974032 − 2 ∗ (− 0,37055) ∗ 0,97403 ∗ (− 0,35425) = 2 1 − (− 0,35425)

=

= 0,974411 → R 2 ≅ 95% ♥ A magyarázó változók együttesen igen nagy mértékben, 95 %-ban befolyásolják az eredményváltozó alakulását. Más tényezők mindössze 5 %-ban játszanak szerepet. A többszörös korrelációs együtthatókban szereplő és a korábbiakban300 még ki nem számított szórások: 13.7. sz. tábla (A 13.6./2.sz.tábla kiegészítése) A regresszió-értékek szórásának mellékszámítása, ( yˆ i − y ) adatok 2

Pest 1,3151 1,2961 0,0269

13,6288

53,1186

13,7766

50,3030

58,7406

29,8736

0,0042

20,3918

588,4070

9,3895

0,0640

9,0501 Ösz.: 1.083,7723

47,2690

173,5912

11,0293 Csongrád 2,4968

yˆ -ra: σ =

300

∑ ( yˆ

− y )i

2

i

n −1

=

1083,7723 = 7,7594826 ≅ 7,76 18

A megfigyelt változók szórásainak számítása a 13.6./2. sz. tábla alatt található meg.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



389



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



390



13.3.3. Multikollinearitás

A többváltozós regressziós vizsgálatok (modellek) egyik legnagyobb problémája a multikollinearitás. A szó a magyarázó változók között fennálló, és ezzel az eredetileg vizsgálandó kapcsolat többszöröződésére utal. Jelenlétét már az un. totális korrelációs együtthatók (r12 ) is jelzik, a parciális korrelációs együtthatók (r12. y ) pedig megerősítik. (A totális és a parciális korrelációs együttható számértékének eltérése, néha előjeleik különbsége301 is utal a multikollinearitásra.) Nagyságát pedig egy erre a célra szerkesztett mutató jelzi.

(

M = R 2 − ∑ R 2 − ryi2

)

A mutató a többszörös determinációs együttható összetevőkre bontásán alapszik. Minden újabb, a modellbe kerülő magyarázó változóra vonatkozóan meg tudjuk határozni, hogy mennyivel növeli R 2 értékét, ha az aktuális változót utolsónak vonjuk be a vizsgálatba. Ha ezeket a hatásokat összeadjuk, és az így kapott érték egyenlő a többszörös determinációs együtthatóval, akkor a multikollinearitás nulla, azaz nincs jelen a modellben. Ebből logikusan következik, hogy M minél nagyobb értéket vesz fel, a magyarázó változók között fennálló kapcsolat annál jelentősebb. A magyarázó változók közötti kapcsolat azonban nem minden esetben zavaró. Ha az egyenletet nem akarjuk más célra felhasználni, csak adott x1i , x2i , stb. értékek mellett az eredményváltozó meghatározására, akkor jelenléte elviselhető, hiszen minden yˆ i értékben egyformán szerepel, így azok arányait nem torzítja. Ha azonban a kiszámított egyenletet egy egyenletrendszer tagjaként akarjuk használni, akkor már mindenképpen meg kell oldani kiszűrését, ha M alapján túl nagynak ítéljük mértékét. A kiszűrés igen munka- és időigényes feladat. El kell hagynunk az egymással szoros kapcsolatban lévő magyarázóváltozók egyikét, majd minden számítást ismét el kell végezni, hogy kiderüljön, megszűnt-e a multikollinearitás avagy sem. A változók elhagyását pedig mindaddig kell folytatnunk, amíg M ≅ 0 .

301

Ha a totális és a parciális korrelációs együttható előjele eltérő, akkor rejtett negatív multikollinearitásról beszélünk.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



390



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



391



BEMUTATÓ FELADAT A 13.3.1. fejezetben elkezdett és a 13.3.2. fejezetben továbbvitt bemutató példáját folytatjuk.

(

M = R 2 − ∑ R 2 − ryi2

(

)

) (

)

= 0,9744112 − 0,9744112 − (− 0,37055) − 0,9744112 − 0,974032 = 2

2

= 0,974411 − 0,812168 − 0,000743 = 0,136566

Példánkban a multikollinearitás nem jelentős, hisz az összhatásnak R 2 ≅ 0,95 mindössze 0,14-ed részét teszi ki. A mutató (= M ) felbontásából jól látszik, hogy az egyik ill. a másik magyarázó változó milyen mértékben járul hozzá a többszörös determinációs együtthatóhoz ( x1 annak lényegesen nagyobb, x2 pedig lényegesen kisebb részét teszi ki).

(

)

13.3.4. Betekintés a háromváltozós lineáris kapcsolathoz tartozó becslési és hipotézisellenőrzési feladatokba

A kétváltozós lineáris egyenlettel kapcsolatban már leírtuk, azok az adatok, melyekkel a korrelációs, regressziós számításokat végezzük mintából származók, így a regressziós paraméterek, és az ezek alapján meghatározott regresszió-értékek becsült értékek, melyek csak egy adott valószínűség mellett igazak. Sőt a kapcsolat meglétében is kételkednünk kell, hiszen előfordulhat, hogy szélsőséges mintából dolgoztunk. Kételkedésünkre pedig a hipotézisellenőrzésekre alapozva kaphatunk választ, természetesen ezt is csak adott szignifikancia-szinten. A három- vagy még többváltozós egyenletek esetén a becslési feladatok, a paraméterek ill. a regresszió-értékek konfidencia intervallumának kiszámítása csak a mátrixalgebra302 segítségével történhet meg, így ezeket a számításokat tankönyvünk nem tartalmazza. A hipotézisellenőrzés elvégzéséhez azonban a nevezett matematikai ismertekre nincs szükségünk, így erre röviden kitérünk. A hipotéziseket felírhatjuk egyenként mindegyik magyarázó változónkhoz kapcsolódóan a regressziós paraméterekre, tökéletesen ugyanúgy, 302

A tanterv szerit az ehhez szükséges matematikai ismeretek a Statisztika tárgy lezárása után kerülnek sorra.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



391



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

392



mint a kétváltozós esetben, és ellenőrzésüket ugyanazon próbafüggvényekkel végezhetjük el; de tesztelhetjük a paramétereket együttesen is (= globális F-próba). Az egyedi tesztelések hipotézisei és próbafüggvényei:

H 0 =: β1 = 0

t=

H 1 : β1 ≠ 0 SSR MSR 1 F= = = SSE MSE n − m −1

β1 σβ

1

∑ ( yˆ

− y)

2

i

1 ∑ ( y1 − yˆ1 )2 n − m −1

A harmadik változó bevezetése következtében megváltozik a próbák szabadságfoka. A t-próba303 esetében: (v = n − m − 1) , az F-próba esetében pedig csak a nevezőre vonatkozik a változás: (v2 = n − m − 1) . A globális F-próba hipotézisei és próbafüggvényei:

SSR H 0 =: β1 = β 2 = 0 MSR 2 = = F= SSE H1 : β i ≠ 0 MSE n − m −1

∑ ( yˆ

− y)

2

i

2 ∑ ( y1 − yˆ1 )2 n − m −1

A hipotéziseket most csak az általunk tárgyalt háromváltozós esetre írtuk fel, ha a magyarázó változók száma ennél több, akkor a nullhipotézis hosszabb lesz, további paraméterek kerülnek az egyenlőségjelek közé. Az alternatív hipotézis azonban ugyanez marad, szavakkal megfogalmazva: a magyarázó változók között legalább egy olyat találunk, aminek értéke nem nulla. Ez a megfogalmazás arra is figyelmezett, hogy egy „laza” próbával van dolgunk, ami már akkor is kapcsolatot jelezhet, ha csak egyetlen (esetleg sokból csak egy) x -tényezővel van kapcsolatban az y − tényező.

303

Ezt a próbát – mivel tananyagunk a becslési feladatokra nem tér ki – olvasóink csak akkor tudják elvégezni, ha a nevezőben szereplő standardhiba értékét megadja a példa szerkesztője.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



392



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



393



BEMUTATÓ FELADAT A 13.3.1. fejezetben elkezdett, a 13.3.2. és a 13.3.3. fejezetben továbbvitt bemutató példáját folytatjuk.

Ellenőrizzük 5 ill. 10 %-os szignifikancia szinten, hogy szignifikáns-e a kapcsolat a rendszeres szociális segélyben részesülők száma, a netttó átlagkereset és a munkanélküliek száma között 2003-ban! A hipotéziseket nem ismételjük meg, hiszen azok példa-függetlenek (állandóak). Globális F-próba: SSR MSR 2 = = F= SSE MSE n − m −1

∑ ( yˆ

− y)

2

i

2

2 ∑ ( y1 − yˆ1 )

n − m −1

177,5477 2 = ≅ 54,21 26,20193 16

Az F-táblából kikeresett értékek: ;16 F02,9;16 = 2,67 F02,95 = 3,63

Döntésünk mindkét valószínűségen azonos, ui. mindkét táblabeli érték kisebb, mint a próbafüggvény értéke.

H 0 : β1 = β 2 = 0 → elvetve H 1 : β i ≠ 0 → elfogadva

♥ A 19 elemű minta alapján 5,0 és 10,0 %-os szignifikancia-szinten is állíthatjuk, hogy – lineáris összefüggést feltételezve – a vizsgált magyarázó változók közül legalább az egyik nem elhanyagolható kapcsolatban van az eredményváltozóval. 13.3.5. Különböző, a korreláció- és regresszió-számításhoz kapcsolódó kérdések

1. Az idősorok korrelációja. 2. A minőségi ismérvek bevonása a modellbe. 3. Diagnosztikai tesztelés.304 304

Tananyagunkban a diagnosztikai tesztelésre bemutató feladatot nem találnak (kevés elemszámú mintákkal dolgoztunk), éppen ezért ez az anyagrész megoldandó feladat formájában számonkérésre sem kerül.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



393



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Korreláció-, regresszió-számítás Vissza



394



1. A társadalmi, gazdasági eseményeket vizsgálva igen sok idősor áll rendelkezésünkre. Az idősorok adatai mennyiségi jellegűek, kínálkozik tehát a lehetőség, vizsgáljuk meg kapcsolatukat. Az ilyen esetekben azonban óvatosnak kell lennünk. Előfordul ui., hogy a korrelációs együtthatók akkor is kapcsolatot jeleznek, ill. az egyenletek regressziós paraméterei akkor is eltérnek nullától, ha a vizsgált változók között nincs jelentős kapcsolat. Ennek oka, hogy az általunk éppen vizsgált időben változó adatokat egy a modellbe be nem vont harmadik tényező azonos módon befolyásolja, és ez mutatkozik meg elsődlegesen számításainkban úgy, hogy az együtthatók kapcsolatot jeleznek. A rejtett tényező hatását többféleképpen is kiszűrhetjük:

• Mindkét idősor adataiból kiszámítjuk az abszolút305 vagy a relatív306 változásokat. Majd ezeket az adatokat d x ill. d y adatnak tekintve kiszámítjuk a lineáris korrelációs együtthatót. Ha ez most is jelentősen eltér nullától, akkor gyanúnk helytelen volt, a változók között valóban van kapcsolat. • Mindkét idősor adataiból kiszámítjuk a változásukat jellemező trendegyenleteket, majd trendértékeket, végül pedig a rezidiumokat307. Ezután munkánkat úgy folytatjuk, mint az előző esetben. • Kétváltozós egyenletünket háromváltozóssá alakítjuk. A harmadik változó, azaz a második magyarázó változó az idő: t i = 1,2,3,..n . Majd kiszámítjuk a magyarázó változók közötti parciális korrelációs együttható, ill. a multikollinearitás mérőszámát, és ezek számértékeinek ismeretében tudjuk megmondani, hogy igazi-e a kapcsolat az eredetileg vizsgált idősorok között. • Diagnosztikai tesztelést végzünk, és a kapott ábránk alapján döntünk. Természetesen a fent leírt módszereknek szigorú alkalmazási feltételei vannak, amikről a szakkönyvekben részletesen olvashatunk. 305

d x = xi − xi −1 ill., a d y = yi − yi −1 hol xi = az egyik és yi = a másik idősor

megfigyelt adatai. 306 307

y xi és l y = i xi−1 yi −1 e x = xi − xˆi ill. e y = yi − yˆ i , ahol xˆi = az egyik és yˆ i = a másik változóra volx =

natkozó trendérték.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



394



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Korreláció-, regresszió-számítás Vissza



395



2. Mindennapi tapasztalataink gyakran azt mutatják, hogy egy-egy mennyiségi adat nagyságát, alakulását nemcsak más mennyiségi adatok nagysága, alakulása, hanem minőségi ismérvek is befolyásolják. Pl.: a dolgozók bére – statisztikai felmérések bizonyítják – azonos munkakörökben, végzettség, gyakorlottság esetén is eltérés mutatnak nemenként (a nők kárára). Ezért célszerű bevonni a korrelációs-regressziós számításokba minőségi változókat is. Pl.: a férfi – nő minőségi ismérvváltozatok 0 és 1 kóddal vonhatók be. Gondot azok az esetek okoznak, amikor egy minőségi ismérvnek többféle kimenetele (= ismérvváltozata van), tananyagunk ennek a problémának a megoldására azonban nem tér ki. 3. A diagnosztikai tesztelés ábrák készítését jelenti, és ezen ábrák alapján következtetések levonását a korrelációs kapcsolatokra vonatkozóan. Alkalmazhatjuk idősorokból végzett számítások esetében és csak mennyiségi változókat tartalmazó kapcsolatokra vonatkozóan is. Ábrázolásra – a koordináta rendszerben – mindkét esetben a rezidiumok308 kerülnek (a függőleges tengelyen), mégpedig előjeles alakban. A vízszintes tengelyen pedig a magyarázó változó (idősorok korrelációja estén az idő) adatait tüntetjük föl. A módszer alapján azonban csak akkor vonható le egyértelmű következtetés, ha meglehetősen sok változót figyeltünk meg. A rezidium-pontok ábrái négy típusba sorolhatók.

• A pontok a vízszintes tengely mentén úgy helyezkednek el, hogy mindkét oldalon (pozitív és negatív negyed) egy-egy az x-tengellyel párhuzamos egyenessel határolhatók. • A pontok egy olyan sávban helyezkednek el, mely tölcsérformát képez, és ennek a tölcsérformának az x-tengely a szimmetria tengelye. • A pontok egy olyan sávban helyezkednek el, mely α (0〈α 〈90 ) szögben metszi a koordinátarendszer vízszintes tengelyét. • A pontok egy parabola vonalak által határolt sávban helyezkednek el, és ez a sáv két helyen is metszi az x-tengelyt. Az ábrák közül az elsőként említett azt jelenti, hogy a rezidiumok függetlenek a vízszintes tengelyen felmért adattól. (x alacsony értékeinél is találunk pozitív és negatív, kis és nagy értékű rezidiumokat; és ugyanezt

308

ei = yi − yˆ i , ahol yi = a regressziós egyenlet eredményváltozója, yˆ i = pedig a

regresszióérték.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



395



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



396



mondhatjuk el x magas stb. értékeiről is.) Ebből arra következtethetünk, hogy a változók kapcsolata valódi. A másik három ábra problémát jelez, a rezidiumoknak ui. vagy az előjele, vagy nagysága, vagy mindkettő függvénye a vízszintes tengelyen ábrázolt adatnak. A jelzett probléma lehet az, hogy nem jó egyenlettípust választottunk, hogy nem jó illesztési módszert alkalmaztunk stb.309 BEMUTATÓ FELADAT I. Vizsgáljuk meg a kapcsolatot a feladott postai csomag-küldemények (xi ) és a feladott táviratok ( yi ) 2001 és 2005 évi mennyiségei között! 13.8.sz. tábla csomag távirat csomag távirat csomag távirat év t ezer db ezer db mozgáótl. Trend különbségek n.é. i

xi

2001 1 2.740 I. II. 2 2.737 III. 3 2.433 IV. 4 3.172 2002 5 2.661 I. II. 6 2.536 III. 7 2.846 IV. 8 3.020 2003 9 2.398 I. II. 10 2.358 III. 11 2.152 IV. 12 2.463 2004 13 1.960 I. II. 14 1.742 309

yi

xˆi

yˆ i

xi − xˆi yi − yˆ i

102





dx

121 114 104

– – 2.760,6 109,9 -327,6 4,1 2.725,6 108,4 446,4 -4,4

107.338,1 17,0 199.250,6 19,1

-1.351,45 -1.952,89

99

2.752,1 105,6 -91,1

8.303,8

603,7031

112 101 84

2.784,8 101,5 -248,8 10,5 2.732,9 96,8 113,1 4,3 2.677,8 91,6 342,3 -7,6

61.876,6 110,3 -2.611,88 12.797,3 18,1 480,7813 117.135,1 58,1 -2.609,66

81

2.568,8 86,0

-170,8 -5,0

29.155,6 25,0

89 79 64

2.412,4 80,8 2.288,0 79,9 2.156,3 89,5

-54,4 8,3 -136,0 -0,9 306,8 -25,5

2.956,6 68,1 -448,594 18.496,0 0,8 119 94.095,6 650,3 -7.822,13

94

2.005,4 120,3 -45,4

153

1.852,9 164,6 -110,9 -11,6

dy

-6,6

-26,3

d y2

d x2

2.058,9

dxd y

43,9

853,75

689,1 1.191,094

12.293,3 135,1 1.288,922

Részletesebben: az irodalomjegyzékben felsorolt vagy más szakkönyvekben.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



396



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

III. 15 1.561 IV. 16 1.834 2005 17 1.748 I. II. 18 1.793 III. 19 1.749 IV. 20 2.468

Vissza



397



261 237

1.747,8 203,4 -186,8 57,6 1.727,6 234,0 106,4 3,0

34.875,6 3320,6 -10.761,5 11.315,6 9,0 319,125

231

1.757,5 248,5 -9,5

-17,5

90,3

261 269 212

1.860,3 246,4 -67,3 – – – – – –

14,6 – –

4.522,6 213,9 -983,531 716.561,4 5684,6 -23.519

306,3 166,25

Megjegyzések a 13.8. sz. táblához:

xi -vel, yi -vel jelöltük megfigyelt változókat (= csomagforgalom, táviratforgalom), • •



melyek között a kapcsolatot kerestük. Az adatokat ábrázoltuk, az egyenletet és a determinációs együtthatót az ábra alapján az EXCEL-program adta meg. (Lásd: 13.7. sz. ábra) A megfigyelt adatokból mozgóátlagolású trendet számítottunk. A számítás lépéseit EXCEL-programmal végeztük, ide csak az eredményeket, a trendadatokat xˆ i és yˆ i (= centrírozott mozgóátlagok, lásd. 12. sz. fejezet) másoltuk át. A szürke háttérrel és a vastagabb kerettel kiemelt adatok a második korrelációszámítás „szereplői”. Egyes postai teljesítmények kapcsolata (2001 2005, negyedéves bontásban, Magyaro.)

felvett táviratok (ezer db)

300

y = -0,1053x + 387,4842 R2 = 0,4900

250 200

Adatsor1

150

Lineáris (Adatsor1)

100 50 0 0

1000

2000

3000

4000

f elvett csomagok (ezer db)

13. 7. sz. ábra

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



397



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

398



A megfigyelt adatokból számított regresszió egyenlet: yˆ i = 387,5 − 0,11xi (ezer db) ill. korrelációs együttható: r ≅ −0,7 310. A számítás tehát elég szoros negatív kapcsolatot sejtet a változók között. Tekintettel azonban arra, hogy idősorokkal, ráadásul szezonális ingadozást is tartalmazó idősorokkal dolgoztunk, további számításokat végeztünk a kapcsolat meglétének ellenőrzésére. A 13. 8. sz. munkatábla utolsó három oszlopának összesen adatait felhasználva ismét kiszámítottuk a lineáris korrelációs együtthatót.

r=

∑d d ∑d ∑d x

2 x

y

2 y

=

− 23519 ≅ −0,356 → r 2 ≅ 12,7% 766561,4 ∗ 5684,6

A mutató a kapcsolatot ugyanolyan irányúnak, de már lényegesen gyengébbnek mutatja.

BEMUTATÓ FELADAT II. csomag ezer db

x1i 2.740 2.737 2.433 3..172 2.661 2.536 2.846 3.020 2.398 2.358 2.152 2.463 1.960 310

idő

t i = x2i 1 2 3 4 5 6 7 8 9 10 11 12 13

távirat 13.9./1. sz. tábla

ezer db

yi

d1

d2

dy

102 121 114 104 99 112 101 84 81 89 79 64 94

421,5 418,5 114,5 853,5 342,5 217,5 527,5 701,5 79,4 39,4 -166,6 144,5 -358,6

-9,5 -8,5 -7,5 -6,5 -5,5 -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5

-41,4 -22,4 -29,4 -39,4 -44,4 -31,4 -42,4 -59,4 -62,4 -54,4 -64,4 -79,4 -49,4

Az EXCEL-program a determinációs együtthatót adta meg, de a regressziós egyenes

lejtéséből, és a

β1 paraméter előjeléből egyértelmű, hogy a korrelációs együttható negatív előjelű.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



398



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

1.742 1.561 1.834 1.748 1.793 1.749 2.468 4.6371 átlag: 2.318,55

14 15 16 17 18 19 20 210

153 261 237 231 261 269 212 2868

10,5

143,4

-576,6 -757,6 -484,6 -570,6 -525,6 -569,6 149,5 0,0



Vissza

3,5 4,5 5,5 6,5 7,5 8,5 9,5 0,0

399



9,6 117,6 93,6 87,6 117,6 125,6 68,6 0,0

13.9./2. sz. tábla (a 13.9./1. folytatása – jobb oldali oszlopok)

d12

d 22

d y2

d1 d y

d2d y

d1 d 2

177.620,1 175.100,4 13.098,8 728376,9 117.272,0 47.284,5 278.203,5 492032,1 6.312,3 1.556,3 27.738,9 20.865,8 128558,1 332409,9 573.882,0 234.788,7 325.527,3 276.202,8 32.4387,2 22335,3 4303553,0

90,3 72,3 56,3 42,3 30,3 20,3 12,3 6,3 2,3 0,3 0,3 2,3 6,3 12,3 20,3 30,3 42,3 56,3 72,3 90,3 665,0

1.714,0 501,8 864,4 1.552,4 1.971,4 986,0 1.797,8 3.528,4 3.893,8 2.959,4 4.147,4 6.304,4 2.440,4 92,2 1.3829,8 8.761,0 7.673,8 1.3829,8 1.5775,4 4.706,.0 97.328,8

-17.448,0 -9.373,3 -3.364,8 -33.625,9 -15.204,8 -6.827,9 -22.363,9 -41.666,1 -4.957,7 -2.146,1 10.725,8 -11.469,3 17.712,4 -5.534,9 -89.087,9 -45.353,9 -49.980,2 -61.804,7 -715.35,5 102.52,3 -453.054,4

393,3 190,4 220,5 256,1 244,2 141,3 148,4 148,5 93,6 27,2 -32,2 -119,1 -123,5 33,6 529,2 514,8 569,4 882,0 1067,6 651,7 5837,0

-4.003,8 -3.556,8 -858,4 -5.547,4 -1.883,5 -978,5 -1.846,1 -1.753,6 -119,2 -19,7 -83,3 216,7

A dokumentum használata | Tartalomjegyzék | Táblázatok

-896,4 -2.017,9 -3.409,0 -2.665,0 -3.708,6 -3.941,6 -4.841,2 1.419,8 -40.493,5

Vissza



399



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



400



A 13.9.sz.tábla utolsó előtti sorában a vastagon szedett adatok = összesen adatok; az utolsó sor adatai pedig az adott oszlopban szereplő adatok számtani átlagai.

A tábla összesen adatainak felhasználásával kiszámítottuk a totális, a parciális és a többszörös körrelációs együtthatót, valamint a multikollinearitás mérőszámát.

ry1 =

ry 2 =

r12 =

∑d d ∑d ∑d 1

y

2 1

∑d d ∑d ∑d 2

y

2 2

∑d d ∑d ∑d 1

2 1

2

2 2

− 453054,4 = 0,70 → ry21 ≅ 49,0% 4303553 ∗ 97328,8

=

2 y

=

2 y

=

5837,0 ≅ 0,73 → ry22 = 52,6% 665,0 ∗ 97328,8

− 40493,5 ≅ 0,76 → r122 ≅ 57,3% 4303553,0 ∗ 665,0

ry1.2 =

ry1 − ry 2 r12

(1 − r )(1 − r ) 2 y2

− 0,700029 − 0,725535 ∗ (− 0,756939)

(1 − 0,725535 )(1 − (− 0,756939 )) 2

2

ry 2.1 =

2 12

≅ −0,34 → ry21.2 = 11,3%

ry 2 − ry1r12

(1 − r )(1 − r ) 2 y1

2 12

0,725535 − (− 0,700029 ) ∗ (− 0,756939 )

(1 − (− 0,700029) )(1 − (− 0,756939) ) 2

=

2

A dokumentum használata | Tartalomjegyzék | Táblázatok

=

= 0,42 → ry22.1 ≅ 17,6%

Vissza



400



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

r12. y =

r12 − ry1ry 2

(1 − r )(1 − r ) 2 y1

2 y2

− 0,756939 − (0,700029 ) ∗ 0,725535

(1 − (− 0,700029) )(1 − 0,725535 ) 2

R=

Vissza

2



401



=

= −0,51 → r122 . y ≅ 25,7%

ry21 + ry22 − 2ry1ry 2 r12 1 − r122

(− 0,700029)2 + 0,7255352 − 2 ∗ (− 0,700029) ∗ 0,725535 ∗ (− 0,756939) ≅ 2 1 − (− 0,756939 ) ≅ 0,76 → R 2 ≅ 58%

(

M = R 2 − ∑ (R 2 − ryi2 ) =

) (

)

0,761369 2 − 0,761369 2 − (0,700029) − 0,761369 2 − 0,725535 2 ≅ 0,44 2

A számítások ugyanazt mutatják, amit már az I. bemutató példában is láttunk. A magyarázó változók között meglehetősen szoros kapcsolat van, a multikollinearitás mértéke is jelentősen eltér a nullától, így nem ajánlott ezen változók között a kapcsolatot a megtanult korrelációs, regressziós módszerekkel elemezni, és azok eredményeiből következtéseket levonni.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



401



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



402



BEMUTATÓ FELADAT III. Vizsgáljuk meg a kapcsolatot a megfigyelt ágazat (oktatás) véletlenül kiválasztott dolgozóinak (18 fő) bruttó bére ( yi , Ft ) , szolgálati ideje (x1i , év ) , neme (x2i , férfi = 0, nő = 1) között! év

nem

br. bér

13.10.1.sz. tábla (folyt. 13.10.2.)

s.sz.

x1i

x2i

yi

d1

d2

dy

d12

d 22

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11 12 13 14 15 16 17 18 Σ átl.

20 20 15 17 15 12 19 20 25 30 12 15 10 12 30 32 30 35 369 20,5

0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 9 0,5

203..825 193.792 174.261 169.368 169.500 149.634 189.432 182.226 253.010 221.996 143.936 141.195 137.243 148.804 271.319 268.613 210.839 193.797 3.422.790 190.155

-0,5 -0,5 -5,5 -3,5 -5,5 -8,5 -1,5 -0,5 4,5 9,5 -8,5 -5,5 -10,5 -8,5 9,5 11,5 9,5 14,5 0

-0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 -0,5 0,5 0

13.670 3.637 -15.894 -20.787 -20.655 -40.521 -723 -7929 62.855 31.841 -46.219 -48.960 -52.912 -41.351 81.164 78.458 20.684 3.642 0

0,25 0,25 30,25 12,25 30,25 72,25 2,25 0,25 20,25 90,25 72,25 30,25 110,25 72,25 90,25 132,25 90,25 210,25 1.066,5

0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 0,25 4,5

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



402



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



403



13.10.2.sz. tábla A 13.11. sz. tábla folytatása (jobb oldali oszlopok)

d y2

d1 d y

d2d y

d1 d 2

yˆ i

ei2

186.868.900

-6.835

-6.835

0,25

196.837,0

48.832.581,6

13.227.769

-1.818,5

1.818,5

-0,25

178.931,1

220.846.297,0

252.619.236

87.417,0

7.947,0

2,75

174.127,3

17.870,1

432.099.369

72.754,5

-10.393,5

-1,75

165.305,3

16.505.424,9

426.629.025

113.602,5

10.327,5

2,75

174.127,3

21.412.098,9

1.641.951.441

344.428,5

-20.260,5

-4,25

142.595,7

49.538.155,0

522.729

1.084,5

361,5

0,75

192.295,0

8.196.993,1

62.869.041

3.964,5

-3.964,5

-0,25

178.931,1

10.856.354,4

3.950.751.025

282.847,5

-31.427,5

-2,25

219.546,6

1.119.798.038,0

1.013.849.281

302.489,5

15.920,5

4,75

224.350,4

5.543.186,61

2.136.195.961

392.861,5

23.109,5

4,25

160.501,5

274.416.859,0

2.799.679.744

555.576,0

26.456,0

5,25

151.417,7

200.921.359,0

1.709.905.201

351.483,5

-20.675,5

-4,25

142.595,7

38.543.419,4

6.587.594.896

771.058,0

-40.582,0

-4,75

242.256,3

844.642.611,0

6.155.657.764

902.267,0

39.229,0

5,75

233.434,3

1.237.544.001,0

427.827.856

196.498,0

-10.342,0

-4,75

242.256,3

987.044.491,0

13.264.164

52.809,0

1.821,0

7,25

247.060,0

2.836.951.969,0

-41.970,0

8,5

3.422.790,0 8.147.406.029,0

30.208.595.002 4.691.768

ry1 =

ry 2 =

∑d d ∑d ∑d 1

y

2 1

2 y

=

∑d d ∑d ∑d 2

2 2

y

2 y

4691768 = 0,83 → ry21 ≅ 68,3% 1066,5 ∗ 30208595002

=

− 41970 ≅ −0,11 → ry22 = 1,3% 4,5 ∗ 30208595002

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



403



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

r12 =

∑d d ∑d ∑d 1 2

2 1

2 2

=

ry1.2 =

ry1 − ry 2 r12

(1 − r )(1 − r ) 2 y2

2 12

(1 − (− 0,11383) )(1 − 0,122697 ) 2

2

(1 − r )(1 − r ) 2 y1

2 12

(1 − 0,826591 )(1 − 0,122697 ) 2

r12. y =

r12 − ry1ry 2

(1 − r )(1 − r ) 2 y1

2 y2

(1 − 0,826591 )(1 − (− 0,11383) ) 2

=

=

=

= 0,39 → r122 . y ≅ 15,0%

ry21 + ry22 − 2ry1ry 2 r12

R=



= −0,39 → ry22.1 ≅ 15,0%

0,122697 − 0,826591∗ (− 0,11383) 2

404

≅ 0,85 → ry21.2 = 72,7%

ry 2 − ry1r12

− 0,11383 − 0,826591∗ 0,122697 2



8,5 ≅ 0,12 → r122 ≅ 1,5% 1066,5 ∗ 4,5

0,826591 − (− 0,11383) ∗ 0,122697

ry 2.1 =

Vissza

1 − r122

=

0,8265912 + (− 0,11383) − 2 ∗ 0,826591 ∗ (− 0,11383) ∗ 0,122697 ≅ 1 − 0,122697 2 2

≅ 0,85 → R 2 ≅ 73,3%

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



404



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



405



σ e2 23305,8 2 = 1 − = 0,833267 → I 2 ≅ 70% , ahol 42154,2 2 σ y2

I = 1−

∑e

2 i

σe =

=

8147406029 = 23305,8 és 15

=

30208595002 = 42154,2 17

n − m −1

∑d

σy =

2 y

n −1

M = R 2 − ∑ (R 2 − ryi2 ) =

) (

(

)

0,8545732 − 0,8545732 − 0,8265912 − 0,8545732 − (− 0,11383) ≅ 0,034

β2 =

2

∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d 1

1

y

2

2

2

1

2 2

2

y

2 1

2 1

=

4691768 ∗ 8,5 − (− 41970) ∗ 1066,5 = 17905,9 8,52 − 4,5 ∗1066,5

β1 =

∑d d 1

y

− β 2 ∑ d1 d 2

∑d

2 1

=

4691768 − (− 17905,9) ∗ 8,5 = 4541,93 1066,5 vagy

β1 =

∑d d − β ∑d ∑d d 2

2

y

1

2

2 2

=

− 41970 − (− 17905,9) ∗ 4,5 = 454193 8,5

β 0 = y − β1 x1 − β 2 x2 = 190155 − 4541,93 ∗ 20,5 − (− 17905,9) ∗ 0,5 = 105998,4

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



405



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



406



yˆ i = 105998,4 + 4541,93 ∗ x1i + (− 17905,9) ∗ x2i (Ft ) A 13.10.1. és a 13.10.2. sz. táblák alapján kiszámított mutatók jelentése. ♥ Az egyenlet β 0 paraméterének, tekintettel arra, hogy olyan dolgozó, aki 0 forint bruttó bért kapna nem volt a megfigyeltek között, nincs jelentése, annak ellenére, hogy a másik magyarázóváltozó felveheti a nulla értéket (= férfi), de a feltétel, hogy a két magyarázó változó egyszerre legyen nulla, semmiképpen nem teljesül. ♥ Az egyenlet β1 (≅ 4542 ) paramétere szerint, ha két dolgozó azonos nemű (= állandó a második magyarázó változó), akkor az, amelyik egy évvel hosszabb ideje áll alkalmazásban ≅ 4542 forinttal több bruttó bért kap. ♥ Az egyenlet β1 (≅ −17906 ) paramétere szerint, ha két dolgozó azonos ideje áll alkalmazásban, akkor a női dolgozó bruttó bére ≅ 18.000 forinttal alacsonyabb. ♥A dolgozók szolgálati idejének hossza (x1i ) és bruttó bére ( yi ) között – a dolgozók nemének (x2i ) , mint második magyarázó változónak a hatását figyelmen kívül hagyva – szoros (0,83) pozitív (= a szolgálati idő növekedése a bruttó bér növekedését vonja maga után, és fordítva) kapcsolat figyelhető meg, a változók ≅ 68 %-ban befolyásolják egymást. Ha a második magyarázó változó hatását kiszűrjük a kapcsolat még szorosabbnak mutatkozik (0,85). ♥ A dolgozók neme (x2i ) és bruttó bére ( yi ) között – a dolgozók szolgálati idejének (x1i ) hatását figyelmen kívül hagyva igen gyenge (0,11), negatív (a férfi dolgozók többet, a női dolgozók azonos szolgálati idő mellett kevesebbet keresnek) kapcsolatot tártunk fel. A másik magyarázó változó hatásának kiszűrése után a kapcsolat már lényegesen erősebbnek (0,39) mutatkozik, a dolgozók neme 15 %-ban befolyásolja bruttó bérük alakulását. ♥ A magyarázó változók között – az eredményváltozó hatásának figyelmen kívül hagyásával – a számítások gyenge, pozitív hatást jeleznek; a zavaró hatás kiszűrése után ebben a relációban is erősebb hatást figyelhetünk meg, a változók 39 %-ban befolyásolják egymást. ♥ A többszörös determinációs együttható R 2 szerint a két magyarázó változó ( (x1i ) és (x2i ) ) együtt erős hatást gyakorol az eredményváltozóra ( yi ) .

( )

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



406



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



407



A bruttó bér ≅ 73 %-ban függ a szolgálati időtől és a dolgozó nemétől. Alakulásában azonban még egyéb, most nem vizsgált tényezők is szerepet játszanak. (Ui.: R 2 〈1 ). A magyarázó változók eredményváltozóra gyakorolt együttes hatását mutatja a kétváltozós korrelációszámítás során megismert korrelációs index (I ) mutató is. Számértéke I 2 = 70% kissé alacsonyabb, de ez az eltérő számítási módból adódóan természetes. ♥ A vizsgált változók kapcsolatát leíró háromváltozós lineáris regreszszió-egyenletben igen gyenge (M ≅ 0,035) multikollinearitást tártunk fel, ami gyakorlatilag nem zavaró.

(

)

13.4. Gyakorló feladatok 1. feladat Vizsgálja meg van-e kapcsolat az európai országok lélekszáma311 és a törvényhozás (országgyűlés) létszáma között! 13.11. sz. tábla sorszám

ország

1. 2.

Ausztria Belgium BoszniaHercegovina Csehország Dánia Észtország Görögország Litvánia Magyarország Németország Spanyolország Ukrajna

3. 4. 5. 6. 7. 8. 9. 10. 11. 12.

311

lélekszám millió fő 8,1 10,3

a törvényhozás létszáma tagok (fő) 183 150

4,2

56

10,2 5,3 1,3 11,0 3,4 10,0 82,4 42,7 48,5

200 179 101 300 141 386 603 350 130

A Föld országai (Zsebvilág 2004, HVG Kiadó, Budapest 2004)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



407



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

408



1. Számítsa ki mind a három tanult egyenlettípus paramétereit! 2. Számítsa ki a tanult szorossági mutatókat és determinációs együtthatókat! 3. Válassza ki a legjobban illeszkedő egyenletet! 4. Végezze el a tanult hipotézisellenőrzéseket! (A szignifikanciaszint: 5 ill. 10 %) 5. Becsülje meg a lineáris egyenlet paramétereinek intervallumát, P = 90 % és P = 95% 6. Ábrázolja a megfigyelt adatokat, illessze közéjük a legjobbnak talált egyenlet vonalát! 7. Minden kiszámított adatnak fogalmazza meg a jelentését! 2. feladat Néhány európai ország munkanélküliségi312 (ráta) és gazdasági növekedési (előző évhez) adata: 13.12. sz. tábla ország

m.n.

gazd. növ.

ország

%

m.n.

gazd. növ.

%

Albánia

18

6,1

Magyarország

5,5

2,9

Bulgária

14,3

4,8

Nagy-Britannia

5,0

2,1

Dánia

1,4

5,5

Olaszország

8,9

1,1

Finnország

2,1

9,0

Oroszország

!,3

4,3

Hollandia

3,7

-0,5

Portugália

6,4

-0,3

Izland

3,3

1,6

Svédország

4,8

1,6

Lengyelország

19,3

3,7

Szerbia és Montenegro

32

3

Szlovénia

6,4

3,2

312

A Föld országai (Zsebvilág 2004, HVG Kiadó, Budapest 2004)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



408



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



409



A munkanélküliség és a gazdasági növekedés kapcsolata (2004)

y = -0,2714x + 5,3781 R2 = 0,234

gazdasági növekedés az előző évhez (%)

10 8

Adatsor1

6 4

Lineáris (Adatsor1)

2 0 -2

0

5

10

15

20

m unkanélküliségi ráta (%)

13.8.sz. ábrát A 13.12. sz. tábla adatai alapján szerkesztettük EXCEL-programmal a 13.8. sz. ábrát, olvasson le minden információt az ábráról, és töltse ki az alábbi táblát! sorsz.

feladat

1.

Milyen típusú egyenlet vonalát ill. képletét látja az ábrán?

2.

Melyik változót tekintette az ábra készítője magyarázó tényezőnek? (Honnan tudhatjuk?)

3.

Melyik változót tekintette az ábra készítője eredmény tényezőnek? (Honnan tudhatjuk?)

4.

Mit jelent az egyenlet

β 0 paramétere?

5.

Mit jelent az egyenlet

β1 paramétere?

6.

Milyen szoros a kapcsolat a változók között?

7.

Határozza meg a regresszió-értékeket! Egynek fogalmazza meg a jelentését!

8.

Számítsa ki a paraméterek standard hibáját!

9.

Végezze el a tanult statisztikai próbákat! Fogalmazza meg eredményüket!

10.

megoldás

Természetesen itt nincs elég hely a válaszok rögzítésére, de ha a vizsgán ilyen jellegű feladattal találkozik, lesz elegendő helye.

Melyik – a munka közben kiszámított – adat szükséges ahhoz, hogy ennek és a többi tanult egyenlettípusnak az illeszkedését összehasonlíthassa! (Indokolja döntését!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



409



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



410



3. feladat A 2. feladatban szereplő országokra vonatkozóan újabb adatot (= infláció, %) vontunk be az egyenletbe. A számításokat ismét elkezdtük. A 13.14.1. és a 13.14.2. sz. tábla eddigi eredményeinket tartalmazza. 13.14.1. sz. tábla sorszám 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.

ország

x1i

m.n. % Albánia 18 Bulgária 14,3 Dánia 1,4 Finnország 2,1 Hollandia 3,7 Izland 3,3 Lengyelország 19,3 Magyarország 5,5 Nagy-Britannia 5 Olaszország 8,9 Oroszország 8,6 Portugália 6,4 Svédország 4,8 Szerbia és Montenegró 32 Szlovénia 6,4 összesen 139,7 átlag 9,313333

x2i

yi

gazd. növ. % 6,1 4,8 5,5 9 -0,5 1,6 3,7 2,9 2,1 1,1 4,3 -0,3 1,6 3 3,2 48,1 3,206667

infláció % 3 5,6 2 2 2,4 2,2 1,1 4,7 2,8 2,8 12 3,2 2,7 13,4 5,6 65,5 4,366667

A dokumentum használata | Tartalomjegyzék | Táblázatok

d1 d 2 d y 8,7 5,0 -7,9 -7,2 -5,6 -6,0 10,0 -3,8 -4,3 -0,4 -0,7 -2,9 -4,5 22,7 -2,9 0,0

Vissza

2,9 1,6 2,3 5,8 -3,7 -1,6 0,5 -0,3 -1,1 -2,1 1,1 -3,5 -1,6 -0,2 0,0 0,0



-1,4 1,2 -2,4 -2,4 -2,0 -2,2 -3,3 0,3 -1,6 -1,6 7,6 -1,2 -1,7 9,0 1,2 0,0

410



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

411



13.14.2.sz. tábla sorszám

d12

d 22

d y2

d1 ∗ d y

d 2 ∗ d y d1 ∗ d 2

yˆ i

ei2

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. összesen

75,5 24,9 62,6 52,0 31,5 36,2 99,7 14,5 18,6 0,2 0,5 8,5 20,4 514,7 8,5 968,2

8,4 2,5 5,3 33,6 13,7 2,6 0,2 0,1 1,2 4,4 1,2 12,3 2,6 0,0 0,0 88,2

1,9 1,5 5,6 5,6 3,9 4,7 10,7 0,1 2,5 2,5 58,3 1,4 2,8 81,6 1,5 184,4

-11,8718 6,150222 18,72822 17,07156 11,03956 13,02889 -32,6231 -1,27111 6,757556 0,647556 -5,44511 3,398889 7,522222 204,9362 -3,59311 234,4767

-3,95422 1,965111 -5,42756 -13,7109 7,289778 3,481111 -1,61156 -0,10222 1,733778 3,300444 8,345778 4,091111 2,677778 -1,86689 -0,00822 6,203333

6,5 5,6 2,4 2,6 3,0 2,9 6,8 3,4 3,3 4,3 4,2 3,7 3,3 9,9 3,7 65,5

11,95392 0,001074 0,191914 0,34892 0,390034 0,514669 32,30898 1,577126 0,277619 2,180779 61,01936 0,228275 0,337402 12,49776 3,760569 127,5884

25,13342 7,945422 -18,1479 -41,7892 20,80676 9,661422 4,926756 1,169422 4,773422 0,870756 -0,77991 10,21609 7,251422 -4,68858 0,019422 27,36867

1. Fejezze be a megkezdett számításokat! (egyenlet, szorossági mutatók, hipotézisellenőrzés, multikollinearitás) 2. Írjon szöveges elemzést! 4. feladat Ismét a 2. feladatban szereplő adatokkal dolgozunk. Hollandia és Portugália adatai azonban kimaradtak. (A negatív gazdasági növekedés miatt.313) A 13.13. sz. tábla egy megkezdett számítás részeredményeit tartalmazza. 1. Döntse el, milyen típusú kapcsolatot feltételezve dolgoztunk, majd folytassa a számítást! 2. Számoljon ki mindent, amit tanult az adott egyenlettípussal kapcsolatban! 3. Végül minden adat jelentését fogalmazza meg! 13.13. sz. tábla összesen 313

xi

yi

ui

vi

du

dv

d u2

du ∗ dv

129,6

48,9

10,9988

6,5794

0,0000

0,0000

1,8423

-0,07846

Vissza



Emlékezzen! Matematika – logaritmusra vonatkozó szabályok.

A dokumentum használata | Tartalomjegyzék | Táblázatok

411



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



412



13.5. Összefoglalás314 korreláció

= a mennyiségi ismérvek közötti kapcsolat kimutatása szorossági mutatóval

regresszió

= a mennyiségi ismérvek közötti kapcsolat kimutatása egyenletekkel 1. lineáris korrelációs együttható

kétváltozós

2. korrelációs index 1. totális korrelációs együtthatók

szorossági mutatók háromváltozós

kifejezi:

korrelációs index

kifejezi:

3. többszörös korrelációs együttható 4. korrelációs index (Mint előző.)

minden szorossági mutató négyzete = a befolyásolás mértéke (%) [0%; 100%]

determinációs együttható lineáris korrelációs együttható

2. parciális korrelációs együtthatók

∑d d ∑d ∑d x

r=

2 x

y

2 y

=



a kapcsolat irányát (+, –)



a kapcsolat szorosságát 0〈 r 〈1

(

I = 1− –

)

σ e2 σ y2

a kapcsolat szorosságát (0〈 I 〈1)

314

Az összefoglalás nem minden, fejezet szövegében szereplő képletet tartalmaz, ill. egyes esetekben a számítás nem minden lehetséges variációját.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



412



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

totális korrelációs együtthatók kifejezik:

parciális korrelációs együtthatók kifejezik:

ry1.2 =



413



Két-két változó kapcsolata a harmadik hatásának kiszűrése nélkül. – a kapcsolat irányát (+, –)



(

)

a kapcsolat szorosságát 0〈 r 〈1

Képletük megszerkeszthető a lineáris korrelációs együttható mintájára. Két-két változó kapcsolata a harmadik hatásának kiszűrésével.



a kapcsolat irányát (+, –)



– a kapcsolat szorosságát 0〈 r 〈1

ry1 − ry 2 r12

ry 2.1 =

(1 − r )(1 − r ) 2 y2

Vissza

2 12

ry 2 − ry1r12

(1 − r )(1 − r ) 2 y1

2 12

(

)

r12. y =

r12 − ry1ry 2

(1 − r )(1 − r ) 2 y1

2 y2

A magyarázó változók együttes hatása az eredményváltozóra. többszörös korrelációs együttható kifejezi

R= –

ry21 + ry22 − 2ry1ry 2 r12 1 − r122 a kapcsolat szorosságát (0〈 R 〈1)

pozitív kapcsolat

Az egyik változó növekedése, a másik változó növekedését vonzza, és fordítva.

negatív kapcsolat

Az egyik változó növekedése, a másik változó csökkenését vonzza, és fordítva.

0

A változók között nincs kapcsolat.

1

A változók között igen szoros a kapcsolat.

0%

A magyarázó változó nincs hatással az eredményváltozó alakulására.

100 %

A magyarázó változó igen erős hatással van az eredményváltozó alakulására.

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



413



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

egyenletek

típusai

Vissza



414



= matematikai formulával írják le a változók közötti kapcsolatot

kétváltozós

1. lineáris

yˆ i = β 0 + β1 xi

2. exponenciális

yˆ i = β 0 ∗ β1xi

3. hatványkitevős

yˆ i = β 0 ∗ xiβ1

4. parabola (nem részleteztük) 5. hiperbola (nem részleteztük) háromváltozós

1. lineáris

yˆ i = β 0 + β1 x1i + β 2 x2i

A paraméterek számítása, jelentése: kétváltozós lineáris

kétváltozós exponenciális

kétváltozós hatványkitevős

A magyarázó változó egységnyi abszolút változásához az eredményváltozó β1 egységnyi abszolút változása tartozik.

β1 =

∑d d ∑d x

y

2 x

A magyarázó változó egységnyi abszolút változásához az eredményváltozó β1 egységnyi relatív változása tartozik.

lg β1 =

∑d d ∑d x

2 x

v

→ visszakeresni!

A magyarázó változó egységnyi relatív változásához az eredményváltozó β1 egységnyi relatív változása tartozik.

β1 =

∑d d ∑d u

v

2 u

Csak akkor értelmezhető, ha x1 = 0 létezik.

β0

lineáris

β 0 = y − β1 * x

exponenciális

hatványkitevős

lg β 0 = v − β1 * x ↓

lg β 0 = v − β1 * u ↓

visszakeresni!

visszakeresni!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



414



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

háromváltozós lineáris

β1

415



Az első magyarázó változó egységnyi abszolút változásához az eredményváltozó β1 egységnyi abszolút változása tartozik.

∑d d 1

y

− β 2 ∑ d1d 2

∑d

2 1

A második magyarázó változó egységnyi abszolút változásához az eredményváltozó β 2 egységnyi abszolút változása tartozik.

β2 =

∑d d ∑d d − ∑d d ∑d (∑ d d ) − ∑ d ∑ d 1

1

y

2

2

2

1

β0



A regressziós paraméterek parciális együtthatóként értelmezhetőek = a másik állandósága mellett.

β1 =

β2

Vissza

2 2

2

y

2 1

2 1

Csak akkor értelmezhető, ha x1 = x2 = 0 létezik.

β 0 = y − β1 * x − β 2 x 2

kiegészítések

multikollinearitás

becslés kétváltozós lineáris hipotézisellenőrzés két- és háromváltozós lineáris

– –

Idősorok korrelációja. A minőségi ismérvek bevonása az egyenletekbe. Multikollinearitás.

– A magyarázó változók között fennálló kapcsolat, mely torzíthatja az eredményeket.

(

M = R 2 − ∑ R 2 − ryi2

)

= a paraméterek és a regresszió-értékek konfidencia intervallumának meghatározása = a magyarázó és az eredményváltozó közötti kapcsolat jelentős voltának ellenőrzése

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



415



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



416



13.6. Mintapéldák korábbi vizsgadolgozatokból 1. minta Egy biztosító társaság 10 üzletkötőjének az adott cégnél töltött ideje és az egy év alatt megkötött biztosítások száma közötti kapcsolatra vonatkozó adatok: eltöltött idő A év B 1 C 2 D 3 E 4 F 5 G 6 H 7 I 8 J 9 K 10 össz. 55 név

megkötött biztosítás db 90 100 120 150 160 180 200 190 180 200 1.570

a magyarázó válto- az eredményzó eltérés változó eltérés négyzetei négyzetei

eltérésszorzatok

82,5

1.035

15.010

1. Írja fel a lineáris regresszió egyenlet! 1. paraméter számítása:

2. paraméter számítása:

egyenlet:

2. Fogalmazza meg paraméterek jelentését! 1. paraméter

2. paraméter

3. Számítsa ki, hogy milyen mértékben befolyásolják egymást a változók! Két megoldást kérek!

4. Fogalmazza meg az 1.3. feladatrészben kiszámított mutatók jelentését!

5. Milyen következtetést tud levonni az 1.3. feladatrészben kiszámított mutatók alapján

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



416



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



417



6. Számítsa ki (P= 95 %), hogy „J” üzletkötő hány üzletkötésre számíthat a lineáris regresszió egyenlet alapján

7. Indokolja meg, az 1.6. feladatrésszel kapcsolatos képlet-választását!

8. Hány %-kal változik a regresszió-érték az x= 6 év 1 %-os változása esetén?

8. Hány %-kal változik a regresszió-érték az x= 6 év 1 %-os változása esetén?

9. Miért rendkívül fontos közgazdasági mutató az 1.8. feladatrészben kiszámított adat?

10. Az itt felsorolt adatok alapján kiszámítható egy másik egyenlet típus is. Melyik? Honnan tudja Adatok:

∑d

2 u

= 0,912110306

∑ u = 6,559763033 ∑ v = 21,8049936 ∑ d d = 0,351839211 u

v

11. Döntse el, hogy az 1.1.-ben vagy az 1.10. adatai alapján kiszámítható egyenlet jellemzi-e jobban a kapcsolatot!

12. Vizsgálja meg, hogy valódi-e a kapcsolat a változók között!

13. Fogalmazza meg az 1.12.-ben elvégzett számítás eredményét!

14. Az 1.12.-ben elvégzett műveletet ábrák segítségével is megoldhatja, hogyan? (Részletezze!)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



417



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Korreláció-, regresszió-számítás Vissza



418



2. minta Egy likőripari vállalatnál vizsgálták a palackozó gépsor óránkénti teljesítménye (ezer palack / óra) és a selejtes palackok száma (ezer palack / nap) közti kapcsolatot. A számítás során kapott regressziófüggvény: lg yˆ i = −0,0223 + 0,12 lg xi 1. Értelmezze a regressziós együtthatót! 2. Becsülje meg a 30 ezer palack / óra teljesítmény esetén várható selejtszámot!

3. minta 25 multinacionális cég adatait felhasználva vizsgálták az éves bevétel és az eredmény nagysága közötti kapcsolatot. A 25 cég évi összes bevétele 2126 milliárd USD, az összes eredmény 105,21 milliárd USD. A cégek bevétele átlagosan 48,32 milliárd USD-ral, az eredmény 2,36 milliárd USDral tér el az átlagostól (az eltérések négyzetes átlaga). 1 %-kal nagyobb bevételhez átlagosan 0,68 %-kal nagyobb eredmény tartozik átlagos szinten. 1. 2. 3. 4. 5.

Írja fel a lineáris regresszió-függvényt! Értelmezze a regressziós együtthatót! Számítsa ki és értelmezze a determinációs együtthatót! Vizsgálja meg, hogy milyen szoros a kapcsolat a két ismérv között! Állapítsa meg, hogy 1 milliárd USD-ral nagyobb eredményhez mennyivel nagyobb bevétel szükséges! 6. Becsülje meg az 5 milliárd USD eredményhez szükséges bevétel nagyságát!

4. minta 30 véletlenszerűen kiválasztott négytagú aktív keresős háztartás adatai alapján vizsgálták a jövedelem és az üdülésre fordított kiadás nagyságát. X = 1 főre jutó jövedelem (ezer Ft) Y = 1 főre jutó üdülési kiadás (ezer Ft) A regressziószámításból a következő információk állnak rendelkezésre: ∑ ui = 77,1873 ∑ vi = 22,2639 ∑ d u d v = 3,4003 ∑ d u2 = 2,0633 1. Írja fel a hatványkitevős regreszió-függvényt, és értelmezze a paramétereit! 2. Minősítse az üdülésre fordított kiadás jövedelemrugalmasságát!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



418



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



419



5. minta Az egy főre jutó hazai termék (Y), az egy főre jutó nemzetgazdasági beruházás (X1) és az egy főre jutó külföldi befektetés (X2) megyénként 1999-ben: megye Baranya Bács.. Békés Borsod… Csongrád Fejér Győr… Hajdú… Heves Jász… Komárom Nógrád Pest Somogy Szabolcs… Tolna Vas Veszprém Zala Budapest 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

1 főre jutó GDP beruházás ezer Ft 783 157 713 88 691 96 690 174 889 146 1.234 206 1.204 438 754 133 726 178 720 103 838 238 565 83 773 138 686 138 567 87 861 161 1162 233 803 140 901 132 1.858 612

külf. befekt. 66 45 74 164 163 212 368 151 135 39 191 59 236 54 32 30 224 76 69 801

Határozza meg a háromváltozós regresszió-függvényt! Értelmezze a függvény paramétereit! Vizsgálja meg a kapcsolat szorosságát! 1.páronkénti korrelációs együtthatókkal 2.parciális korrelációs együtthatókkal Írja fel a korrelációs és a variancia-kovarancia mátrixot! Határozza meg és értelmezze a többszörös determinációs együtthatót! Vizsgálja meg a multikollinearitást! Végezze el a regresszió-függvény szignifikancia-vizsgálatát variancianalízissel! Adjon konfidenciaintervallumot a regresszió-függvény paramétereire 95 %-os megbízhatósági szint mellett!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



419



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



420



6. minta 20 vállalkozás adatai alapján vizsgálták az egy főre jutó tárgyi eszközérték (millió Ft) = X, és az egy főre jutó üzemi eredmény (millió Ft) =Y kapcsolatát. A lineárisnak feltételezett kapcsolat elemzéséből az alábbi adatokat ismerjük:

x = 212,1

y = 50,6

r = 0,767

∑d d x

y

= 11330,8

∑d

2 x

= 85909,8

1. Határozza meg Y-nak X szerint lineáris regresszió függvényét! 2 Fogalmazza meg az egyenlet paramétereinek jelentését!

3 Számítsa ki a determinációs együtthatót és fogalmazza meg jelentését! 4 Vizsgálja meg az átlagos tárgyi eszközérték rugalmasságát! 5. Fogalmazza meg az 1.4.-ben kiszámított mutató jelentését! 6. Milyen adatok ismeretében tudná meghatározni, hogy az Ön által kiszámított egyenlet vagy egy másik illeszkedik-e jobban a megfigyelt adatokra! Kétféle megoldást kérek!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



420



Statisztika

Korreláció-, regresszió-számítás

A dokumentum használata | Tartalomjegyzék | Táblázatok



Vissza

421



7. minta 14, a tőzsdén jegyzett társaság adatai alapján vizsgálták a nettó árbevétel (X) (milliárd Ft) és az adózott eredmény (Y) (milliárd Ft) kapcsolatát. Az elvégzett számítások néhány részeredménye: x = 69,93

y = 6,46

∑d d x

y

= 1322,060∑ d x2 = 15962,93

∑d

2 y

= 140,67

1 Határozza meg Y-nak X szerint lineáris regresszió függvényét! 2. Fogalmazza meg az egyenlet paramétereinek jelentését!

3. Számítsa ki a determinációs együtthatót és fogalmazza meg jelentését! 4. Vizsgálja meg az x= 105 hely rugalmasságát! 5. Fogalmazza meg az 1.4.-ben kiszámított mutató jelentését! 6. Milyen adatok ismeretében tudná meghatározni, hogy az Ön által kiszámított egyenlet vagy egy másik illeszkedik-e jobban a megfigyelt adatokra! Indokot is kérek. 7. Miután az egyenlet paramétereit és a regresszió-értékeket is kiszámították egy újabb számítás eredményeként a következő adatot nyerték: t = 6,5 , illetve keresték ki: t 012,975 = 2,18 . Mit akartak ezeknek az adatoknak a segítségével elvégezni? Végezze el Ön is!

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



421



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Táblázatok Vissza



422



Vissza



422



Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



423



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



423



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



424



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



424



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



425



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



425



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



426



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



426



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



427



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



427



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



428



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



428



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



429



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



429



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



430



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



430



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



431



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



431



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



432



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



432



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



433



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



433



Statisztika

Táblázatok

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



434



A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



434



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Felhasznált irodalom Vissza



435



Felhasznált irodalom: Fejes Ferenc – Fenyves Ferenc – Zibolen Erzsébet: Statisztika II. – távoktatás (Külkereskedelmi Főiskola, Budapest 1977) Fenyves Ferenc – Horváth Gézáné dr – Koós Szabolcs: Statisztika I. – távoktatás (Külkereskedelmi Főiskola, Budapest 1977) Hunyadi László – Mundruczó György – Vita László: Statisztika (Aula Kiadó, Budapest 1996) Hunyadi László – Vita László: Statisztika közgazdászoknak (Központi Statisztikai Hivatal, Budapest 2002) Juhász Györgyné – Sándorné Kriszt Éva: Statisztika I távoktatással. (Távoktatási Universitas Alapítvány, Budapest 1997) Juhász Györgyné – Sándorné Kriszt Éva: Statisztika távoktatással II. (Távoktatási Universitas Alapítvány, Budapest 1997) Juhász Györgyné – Sándorné Kriszt Éva: Példatár a Statisztika távoktatással c. tankönyvhöz (Távoktatási Universitas Alapítvány, Budapest 1997) Kerékgyártó Györgyné – Mundruczó György: Statisztikai módszerek a gazdasági elemzésben (Aula Kiadó, Budapest 1996) Korpás Attiláné: Statisztika I. (Nemzeti Tankönyvkiadó, Budapest 1996) Korpás Attiláné: Statisztika II. (Nemzeti Tankönyvkiadó, Budapest 1996) Köves Pál – Párniczky Gábor: Általános statisztika (Közgazdasági és Jogi Könyvkiadó, Budapest 1975 Dr Kuchenbecker. Horst: Statistik für den praktiscen Betriebswirt (Verlag Neue Wirtschaftts-Briefe Herne, Berlin 1972) Molnár Máténé dr – Tóth Mártonné dr: Általános statisztika példatár I. (Nemzeti Tankönyvkiadó, Budapest 2001) Molnár Máténé dr – Tóth Mártonné dr: Általános statisztika példatár II. (Nemzeti Tankönyvkiadó, Budapest 2001) Molnár Mihélyné dr: Statisztika I. – távoktatás (Széchenyi István Főiskola, Győr 1994) Molnár Mihélyné dr: Statisztika II. – távoktatás (Széchenyi István Főiskola, Győr 1994) Rappai Gábor: Üzleti statisztika Excellel (Központi Statisztikai Hivatal, Budapest 2001) Scharnbacher. Kurt: Statistik im Betrieb (Betriebwirtschaftlicher Verlag, Wiesbaden 1997)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



435



Statisztika A dokumentum használata | Tartalomjegyzék | Táblázatok

Felhasznált irodalom Vissza



436



Szarvas Beatrix – Sugár András: Példatár a Statisztika c. tankönyvhöz (Aula Kiadó, Budapest 1996) Tátrainé dr Körmendy E. Katalin: Statisztika I. (Universitas – Győr Kht. 2003) Tátrainé dr Körmendy E. Katalin: Statisztika II. (Universitas – Győr Kht. 2004) Tátrainé dr Körmendy E. Katalin: Statisztika III. – távoktatás (Széchenyi István Főiskola, Győr 1997) Vargha András: Matematikai statisztika (Pólya Kiadó, Budapest 2000) Dr Vogel. Friedreich: Statistik: Aufgaben und Beispiele (R. Oldenbourg Verlag, München – Wien 1989)

A dokumentum használata | Tartalomjegyzék | Táblázatok

Vissza



436