152 86 2MB
Hungarian Pages 390 Year 2001
Alkalmazott folyamatstatisztika e ´s id˝ osor-analı´zis
Alkalmazott folyamatstatisztika e ´s id˝ osor-analı´zis
MICHELBERGER PÁL SZEIDL LÁSZLÓ VÁRLAKI PÉTER
Typotex Kiado ´ Budapest, 2001
Egyetemi tankönyv Ez a könyv az illetékes Kuratórium döntése alapján az Oktatási Minisztérium támogatásával a Fels˝ooktatási Pályázatok Irodája által lebonyolított Fels˝ooktatási Tankönyvtámogatási Program keretében jelent meg.
ISBN 963 9132 44 6 c Michelberger Pál, Budapesti Muszaki ˝ és Gazdaságtudományi Egyetem, Szeidl László, Pécsi Tudományegyetem, Várlaki Péter, Budapesti Muszaki ˝ és Gazdaságtudományi Egyetem; Typotex, 2001
Minden jog fenntartva, beleértve a sokszorosítás, a mu˝ b˝ovített, illetve rövidített változata kiadásának jogát is. A kiadó írásbeli hozzájárulása nélkül sem a teljes mu, ˝ sem annak része semmiféle formában (fotokópia, mikrofilm vagy más hordozó) nem sokszorosítható.
Tartalom
El˝oszó
I.
8
Bevezetés
10
Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
21
1.
23
A valószínuségelmélet ˝ alapjai
2. A valószínuség ˝ fogalma
27
3. A valószínuség ˝ alapvet˝o összefüggései
30
4. A valószínuségi ˝ változó
35
5. Valószínuségi ˝ változók jellemz˝oi
45
6. Nevezetes diszkrét és folytonos eloszlások
58
7.
66
Határeloszlás tételek
Irodalom II. A matematikai statisztika elemei
75 77
8. Statisztikai minták és jellemzésük
79
9. Statisztikai becslések
95
10. Statisztikai hipotézisek
127
11. A statisztikai összefüggések (korreláció és regresszió analízis)
152
Irodalom
185
6
Tartalom
III. A sztochasztikus folyamatok alapjai
187
12. Sztochasztikus folyamatok fogalma és jellemzése
189
13. Markov-láncok
208
14. Szemi-Markov folyamatok
246
15. Felújítási folyamatok
249
16. Rekurrens folyamatok
253
17. Regeneratív folyamatok
255
Irodalom
258
IV. Bevezete ´s az id˝ osoranalı´zisbe
259
18. Egydimenziós id˝osorok statisztikai vizsgálata – általános eredmények
263
19. Id˝osorok modellezése ARMA folyamatokkal
283
20. Bilineáris id˝osorok, linearitási próbák
309
21. Input/output id˝osormodellek diszkrét dinamikus rendszerek leírására
322
22. Többváltozós modellreprezentációk és statisztikai azonosításuk
345
Irodalom
362
V. Modelleze ´s e ´s alkalmaza ´s
365
23. Jármu˝ terheléstörténetének sztochasztikus modellezése és statisztikai vizsgálata
367
24. A jármu˝ viselkedések sztochasztikus modellezése és statisztikai szintézise igénybevételi folyamatokkal
375
Irodalom
385
Tárgymutató
387
... nem mechanisztikus törvények irányítják, mert el˝ofeltétele a törvénynek; hiszen a véletlenség szubsztrátuma maga az, amin a törvény alapszik. Carl Gustav Jung – Wolfgang Pauli Naturerklärung und Psyche (Interpretation of Natur and Psyche)
El˝ oszo ´
A tankönyv célja az id˝oben lejátszódó véletlen jelenségek leírása a valószínu˝ ségelmélet és a matematikai statisztika eszközeivel. Négy f˝o részb˝ol áll: az els˝o két rész összefoglalja a valószínuségszámítás ˝ és statisztika legfontosabb eredményeit. A harmadik rész a véletlen (sztochasztikus) folyamatok elméletét tárgyalja a statisztikai szemlélet érvényesítésével és gyakorlati alkalmazások bemutatásával. A negyedik rész az egy- és többváltozós id˝osorok elméletének alapjait ismerteti és foglalkozik a dinamikus (input/output) sztochasztikus rendszerek modellezésével is. A könyv többek között kitér olyan új, kevésbé elterjedt, de fontos sztochasztikus folyamatok ismertetésére, mint a duplán sztochasztikus Poisson-folyamatok, valamint a bilineáris és hosszú memóriájú id˝osorok. A bilineáris id˝osorok és általában a nemlinearitási statisztikai vizsgálatok egyre növekv˝o szerepet játszanak a bonyolult sztochasztikus rendszerek és összetett fizikai jelenségek valószínuségi ˝ modellezésében. Szemléleti kérdések vonatkozásában fontosnak tartottuk a diszkrét és folytonos ideju˝ Markov-láncok, és a stacionárius id˝osorok elméletének együttes tárgyalását, különös tekintettel közös alkalmazásuk jelent˝oségére. A Bevezetésben az alkalmazási kérdésfeltevéseket és az azokat egységesen kezel˝o szemléleti paradigma problémáit (sztochasztikus vagy determinisztikus) feszegetjük, a befejez˝o fejezetben egy összetett és korszeru˝ jármutechnikai ˝ esettanulmány rövid ismertetésével foglalkozunk. Ezzel a megoldással a felvetett kérdésekre adható válaszokat is egységes rendszerben elkülönítve foglalhattuk össze. Ez utóbbiból kiderül, hogy a tárgyalt elméleti módszerek, ismertetett eljárások szerves egységként kezelhet˝oek, hiszen a bemutatott példák és a terjedelmes esettanulmány kapcsán szinte minden, a tankönyvben található valószínuségszámítási ˝ és statisztikai fogalom, továbbá ismertetett módszer és eljárás alkalmazást nyerhetett. A példák és az esettanulmány gondos elemzése alapján láthattuk, hogy a statisztikai minták, becslések, hipotézisvizsgálatok
El˝ oszo ´
9
és összefüggés-elemzések ugyanúgy bemutatásra kerülnek, mint a diszkrét és folytonos ideju˝ Markov-láncok elmélete szoros összefüggésben a stacionárius id˝osorok modellezésének és identifikációjának alkalmazásával. Közismert, hogy a modern valószínuségelmélet ˝ (sztochasztikus folyamatok és rendszerek teóriája stb.) matematikai tárgyalása mérnökhallgatók, illetve mérnökök számára nem könnyu˝ feladat, hiszen dönteni kell arról, hogy – hagyományos módon – egyszerusített ˝ vagy mértékelméleti megközelítés alapján mutatjuk-e be az alapvet˝o fogalmakat és tételeket. A tankönyvben ebben a tekintetben igyekeztünk a középúton járni. A megadott, általában igényes fogalomalkotás és tételismertetés ugyan a mérnöki szemlélet számára egyszeru˝ formában közvetlen mértékelméleti tárgyalás nélkül kerül megadásra, de mindig rámutatva arra, hogy a mérnöki gyakorlatban leginkább olyan folytonos és lépcs˝os függvényekkel dolgozunk, melyeknél a valószínuségelméleti ˝ mérhet˝oség fogalma közvetlenül adott. Ezen tárgyalási mód, szemléleti elv alapja, a lépcs˝os függvények gyakori alkalmazásával az indikátor függvény szerepének többszöri felhasználásával (pl. a feltételes várható érték fogalmának megadása és értelmezése során) természetes módon kívántuk érzékeltetni a valószínusé˝ gelméleti mérhet˝oség absztrakt fogalmát. Az elméleti tárgyalásnak ez a módja viszonylag egyszeru, ˝ de mégsem mond le teljesen a mérhet˝oség fogalmáról, amelynek jelenléte (a háttérben) így elérhet˝ové válik a mélyebb megértésre törekv˝o, érdekl˝od˝o olvasók számára. A tankönyv els˝osorban mérnökhallgatók, doktoranduszok, illetve gyakorló mérnökök számára készült, de haszonnal forgathatják más alkalmazott tudományterületen tanuló egyetemi hallgatók is. Ezúton szeretnénk köszönetet mondani mindazoknak, akiknek támogatása nélkül a tankönyv nem készülhetett volna el. Mindenekel˝ott köszönettel tartozunk az Oktatási Minisztérium által támogatott Fels˝ooktatási Tankönyvkiadási Programnak, mely támogatásával jelent˝os mértékben hozzájárult a tankönyv létrejöttéhez. Ugyancsak köszönettel tartozunk Bokor Józsefnek, Csibi Sándornak, Lakatos Lászlónak, Nádai Lászlónak és Terdik Györgynek szakmai támogatásukért, melyet a kézirat javítása, kiegészítése során nyújtottak. Budapest, 2000. február 10.
a Szerz˝ok
Bevezete ´s
Els˝osorban mérnökhallgatóknak, mérnököknek szánt könyvet tart a kezében az olvasó. A klasszikus mérnökképzésben részesült nemzedékeknek valószínuleg ˝ idegennek tunhet ˝ a könyv tartalma, hisz legtöbbjük legfeljebb csak a valószínuségszámítás ˝ legelemibb összefüggéseivel találkozott tanulmányai során. A hagyományos mérnökképzés szemlélete jobbára determinisztikus volt, és ez a szemlélet még jelenleg is tettenérhet˝o mind az oktatásban, mind a mindennapi mérnöki tevékenységet meghatározó szabványosításban, a hatósági el˝oírásokban és jogszabályokban. A determinisztikus szemlélet – bár tudjuk, hogy a valóságfolyamatok nem determinisztikusak, sokkal inkább véletlenszeruek ˝ – a korábbi id˝oszak mérnökeinek ösztönös önvédelme volt a túlságosan bonyolult világ leegyszerusí˝ tése, kezelhet˝osége érdekében. A mérnök csak akkor tudta feladatait megoldani, ha a létrehozandó alkotásnak csak a kiemelked˝oen domináns, kezelhet˝o oldalaival foglalkozott, a többi, kezelhetetlen szempontot, mint lényegtelent vizsgálataiban mell˝ozte. Szándékkal emeltük ki a kezelhet˝o és kezelhetetlen ellentétpárt, mivel szívesebben hivatkoztunk e magatartás kapcsán a lényeglátásra, mint a mérnöki tevékenység elengedhetetlen összetev˝ojére, pedig számos esetben a „lényegtelen” dolgok nagyon is lényegesnek bizonyultak és elhanyagolásukat nem a lényeglátás, hanem a tudatlanság, az elégtelen ismeret indokolta. A tudatlanság, elégtelen ismeret nem a konkrét elhanyagolást tev˝o mérnök jellemz˝oje, hanem az adott kor tudományos, muszaki ˝ színvonala volt elégtelen egy-egy új feladat megoldásához. Ez a leegyszerusít˝ ˝ o magatartás nemcsak a sztochasztikus-determinisztikus szemléletpárban, hanem pl. az analízis-szintézis, ill. nemlineáris-lineáris ellentétpárokban is érvényesült. A XX. század második felében a számítógépek használatának elterjedésével (és a matematika fejl˝odésével) a korábban megoldhatatlannak tartott feladatok is kezelhet˝ové váltak, és nem kényszerülünk hiányos eszköztárunk miatt szaporítani az „elhanyagolható, lényegtelen” vizsgálati szempontokat.
Bevezete ´s
11
A sztochasztikus-determinisztikus szemléletpár ütközését legkorábban a mérnöki gondolkodásban a vízépítés területén figyelhetjük meg. A folyók vízhozama szeszélyes ingadozást mutatott, és a gátépítés terveit nyilván nem alapozhatták az átlagos vízhozamra, de a rendkívül ritkán (pl. 500 évenként egyszer) el˝oforduló maximumra sem. A gátépítés során számszerusíthet˝ ˝ o, ésszeru˝ kockázatot kellett vállalni. A folyók vízhozama az id˝onek sztochasztikus függvénye, melyet a valószínuségszámítás ˝ eszközeivel kell kezelni. A jelenséget leíró összefüggések paraméterei a hosszabb id˝on keresztül végzett megfigyelésekb˝ol – realizációkból – számíthatók. A realizációk elvileg a 0 < T → ∞ id˝otartományban értelmezend˝ok, gyakorlatilag azonban T mindenkor véges id˝otartamot jelent. E vizsgálatokban jelent˝os egyszerusítést ˝ eredményezhet, ha az egymást követ˝o évekre vonatkozó realizációk viselkedése, szezonális ingadozása azonos sztochasztikus jelleget mutat. A vízépítésben többé-kevésbé már kialakultak a mérnöki gyakorlat eszközei e kérdések kezelésére (l. Reimann József e tárgyban írt könyvét, vagy Mistéth Endre készül˝o monográfiáját). Természetesen tudomásul kell venni, hogy minden folyó más éghajlati és földrajzi környezetben helyezkedik el, így a Nílus viselkedésének ismerete alapján a Tisza nem szabályozható, és fordítva. A vízépítésnél lényegesen szélesebb mérnöki kört érint a szerkezetek szilárdsági méretezése. Ilyen feladattal egyaránt találkozik az épít˝o-, a gépész-, a közlekedési mérnök. A szilárdsági méretezés gyakorlatának változása, fejl˝odése nagyon jól mutatja a sztochasztikus szemlélet fokozatos fejl˝odését. Anélkül, hogy a méretezés-elmélet fejl˝odését részleteiben taglalnánk, érdemes egy egyszeru˝ példán elemezni a problémáit. Egytengelyu˝ feszültségi állapotban lév˝o prizmatikus, egyenes rudat kell méreteznünk húzásra. A méretezés alapképlete (az összefüggés adott formájában tulajdonképpen utólagos ellen˝orzésre szolgál): F (1) σmeg ≥ σ = A Az összefüggésben F az ismert, a rúd hosszanti súlyvonalában muköd˝ ˝ o terhel˝o er˝o, A a prizmatikus rúd rúdtengelyre mer˝oleges keresztmetszete, σ = σI az egytengelyu˝ feszültségi állapot els˝o f˝ofeszültsége, σmeg a rúd anyagára jellemz˝o, kísérletek során meghatározott adatokból számított megengedett feszültség. Ez utóbbit az F terhelés ismeretében legtöbbször az ún. szakító szilárdság, esetleg folyáshatár valamilyen tört részében adják meg. A hányados értékét biztonsági tényez˝onek is szokták nevezni, valójában azonban éppen ismereteink bizonytalanságát jellemzi. Az (1) összefüggés determinisztikus. A gyakorlatban azonban a képlet baloldalán álló σmeg értékét olyan szakító szilárdsági adatokból vezetjük le, melyek statisztikailag kiértékelt kísérlet sorozatokból származnak, és egyetlen adat helyett csak eloszlásfüggvényükkel, vagy sur ˝ uségfüggvényükkel, ˝ a mu˝ szaki gyakorlatban hisztogramjukkal jellemezhet˝ok. A képlet jobboldalán sze-
12
Bevezete ´s
repl˝o F terhel˝o er˝o értéke sem ismert pontosan és az A keresztmetszet is csak turéshatárokkal ˝ adható meg, azaz mind F, mind A ugyancsak valószínuségi ˝ változók. Érdemes külön elmélkednünk a terhel˝o er˝ot és keresztmetszetet elválasztó törtvonalról is. A tört által meghatározott egyenletesen megoszló σ feszültség csak a konkrét F er˝o bevezetési helyét˝ol elegend˝oen távol fogadható el, ha a prizmatikus rúd anyaga homogén kontinuumnak tekinthet˝o. A gyakorlatban használatos fém rudak azonban kristályos szerkezetu˝ inhomogén struktúrát mutatnak, melyek legtöbbször mikrohibákkal (diszlokációkkal, mikrorepedésekkel, esetleg üregekkel) is terheltek. Ezek környezetében a feszültség állapot már nem egytengelyu. ˝ A rúd térfogategységében lév˝o hibák számát közelít˝oleg állandónak tekintve nyilvánvaló, hogy a szilárdsági méretezés eredménye függ a szerkezet méretét˝ol is. (Ez utóbbit az anyagvizsgálat során a szakító próbatestek nagyságának megválasztásával vehetjük figyelembe.) A szilárdsági méretezés legegyszerubb ˝ esete is gondok és problémák sokaságát veti fel, és látható módon a kielégít˝o megoldáshoz elengedhetetlen a determinisztikus szemlélet feladása, ellenkez˝o esetben csak igen nagy biztonsági tényez˝o választásával nyugtathatjuk meg lelkiismeretünket, miközben fogalmunk sincs a vállalt kockázat nagyságáról, ami végül is ugyancsak (részben szubjektív típusú) valószínusé˝ gelméleti probléma. Összetett gépészeti szerkezetek, pl. jármuvek ˝ tervezése során a szilárdsági méretezés lényegesen bonyolultabb. Mi okozza ezt a bonyolultságot? A mérnöki szerkezetek tömeges méretu˝ elterjedése, a többségében laikus üzemeltetés, a gazdasági kényszeren alapuló anyag- és energiatakarékos kialakítás egyre részletesebb és valósághubb ˝ terheléstörténet figyelembevételét követeli meg a szilárdsági méretez˝ot˝ol. Az így kialakított szerkezetekben egyre kevesebb a szilárdsági tartalék, ugyanakkor a felhasználók joggal követelik a kockázat el˝oírt értéken tartását. A teljesség igénye nélkül néhány, a szilárdsági méretezést bonyolulttá tev˝o körülmény: A nagy darabszámban készül˝o termékek egyes egyedei a gyártás során lényegesen különbözhetnek egymástól. A méretpontatlanságok, beállítási és szerelési eltérések véletlenszeruen ˝ változó tulajdonságú egyedeket eredményeznek. Számos esetben szándékolt típus variánsok készülnek anélkül, hogy az eltérések szilárdsági ellen˝orzésre kerültek volna. (A jármuiparban ˝ egy-egy alaptípus esetenként több száz típus variánsban is készülhet, ilyen nagyszámú egymástól független szilárdsági ellen˝orzés viszont gyakorlatilag kivitelezhetetlen.) Az azonos termékek egymástól szignifikánsan különböz˝o üzemeltetési körülmények közé kerülnek. Eltér˝o éghajlati viszonyok, eltér˝o terheléstörténet és üzemeltet˝oi mentalitás, jármuvezetési ˝ stílus nagymértékben befolyásolja a termékek elhasználódását, kopását és végs˝o soron az élettartamát.
Bevezete ´s
13
A termékek tulajdonságai az üzemeltetés során nagymértékben változnak. Az új állapotra elvégzett szilárdsági méretezés valójában semmitmondó az élettartama felét már teljesített szerkezetre. A dinamikai terheléseket befolyásoló szerkezeti tulajdonságok egy része id˝oben rendkívül gyorsan változik és így a szilárdsági méretezést igen sok szerkezetvariánsra kell kiterjeszteni (pl. a jármuvek ˝ hasznos terhe rugalmas és csillapító tulajdonságokat is mutat, ezért nem elegend˝o passzív tömegnek tekinteni, a távolsági repül˝ogépek üzemanyagának tömegváltozása megközelítheti az össztömeg 50%-át, stb.) Az üzemelés során figyelembe veend˝o, „mértékadó” független terhelési esetek igen nagy számúak. Ez tükröz˝odik pl. a hajók regiszteri el˝oírásaiban, a repül˝ogépek építési el˝oírásaiban, a vasúti és közúti jármuvek ˝ baleseti terhelési el˝oírásaiban. A különböz˝o terhelési esetek egyidejusége, ˝ azaz a szinergikus hatása azonban még feltáratlan. A többszörös szinergia pedig hatványozott mértékben (szinte exponenciálisan) megnövelné a szilárdsági ellen˝orzés munkaigényességét. A terhelési esetek részben er˝oteherrel, részben kinematikai teherrel számolnak. A két fajta teher méretezési filozófiája ellentmondó: Er˝oteherre nagyobb teherbírású, kinematikai teherre pedig nagyobb flexibilitású szerkezetet célszeru˝ megvalósítani. Mindkét teherfajta természetesen véletlen valószínuségi ˝ változó. A terhekb˝ol számított bels˝o er˝ok általában az egyes szerkezeti elemekben összetett igénybevételt idéznek el˝o, mely az id˝o függvényében részben stacionáriusan, részben instacionáriusan változik. Az igénybevételekb˝ol ellenben – szemben a kiinduló példánkkal – általában többtengelyu˝ feszültségállapot keletkezik a szerkezet különböz˝o pontjaiban. Erre az id˝oben változó többtengelyu˝ feszültségállapotra a szakítószilárdság, ill. a szakítószilárdság valamilyen hányada már nem szolgáltat σmeg megengedhet˝o ellen˝orz˝o értéket. A vizsgálatokat – és anyagjellemz˝oket – ki kell terjeszteni a kifáradási jelenségekre is. A kifáradási vizsgálatok – még szabványosított (szinuszos) körülmények között is – igen nagy szórást mutatnak, tehát csak a valószínuségszámítás ˝ eszközeivel (eloszlásfüggvény, sur ˝ uségfüggvény, ˝ stb.) tárgyalhatók. Még inkább ez a helyzet az id˝oben rendszertelenül váltakozó terheléseknél. E rövid kitekintésb˝ol is érzékelhet˝o, hogy szerkezeteink szilárdsági méretezése – különösen jármuvek ˝ esetében – mennyire bonyolult, összetett feladat. A bonyolultságot azonban nem csak a szilárdsági méretezésében tapasztaljuk. Hasonló eredményre jutottunk volna, ha pl. az utaskényelmet, baleseti viselkedést, vagy a jármu˝ dinamikai stabilitását vizsgáltuk volna. Az összetett lengéskényelmi, klímatechnikai, zaj vizsgálatok és méretezések, a baleseti viselkedés elemzése a szilárdsági méretezéssel egyez˝oen sztochasztikus prob-
14
Bevezete ´s
lémákra vezetnek az eltér˝o üzemeltetési körülmények (éghajlat, id˝ojárás, útmin˝oség, hasznos teherállapot, pillanatnyi sebesség, man˝overezés, stb.) miatt. A szignifikánsan különböz˝o szerkezeti paraméter értékek (pl. eltér˝o hasznos tömeg és a folytonosan változó üzemi körülmények) miatt matematikai értelemben a terheléstörténet, az utaskényelmi vagy baleseti viselkedés sztochasztikus, de nem tekinthet˝o stacionáriusnak és ergodikusnak, még akkor sem, ha egyébként pl. az útegyenl˝otlenségek gerjeszt˝o hatása önmagában stacionárius és ergodikus sztochasztikus folyamat. Az instacionárius és nem ergodikus sztochasztikus folyamat egészében – a mi vizsgálataink szempontjából – kezelhetetlen, ennek ellenére jármuvek ˝ jelenleg is készülnek, tehát valamilyen közelítéssel kell megoldanunk a tervezés során felmerül˝o feladatokat. A teljes folyamat instacionárius és nemergodikus, de mindig találhatók véges, elegend˝oen hosszú, állandó paraméteres (el˝oírt hasznos teher, állandó sebesség, homogén útfelület) szakaszai, melyek önmagukban stacionáriusnak tekinthet˝ok. A teljes, folytonos paraméter tartományt így véges számú diszkrét realizációval közelíthetjük. A véges számú realizáció kiválasztása és relatív hosszuknak megállapítása korábban üzemel˝o (közelít˝oleg akár más típusú) jármu˝ megfigyelése alapján történhet. Ez a fajta statisztikai adatgyujtés ˝ természetesen országonként (esetleg városonként) más-más eredményre vezethet, és ennek eredményeképp a különböz˝o országokban üzemel˝o jármuvek ˝ eltér˝o élettartamúak lehetnek, de fordított tervez˝oi döntéssel olyan szerkezeti módosítások (er˝osítések) is megvalósíthatók „felárért”, melyek mostohább körülmények között is azonos élettartamot biztosítanak. Ez a fajta gondolkodás átvezet a Markov-láncok (ill. szemi-Markov-folyamatok) területére. A vizsgálatok kivitelezése két úton is lehetséges: A diszkrét realizációkból – el˝ofordulási súlyuk arányaiban – mintegy 1000– 1500 km-es egyesített realizációt állítunk össze, a jármuvet ˝ ill. modelljét az id˝o függvényében végig futtatjuk ezen az egyesített realizáción (közben szakaszonként változtatjuk a hasznos teher mennyiségét, az útmin˝oséget és a haladási sebességet, természetesen kell˝o számú átmeneti szakaszt is beiktatva a változó sebesség szimulálásával). A jármu˝ dinamikai modelljének kell˝o számú, kiválasztott pontjában az id˝o függvényében meghatározzuk az igénybevétel, ill. feszültségállapot adatait, végül ezekb˝ol az id˝ofüggvényes adatokból statisztikát készítünk a feszültség változásokról, melyb˝ol, már kifáradási károsodás, ill. élettartam becslés számítható. A diszkrét realizációkból – a hozzájuk tartozó gerjesztési spektrum segítségével – a frekvencia függvényében egyenként meghatározzuk a dinamikai igénybevételeinek a spektrumait a jármu˝ modell kiválasztott pontjaiban, majd ezekb˝ol „feszültség jelszint” keresztez˝odési számot állapíthatunk meg, mely közvetlenül felhasználható kifáradási károsodás, ill. élettartam becslésre.
Bevezete ´s
15
Látható módon a két eljárás igen közeli rokon vonásokat mutat. Az els˝o eljárás azonban nagyon munkaigényes, a számítógépes szimulációhoz gyakran az urkutatásban ˝ kifejlesztett nagyméretu˝ szimulációs programok bérlése szükséges. Különösen munkaigényes az utólagos statisztikai adatfeldolgozás. El˝onye viszont, hogy a jármu˝ dinamikai modellje a valósághoz közelebb állóan nemlineáris lehet. A második, frekvencia függvényében végzett analízis lényegesen egyszerubb, ˝ az igénybevétel-, ill. feszültség szintkeresztezési adatok a válasz derivált spektrumával egyszeruen ˝ számíthatók. Hátránya, hogy a szerkezet dinamikai modellje az eredetihez kevésbé hasonlító linearizált modell. Ennek legkézenfekv˝obb formája az aktuális paraméter kombinációhoz tartozó munkaponti linearizálás lehet. Mindkét eljárás modellje tovább finomítható a hasznos teher aktív tulajdonságainak (rugalmasság, csillapítás) figyelembevételével, valamint a figyelembe vett diszkrét realizációk számának szaporításával, azaz a folytonosnak tekinthet˝o változó üzemeltetési tartomány finomabb beosztású letapogatásával. Továbbfejlesztésként elképzelhet˝o a szerkezet elhasználódásának figyelembevétele, azaz a teherhordó szerkezet kopásának, lazulásának, változó rugalmas és csillapító tulajdonságának lépcs˝ozése is. A modell finomításnál azonban tekintettel kell lenni arra, hogy két állapot feltételezése már megkétszerezi a vizsgálathoz szükséges számítások és adatok mennyiségét. A determinisztikus szemlélet és a jelenségek véletlen valószínuségi ˝ leírása szignifikánsan eltér˝o eredményekre vezethet már egyszeru, ˝ kisméretu˝ feladatok megoldásánál is. Vizsgáljuk meg például az 1. ábrán látható egyszeru, ˝ 6 rúdból álló statikailag határozatlan, ideális síkbeli rácsos tartó er˝ojátékát determinisztikusan és a rudak véletlen méretpontatlanságát valamint a teher ingadozását figyelembe véve valószínuségszámítás ˝ eszközeivel. A vizsgálatok során ismertek a névleges geometriai és teher adatok, valamint azok ingadozásának széls˝o értéke, turésmezeje, ˝ valamint feltételezzük, hogy a turésmez˝ ˝ on belül az egyes elemek hosszméretének valószínuségi ˝ eloszlása – a gépgyártástechnológiában már számos alkalommal igazolt feltételezéssel – normálisnak tekinthet˝o. Ebben az esetben a rudak hoszszának várható értéke a névleges méretükkel, míg szórása a turésmez˝ ˝ o 1/6-ával adható meg. A küls˝o terhel˝o er˝o nagysága a névleges érték körül ±30%-os tartományban ingadozhat és eloszlásfüggvénye ugyancsak normálisnak tekinthet˝o, melynek szórása a névleges érték 10%-a. A rúd hosszakat összességükben független valószínuségi ˝ változóknak tekintjük, annak ellenére, hogy az 1–4 határoló rudak, valamint az 5–6 átlók valószínuleg ˝ ugyanazon készülékben lettek méretre szabva. Természetesen egy készülékben is készülhetnek eltér˝o méretu˝ végtermékek pl. az alkatrészek eltér˝o h˝omérséklete miatt (nyáron, ill. télen készült termékek különböz˝osége, ha a készülék h˝otágulási együtthatója igen kicsiny). A küls˝o teher a rúdhosszaktól természetesen független valószínuségi ˝ változó. (A köl-
16
Bevezete ´s
1. ábra. 6 rúdból álló ideális síkbeli rácsos tartó er˝ojátéka
csönös függéssel itt nem foglalkozunk, de a feladat a függetlenség feltételezése nélkül is megoldható, ha ismert a kölcsönös függés mértéke egy elegend˝oen nagy mintából.) A rúder˝oket (és ezzel a bennük ébred˝o normál feszültségeket is) a determinisztikus szemlélet alapján három szignifikánsan különböz˝o esetre határoztuk meg: a. a rudak hossza pontos és a teher névleges értéku, ˝ b. a rudak hossza pontos és a teher a turésmez˝ ˝ o szélére esik (1,3F illetve 0,7F), c. a rudak hossza a turésmez˝ ˝ o szélére esik és a legkedvez˝otlenebb kombinációban alkotják a szerkezetet (pl. az 1–4 határoló rudak mind hosszabbak a névleges méretnél, az 5–6 átlók pedig rövidebbek, illetve fordítva), a terhel˝o er˝o a turésmez˝ ˝ o szélén helyezkedik el. A valószínuségszámításon ˝ alapuló megfontolás során négy esetet vizsgáltunk: d. a 6. rúd hosszának a turésmezeje ˝ ±1 mm, az összes többi rúd, valamint a küls˝o teher névleges értéku, ˝ e. az 5. és 6. rúd hosszának turésmezeje ˝ ±1 mm, az összes többi rúd, valamint a küls˝o teher névleges értéku, ˝ f. az összes rúd turésmezeje ˝ ±1 mm, a küls˝o teher névleges értéku, ˝ g. az összes rúd turésmezeje ˝ ±1 mm, a küls˝o teher turése ˝ ±1%. A számítást nem részletezzük, de a 7 vizsgált esethez tartozó rúder˝oket az 1. táblázatban összefoglaltuk. Az 1. táblázatból megállapítható, hogy a rudak 0,1% körüli hosszváltozása okozta kinematikai terhelésb˝ol a küls˝o er˝o terheléssel egyez˝o nagyságrendu˝ rúder˝ok keletkezhetnek a szerkezetben. Mivel ilyen mértéku˝ hosszváltozások nemcsak pontatlan gyártásból, hanem a szerkezet egyes elemeinek felmelegedéséb˝ol is származhatnak, ezért a szerkezet igen érzékeny az egyenl˝otlen
17
Bevezete ´s 1. táblázat. A 7 vizsgált esethez tartozó rúder˝ok A rúder˝ok értéke kN-ban vizsgált eset
névleges érték
rúd jele
a
1, 2 3, 4 5 6
5 −5 −7,071 7,071
turésmez˝ ˝ o szélessége b
c
d
e
f
g
±1,5
±15,52
±3,075
±4,35
±6,15
±6,33
±2,121
±22,08
±4,35
±6,15
±8,7
±8,955
felmelegedésre. A három, determinisztikus módszerrel vizsgált esetb˝ol a c variáns rendkívül kedvez˝otlen képet mutat, a névleges rúder˝ok négyszerese is el˝ofordulhat a szerkezetben. Ha a tervezés során ezt vennénk figyelembe mértékadó teherként, igen gazdaságtalan szerkezetet valósítanánk meg. A valószínuségszámítás ˝ módszereivel számított g variáns ezzel szemben a névleges rúder˝ok alig valamivel több, mint kétszeresét mutatja ki, így kevésbé túlméretezett – tehát gazdaságosabb – szerkezetet eredményez. A szilárdsági méretezéshez hasonlóan determinisztikus számítások helyett sztochasztikusan kell tárgyalni a jármuvek ˝ általános mozgásdinamikáját is. A kérdést végletekig leegyszerusítve ˝ a jármu˝ mozgását önkényesen szétválasztjuk f˝omozgásának irányába (longitudinális) és arra mer˝olegesen kereszt irányában (laterális dinamika), illetve „függ˝olegesen” (vertikális dinamika) parazita mozgásokra. A f˝omozgás els˝osorban energetikai szempontból, a függ˝oleges mozgás az utazási kényelem (áruvédelem) szempontjából, míg a keresztirányú mozgás biztonsági szempontból érdemel figyelmet. A szétválasztás természetesen csak durva közelítés, a valóságban mindhárom irányú mozgás kölcsönösen kihat a jármu˝ energiafogyasztására, kényelmére és biztonságára is. Még szembetun˝ ˝ obb ez a kölcsönhatás, ha a transzlációk mellett figyelembe vesszük a jármu˝ f˝otengelyei körüli forgó mozgásokat is (bólintás, támolygás [legyezés], orsózás). Tekintsük át a f˝o- és parazita mozgások vizsgálatában felmerül˝o sztochasztikus problémákat. Közismert, hogy a városi forgalomban a gépjármuvek ˝ fajlagos (km-kénti) üzemanyag-fogyasztása lényegesen nagyobb (a kis sebességek és kis légellenállás ellenére), mint városon kívül. A nagyobb fogyasztás több hatás következménye. A jármu˝ motorja ilyenkor általában nem az optimális üzemállapotban muködik, ˝ hanem a gyorsan változó forgalmi (sebesség) viszonyokhoz kell a fordulatszámot megválasztani; sur ˝ un ˝ kényszerülünk fékezésre, melynél a jármu˝ mozgási energiáját h˝ové alakítjuk, a jármu˝ újra gyorsítása is többlet energiát igényel; a piros lámpáknál álló jármu˝ motorja üres járatban is fogyasztja az üzemanyagot. Ez a tranziens üzemmód sztochasztikusan változik,
18
Bevezete ´s
a jármuvezet˝ ˝ ok reagálása is véletlenszeruen ˝ késleltetett folyamat. Átlagos felkészültségu˝ vezet˝o nagyvárosi forgalomban akár a kétszeresére is növelheti a fajlagos üzemanyag-fogyasztást az állandósult állapotú országúti fogyasztáshoz képest. A jelenségb˝ol két irányú következtetést levonhatunk: A jármuvet ˝ olyan szabályozó berendezésekkel (érzékel˝ok, fedélzeti számítógép, beavatkozók) kell felszerelni, melyek minimális késleltetéssel mindig optimális motorüzemelést valósítanak meg, piros lámpánál pedig leállítják, majd szabad jelzésnél újra indítják a motort. Olyan forgalomirányítást (akár off-line, akár on-line) kell kiépíteni, mely az egész városi forgalom energiafogyasztását minimálja. Ilyen bonyolult, nagy rendszer optimálása azonban nem nélkülözheti a teljes sztochasztikus közlekedési folyamat feltárását, beleértve a beavatkozások és szabályozások következményeinek a kimutatását is (lásd pl. a mikro káosz problémákat). A jármuvek ˝ függ˝oleges lengése els˝osorban az utazó kényelemérzetét befolyásolja. A korábbi id˝oszak jármu˝ tervez˝oinek egyik f˝o feladata volt a jármu˝ f˝orugójának megtervezése úgy, hogy a jármufelépítmény ˝ függ˝oleges lengésének els˝o saját frekvenciája 1 Hz körül helyezkedjék el. A normális gyalogos lépés frekvenciájához szokott ember ugyanis ennél lényegesen kisebb, vagy lényegesen nagyobb frekvenciájú lengésnél igen kellemetlenül érzi magát. Determinisztikus problémaként kezelve a kívánatos frekvencia beállítása természetesen egyértelmu˝ és lényegében egyszeru˝ feladat. Sajnos azonban a jármu˝ tömege az üzemelés során változó hasznos tehert˝ol akár 100%-kal is növekedhet az üres állapothoz képest, ez pedig az üres állapotbeli saját frekvenciát kb. 30%-kal csökkenti a teljesen terhelt állapotban. A 0,7 Hz-es saját frekvencia az emberek többségénél rosszullétet vált ki. Természetesen e megállapítás csak lineáris rugó karakterisztikára érvényes. Progresszív karakterisztikájú rugóval közel állandó frekvencia állítható be teherállapottól függetlenül. A determinisztikus tervezés nem vesz tudomást az útfelület (és motor) széles sávú gerjesztési spektrumáról sem. A frekvenciával együtt a gerjesztés amplitúdója is változik, tehát egy üzemi pont beállítása helyett sokkal általánosabb gerjesztési spektrumot, s˝ot a jármu˝ több kereke miatt spektrumokat kell a f˝o rugók tervezése során figyelembe venni. Az egyes kerekei általában más-más nyomon futnak, a gerjesztések id˝obeli lefolyása a geometriai útegyenl˝otlenségek mellett a jármu˝ sebességét˝ol is függnek, az útgerjesztés amplitúdója a pálya deformálhatósága (rugalmas és maradó egyaránt lehetséges) miatt függ a pillanatnyi keréknyomástól, közvetve a jármu˝ tömegét˝ol és mozgásállapotától. Ráadásul a lengések okozta fárasztó hatások az utas szervezetében halmozódnak, a halmozódás nem egyszeru˝ összegz˝odés, mert az emberi szervezet érzékenysége is frekvenciafügg˝o. A kumulálódó hatásokra minden ember (ha kis mértékben is) eltér˝oen reagál. A sztochasztikus tárgyalás tehát nemcsak
Bevezete ´s
19
a gerjesztés szabatos leírásához szükséges, hanem a tervezésnél figyelembe kell venni a gerjesztést elvisel˝o személyek véletlenszeruen ˝ változó egyéni tulajdonságait is. A jelenséget tovább színezi az, hogy a hosszdinamika (fékezés, gyorsítás) járulékos függ˝oleges gyorsulásokat is eredményezhet a jármu˝ egyes részeiben (bólintás) és ez a hatás a véletlenszeruen ˝ változó forgalmi szituációtól, a vezet˝o szubjektív vezetési stílusától, valamint az útfelület min˝oségét˝ol (pl. száraz, vagy jeges) is függ. Ezen belül különösen összetett a fékezés folyamata, mely a jármu˝ és fék aktuális tulajdonságain kívül az útfelület kerekenként esetleg eltér˝o adhéziós viszonyaitól és a jármu˝ tömegeloszlásától is függ. Bármilyen vezérlést és szabályozást is választunk a fékrendszerhez, az csak a fizikai lehet˝oségeket tudja kihasználni, de ezek a fizikai adottságok pillanatról-pillanatra (helyr˝ol-helyre) változhatnak. Ugyanilyen megállapítások tehet˝ok a jármu˝ laterális dinamikájára. Az oldalirányú mozgást (a jármu˝ keresztirányú kisodródását, borulását, stabilitását) a kerekek alatti pillanatnyi adhézió, a kerék aktuális függ˝oleges lengésgyorsulása, a jármu˝ súlypontjának rakománytól függ˝o helyzete, a hasznos teher pillanatnyi önálló mozgásállapota (pl. folyadékszállító tartálykocsiknál) a vezet˝o szubjektív vezetési stílusa, a forgalmi helyzet megkövetelte man˝over kényszer mind véletlenszeruen ˝ befolyásolja. Az oldalirányú parazita mozgás vizsgálatával áttértünk a közlekedés egyik f˝o problémáját jelent˝o balesetek területére. Az eddig tárgyalt befolyásoló körülmények mellett figyelembe kell venni a balesetet szenved˝o jármu˝ baleseti partnerét is. A „partner” lehet egy másik álló, vagy mozgó jármu, ˝ esetleg épület, villanyoszlop, stb. A lehet˝oségek száma szinte végtelen. A baleset, ill. katasztrófa elemzés a hagyományos mérnöki tevékenységnek korábban elhanyagolt területe volt. Jelenleg azonban már mind a kísérleti, mind az elméleti (számításos szimulációs) vizsgálatok a mindennapi tervez˝o munka részévé váltak. A baleset, ill. katasztrófa elemzés legérdekesebb eredménye az, hogy bár a baleseti szituációk véletlen valószínuségi ˝ változók, bennük mégis még jelenleg is dominál és szükséges a determinisztikus szemlélet. A sztochasztikus szemlélet, statisztikák feldolgozása, gyakorisági vizsgálatok a már megtörtént balesetekre terjednek ki. Ezekb˝ol az utólag készített statisztikákból választják ki a tipikus, gyakrabban el˝oforduló baleseti szituációkat (baleseti partner tulajdonságai, az ütközés iránya, az ütközés el˝otti sebesség, stb.), melyek mintegy szabványosítva – megszabják az ütköztetési kísérlet kezdeti értékeit és peremfeltételeit. E kísérletek igen költségesek, és gyáranként legfeljebb néhány száz végezhet˝o el bel˝olük évente, ez pedig nem elegend˝o a közlekedés balesetbiztonságának megkívánt szintjéhez. A kísérleteket kiegészítik a számítógépes szimulációs vizsgálatokkal is, ezzel a megvizsgált esetek száma akár 1–2 ezerre is növelhet˝o. A számítógépes vizsgálatok is – a kísérletekhez hasonlóan – pontosan definiált determinisztikus esetekre korlátozód-
20
Bevezete ´s
nak. A statisztikát a vizsgálatok stratégiájának megtervezésére kell felhasználni. Ez az utóbbi példa is világosan mutatja, hogy a sztochasztikus szemlélet nem teszi feleslegessé a determinisztikus módszereket. A vázolt, egyszerusített ˝ gondolatmenet alapján nyilvánvaló, hogy a sztochasztikus alapon történ˝o tervezésnek és méretezésnek még csak a kezdetén tartunk. Természetesen az irodalomban számos részfeladat megoldása megtalálható. E könyv szerz˝oi is szerény mértékben hozzájárultak a fogalmak szétválasztásához és tisztázásához. A véletlen kinematikai teherrel, valamint a jármuvek ˝ sztochasztikus terhelés történetével kapcsolatos dolgozataik és konkrét tervezési feladat megoldásaik érdekl˝odést keltettek a jármutervez˝ ˝ ok és a gyártók köreiben. A jól algoritmizált teljes és általános sztochasztikus tervezés és méretezés elméletig azonban a tudomány még nem jutott el. A valószínuségel˝ méleti megközelítésen kívül felmerülhet egyes feladatok intervallum algebrai ill. „lehet˝oségelméleti” azaz fuzzy modellezés és szemlélet alkalmazásának lehet˝osége is. Az informatika korábban elképzelhetetlen méretu˝ feladatok megoldását is lehet˝ové teszi. A legnagyobb nehézségek jelenleg inkább a kiinduló paraméter tartományok kísérleti vizsgálatában merülnek fel. A kísérletekre pedig igen sok id˝o szükséges és rendkívül költségesek. A jöv˝o közlekedésének a biztonság fokozása miatt a pályát és a jármuveket ˝ el˝obb, vagy utóbb egységes információs rendszerbe kell foglalnia, ehhez pedig elengedhetetlen a több céget összefogó, átgondolt kísérletsorozatok és adatgyujtések ˝ megtervezése, a tervezésben és méretezésben figyelembe veend˝o üzemeltetési esetek jogi rögzítése, szabványosítása, a szabványok folyamatos korszerusítése. ˝ Ez már valóban az új évszázad (ill. évezred) mérnökének a feladata.
I. re ´sz Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
1 A valo ´szı´n˝ use ´gelme ´let alapjai
A véletlen esemény és a vele szoros kapcsolatban lév˝o valószínuség ˝ fogalma, mint a véletlen mennyiségi jellemzése az emberi gondolkodás és gyakorlat egyik legfontosabb fogalmának tekinthet˝o, amely alapvet˝o szerepet játszik a modern tudományban és gyakorlati alkalmazásokban. Ennek és a ráépül˝o szabatos matematikai elméletnek – a valószínuségelméletnek ˝ – a kialakulása több évszázados múltra tekint vissza. Az utóbbi másfél évszázadban, de különösen a valószínuségelmélet ˝ modern, Kolmogorov-féle (1933) axiomatikus felépítése óta, amely a halmaz- és mértékelméleten nyugszik, hatalmas fejl˝odésen ment keresztül, s a természet- és társadalomtudományok értékes és nélkülözhetetlen eszközévé vált. Segítségével olyan bonyolult összefüggések és törvényszeruségek ˝ is feltárhatók, melyekkel kapcsolatban a klasszikus determinisztikus megközelítések nem vezetnek eredményre. Az alábbiakban röviden összefoglaljuk a valószínuségelmélet ˝ legfontosabb fogalmait és eredményeit, amelyekre szükségünk lesz a kés˝obbiek során. Ebben az összefoglalóban – megtartva a matematikai precizitást – csak a szükséges mértékben támaszkodunk a mélyebb matematikai, els˝osorban halmaz- és mértékelméleti fogalmakra és eredményekre, s egyben igyekszünk szemléletes módon bevezetni a különböz˝o meglehet˝osen absztrakt fogalmakat. Az összefoglaló végén felsorolt munkák, amelyekre a könyv elkészítése során részben támaszkodtunk, kielégíthetik az általánosabb fogalmak és a részletek iránt érdekl˝od˝ok kíváncsiságát is.
1.1. Ve ´letlen eseme ´ny, ve ´letlen kı´se ´rlet matematikai fogalma A valószínuségelmélet ˝ „véletlen jellegu” ˝ tömegjelenségekkel, tömegesen el˝oforduló ún. véletlen eseményekkel foglalkozik. Számos olyan jelenséggel találkozunk a mindennapi életben, amikor a figyelembe vett, vagy egyáltalán figyelembe vehet˝o körülmények összessége a jelenség „természetéb˝ol” adó-
24
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
dóan nem határozza meg és nem is határozhatja meg egyértelmuen ˝ a jelenség kimenetelét (pl. lottóhúzás eredménye, radioaktív anyag bomlása során mely atomok bomlanak el egy megadott id˝ointervallumon, adott id˝opontban egy autóbuszon utazó utasok száma, a jármu˝ vázszerkezetében ébred˝o feszültség stb.). Ezeket véletlen jelenségeknek, s a több alkalommal lényegében azonos körülmények között megismétl˝od˝o, illetve megismételhet˝o véletlen jelenségeket véletlen tömegjelenségnek nevezzük. Az alapvet˝o különbség a determinisztikus, illetve véletlen események között abban van, hogy míg determinisztikus esetben a körülmények bizonyos öszszessége mellett egy adott esemény szükségképpen bekövetkezik, addig az utóbbi esetben vagy bekövetkezik, vagy nem, azaz a megadott körülmények esetén nem látható el˝ore az esemény bekövetkezése, vagy be nem következése. Adott körülmény-együttes mellett egy esemény lehet véletlen, míg mások mellett akár determinisztikus is lehet. Például, ha egy dobókockáról, a sebességér˝ol, az asztallapról, amelyre érkezik stb., minden információ rendelkezésünkre állna az eldobás pillanatában és képesek lennénk azonnal feldolgozni, akkor meg tudnánk mondani el˝ore, hogy a dobókocka melyik lapjára esik. A véletlen tömegjelenség egyes kimeneteleinek megfigyeléseit véletlen kísérletnek, míg egy kísérlet lehetséges konkrét kimeneteleit elemi eseménynek nevezzük. A kísérlettel kapcsolatos elemi események összessége az eseménytér. Az elemi eseményeken kívül általában más eseményeket is lehet nézni, például két kocka dobásánál nemcsak a lehetséges {(i,j), 1 ≤ i,j ≤ 6} elemi eseményeket, hanem azt is, hogy az összegük páros, avagy a két dobás megegyezik-e egymással stb.? Véletlen esemény, vagy röviden esemény alatt a továbbiakban az elemi események bizonyos együtteseit értjük. Azt mondjuk, hogy egy kísérlet során egy megadott esemény bekövetkezik, ha a kísérlet kimenetele egy olyan elemi esemény, amely az adott eseményhez tartozik. Ezek az intuitív fogalmak, amelyek a valószínuségelmélet ˝ kialakulása során fogalmazódtak meg, természetesen nem egzakt matematikai fogalmak, ugyanakkor nélkülük nem válna világossá a valószínuségelmélet ˝ és a gyakorlati alkalmazások közötti kapcsolat. Minthogy a valószínuségszámítás ˝ absztrakt matematikai elmélet, ezért az esemény fogalmát a valószínuségelmélet˝ ben absztrakt fogalomként tárgyaljuk. Els˝o, amivel foglalkozni fogunk, az eseményalgebra, amely az elemi valószínuségelmélet ˝ alapvet˝o matematikai struktúrája és megfelel az adott kísérletnek.
1.2. Eseme ´nyalgebra e ´s σ-algebra fogalma, m˝ uveletek eseme ´nyekkel Közismert, hogy a legegyszerubb ˝ esetekben, pl. a kockadobás esetén, a lehetséges kimenetelek száma véges, míg egy legyártott alkatrész mérete, vagy egy adott id˝opontban megfigyelt leveg˝oh˝omérséklet végtelen sok értéket eredmé-
25
1. A valo ´szı´n˝ use ´gelme ´let alapjai
nyezhet. Adott kísérlet esetén az egymást kölcsönösen kizáró lehetséges ω kimeneteleket elemi eseményeknek, míg az összes elemi esemény (nem üres) Ω halmazát elemi eseménytérnek nevezzük. Ha az Ω eseménytér véges, vagy megszámlálhatóan végtelen sok elemb˝ol áll, akkor azt mondjuk, hogy az elemi eseménytér diszkrét. Az Ω halmaz bizonyos A ⊆ Ω részhalmazait eseményeknek nevezzük. Itt meg kell jegyezni, hogy az Ω halmaz nem minden részhalmaza esemény, csak azok, amelyeket annak tekintünk. Ugyanakkor az eseményeknek rendelkeznie kell bizonyos algebrai tulajdonságokkal, melyeket az eseményeken való muveletek ˝ értelmezése után adhatunk csak meg. Az Ω-t, illetve a ∅ üres halmazt, melyeket mindig eseményekként értelmezünk, a biztos eseménynek, illetve lehetetlen eseménynek nevezzük. Egy A esemény bekövetkezésén azt értjük, hogy van olyan ω ∈ A elemi esemény, amely bekövetkezett. Azt mondjuk, hogy egy A esemény maga után vonja a B eseményt, ha A ⊆ B. Mivel az események halmazok (azokkal azonosítottuk o˝ ket), ezért értelmezhetünk közöttük (halmazelméleti) muveleteket ˝ és mindig feltesszük, hogy a muveletek ˝ eredményeképpen újból eseményekhez jutunk. Két tetsz˝oleges A és B esemény A+B(A∪B) összegén azt az eseményt értjük, melyhez azok az elemi események tartoznak, amelyek az A és B esemény közül legalább az egyiknek eleme; az A és B esemény A·B(A∩B) szorzatán pedig azt az eseményt, melyhez azok az elemi események tartoznak, amelyek mindkét A és B esemény elemei. Szükségünk van még egy muvelet ˝ bevezetésére. Az A és B esemény A − B(A\B) különbségén egy olyan eseményt értünk, melyhez azok az elemi események tartoznak, amelyek elemei A-nak, de nem elemei B-nek. Az A = Ω − A eseményt az A esemény komplementerének nevezzük. Ha az A és B eseményre A · B = ∅, akkor az A és B esemény diszjunkt. Mindenekel˝ott megjegyezzük, hogy az események komplementereire érvényesek a de Morgan-féle azonosságok: A + B = A · B,
A · B = A + B.
A de Morgan-féle azonosságok használatával könnyen ellen˝orizhet˝o, hogy a bevezetett muveletek ˝ bármely A, B, C esemény mellett eleget tesznek az alábbi összefüggéseknek: A + A = A, A + B = B + A, A + (B + C) = (A + B) + C, A + (BC) = (A + B)(A + C), A + A = Ω, A + ∅ = A, A + Ω = Ω,
A · A = A, A · B = B · A, A · (B · C) = (A · B) · C, A · (B + C) = (A · B) + (A · C), A · A = ∅, A · Ω = A, A · ∅ = ∅.
26
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
A most bevezetett muveletek ˝ segítségével megadhatjuk az esemény σ-algebra és vele együtt az események fogalmát. 1.1. D EFINÍCIÓ . Legyen Ω tetsz˝oleges nem üres (absztrakt) halmaz. Legyen A az Ω bizonyos részhalmazaiból alkotott halmaz, amely eleget tesz az alábbi tulajdonságoknak: (1) Ω ∈ A, ˝ (2) Ha A ∈ A és B ∈ A, akkor egyidejuleg az A+B, AB és az A−B halmazok mindegyike is eleme A-nak. Az (1) és (2) tulajdonságokkal rendelkez˝o A halmazrendszert eseményalgebrának (halmazalgebrának), A elemeit pedig eseményeknek nevezzük. Az események, eseményeken vett muveletek ˝ és eseményalgebra fogalmát általánosan halmazelméleti megközelítéssel vezettük be, ami egyszerubbé ˝ teszi ezeknek a fogalmaknak a megértését. Választhatnánk más megközelítést is a halmazelméleti fogalmakra történ˝o közvetlen hivatkozások nélkül, pusztán az események karakterizáló tulajdonságait felhasználva, azonban ezen az úton nem jutunk általánosabb modellhez, mivel az így definiált algebrai struktúrát mindig definiálhatjuk megfelel˝oen választott halmazalgebra segítségével is. Ha az elemi események Ω halmaza véges, akkor a most definiált eseményalgebra teljesen megfelel a valószínuség ˝ matematikai fogalmának bevezetéséhez. Ha az Ω halmaz nem véges, akkor az eseményalgebrával kapcsolatban még egy kiegészít˝o tulajdonságot kell megkövetelnünk. 1.2. D EFINÍCIÓ . Legyen Ω tetsz˝oleges nem üres halmaz és legyen A az Ω bizonyos részhalmazaiból alkotott halmaz. Azt mondjuk, hogy A egy esemény σ-algebra, ha eseményalgebra és tetsz˝oleges legfeljebb megszámlálhatóan végtelen sok A1 ,A2 ,... ∈ A események mellett ∞ Ai ∈ A. i=1
Az ilyen (Ω,A) párost mérhet˝o térnek szokás nevezni, és ez az a fogalom, amely az általános valószínuségfogalom ˝ alapját képezi.
2 A valo ´szı´n˝ use ´g fogalma
2.1. Gyakorisa ´g e ´s relatı´v gyakorisa ´g A valószínuség ˝ matematikai fogalmának bevezetése el˝ott nézzük meg, hogy milyen intuitív fogalom húzódik meg mögötte, amely sok tekintetben támpontot is nyújthat a kés˝obbi vizsgálódásainkhoz. Tekintsünk egy véletlen kísérletet, melynek során egy bizonyos A esemény bekövetkezését vizsgáljuk. Végezzük el a kísérletet n-szer egymás után, egymástól függetlenül. Jelölje Sn (A) az n számú kísérletben az A esemény bekövetkezései számát, vagyis az A esemény gyakoriságát, míg Sn (A) = Sn (A)/n az A esemény bekövetkezésének relatív gyakoriságát. Világos, hogy a kísérletek kimenetele vagy az A, vagy pedig az A esemény bekövetkezése lehet, másrészr˝ol a függetlenség miatt bármilyen sorrend egyformán el˝ofordulhat. Ennek ellenére – a tapasztalat szerint – az n megfigyelésszám növekedésével az Sn (A) relatív gyakoriság egy bizonyos, csak az A eseményt˝ol függ˝o pA szám körül ingadozik és ha az n megfigyelésszámot minden határon túl növeljük, akkor az Sn (A) relatív gyakoriság tart a pA értékhez. Ezt a pA számot nevezzük az A esemény valószínuségének. ˝ Ez az intuitív valószínuségfogalom ˝ teremti meg a valószínuség ˝ egzakt fogalmának a gyakorlattal való kapcsolatát (a szóban forgó konvergencia-fogalom megvilágítására a nagy számok törvényénél térünk vissza, ld. 7.2. pont) és nyújt eligazítást a valószínuségfogalom ˝ kialakításához. Például a fentiekb˝ol világos, hogy minden A esemény mellett 0 ≤ pA ≤ 1, továbbá ha A és B tetsz˝oleges egymást kizáró események, akkor Sn (A + B) = Sn (A) + Sn (B),
Sn (A + B) = Sn (A) + Sn (B),
és innen pA+B = pA + pB Mivel Sn (Ω) = n, Sn (∅) = 0, így nyilvánvalóan, hogy pΩ = 1, p∅ = 0.
28
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
2.2. A valo ´szı´n˝ use ´g matematikai fogalma: a valo ´szı´n˝ use ´gsza ´mı´ta ´s axio ´ma ´i, Kolmogorov-fe ´le valo ´szı´n˝ use ´gi mez˝ o Az intuitív fogalom után nézzük meg a valószínuség ˝ egzakt matematikai fogalmát. Legyen Ω nem üres halmaz az elemi események tere, A pedig az Ω bizonyos részhalmazaiból alkotott esemény σ-algebra, vagyis (Ω,A) egy mérhet˝o tér. Az A esemény σ-algebra tetsz˝oleges A ∈ A eleméhez rendeljünk hozzá egy P(A) valós számot az alábbi tulajdonságokkal: (1) 0 ≤ P(A) ≤ 1, A ∈ A (2) P(Ω) = 1 (3) Tetsz˝oleges egymást páronként kizáró Ai ∈ A, i = 1,2,... eseményekre (Ai · Aj = ∅,i = j): ∞ ∞ Ai = P(Ai ). P i=1
i=1
˝ Ekkor a P(A), A ∈ A számot az A esemény valószínuségének, a P függvényt va˝ ˝ lószínuség-függvénynek, vagy röviden valószínuségnek, az (Ω,A,P) hármast Kol˝ mogorov-féle valószínuségi mez˝onek, míg az (1), (2) és (3) tulajdonságokat a valószínuség ˝ axiómáinak nevezzük. Megjegyezzük, hogy abban az esetben, amikor az Ω elemi eseménytér véges, akkor A eseményalgebra és a (3) tulajdonságot (additivitást) elegend˝o véges számú, egymást páronként kizáró események összegére megkövetelni. Ha az Ω elemi eseménytér és ezzel együtt a bizonyos részhalmazainak megadott A rendszere nem véges, akkor szükséges feltenni, hogy A esemény σ-algebra és P valószínuség ˝ eleget tesz (3)-nak. Ez utóbbi tulajdonságot σ-additivitásnak is szokás nevezni.
2.3. Klasszikus (kombinatorikus) valo ´szı´n˝ use ´gi mez˝ ok Tekintsük most röviden a kombinatorikus valószínuségi ˝ mez˝ok fogalmát. Legyen az Ω elemi eseménytér véges, azaz valamilyen pozitív egész n szám mellett Ω = {ω1 ,...,ωn }. Az A-t definiáljuk úgy, mint az Ω összes lehetséges részhalmazaiból álló (véges) eseményalgebrát és a P valószínuséget ˝ pedig a következ˝o módon: tetsz˝oleges A ∈ A esetén legyen 1 I(ωi ∈ A), n n
P(A) =
i=1
ahol az I indikátorfüggvény értéke 1, vagy 0 aszerint, hogy az ωi ∈ A feltétel teljesül, avagy nem. Ezt a (Ω,A,P) valószínuségi ˝ mez˝ot klasszikus, vagy kom˝ binatorikus valószínuségi mez˝onek nevezzük. Az utóbbi elnevezés azt fejezi ki, hogy a klasszikus valószínuségi ˝ mez˝on adott események valószínuségét ˝ leggyakrabban kombinatorikus módszerekkel tudjuk meghatározni.
29
2. A valo ´szı´n˝ use ´g fogalma
A most bevezetett klasszikus valószínuségi ˝ mez˝o P valószínuségére ˝ nyilvánvalóan fennáll, hogy tetsz˝oleges 1 ≤ k ≤ n esetén az Ak = {ωk } csak egy elemi eseményb˝ol álló eseményre 1 1 1 I(ωi ∈ Ak ) = I(ωk ∈ Ak ) = , n n n n
P(Ak ) =
i=1
továbbá tetsz˝oleges A esemény valószínusége ˝ megadható úgy, mint a benne foglalt elemi események száma osztva az összes elemi események számával. Ez utóbbit szokás úgy is megfogalmazni, hogy „egy esemény valószínusége ˝ =a kedvez˝o esetek száma osztva az összes esetek számával.”
2.4. Valo ´szı´n˝ use ´gek meghata ´roza ´sa geometriai mo ´dszerekkel A gyakorlatban természetesen sokszor felmerülnek olyan kérdések, mint pl. mennyi annak a valószínusége, ˝ hogy a (0,1) intervallumon véletlenszeruen ˝ választott pont egy megadott (a,b) ⊆ (0,1) részintervallumba esik; a céltáblára véletlenszeruen ˝ leadott lövés a 10-es körbe esik stb. Itt az alapfeladat a megfelel˝o módon értelmezett (Ω,A,P) Kolmogorov-féle valószínuségi ˝ mez˝o megadása. Ezeket a kérdéseket a klasszikus valószínuségi ˝ mez˝o fogalmának felhasználásával nem tudjuk megválaszolni, mivel itt az elemi eseménytér elemeinek a száma végtelen és hasonló megközelítéssel nem élhetünk. Ezekben az esetekben, ha véletlenszeruen ˝ választott pontok a geometriai alakzatban „egyenletesen” helyezkedhetnek el, általában ésszeru˝ azt feltételezni, hogy egy esemény, amely egy geometriai alakzattal (vagy pontosabban szólva egy geometriai alakzatba eséssel) azonosítható, olyan valószínuséggel ˝ rendelkezik, amely arányos a geometriai alakzat mértékével (hosszával, területével, térfogatával stb.). Esetünkben az Ω elemi eseménytérnek megfeleltethet˝o egy véges alap geometriai alakzat (pl. intervallum, kör, kocka stb.), az A esemény σ-algebrának az Ω bizonyos részhalmazaiból alkotott halmazrendszer, mely minden A elemére értelmezhet˝o a véges µ(A) geometriai mérték. Ekkor a P valószínuséget ˝ a P(A) = µ(A)/µ(Ω) hányadossal értelmezzük (az Ω biztos esemény valószínuségére ˝ nyilvánvalóan P(Ω) = µ(Ω)/µ(Ω) = 1). Az így értelmezett (Ω,A,P) valószínuségi ˝ mez˝on egy esemény valószínuségének ˝ a meghatározása geometriai módszerekre vezethet˝ok vissza.
3 A valo ´szı´n˝ use ´g alapvet˝ o o ¨sszefu ¨ gge ´sei
3.1. Elemi tulajdonsa ´gok Legyen (Ω,A,P) egy tetsz˝olegesen adott valószínuségi ˝ mez˝o. Az alábbi tétel álltásai tetsz˝oleges valószínuségi ˝ mez˝ore érvényesek, ezért a valószínuségi ˝ mez˝o konkrét megadására nincs szükség. 3.1. T ÉTEL . Mindig teljesülnek a következ˝o összefüggések: ˝ 1. A lehetetlen esemény valószínusége 0, azaz P(∅) = 0. 2. Tetsz˝oleges A ∈ A eseményre P(A) = 1 − P(A). 3. Tetsz˝oleges A ⊆ B eseményekre (a) P(A) ≤ P(B), (b) P(B − A) = P(B) − P(A). Az események tetsz˝oleges véges, vagy megszámlálhatóan végtelen sok A1 , A2 ,... eseményb˝ol álló rendszerét teljes eseményrendszernek nevezzük, ha egymást páronként kizárják és összegük a biztos esemény, azaz Ai · Aj = ∅, ha i = j, ∞ Ai = 1. P i=1
Itt az események összege véges sok tagra terjed ki, ha a teljes eseményrendszer véges. A valószínuség ˝ σ-additív tulajdonságából adódik a következ˝o tétel. 3.2. T ÉTEL . Ha az A1 ,A2 ,... események teljes eseményrendszert alkotnak, akkor ∞ i=1
P(Ai ) = 1.
31
3. A valo ´szı´n˝ use ´g alapvet˝ oo ¨sszefu ¨gge ´sei
3.2. Poincare ´-formula, Jorda ´n Ka ´roly formula ´i. Additivita ´s e ´s szubadditivita ´s Egyszeruen ˝ igazolható a következ˝o tétel. 3.3. T ÉTEL . Tetsz˝oleges A és B eseményre fennáll P(A + B) = P(A) + P(B) − P(A · B). Ennek a tételnek a felhasználásával könnyen nyerhet˝o az általánosabb, ún. Poincaré-formula. 3.4. T ÉTEL . Legyen n tetsz˝oleges pozitív egész szám és A1 ,...,An pedig tetsz˝oleges események. Ekkor n (n) (−1)k−1 Sk , P(A1 + ··· + An ) = k=1
ahol
(n)
Sk =
P(Ai1 · Ai2 ···Aik ).
1≤i1 x} =
∞
{ω : X(ω) ≥ x + 1/n}
n=1
ezért a valószínuségre ˝ vonatkozó folytonossági tétel következtében P(X > x) = lim P(X ≥ x + 1/n) = lim [1 − P(X < x + 1/n)] = 1 − FX (x + 0). n→ ∞
n→ ∞
Innen egyszeruen ˝ adódik, hogy P(X = a) = P(X ≥ a) − P(X > a) = 1 − P(X < a) − P(X > a) = = 1 − FX (a) − [1 − FX (a + 0)] = FX (a + 0) − FX (a). Ezt az összefüggést felhasználva kapjuk, hogy P(a < X < b) = F(b) − F(a + 0), P(a ≤ X < b) = F(b) − F(a), P(a < X ≤ b) = F(b + 0) − F(a + 0), P(a ≤ X ≤ b) = F(b + 0) − F(a). Ezek az összefüggések egyben megadják az FX eloszlásfüggvény és PX eloszlás közötti kapcsolatot is.
4.3. Diszkre ´t e ´s folytonos eloszla ´s, s˝ ur˝ use ´gfu ¨ ggve ´ny Ugyancsak jól ismert, hogy az eloszlásfüggvények két fontos típusát különböztetjük meg a gyakorlatban: az ún. diszkrét, illetve folytonos eloszlásfüggvényeket. Létezik még egy eloszlásfüggvény-típus, az ún. szinguláris eloszlásfüggvény, amely folytonos és differenciálhányadosa majdnem mindenütt 0, ez utóbbival azonban nem foglalkozunk. Ez az osztályozás azzal van összefüggésben, hogy a monoton függvények kanonikus felbontása szerint tetsz˝oleges FX eloszlásfüggvény mindig felbontható három folytonos, tiszta ugró (diszkrét) és szinguláris függvények összegére. ˝ változó diszkrét, illetve 4.3. D EFINÍCIÓ . Azt mondjuk, hogy egy X valószínuségi diszkrét eloszlású, ha X legfeljebb megszámlálhatóan végtelen sok {xk ,k = 0,1,...} ˝ lehetséges értéket vesz fel. Ha X diszkrét eloszlású valószínuségi változó, akkor a {pk = ˝ szokás X eloszlásának is nevezni. P(X = xk ),k = 0,1,...} valószínuségeket Könnyu˝ meggy˝oz˝odni arról, hogyha az X valószínuségi ˝ változó diszkrét eloszlású {xk ,k = 0,1,...} értékkészlettel és {pk ,k = 0,1,...} eloszlással, akkor a korábban bevezetett PX eloszlás és FX eloszlásfüggvény a következ˝o módon
38
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
adható meg: PX (D) =
pk , D ∈ B
és
FX (x) =
xk ∈D
pk , −∞ < x < ∞.
xk h−1 (y)) = 1 − FX (h−1 (y) + 0),
−∞ < y < ∞.
Ezeket az összefüggéseket felhasználva, speciális esetben az Y sur ˝ uségfügg˝ vényére is adható formula. ˝ ˝ uségfügg˝ 4.5. T ÉTEL . Tegyük fel, hogy létezik az X valószínuségi változónak fX sur vénye, h pedig szigorúan monoton, differenciálható valós függvény. Ekkor d −1 −1 fY (y) = fX (h (y)) h (y) , −∞ < y < ∞. dy 4.6. KÖVETKEZMÉNY. Ha a h függvény lineáris, azaz h(y) = ay + b, a = 0 és az X ˝ uségfüggvénye, ˝ ˝ ˝ akkor az Y = h(X) valószínuvalószínuségi változónak létezik fX sur ˝ uségfüggvénye ˝ ségi változónak is létezik sur és fennáll y−b 1 , −∞ < y < ∞. fY (y) = fX |a| a
4.5. To ¨bb valo ´szı´n˝ use ´gi va ´ltozo ´ egyu ¨ ttes eloszla ´s- e ´s s˝ ur˝ use ´gfu ¨ ggve ´nye, peremeloszla ´sok A gyakorlatban felmerül˝o problémák java részénél egyszerre nem egy, hanem több valószínuségi ˝ változóval van dolgunk és olyan események valószínuségeit ˝ vizsgáljuk, hogy az egyes valószínuségi ˝ változók egyidejuleg ˝ teljesítenek bizonyos feltételeket. Legyen (Ω,A,P) egy valószínuségi ˝ mez˝o és nézzük meg el˝oször azt az esetet, amikor két X és Y valószínuségi ˝ változó van adva. A két valószínuségi ˝ változó együttes viselkedését az együttes eloszlás, vagy a vele ekvivalens együttes eloszlásfüggvény írja le. Külön ki kell térni arra, hogy az X és Y valószínuségi ˝ változók együttes vizsgálata megfelel egy olyan véletlen, kétdimenziós (X,Y) vektorváltozó vizsgálatának, mely koordinátái valószínuségi ˝ változók. Ha az egydimenziós esettel analóg módon a számegyenes Borel-halmazai helyett a sík Borel-halmazainak B2 σ-algebráját tekintjük, akkor megmutatható, hogy tetsz˝oleges D ∈ B2 Borel-halmaz esetén az {(X,Y) ∈ D} = {ω : (X(ω),Y(ω)) ∈ D} ∈ A halmaz esemény, vagyis értelmezve ˝ van a PXY (D) = P((X,Y) ∈ D) valószínuség. ˝ 4.7. D EFINÍCIÓ . A PXY (D), D ∈ B2 halmazfüggvényt az X és Y valószínuségi változók együttes eloszlásának nevezzük. Speciális esetben az FXY (x,y) = PXY ((X,Y) ∈ (−∞,x) × (−∞,y)) = = P(X < x,Y < y),
−∞ < x,y < ∞
40
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
˝ egyenlettel definiált kétváltozós függvényt az X és az Y valószínuségi változók együttes eloszlásfüggvényének nevezzük. A gyakorlat számára a két legfontosabb típus itt is a diszkrét, illetve folytonos eloszlás. ˝ 4.8. D EFINÍCIÓ . Azt mondjuk, hogy az X és Y valószínuségi változók együttes el˝ oszlása diszkrét, vagy az (X,Y) valószínuségi vektorváltozó diszkrét eloszlású, ha ˝ X és Y diszkrét eloszlásúak. Ekkor, ha az X és Y valószínuségi változók értékkészlete {xi ,i = 0,1,...}, illetve {yj ,j = 0,1,...}, a {pij = P(X = xi ,Y = yj ),i,j ≥ 0} ˝ ˝ valószínuségeket az X és Y valószínuségi változók együttes eloszlásának nevezzük. Világos, hogy diszkrét esetben tetsz˝oleges D ∈ B2 mellett pij és PXY ({(xi ,yj )} = pij ,i,j ≥ 0. PXY (D) = (xi ,yj )∈D
A folytonos eset analóg az egydimenziós esettel. ˝ változók együttes el4.9. D EFINÍCIÓ . Azt mondjuk, hogy az X és Y valószínuségi ˝ oszlása folytonos, vagy másképpen mondva, az (X,Y) valószínuségi vektorváltozó folytonos eloszlású, ha létezik olyan nem negatív integrálható fXY (x,y) valós függvény a síkon, hogy az együttes eloszlásfüggvényre minden −∞ < x,y < ∞ mellett fennáll x y fXY (u,v)dudv. FXY (x,y) = −∞ −∞
Ekkor az együttes eloszlásra igaz PXY (D) = fXY (u,v)dudv, D ∈ B2 . D
˝ változók együttes FXY eloszlás4.10. D EFINÍCIÓ . Ha adott az X és Y valószínuségi függvénye, akkor az FX (x) = lim FXY (x,y), y→ ∞
és FY (y) = lim FXY (x,y) x→ ∞
eloszlásfüggvényeket peremeloszlásoknak, vagy más néven marginális eloszlásoknak nevezzük. Könnyu˝ látni, hogy a peremeloszlások nem határozzák meg az együttes el˝ uségfügg˝ oszlásokat. Az is világos, hogyha létezik az együttes fXY (x,y) sur vény, akkor a peremeloszlásoknak is létezik sur ˝ uségfüggvénye, ˝ továbbá minden −∞ < x,y < ∞ mellett fennáll, hogy ∞
fX (x) =
∞
fXY (x,y)dy, −∞
és
fY (x) =
fXY (x,y)dx. −∞
41
4. A valo ´szı´n˝ use ´gi va´ltozo ´
Kett˝onél több X1 ,...,Xn valószínuségi ˝ változó (n dimenziós valószínuségi ˝ vektorváltozók) esetén, ugyanúgy definiálhatók az együttes eloszlások és az együttes eloszlásfüggvények, mint ahogyan két valószínuségi ˝ változóra történt, nincs semmi elvi különbség. Egyébként erre még visszatérünk a sztochasztikus folyamatok fogalmának bevezetésénél.
4.6. Felte ´teles eloszla ´sok Legyen A egy tetsz˝oleges pozitív valószínuség ˝ u˝ esemény, X pedig egy valószínuségi ˝ változó. Kiindulva a feltételes valószínuség ˝ fogalmából, az FX (x | A) = P(X < x | A) formulával értelmezhetjük az X valószínuségi ˝ változó A feltétel melletti feltételes eloszlásfüggvényét, amely rendelkezik az eloszlásfüggvényekre vonatkozóan megkövetelt tulajdonságokkal. Az FX (x) eloszlásfüggvényre igazolható egy, a teljes valószínuség ˝ tételével analóg állítás, nevezetesen, ha A1 ,A2 ,... véges vagy megszámlálhatóan végtelen sok pozitív valószínuség ˝ u˝ eseményekb˝ol álló teljes eseményrendszer, akkor igaz FX (x) =
FX (x | Ai )P(Ai ),
−∞ < x < ∞.
i
Hasonló állítás megfogalmazható a feltételes sur ˝ uségfüggvényekre ˝ is. Az fX (x | Ai ) függvényt az X valószínuségi ˝ változó Ai feltétel melletti feltételes ˝ uségfüggvényének ˝ sur nevezzük, ha fX (x | Ai ) olyan nem negatív, integrálható függvény, amelyre x fX (u | Ai )du,
FX (x | Ai ) =
−∞ < x < ∞.
−∞
Ha létezik minden i ≥ 1 esetén a feltételes sur ˝ uségfüggvény, ˝ akkor igaz fX (x) =
fX (x | Ai )P(Ai ),
−∞ < x < ∞.
i
Másként kell eljárni akkor, ha adott X és Y valószínuségi ˝ változók esetén az X valószínuségi ˝ változónak egy Y = y feltétel melletti FX|Y (x | y) feltételes eloszlásfüggvényét szeretnénk definiálni. A probléma abban van, hogyha az Y valószínuségi ˝ változó folytonos, akkor az {Y = y} esemény valószínusége ˝ biztosan 0, és így a feltételes valószínuség ˝ fogalmának segítségével nem tudjuk értelmezni. Ebben az esetben az FX|Y (x | y) feltételes eloszlásfüggvényt az FX|Y (x | y) = lim P(X < x | y ≤ Y < y + ∆y) ∆y→ +0
42
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
határértékkel értelmezzük, ha ez a határérték létezik. Tegyük fel, hogy létezik az X és az Y valószínuségi ˝ változók fXY (x,y) együttes sur ˝ uségfüggvénye. ˝ Ekkor létezik az X valószínuségi ˝ változónak az Y = y ˝ feltétel melletti FX|Y (x | y) feltételes eloszlásfüggvénye és fXY (x,y) feltételes suruségfüggvénye. ˝ Az FX|Y (x | y) feltételes eloszlásfüggvényre azt kapjuk, hogy FX|Y (x | y) =
lim P(X < x | y ≤ Y < y + ∆y)
∆y→ +0
P(X < x,y ≤ Y < y + ∆y) P(y ≤ Y < y + ∆y) 1 ∂ (FXY (x,y + ∆y) − FXY (x,y))/∆y = FXY (x,y). = lim ∆y→ +0 (FY (y + ∆y) − FY (y))/∆y fY (y) ∂y =
lim
∆y→ +0
Innen az FX|Y (x | y) feltételes sur ˝ uségfüggvényre ˝ adódik, hogy fX|Y (x | y) =
fXY (x,y) . fY (y)
4.7. Valo ´szı´n˝ use ´gi va ´ltozo ´k fu ¨ ggetlense ´ge Legyen X és Y két valószínuségi ˝ változó és jelölje FXY (x,y) az együttes, míg FX (x) és FY (y) a marginális eloszlásfüggvényeket. ˝ 4.11. D EFINÍCIÓ . Azt mondjuk, hogy az X és Y valószínuségi változók függetlenek egymástól, ha tetsz˝oleges −∞ < x,y < ∞ mellett teljesül FXY (x,y) = FX (x)FY (y). Ez a definíció könnyen általánosítható tetsz˝oleges véges számú valószínu˝ ségi változó esetére: az együttes eloszlásfüggvény megegyezik a marginális eloszlásfüggvények szorzatával. A valószínuségi ˝ változók valamilyen nem véges együttesére akkor mondjuk hogy függetlenek, ha kiválasztva közülük bármely lehetséges módon véges számú valószínuségi ˝ változót, a kiválasztott valószínuségi ˝ változók függetlenek egymástól. Meg kell jegyezni, hogy abból, hogy bármely két valószínuségi ˝ változó független egymástól, nem következik, hogy a valószínuségi ˝ változók összességükben is függetlenek egymástól. Ezt a függetlenségi fogalmat a páronkénti függetlenségt˝ol való megkülönböztetésül szokás néha teljes függetlenségnek is nevezni. Nézzük meg, hogy két valószínuségi ˝ változó esetén (több változó mellett teljesen analóg képet nyerhetünk) a diszkrét, illetve folytonos esetben mit jelent a függetlenség fogalma. Legyenek el˝oször X és Y diszkrét eloszlású valószínuségi ˝ változók {xi , i ≥ 0}, illetve {yj , j ≥ 0}, értékkészlettel, valamint {pij = P(X = xi ,Y = yj ), i,j ≥ 0}, együttes eloszlással. A marginális eloszlásokat jelölje {qi = P(X = xi ), i ≥ 0}
és
{rj = P(Y = yj ), j ≥ 0}.
43
4. A valo ´szı´n˝ use ´gi va´ltozo ´
Ekkor az X és Y valószínuségi ˝ változók akkor és csak akkor függetlenek, amikor teljesül a pij = qi rj , i,j ≥ 0 feltétel. Legyenek most X és Y folytonos eloszlású valószínuségi ˝ változók fXY (x,y) ˝ uségfüggvé˝ együttes sur ˝ uségfüggvénnyel ˝ és fX (x), illetve fY (y) marginális sur nyekkel. Ebben az esetben az X és Y valószínuségi ˝ változók akkor és csak akkor függetlenek, amikor az együttes sur ˝ uségfüggvényük ˝ szorzat alakú, azaz fXY (x,y) = fX (x)fY (y),
−∞ < x,y < ∞.
4.8. Eloszla ´sok kompozı´cio ´ja (konvolu ´ cio ´ja) Legyen X és Y két egymástól független valószínuségi ˝ változó FX (x), illetve FY (y) eloszlásfüggvénnyel. A kérdés az, hogy hogyan határozható meg a Z = X+Y valószínuségi ˝ változó FZ (z), eloszlásfüggvénye FX (x), és FY (y) segítségével. Világos, hogy FZ (z) = P(Z < z) = P(X + Y < z) dFXY (x,y) = dFX (x)dFY (y) = x+y 0 konstans mellett fennáll
P(|X − E(X)| ≥ ε) ≤
D2 (X) . ε2
Egyszeru˝ alkalmazásként vegyük az (X1 +···+Xk )/k átlagot, ahol X1 ,...,Xk független, azonos eloszlású és véges szórású valószínuségi ˝ változók, melyek közös várható értékét és szórását jelölje µ, illetve σ. Ekkor a független valószínuségi ˝ változók összegének szórásnégyzetére vonatkozó állítást kombinálva a Csebisev-egyenl˝otlenséggel, és ε helyett (kε)-t írva adódik, hogy P(|X1 + ··· + Xk − kµ| ≥ kε) ≤ P((X1 + ··· + Xk − kµ)2 ≥ k2 ε2 ) ≤ vagyis
σ2 kσ2 = , (kε)2 kε2
X1 + ··· + Xk σ2 − µ ≥ ε ≤ 2 . P k kε
Ez azt jelenti, hogy k növekedésével annak a valószínusége ˝ 0-hoz tart, hogy az átlag abszolút eltérése a várható értékt˝ol meghalad bármely rögzített, tetsz˝olegesen kicsi pozitív értéket (ez a következmény valójában nem más, mint a nagy számok Bernoulli-féle törvénye, de erre még kés˝obb visszatérünk).
5.3. Media ´n, kvantilisek, terjedelem, mo ´dusz, ferdese ´g, lapultsa ´g Az eloszlások jellemzése a gyakorlatban különböz˝o megfontolások alapján történhet, s a különböz˝o jellemz˝ok az adott eloszlás más és más tulajdonságát emelik ki. A címbeli fogalmak az eloszlások egyfajta jellemzésére szolgálnak és fontos információt nyújthatnak az eloszlásról. Legyen X tetsz˝oleges valószínuségi ˝ változó, az eloszlásfüggvényét jelölje FX (x). Minthogy az eloszlásfüggvény monoton növ˝o, −∞-ben 0, +∞-ben 1 értéket vesz fel, ezért vagy létezik és egyértelmu˝ az FX (x) = 1/2 egyenlet xm megoldása, vagy ha több megoldás is van, akkor létezik olyan x1 < x2 szám, hogy teljesül FX (x) < 1/2, ha x < x1 ,
FX (x) > 1/2, ha x > x2 ,
és ugyanakkor FX (x) = 1/2, ha x1 < x ≤ x2 .
51
5. Valo ´szı´n˝ use ´gi va´ltozo ´k jellemz˝ oi
(a)
(b)
(c)
5.1. ábra. A medián értelmezése
Utóbbi esetben legyen xm = (x1 + x2 )/2. A med(X) = xm számot az X valószínuségi ˝ változó, illetve az FX (x) eloszlásfüggvény mediánjának nevezzük. Ha FX (x) folytonos és szigorúan monoton növ˝o azon a halmazon, ahol 0 < FX (x) < 1, akkor az FX (x) = 1/2 egyenletnek nyilvánvalóan létezik egyértelmu˝ xm megoldása. Megemlítjük még a medián néhány lényeges tulajdonságát. Ha az X valószínuségi ˝ változó eloszlása szimmetrikus az a pontra nézve, azaz (X − a) és −(X − a) eloszlása megegyezik és létezik várható értéke X-nek, akkor med(X) = E(X) = a. A medián egyik érdekes és egyben fontos tulajdonsága az, hogy az E(|X−c|) várható értéknek c-ben vett minimumát a c = med(X) választás mellett kapjuk. A mediánhoz hasonló fogalom a kvantilis – itt is azt nézzük, hogy az eloszlás mely pontban vesz fel egy bizonyos értéket. Legyen 0 < p < 1 szám, és az egyszeruség ˝ kedvéért tegyük fel, hogy az FX (x) = p egyenletnek létezik ˝ változó, illetve egyetlen xp megoldása. Ekkor az xp számot az X valószínuségi az FX (x) eloszlásfüggvény p-edrendu˝ kvantilisének nevezzük. Világos, hogy a p = 1/2 rendu˝ kvantilis éppen a medián. Az x1/4 illetve x3/4 számokat alsó, illetve fels˝o kvartiliseknek nevezzük. Korlátos valószínuségi ˝ változók esetén szokás terjedelemr˝ol is beszélni. Ha ˝ intervallumot, amelyre P(x1 ≤ X ≤ x2 ) = 1, akkor (x1 ,x2 ) jelöli azt a legszukebb ˝ változó, illetve az FX (x) eloszlásfüggvény az x1 −x2 számot az X valószínuségi terjedelmének nevezzük. 5.3.1. Mo ´dusz
A módusz fogalmát általában folytonos eloszlásokra szokták használni, de be lehet vezetni analóg módon diszkrét eloszlásokra is. Ha az F(x) eloszlásfüggvénynek létezik f(x) sur ˝ uségfüggvénye, ˝ akkor minden olyan x0 pontot, melyre az f(x) sur ˝ uségfüggvénynek ˝ lokális maximuma van x0 -ban (létezik az x0 pontnak egy olyan környezete, ahol f(x0 ) az egyedüli legnagyobb érték), módusznak nevezzük. Megjegyezzük, hogyha az f(x) sur ˝ uségfüggvény ˝ kétszer differenciálható, akkor a módusz eleget tesz az alábbi feltételeknek: f (x0 ) = 0,
f (x0 ) < 0.
52
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
Diszkrét esetben a következ˝oképpen definiálhatjuk a móduszt. Tegyük fel, hogy az X valószínuségi ˝ változó lehetséges értékei x0 < x1 < x2 < ···, a hozzátartozó valószínuségek ˝ rendre p0 ,p1 ,p2 ,.... Ekkor az összes olyan xk értéket, amelyre pk lokális maximum (pk > max(pk−1 ,pk+1 ), ha k ≥ 1 és p0 > p1 , ha k = 0), az eloszlás móduszának nevezzük. A móduszok számától függ˝oen – a folytonos és diszkrét eloszlások esetén egyaránt – beszélhetünk unimodális, bimodális, trimodális stb. eloszlásokról. 5.3.2. Ferdese ´g, lapultsa ´g
Eloszlások jellemzésére szolgál az ún. ferdeségi és lapultsági mutató. Nem szimmetrikus eloszlások esetén az aszimmetria, ferdeség mérésére szolgál a γ1 = m3 /σ3 ferdeségi együttható, ahol m3 a harmadik momentumot, σ pedig a szórást jelöli. A lapultság mérésére szolgál a γ2 = m4 /σ4 − 3 lapultsági mutató, ahol m4 a negyedik centrális momentumot jelöli, és ez a mutató úgy van meghatározva, hogy normális eloszlás esetén ad 0 értéket. Ennek megfelel˝oen a lapultsági mutató a normális eloszlástól való eltérésre nyújt egyfajta információt.
5.4. Felte ´teles va ´rhato ´e ´rte ´k A valószínuségelmélet ˝ egyik rendkívül fontos fogalma a feltételes várható érték, amely legáltalánosabb formában meglehet˝osen mély halmaz- és mértékelméleti ismeretekre támaszkodik. Legyen (Ω,A,P) valószínuségi ˝ mez˝o, rajta X és Y két tetsz˝oleges valószínu˝ ségi változó. Értelmezni szeretnénk az E(Y | X) feltételes várható értéket. Ezt a fogalmat el˝oször diszkrét X és Y valószínuségi ˝ változók esetén adjuk meg, amely azután kiterjeszthet˝o az általános esetre. Legyen tehát X egy diszkét valószínuségi ˝ változó, melynek lehetséges (egymástól különböz˝o) értékei x1 ,...,xn . Jelölje Ai = {X = xi }, 1 ≤ i ≤ n és fel˝ változó által meghatárotesszük, hogy P(Ai ) > 0. Ekkor az X valószínuségi zott AX = {A1 ,...,An } rendszer teljes eseményrendszert alkot, vagyis AX olyan egymást páronként kizáró eseményekb˝ol áll, hogy P(Ai ) > 0, i = 1,...,n és P(A1 ) + ··· + P(An ) = 1. Megjegyezzük, hogy ebben az esetben tetsz˝oleges A ∈ A, P(A) > 0 esemény mellett a P(A | Ai ) = P(AAi )/P(Ai ), 1 ≤ i ≤ n feltételes valószínuségek ˝ jól definiáltak. Legyen Y is diszkrét valószínuségi ˝ változó, melynek lehetséges, egymástól különböz˝o értékei y1 ,...,ym . Legyen Ci = {Y = yi }, 1 ≤ i ≤ m és tetsz˝oleges C esemény mellett legyen I(C) = IC (ω) a C esemény
53
5. Valo ´szı´n˝ use ´gi va´ltozo ´k jellemz˝ oi
indikátorváltozója, vagyis az a valószínuségi ˝ változó, amely 1 értéket vesz fel, ha ω ∈ C és 0-t, ha ω ∈ / C. Ekkor az Y valószínuségi ˝ változó felírható Y = y1 I(C1 )+···+ym I(Cm ) alakban (minden véges számú értéket felvev˝o diszkrét valószínuségi ˝ változó megadható ily módon). Ebben az esetben értelmezhet˝o az Y valószínuségi ˝ változónak az Ai eseményekre vonatkozó feltételes várható értéke az m E(Y | Ai ) = yj P(Cj | Ai ) j=1
egyenlettel. Hasonlóan az Y valószínuségi ˝ változónak az AX eseményrendszerre vonatkozó feltételes várható értéke a következ˝o módon vezethet˝o be n E(Y | Ai )I(Ai ), E(Y | AX ) = E(Y | AX )(ω) = i=1
˝ meghatározott. Az Y valóami az Y és AX halmazrendszer által egyértelmuen színuségi ˝ változónak az X valószínuségi ˝ változóra vonatkozó feltételes várható értékén az E(Y | X) = E(Y | AX ) valószínuségi ˝ változót érjük. Megjegyezzük, hogy az E(Y | X) egy olyan valószínuségi ˝ változó, amely az ω ∈ Ai elemi eseményeken az E(Y | Ai ) értékeket veszi fel. Ez a tény lehet˝oséget biztosít arra, hogy közvetlen kapcsolatot találjunk az E(Y | X) feltételes várható érték és az X valószínuségi ˝ változó között. Ha bevezetjük a h(xj ) = E(Y | Aj ), 1 ≤ j ≤ n függvényt, akkor világos, hogy E(Y | X) =
n
h(xj )I(Ai ) = h(X),
i=1
vagyis az Y valószínuségi ˝ változónak az X valószínuségi ˝ változóra vonatkozó feltételes várható értéke nem más, mint X-nek egy függvénye. Nézzük meg a feltételes várható érték legfontosabb tulajdonságait. 1. E(aY +bZ | AX ) = aE(Y | AX )+bE(Z | AX ) tetsz˝oleges diszkrét Y és Z valószínuségi ˝ változók, valamint tetsz˝oleges a és b konstansok mellett, 2. E(c | AX ) = c 1 valószínuséggel ˝ minden c konstansra, 3. E[E(Y | AX )] = EY, 4. E(Y | {∅,Ω}) = EY 1 valószínuséggel, ˝ ahol {∅,Ω} jelöli a triviális eseményalgebrát. Jelölje AX azt a legszukebb ˝ eseményalgebrát, amely tartalmazza az AX eseményrendszer minden elemét. Könnyu˝ ellen˝orizni, hogy ezesetben nem csak az AX -beli eseményekre, hanem tetsz˝oleges AX -beli A eseményre is (ekkor az A esemény bizonyos AX -beli események összege) fennáll E[E(Y | AX )I(A)] = E(YI(A)).
54
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
Az is világos, hogy tetsz˝oleges valós x szám mellett {ω : E(Y | AX ) < x} ∈ AX . A feltételes várható érték karakterisztikus tulajdonsága éppen ez a két összefüggés. Legyen C valamilyen A-beli eseményekb˝ol alkotott esemény σ-algebra, Y pedig tetsz˝oleges, véges várható értékkel bíró valószínuségi ˝ változó. Az E(Y | C) feltételes várható érték alatt egy olyan valószínuségi ˝ változót értünk, amelyre tetsz˝oleges valós x szám esetén {ω : E(Y | C) < x} ∈ C, azaz az E(Y | C) feltételes várható érték C-mérhet˝o, továbbá tetsz˝oleges C ∈ C eseményre teljesül E[E(Y | C)I(C)] = E(YI(C)). (Ilyen E(Y | C) valószínuségi ˝ változó a mértékelméletb˝ol ismert Radon–Nikodym-tétel miatt létezik és 1 valószínuséggel ˝ meghatározott.) A feltételes várható érték néhány fontosabb tulajdonsága: 1. E(aY + bZ | C) = aE(Y | C) + bE(Z | C) tetsz˝oleges véges várható értékkel bíró Y és Z valószínuségi ˝ változók, valamint tetsz˝oleges a és b konstansok mellett, 2. E(c | C) = c 1 valószínuséggel ˝ minden c konstansra, 3. E[E(Y | C)] = EY, 4. E(Y | {∅,Ω}) = EY 1 valószínuséggel. ˝ Speciális esetként kapjuk az Y valószínuségi ˝ változónak egy tetsz˝oleges X valószínuségi ˝ változóra vonatkozó feltételes várható értékét. Ha AX jelöli azt a legszukebb ˝ esemény σ-algebrát, amely tartalmazza az összes {ω : X < x} eseményt (x tetsz˝oleges valós szám), akkor a definíció szerint legyen E(Y | X) = E(Y | AX ). Belátható, hogy ezzel az általános definícióval megadott feltételes várható érték a fenti diszkrét esetben ugyanahhoz az E(Y | AX ) = E(Y | AX ) valószínu˝ ségi változóhoz vezet, továbbá az is igaz, hogy mindig létezik olyan (az Y és X valószínuségi ˝ változóktól nyilvánvalóan függ˝o h valós függvény, hogy E(Y | X) = h(X). Tegyük fel, hogy létezik az Y valószínuségi ˝ változónak véges szórása. Ekkor a feltételes várható érték rendelkezik azzal az igen lényeges tulajdonsággal, hogy azokra a g függvényekre, melyekre létezik a g(X) valószínuségi ˝ változónak is véges szórása, az E(Y−g(X))2 négyzetes eltérés a g = h függvény mellett
55
5. Valo ´szı´n˝ use ´gi va´ltozo ´k jellemz˝ oi
veszi fel minimumát. Vagyis az Y valószínuségi ˝ változót az X valószínuségi ˝ változó függvényei közül négyzetes középben legjobban az Y valószínuségi ˝ változó X-re vonatkozó feltételes várható értéke közelíti. A h függvényt szokás az Y valószínuségi ˝ változó X valószínuségi ˝ változóra vonatkozó regressziójának, míg az E(Y | X = x) = h(x) értéket az Y valószínuségi ˝ változó X = x feltétel melletti feltételes várható értékének nevezni. ˝ uség˝ Ha létezik az X és Y valószínuségi ˝ változóknak együttes fXY (x,y) sur függvénye, akkor a regressziós függvény megadható ∞
h(x) = E(Y | X = x) = ∞
−∞
yfXY (x,y) dy, fY (y)
alakban, ahol fY (y) = −∞ f(x,y)dx az Y valószínuségi ˝ változó sur ˝ uségfüggvé˝ nye. Látható, hogy ebben az esetben az E(Y | X = x) feltételes várható érték éppen a korábban definiált FY|X (y | x) = P(Y < y | X = x) feltételes eloszlásfüggvény szerinti várható értéket jelenti, ami az adott feltételek mellett kifejezhet˝o az ˝ uségfüggvénnyel. ˝ fXY (x,y) együttes sur
5.5. Genera ´tor- e ´s karakterisztikus fu ¨ ggve ´ny, fogalmak e ´s alapvet˝ o tulajdonsa ´gok Eddig a valószínuségi ˝ változók és eloszlásaik jellemzésére adtunk meg sajátos fogalmakat és bizonyos mutatókat. A továbbiakban az eloszlások olyan transzformációival foglalkozunk, amelyek kölcsönösen egyértelmuen ˝ meghatározzák egymást az eloszlásfüggvénnyel és sok esetben hatékony eszközt biztosítanak pl. momentumok egyszeru˝ meghatározására, határeloszlás tételek bizonyítására. ˝ változó, amely a lehetsé5.4. D EFINÍCIÓ . Legyen X diszkrét eloszlású valószínuségi ˝ Ekkor a ges 0,1,... értékeket veszi fel p0 ,p1 ,... valószínuségekkel. GX (s) = E(sX ) =
∞
pi si ,
|s| ≤ 1
i=0
˝ függvény jól definiált, melyet az X valószínuségi változó, vagy a {p0 ,p1 ,...} diszkrét eloszlás generátorfüggvényének nevezünk. (k)
A definícióból világos, hogy pk = GX (0)/k!, k = 0,1,... Ez a formula mutatja, hogy a generátorfüggvény és az eloszlásfüggvény kölcsönösen egyértelmuen ˝ meghatározzák egymást. Könnyu˝ igazolni, hogyha az X valószínuségi ˝ változónak létezik els˝o, illetve második momentuma, akkor a generátorfüggvénynek létezik els˝o és második baloldali deriváltja az 1 pontban és fennáll E(X) = GX (1) és E(X2 ) = (sGX (s)) s=1 = GX (1) + G (1).
56
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
Innen a D2 (X) szórásnégyzetre kapjuk, hogy D2 (X) = GX (1) + GX (1) − (GX (1))2 . Megmutatható, hogyha az X valószínuségi ˝ változónak létezik k-adik momentuma, akkor létezik a generátorfüggvénynek k-adik balodali deriváltja az 1 helyen és a k-adik momentum kifejezhet˝o a legfeljebb k-adfokú baloldali deriváltak 1 pontbeli értékeivel. 5.5. D EFINÍCIÓ . Tetsz˝oleges s valós érték mellett definiáljuk a ϕX (s) = E(eisX ) = E(cos(sX) + isin(sX)) ˝ valós változós komplex értéku˝ függvényt, melyet az X valószínuségi változó, vagy az FX (x) eloszlásfüggvény karakterisztikus függvényének nevezünk. Megjegyezzük, hogy az el˝oz˝o definíció átírható ∞
eisx dFX (x)
ϕX (s) = −∞
alakba, ezért a karakterisztikus függvény nem más, mint az FX (x) eloszlásfüggvény Fourier-Stieltjes transzformáltja. Diszkrét, illetve folytonos eloszlások esetén fennáll ϕX (s) =
∞
∞ ixk s
pk e
,
eixs fX (x)dx.
illetve ϕX (s) =
k=0
−∞
Megmutatható, hogy a karakterisztikus függvény és az eloszlásfüggvény kölcsönösen egyértelmuen ˝ meghatározzák egymást. A karakterisztikus függvények néhány további fontos tulajdonsága: 1. A karakterisztikus függvény akkor és csak akkor valós, ha az eloszlás szimmetrikus. 2. Ha létezik X-nek k-adik momentuma, akkor a karakterisztikus függvény k-szor deriválható a 0 pontban és a k-adik momentum el˝oállítható (k)
E(Xk ) = (2k)
3. Ha létezik véges ϕX
ϕX (0) . ik
(0) derivált, akkor létezik E(X2k ) momentum is.
4. Független valószínuségi ˝ változók összegének karakterisztikus függvénye megegyezik karakterisztikus függvényeik szorzatával. Megjegyezzük, hogy ez a tulajdonsága játszik fontos szerepet a határeloszlás tételek bizonyításában.
57
5. Valo ´szı´n˝ use ´gi va´ltozo ´k jellemz˝ oi
5.6. Kovariancia e ´s korrela ´cio ´s egyu ¨ tthato ´, kovariancia e ´s korrela ´cio ´s ma ´trix Legyen X és Y két véges szórású valószínuségi ˝ változó és vezessük be a cov(X,Y) = E[(X − E(X))(Y − E(Y))], valamint a D(X) > 0, D(Y) > 0 feltétel mellett a corr(X,Y) =
cov(X,Y) D(X)D(Y)
mennyiségeket. ˝ 5.6. D EFINÍCIÓ . A cov(X,Y) mennyiséget az X és Y valószínuségi változó közötti ˝ kovarianciának, míg a corr(X,Y) mennyiséget a két valószínuségi változó közötti korrelációs együtthatónak nevezzük. Mindkét mennyiség alapvet˝o szerepet játszik mind a többváltozós statisztikai analízisben, mind pedig az egy- és többdimenziós id˝osoranalízisben. A korreláció az egyik legfontosabb mér˝oszám két valószínuségi ˝ változó közötti összefüggésre. A valószínuségi ˝ változók szorzatának várható értékére fennálló egyenl˝otlenségb˝ol azonnal következik, hogy −1 ≤ corr(X,Y) ≤ 1. Az is igazolható, hogy |corr(X,Y)| = 1 akkor és csak akkor, amikor a két valószínuségi ˝ változó között lineáris kapcsolat áll fenn, azaz van olyan a és b konstans, hogy P(Y = aX + b) = 1. Többdimenziós esetben a kovariancia-, illetve a korrelációmátrixnak van alapvet˝o szerepe. Ha X = (X1 ,...,Xk ) k dimenziós (valós vagy komplex értéku) ˝ valószínuségi ˝ változó, mely komponensei véges szórásúak, akkor az R = E[(X − E(X))(X − E(X))T ] mátrixot az X valószínuségi ˝ vektorváltozó kovarianciamátrixának, vagy szórásmátrixának nevezzük. Itt a T muvelet ˝ a transzponált képzését jelenti vektorokra és mátrixokra egyaránt, továbbá a várható érték képzés komponensenként értend˝o. Látható, hogy e mátrix elemei az Rij = cov(Xi ,Xj ) kovarianciák. Az rij = corr(Xi ,Xj ) korrelációkkal definiált r = (rij ) mátrixot korrelációmátrixnak nevezzük. A kovarianciamátrix legfontosabb tulajdonsága az, hogy nemnegatív definit, azaz tetsz˝oleges valós (vagy komplex) k-dimenziós z = (z1 ,...,zk )T oszlopvektorra teljesül zRz∗ ≥ 0, ˝ a transzponált konjugáltját jelenti. ahol a ∗ muvelet Megjegyezzük, hogy hasonló módon értelmezhetjük a komplex értéku˝ valószínuségi ˝ változók esetén is a kovariancia, és a kovarianciamátrix fogalmát, ha a szorzatokban az utolsó tényez˝ot a komplex konjugáltjával helyettesítjük.
6 Nevezetes diszkre ´t e ´s folytonos eloszla ´sok
Ebben a részben a gyakorlatban legtöbbször felhasznált nevezetes diszkrét és folytonos eloszlásokkal foglalkozunk. A meghatározásukon kívül legfontosabb jellemz˝oiket is megadjuk. A formális leíráson kívül, ahol ez lényeges, megadjuk azt a megfelel˝o valószínuségelméleti ˝ modellt is, amely az adott eloszláshoz vezet.
6.1. Diszkre ´t eloszla ´sok 6.1.1. Binomia ´lis eloszla ´s
Tekintsünk egy n megfigyelésb˝ol álló kísérletet, melynek során azt nézzük, hogy egy bizonyos A esemény hányszor következik be. Jelölje ennek számát az X valószínuségi ˝ változó. Tegyük fel, hogy p = P(A), 0 < p < 1, és hogy az egyes kísérletekben egymástól függetlenül következik be A. Ekkor annak valószínusége, ˝ hogy a kísérlet során az A esemény pontosan k-szor következzen be, éppen n k p (1 − p)n−k , k = 0,1,...,n. pk = P(X = k) = k Ezt az eloszlást nevezzük n-edrendu, ˝ p paraméteru˝ binomiális eloszlásnak. Ekkor E(X) = np, D2 (X) = np(1 − p). 6.1.2. Polinomia ´lis eloszla ´s
Legyenek A1 ,...,Ak egymást kizáró események, melyeke pi = P(Ai ) > 0, p1 + ··· + pk = 1. Egy kísérlet során n számú megfigyelést végzünk az A1 ,...,Ak eseményekre nézve. Jelölje az X = (X1 ,...,Xk ) valószínuségi ˝ vektorváltozó a kísérlet lehetséges kimenetelét, ahol az i-edik Xi koordináta azt mutatja meg,
59
6. Nevezetes diszkre ´t e ´s folytonos eloszla´sok
hogy az Ai esemény hányszor következett be az n megfigyelés során. Az X valószínuségi ˝ vektorváltozó lehetséges értékei: {(n1 ,...,nk ) : ni ≥ 0, n1 + ··· + nk = n}. Ekkor az X vektorváltozó eloszlása pn1 ,...,nk = P(X1 = n1 ,...,Xk = nk ) =
n! k pn1 ...pn k . n1 !...nk ! 1
Ezt az eloszlást nevezzük p1 ,...,pk paraméteru˝ polinomiális eloszlásnak. 6.1.3. Hipergeometrikus eloszla ´s
Egy kísérlet során M fehér és N − M fekete golyót tartalmazó urnából húzunk n golyót véletlenszeruen, ˝ visszatevés nélkül. Jelölje X a kihúzott fehér golyók számát. Ekkor az X valószínuségi ˝ változó M N−M pk = P(X = k) =
k
,
Nn−k
k = 0,1,...,n
n
eloszlását hipergeometrikus eloszlásnak nevezzük. Várható értéke és szórásnégyzete: n−1 2 . E(X) = np, D (X) = np(1 − p) 1 − N−1 6.1.4. Polihipergeometrikus eloszla ´s
Legyen az urnában k különböz˝o színu˝ golyó, az egyes színekb˝ol legyen N1 ,..., Nk , ahol Ni ≥ 1, 1 ≤ i ≤ k és N1 + ··· + Nk = N. Húzzunk n-szer egymás után, visszatevés nélkül és jelölje X1 ,...,Xk az egyes színekb˝ol kihúzott golyók számát. Ekkor X1 ,...,Xk együttes eloszlása, melyet polihipergeometrikus eloszlásnak nevezünk, a következ˝o alakot ölti: N1 Nk ··· pn1 ,...,nk = P(X1 = n1 ,...,Xk = nk ) = n1 N nk , n
ahol ni ≤ Ni , 0 ≤ i ≤ k és n1 + ··· + nk = n. 6.1.5. Markov–Po ´lya–Eggenberger-eloszla ´s
Legyen egy urnában kétféle színu˝ golyó: M darab fehér és N−M darab fekete. Minden egyes húzás után, melynek során egy golyót véletlenszeruen ˝ kiválasztunk, a kihúzott golyót r darab (r ≥ 0) ugyanolyan színu˝ golyóval kiegészítve visszarakjuk az urnába. Jelölje X az n húzás során kihúzott fehér golyók számát.
60
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
Ekkor az X valószínuségi ˝ változó eloszlását Markov–Pólya–Eggenbergereloszlásnak nevezzük és teljesül rá, hogy k−1 n−k−1 (M + ir) (N − M + jr) n i=0 j=0 , pk = n−1 k (N + mr)
k = 0,1,...,n.
m=0
A várható érték és a szórásnégyzet ekkor E(X) = n
M , N
D2 (X) = n
M N + nr M . 1− N N N+r
6.1.6. Geometriai eloszla ´s
Legyen A valamilyen esemény valószínusége ˝ és tekintsünk egy olyan kísérletet, melynek során minden lépésben egymástól függetlenül ugyanolyan p = P(A), 0 < p < 1 valószínuséggel ˝ következhet be az A esemény. Jelölje X azt a lépésszámot, ahányadikban el˝oször következett be az A esemény. Ekkor az X valószínuségi ˝ változó eloszlását p paraméteru˝ geometriai eloszlásnak nevezzük, és fennáll: pk = (1 − p)k−1 p, k = 1,2,... A várható érték és a szórásnégyzet ekkor 1 E(X) = , p
D2 (X) =
1−p . p2
6.1.7. Negatı´v binomia ´lis eloszla ´s
Tekintsünk egy olyan kísérletet, melynek során minden lépésben egymástól függetlenül ugyanolyan p = P(A), 0 < p < 1 valószínuséggel ˝ következhet be az A esemény. Legyen r tetsz˝oleges pozitív egész szám és jelölje az X valószínuségi ˝ változó azt a lépésszámot, amikor az A esemény bekövetkezéseinek a száma el˝oször éri el az r-et. Ekkor X eloszlását r-edrendu, ˝ p paraméteru˝ negatív binomiális eloszlásnak nevezzük. X eloszlása a következ˝o formulával adható meg: r+k−1 (1 − p)k pr , k = 0,1,... P(X = k + r) = k Megjegyezzük, hogy a p paraméteru˝ geometriai eloszlás nem más, mint els˝o rendu, ˝ p paraméteru˝ negatív binomiális eloszlás. Másrészr˝ol, ha V1 ,...,Vr független, azonos p (0 < p < 1) paraméteru˝ geometriai eloszlású valószínuségi ˝ ˝ p paraméteru˝ változók, akkor az X = V1 + ··· + Vr összeg eloszlása r-edrendu, negatív binomiális eloszlás lesz. Ezt felhasználva, egyszeruen ˝ adódik a negatív
61
6. Nevezetes diszkre ´t e ´s folytonos eloszla´sok
binomiális eloszlás várható értéke és a szórásnégyzete: 1 E(X) = r , p
D2 (X) = r
1−p . p2
6.1.8. Poisson-eloszla ´s
Az X valószínuségi ˝ változó eloszlását λ (0 < λ) paraméteru˝ Poisson-eloszlásúnak nevezzük, ha lehetséges értéke a nemnegatív egész számok és teljesül, hogy pk = P(X = k) =
λk −λ e , k!
k = 0,1,...
A Poisson-eloszlás várható értéke és szórásnégyzete: E(X) = λ,
D2 (X) = λ.
6.2. Folytonos eloszla ´sok 6.2.1. Egyenletes eloszla ´s
Legyen a < b két tetsz˝oleges valós szám. Azt mondjuk, hogy az X valószínu˝ ˝ uség˝ ségi változó eloszlása egyenletes az (a,b) intervallumon, ha az fX (x) sur függvénye létezik és fennáll fX (x) =
1/(b − a),
ha x ∈ (a,b),
0,
ha x ∈ / (a,b).
Ebben az esetben a várható értékre és a szórásnégyzetre teljesül, hogy E(X) =
a+b , 2
D2 (X) =
(b − a)2 . 12
6.2.2. Exponencia ´lis eloszla ´s
Legyen az X valószínuségi ˝ változó sur ˝ uségfüggvénye ˝ fX (x) =
λe−λx , ha x ≥ 0, 0,
ha x < 0,
ahol λ > 0 konstans. Ekkor az X valószínuségi ˝ változó eloszlását λ paraméteru˝ exponenciális eloszlásúnak nevezzük. Várható értéke és szórásnégyzete 1 E(X) = , λ
D2 (X) =
1 . λ2
62
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
6.2.3. Be ´ta-eloszla ´s
∞ Jelölje Γ (x) = 0 yx−1 e−y dy,x > 0 az analízisben jól ismert Γ függvényt, amely szükséges a béta-eloszlás definíciójához. Legyen a > 0, b > 0 két tetsz˝oleges szám. Az X valószínuségi ˝ változó eloszlását (a,b)-rendu˝ (paraméteru) ˝ béta-eloszlásnak nevezzük, ha sur ˝ uségfüggvé˝ nye Γ (a + b) xa−1 (1 − x)b−1 , ha x ∈ (0,1), fX (x) = Γ (a)Γ (b) 0, ha x ∈ / (0,1). A béta-eloszlás várható értéke és szórásnégyzete E(X) =
a , a+b
D2 (X) =
ab . (a + b)2 (a + b + 1)
6.2.4. Gamma eloszla ´s
Az X valószínuségi ˝ változó λ paraméteru˝ k-adrendu˝ (vagy (λ,k), λ,k > 0 paraméteru) ˝ gamma eloszlású, ha sur ˝ uségfüggvénye ˝ k λ xk−1 e−λx , ha x > 0, fX (x) = Γ (k) 0, ha x ≤ 0. Megjegyezzük, hogy abban az esetben, amikor X1 ,X2 ,... független, λ paraméteru˝ exponenciális eloszlású valószínuségi ˝ változók sorozata és a t˝olük független N valószínuségi ˝ változó k-adrendu˝ p-paraméteru˝ binomiális eloszlású, akkor az X = X1 + ··· + XN véletlen tagszámú összeg k-adrendu˝ (λp) paraméteru˝ gamma eloszlású. A gamma eloszlás várható értéke E(X) = k/λ, a szórásnégyzete pedig D2 (X) = k/λ2 . 6.2.5. Egy- e ´s to ¨bbdimenzio ´ s norma ´lis eloszla ´s
Az X valószínuségi ˝ változót (µ,σ) paraméteru˝ normális eloszlásúnak nevezzük, ha sur ˝ uségfüggvénye ˝ fX (x) = √
1 (x − µ)2 , exp − 2σ2 2πσ
−∞ < x < ∞.
Az X valószínuségi ˝ változó várható értéke és szórása nem más, mint a két paraméter, azaz µ és σ. Ennek az eloszlásnak a jelölésére szokás N(µ,σ)-t használni. Az N(0,1) eloszlást standard normális eloszlásnak nevezzük, melynek
63
6. Nevezetes diszkre ´t e ´s folytonos eloszla´sok
sur ˝ uség˝ és eloszlás-függvénye a szokásos jelölésekkel 2 1 ϕ(x) = √ e−x /2 , 2π
1 Φ(x) = √ 2π
∞
e−y
2
/2
dy.
−∞
Könnyen ellen˝orizhet˝o, hogy tetsz˝oleges N(µ,σ) eloszlású X valószínuségi ˝ változó esetén az Y = (X − µ)/σ valószínuségi ˝ változó eloszlása N(0,1). Ennek az összefüggésnek a következménye, hogy a gyakorlati alkalmazásokhoz elegend˝o csak a standard normális eloszlást táblázatolni. 6.2.6. A to ¨bbdimenzio ´s eset
Legyen Z = (Z1 ,...,Zn ) n-dimenziós valószínuségi ˝ vektorváltozó, melynek a Z1 ,...,Zn komponensei egymástól független, standard normális eloszlású valószínuségi ˝ változók. Legyen D tetsz˝oleges m×n-es mátrix és µ = (µ1 ,...,µm ) tetsz˝oleges m-dimenziós vektor. Ekkor az X = DZ + µ egyenlettel definiált valószínuségi ˝ vektorváltozót többdimenziós normális eloszlásúnak nevezzük. X várható értékvektora és szórásmátrixa a következ˝o alakban adható meg: µX = E(X) = µ,
RX = D2 (X) = E((X − µ)(X − µ)T ) = DDT .
Ha D nem elfajult négyzetes mátrix (m = n, det D = 0), akkor létezik az X valószínuségi ˝ vektorváltozónak sur ˝ uségfüggvénye ˝ és fennáll 1 1 T −1 (x − µ) fX (x) = R exp − (x − µ) , x = (x1 ,...,xn ). X 2 (2π)n/2 (det RX )1/2 Speciális esetként általános alakban megadjuk az X = (X1 ,X2 ) kétdimenziós normális eloszlás sur ˝ uségfüggvényét: ˝ √ 1 ac − b2 2 2 fX (x,y) = exp − a(x − µ1 ) + 2b(x − µ1 )(y − µ2 ) + c(y − µ2 ) , 2π 2 ahol b, µ1 , µ2 tetsz˝oleges számok, a > 0, b > 0 és teljesül a b2 < a c feltétel. Ekkor X1 és X2 marginális eloszlása N(µ1 ,σ1 ), illetve N(µ2 ,σ2 ) normális, ahol c a , σ = . σ1 = 2 ac − b2 ac − b2 6.2.7. Norma ´lis eloszla ´sbo ´l sza ´rmaztatott eloszla ´sok
A Z,Z1 ,Z2 ,... legyenek független, standard normális eloszlású valószínuségi ˝ változók. Az alábbiakban felsoroljuk azokat a legfontosabb eloszlásokat, amelyek megadhatók úgy, mint a Z-k valamilyen függvényeinek eloszlása. Ezeknek az eloszlásoknak a zöme a matematikai statisztikában rendkívül fontos szerepet játszik. Megjegyezzük még, hogy speciális esetben a béta-eloszlás is származtatható normális eloszlásból, amikor a paramétereire teljesül a = m/2, b = n/2, ahol m és n pozitív egész számok.
64
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
χ2 -eloszla´s ˝ változó eloszlását n szabadságfokú χ2 A χ2n = Z21 + ··· + Z2n valószínuségi eloszlásnak nevezzük. Sur ˝ uségfüggvénye ˝ n/2−1 −x/2 e x , ha x > 0, fn (x) = 2n/2 Γ (n/2) 0, ha x ≤ 0. Student-eloszla´s
√ ˝ változó eloszlását n szabadságfokú Az X = nZ/ Z21 + ··· + Z2n valószínuségi Student-, vagy t-eloszlásnak nevezzük. Ezen alapszik a matematikai statisztikában gyakran alkalmazott t-próba. Sur ˝ uségfüggvénye ˝ 1 Γ ((n + 1)/2) 1 . f(x) = √ 2 π Γ (n/2) (1 + x )(n+1)/2 Cauchy-eloszla´s
Az X = Z/|Z1 | valószínuségi ˝ változó eloszlását Cauchy-eloszlásnak nevezzük. Sur ˝ uségfüggvénye ˝ 2 1 . π 1 + x2 A Cauchy-eloszlás speciális esete a Student-eloszlásnak (n = 1), és az eloszlásfüggvények egy általánosabb osztályához, az ún. stabilis eloszlásokhoz tartozik. Nem létezik várható értéke. F-eloszla´s
Az X=
n Z21 + ··· + Z2m 2 m Zm+1 + ··· + Z2m+n
valószínuségi ˝ változó eloszlását (m,n)-szabadságfokú F-eloszlásnak hívjuk. Sur ˝ uségfüggvénye ˝ egyszeruen ˝ megadható két egymástól független m, illetve 2 ˝ változó hányadosának sur ˝ uség˝ n szabadságfokú χ -eloszlású valószínuségi függvényével: m/2 Γ ((m + n)/2) xm/2−1 (m/n) , ha x > 0, Γ (m/2)Γ (n/2) (1 + (m/n)x)(m+n)/2 fm,n (x) = 0, ha x ≤ 0. Logaritmikusan norma´lis eloszla´s
Ha Z eloszlása N(µ,σ) normális, akkor az X = eZ valószínuségi ˝ változó eloszlását logaritmikusan normális eloszlásúnak nevezzük. Az eloszlás sur ˝ u˝
6. Nevezetes diszkre ´t e ´s folytonos eloszla´sok
65
ségfüggvénye létezik és fennáll 2 √ 1 exp − (logx − µ) , ha x > 0, 2σ2 fX (x) = 2πσ 0, ha x ≤ 0. 6.2.8. Pearson-csala ´d
A Pearson-családba azok az f(x) sur ˝ uségfüggvények ˝ tartoznak, amelyekre teljesül az d + ex f (x) = f(x) a + bx + cx2 differenciálegyenlet, valamilyen a, b, c, d, e valós konstansokkal. Ennek a klasszifikációjával nem foglalkozunk, de megjegyezzük, hogy ide tartoznak többek között a χ2 -, Student-, béta- és normális eloszlások.
7 Hata ´reloszla ´s te ´telek
7.1. Konvergenciafogalmak A matematikai analízisben a függvényekre többféle konvergenciafogalom létezik: pontonkénti, egyenletes, különböz˝o metrikákhoz köt˝od˝o konvergenciák stb. A valószínuségelméletben ˝ is többféle konvergenciafogalom használatos – a valószínuségi ˝ változók és az eloszlásfüggvények sorozataira egyaránt. A valószínuségi ˝ változók sorozatára használt három legfontosabb fogalom a sztochasztikus, a négyzetes középben és az 1 valószínuséggel ˝ vett konver˝ változók sorozata migencia. A kérdés az, hogy adott X1 ,X2 ,... valószínuségi kor és milyen értelemben konvergál egy X valószínuségi ˝ változóhoz, ahol az X lehet konstans is. 7.1. D EFINÍCIÓ . Azt mondjuk, hogy az X1 ,X2 ,... sorozat sztochasztikusan kon˝ vergál egy X valószínuségi változóhoz, ha bármely pozitív ε konstans mellett teljesül
lim P |X − Xn | > ε = 0. n→ ∞
E konvergencia jelölése Xn ⇒ X, n → ∞. ˝ kon7.2. D EFINÍCIÓ . Azt mondjuk, hogy az X1 ,X2 ,... sorozat 1 valószínuséggel ˝ ˝ vergál az X valószínuségi változóhoz, ha 1 annak az eseménynek a valószínusége, amelyhez tartozó elemi eseményeken X1 ,X2 ,... konvergál X-hez, vagyis P lim Xn = X = 1. n→ ∞
˝ 7.3. D EFINÍCIÓ . Legyen az X és az X1 ,X2 ,... valószínuségi változók mindegyikének a második momentuma véges. Azt mondjuk, hogy az X1 ,X2 ,... sorozat négyzetes ˝ középben konvergál az X valószínuségi változóhoz, ha
lim E (X − Xn )2 = 0. n→ ∞
67
7. Hata´reloszla´s te ´telek
Ezek a konvergenciafogalmak nem ekvivalensek egymással, a második és harmadik fogalom er˝osebb az els˝onél. Az 1 valószínuséggel ˝ vett konvergenciából egyszeruen ˝ következik a sztochasztikus konvergencia, míg a négyzetes középben vett konvergenciából a Csebisev-egyenl˝otlenség felhasználásával adódik. Az igazolható, hogyha az X1 ,X2 ,... sorozat sztochasztikusan konvergens, akkor kiválasztható bel˝ole 1 valószínuséggel ˝ konvergens részsorozat. A Borel–Cantelli lemma alapvet˝o eszközt jelent a valószínuségelméletben, ˝ amikor 1 valószínuséggel ˝ vett konvergenciát, illetve határérték létezését kell bizonyítani, például a nagy számok er˝os törvénye esetében. A lemma a következ˝ot mondja ki. 7.4. L EMMA (B OREL –C ANTELLI ).
∞ a) Ha az eseményeknek valamilyen A1 ,A2 ,... sorozata olyan, hogy k=1 P(Ak ) < ∞, akkor P(az A1 ,A2 ,... események közül csak véges számú következik be) = 1. ∞ b) Ha az A1 ,A2 ,... események függetlenek és k=1 P(Ak ) = ∞, akkor P(az A1 ,A2 , ... események közül végtelen sok következik be) = 1.
A várható érték fogalmának bevezetésénél megemlítettük, hogy független azonos eloszlású X1 ,X2 ,... valószínuségi ˝ változók esetén és bizonyos egyszeru˝ feltételek mellett X1 + ··· + Xn → µ, n → ∞, Sn = n (µ a várható értéket jelenti), azonban a konvergenciafogalom nem került tisztázásra. Ha az els˝o definíció szerinti sztochasztikus konvergencia áll fenn, akkor azt mondjuk, hogy az X1 ,X2 ,... valószínuségi ˝ változók (nem feltétlenül független és azonos eloszlású) sorozatára érvényes a nagy számok gyenge törvénye, míg 1 valószínuséggel ˝ vett konvergencia esetén a nagy számok er˝os törvényér˝ol beszélünk.
7.2. A nagy sza ´mok gyenge to ¨rve ´nyei: Bernoulli- e ´s Bernstein-te ´tele. A nagy sza ´mok Kolmogorov-fe ´le er˝ os te ´tele, ko ¨vetkezme ´ny a relatı´v gyakorisa ´gokra Végezzünk el n-szer egymás után egy kísérletet és jelölje Sn (A) egy megadott p valószínuség ˝ u˝ A esemény bekövetkezésének relatív gyakoriságát a kísérletsorozatban. Ekkor igaz a következ˝o tétel. 7.5. T ÉTEL (B ERNOULLI ). Egy A esemény bekövetkezésének relatív gyakoriságára igaz az Sn (A) → p, n → ∞ sztochasztikus konvergencia, vagyis tetsz˝oleges ε > 0 mellett
lim P |Sn (A) − p| > ε = 0. n→ ∞
A Csebisev-egyenl˝otlenség egyszeru˝ következményeként adódik a következ˝o tétel, melynek speciális esete a Bernoulli-féle nagy számok gyenge törvénye.
68
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
7.6. T ÉTEL . Legyen X1 ,X2 ,... független, azonos µ várható értékkel és véges σ szórás˝ sal rendelkez˝o valószínuségi változók sorozata. Ekkor fennáll a következ˝o sztochasztikus konvergencia X1 + ··· + Xn → µ, n → ∞. n A Csebisev-egyenl˝otlenség szerint X1 + ··· + Xn σ2 1 X1 + ··· + Xn 1 − µ > ε ≤ 2 D2 −µ = 2 , P n ε n ε n ahonnan egyébként nem csak a sztochasztikus konvergencia adódik, hanem a négyzetes középben vett konvergencia is. Az utóbbi egyenl˝otlenség egyben egyfajta választ is ad a konvergencia gyorsaságára. Bernstein következ˝o tétele tovább általánosítja ezeket az eredményeket, a függetlenségi feltételt is elhagyva. ˝ 7.7. T ÉTEL (B ERNSTEIN ). Legyen X1 ,X2 ,... valószínuségi változók sorozata véges µk = EXk várható értékkel és σk = D(Xk ) véges szórással. Feltesszük, hogy teljesülnek az alábbi feltételek a) Létezik a limn→ ∞ (µ1 + ··· + µn )/n = µ véges határérték. b) Minden n-re fennáll a (σ21 + ··· + σ2n )/n ≤ c egyenl˝otlenség n-t˝ol független c konstanssal. c) Létezik olyan nemnegatív r(x) függvény, amelyre r(0) = 1, limn→ ∞ (r(1) + ··· + r(n))/n = 0, és emellett |corr(Xi ,Xj )| ≤ r(|i − j|), i,j ≥ 1. Ekkor érvényes a nagy számok gyenge törvénye, azaz fennáll a X1 + ··· + Xn =µ n→ ∞ n lim
sztochasztikus konvergencia. A nagy számok Kolmogorov-féle er˝os törvénye páronként független és azonos eloszlású valószínuségi ˝ változok sorozata esetén szükséges és elégséges feltételt ad az átlag 1 valószínuséggel ˝ vett konvergenciájára 7.8. T ÉTEL (KOLMOGOROV ). Legyen X1 ,X2 ,... páronként független azonos elosz˝ lású valószínuségi változók sorozata. Annak szükséges és elégséges feltétele, hogy valamely µ szám mellett fennáll a X1 + ··· + Xn → µ, n → ∞ n ˝ konvergencia 1 valószínuséggel az, hogy E(|X1 |) < ∞. Ha teljesül ez a feltétel, akkor ˝ az 1 valószínuséggel vett konvergencia igaz µ = E(X1 ) mellett. 7.9. KÖVETKEZMÉNY. A Bernoulli-féle nagy számok törvénye szerint, ha Sn (A) jelöli n számú független kísérletben egy A esemény bekövetkezésének relatív gyakoriságát, akkor Sn (A) → p = P(A), n → ∞ sztochasztikusan. A Kolmogorov-féle nagy ˝ számok er˝os törvénye szerint ez a konvergencia 1 valószínuséggel is igaz.
69
7. Hata´reloszla´s te ´telek
7.3. Centra ´lis hata ´reloszla ´s te ´tel, Moivre–Laplace-te ´tel, Lindeberg–Feller-te ´tel. Centrális határeloszlás tételek alapproblémája a következ˝o. Legyen X1 ,X2 ,... független azonos eloszlású valószínuségi ˝ változók sorozata. A kérdés az, hogy létezik-e konstansoknak olyan an és bn = 0, n ≥ 1 sorozata, hogy a lineárisan normált és centrált X1 + ··· + Xn Sn = − an , n ≥ 1 bn összegnek létezik határeloszlása. El˝oször tisztázni kell, mit is értünk határeloszlás létezésén. Legyen Fn (x), n = 1,2,... eloszlásfüggvények valamilyen sorozata. Azt mondjuk, hogy az F1 (x),F2 (x),... eloszlásfüggvények sorozata gyengén konvergál egy F(x) eloszlásfüggvényhez, amelyet határeloszlásnak nevezünk, ha F(x) minden x folytonossági pontjában teljesül az Fn (x) → F(x), n → ∞ konvergencia. Ha az F(x) eloszlásfüggvény folytonos, akkor a konvergencia minden pontban fennáll. Csak az olyan határeloszlások érdekesek, amelyek nem elfajultak. Ez azt jelenti, hogy a határeloszlás nem koncentrálódhat csak egy pontra, vagyis egyetlen pont valószínusége ˝ sem lehet 1 a határeloszlás szerint. A legegyszerubb ˝ esetre vonatkozó tétel (amikor a valószínuségi ˝ változók két értéket vehetnek fel) Moivre és Laplace nevéhez fuz˝ ˝ odik. Ez volt egyébként az els˝o tétel a fenti problémakörben. 7.10. T ÉTEL (M OIVRE –L APLACE ). Legyen X1 ,X2 ,... független, azonos eloszlású, ˝ csak 0-t és 1-t felvev˝o valószínuségi változók egy sorozata, melyekre P(Xi = 1) = p, P(Xi = 0) = 1 − p, ahol 0 < p < 1 rögzített szám. Ekkor tetsz˝oleges u < v számokra v 2 1 X1 + ··· + Xn − np ≤v = √ e−x /2 dx. lim P u ≤ n→ ∞ 2π np(1 − p) u
Megjegyezzük, hogy a Moivre–Laplace tétel lényegét tekintve a binomiális eloszlásra mond ki állítást, mivel ebben az esetben az X1 + ··· + Xn összeg eloszlása n-edrendu˝ p paraméteru˝ binomiális. Általánosan, független azonos eloszlású és véges szórású valószínuségi ˝ változókra egyszeruen ˝ adható meg a centrális határeloszlás tétel. ˝ 7.11. T ÉTEL . Ha X1 ,X2 ,... független azonos eloszlású, véges szórású valószínuségi változók, közös µ = E(Xi ) várható értékkel és σ = D(Xi ) szórással, akkor x 2 1 X1 + ··· + Xn − nµ √ εbn
˝ változó sur ˝ uségfüggvényét ˝ jelöli. alakba, ahol fi (x) az Xi valószínuségi Bár a Lindeberg–Feller-tételben a valószínuségi ˝ változók nem feltétlenül azonos eloszlásúak, a vizsgált modell sok valószínuségi ˝ probléma számára ˝ mégsem elég általános. Tekintsük az {Xnj , 1 ≤ j ≤ kn }, n = 1,2,...valószínuségi változókból alkotott szériák sorozatát, amelyek 1. rögzített n érték mellett függetlenek, 2. aszimptotikusan elhanyagolhatók, azaz tetsz˝oleges ε > 0 mellett lim max P(|Xnj | > ε) = 0.
n→ ∞ 1≤j≤kn
Az ilyen valószínuségi ˝ változók sorozatára elkészített Sn = Xn1 + ··· + Xnkn összegek lehetséges határeloszlásai (az ún. korlátlanul osztható eloszlások) lényegesen tágabb körb˝ol kerülhetnek ki, mint a megel˝oz˝o modell esetén, pl. határeloszlásként megjelenhet a Poisson-eloszlás is, azonban ezekre a kérdésekre a jelen könyvben nem térünk ki.
7.4. Fu ¨ ggetlen valo ´szı´n˝ use ´gi va ´ltozo ´k extre ´mumaira vonatkozo ´ hata ´reloszla ´s te ´telek Legyen X1 ,X2 ,... független azonos eloszlású valós értéku˝ valószínuségi ˝ változók sorozata közös F eloszlásfüggvénnyel. Jelölje Mn = max(X1 ,...,Xn ), valamint mn = min(X1 ,...,Xn ). Világos, hogy fennáll az mn = −max(−X1 ,...,−Xn )
71
7. Hata´reloszla´s te ´telek
összefüggés, ezért elegend˝o csak a maximális értékek sztochasztikus viselkedésével foglalkozni. 7.4.1. Az extrema ´lis e ´rte ´kek vizsga ´lata ´nak alapvet˝ o ke ´rde ´sei e ´s a ke ´rde ´sekre adott va ´laszok
a) Megadott F eloszlásfüggvény esetén létezik-e konstansoknak olyan an = 0, bn , n = 1,2,... sorozata és nem elfajult G eloszlásfüggvény, hogy a lineárisan normált Mn = an (Mn − bn ), n = 1,2,... sorozatra G minden x ∈ R = (−∞,∞) folytonossági pontjára fennáll a P(Mn < x) → G(x),
n→∞
konvergencia. Ez a konvergencia-fogalom nem más, mint az eloszlásfüggvények gyenge konvergenciája, amely csak a folytonossági pontokban követeli meg a konvergenciát, azonban mint kés˝obb látni fogjuk, az összes felmerül˝o (nem elfajult) határeloszlás eloszlásfüggvénye folytonos lesz, és így a konvergencia minden pontban teljesülni fog. b) Hogyan írhatók le a lehetséges határértékként felmerül˝o G határeloszlások? c) Adott G eloszlásfüggvény esetén mi lehet a kiinduló F eloszlásfüggvények halmaza, azaz mi lesz az adott G eloszlásfüggvény vonzási tartománya? A következ˝o két tétel választ ad a (b) ill. (c), és így egyúttal az (a) kérdésre is. 7.13. T ÉTEL (A LEHETSÉGES HATÁRELOSZLÁSOKRÓL ). Lineáris normálással ka˝ változók lehetséges határeloszlásainak halmaza pott Mn , n = 1,2,... valószínuségi egybeesik az ún. max-stabilis eloszlásokkal, melyek megadhatók az alábbi alakban (α tetsz˝oleges pozitív értéket felvehet, a határeloszlások pedig csak az eltolástól és a ská˝ azaz az x változó olyan ax + b transzforlatranszformációtól eltekintve egyértelmuek, mációitól eltekintve, ahol a > 0 és b tetsz˝oleges valós számok): I. típus II. típus
Λ(x) = exp{−e−x }, −∞ < x < ∞ 0, x≤0 Φα (x) = −α exp{−x }, x > 0
III. típus
Ψα (x) =
exp{−(−x)α }, 1,
x 0 és Hκ (x) megegyezik az alábbi eloszlások valamelyikével: – Λ(x) Gumbel-eloszlás, ha κ = 0, – Φα (x) Fréchet-eloszlás, ha κ = α−1 > 0, – Ψα (x) Weibull-eloszlás, ha κ = −α−1 < 0. Megjegyezzük, hogy a bevezetett Hκ (x) eloszlásfüggvényre tetsz˝oleges valós x szám esetén fennáll a lim Hκ (x) = H0 (x)
κ→ 0
konvergencia. 7.15. T ÉTEL (A VONZÁSI TARTOMÁNYOKRÓL ). Annak szükséges és elégséges feltétele, hogy egy F eloszlásfüggvény az I., II., vagy a III. típus vonzási tartományához tartozzon az, hogy teljesüljenek az alábbi feltételek (xF = sup{x : F(x) < 1}, F(x) = 1 − F(x)): – I. típusra: létezik olyan szigorúan monoton g függvény, hogy lim
t→ xF
F(t + xg(t)) = e−x ,x ∈ R1 , F(t)
– II. típusra: xF = ∞ és limt→ ∞ F(tx)/F(x) = x−α , minden x > 0 és valamilyen α > 0 mellett, – III. típusra: xF < ∞ és limh→ +0 F(xF − xh)/F(xF − h) = xα minden x > 0 és valamilyen α > 0 mellett. 7.4.2. Pe ´lda ´k linea ´risan norma ´lt extre ´m e ´rte ´kek hata ´reloszla ´saira adott kiindulo ´ eloszla ´sfu ¨ ggve ´ny, valamint a hozza ´juk tartozo ´ centra ´lo ´e ´s norma ´lo ´ konstansok mellett
Az I. típusú exp{−e−x }, −∞ < x < ∞ Gumbel-határeloszlás esete: 1. Standard normális eloszlás f(x) = √12π e−x
2
an = (2logn)1/2 ,
/2
,
−∞ < x < ∞,
bn = (2logn)1/2 − 21 (2logn)−1/2 (loglogn + log4π).
2. Lognormális eloszlás 1 e−(logx−µ) f(x) = √2πσx
2
/2σ2
,
x > 0, µ ∈ R, σ > 0,
an = σ(2logn)−1/2 bn , bn = exp{µ + σ[(2logn)1/2 − (log4π + loglogn) 12 (2logn)−1/2 ]}.
73
7. Hata´reloszla´s te ´telek
3. Exponenciális típusú eloszlás F(x) ≈ Ke−λx , an = λ
−1
,
x > 0, K,λ > 0,
bn = λ−1 log(Kn).
4. Gamma eloszlás α
f(x) = Γβ(α) xα−1 e−βx , αn = β−1 ,
x > 0, α,β > 0,
bn = β−1 (logn + (α − 1)loglogn − logΓ (α)).
A II. típusú exp{−x−α }, x ≥ 0 Fréchet-határeloszlás esete: 1. Pareto-típusú eloszlás F(x) ≈ Kx−α ,
x > 0, K,α > 0,
an = (Kn)
1/α
bn = 0.
,
2. Loggamma eloszlás β
f(x) = Γα(β) (logx)β−1 x−α−1 , −1
an = [(Γ (β))
(logn)
β−1
x > 1, α,β > 0, 1/n
n]
,
bn = 0.
A III. típusú exp{−(−x)α }, x ≤ 0, és 1, x > 0 Weibull-határeloszlás esete: 1. Egyenletes eloszlás f(x) = 1, an = n−1 ,
0 < x < 1, bn = 1.
2. Béta eloszlás (α+β) α−1 (1 − x)β−1 , 0 < x < 1, α,β > 0, f(x) = ΓΓ(α)Γ (β) x −1/β (α+β) , bn = 1. an = n ΓΓ(α)Γ (β)
A P(Mn < un ) valószínuségek ˝ konvergenciájáról szól a következ˝o tétel. 7.16. T ÉTEL . Legyen 0 ≤ τ ≤ ∞ és un , n = 1,2,... olyan valós számsorozat, hogy fennáll (a) n(1 − F(un )) → τ, n → ∞, akkor
P(Mn < un ) → e−τ ,
n → ∞.
Fordítva, ha (b) teljesül valamilyen τ, 0 ≤ τ ≤ ∞ mellett, akkor teljesül (a) is.
(b)
74
I. Valo ´szı´n˝ use ´gelme ´leti o ¨sszefoglalo ´
7.4.3. Adott szintek fo ¨lo ¨tt valo ´ tarto ´zkoda ´sok sza ´ma ´nak hata ´reloszla ´sa
Legyen {un ,n = 1,2,...} valamilyen számsorozat, és jelölje Un azon Xi -k számát az X1 ,...,Xn sorozat elemei közül, amelyekre teljesül Xi > un . 7.17. T ÉTEL . Ha az {un , n = 1,2,...} sorozatra valamilyen τ, 0 ≤ τ ≤ ∞ mellett fennáll n(1 − F(un )) → τ, n → ∞, akkor P(Un ≤ k) → e−τ
k τj j=0
j!
(a jobboldalt τ = ∞ esetén 0-nak vesszük).
Ha ez az összefüggés fennáll valamilyen k érték mellett, akkor minden k mellett érvényes a Poisson határeloszlás.
Irodalom
˝ Bártfai P.: Valószínuségszámítás. Tankönyvkiadó (egyetemi jegyzet), Budapest, 1981. Chow, Y. Sh., Teicher, H.: Probability Theory. Springer-Verlag, New York, Heidelberg, Berlin, 1978. Embrechts, P., Klüppelberg, C., Mikosch, T.: Modelling Extremal Events for Insurence and Finance. Springer-Verlag, New York, 1997. Feller, W.: An Introduction to Probability Theory and its Applications. Wiley, New York, Vol. I. 1970, Vol. II. 1972. Galambos J.: The Asymptotic Theory of Order Statistics. Wiley, New York, 1978. Gnedenko, B. V.: The Theory of Probability. Mir, Moscow, 1975. ˝ Gnyegyenko, B. V., Kolmogorov, A. N.: Független valószínuségi változók összegeinek határeloszlásai. Akadémiai Kiadó, Budapest, 1951. ˝ Jordán K.: Fejezetek a klasszikus valószínuségszámításból. Akadémiai Kiadó, Budapest, 1957. Liedbetter, M. R., Lindgren, G., Rootzén, H.: Extremes and Related Properties of Random Sequences and Processes. Springer-Verlag, New York, 1986. ˝ Mogyoródi J., Somogyi Á.: Valószínuségszámítás I.-II. Tankönyvkiadó (egyetemi jegyzet), Budapest, 1990. ˝ Prékopa A.: Valószínuségszámítás. Muszaki ˝ Könyvkiadó, Budapest, 1972. ˝ Rényi A.: Valószínuségszámítás. Tankönyvkiadó, Budapest, 1954, 1968. ˝ Shiryaev, A. N.: Valószínuség. Nauka, Moszkva, 1980 (oroszul). Székelyhidi L.: Valószínuségszámítás ˝ és matematikai statisztika, 1999. Zolotarev, V. M.: Modern Theory of Summation of Random Variables. VSP, Utrecht, Tokyo, 1997.
II. re ´sz A matematikai statisztika elemei
8 Statisztikai minta ´k e ´s jellemze ´su ¨k
8.1. A statisztikai elemze ´s alapjai 8.1.1. A statisztikai vizsga ´latok elemei
Statisztikai elemzést egy vagy több a statisztikai megfigyelés tárgyát képez˝o egyedek összessége, azaz az adott valószínuségi ˝ változó vagy statisztikai sokaság eloszlására és/vagy paramétereire vonatkozó teljes köru˝ vagy korlátozott információ megszerzése érdekében végzünk. A statisztikai elemzéseket általánosságban négy f˝o csoportba soroljuk. Ezek szerint statisztikai leírásokról (mintákról), statisztikai becslésekr˝ol, statisztikai következtetésekr˝ol és statisztikai relációk feltárásáról beszélhetünk. A statisztikai leírás lényegében a mintában szerepl˝o adatok célszeru˝ grafikus és numerikus elrendezéséb˝ol, csoportosításából áll és els˝odleges célja, hogy áttekintést adjon az adathalmazról véglegesen, vagy bonyolultabb, következ˝o vizsgálatot el˝okészítve. Ezt a megközelítési módszert leíró statisztikának is szokás nevezni, megkülönböztetve az analitikus (valószínuségszámítási ˝ módszereket alkalmazó) statisztikától, amelyet gyakran matematikai statisztikának nevezünk. Ide tartozik még a statisztikai mintákkal kapcsolatos általános ismeretek tárgya is, különös tekintettel az empirikus eloszlás függvények meghatározására és a rendezett minták elméletére. A statisztikai becslések elmélete azon nemparaméteres és paraméteres számítási eljárásokkal foglalkozik, amelyek feladata az adott statisztikai mintákból (megfigyelési adatokból) a statisztikai sokaság (az empirikusan vizsgált valószínuségi ˝ változó) leírását biztosító legfontosabb jellemz˝ok meghatározása.
80
II. A matematikai statisztika elemei
Ezeken a számítási eljárásokon, melyek szisztematikus és matematikailag pontos végrehajtása a becsléselmélet alapvet˝o feladata, els˝osorban a paraméterbecslés és intervallumbecslési módszereket értjük. A statisztikai következtetés szukebb ˝ értelemben olyan módszerek gyujt˝ ˝ oneve, amelyekkel a statisztikai sokaság eloszlására és paramétereire következtethetünk, hiszen a mintavétel egyik célja, hogy valamit megismerjünk, valamire következtethessünk. A statisztikai következtetések (döntések) sémája lényegét tekintve megegyezik a logikai következtetések formájával, azzal az eltéréssel, hogy a következményt nem egyértelmu˝ bizonyossággal állítjuk, hanem csupán valamilyen (nyilván célszeruségb˝ ˝ ol az 1-hez közelít˝o) valószínuséggel. ˝ Ezek szerint ha valamit 90%-os (0,9) valószínuséggel ˝ állítunk, ez azt jelenti, hogy átlagban minden 100 eset közül 10 esetben tévedünk, a bizonytalanság ekkor nyilván 10%. A bizonytalanság szintjét (a tévedés valószínuségét) ˝ csökkenthetjük, ez azonban meghatározott következményekkel jár, amelyeket a kés˝obbiekben részletesen ismertetünk. Végül (a negyedik statisztikai elemzési megközelítés) a különböz˝o statisztikai sokaságok (különböz˝o valószínuségi ˝ változók) közötti véletlen jellegu, ˝ azaz sztochasztikus kapcsolatok, statisztikai viszonyok, összefüggés jellemz˝ok, matematikailag ugyancsak jól megalapozott feltárásával foglalkozik. A statisztikai elemzések mind a négy fenti típusával természetesen részletesen foglalkozunk a következ˝okben. Általánosságban elfogadott, hogy az elemi matematikai statisztika minden eljárását, módszerét, szemléleti megközelítését besorolhatjuk a statisztikai elemzés fenti négy típusának valamelyikébe. Ez alapján a matematikai statisztika bevezet˝o jellegu˝ ismertetését négy fejezetben, a fenti négy elemzéstípus szerint tárgyaljuk. 8.1.2. Rendezett minta ´k e ´s tapasztalati jellemz˝ ok
A statisztikai leírások során alapvet˝o jelent˝oséggel bírnak a rendezett statisztikai mintákra vonatkozó állítások. Legyen X1 ,...,Xn egy n elemu˝ statisztikai minta, azaz független, azonos eloszlású valószínuségi ˝ változók együttese. Közös eloszlásfüggvényüket jelölje F(x). Rendezzük o˝ ket nagyság szerint növekv˝o sorrendbe, így kapjuk az X∗1 ≤ X∗2 ≤ ··· ≤ X∗n sorozatot, amelyet rendezett mintának nevezünk. Ez azt jelenti, hogy az 1,2,...,n számok megfelel˝o k1 ,k2 ,...,kn permutációjára fennáll X∗i = Xki és így Xk1 ≤ Xk2 ≤ ··· ≤ Xkn . Megjegyezzük, hogy bár a kiinduló X1 ,...,Xn statisztikai minta független azonos eloszlású valószínuségi ˝ változókból áll, a rendezett X∗1 ,...,X∗n minta elemei sem nem függetlenek, sem nem azonos eloszlásúak (az elfajult eloszlástól eltekintve).
81
8. Statisztikai minta´k e ´s jellemze ´su ¨k
A rendezett mintaelemek együttes eloszlását könnyu˝ felírni. Jelölje Fnk (x) = P(X∗k < x),
1 ≤ k ≤ n.
Ekkor Fnk (x) =
n
P(X1 ,...,Xn közül pontosan j kisebb, (n − j) nagyobb, vagy egyenl˝o, mint x) n n (F(x))j (1 − F(x))n−j . = j j=k
j=k
Ha létezik az F(x) eloszlásfüggvénynek f(x) sur ˝ uségfüggvénye, ˝ akkor ellen˝ változónak is fnk (x) sur ˝ uségfügg˝ o˝ rizhet˝o, hogy létezik az X∗k valószínuségi vénye, amely a következ˝o alakot ölti: n−1 (F(x))k−1 (1 − F(x))n−k f(x). (x) = n fnk (x) = Fnk k−1 Innen a legkisebb X∗1 és legnagyobb X∗n mintaelem eloszlásfüggvényére teljesül F1n (x) = P(X∗1 < x) = =
j=1
n (F(x))j (1 − F(x))n−j − (1 − F(x))n = 1 − (1 − F(x))n , j
n j=0
n n (F(x))j (1 − F(x))n−j = j
és Fnn (x) = P(X∗n < x) =
n n (F(x))j (1 − F(x))n−j = (F(x))n . j
j=n
(Megjegyezzük, hogy e két speciális esetben az eloszlások közvetlenül is felírhatók a formulák felhasználása nélkül.) Az így kapott rendezett mintákból még a tapasztalati eloszlásfüggvény ismerete nélkül a statisztikai sokaság centruma és az a körüli szóródás leírására különböz˝o alapvet˝o jellemz˝oket számíthatunk ki. Középértékeknek nevezzük a statisztikai sokaság centrumát jellemz˝o mennyiségeket. A három legismertebb elméleti középérték fogalmát, az átlagot (vár˝ ható érték), a mediánt és a móduszt a Valószínuségelméleti összefoglalóban részletesen ismertettük. Az ún. aritmetikai átlagot vagy tapasztalati várható értéket az alábbi összefüggésb˝ol számíthatjuk X1 ,...,Xn minta esetén 1 Xi . n n
Xn =
i=1
82
II. A matematikai statisztika elemei
8.1. ábra. Példák a helyzeti és számított középértékekre
Itt természetesen még nem szükséges kihasználni a minta rendezettségét. Viszont a rendezett minták segítségével szokás definiálni a mintát jellemz˝o más empirikus mutatókat is, mint pl. az empirikus, vagy tapasztalati mediánt, illetve a minta terjedelmét. Tetsz˝oleges X1 ,...,Xn minta esetén tapasztalati mediánnak nevezzük az X∗N értéket, ha n = 2N + 1 páratlan, míg páros n = 2N mellett az (X∗N + X∗N+1 )/2 értéket nevezzük annak. A tapasztalati móduszt pedig az empirikus eloszlásfüggvényb˝ol közvetlenül állapíthatjuk meg. A három tapasztalati középérték kapcsolatát az 8.1. ábra mutatja. Hasonló módon értelmezhetjük a centrum körüli szóródásra jellemz˝o fogalmakat, így pl. a tapasztalati varinanciát (szórásnégyzetet) az átlagos abszolút eltérést és a minta terjedelmét is. A tapasztalati szórásnégyzetet (az empirikus varianciát) az X1 ,...,Xn mintából (a rendezés persze itt sem szükséges) a 2 n n 1 1 Xi − Xj S2n = n n i=1
j=1
összefüggésb˝ol számíthatjuk ki. Az átlagos abszolút eltérést pedig ugyanezen mintából a következ˝o formula alapján határozhatjuk meg: 1 |xi − me|, n n
dn =
i=1
ahol me jelöli a tapasztalati mediánt, melyet a fentebb ismertetett formulák szerint számíthatunk ki.
83
8. Statisztikai minta´k e ´s jellemze ´su ¨k
A minta terjedelme alatt az X∗n − X∗1 mennyiséget értjük. Amennyiben létezik az f(x) sur ˝ uségfüggvény, ˝ akkor az X∗n −X∗1 mintaterjedelem eloszlásfüggvénye egyszeru˝ alakban írható fel: P(X∗n − X∗1
∞
< x) = n
(F(x + y) − F(y))n−1 f(y)dy. −∞
Sajnos ez az el˝oállítás még az egyszerubb ˝ de fontos eloszlások, pl. normális eloszlás esetén sem vezet a gyakorlatban is alkalmazható formulához, hanem csak táblázatos formában használható. Érdekes megemlíteni, hogy ha ˝ változók, akkor X1 ,...,Xn független N(µ,σ) normális eloszlású valószínuségi a normált X∗n − X∗1 σ mintaterjedelem várható értéke és szórása független a µ és σ paraméterekt˝ol és csak n-t˝ol függ. Az így számított empirikus középérték és szóródás fogalma között a következ˝o (az elméleti fogalmuknak megfelel˝o) összefüggések érvényesek. A számtani átlag a kiugró nagy értékekre érzékeny. Igen fontos törvényszeruség ˝ a következ˝o: n 2 (xi − a) = min, ha a = x. i=1
Ez azt jelenti, hogy a számtani átlag megfelel az ún. legkisebb négyzetek elvének, amely kimondja, hogy a számtani átlagtól vett eltérések négyzetének összege a legkisebb. Megjegyezzük még, hogy a mediánra is egy fontos törvényszeruség ˝ jellemz˝o: n |xi − a| = min, ha a = me. i=1
Ez azt jelenti, hogy a tapasztalati medián megfelel a legkisebb (átlagos) abszolút eltérések elvének, amely kimondja, hogy a mediántól vett eltérések abszolút értékének összege a legkisebb. Elméleti megfelel˝oje, az E|X − a| kifejezés akkor és csak akkor minimális, ha a = me(X). A statisztikai gyakorlatban még jól ismert középérték fogalom a geometriai közép: n xg = n xi . i=1
Számítása logaritmussal történik, gyakorlatban legtöbbször a gazdaságstatisztikában az átlagos változási ütem megállapítására alkalmazzák. Általában a sokaság kiugró kis értékeire érzékeny.
84
II. A matematikai statisztika elemei
További középérték még a harmonikus átlag, melyet a xh =
n n 1 i=1
xi
összefüggésb˝ol számíthatunk ki. A mérnöki gyakorlatban azonban ezzel a két középérték számításával viszonylag ritkán találkozunk.
8.2. A statisztikai minta e ´s a reprezentatı´v mo ´dszer elme ´lete 8.2.1. A statisztikai minta fogalma
A reprezentatív statisztikai módszer alapfeladata: tapasztalati adatok alapján következtetni valamely valószínuségi ˝ változó (statisztikai alapsokaság) eloszlására, illetve annak ismeretlen paramétereire. A gyakorlatban a tapasztalati adatokat valamilyen véletlen mennyiségre (valószínuségi ˝ változóra, statisztikai alapsokaságra) vonatkozó megfigyelések, vagy mérések alapján nyerjük. Az így nyert és numerikus formában feljegyzett adatokat statisztikai mintának nevezzük. Statisztikai mintán (röviden mintán) tehát egy véletlen mennyiségre, mint valamely statisztikai alapsokaság jellemz˝ojére, valószínuségi ˝ változóra vonatkozó véges megfigyelés, mérés eredményét értjük. Adott minta elemei konkrét számok, ezek értéke minden mintavétel (megfigyelés sorozat) esetén más és más lehet, következésképpen a mintaelemeket valószínuségi ˝ változónak tekintjük és a mintát az X1 ,X2 ,...,Xn módon jelöljük. Természetesen a mintával szemben támasztott legfontosabb követelmény, hogy a minta híven tükrözze azt a statisztikai (alap)sokaságot, melyb˝ol származik, vagyis, hogy reprezentatív legyen. Ha a minta ténylegesen reprezentatív, akkor a mintaelemek egyforma elosz˝ lású, egymástól független valószínuségi változók, és mindegyik mintaelem eloszlása megegyezik az egész sokaság eloszlásával, azaz P(Xi < x) = P(X < x) igaz minden i = 1,...,n-re. 8.2.2. A statisztikai minta eloszla ´sa
Ha egy statisztikai (alap)sokaság valamely X jellemz˝ojére (valószínuségi ˝ változóra) vonatkozó n számú megfigyeléssel, méréssel rendelkezünk, vagyis van egy X1 ,X2 ,...,Xn mintánk, akkor a legels˝o feladatunk az, hogy az adott minta segítségével hogyan közelíthetjük meg az X változó ismeretlen P(X < x) = F(x)
8. Statisztikai minta´k e ´s jellemze ´su ¨k
85
8.2. ábra. Empirikus eloszlásfüggvény és empirikus sur ˝ uségfüggvény ˝ (hisztogramok)
eloszlásfüggvényét. A következ˝o feladat pedig az, hogy miként becsülhetjük annak egy vagy több állandóját, ún. paraméterét. Tekintsük azt az esetet, amikor az ismeretlen F(x) eloszlásfüggvény folytonos. Rendezzük ekkor a mintaelemeket nagyság szerint növekv˝o sorrendbe. Ez folytonos eloszlások esetén egyértelmu˝ sorrendet ad, mivel ebben az esetben annak a valószínusége, ˝ hogy két mintaelem értéke azonos, mindig 0, így a fentebb már bevezetett X∗1 < X∗2 < X∗3 < ··· < X∗n ún. rendezett mintát kapjuk. Itt X∗k -ot a k-adik rendezett mintaelemnek nevezzük. Konstruáljuk meg az alábbi függvényt, amely a minta eloszlását jellemzi: ∗ 0, ha x < X1 k Fn (x) = n , ha X∗k ≤ x < X∗k+1 1, ha X∗n ≤ x. Ha ábrázoljuk az X∗1 < X∗2 < X∗3 < ··· < X∗n számokat a számegyenesen, akkor az 8.2. ábrán látható Fn (x) monoton növekv˝o lépcs˝os függvényt kapjuk, amely balról folytonos és az egyes Xi helyeken 1/n ugrása van (i = 1,...,n). Tehát az Fn (x) függvény rendelkezik az eloszlásfüggvények tulajdonságaival. Az Fn (x) függvényt empirikus (tapasztalati) eloszlásfüggvénynek nevezzük. Látható, hogy az Fn (x) empirikus eloszlásfüggvény értéke az x pontban k/n, ha n számú mintaelem közül pontosan k számú mintaelem értéke kisebbegyenl˝o x-nél. Így nyilvánvaló az Fn (x) értéke az x0 pontban a {X < x0 } esemény relatív gyakorisága. Az is nyilvánvaló, hogy az {X < x} esemény valószínuségét ˝ az F(x) elméleti eloszlásfüggvény adja. Közismert viszont, hogy nagy
86
II. A matematikai statisztika elemei
n esetén a relatív gyakoriság er˝osen megközelíti a valószínuséget, ˝ így az Fn (x) empirikus eloszlás nagy mintaelem-számnál az X változó F(x) elméleti eloszlásfüggvényét közelíti meg. Konkrétan a nagy számok Bernoulli-féle (gyenge) törvénye értelmében minden x-re igaz, hogy Fn (x) ⇒ F(x), vagyis bármely rögzített x mellett egy adott statisztikai jellemz˝ore vonatkozó minta eloszlásfüggvénye sztochasztikusan konvergál az alapsokaság eloszlásfüggvényéhez. Ugyancsak minden rögzített x-re igaz a Kolmogorov-féle nagy számok (er˝os) törvénye szerint, hogy P lim Fn (x) = F(x) = 1. n→ ∞
Ez az ún. 1 valószínuséggel ˝ vett konvergencia, vagy majdnem mindenütt való konvergencia. A „legélesebb” kapcsolatot az empirikus és elméleti eloszlásfüggvény között Glivenko mutatta ki. E szerint tetsz˝oleges kis pozitív ε és δ számokhoz megadható olyan N0 küszöbszám, hogy ha a minta elemszáma n ≥ N0 , akkor annak a valószínusége, ˝ hogy az empirikus és elméleti eloszlásfüggvények közötti maximális (a legnagyobb eltérés jelölése: ’sup’) eltérés kisebb legyen ε-nál, nagyobb mint 1 − δ, vagyis képletben P sup |Fn (x) − F(x)| ≤ ε ≥ 1 − δ,
ha n ≥ N0 .
x
Glivenko fenti tételét a matematikai statisztika alaptételének nevezik. Hasonló meggondolás alapján azonos eredményt kapunk diszkrét valószínuségi ˝ változók esetén is, ha az empirikus eloszlásfüggvényt a diszkrét és folytonos esetben egyaránt érvényes 1 I(Xi < x), Fn (x) = n n
−∞ < x < ∞
i=1
formulával definiáljuk. 8.2.3. A statisztikai minta eloszla ´sa ´nak alapvet˝ o parame ´terei
Az empirikus eloszláshoz tartozó jellemz˝o adatokat empirikus jellemz˝oknek nevezzük. Ezek közül legfontosabb az empirikus várható érték (röviden mintaátlag) és az empirikus szórásnégyzet, melyet a mintaszámra utalóan xn és s2n jelöl: 1 Xi , n n
xn =
i=1
1 2 (Xi − xn ) . n n
illetve s2n =
i=1
87
8. Statisztikai minta´k e ´s jellemze ´su ¨k
Hasonló módon nyerjük a többi empirikus momentum (centrális, centrális abszolút) képletét is. Analóg módon beszélhetünk empirikus vagy tapasztalati mediánról, modusról, terjedelemr˝ol stb. Az empirikus medián páratlan n esetén a nagyság szerint rendezett Xi -k közül a középs˝ovel, páros n esetén a két középs˝o átlagával egyenl˝o. A tapasztalati terjedelem nyilván a legnagyobb és legkisebb mintaelem különbsége. Megállapíthatjuk, hogy az X1 ,X2 ,...,Xn rendezett minta alapján számítható Fn (x) az F(x) eloszlásfüggvénynek, xn mintaközép (mintaátlag) az E(X) várható értéknek, az s2n empirikus szórásnégyzet a D2 (X) elméleti szó˝ rásnégyzetnek a közelítése, becslése. Mivel az Xi mintaelemek valószínuségi 2 változók, természetesen a bel˝olük számított xn és sn statisztikai függvények is valószínuségi ˝ változók. Megjegyezzük, hogy a nagy számok törvénye szerint 1 Xi ⇒ EX, n n
ha n → ∞,
és így xn ⇒ EX,
i=1
valamint 1 2 Xi − = n n
s2n
i=1
1 Xi n n
2 2
⇒ σ2 = EX2 − (EX) ,
ha n → ∞.
i=1
A centrális határeloszlás tételb˝ol EX4 < ∞ mellett következik, hogy xn és s2n aszimptotikusan (n → ∞) normális eloszlású valószínuségi ˝ változók, a várható értéküket és szórásukat az alábbiakban határozzuk meg. Tekintsük most azt a rendkívül fontos problémát, hogy xn és s2n mennyire közelíti az E(X) várható értéket, illetve D2 (X) elméleti szórásnégyzetet. ˝ változó várható értéke Az xn valószínuségi n n 1 1 1 Xi = E(Xi ) = nE(X) = E(X), E(xn ) = E n n n i=1
i=1
vagyis a mintaátlag várható értéke megegyezik a vizsgált valószínuségi ˝ változó várható értékével. Az xn mintaátlag szórása pedig (a függetlenséget felhasználva) n n 1 2 1 D2 (X) 1 2 2 D (xn ) = D . D (Xi ) = 2 nD2 (X) = Xi = 2 n n n n i=1
i=1
√ Tehát a mintaátlag D(X)/ n szórása jóval kisebb, mint X változó szórása. Láthatóan a mintaelemek számának növelésével ez elvileg tetsz˝olegesen kicsinnyé tehet˝o. Hasonlóan meghatározhatjuk az empirikus szórásnégyzetnek (a minta szórásnégyzetének), mint valószínuségi ˝ változónak várható értékét és szórását.
88
II. A matematikai statisztika elemei
Könnyen belátható, hogy
n−1 2 σ . E s2n = n Tehát az empirikus szórásnégyzet hátrányos tulajdonsága, hogy várható értéke nem egyenl˝o az elméleti szórásnégyzettel, ezért kis minták esetén s2n helyett általában az n 1 n 2 2 sn = s∗2 (Xi − xn ) n = n−1 n−1 i=1
ún. korrigált empirikus szórásnégyzetet használjuk, melyre természetesen teljesül, hogy 2 E s∗2 n = D (X). Megmutatható, hogy a 1 n−3 4 D m = D2 s∗2 (X) , − 4 n n n−1 ahol
4 m4 = E (X − E(X))
az X változó negyedik centrális momentuma, illetve normális eloszlású alapsokaság esetén √ D2 (X) . D s∗2 n = 2√ n−1 Az eddigiek felhasználásával a következ˝oképpen írhatjuk fel a Csebisevegyenl˝otlenséget a mintaátlag, mint valószínuségi ˝ változó, és az alapsokaság átlaga, mint várható érték közötti eltérésre. Ez az ún. átlagszámok törvénye: P(|xn − E(X)| > ε) ≤
D2 (X) ; nε2
illet˝oleg az empirikus és elméleti szórás viszonyára
D2 (s∗n ) 2 . P s∗2 − D (X) > ε ≤ n ε Az eddigiek alapján a Csebisev-egyenl˝otlenségb˝ol (mivel a jobb oldal 0-hoz tart, ha n → ∞) rögtön következik, hogy xn ⇒ E(X), és
2 s∗2 n ⇒ D (X),
illetve s2n ⇒ D2 (X),
vagyis nagy mintaszám esetén s2n és s∗2 n eltérése elhanyagolhatóan kicsiny. Az ismertetett gondolatmenet alapján megállapíthatjuk, hogy xn mint valószínuségi ˝ változó elég nagy minta esetén közelít˝oleg normális eloszlású, E(X)
89
8. Statisztikai minta´k e ´s jellemze ´su ¨k
√ várható értékkel és D(X)/ n szórással. Az asszimptotikusan normális eloszlás ténye ezekben az esetekben közismerten rendkívül megkönnyíti a számításokat. Gyakran el˝ofordul azonban, hogy X változóra vonatkozólag nem tudunk elég sok megfigyelést végezni, hanem viszonylag kis (8–20) elemu˝ mintából kell következtetnünk az X változó várható értékére és szórására. Ilyen esetben az xn és az s2n becslés jóságának „ellen˝orzésére” szükségünk van xn és s2n pontos eloszlásának ismeretére. Abban az esetben, ha az X változó (statisztikai alapsokaság) normális eloszlású, E(X) várható értékkel és D(X) szórással, akkor a független normális eloszlású valószínuségi ˝ változók összegeként el˝oálló xn mintaközép ugyancsak √ normális eloszlású E(X) várható értékkel és D(X)/ n szórással, n bármilyen értékére. Ez egyébként a gyakorlat szempontjából különösen fontos esetnek számít. Az s∗n empirikus szórásnégyzet eloszlására a következ˝o két jól ismert és a kés˝obbiek során is rendkívül fontos tétel nyújt alapvet˝o információt: 1. Az N[E(X),D(X)] eloszlású statisztikai alapsokaság esetén n s2 ; D2 (X) n ˝ változó, ugyanis el˝oállítn − 1 szabadságfokú χ2 eloszlású valószínuségi ható n − 1 számú N(0,1) normális eloszlású valószínuségi ˝ változók négyzetösszegeként. Mivel s∗2 n =
n 2 s , n−1 n
így
n − 1 ∗2 s D2 (X) n
is n−1 szabadságfokú, χ2 eloszlású valószínuségi ˝ változó. Hasonlóan fontos a következ˝o állítás is. 2. Normális eloszlású alapsokaság esetén xn és s2n független valószínuségi ˝ változók. Ezeknek a tételeknek alapvet˝o jelent˝osége lesz az intervallumbecslések és a statisztikai próbák tanulmányozása során. 8.2.4. Mintave ´tel ve ´ges sokasa ´gbo ´l
Tekintsünk egy véges N számú egyedb˝ol álló sokaságot. Mindegyikhez tartozzék egy számérték, rendre x1 ,x2 ,...,xN . E számok között lehetnek egyenl˝ok is. Egyszeru˝ véletlen mintavételnek nevezzük n < N számú egyed egymás utáni ismétlés nélküli kiválasztását, amikor minden egyes kiválasztás során a sokaságban még meglév˝o egyedek azonos valószínuséggel ˝ kerülnek kiválasztásra.
90
II. A matematikai statisztika elemei
Ekkor a kísérletnek a sorrend fontossága miatt N! N n! = N(N − 1)...(N − n + 1) = n (N − n)! számú lehetséges kimenetele van. Amikor ˝ választunk N n egyedet egyidejuleg N ki, akkor a kimenetelek száma nyilván n és így minden ilyen egyedet 1/ n valószínuséggel ˝ választunk ki. A továbbiakban az el˝oz˝o felfogási módot alkalmazzuk. Jelölje X1 ,X2 ,...,XN az egyedek egymás utáni véletlen kiválasztása során nyert számértékeket. Ezek egymástól nem független, de azonos eloszlású valószínuségi ˝ változók. Mindegyik eloszlása megegyezik az X változó eloszlásával, amely az egyed véletlenszeru˝ kiválasztása során kapott számértéket adja. Vagyis P(X = xi ) =
k , N
ahol k az xi értéknek az x1 ,x2 ,...,xN számok közötti el˝ofordulási számával egyenl˝o. Az X változó eloszlása egyben az alapsokaság eloszlása. A várható érték és szórás értelmezése alapján 1 xi N N
E(X) =
i=1
N 1 2 (xi − E(X)) . σ2 = D2 (X) = N i=1
Az X1 ,X2 ,...,XN valószínuségi ˝ változók összességét a sokaságból vett n elemu˝ mintának nevezzük. A mintaátlag ez esetben is 1 Xi , n n
xn =
i=1
továbbá igaz, hogy
1 E(Xi ) = E(X). n n
E(xn ) =
i=1
Az xn mintaátlag szórása pedig σ D (xn ) = √ n
2
σ n−1 ≈√ 1− N−1 n
1−
Ekkor véges sokaság esetén a minta szórásnégyzete 1 2 (Xi − xn ) , n n
s2n =
i=1
n . N
91
8. Statisztikai minta´k e ´s jellemze ´su ¨k
és bebizonyítható, hogy a szórásnégyzet várható értéke véges elemu˝ alapsokaság esetén n−1 N 2 σ . E s2n = 1 N−1 Ebb˝ol következik, hogy az N−1 1 2 (xi − xn ) N n−1 n
s∗2 n =
i=1
ún. korrigált empirikus szórásnégyzet torzítatlan becslése σ2 -nek. Bebizonyítható, hogy N-hez képest relatíve elég kicsi, de egyébként elegend˝oen nagy n esetén √ xn − E(X) n s∗n valószínuségi ˝ változó közelít˝oen N(0,1) eloszlású. Így √ |xn − E(X)| P n ≤ δ ≈ 2Φ(δ) − 1, s∗n ahol Φ a standard normális eloszlásfüggvény. Ebb˝ol pedig az következik, hogy az n s∗ xn ± δ 1 − √n = xn ± ∆ N n kifejezés (2Φ(δ) − 1) · 100%-os megbízhatóságú (valószínuségi ˝ szintu) ˝ ún. konfidencia-intervallum az E(X) várható értékre, vagyis annak valószínusége, ˝ hogy a várható érték a mintaátlagtól legfeljebb a ±∆ értékkel tér el, (2Φ(δ) − 1) · 100%-os. Ez az eredmény rendkívül fontos lesz az intervallumbecslések és a statisztikai próbák során. Az eddig bemutatottak általában az egyszeru˝ véletlen mintavétel módszerére vonatkoztak. Az egyszeru˝ véletlen mintavétel persze nem az egyetlen módszere egy véges sokasággal kapcsolatos információszerzésnek. A rétegezett, csoportos, többlépcs˝os stb. mintavételek (melyek fogalmát röviden a következ˝o pontban tárgyaljuk) viszont mind ezen alapulnak. 8.2.5. A mintave ´tel f˝ obb mo ´dszerei
A minta kiválasztásának legfontosabb (alap)követelménye az, hogy biztosítani kell az alapsokaság minden egyes egyede számára a mintába való bekerü˝ lés azonos lehet˝oségét. Ez megköveteli a véletlenszeruség betartását a mintavételnél: vagyis semmiféle szándékosságnak nincs helye. (Megjegyezzük, hogy ez nem jelenti ugyanakkor azt, hogy a mintavétel valamiféle spontán tevékenység; ellenkez˝oleg, módszeres, meghatározott programot igényl˝o muve˝ let.) Az alapkövetelményen túlmen˝oen ma már egyre inkább el˝otérbe kerülnek
92
II. A matematikai statisztika elemei
a mintavétel hatékonysági követelményei: a várható eredmények és a szükséges mintanagyság összefüggéseinek feltárásával lehet˝ové válik a reprezentatív megfigyelés gyorsaságának növelése és a ráfordítások lehet˝oség szerinti optimalizálása is. A mintavétel muvelete ˝ a reprezentatív megfigyelés bármelyik alapfeladatának els˝o lépése. A mintavételi eljárásokat több szempont alapján osztályozhatjuk. Ezek közül az alábbiak a legjelent˝osebbek: a mintavétel lehet ismétléses és ismétlés nélküli, megkülönböztethetünk nagy- és kis-mintavételt, lehetséges esetenkénti és folyamatos (szekvenciális) mintavétel, a végrehajtás módszereit tekintve lehetséges: egyszeru˝ véletlen, rétegezett, lépcs˝ozetes kiválasztás. Ezen alaptípusok mellett ismeretesek az ún. fejlettebb mintavételi eljárások, mint pl. a szekvenciális mintavétel. A fenti felosztásnak megfelel˝oen tárgyaljuk a továbbiakban a mintavételi eljárásokat. Említést teszünk néhány olyan megoldásról, amelyek a véletlen és nem véletlenszeru˝ kiválasztás határesetei. Ismétléses a mintavétel, ha a mintába egyszer bekerült egyedeket az alapsokaságba visszajuttatjuk (a mérés vagy min˝osítés végrehajtása után) és így újra kiválasztásra kerülhetnek, míg az alapsokaság száma közben persze nem változik. Ismétlés nélküli mintavételnél a mintába bekerült egyedek nem kerülhetnek vissza az alapsokaságba, amelynek így a száma csökken. A minta elemszámától függ˝oen, ha n > 30–40, ún. nagy-mintavételr˝ol beszélhetünk, ennél kisebb mintaszám esetén kis-mintavételr˝ol van szó. A kismintavételes vizsgálatok esetén a becslés módszertani alapjai eltérnek a nagymintavételes eljárásétól. Ez esetben ugyanis – amennyiben az alapsokaság eloszlása normális eloszlás – a mintaátlagok eloszlása az alapsokaság várható értéke körül az ún. Student- vagy más néven a t-eloszlást mutatja. Maga a becslés menete nem különbözik jelent˝osen a nagy-mintavételes eljárástól. A gyakorlatban (különösen a biológiai tudományokban, de pl. a nagy ráfordítást igényl˝o kísérleteknél a muszaki ˝ tudományokban is) kiterjedten alkalmazzák a kis-mintavételt is. Ezután a végrehajtás módját véve alapul, ismertetjük a különböz˝o mintavételeket. Az egyszeru˝ véletlen kiválasztás a legegyszerubb. ˝ Az alapsokaságot gyakorlatilag homogénként, csoportokra nem bontható „egészként” kezeli, összetételére nincs tekintettel. A véletlen számok módszere alapján történ˝o kiválasztásnál – tetsz˝oleges kiindulóponttól elkezdve – a minta elemszámának megfelel˝o véletlen számot választunk ki. Az alapsokaság tagjait sorszámmal ellátva a kiválasztásra került véletlen számoknak megfelel˝o sorszámú egyedek alkotják a mintát. (Ismétlés nélküli mintavételnél a táblázatból esetleg többször kiválasztásra kerül˝o számokat kihagyjuk.)
8. Statisztikai minta´k e ´s jellemze ´su ¨k
93
A mechanikus (más néven szisztematikus) kiválasztás lényege, hogy az alapsokaság egyedeinek bizonyos rendezése után a sorrendben egymástól azonos távolságra elhelyezked˝o egyedek (pl. minden 5.) alkotják a mintát. Alapvet˝o módszertani követelmény, hogy a rendezés (sorrend) és a vizsgált paraméter nagysága (alakulása) között semmiféle kapcsolat nem állhat fenn. A mechanikus kiválasztás változatai közé tartozik az id˝oben egyenletesen elosztott kiválasztás. Ez bizonyos id˝oközökben való megfigyelést jelent valamely folyamatra nézve. A véletlenszeruséget ˝ a folyamat id˝orendjének figyelembevételével kell biztosítani. Periodikus ismétl˝odés esetén a kiválasztási id˝oköz nem eshet egybe a periódussal, mert ez torzító hatást jelent. (Pl. ha egy gép beállítását minden fél órában ellen˝orzik, akkor a termék mintavételét ett˝ol számottev˝oen eltér˝o id˝oközben kell végezni.) A mechanikus kiválasztás mindig ismétlés nélküli. Az egyszeru˝ véletlen kiválasztás számos el˝onnyel rendelkezik: az információszerzés egyszeruen, ˝ gyorsan megoldható, a becslés végrehajtása viszonylag könnyu. ˝ A becslés javítása csak a minta elemszámának növelésével oldható meg. A gyakorlatban a leginkább alkalmazott mintavételnek tekinthet˝ok az ismertetett eljárások. Nagyobb számú sokaság vizsgálatánál azonban célszeru˝ tanulmányozni egyéb mintavételi eljárások, alkalmazások lehet˝oségét is. Olyan alapsokaság esetén, amely a vizsgált ismérv szempontjából több, közel homogén rétegre bontható, igen el˝onyösen alkalmazható a rétegezett mintavétel. A becslés jóságának növelése a rétegezés útján megoldható, a minta nagyságának növelése nélkül. Rétegezett mintavételnél ugyanis az ered˝o szórásnégyzet, amely a becslésre jellemz˝o, két részb˝ol tev˝odik össze: az ered˝o szórásnégyzet a rétegen belüli és a rétegek közötti szórásnégyzetek összege. Mivel a rétegeken belüli szórás igen kicsi, az ered˝o szórás is kisebb, mint az egyszeru˝ véletlen minta esetén (azonos minta-elemszámot alapul véve). A kiválasztás úgy történik, hogy az egyes rétegeken belül egyszeru˝ véletlen mintavételt hajtunk végre, és így a létrejöv˝o minták összessége a szükséges elemszámú minta. A rétegezett mintavételnek két alapvet˝o megoldása lehetséges: arányos rétegezés, amelynél a minta rétegek szerinti megoszlása az alapsokaságéval azonos, valamint nem arányos rétegezés, amelynél a minta rétegez˝odése az alapsokaságétól eltér˝o. E tekintetben a leghatékonyabb eljárás az ún. optimális elhelyezés, amelynél a mintába az alapsokaság nagyobb szórást mutató rétegei nagyobb arányban vannak képviselve. A rétegezett mintavétel nagy el˝onyei mellett – mint az az ismertetettekb˝ol kitunik ˝ – jelent˝os el˝ozetes információkat igényel az alapsokaságra vonatkozóan (rétegek szerinti összetétel, s˝ot az egyes rétegek szórásai közötti különbségek hozzávet˝oleges ismerete). Ez a gyakorlatban nem mindig áll rendelkezésre.
94
II. A matematikai statisztika elemei
Ilyen esetekben alkalmazható a lépcs˝ozetes mintavétel. A minta kiválasztása itt több fokozatban történik; az egyes fokozatok (lépcs˝ok) meghatározását a vizsgálat célkituzései ˝ és a vizsgált ismérv alakulása szempontjából közömbös tényez˝ok is determinálhatják. A mintát mindig kisebb részsokaságokra koncentráljuk, ami azt jelenti, hogyha pl. 10%-os mintára van szükség és az els˝o lépcs˝oben az alapsokaság 30%-át választjuk ki, a következ˝o lépcs˝oben a sokaság 1/3-át véve jutunk a keresett mintához: 3/10 · 1/3 = 1/10, vagyis az egyes lépcs˝ok kiválasztási arányainak szorzatai adják az alapsokaságra vonatkozó, a szükséges mintát biztosító kiválasztási arányt. Az egyes lépcs˝okön belül, természetesen egyszeru˝ véletlen kiválasztás történik. Ha ezzel a módszerrel akarunk tájékozódni pl. egy lakótelep tömegközlekedési igényeir˝ol 100 család megkérdezése alapján (nem rendelkezünk el˝ozetes adatokkal pl. a telep lakóinak foglalkozás szerinti megoszlásáról, vagy hozzávet˝oleges információkkal esetleges közlekedési szokásaikról), akkor az eljárás menete: megszámozzuk a telep háztömbjeit, majd véletlenszeruen ˝ kiválasztunk ezek közül néhányat. Ezután ismét találomra kijelölünk 10 épületet, s az ezekben lakó családok névsorából pl. a szisztematikus, egyszeru˝ véletlen kiválasztással kiválasztjuk az n = 100 elemu˝ mintát. A lépcs˝os mintavétel igen egyszeru˝ és gyorsan végrehajtható, azonban a minta fokozatos koncentrálása (a fokozatos szukülése ˝ annak a sokaságnak, amelyb˝ol végül is a minta kiválasztásra került) a becslés hibáját er˝osen növeli. Ez az oka annak, hogy adott mintanagyság esetén a lépcs˝ozetes eljárással végrehajtott becslés jósági foka, azaz pontossága a legalacsonyabb. A három f˝o mintavételi eljárás ismertetésén túlmen˝oen, röviden említést teszünk az ún. fejlettebb mintavételi módokról is. Voltaképpen az „optimális elhelyezés” is idetartozik már, hiszen a mintanagyság változatlanul hagyása (s˝ot csökkentése) mellett a becslés jóságát növeli, vagyis emeli a mintavételes megfigyelés hatékonyságát. ˝ A legnagyobb valószínuség (maximum likelihood) elve alapján történ˝o mintavételes eljárás R. A. Fishert˝ol származik. Lehet˝ové teszi az összes lehetséges minták közül az ún. legvalószínubb ˝ minta alapulvételét s így a várható érték jobb becslését. Ezzel a rendkívül jelent˝os és hatékony eljárással majd a becsléselmélet során még részletesen foglalkozunk. A minimax becslés olyan mintavételt jelent, amely már a hibahatár bizonyos nagyságával járó veszteségeket is figyelembe veszi. A folytatólagos (szekvenciális) mintavétel az egyes minták vizsgálatai alapján határozza meg a további mintavétel szükségességét, amivel a mintanagyság és ezáltal a ráfordítások optimalizálását teszi lehet˝ové. Ezzel is kés˝obb részletesen foglalkozunk. Ez az eljárás a statisztikai döntéselméletben is jelent˝os. Megemlítjük, hogy az utóbbi eljárások Wald Ábrahám magyar származású matematikus alkotásai.
9 Statisztikai becsle ´sek
9.1. A becsle ´selme ´let elemei e ´s a becsle ´sekkel szemben ta ´masztott ko ¨vetelme ´nyek Statisztikai gyakorlatban gyakran kerülünk olyan helyzetbe, hogy a statisztikai sokaság valamely jellemz˝ojének, azaz valamilyen X valószínuségi ˝ változó F(x) eloszlásfüggvényének az alakját, vagy az f(x) sur ˝ uségfüggvényét ˝ megadó formulát), vagyis az eloszlás típusát ismerjük, de az eloszlás analitikai kifejezésében szerepl˝o paraméterek ismeretlenek. Ekkor tehát F(x) = F(x,a1 ,a2 ,...,ak ) vagy f(x) = f(x,a1 ,a2 ,...,ak ), ahol az a1 ,a2 ,...,ak ismeretlen paraméterek, amelyeket egy X-re vonatkozó n elemu˝ minta alapján kell megbecsülnünk. Diszkrét esetre példaként megemlíthetjük a Poisson-eloszlást, amelyre k = 1, a1 = λ, vagy folytonos esetre az N(µ,σ) normális eloszlást, melyre k = 2, a1 = µ, a2 = σ. A feladat általában olyan formában vet˝odik fel, hogy a mintaelemekb˝ol milyen függvényt konstruáljunk. Az X1 ,X2 ,...,Xn mintaelemeknek valamilyen a ^=a ^ (X1 ,X2 ,...,Xn ) függvényét képezzük, amely nyilván szintén valószínuségi ˝ változónak fogható fel. Az X1 ,X2 ,...,Xn mintabeli változók egy tetsz˝oleges függvényét statisztikának, pontosabban statisztikai függvénynek nevezzük. Az a paraméter közelítésére kialakított a ^ statisztikát pedig a becslésének nevezzük. Ha a ^ kiszámításának az a célja, hogy vele az a paraméter tényleges értékét becsüljük, akkor azt kívánjuk meg a ^-tól, hogy értéke minél közelebb essék a tényleges értékéhez,
96
II. A matematikai statisztika elemei
azaz a ^ eloszlása az a számérték, mint sajátosan értelmezett súlypont körül helyezkedjék el. Ez nyilván a legfontosabb tulajdonsága kell, hogy legyen egy „sikeres” becslésnek. A becslés „jóságának” konkrétabb min˝osítése különböz˝o szempontok alapján történhet. Általában a következ˝o tulajdonságokat igényeljük a becslésekt˝ol: torzítatlanság, hatékonyság, konzisztencia és elégségesség. Tekintsük át most részletesen ezen tulajdonságok fogalmát és sajátosságait. 9.1.1. A becsle ´s torzı´tatlansa ´ga
Az a ^=a ^(X1 ,X2 ,...,Xn ) statisztikát az a paraméter torzítatlan becslésének nevezzük, ha E(^ a) = a, vagyis a becslés, mint valószínuségi ˝ változó várható értéke megegyezik a közelítend˝o paraméter tényleges értékével. Torzítatlan becslésre a legegyszerubb ˝ példa az X valószínuségi ˝ változó a = E(X) = µ várható értékének becslése az X1 ,X2 ,...,Xn minta segítségével, azaz a mintaelemek számtani közepének, mintaátlagának kiszámításával: a ^ = xn =
X1 + X2 + ··· + Xn . n
Ekkor fennáll a már tárgyalt (lásd 8.2.3. pont) 1 1 E(Xi ) = nE(X) = E(X) = µ n n n
E(xn ) =
i=1
egyenl˝oség, azaz a mintaátlag torzítatlan becslése a várható értéknek. Torzított becslésre a legegyszerubb ˝ példa az empirikus szórásnégyzet mint becslés, mivel n 2 n−1 2 1 2 E Sn = E σ , (Xi − xn ) = n n i=1
˝ változó szórásnégyzete. Tehát az S2n empiahol σ = D (X) az X valószínuségi rikus szórásnégyzet mint becslés (valószínuségi ˝ változó), nem a σ2 , hanem a (σ2 − σ2 /n) érték körül ingadozik. A torzítás a már tárgyalt módon könnyen kiküszöbölhet˝o, építve arra az összefüggésre, amely szerint: n 2 S = E = σ2 . E S∗2 n n−1 n 2
2
Az olyan becslést, amely n → ∞ esetén aszimptotikusan torzítatlanná válik, aszimptotikusan torzítatlan becslésnek nevezzük. A gyakorlatban ez biztosítható a valószínuségi ˝ változók vizsgált jellemz˝oinek többségénél, illet˝oleg a torzítás megfelel˝oen csökkenthet˝o, ha n elég nagy.
97
9. Statisztikai becsle ´sek 9.1.2. A becsle ´s hate ´konysa ´ga e ´s konzisztencia ´ja A becsle ´s hate ´konysa´ga´nak fogalma
A becslésekkel szemben támasztott hatékonyság, vagy hatásosság követelményén általában azt értjük, hogy a statisztikai értékei nagy valószínuséggel ˝ a tényleges paraméter értékének minél kisebb környezetébe essenek. Torzítatlan becslésnél tehát ez azt jelenti, hogy az a ^ szórásnégyzete a) = E(^ a − a) D2 (^
2
minél kisebb értéket vegyen fel. Ha a ^1 és a ^2 az a paraméter két torzítatlan becslése, akkor közülük azt tekintjük hatásosabbnak, amelyre D(^ a1 ) < D(^ a2 ), vagyis amelyik szórása kisebb a másiknál. Az a ^2 becslés relatív hatásfokát az a ^1 becslésre a D2 (^ a1 ) D2 (^ a2 ) hányados definiálja. Ha a hányados értéke kisebb mint 1, akkor a ^1 hatásosabb becslése a-nak, mint a ^2 . A becsle ´s konzisztencia´ja
A becsléssel szembeni természetes igény az is, hogy a mintaszám növekedésével becsléseink minél pontosabbak legyenek, azaz ha minél több megfigyelést végzünk valamely X valószínuségi ˝ változóra (minél nagyobb a minta elemszáma), annál pontosabban tudjuk becsülni a közelítend˝o a paramétert. Ha ^n (X1 ,X2 ,...,Xn ) a ^n = a 2
statisztikai függvény torzítatlan becslése a-nak, és ha E(^ a − a) → 0, amikor n → ∞, akkor a Csebisev egyenl˝otlenségb˝ol következik, hogy P(|^ an − a| > ε) → 0, mivel P(|^ an − a| > ε) ≤
ha n → ∞, D2 (^ a) . 2 ε
Az olyan becslést, amire fennáll a ^n ⇒ a, vagyis a becslés sztochasztikusan konvergál a kérdéses paraméterhez, konzisztens becslésnek nevezzük. Nyilvánoleg az S2n konzisztens becslései µ-nek, való például, hogy az xn , az S∗2 n , illet˝ illet˝oleg σ2 -nek.
98
II. A matematikai statisztika elemei
Minima´lis szo ´ra´su ´ becsle ´sek
Rendkívül fontos feladatot jelent annak az eldöntése is, hogy véges n elemu˝ minta esetén a legjobb hatásfokú, a leghatásosabb a ^n becslés szórása tetsz˝olegesen kicsiny lehet-e, vagy meghatározható egy olyan alsó küszöb, amelynél a ^n szórása nem lehet kisebb. Ezt a kérdést válaszolja meg a Cramer–Rao egyenl˝otlenség, amely szerint a véges n elemu˝ mintából számított bármely becslés szórására van egy alsó határ, mégpedig 1 1 2 . an ) = E(^ an − a) ≥ = D2 (^ I E(dlnf/da)2 Itt I az ún. Fisher-féle információs mennyiség, azaz I=E
dlnf da
2 ,
˝ változóra vonatkozó X1 ,X2 ,...,Xn , és f = f(x1 ,x2 ,...,xn ,a) az X valószínuségi mintaelemek együttes sur ˝ uségfüggvénye, ˝ amely az ismeretlen a paramétert tartalmazza. A „látszat ellenére” a Fisher-féle I információs mennyiség sok esetben gyakorlatilag értelmezhet˝o és könnyen kezelhet˝o, illetve meghatározható. A Fisher-féle információs mennyiség és az I információs határ értelmezhet˝o akkor is, amikor a = (a1 ,...,ak ) többdimenziós paraméter. Ebben az esetben is igaz a Cramer–Rao egyenl˝otlenség, azonban kimondása jóval bonyolultabb az egydimenziós esetnél, ezért itt eltekintünk t˝ole. Tekintsünk a Cramer–Rao egyenl˝otlenség értelmezésére egy konkrét példát. Becsüljük meg egy X Poisson-eloszlású valószínuségi ˝ változó λ paraméterét, és legyen a λ becslésének céljából X-re vonatkozó megfigyelésünk X1 = k1 , X2 = k2 , ..., Xn = kn . Ekkor a mintavétel függetlensége miatt f(X1 ,X2 ,...,Xn ;λ) =
λk1 −λ λk2 −λ λkn −λ λk1 +k2 +···+kn −nλ e e ··· e = e . k1 ! k2 ! kn ! k1 !k2 !···kn !
Nyilván k1 + k2 + ··· + kn dlnf 1 df = = −n + , dλ f dλ λ és így a Fisher-féle információs mennyiség I=E
dlnf dλ
2
nλ n 1 2 D (ki ) = 2 = . λ2 λ λ n
=
i=1
99
9. Statisztikai becsle ´sek
Vagyis ebben az esetben a Cramer–Rao egyenl˝otlenség konkrétan
2 λ 1 D2 ^λ = E ^λ − λ ≥ = . n I De mivel, ha λ becslésére a ^λ = k1 + k2 + ··· + kn n átlagot (statisztikai függvényt) használjuk, akkor n
2 1 2 nλ λ 1 D2 ^λ = E ^λ − λ = 2 D (k1 ) = 2 = = , n λ n I i=1
ezért a Poisson-eloszlásnál a várható érték becslésére nincs jobb, azaz hatékonyabb, hatásosabb becslés, mint a számtani közép (mintaátlag). Két becslés hatásosságával kapcsolatban megemlítünk még egy igen érdekes és bizonyos fokig meglep˝o példát. Legyen az X statisztikai sokaság egyenletes eloszlású valamely [b,c] intervallumban (b < c), amikor nem ismerjük a (b,c) határokat. Egy n elemu˝ minta alapján becsülni szeretnénk az intervallum (b + c)/2 centrumát, mely egyben az X valószínuségi ˝ változó várható értéke. Nyilvánvaló volna a várható érték becslésére az xn mintaátlag kiszámítása. Érdekes azonban, hogy ez esetben xn -nél hatásosabb becslés a minta két széls˝o elemének számtani átlaga, vagyis a ^=
X∗1 + X∗n . 2
Ez a becslés felfogható úgy is, mint a medián becslése. Erre teljesül az E(^ a) = (a + b)/2 torzítatlansági feltétel, továbbá D2 (^ a) =
2
6 · σ2 , (n + 1)(n + 2)
és
σ2 =
(b − c) . 12
Mivel az xn szórásnégyzete σ2 /n, ezért ez n > 2 esetén mindig nagyobb, mint a két széls˝o érték átlagával történt becslés szórásnégyzete. Normális eloszlású (N(µ/σ)) sokaság esetén viszont a mediánnal történt „középérték” becslés szórásnégyzete D2 (me) =
π σ2 , 2 n
a mintaátlagé D2 (xn ) =
σ2 . n
100
II. A matematikai statisztika elemei
Így a mediánnal történ˝o becslés hatásfoka (hatásossága) az xn -hoz képest: D2 (xn ) = D2 (me)
σ2 n π σ2 2 n
=
1 2 ≈ 0,637 ≈ , π 1,66
azaz közelít˝oleg 1,66-szor akkora mintából kaphatnánk a medián alkalmazásával ugyanolyan megbízható becslést µ-re, mint a mintaátlag esetén. 9.1.3. A becsle ´s ele ´gse ´gesse ´ge
A becslés elégségességének fogalma bonyolultabb és absztraktabb az eddigi fogalmaknál, ezért elméleti fontossága ellenére csak egészen röviden foglalkozunk vele. A becslés elégségességének fogalma azt a becslés jóságával szemben támasztott követelményt fejezi ki, hogy az adott paraméterre vonatkozólag az X1 ,X2 ,...,Xn mintaelemb˝ol minden információt felhasználjunk, amit a mintaelemek a paraméterre nézve tartalmaznak. Ez azt jelenti, hogy olyan statisztikai függvényt kell konstruálnunk, amely mindazt az információt magában foglalja, amit a minta a becsült paraméterre vonatkozóan tartalmaz. Az ezzel a tulajdonsággal rendelkez˝o becslést elégséges becslésnek nevezzük. Elméletileg, ha az a ^ = a(X1 ,X2 ,...,Xn ) becslésnek megvan az a tulajdon˝ változók együttes eloszlása bármely sága, hogy az X1 ,X2 ,...,Xn valószínuségi a ^ = y feltétel mellett már nem tartalmazza a (becsülend˝o) paramétert, akkor a becslést elégségesnek nevezzük. Az elégségesség fogalmát becslésekre adtuk meg, ez megfogalmazható általánosabban statisztikai függvényekre is. A T = T (X1 ,X2 ,...,Xn ) statisztikát ˝ elégségesnek nevezzük, ha az X1 ,X2 ,...,Xn mintaelemek együttes feltételes suruségfüggvénye ˝ (diszkrét eloszlás esetén az együttes valószínuségfüggvénye) ˝ felírható f(x1 ,...,xn | T (X1 ,X2 ,...,Xn ) = y) =
f(x1 ,a)···f(xn ,a) fn (y,a)
alakban. Ezek után, ha X1 ,X2 ,...,Xn feltételes együttes eloszlása minden a = y feltétel mellett független az a paramétert˝ol, úgy az a paramétert illet˝oen semmilyen további elméleti megfontolásra nincs lehet˝oség a becslés során, vagyis az a ^ statisztikai függvény (becslés) az összes információt tartalmazza, amit a mintából a-ra nézve nyerhetünk. Példaként megemlítjük, hogy a mintaátlag (xn ) normális eloszlásánál a várható érték elégséges becslésének tekinthet˝o, hasonlóan Poisson-eloszlásnál a mintaátlag a λ paraméter elégséges becslése. Normális eloszlásnál a minta empirikus szórásnégyzete az elméleti szórás elégséges becslése. Az exponenciális eloszlás λ paraméterére is elégséges becslés a mintaátlag. Igen fontos, hogy
101
9. Statisztikai becsle ´sek
a relatív gyakoriság valamely esemény valószínuségére ˝ vonatkozó elégséges becslésnek tekinthet˝o. Pe ´lda´k az ele ´gse ´gesse ´g fogalma´ra
1. Belátható, hogy Poisson-eloszlású valószínuségi ˝ változó esetén x elégséges becslése az eloszlás λ paraméterének. Ha X1 ,X2 ,...,Xn egy n-elemu˝ minta, ˝ változó, továbbá az nx nλ-paraméteru˝ Poisson-eloszlású valószínuségi P(x1 = k1 ,...,xn = kn , nx = k) = P(nx = k) n λki −λ e P(x1 = k1 ,...,xn = kn ) i=1 ki ! = = , (nλ)k −nλ P(nx = k) e
p(x1 = k1 ,...,xn = kn | x = k/n) =
k!
ahol
n
i=1 ki
= k. Így kapjuk, hogy P(x1 = k1 ,...,xn = kn | x = k/n) =
ahol
n
i=1 ki
k! , k1 !···kn !nk
= k, és ez minden k/n esetén λ-tól független.
2. Tegyük fel, hogy rendelkezésünkre áll az az információ, hogy a sokaság egyenletes eloszlású valamely (c,d) intervallumban, nem ismerjük azonban a c, d határokat. Egy n-elemu˝ minta alapján becsülni akarjuk az intervallum a = (c + d)/2 centrumát, amely egyben a sokaság várható értéke. Kézenfekv˝o volna erre a célra az x empirikus várható értéket használni. Ez esetben azonban x-nál hatásosabb becslés a minta két széls˝o elemének számtani átlaga: X∗ + X∗n . a ^= 1 2 Erre teljesül az E(^ a) = a feltétel, továbbá D2 (^ a) =
6σ2 , (n + 1)(n + 2)
2
σ2 =
(d − c) . 12
Az x empirikus várható érték szórásnégyzete σ2 /n, ami n = 2 esetén mega)-val, n > 2 esetén pedig ennél nagyobb. Ha n ≤ 2, akkor teregyezik D2 (^ mészetesen a ^ = x. Valamely a elméleti érték becslésére egy többdimenziós sokaság mintaelemei is felhasználhatók. Ha a sokaság r-dimenziós, a minta elemszáma pedig n, akkor a becslések rn-változós függvényei a mintában szerepl˝o valószínuségi ˝ változóknak. A fenti definíciók erre az esetre értelemszeruen ˝ átírhatók.
102
II. A matematikai statisztika elemei
9.2. Becsle ´si mo ´dszerek 9.2.1. A maximum likelihood becsle ´si mo ´dszer
Az eddigiek alapján felmerül a kérdés, vajon lehet-e konstruálni olyan általános becslési módszereket, amelyeknek segítségével az adott f(x,a) eloszlás ismeretében a paraméterre vonatkozólag „jó” – azaz az el˝obbi követelmények közül minél többet kielégít˝o – becslés nyerhet˝o. Talán a legfontosabb általános módszer az ún. maximum likelihood (maximális valószeruség, ˝ illetve valószínuség) ˝ módszer, melynek kidolgozója R. A. Fisher. Tekintsük röviden a módszer lényegét. Legyen X egyváltozós folytonos eloszlású valószínuségi ˝ változó, amelynek eloszlása egy ismeretlen paramétert tartalmaz, vagyis sur ˝ uségfüggvénye ˝ az f(x,a) formában írható. Vegyük figyelembe az X valószínuségi ˝ változóra vonatkozó X1 ,X2 ,...,Xn -t. Bevezetjük az ún. likelihood függvényt: L(X1 ,X2 ,X3 ,...,Xn ;a) = f(X1 ,a)f(X2 ,a)...(Xn ,a). Ez általában a mintaelemek együttes sur ˝ uségfüggvényét ˝ (valószínuségét) ˝ jelenti, de a mintaelemek függetlensége miatt fennáll az f(X1 ,...,Xn ,a) = f(X1 ,a)···f(Xn ,a) összefüggés is. Ha a vizsgált statisztikai sokaság, illetve az azt reprezentáló X valószínuségi ˝ változó P(X = x) = P(x,a) diszkrét eloszlású és P(x = xi ) = Pi (a), akkor, ha az x1 ,x2 ,...,xr mintaérték gyakorisága rendre k1 ,k2 ,...,kr az ún. likelihood függvény L(X1 ,X2 ,X3 ,...,Xr ,a) = P(X1 ,a)P(X2 ,a)P(Xn ,a) k1
= (P1 (a))
k2
(P2 (a))
k
···(Pr (a)) r .
Tehát a maximum likelihood módszer alapgondolata az, hogy az a paraméter valódi értékét azzal az a ^(X1 ,X2 ,...,Xn ) értékkel becsüljük, amely, ha a paraméterünk valódi értéke lenne, akkor éppen az adott minta bekövetkezése lenne a legvalószínubb ˝ az összes lehetséges n elemu˝ minták közül. Vagyis a likelihood függvény folytonos eloszlás esetén a mintaelemek együttes sur ˝ u˝ ségfüggvényét, míg diszkrét esetben az együttes valószínuségét ˝ jelenti. Ha a mintaértékek adottak, akkor az n számú megfigyelés alapján a mintaelemek értékét a likelihood függvényt megadó egyenletbe behelyettesítve a függvény értéke csak az a paramétert˝ol függ. Maga a (maximum likelihood) módszer lényege abban áll, hogy meghatározzuk a ^(X1 ,X2 ,...,Xn ) azon értékét, amely az f(X1 ,X2 ,...,Xn ,a) függvényt a
103
9. Statisztikai becsle ´sek
szerint maximalizálja. Vagyis a ∂L =0 ∂a egyenlet megoldását kell vizsgálni, illetve mivel a logaritmus függvény szigorúan monoton, differenciálható függvény, így ugyanott veszi fel maximumát, ezért vizsgálhatjuk az ∂lnL =0 ∂a egyenlet megoldásait is. Ha a másodrendu˝ maximum feltétel is teljesül ∂2 lnL < 0, ∂a2 akkor a kapott a ^ (X1 ,X2 ,...,Xn ) statisztikai függvényt az a paraméter maximum likelihood becslésének nevezzük. Tekintsünk egy egyszeru˝ példát a maximum likelihood becslésre. Legyen X valószínuségi ˝ változó normális eloszlású µ és σ paraméterekkel. Feltesszük, hogy a kapott minta értékek az X1 ,X2 ,...,Xn számok. Ekkor a likelihood függvény n n (Xi −µ)2 (X −µ)2 − 1 1 2 − i 2 2σ √ e = √ n e i=1 2σ . L= σ 2π σ 2π i=1 Ha a paraméterek szerint a deriváltakat meghatározzuk, kapjuk, hogy m Xi − µ ∂lnL = = 0, ∂µ σ2 i=1 n 2 1 (Xi − µ) ∂lnL = − + = 0, ∂σ σ σ3 i=1
ahonnan
1 Xi = xn , n n
µ ^=
i=1
1 2 (Xi − xn ) = s2n n n
és
σ ^2 =
i=1
adódik. A maximum likelihood módszer így a várható érték becsléseként a mintaátlagot, a szórásnégyzet becsléseként az empirikus szórásnégyzetet adja meg. Bizonyítás nélkül közöljük az alábbi tételeket, melyek a maximum likelihood becslés és a statisztikai becsléssel szemben támasztott követelmények közötti kapcsolatot jellemzik.
104
II. A matematikai statisztika elemei
1. Ha létezik az a paraméternek egy a ^ minimális szórású, tehát hatásos becslése, akkor a likelihood egyenletnek egy megoldása van, és ez egyenl˝o a ^val. 2. Ha a ^ az a paraméter elégséges becslése, akkor a likelihood egyenlet minden megoldása az a ^ becslés egy függvénye. Megjegyezzük még, hogy a maximum likelihood becsléssel viszonylag általános feltételek mellett konzisztens és aszimptotikusan normális eloszlású becsléseket kaphatunk (amelyek azonban nem mindig torzítatlanok). Ezek és a fenti tételek eredménye jelentik azokat a tulajdonságokat, melyek a maximum likelihood módszert a többi becslési módszer közül kiemelik. Egyszer˝ u alkalmaza´si pe ´lda
Tekintsük a következ˝o egyszeru, ˝ a gyakorlatban sokszor el˝oforduló példát. Mérést végzünk, és ki szeretnénk szurni ˝ a mérési hibát. Feltételezzük, hogy a mérési hiba (ε) normális eloszlású, 0 várható értékkel és σε szórással: f(ε) =
1 √
−1 2
σε 2π
e
ε2 σ2 ε
.
A valódi paraméter értékét a-t egy n elemu˝ mintából, amelynek elemei X1 ,X2 ,...,Xn , a fenti a-priori információk segítségével akarjuk becsülni. Nyilván Xi = a + εi , ahol a a valódi paraméterérték. A likelihood függvény az εi = Xi − a összefüggés figyelembevételével L(X,a) =
n
f(Xi ,a) =
i=1
n
1 n/2
σn ε (2π)
továbbá
1 −2
e
(Xi −a)2 σ2 ε
,
i=1
1 2 (Xi − a) , 2σ2ε n
lnL(X,a) = C −
i=1
ahol C adott konstans. Keressük a fenti függvény maximumát n 1 ∂ lnL(X,a) =− 2 (Xi − α ^ ) = 0, ∂a σε a=α ^ i=1
ahonnan az
1 xi n n
α ^=
i=1
mintaátlagot mint maximum likelihood becslést kapjuk az ismeretlen a paraméter értékére, ami esetünkben torzítatlan, hatásos és konzisztens becslésnek min˝osül.
105
9. Statisztikai becsle ´sek 9.2.2. Maximum likelihood becsle ´s to ¨bbva ´ltozo ´s esetben
Keressük a P(X1 ,X2 ,...,Xn ;a1 ,a2 ,...,am ) eloszlás a1 ,a2 ,...,am paramétereire ^2 ,..., a ^m maximum likelihood becsléseket. a megfelel˝o a ^1 , a ^ T = (^ a1 , a ^2 ,..., a ^m ) és a mintára az Bevezetve az aT = (a1 ,a2 ,...,am ), a Xn = (X1 ,X2 ,...,Xn ) jelöléseket P(X1 ,X2 ,...,Xn ;a1 ,a2 ,...,am ) = P(X,a). Mivel a ismeretlen, (hiszen ezt akarjuk becsülni) a fenti jelölésekkel a likelihood függvény: L(X1 ,X2 ,...,Xn ;a1 ,a2 ,...,as ) = L(X,a). Ebben a többváltozós esetben az L függvény maximumának max L(X,a) a
szükséges feltétele, hogy ∂ L(X,a) = 0, ∂a ^ a=a illetve a logaritmus monoton növekv˝o tulajdonsága miatt ∂ lnL(X,a) = 0, ∂a ^ a=a ^ ebb˝ol egyértelmuen amit likelihood egyenletnek nevezünk. Az a ˝ meghatároz^ becslést a valódi a paraméter maximum likelihood becslésének neható. Az a vezzük. Többváltozós esetben is igaz, hogy a maximum likelihood becslés ^ 1. aszimptotikusan normális eloszlású, azaz P(a,a) tart a normális eloszláshoz, ha n → ∞. 2. Aszimptotikusan torzítatlan, azaz ^ → a, E(a)
ha n → ∞.
3. Aszimptotikusan hatásos becslés, tehát aszimptotikusan minimális szórású becslés, ahol a becslés szórásának értéke a Cramer–Rao egyenl˝otlenség szerint, amely az elérhet˝o pontosságot mutatja, a következ˝oképpen alakul: ^ ≥ I−1 ^ − a)(a ^ − a) = cov(a) E(a T
106
II. A matematikai statisztika elemei
Itt I a Fisher-féle információs mátrix T 2 ∂lnL ∂ lnL ∂lnL . = −M I=M ∂a ∂a ∂a∂aT ^ ⇒ a, ha n → ∞. Konzisztens becslés, azaz a ^ maximum likeli4. Rendelkezik az invariancia tulajdonságával, azaz ha a ^ is maximum likelihood becslése valamely a paraméternek, akkor g(a) hood becslése a g(a)-nak, ahol a g tetsz˝oleges függvény. ^ az a paramétervektor elégséges becslése, akkor a likelihood egyen5. Ha az a ^ becslés egy függvénye. letnek minden megoldása az a Tehát mint látható, a maximum likelihood becslés több változó esetén is – elég nagy mintaszám esetén – (aszimptotikusan) szinte minden becsléssel szemben támasztott fontos követelményünket kielégíti. Ezért olyan rendkívülien fontos alapvet˝o becslési módszer. Hátránya, hogy viszonylag sok a-priori információt igényel. 9.2.3. Bayes-tı´pusu ´ becsle ´sek
A Bayes-analízis, a Bayes-típusú becslések központi szerepet játszanak a statisztika szinte minden területén. Különösen fontos a szerepük a becslési feladatok és döntéselméleti kérdések megoldása során. A Bayes-típusú módszerek mindegyike a valószínuségelmélet ˝ egyik legfontosabb és talán legérdekesebb összefüggése, a Bayes-tétel alkalmazásán alapul. A Bayes-tétel a következ˝o információkra épül egy P(x,a) eloszlás a paramétereinek becslése során. Legyen q(a) a-priori (el˝ozetesen meglév˝o, a megfigyelést˝ol független) valószínuség-eloszlás ˝ az a paraméterre, továbbá, ha xT = (x1 ,x2 ,x3 ,...,xn ) a mintaértékek vektora, akkor P(x | a) feltételes valószínuség-eloszlás ˝ ismert. Ezek felhasználásával keressük a P(a | x1 ,x2 ,...,xn ) = P(a|x) ún. a-posteriori ˝ valószínuség-eloszlást, mely az a paraméter valószínuség-eloszlását ˝ adja, feltéve, hogy x1 ,x2 ,x3 ,...,xn értékeket figyeltünk meg (a mintavétel alapján). Ekkor a Bayes-tétel: P(a | x) =
P(xn | a)Q(a) P(x | a)Q(a) . = P(x) P(x | a)q(a)da
a
Tekintsük a Bayes-tételt többváltozós esetben is az a0 ,a1 ,...,am paraméterek becslésére P(x,a0 ,...,am ) = P(x,a). Az a-priori információk ekkor a következ˝ok: az a-priori valószínuség-eloszlása ˝ Q(a), továbbá a P(x | a) feltételes
107
9. Statisztikai becsle ´sek
valószínuség-eloszlás ˝ (sur ˝ uségfüggvény). ˝ Így a Bayes-tétel többváltozós esetben P(x,a) P(x | a)Q(a) = , P(a | x) = P(x) P(x) ahol
P(x) =
P(x,a)dm+1 a. m+1
Itt m+1 jelöli az (m + 1)-szeres integrált és dm+1 a jelöli da0 da1 ...dam -et. Így a fenti formula megadja az a0 ,a1 ,...,am paraméterek a-posteriori sur ˝ uség˝ függvényét (diszkrét esetben valószínuség-eloszlását) ˝ az adott mérési eredmények mellett. Az a paraméterre jellemz˝o a-posteriori sur ˝ uségfüggvény ˝ meghatározása után meg kell adnunk valamilyen ún. büntetésfüggvényt (veszteségfüggvényt vagy rizikófüggvényt) – ez lehet pl. kockázati vagy költségfüggvény –, amely ^ = (^ ^1 ,..., a ^m ) és a valódi paraméter értéke értékeli a becslési eredmény a a0 , a a = (a0 ,a1 ,...,an ) közötti eltérést (illetve annak gyakorlati hatását). Ezt jelöl^ jük C(a,a)-val. A büntetésfüggvény meghatározása többé-kevésbé szubjektív, a kísérletez˝o mérnök dönt kiválasztásáról. Ritka az olyan konkrét feladat, mely maga „dik^ tálja” a megfelel˝o C(a,a) büntetésfüggvényt. A paraméterbecslés során a következ˝o alapvet˝o büntetés (veszteség) függvényeket tekintjük leginkább alkalmazhatónak. Az egyszeruség ˝ kedvéért az egyváltozós esetre tárgyaljuk ezeket. 1. Négyzetes hiba (eltérés) Ekkor C(^ a ,a) = (^ a −a)2 c, ahol c valamilyen súlyozó érték (esetleg pl. fajlagos költség). Az a-ra kapott a-posteriori (a mintára vett feltételes) valószínuségekkel ˝ (sur ˝ uségfüggvénnyel) ˝ a becslése nyilván a 2 min c(^ a − a) P(a | x1 ,x2 ,...,xn )da a
a
összefüggésb˝ol történik. A d 2 c(^ a − a) P(a | x)da da
a=a ^
a
összefüggésb˝ol kapjuk, hogy a ^ = aP(a | xn )da, a
=0
108
II. A matematikai statisztika elemei
vagyis a P(a | xn )valószínuség-eloszlás ˝ várható értéke (átlaga) adja az a paraméter optimális becslését. Ez is mutatja, mint azt az 8. fejezetben többször is részletesen (mind valószínuségelméletileg, ˝ mind statisztikailag) kifejtettük, a négyzetes közepes eltérés (hiba) és a várható érték (átlag) szétválaszthatatlan összetartozását. 2. Átlagos eltérés Ekkor a büntetésfüggvény C(^ a ,a) = |^ a − a|c, és a feladat a
a − a|P(a | xn )da cE(|^ a − a|) = c|^ a
kifejezés a szerinti minimalizálása. Ez, mint azt az 8. fejezetben tárgyaltuk, akkor biztosítható, ha az a ^ a P(a | xn ) eloszlás mediánjával egyenl˝o. Tehát ilyen büntetésfüggvény választás mellett a P(a | xn ) mediánja biztosítja az optimális becslést. Itt az átlagos abszolút eltérés és a medián, az 8. fejezetben részletesen tárgyalt, egyértelmu˝ összetartozására emlékeztetünk. ˝ 3. A legnagyobb valószínuségi érték A legnagyobb valószínuségi ˝ érték szerinti büntetés (veszteség) függvény, azaz C(^ a ,a) = −1, vagyis a ^ = a∗ , melyre P(a∗ | xn ) = max P(a | xn ). a
Ez pedig nem más, mint a P(a | xn ) eloszlás módusza. Tehát a legalapvet˝obb büntetésfüggvények a három legfontosabb középértékkel, a várható értékkel, a mediánnal és a módusszal kapcsolatosak. A 9.1. ábra az a paraméter különböz˝o típusú sur ˝ uségfüggvényeit ˝ mutatja be, míg a 9.2. ábra néhány büntetésfüggvény típust illusztrál. Általánosan, a statisztikai döntéselmélet terminológiájával a következ˝o tárgyalásmód használatos az a paraméter Bayes-típusú becslésére. Az xn megfigye^ 1 ,x2 ,...,xn ) meghatározása (becslése) feltételes kockálés (minta) alapján a(x zatának (rizikójának) nevezzük a büntetésfüggvény minta szerinti (xn ) várható értékét, azaz n ^ ^ = C(a,a)P(x Ex/a (C(a,a)) n | a)d xn . n
^ megválasztásának átlagos kockázaA becslést, mely ezt a kifejezést, azaz az a tát minimalizálja, nevezzük minimális kockázatú (rizikójú) becslésnek.
109
9. Statisztikai becsle ´sek
9.1. ábra. A becsült paraméter sur ˝ uségfüggvénye ˝ (a), a torzítottság és a hatásosság illusztrálása (b)
A Bayes-tétel alapján az átlagos kockázat:
^ = P(xn ) R(a) n
^ C(a,a)P(a | xn )dm+1 adn xn
m+1
Mivel P(x) ≥ 0, az átlagos kockázatot minimalizálhatjuk a bels˝o integrál (a feltételes kockázati függvény) minimalizálásával, azaz ^ C(a,a)P(a | xn )dm+1 a.
min ^ a
m+1
110
II. A matematikai statisztika elemei
9.2. ábra. Büntetésfüggvények a Bayes-típusú becsléseknél
Eszerint a megoldást, azaz a minimális kockázatú becslést, a következ˝o összefüggéssel határozhatjuk meg: ∂ ^ C(a,a)P(a | xn )dm+1 a = 0, ^ ∂a m+1
^ a=a
mely teljesen megegyezik az el˝oz˝oekben ismertetett közvetlen megközelítéssel. A kapott becslést – a Bayes-tétel központi szerepe miatt – Bayes-típusú becslésnek nevezzük. Egy paraméter esetén az átlagos kockázat a ,a)P(x1 ,x2 ,...,xn | a)q(a)dn xn da. R(^ a) = C(^ an
Innen az el˝oz˝o gondolatmenet szerint, ha a Bayes-tétellel meghatároztuk a ˝ akkor a minimális átlaP(a | x1 ,x2 ,...,xn ) a-posteriori valószínuség-eloszlást, gos kockázatú becslést egyváltozós esetben az alábbi egyenlet adja: ∂ C(^ a ,a)P(a | xn )da = 0. ∂^ a a
a=a ^
111
9. Statisztikai becsle ´sek
Tekintsük a maximum likelihood becslésnél vizsgált alkalmazási példát a Bayes-típusú becslés illusztrálására, azaz meg akarjuk határozni egy paraméter valódi értékét a mérési hibákat kiszurve. ˝ Tehát xi = a + ε, ahol xi a megfigyelt, mért érték, i = 1,2,...,n és a pedig a valódi érték. ε a mérési hiba, melyr˝ol most is a-priori tudjuk, hogy normális eloszlású (Pε) zérus várható értékkel és ismert σε szórással. Az a-ra vett a-priori valószínuség-eloszlás ˝ – feltehet˝oen – a Q(a) szakért˝oi becslések alapján áll rendelkezésünkre és ugyancsak normális eloszlásúnak tekintend˝o µa várható értékkel és σa szórással. A Bayes-tétel szerint P(xn ,a) P(x1 ,...,xn | a)q(a) = P(xn ) P(x1 ,...,xn ) q(a)Pε (x1 − a)···Pε (xn − a) , = P(xn )
P(a | x1 ,...,xn ) = P(a | xn ) =
mivel εi = xi − a és itt a és xi (i = 1,2,...,n) függetlensége, valamint az εi és a függetlensége miatt d(xi − a) = q(a)Pε (xi − a). P(xi ,a) = P(xi − a;a) da A fenti összefüggés során az a valószínuségi ˝ változó (monoton) függvényének eloszlására vonatkozó ismert tételt is felhasználtuk. Mivel az eloszlások a normális eloszlást követik, azt kapjuk, hogy n 2 2 1 (a − µa ) (xi − a) − C2 , + P(a | xn ) = C1 exp − 2 σ2a σ2a i=1
ahol C1 ,C2 konstansok. Kiszámítva a becslés átlagos kockázatát, a C(^ a ,a) = 2 (^ a − a) (négyzetes eltérés) büntetésfüggvényre a minimumkeresés után kapjuk, hogy
a ^=
σ2 2 1 ε n µa + σa n
σ2a +
σ2 ε n
n i=1
xi =
D2 (xn ) D2 (µa ) µ + xn , a D2 (xn ) + D2 (µa ) D2 (xn ) + D2 (µa )
n ahol σ2ε /n = D2 (xn ) az xn = i=1 xi /n mintaátlag szórásnégyzete (ezt az 8. fejezetben tárgyaltuk részletesen), σ2a = D2 (µa ) pedig az a-priori becslés bizonytalanságát jellemz˝o szórásnégyzet. Ezt az egyszeru, ˝ de nagyon érdekes eredményt kapjuk akkor is, ha a becslés átlagos kockázati függvényében a büntetésfüggvénynek a C(^ a ,a) = |^ a − a| abszolút eltérést választjuk. Ekkor a minimális kockázatú becslést úgy biztosíthatjuk, ha a normális eloszlás mediánját határozzuk meg. Ez viszont normális eloszlás esetén egybeesik az eloszlás várható értékével, így ugyanazt az eredményt kell kapnunk.
112
II. A matematikai statisztika elemei
A 3. típusú büntetésfüggvény választásánál a minimális kockázatú becslést a normális eloszlás módusza biztosítja, ami normális eloszlásnál egyenl˝o a várható értékkel és természetesen a mediánnal is. Bizonyítsuk be ezt az esetet: konkrétan a max P(a | xn ) = max lnP(a | xn ) a
a
d lnP(a | xn ) =0 da a=a ^
azaz
összefüggésb˝ol kell az a ^-t meghatároznunk. Képezve a fenti összefüggés differeciálhányadosát, a deriválás után azt kapjuk, hogy 1 a − µa (xi − a) = 0, + 2 2 σa σε n
−
i=1
ahonnan σ2ε µa + σ2a a ^=
n
i=1 nσ2a + σ2ε
xi =
σ2 2 1 ε n µa + σa n
σ2a +
n i=1
σ2 ε n
xi .
A várható kockázat pedig 2
E(a − a ^) =
σ2ε σ2a σ2ε . 2 ≤ σ n σ2 + ε n a
n
Látható, hogy a mintaátlaghoz hasonlóan a Bayes becsléssel kapott eredmény is konzisztens becslés, azaz E(a − a ^)2 → 0, ha n → ∞, továbbá a ^n (BE) → a és a ^n (MLE) → a,
ha n → ∞,
ahol BE (Bayes Estimation) a Bayes-típusú becslés, míg MLE (Maximum Likelihood Estimation) a maximum likelihood becslés. Megállapíthatjuk továbbá, hogy elég nagy n értékekre σ2ε /n ≈ 0, és így a két becslés közelít˝oleg egyenl˝o: a ^n (BE) ≈ a ^n (MLE). Ezekb˝ol jól érzékelhet˝o a Bayes-típusú becslés jelent˝osége és kapcsolata a maximum likelihood típusú becsléssel. Ugyanis kis mintaszám esetén, ha apriori információk pontosságát optimistán ítéljük meg, akkor kicsi, és így az a-priori becslés (µa ) nagy súllyal esik latba, különösen, hogyha σε értéke nagy. Nagy minták esetében azonban már mindenképpen a mintaátlag dominál. Ekkor viszont σε/n igen kis értéke miatt az a-priori becslés okozta torzítás egészen kicsi. A Bayes típusú becslések is általában rendelkeznek – aszimptotikus jelleggel – a legtöbb jó tulajdonsággal (aszimptotikus torzítatlanság, konzisztencia stb.), amelyet a becslési módszerekkel szemben támasztunk.
113
9. Statisztikai becsle ´sek
9.3. A Bayes-mo ´dszer alkalmaza ´sa valo ´szı´n˝ use ´gek becsle ´se ´re: a-priori e ´s a-posteriori szubjektı´v valo ´szı´n˝ use ´gek A Bayes-típusú becslést használhatjuk valószínuségek ˝ becslésére is, kis minta˝ számú megfigyelések esetén. Szubjektív valószínuségnek olyan valószínuségeket ˝ nevezünk, melyekre ugyanazon axiómák igazak, mint az „objektív” valószínu˝ ségekre, de nem tömegjelenségekre vonatkoznak, hanem egyedi események bekövetkezésére (pl. egy beruházás kockázatát jellemz˝o valószínuségekre). ˝ A statisztikai analízis eddig tárgyalt témái inkább az „objektív”, gyakorisági típusú valószínuségekhez ˝ állnak közelebb. A szubjektív valószínuségek ˝ jelent˝osége igen fontos a döntéshozatalban és általában mindenhol, ahol vagy nincs megfigyelési lehet˝oség, vagy kis számú megfigyelés lehetséges, viszont a szakemberek tárgybeli szaktudása és tapasztalata pótolhatja ezt, szakért˝oi becslések formájában. Az egyedi eseményre vonatkozó, adott személy vagy személyek által becsült, nem gyakoriság típusú valószínuségeket ˝ a-priori szubjektív valószínu˝ ségeknek nevezzük. Ezekre – mint említettük – hasonló valószínuségelméleti ˝ axiómák, szabályok érvényesek, mint az „objektív” valószínuségekre. ˝ Ugyancsak fontos az az eset, amikor kis számú megfigyelés áll rendelkezésünkre egy véletlen eseményr˝ol, egyúttal rendelkezünk (pl. szakért˝oi becslések útján) az el˝obb említett a-priori szubjektív valószínuségekkel. ˝ Ekkor a feladat az, hogy úgy összegezzük (aggregáljuk) az a-priori és a megfigyelt információkat, hogy minél jobb becslést kapjunk a véletlen eseményt jellemz˝o valószínuségre. ˝ Ebben az esetben is alkalmazhatjuk az el˝obbiekben bemutatott Bayes típusú becslési formát. Az A esemény valószínusége ˝ P(A) = X legyen maga is valószínuségi ˝ változó, melynek sur ˝ uségfüggvénye ˝ f(x). Tegyük fel, hogy n számú független megfigyelésünk van, mely alatt az A esemény k-szor fordul el˝o. Ekkor a függetlenség miatt n k n−k , z (1 − z) P(k | X = z) = k vagyis P(k | X = z) binomiális eloszlást követ. Az a-priori információ a P(A) valószínuség ˝ bekövetkezésére legyen r, a be nem következésé s. Így (heurisztikusan is) az a-priori becslés P(A) valószínu˝ ségre r/(r+s). Ha az X béta-eloszlású, akkor a várható értéke tényleg r/(r+s). Így az X a-priori eloszlására célszeru˝ a béta-eloszlást választanunk, azaz P(z) =
Γ (r + s) r−1 s−1 z (1 − z) . Γ (r)Γ (s)
Természetesen az r/(r + s) valószínuséget ˝ különböz˝o r és s értékek mellett is megkaphatjuk, de az r + s konkrét érték megválasztása mégis nagyon fontos, mivel ennek az n-hez viszonyított nagysága az a-priori információ a meg-
114
II. A matematikai statisztika elemei
figyelt információhoz viszonyított megbízhatóságának arányáról informál. A Bayes-tétel felhasználásával P(X = z | k) = 1 0
P(k | X = z)P(z) P(k | X = x)P(x)dx
n−k
= 1 0
zk (1 − z)
P(z)
n−k xk (1 − x) P(x)dx
,
ahonnan P(X = z | k) =
Γ (n + r + s) n−k+s−1 zk+r−1 (1 − z) . Γ (k + r)Γ (n − k + r)
Így az X feltételes eloszlása újból béta-eloszlású r+k n+r+s várható értékkel. A Bayes-becslés szerint a
^n (A) − P(A) 2 = X ^−X 2 ^n (A),P(A) = P C P négyzetes hiba „típusú” büntetésfüggvény megválasztása esetén a P(A) valószínuség ˝ minimális kockázatú becslését a P(X = z | k) feltételes eloszlás várható értékei biztosítják, azaz ^n (A) = r + k , P r+s+n ˝ amit az A esemény bekövetkezésére vonatkozó a-posteriori szubjektív valószínuségnek nevezünk. Ez egyúttal egy minimális kockázatú becslésnek min˝osül a P(A) valószínuségre. ˝ A fenti Bayes-típusú becslést egy P(Ai ) = Xi ,
i = 1,...,m,
m
P(Ai ) = 1
i=1
valószínuség-eloszlás ˝ becslésére is kiterjeszthetjük. Ekkor a megfigyelésb˝ol (a mintából) ni az Ai esemény bekövetkezésének gyakorisága, így a binomiális eloszlás helyett a polinomiális eloszlást kapjuk: P(ki | X = zi ) =
m n! ni zi , m ni i=1
m
ni = n.
i=1
i=1
Az a-priori becslés eloszlására pedig a többváltozós béta-eloszlást célszeru˝ választani: m ziri −1 i=1 , P(Xi = zi ) = B(r1 ,r2 ,...,rm )
115
9. Statisztikai becsle ´sek
ahol
m zi eri −1 dz1 ...dzm . B(r1 ,r2 ,...,rm ) = ··· i=1
m Itt ri (i = 1,...,m) az a-priori információ és ri / j=1 rj az Ai esemény a-priori valószínuségeloszlását ˝ mutatja. A Bayes-tétel segítségével P(zi | ki ) = 1 0
P(k | Xi = zi )P(zi ) P(k | Xi = xi )P(xi )dxi
,
ahonnan képezve P(zi | k) várható értéket (hosszasabb számolás, illetve rendezés után) a rendkívül egyszeru, ˝ az a-posteriori szubjektív valószínuségek ˝ eloszlását megadó ^n (Ai ) = ri + ki , P m rj + n
i = 1,...,m
j=1
becslést kapjuk, amely a négyzetes eltérés kritérium alapján minimális kocká˝ zatú becslése a P(Ai = Xi ) valószínuség-eloszlásnak. 9.3.1. A legkisebb ne ´gyzetek becsle ´si mo ´dszere
A maximum likelihood módszer tárgyalása során láttuk, hogy egy N(µ,σ) normális eloszlás µ várható értékeinek becslése a 1 2 (xj − µ) 2σ2 n
logL(x | µ) = C −
j=1
likelihood függvény maximalizálásával történik. A fenti összefüggés maximalizálása viszont megfelel a n 2 (xj − µ) j=1
minimalizálásának. Így tehát ebben az egyszeru˝ esetben maximum likelihood becslési feladatát vissza tudjuk vezetni a legkisebb négyzetek módszere típusú feladatra. Tegyük fel most, hogy az alapsokaság várható értéke, µ maga is lineáris függvénye a1 ,a2 ,...,ak paramétereknek, vagyis µ=
k i=1
βi ai
116
II. A matematikai statisztika elemei
ahol βi -k nem véletlen változók, hanem ismert konstansok. A feladat ekkor az, hogy szeretnénk az ai (i = 1,...,k) paramétereket becsülni a legkisebb négyzeteknek megfelel˝oen, azaz a n
xj −
k
2 βi ai
i=1
j=1
kifejezés minimalizálásával az egyes ai -k (i = 1,...,k) szerint. Láthatjuk tehát, hogy a módszer neve a négyzetösszegek minimalizálásának kifejezéséb˝ol ered. Általánosságban, ha becsülni szeretnénk egy a paramétervektort n számú megfigyelésb˝ol: x1 ,x2 ,...,xn , amely a-val kapcsolatos és E(xj ) = Pj (a), pl. az el˝obbi összefüggésre E(xj ) =
k
βi ai ,
i=1
kiválaszthatjuk a becslési módszerünket úgy is, hogy minimalizáljuk a négyzetes eltérések összegét, az xi megfigyelések becsült várható értékeik között, azaz a feladat n 2 min (xj − Pj (a)) . a
j=1
˝ változók független norHa az egyes xi megfigyelések, mint valószínuségi mális eloszlású változók, ugyanazon várható értékkel és szórással, akkor belátható, hogy ebben az esetben a legkisebb négyzetek becslési módszerével történ˝o becslés valóban egybe esik a maximum likelihood becsléssel. A legkisebb ne ´gyzetek becsle ´si mo ´dszer to ¨bbva´ltozo ´s linea´ris esetben
Tekintsük a következ˝o lineáris modellt y = Xa + ε, ahol y egy (n × 1)-es vektora az y valószínuségi ˝ gyeléseknek, míg X11 ... X1n .. .. X= . . Xm1 ... Xmn
változóra vonatkozó megfi
a többváltozós minta mátrixát jelöli. Itt Xij a j-edik együtthatóra vonatkozó iedik megfigyelés, mint valószínuségi ˝ változó. Továbbá, legyen a a becsülend˝o
117
9. Statisztikai becsle ´sek
paramétervektor és ε (n × 1)-es vektora egy hibaváltozónak (pl. mérési hiba, mint valószínuségi ˝ változó). Feltesszük továbbá, hogy E(ε) = 0 és E(εεT ) = 2 σ I, ahol I egy (n × n)-es egységmátrix. A legkisebb négyzetek elve alapján, ahhoz, hogy a valóságos ai paramétereket becsülhessük, minimalizálnunk kell a következ˝o négyzetek összegét T
S = (y − Xa) (y − Xa) a különböz˝o ai paraméterek szerint, azaz ∂S = 0. ∂a Elvégezve a differenciálást kapjuk, hogy 2XT (y − Xa) = 0, ahonnan a legkisebb négyzetek módszere alapján becslésünk az a paraméterre
−1 T ^ = XT X a X y. Feltesszük, hogy az XT X mátrix nem szinguláris, azaz invertálható. A becslés tulajdonságairól bebizonyíthatók a következ˝ok: ^ = a, E(a)
−1 ^ = E(a − a) ^ 2 = σ 2 XT X D2 (a) . Belátható, hogy ez minimális szórású, azaz hatásos becslés (lásd Cramer–Rao egyenl˝otlenséget), vagyis a minimális szórású és torzítatlan becslés. Természetesen konzisztens is és elégséges becslés is, így a lineáris becslések közül az adott feladatra a „legjobb” becslésnek tekinthet˝o. Megjegyezzük, hogy ha XT X közel szinguláris mátrix, akkor inverz mátrixának elemei nagyon nagyok lesznek és a becslés nem lesz pontos. Ezt a jelenséget multikollinearitásnak nevezzük és kés˝obb, a regresszió-analízisben foglalkozunk még ezzel a kérdéssel, és legkisebb négyzetek becslési módszer alkalmazásával is. Tekintsük a következ˝o példát: legegyszerubb ˝ esetben a legyen egy (1×1)-es vektor, ekkor y = Xa + ε ahol most x egy (n × 1) vektor. Így a legkisebb négyzetek becslése n
a ^= X X T
−1
X y= T
xj yj
j=1 n j=1
. x2j
118
II. A matematikai statisztika elemei
Ha ebben a példában x = 1 minden i = 1,...,m-re, akkor a 9.2. pontban bemutatott példát kapjuk, ahol ε egyelemu˝ vektor (ε) a mérési hiba, mivel valószínuségi ˝ változó. A fenti képlet pedig így alakul: 1 yj , n i
a ^=
j=1
vagyis a példában a legkisebb négyzetek szerinti becslés megegyezik a maximum likelihood módszer szerinti becsléssel, illetve nagy n-ekre közelít˝oleg megegyezik a Bayes-típusú becsléssel is. A becslés szórása a fenti képlet szerint nyilván σ2 D2 (^ a) = m , 2 xj j=1
illetve, ha xj = 1 (j = 1,...,m), akkor D2 (^ a) =
σ2 , n
amivel már találkoztunk a mintaátlag szórásaként. A további becslési módszerek között még megemlítjük a khi-négyzet (χ2 ) becslési módszert, mely egy diszkrét P(xi ,a) (i = 1,...,s) eloszlás esetén, ha ^), úgy a annak becsült alakja P(xi , a χ2 = n
s 2 (P(xi ,a) − P(xi , a ^)) i=1
P(xi ,a)
összefüggés a szerinti minimalizálásával becsüli az a paramétert, amely a ∂χ2 =0 ∂a egyenletb˝ol határozható meg. Megállapítható, hogy a maximum likelihood becsléshez hasonlóan a khi-négyzet becslés is – aszimptotikusan – normális eloszlású becslés. Megjegyezzük, hogy a valódi és becsült eltérés kritériumára még a χ2 kritériumon kívül használható a Komogorov–Szmirnov-statisztika is, azaz sup |Fn (x, a ^) − F(x,a)|, x
ahol Fn (x, a ^) az n elemu˝ mintából becsült, míg F(x,a) az elméleti eloszlása a valódi a paraméternek. A becslési feladat ennek a szerinti minimalizálása és azután az a ^ becslés tényleges kiszámítása.
119
9. Statisztikai becsle ´sek 9.3.2. Kapcsolat a ku ¨ lo ¨nbo ¨z˝ o becsle ´si mo ´dszerek ko ¨zo ¨tt
Vizsgáljuk most meg a kapcsolatot a maximum likelihood és a legkisebb négyzetek becslési módszer között. Legyen az ε m-dimenziós normális eloszlású hibaváltozó, azaz 1 T −1 1 ε exp − , N ε P(ε) = m/2 −1/2 2 (2π) N ahol az N az ún. kovariancia mátrix, melynek i,j eleme E(εi εj ), esetünkben legyen egységmátrix: N = σ2 I. Ekkor igaz, hogy
1 1 m T (y − Xa) (y − Xa) . lnP(y − Xa) = − ln (2π) |N| − 2 2 Ezt maximalizálva kapjuk, hogy ∂ lnP(y − Xa) = XT N−1 Xa − XT N−1 y = 0, ∂a ahonnan az
−1 T ^ = XT X X y a
becslést kapjuk, ami tehát megegyezik a legkisebb négyzetek becslési módszere alapján kapott eredménnyel. Hasonlóképpen a 9.2. példa vektor mátrixos általánosításával kapcsolat teremthet˝o a Bayes-féle, a maximum likelihood és a legkisebb négyzetek módszere típusú becslések között. Érzékelhet˝o, hogy nagy n-ekre a fenti feladat esetén a Bayes-becsléssel kapott eredmény közelít˝oleg egyenl˝o a másik két becslési módszer által szolgáltatott eredménnyel. 9.3.3. Becsle ´s sztochasztikus approxima ´cio ´val
Egy P(x,a) eloszlás a paraméterének becslésére az X1 ,X2 ,...,Xn megfigyelések (minta) alapján alkalmazhatjuk a következ˝o ún. sztochasztikus approximációs algoritmust αn = αn−1 + γn [θn (X1 ,X2 ,...,Xn ) − αn−1 ], ahol a θn (X1 ,X2 ,...,Xn ) valós értéku˝ függvényeket az összes lehetséges X1 ,X2 , ...,Xn sorozatokon (megfigyeléseken) értelmezzük olyan módon, hogy E(θn = a),
E(αn − a)2 < ∞,
továbbá γn > 0,
lim γn = 0,
n→ ∞
∞ n=1
γn = ∞
és
∞ n=1
γ2n < ∞,
120
II. A matematikai statisztika elemei
valamint E(α0 − a)2 < ∞, ahol α0 egy kezdeti (a-priori) becslése a-nak. Bebizonyítható, hogy a fenti feltételek teljesülése esetén 2 P lim αn = a = 1 és lim E(αn − a) = 0, n→ ∞
n→ ∞
azaz a becslés 1 valószínuséggel ˝ és négyzetes középben (a legkisebb négyzetek szerinti eltérést tekintve) egyaránt konvergál az a paraméter valódi értékéhez. (A valószínuségelméletb˝ ˝ ol ismert, hogy ez er˝osebb konvergencia, mint a konzisztencia feltételeként a sztochasztikus konvergencia.) 2 A fenti algoritmus optimalizálása nyilván az E(αn − a) minimalizálásából áll, minden n értékre, γn szerint. Bebizonyítható, hogy ezt a fenti feltétel teljesülése esetén a 1 γn = 2 n + σ2/v0 megválasztásával biztosíthatjuk, ahol a-priori ismert (vagy feltételezett) σ2 = 2 2 E(θn − a) minden n-re, továbbá E(α0 − a) = v20 . Ily módon az optimális megoldás az, hogy kiválasztjuk azt a θn (X1 ,X2 ,...,Xn ) függvényt, amely kielégíti az E(θn ) = a feltételt és a lehet˝o legkisebb 2
E[θn (X1 ,X2 ,...,Xn ) − a]
szórásnégyzet szolgáltatja minden n-re. Ezután a fentieknek megfelel˝oen kiválasztjuk az optimális γn szorzatot. Példaként a számos paraméterbecslés közül válasszuk ki a két legalapvet˝obb paraméter, a várható érték és a szórás becslését, sztochasztikus approximációs algoritmussal. A várható érték becslésére szolgáló algoritmus a következ˝o: xn = xn−1 − γn (xn−1 − Xn ), ahol Xn az n-edik id˝opontban megfigyelt mintaérték, γn -re érvényesek a fenti feltételek. Nyilvánvalóan E(xn ) = E(X) és P lim xn = E(X) = 1, n→ ∞
amib˝ol azonnal következik, hogy xn ⇒ E(X). A várható értékre vonatkozó becslésnél láthatjuk, hogy az aktuális becslést egy folytonos megfigyelés során rekurzíven is kiszámíthatjuk az el˝oz˝o becslésérték és az éppen megfigyelt esemény alapján, azaz nem szükséges az összegzés minden egyes újabb megfigyelés esetén, valamint szükségtelen az összes múltbeli információ tárolása. Ez nagyszámú paraméter egyideju˝ becslése esetén jelent˝os szempontnak számít.
121
9. Statisztikai becsle ´sek
Amennyiben az Xn megfigyelések id˝oben változó, statisztikai karakterisztikájúak, azaz pl. nem teljesül, hogy E(Xn ) = E(x) minden n-re, akkor nyilvánvaló, hogy a kés˝obbi id˝opontban bekövetkezett eseményeket nagyobb súllyal érdemes figyelembe venni, mint a korábban bekövetkezett eseményeket, hi˝ statisztikája er˝osen válszen az Xn esemény bekövetkezési valószínuségének tozhat. Ekkor a γn sorozatot úgy kell megválasztanunk, hogy ezt a „felejtést” biztosítsa. Határesetben – ha az említett statisztikai karakterisztika er˝osen változó – a γn = const választás biztosítja, hogy csupán néhány legkés˝obb megfigyelt eseményt vegyünk figyelembe a becslés során. A másik határesetben, mikor E(Xn ) = E(X) teljesül minden n-re, láthattuk, hogy az optimális γn sorozat igen általános feltételek mellett (az a-priori információkat nem számítva) az 1/n sorozat. A két széls˝o eset közötti helyzetben a megfelel˝o γn sorozat megválasztását pl. γn = k/nε sorozattal határozhatjuk meg, ahol k > 0 és 0,5 < ε < 1 megfelel˝oen választott konstansok. A várható értékhez hasonlóan becsülhetjük a szórásnégyzetet is: 2 S2n = S2n−1 − γxn S2n−1 − (Xn − xn ) , ahol az xn átlagbecslést is a fenti rekurzív algoritmussal határozhatjuk meg. Hasonlóan egy P(A) = X valószínuség, ˝ mint valószínuségi ˝ változó rekurzív becslését a Pn = Pn−1 − γn [Pn−1 − I(Xn )] összefüggés szerint számíthatjuk, ahol I(Xn ) egy indikátor függvény I(Xn ) =
1, ha az n-edik megfigyeléskor A következett be, 0, egyébként.
Hasonló típusú – általában bonyolultabb – algoritmusok a legkülönböz˝obb skalár, vektor és mátrix alakban is kialakíthatók különböz˝o statisztikai paraméterek sztochasztikus approximációs becslésére. A várható érték sztochasztikus approximációs becslését mutatja a 9.3. ábra. Megjegyezzük, hogy a Bayes-típusú becslések és a sztochasztikus approximációs eljárások között sok hasonlóság mutatható ki, pl. beszélhetünk Bayestípusú (sztochasztikus approximációs) tanulási technikáról. Ez nem meglep˝o, hiszen mindkét módszer lényege, hogy az újabb megfigyelések alapján korrigáljuk, pontosítjuk az eddigi becsléseinket. Az eltérés inkább abban van, hogy a Bayes-féle megközelítés mindig konkrét eloszlástípusokkal dolgozik, míg a sztochasztikus approximációs eljárások nagyon gyakran – de nem mindig – függetlenek a konkrét eloszlásoktól, így „eloszlásmentes”, azaz az eloszlástól független becslési eljárásoknak is tekinthet˝ok.
122
II. A matematikai statisztika elemei
9.3. ábra. Sztochasztikus approximációs becslések illusztrálása
9.4. Intervallumbecsle ´sek: konfidencia intervallumok Eddigi becsléseink során arra szorítkoztunk, hogy az eloszlás valamilyen a paraméterét egyetlen mennyiséggel, a rendelkezésre álló mintából konstruált a ^ adattal becsüljük. A becslésnek ezt a módját pontbecslésnek nevezzük. Ez azt fejezi ki, hogy az a paraméter valódi értékét (mely nyilván a számegyenes valamely pontja) a mintából számított a ^ ponttal igyekszünk közelíteni (becsülni). Egy a ^ (X1 ,X2 ,...,Xn ) torzítatlan statisztikáról, amellyel az a paramétert becsüljük, tudni szeretnénk, hogy milyen közel esik a valódi értékhez, azaz tájékozódni szeretnénk az a ^ becslésünk megbízhatóságáról (konfidenciáról). Nos, a helyzet az, hogy ha az alapsokaságról (pl. eloszlásáról), amib˝ol a mintát vesszük, semmilyen el˝ozetes információval nem rendelkezünk, akkor általában keveset, vagy semmit sem tudunk mondani a becslés megbízhatóságáról. Ha viszont el˝ozetes méréseink, tapasztalataink vagy egyéb szóba jöhet˝o következtetések alapján rendelkezünk bizonyos a-priori információval az alapsokaságról, általában eloszlásának típusáról, úgy valószínuségelméleti ˝ megfontolások segítségével meg tudunk adni olyan ∆ hibahatárt, hogy az a ^ becslés az a paraméter valódi értékét˝ol nagy valószínuséggel ˝ ∆-nál kevesebbel térjen el. ^2 Szimbolikusan kifejezve: a minta alapján lehet˝oségünk van olyan a ^1 és a statisztikák konstruálására, melyre teljesül, hogy P(^ a1 ≤ a ≤ a ^2 ) = 1 − p, ahol p tetsz˝olegesen megválasztott pozitív szám, (egy kis értéku˝ valószínu˝ ség), amelyt˝ol nyilván az a ^1 és a ^2 statisztikák függetlenek. Ilyen módon a ^2 ] intervallummal, paramétert nem egy a ^ ponttal becsüljük, hanem egy [^ a1 , a amelybe 1−p valószínuséggel ˝ esik az a paraméter valódi értéke. A becslésnek
123
9. Statisztikai becsle ´sek
ezt a módját értjük az intervallumbecslés fogalma alatt. (Az intervallumbecsléseknek, mint becslési módszereknek a kidolgozása J. Neyman lengyel származású matematikustól ered.) ^2 ) – véletlen helyzetu˝ – intervallumot konAz ily módon értelmezett (^ a1 , a fidencia (megbízhatósági) intervallumnak, az (1 − p) · 100 (%) mennyiséget a megbízhatóság szintjének, az intervallum kezd˝o- és végpontját pedig konfidencia határoknak nevezzük. A leggyakrabban alkalmazott megbízhatósági szintek: 90%,
95%,
99% (p = 0,1, p = 0,05, p = 0,01).
A következ˝okben a négy legismertebb alapvet˝o intervallumbecslési eljárást mutatjuk be, melyek egyúttal a legjobban illusztrálják az intervallumbecslések alapgondolatát. 9.4.1. Intervallumbecsle ´sek (konfidencia intervallumok) norma ´lis N(µ,σ) eloszla ´su ´ statisztikai sokasa ´g µ va ´rhato ´e ´rte ´ke ´re, ismert σ szo ´ra ´s esete ´n
Legyen X1 ,X2 ,...,Xn egy n elemu˝ minta. Ez esetben könnyen belátható, hogy az xn − µ √ xn − µ u= √ = n σ σ/ n statisztika (valószínuségi ˝ változó) normális eloszlású, 0 várható értékkel és egységnyi szórással (N(0,1)). Ekkor viszont adott kicsiny p érték esetén meghatározható az az up szám, melyre teljesül, hogy 2 P(|u| ≤ up ) = √ 2π
u p
e−x
2
/2
dx = 1 − p.
0
Az u helyébe a fenti összefüggést helyettesítve a rendezés után a következ˝o σ σ = 1−p P xn − up √ ≤ µ ≤ xn + up √ n n egyenl˝oséget kapjuk, ami nyilván azt mutatja, hogy a σ σ xn − up √ , xn + up √ n n véletlen helyzetu˝ intervallum (1 − p) · 100%-os megbízhatósággal (1 − p valószínuséggel) ˝ lefedi az µ paramétert. Ezt nevezzük µ-re nézve egy (1−p)·100% megbízhatóságú konfidencia intervallumnak. Tehát a p = 0,05 esetben például 95%-os megbízhatósági szint mellett up = 1,96 (lásd a 9.4. ábrát). Mivel a konfidencia intervallum lefedi µ-t, ezért µ és xn maximális (abszolút) eltérése legfeljebb a konfidencia intervallum félhossza lehet, vagyis √ up σ/ n, ami nyilván 0-hoz tart, ha n → ∞.
124
II. A matematikai statisztika elemei
9.4. ábra. A konfidencia intervallumok értelmezése
9.4.2. Az el˝ o´rt ı pontossa ´gu ´ becsle ´shez szu ¨ kse ´ges mintanagysa ´g meghata ´roza ´sa
Az eltérések alapján felvet˝odik a kérdés, hogy milyen nagynak kell lennie a minta elemszámának ahhoz, hogy el˝oírt p esetén a konfidencia intervallum félhossza, vagyis a hibahatár legfeljebb ∆ legyen (amit nyilván ugyancsak a mintavev˝o határoz meg, a feladat sajátosságai alapján). Ezesetben n-re a σ up √ ≤ ∆ n egyenl˝otlenségb˝ol azt a feltételt kapjuk, hogy n ≥ u2p
σ2 , ∆2
ahol tehát n az el˝oírt ∆ hibahatárhoz (1 − p) · 100% megbízhatósági szinten szükséges mintaszám. Ismeretlen szórásnégyzet esetén a szükséges mintanagyság: n = t2p
S∗2 n , ∆2
˝ esetén a Student-eloszláshoz tartozó szám, ahol tp az (1 − p) valószínuség ∗2 vagyis P(|t| ≤ tp ) = 1 − p, az S pedig a korrigált empirikus szórásnégyzet (lásd a következ˝o pontot). Véges N elemszámú sokaság esetén is becsülhetjük az adott pontosságú becsléshez szükséges mintamennyiséget. Az 8.2.4. pontban már említettük, hogy xn várható értéke E(x), szórása közelít˝oleg n σ √ 1− . N n Ebb˝ol következik, hogy a
x − E(X) σ/ n · 1 − n/N √
valószínuségi ˝ változó közelít˝oleg standard normális eloszlású.
125
9. Statisztikai becsle ´sek
Innen könnyen kapjuk a megfelel˝o konfidencia intervallumot, ahonnan az el˝obbi meggondolás alapján: n σ 1 − ≤ ∆. up √ N n Így u2p σ2 n0 , n0 = . 1 + n0 /N ∆2 Ismeretlen alapsokasági szórás esetén használhatjuk a következ˝o közelítést a mintanagyság becslésére n≥
n≥
n0 , 1 + n0 /N
n0 =
t2p S∗2 n . ∆2
9.4.3. Intervallumbecsle ´s (konfidencia intervallum konstrukcio ´) µ-re N(µ,σ) norma ´lis eloszla ´su ´ sokasa ´g e ´s ismeretlen σ szo ´ra ´s esete ´n
Az el˝oz˝o intervallumbecsléshez képest sokkal gyakrabban fordul el˝o az az eset, mikor a statisztikai sokaság szórása ismeretlen. Ekkor az u helyett a következ˝o √ xn√ −µ n − 1 σ/ √ xn − µ n = n ∗ t= √ n−1 ∗ Sn Sn σ
statisztikát tekintjük. Mivel az els˝o hányados számlálójában egy N(0,1) elosz√ lású sokaság n − 1-szerese szerepel, a nevez˝o négyzete pedig egy n − 1 szabadságfokú χ2 eloszlást követ, továbbá a számláló és a nevez˝o függetlensége miatt t egy n − 1 szabadságfokú Student-eloszlást követ (lásd a 6.2.7. pontot). A Student-eloszlásból (gyakorlatilag táblázatból) adott p-hez tartozik egy tp szám, melyre teljesül, hogy P(|t| ≤ tp ) = Sn−1 (tp ) = 1 − p. Ez rendezés után ekvivalens a S∗ S∗ P xn − tp √n ≤ µ ≤ xn + tp √n = 1 − p n n egyenl˝oséggel, vagyis µ paraméterre egy konfidencia intervallumot konstruáltunk, melynek határai S∗2 xn ± tp √n n √ (1 − p) · 100% megbízhatósági szinten. Nyilván tp S∗n / n → 0, ha n → ∞. Megjegyezzük, hogy a p valószínuséget ˝ úgy is felfoghatjuk, hogy ha egymás után tekintünk, egymástól független n elemu˝ mintákat, és mindegyik esetben meghatározzuk a µ paraméterre jellemz˝o konfidencia intervallumot (1 − p) · 100% megbízhatósági szinten, akkor az összes eset p-ed részében µ kívül esik a megkonstruált intervallumon.
126
II. A matematikai statisztika elemei
9.4.4. Intervallumbecsle ´s ke ´t norma ´lis eloszla ´su ´ sokasa ´g va ´rhato ´e ´rte ´keinek elte ´re ´se ´re megegyez˝ o, de ismeretlen alapsokasa ´gi szo ´ra ´sok esete ´n
Tekintsük az X1 ,X2 ,...,Xn1 és a X1 ,X2 ,...,Xn 2 egymástól független normális eloszlású mintákat, µ1 és σ1 , illetve µ2 és σ2 ismeretlen paraméterekkel. Feltételezzük, hogy σ1 = σ2 . Tekintsük a következ˝o statisztikát: n1 n2 (n1 + n2 − 2) xn1 − xn 2 − (µ1 − µ2 ) , t= n1 + n2 n S2 + n S2 1 n1
2 n2
o becsahol xn1 , xn2 és S2n1 , S2 n2 az adott mintából a µ és σ paraméter megfelel˝ lései. Bebizonyítható, hogy t egy n1 + n2 − 2 szabadságfokú Student-eloszlást követ, vagyis adott p-hez tartozik egy tp , melyre teljesül, hogy P(|t| ≤ tp ) = 1 − p, tehát a
(n1 + n2 ) n1 S2n1 + n2 S2 n2 xn1 − xn2 ± tp n1 n2 (n1 + n2 − 2) határpontokkal rendelkez˝o intervallum 1 − p valószínuséggel ˝ lefedi a µ1 − µ2 különbséget. Így ez is egy konfidencia intervallumnak min˝osül µ1 − µ2 különbségére. 9.4.5. Intervallumbecsle ´s σ-ra norma ´lis eloszla ´su ´ sokasa ´g esete ´n ismert µ va ´rhato ´e ´rte ´k mellett
A 6.2.7. pontban megadott tételb˝ol indulunk ki, mely szerint a nS2n /σ2 valószínuségi ˝ változó n − 1 szabadságfokú, χ2 eloszlású. Ennek figyelembevételével olyan határokat választunk, melyekre teljesülnek az alábbi feltételek 2 2 nSn nSn p p 2 2 P > χ1−p/2 = 1 − , P < χp/2 = . 2 2 σ 2 σ 2 Ha ezt a két kritikus tartományhatárt külön-külön az n − 1 szabadságfokú eloszlás táblázata alapján határozzuk meg, akkor a fenti egyenl˝otlenségb˝ol kapjuk, hogy nS2n P χ21−p/2 ≤ ≤ χ2p/2 = 1 − p, σ ahonnan
nS2 nS2n P ≤ σ2 ≤ 2 n 2 χp/2 χ1−p/2 Tehát a
nS2n nS2n , χ2p/2 χ21−p/2
= 1 − p.
intervallum egy (1 − p) · 100% megbízhatósági szintu˝ konfidencia intervallum az ismeretlen σ2 szórásnégyzetre.
10 Statisztikai hipote ´zisek
10.1. Statisztikai felte ´teleze ´sek e ´s do ¨nte ´sek A statisztikai gyakorlatból jól ismert az a helyzet, amikor a vizsgált X valószínuségi ˝ változó sur ˝ uségfüggvénye ˝ egy adott f(x,a) függvény, de az a paraméter értékét nem ismerjük. Ekkor az el˝oz˝oekben ismertetett becslési módszerekkel nyerhetünk információt az ismeretlen paraméterr˝ol. Gyakran el˝ofordul az az eset is, amikor az a értékét már meghatároztuk, a0 -nak találtuk, és megfigyeléseink egy további szakaszában arra vagyunk kíváncsiak, hogy vajon továbbra sem változott-e meg a0 értéke, vagyis igaz-e, hogy a0 = a. Ez esetben felállíthatjuk a H0 : a0 = a; (a0 − a = 0) ún. nullhipotézist, és az X valószínuségi ˝ változóra (alapsokaságra) vonatkozó mintánk alapján ellen˝orizzük feltételezésünk helyességét. Ha H0 : a = a0 hipotézis elvetése mellett döntünk, akkor ezzel nyilvánvalóan a H1 : a = a0 ellenhipotézist vagy alternatív feltevést fogadjuk el. A gyakorlatban igen sokszor a H0 hipotézis, feltevés arra szorítkozik, hogy feltételezzük: az X és Y valószínuségi ˝ változók azonos eloszlásúak. Ha X eloszlásfüggvényét F(x)-szel, Y változóét pedig G(x)-szel jelöljük, akkor szimbolikusan a H0 : F(x) = G(x) is egy fontos hipotézisvizsgálatnak tekinthet˝o. El˝ofordulhat, hogy még az eloszlásfüggvény típusában sem vagyunk biztosak, csak sejtjük, hogy milyen típusú lehet. Ekkor a H0 feltevés abban áll, hogy a X eloszlásnak adott sur ˝ uségfüggvénye ˝ (vagy eloszlásfüggvénye) van. Ilyenkor ellen˝orizzük, hogy az X-re vonatkozó megfigyeléseink, emelyek a mintát
128
II. A matematikai statisztika elemei
alkotják, menynyire vannak összhangban a H0 hipotézissel, azaz a kapott értékek mennyire felelnek meg az f(x) sur ˝ uségfüggvénynek ˝ (vagy az F(x) eloszlásfüggvénynek). Ezen típusú hipotézisvizsgálatokat illeszkedésvizsgálatoknak nevezzük. Statisztikai hipotézisen tehát mindig egy X valószínuségi ˝ változó F(x,a) eloszlására vonatkozó valamilyen feltevést értünk. A hipotézis ellen˝orzésére szolgáló módszert, eljárást pedig „statisztikai próbának” nevezzük. A próba célja, hogy dönteni tudjunk arról: elfogadjuk-e vagy pedig elvetjük az adott feltevést. A statisztikai próbával hozott döntés azonban hibás is lehet, mégpedig kétféle módon: 1. el˝ofordulhat az az eset, amikor a próba eredménye alapján helyes feltételezést vetünk el. Ezt els˝ofajú hibának nevezzük és α = p-vel jelöljük. 2. a második hibás döntési variáció abban az esetben jön létre, ha a helytelen hipotézist a próba alapján elfogadjuk. Ezt másodfajú hibának nevezzük és β-val jelöljük. A logikailag lehetséges esetek közül helyes döntést hozunk, ha a hipotézisünk helyes és azt elfogadjuk, illetve ha a helytelen hipotézist elvetjük. A lehetséges döntési variációkat az alábbi táblázat mutatja: Hipotézis (feltevés)
A hipotézist elfogadjuk A hipotézist elvetjük
igaz
hamis
Helyes döntés
Helytelen döntés Másodfajú hiba
Helytelen döntés Els˝ofajú hiba
Helyes döntés
Az els˝o- és másodfajú hibák okozta „hatások” megközelítési módja képezi az alapját különböz˝o hipotézisvizsgálati eljárások kidolgozásának. Ezek közül mi három alapvet˝o eljárással foglalkozunk: szignifikancia vizsgálatokkal, egyszeru˝ hipotézisvizsgálattal a Neyman–Pearson kritérium szerint és a Bayestípusú próbákkal. 1. Részletesen foglalkozunk a legegyszerubb ˝ megközelítéssel, a szignifikanciavizsgálatokkal. Lényegében szinte az összes bemutatott konkrét próbát az egyszeruség ˝ kedvéért a szignifikancia vizsgálati megközelítéssel tárgyaljuk, de általában kitérünk az összetettebb megközelítési módok jelent˝oségére is. 2. A Neyman–Pearson típusú próbák elvi menetét, amely a fentiekre értelmezett els˝o- és másodfajú hibákkal kapcsolatos, a 10.3 pontban ismertetjük. A konkrét próbák megismerése után ugyanis már világosabbá válik ez a
129
10. Statisztikai hipote ´zisek
megközelítés. Továbbá foglalkozunk még a szekvenciális próbák témakörével is. 3. A legáltalánosabb, legkorszerubb, ˝ de a-priori információt is igényl˝o próbák a Bayes-típusúak. Ezek elvét a fejezet végén röviden ismertetjük egy illusztráló példa bemutatásával együtt. Megjegyezzük, hogy ha az a-priori eloszlás ismeretlen, alkalmazhatjuk még ugyanezt az eljárást a „maximum likelihood” módszerrel kombináltan is. Ha a költség-kockázati függvény ismeretlen, akkor pedig „mini-max” próbát alkalmazhatunk. Érintjük még e hipotézisvizsgálati megközelítést az általános statisztikai döntéselmélet alapgondolatát vázoló 11.5. pontban.
10.2. Szignifikancia vizsga ´latok (Parame ´teres e ´s nemparame ´teres pro ´ba ´k) A leggyakrabban az elméleti sokaság megfelel˝o paraméterekkel vagy eloszlással kifejezett „tulajdonságait” kell hipotézisként vizsgálni egy rögzített minta alapján. Ekkor legegyszerubb ˝ esetben arra törekszünk, hogy konstruáljunk egy olyan y próba statisztikát, mely az alapsokaság tulajdonságait és a minta tulajdonságait hasonlítja össze és eltérésüket vagy hányadosait képes mérni minden X1 ,X2 ,...,Xn lehetséges mintára. A H0 egyszeru˝ hipotézist adott p szignifikancia szinten elutasítjuk, ha y értéke kívül esik egy elfogadási intervallumon, melyre
P yp(1) ≤ y ≤ yp(2) = 1 − p. Az így definiált próbákat szignifikancia vizsgálatoknak nevezzük. Az említett, az els˝o- és másodfajú hibákkal kapcsolatos elméleti meggondolásokat, az u-próba során mutatjuk majd be részletesen. A következ˝okben ismertetjük a statisztikai próbák általános megoldását a szignifikancia vizsgálati megközelítés esetén. Az alapsokasággal kapcsolatban ismert információink, a hipotézis és a minta segítségével konstruálunk egy y statisztikát, melyr˝ol belátható, hogy a hipotézis fennállása esetén valamilyen konkrét eloszlást követ. Ekkor a következ˝o módon járhatunk el. A konkrét (szimmetrikus) eloszlás táblázatából adott 0 < p < 1 számhoz meghatározzuk azt az yp -t, melyre teljesül a P(|y|>yp ) = p, azaz P(|y| ≤ yp ) = 1 − p reláció. Itt p-t olyan kicsinek választjuk, hogy az |y| ≤ yp esemény valószínusége ˝ gyakorlatilag elhanyagolható legyen, vagyis lényegében gyakorlatilag biztos legyen az |y| ≤ yp
130
II. A matematikai statisztika elemei
esemény. Általában p = 0,05; 0,01; 0,001 értékeket választjuk. Ha most a konkrét mintánk segítségével meghatározzuk az y statisztikát, ami természetesen egy konkrét numerikus érték, akkor két eset lehetséges:
vagy |y|>yp , vagy |y| ≤ yp .
Az els˝o esetben olyan esemény következett be, amely a rendkívül kicsiny p valószínuségi ˝ érték miatt gyakorlatilag lehetetlennek min˝osül, és ebb˝ol az indirekt bizonyításhoz analóg módon arra következtetünk, hogy helytelen a kiinduló hipotézis. Az |y| ≤ yp esetben nincs semmi okunk a hipotézis elvetésére, mivel nincs ellentmondás a minta és a feltevésünk között. A hipotézis fennállása lényeges, szignifikáns az (1 − p) · 100 (%) szinten, ahol p a szignifikancia szintje. A szignifikancia szintjét mindig meg kell említenünk, hiszen valami lehet szignifikáns 90%-os szinten, de nem szignifikáns 95%-os szinten. Az |y|>yp tartományt szokás kritikus tartománynak nevezni. Ha az y statisztika eloszlása nem szimmetrikus, úgy a kritikus tartományt mindkét oldalon külön-külön kell megválasztani, de az alapvet˝o gondolatmenet nem különbözik az el˝oz˝oekben kifejtettekt˝ol. Ekkor a próba általános megoldása az alábbi lépésekb˝ol áll: 1. a hipotézis felállítása 2. a szignifikancia szint (p) megválasztása 3. a próba alapját képez˝o eloszlás p-hez tartozó értékének az ún. próbaértéknek a kiszámítása 4. a rögzített p függvényében a kritikus tartomány meghatározása 5. a számított és a táblázatból kivett eloszlás értékek összehasonlítása alapján döntés a hipotézis elvetésér˝ol, vagy elfogadásáról. 10.2.1. Parame ´teres pro ´ba ´k (Va ´rhato ´e ´rte ´kekkel e ´s szo ´ra ´sokkal kapcsolatos szignifikancia vizsga ´latok) Az u-pro ´ba
Feltesszük, hogy az X statisztikai sokaság normális eloszlású és ismerjük a szórás numerikus értékét. (Pl. ez az információ egy korábbi vizsgálat alapján rendelkezésünkre áll.) Feladatunk ellen˝orizni egy a statisztikai sokaság E(X) = µ várható értékére tett hipotézist, amely abban áll, hogy µ egy meghatározott µ0 számmal egyenl˝o (µ = µ0 ), vagyis H0 : E(X) = µ0 ,
D(X) = σ
131
10. Statisztikai hipote ´zisek
ún. egyszeru˝ hipotézis. Tehát a hipotézis szerint a sokaság várható értéke és a µ0 szám közötti eltérés zérus. Ilyen esetekben beszélhetünk az ún. nullhipotézisr˝ol is, illet˝oleg a kétoldalú kérdésfeltevésr˝ol. Ha X1 ,X2 ,...,Xn a rendelkezésre álló mintánk (ha ezek egymástól független valószínuségi ˝ változókként kezelhet˝ok), úgy meghatározhatjuk az xn mintaátlagot. Ekkor, ha a µ = µ0 hipotézis lehetséges, úgy az u=
x0 − µ0 √ x0 − µ0 √ = n σ σ/ n
statisztika (valószínuségi ˝ változó) nyilvánvalóan standard normális eloszlást (N(0,1)) követ. Így a standard normális eloszlás (Φ(x)) táblázatából adott 0 < p < 1 számhoz az up -t meghatározhatjuk, melyre, P(|u| ≤ up ) = 1 − p, illetve P(|u|>up ) = p fennáll. Ha most egy konkrét n elemu˝ mintánk van, akkor xn mintaátlagot az u formulájába behelyettesítve u-ra egy konkrét számértéket kapunk. Ha |u|>up , akkor olyan esemény következett be, amelyet gyakorlatilag lehetetlennek becsültünk, és ebb˝ol az indirekt bizonyítás alapján arra következtethetünk, hogy helytelen a hipotézisünk. Tehát a µ = µ0 hipotézist el kell vetnünk, és meg kell állapítanunk, hogy a µ−µ0 eltérés szignifikáns az (1−p)·100%-os szinten. Az |u| ≤ up fennállása esetén nincs okunk a hipotézis elvetésére, ugyanis nincs ellentmondás a konkrét minta és az adott feltevés, hipotézis között. Ha a hipotézist elvetjük, természetesen – mivel sztochasztikus esetr˝ol van szó – el˝ofordulhat, hogy tévedünk. Mivel P(|u|>up ) = p, a próbát egymástól függetlenül igen sokszor elvégezve, minden 100 próba közül 100 − p esetben forog fenn a tévedés lehet˝osége. Ha az |u| ≤ up , vagyis mikor a hipotézist nem vetjük el, a hipotézis feltétel nélküli elfogadására nincs elég alapunk, mivel az |u| ≤ up , illetve az ennek megfelel˝o σ σ µ0 − up √ ≤ xn ≤ µ0 + up √ n n esemény nagy valószínuséggel ˝ bekövetkezhet, ha µ = µ0 , de a µ − µ0 érték kicsiny. Annak valószínusége, ˝ hogy a fenti egyenl˝otlenség teljesüljön √ µ0 − µ √ µ0 − µ Φ + up − Φ − up . n n σ σ
132
II. A matematikai statisztika elemei
Ez egyúttal annak a valószínusége, ˝ hogy tévedünk, ha az |u| ≤ up esetben elfogadjuk a hipotézist, vagyis az u-próba esetén ez a másodfajú hiba elkövetésének valószínusége. ˝ ˝ 0-hoz tart, ha n → ∞. Ha µ0 > µ vagy ha µ0 < µ, akkor a fenti valószínuség Nagy minta elemszám esetén tehát |u| ≤ up esetben van indokunk a hipotézis elfogadására, mert a tévedés valószínusége ˝ igen kicsiny. Mint már említettük, kétféle hibát követhetünk el. Ha elvetjük a hipotézist, pedig helyes, akkor els˝ofajú hibát követünk el, ennek a valószínusége ˝ teljesen nyilvánvalóan p. Ezt tetszés szerint csökkenthetjük, mivel a szignifikancia szintet magunk állapítjuk meg. A másodfajú hiba (amikor elfogadjuk a hipotézist, holott az nem igaz) valószínusége ˝ attól függ, hogy milyen alternatív hipotézis teljesül. Ha a minta elemszámának minden határon túl való növelésével (n → ∞), a másodfajú hiba minden alternatív hipotézis esetén 0-hoz tart, akkor statisztikai próbánkat konzisztensnek nevezzük. Az el˝oz˝oekben beláttuk, hogy az u-próba konzisztens. A továbbiakban tárgyalásra kerül˝o próbák is konzisztenseknek tekinthet˝ok. Az er˝ ofu ¨ggve ´ny (azaz az els˝ o- e ´s ma´sodfaju ´ hiba „megva´laszta´si ara´nya´nak” ke ´rde ´se)
˝ Láthattuk, hogy a másodfajú hiba valószínusége függ attól, milyen az alternatív (pl. H1 ) hipotézis, vagyis konkrétan az u-próbánál mekkora az µ1 várható értéke. Ekkor a következ˝o feltételes valószínuséget ˝ szokás vizsgálni: P(|u|>up |H1 ) = P(|u|>up |µ1 ) = 1 − β. ˝ – amely a másodfajú hiba kiegészít˝o eseméA P(|u|>up |µ ) valószínuséget nyének a valószínusége ˝ –, mint µ függvényét a próba er˝ofüggvényének nevezzük, és E(µ) = 1 − β-val jelöljük. Ez µ minden értékére megadja annak a feltételes valószínuségét, ˝ hogy az u-statisztika a kritikus tartományba esik, tehát hogy H0 -t elutasítjuk, bár µ a valódi várható érték. Könnyen belátható, hogy ha p terjedelmu˝ próbát alkalmazunk, akkor E(µ0 ) = p. Az u-próba esetén az
10.1. ábra. Az er˝ofüggvény
133
10. Statisztikai hipote ´zisek
er˝ofüggvényt könnyen meghatározhatjuk: √ µ0 − µ √ µ0 − µ + up + Φ − up . n n E(µ) = 1 − Φ σ σ Ezt egyébként a másodfajú hiba valószínuségét ˝ kifejez˝o képletet figyelembe véve az E(µ) = 1 − β összefüggés alapján is rögtön megkapjuk. A fenti képletben szerepl˝o E(µ) függvény alakját a 10.1. ábra mutatja. Valamely próba felhasználásakor nyilván az lenne az ideális, ha mind az els˝o-, mind a másodfajú hiba valószínusége ˝ nagyon kicsi lenne. Sajnos ilyen ideális próbák nem léteznek, azonban az er˝ofüggvények, a hipotéziseket figyelembe véve, α = p és β meghatározásához bizonyos támpontokat adnak. A t-pro ´ba
Tegyük most fel, hogy a statisztikai alapsokaság normális eloszlást követ és az általános gyakorlatnak megfelel˝oen, sem a statisztikai sokaság várható értéke (µ), sem a szórása (σ) nem ismert. Ekkor ellen˝orizni szeretnénk a µ = µ0 hipotézist ismeretlen szórás esetén, azaz szimbolikusan H0 : µ = µ 0 (ún. összetett hipotézis). Beláthatjuk, hogy a t=
√ x0 − µ0 n S∗n
statisztika, mint valószínuségi ˝ változó, amit röviden az intervallum becslésnél mutattunk be, n − 1 szabadságfokú Student-eloszlású, amelynek a sur ˝ u˝ ségfüggvényét a 10.2. ábra mutatja. A próbák általános megoldási menetének megfelel˝oen a Student eloszlás táblázatából meghatározható olyan tp , amelyre teljesül a P(|t|>tp ) = p
10.2. ábra. A Student-eloszlás sur ˝ uségfüggvénye ˝
134
II. A matematikai statisztika elemei
10.3. ábra. Kritikus tartományok a t-próba esetén
egyenl˝oség (10.3. ábra). Ha a mintából számított konkrét t érték abszolút értéke nagyobb, mint tp , úgy a H : µ = µ0 hipotézist elvetjük. Ellenkez˝o esetben, vagyis amikor |t| ≤ tp , akkor nincs ellentmondás a hipotézis és a minta között, s˝ot gyakorlatilag „eléggé” nagy mintaszám esetén a hipotézist elfogadhatjuk, mivel az elkövethet˝o hiba valószínusége ˝ – az u-próbához hasonlóan – a minta elemszám növelésével „tetsz˝olegesen” kicsivé tehet˝o. A t-pro ´ba ke ´t minta´s esetre (ke ´t va´rhato ´e ´rte ´k elte ´re ´se ´nek vizsga´lata´ra)
Legyenek X és Y normális eloszlású, független valószínuségi ˝ változók, ugyanazzal a szórással megadva σ1 = D(X) = D(Y) = σ2 . Feltesszük, hogy ez az információ valamilyen, a mintától független – ún. apriori – meggondolás alapján már rendelkezésünkre áll. A X illetve Y változóra vonatkozó mintánk legyen és
X1 ,X2 ,...,Xn1
Y1 ,Y2 ,...,Yn2
xn1 és xn2 mintaátlagokkal és Sn1 és Sn2 empirikus szórásokkal. Ekkor ellen˝orizni szeretnénk a H 0 : µ1 = µ 1 ,
illetve a µ1 − µ2 = 0
nullhipotézist. Képezzük az alábbi statisztikát: t=
xn1 − xn2 n1 S2n1 + n2 S2n2
n1 n2 (n1 + n2 − 2) . n1 + n2
(Ezt a formulát már a konfidencia intervallumok tárgyalásánál is használtuk.) Amennyiben a H0 hipotézis igaz, vagyis a két alapsokaság egyforma várható értéku, ˝ akkor belátható, hogy a t-statisztika n1 + n2 − 2 szabadságfokú
135
10. Statisztikai hipote ´zisek
Student eloszlást követ. Tehát adott kis p-hez a Student-eloszlás táblázatból n1 + n2 − 2 szabadságfok mellett határozzuk meg azt a tp -t, melyre fennáll a P(|t|>tp ) = p egyenl˝otlenség. Ekkor, ha a mintákból számított t érték abszolút értéke nagyobb mint tp (|t|>tp ), úgy a hipotézist elvetjük, míg ellenkez˝o esetben – ha |t| ≤ tp – elég nagy n1 és n2 minta elemszámok esetén elfogadhatjuk. Welch kidolgozott egy eljárást a H0 : µ1 = µ2 hipotézisre nem megegyez˝o szórások, σ1 = σ2 esetén. Ez esetben a tf =
xn1 − xn2 S2n1 /n1 + S2n2 /n2
statisztika közelít˝oleg Student-eloszlású f szabadságfokkal. Az f értékét a következ˝o összefüggéssel határozhatjuk meg: 1 1 = f n1 − 1
S2n1 /n1 2 Sn1 /n1 + S2n2 /n2
2
1 + n2 − 1
S2n2 /n2 2 Sn1 /n1 + S2n2 /n2
2 .
A próba végrehajtásának menete megegyezik az el˝oz˝o t-próbáéval. Az F-pro ´ba
Legyen X és Y normális eloszlású valószínuségi ˝ változó, amelyek várható értéke különböz˝o lehet, és legyen hipotézisünk a szórások megegyezése, azaz H0 : σ1 = σ2 , ahol σ1 = D(X)
és
σ2 = D(Y).
Jelöljük S∗2 o és S∗2 1 -tel az els˝ 2 -tel a második minta empirikus (tapasztalati) szórásnégyzetét. Miként még korábban kimondtuk, n1 − 1 ∗2 S σ21 1 n2 − 1 ∗2 S σ22 2
egy
n1 − 1, az
pedig egy
n2 − 1
˝ változó. szabadságfokú χ2 eloszlású valószínuségi Ha teljesül a hipotézis, azaz σ1 = σ2 , akkor
n2 − 1 (n1 − 1)/σ21 S∗2 S∗2 1 1
· F= = n1 − 1 (n2 − 1)/σ22 S∗2 S∗2 2 2
136
II. A matematikai statisztika elemei
10.4. ábra. Kritikus tartomány az F-próba esetén
statisztika (valószínuségi ˝ változó) egy n1 −1, n2 −1 szabadságfokú F-eloszlást követ. Az F-eloszlású valószínuségi ˝ változó értelmezése: F=
^2 /(n1 − 1) X Y^2 /(n2 − 1)
^ X
= (X21 + X22 + ··· + X2n1 )/σ21
2 )/σ22 Y^ = (Y12 + Y22 + ··· + Yn 2
^ és Y^ nyilvánvalóan χ2 eloszlású valószínuségi ahol X ˝ változók. A H1 : σ1 = σ2 ellenhipotézissel szemben kritikus tartományként p szignifikancia szinten a 10.4. ábrán látható tartományt szokás választani. A gyakorlatban úgy járunk el, hogy a nagyobb empirikus szórásnégyzetet osztjuk a kisebbel, vagyis az ∗2 ∗2 S S ∗ F = max 1∗2 , 2∗2 > 1 S2 S1 statisztikát tekintjük és F∗ értékét hasonlítjuk össze az F eloszlás táblázatából az n1 − 1 és n2 − 1 szabadságfokokhoz tartozó F1−p értékkel. A H0 : σ1 = σ2 hipotézist F∗ ≤ F1−p esetén elfogadjuk, illetve F∗ > F1−p esetben elutasítjuk. A Bartlett-pro ´ba
Ha a X(1) ,X(2) ,...,X(m) sokaságok (valószínuségi ˝ változók) normális eloszlásúak, úgy meghatározhatjuk a H0 : σ1 = σ2 = ··· = σm hipotézist is, ahol σi az i-edik sokaság szórása (i = 1,...,m), és feltesszük, hogy az egyes minták elemszáma n. ∗2 ∗2 Ha S∗2 1 ,S2 ,...,Sm az egyes sokaságok korrigált empirikus szórzásnégyzetei és ezek számtani közepe m 1 ∗2 ∗2 ^ S = S1 , m i=1
akkor a W=
∗2
2,3026 ^ −S ^∗2 , m(m − 1) lg S c
137
10. Statisztikai hipote ´zisek
ahol c = 1+
m+1 3m(n − 1)
közelít˝oleg χ2 eloszlású m−1 paraméterrel. A közelítés már megfelel˝o, ha n ≥ 4. A próba menete megegyezik az el˝oz˝oekkel. 10.2.2. Szekvencia ´lis mo ´dszer hipote ´zisvizsga ´latra
Wald Ábrahám, a magyar származású kiváló amerikai matematikus és statisztikus által kidolgozott ún. szekvenciális analízis lehet˝ové teszi, hogy a statisztikai becslések és próbák alkalmazása során lényegesen kevesebb mintaelemszámból ugyanolyan biztonsággal vonhassunk le következtetéseket, mint a legjobb rögzített mintaelemzésen alapuló eljárások esetén. Közismert, hogy a gyakorlatban az id˝o és költségek szinte mindig korlátot jelentenek a megfigyelések számának növelésével szemben, annak ellenére, hogy a módszerek általában annál pontosabbak, minél nagyobb a minta elemszáma. A szekvenciális módszert hipotézisvizsgálatok esetére mutatjuk be, abban az esetben, amikor mind a H0 nullhipotézis, mind a H1 alternatív hipotézis egyszeru˝ feltevés. Legyen f(x,a) az X változó eloszlását jellemz˝o sur ˝ uségfügg˝ vény, továbbá tekintsük a H0 : a = a0
nullhipotézist, valamint a
H1 : a = a1
alternatív hipotézist.
Az egymást követ˝o megfigyeléseket elvégezve a következ˝o döntések valamelyikét hozhatjuk: 1. A H0 hipotézist elfogadjuk. 2. A H0 hipotézist elvetjük. 3. Újabb megfigyeléseket hajtunk végre, vagyis folytatjuk az információszerzést. Az 1. és 2. döntések nyilvánvalóan végs˝o döntések. A szekvenciális módszer esetén adott az els˝ofajú p = α, illetve a másodfajú β hiba. Tekintsük a β 1−β és a Q2 = Q1 = p 1−p mennyiségeket. Esetünkben ezek a számok a számegyenest három szakaszra osztják az alábbi ábra alapján: elfogadási tartomány
indifferens tartomány | Q2
kritikus tartomány | Q1
A szekvenciális próbát az alábbiak szerint hajtjuk végre.
138
II. A matematikai statisztika elemei
Ha x1 az els˝o megfigyelés eredménye az X sokaságra nézve, meghatároz˝ uségfüggvény ˝ ismerete alapján és zuk az f(x1 ,a0 ) és az f(x1 ,a1 ) értékeket a sur képezzük a következ˝o hányadost: h1 =
f(x1 ,a1 ) . f(x1 ,a0 )
Ha pl. ismert 1 szórású normális eloszlás esetén a hipotézis H0 : E(X) = 0
és
H1 : E(X) = 1,
úgy h1 =
2 √1 e−(x1 −1) /2 2π . 2 √1 e−x1 /2 2π
Ha h1 ≥ Q1 , akkor a hipotézist elvetjük. Ha h1 ≥ Q2 , akkor a H0 feltevést elfogadjuk, mivel az elfogadási tartományba esik. Ha viszont Q1 < h1 < Q2 , akkor újabb megfigyelést végzünk, és kiszámítjuk a h2 =
f(x2 ,a1 ) f(x2 ,a0 )
hányadost, majd képezzük a h = h1 h2 mennyiséget, s ezután a döntést illet˝oen ugyanúgy járunk el, mint az el˝obb. Ha h értéke újra az „indifferens” (közömbös) tartományba esik, akkor újabb megfigyelést végzünk. Kiszámítjuk h3 -at, majd a h hányadost, melyet likelihood hányadosnak nevezünk. Ekkor a j-edik minta elemszám esetén, ha az els˝o j − 1 megfigyelés nem vezetett végs˝o döntéshez, a likelihood hányados: j
h = h1 h2 ···hj =
i=1 j
f(xi ,a1 ) . f(xi ,a0 )
i=1
Ekkor, ha h ≥ Q1 elvetjük H0 hipotézist, ha h ≤ Q2 , akkor elfogadjuk, a Q2 < h < Q1 esetén pedig újabb megfigyelést végzünk. A megfigyeléseket addig folytatjuk, míg végs˝o döntéshez nem jutunk. A próba végrehajtása alkalmával a hi szorzatok helyett ezek logaritmusával számolhatunk (azaz loghi -vel), mivel ekkor szorzás helyett összeadásra egyszerusödik ˝ a konkrét számolás. 10.2.3. A nemparame ´teres pro ´ba ´k (szignifikancia vizsga ´latokra)
Az eddigiekben ismertetett statisztikai próbákat azokban az esetekben alkalmazzuk, amikor a sokaság eloszlásának típusa (függvényalakja) ismert, és a
139
10. Statisztikai hipote ´zisek
feladat az eloszlás paramétereire vonatkozó döntések megalapozása. Ha viszont az eloszlás paramétereit illet˝oen nincs semmi információnk, csak az eloszlás típusát sejtjük, akkor hipotézisünk vizsgálatára az ún. becsléses illeszkedésvizsgálatot, ha a paraméterek ismertek, akkor az ún. tiszta illeszkedésvizsgálatot alkalmazzuk. Ezek képezik lényegében a nemparaméteres próbákat. Az illeszkedésvizsgálatokra legelterjedtebbek a Kolmogorov típusú próbák (folytonos eloszlású valószínuségi ˝ változók eloszlására), illetve az χ2 -próbák (mind diszkrét, mind folytonos eloszlású változókra). A Kolgomorov–Szmirnov tı´pusu ´ pro ´ba´k
Felvetjük a következ˝o rendkívül fontos statisztikai problémákat: 1. Egy folytonos ismeretlen eloszlású X változóra vonatkozó minta (megfigyelési adatsor) X1 ,X2 ,...,Xn származhat-e az F0 (x) eloszlású sokaságból, azaz az a nullhipotézis, hogy H0 : F(x) = F0 (x). 2. X és Y folytonos eloszlású valószínuségi ˝ változók azonos eloszlással rendelkeznek-e, tehát X1 ,X2 ,...,Xn
és
Y1 ,Y2 ,...,Yn
minták azonos eloszlásból származnak-e, azaz elfogadhatjuk-e nullhipotézisként, hogy H0 : F X = F Y . Tekintsük az els˝o esetet. Ha elkészítjük a fenti mintákból a rendezett mintát, és abból megkonstruáljuk az Fn (x) empirikus eloszlásfüggvényt (a 8.2.2. fejezet összefüggéseinek megfelel˝oen, ld. 10.5. ábra), akkor a sup
−∞ z ≈ e−2z . 2
Ha tehát a próba végrehajtása érdekében egy kicsi p valószínuséget ˝ (szignifikancia szintet) választunk, úgy ehhez egy z0 érték tartozik, melyet a e−2z0 = p 2
összefüggésb˝ol határozhatunk meg: z0
1 − lnp. 2
Ha az empirikus eloszlásokból nyert Dn mennyiség nagyobb, mint a p 1/2 1 2 · − lnp = −ln , n 2 n akkor a H0 : F X = F Y ^ n mennyihipotézist a p megbízhatósági (valószínuségi) ˝ szinten elvetjük. A D ség pontos eloszlását Gnedenko és Koroljuk határozták meg. Ezek azonban a mi gyakorlati számításaink számára nem túl fontosak, ezért eltekintünk tárgyalásuktól. Ezt az is indokolja, hogy nagyobb (n > 30) minták esetén a Kolmogorov-próba is alkalmazható, mivel lim P
n→ ∞
∞ 2 2 n^ k (−1) e−2k z (z > 0). Dn < z = K(z) = 2 k=−∞
A megadott összefüggések nem jelent˝os korrekcióval különböz˝o mintaszámok esetén is alkalmazhatók. Végül megemlítjük még az ugyancsak problémánk tárgyalására alkalmazott Wilcoxon-próbát is, melyet eltér˝o módszeru˝ apparátusa miatt nem ismertetünk.
142
II. A matematikai statisztika elemei
10.2.4. A χ2 -pro ´ba ´k Tiszta illeszkede ´svizsga´latok
Ekkor egy X statisztikai sokaság, azaz valószínuségi ˝ változó eloszlására tett hipotézisünket úgy ellen˝orizzük, hogy a lehetséges értékeit véges sok, közös elemet nem tartalmazó csoportba rendezünk. Jelölje m a csoportok számát és pi az X változó (hipotetikus) feltételezett eloszlásában annak a valószínuségét, ˝ hogy X értéke i-edik intervallumba (csoportba) esik. Továbbá jelöljük ni -vel az i-edik intervallumba es˝o mintaelemek számát, azaz az i-edik csoport gyakoriságát. Ez esetben m
pi = 1
i=1
és
m
ni = n,
i=1
ahol n a minta elemszáma. A H0 hipotézisünk alapján pi annak az eseménynek a valószínusége, ˝ melynek ni a gyakorisága, azaz E(ni /n) = pi , úgy E(ni /n) = pi =
E(ni ) , n
ahonnan E(ni ) = npi . A megfigyelt és a várható gyakoriságok közti eltérést K. Pearson nyomán a χ2 =
m 2 (ni − npi ) i=1
npi
összefüggéssel jellemezhetjük. ˝ változó) aszimptotikuBelátható, hogy a fenti χ2 statisztika (valószínuségi 2 san χ eloszlású m − 1 szabadságfokkal, azaz m (ni − npi )2 2
< x = Km−1 (x). lim P χ < x = P n→ ∞ ni pi i=1
Eléggé nagy n esetén χ2 statisztika eloszlása elég jól követi az χ2 típusú Km−1 (x) eloszlást (npi ≥ 10). A próba menete a következ˝o. Adott kis p-hez meghatározzuk az χ2p számot, melyre
p = 1 − Km−1 χ2p ≈ P χ2 > χ2p . Ha a minta alapján kapott χ2 értéke nagyobb mint χ2p , akkor a hipotézist elutasítjuk, egyébként elég nagy n-re elfogadhatjuk.
143
10. Statisztikai hipote ´zisek Becsle ´ses illeszkede ´svizsga´latok
E módszer sokkal gyakrabban fordul el˝o az alkalmazások során, mint a tiszta illeszkedésvizsgálat. Ez esetben ugyanis csak az eloszlásfüggvény típusát is˝ ismeretlen paramétert tartalmaznak, azaz merjük, és így a pi valószínuségek pi = pi (a1 ,a2 ,...,ar ). A H0 hipotézis ez esetben azt jelenti, hogy a sokaság eloszlása a hipotetikus eloszlású valamilyen a1 ,a2 ,...,ar paraméterekkel. A vizsgálat alapját a következ˝o tétel képezi: ^2 ,..., a ^r maximum likelihood becslései az a1 ,a2 ,...,ar paraméterekHa a ^1 , a nek, akkor a m 2 (ni − npi (^ a1 , a ^2 ,..., a ^r )) χ2n = npi (^ a1 , a ^2 ,..., a ^r ) i=1
statisztika, mint valószínuségi ˝ változó aszimptotikusan χ2 eloszlású m − r − 1 szabadságfokkal, azaz
lim P χ2n < x = Km−r−1 (x), és x > 0. n→ ∞
A próba végrehajtásának menete teljesen megegyezik a tiszta illeszkedésvizsgálatnál alkalmazottal. Normalita´svizsga´lat
Ha egy statisztikai vizsgálat célja az, hogy eldöntsük, vajon a vizsgált valószínuségi ˝ változónk normális eloszlású-e vagy sem, akkor ezt normalitásvizsgálatnak nevezzük. Homogenita´svizsga´lat
Ha azt szeretnénk eldönteni, hogy két vagy több minta azonos eloszlású sokaságból származik-e, akkor homogenitásvizsgálatról beszélünk. A kétváltozós esetet tekintve, és az egyszeruség ˝ kedvéért mindkét változó értékeire ugyanazt a csoportosítást alkalmazva kapjuk, hogy n1 ,n2 ,...,nr ahol
r
ni = n
i=1
és
és
m1 ,m2 ,...,mr , r
mi = m.
i=1
Bebizonyítható, hogy a χ2 = mn
r i=1
m n i 2 1 i − ni + mi m n
144
II. A matematikai statisztika elemei
10.7. ábra. A Neyman–Pearson próba illusztrálása. (1) A próbastatisztika sur ˝ uségfügg˝ ˝ uségfüggvénye ˝ a H1 vénye a H0 hipotézis teljesülése esetén; (2) a próbastatisztika sur hipotézis teljesülése esetén; (3) a téves elutasítás valószínusége; ˝ (4) a téves elfogadás ˝ (a valószínusége; ˝ (5) kritikus tartomány (H0 -ra); (6) a helyes elutasítás valószínusége próba ereje)
statisztika (valószínuségi ˝ változó) aszimptotikusan χ2 eloszlású r − 1 szabadságfokkal. Így a próba a szokott módon végrehajtható. A χ2 -próbák során szokás tárgyalni a két valószínuségi ˝ változó közötti függetlenség hipotézisére alapozott összefüggés vizsgálatot. Ezt a vizsgálatot a gyakorlati alkalmazás fontossága miatt a Statisztikai összefüggések c. 11. fejezetben végezzük el.
10.3. Hipote ´zisvizsga ´lat a Neyman–Pearson krite ´rium alapja ´n A Neyman–Pearson hipotézisvizsgálati megközelítés adott n mintanagyság és adott p szignifikancia szint (els˝ofajú hiba) mellett a következ˝o: A H0 : Y = Y0 egyszeru˝ hipotézisre és a H1 : Y = Y1 egyszeru˝ alternatív hipotézisre vonatkozó próbák közül értelmezzük, illetve keressük azt az ún. leger˝osebb próbát, melynél K kritikus tartomány megválasztásának kritériuma az, hogy a próba ereje 1 − β, a lehet˝o legnagyobb legyen. Ekkor tehát a másodfajú hiba β valószínusége ˝ a lehet˝o legkisebb lenne. A leger˝osebb próba K kritikus tartományát úgy kapjuk meg, hogy vesszük mindazon x1 ,x2 ,...,xn mintapontokat, melyre az f(x1 ,x2 ,...,xn |Y0 ) f(x1 ,x2 ,...,xn |Y1 ) „likelihood hányados” egy rögzített k∗ állandónál kisebb. A különböz˝o k∗ értékekhez tartozó legjobb kritikus tartományok szignifikancia szintjei különböz˝oek. Például, ha az alapsokaság normális eloszlású és a nullhipotézis (H0 ) az, hogy a sokaság standard normális eloszlású, azaz E(X) = 0 és D(X) = 1, míg az alternatív hipotézis (H1 ) az, hogy E(X) = µ, D(X) = 1, akkor a „likelihood
145
10. Statisztikai hipote ´zisek
hányados” a minta függetlensége miatt f(x1 ,H0 )f(x2 ,H0 )···f(xn ,H0 ) f(x1 ,x2 ,...,xn |H0 ) = f(x1 ,x2 ,...,xn |H1 ) f(x1 ,H1 )f(x2 ,H1 )···f(xn ,H1 ) √ =
−1 2
2πe
n
n k=1
x2 k
√ −1 (xk −µ)2 2 2πe k=1
µn
=e
1 n
n
xk −µ
k=1
.
A k∗ állandó megválasztásával a 10.4. pontban foglalkozunk. A próba menetét a 10.7. ábrán szemléltetjük.
10.4. Bayes-tı´pusu ´ pro ´ba ´k A Bayes-típusú próbák esetén a becsléselmélet során részletesen kifejtett átlagos kockázat minimalizálásának elvét alkalmazzuk. Vagyis legyen C(α,a) egy költség-, illetve általánosabban egy kockázati függvény, ahol α és a két értéket vehet fel, éspedig: a = 0, a nullhipotézisnek megfelel˝o esemény (tehát hipotézisünk helyes, de ezt – mint a becslésnél az a paraméter igazi értékét – nem ismerjük), illetve a = 1, valamilyen alternatív hipotézisnek megfelel˝o esemény. Jelöljük α = 0-val, illetve α = 1-gyel a döntést arról, hogy az x = (x1 ,x2 ,...,xn ) minta alapján a nulhipotézist elfogadjuk, vagy elvetjük. A feladat ez esetben az átlagos kockázat, azaz E(C(a,α)) = C(α,a)P(a,α)dadx ax
minimálását jelenti a K kritikus (elvetési) tartomány optimális megválasztásával. Itt α = (α = 1,α = 0), a = (a = 0,a = 1), továbbá kétszeres, pedig n-szeres integrál. a
x
Az átlagos kockázat fenti általános képlete esetünkben E(C(a,α)) =
= C(a = 0,α = 0)P0 f(x1 ,...,xn |a = 0 )dx1 ...dxn + ˜ K
+ C(a = 0,α = 1)(1 − P0 ) f(x1 ,...,xn |a = 0 )dx1 ...dxn +
K
+ C(a = 1,α = 0)P0 f(x1 ,...,xn |a1 )dx1 ...dxn + ˜ K
+ C(a = 1,α = 1)(1 − P0 ) f(x1 ,...,xn |a1 )dx1 ...dxn , K
146
II. A matematikai statisztika elemei
ahol P0 az a-priori (szubjektív) valószínusége ˝ annak, hogy a nullhipotézissel jelzett esemény igaz; 1 − P0 pedig nyilván az alternatív hipotézist jelent˝o ese˜ pedig az elfogadási tartomány, azaz a K halmény a-priori valószínusége, ˝ K maz komplementere. Bebizonyítható, hogy az átlagos kockázat akkor minimális, ha a nullhipotézist abban az esetben vetjük el, amikor a λ(x1 ,x2 ,...,xn ) =
f(x1 ,x2 ,...,xn | |a = 1) f(x1 ,x2 ,...,xn | |a = 0)
„likelihood hányados” meghaladja az alábbi kritikus értéket: λk = =
p0 C(a = 0,α = 0) − C(a = 0,α = 1) = 1 − p0 C(a = 1,α = 0) − C(a = 1,α = 1) p0 téves elvetés okozta költség (kockázat) . 1 − p0 téves elfogadás okozta költsg (kockázat)
Könnyen belátható, hogy tekinthetjük a két sur ˝ uségfüggvény ˝ hányadosának logaritmusát is, a fenti állítás ekkor is érvényes. (Vagyis ha logλ > logλk , akkor a nullhipotézist minimális kockázattal vethetjük el.) Tekintsük példaként a következ˝o egyszeru˝ próbát: el kell döntenünk az x1 ,x2 ,...,xn minta alapján, hogy egy normális eloszlású σ = 1 szórású statisztikai sokaság várható értékére E(x) = 0, illetve E(x) = µ hipotézis közül melyik igaz. Legyen 0,8 a szubjektív valószínusége ˝ annak, hogy a 0 és 0,2 annak, hogy µ várható érték az igazi. Tudjuk még, hogy a téves elvetés költsége kétszerese a téves elfogadás költségének. Ekkor nyilvánvaló, hogy f(x1 ,x2 ,...,xn | |a0 ) = f(x1 ,x2 ,...,xn | |a1 ) =
1
−1 2
1
−1 2
e n (2π) n
(2π)
e
n k=1
n
x2 k
,
(xk −µ)2
k=1
.
Tehát a „likelihood hányados” −
λ(x1 ,x2 ,...,xn ) = e
n k=1
x2 k+
n
(xk −µ)2
k=1
,
ahonnan lnλ(x1 ,x2 ,...,xn ) = −
n k=1
x2k +
n k=1
(xk − µ)
2
n 1 xk − µ = µn(xn − µ). = µn n
k=1
147
10. Statisztikai hipote ´zisek
Továbbá
0,8 2 P0 · (téves elvetés költsége) = = 8. (1 − P0 ) · (téves elfogadás költsége) 0,2 1
Tehát, ha µn(xn − µ) > ln8, akkor az E(x) = µ várható értéket (ellenkez˝o esetben az E(x) = 0 várható értéket) tekintjük igaznak minimális átlagos kockázattal. Láthatjuk, hogy ha az a-priori információk hiányában a téves elvetés költsége helyett az els˝ofajú hibát tekintjük, a téves elfogadás költségét pedig a másodfajú hibával helyettesítjük, akkor lényegében a Neyman–Pearson kritériumra egyszerusítettük ˝ a hipotézisvizsgálatot, amint ezt a szekvenciális hipotézisvizsgálat esetén tettük. Konkrét esetben a p és β megválasztását gyakorlati szempontok alapján a vizsgált sokaság természete és a különféle hibák okozta kár alapján végezzük el.
10.5. Szo ´ra ´selemze ´s A szóráselemzés célja és a feltételei a következ˝ok: vizsgáljuk meg bizonyos tényez˝ok hatását egy folytonos valószínuségi ˝ változóra, amikor kikötjük a fellép˝o valószínuségi ˝ változók normális eloszlását és a szórások azonosságát, a részsokaságok bizonyos mértéku˝ homogenitását. Konkrétan ilyen feladat az, amikor azt vizsgáljuk, hogy több azonos típusú szállítójármu˝ (mozdony, autóbusz stb.) két meghibásodás közötti id˝otartama (ún. üzemid˝otartam) ugyanazon érték körül ingadozik-e az adott jármuvek ˝ esetén. Ez ugyanis a feltétele, hogy az egyiken megszerzett adatokat általánosíthassuk a többi jármutípusra ˝ is. Fontos ipari példa az is, amikor több gép gyárt azonos alkatrészeket, és tudni szeretnénk, hogy ezek valamely mérete ugyanazon érték körül ingadozik-e minden gép esetén, mivel ez a feltétele annak, hogy a tételek összekeverhet˝oek legyenek a további feldolgozás során. (Példánkban tehát a folytonos valószínuségi ˝ változó a jármuvek ˝ ún. üzemid˝otartama, illetve az alkatrész mérete.) ˝ változók pl. az említett id˝otartaJelöljék az X(1) ,X(2) ,...,X(k) valószínuségi mokat az egyes jármuvekre ˝ (vagy az alkatrész méretét az egyes gépek esetén). Ha az X(1) , (rész-)sokaság várható értéke E(X(1) ) = µ1 , akkor a hipotézis a H0 : µ1 = µ2 = ··· = µk nullhipotézis vizsgálata, ahol a közös σ szórás nem ismert. (A szórások megegyezését egyébként a 10.2.1. pontban bemutatott Bartlett-próba segítségével dönthetjük el.) Vagyis végeredményben k számú várható érték összehasonlításáról van szó. Felveszünk a változók mindegyikére egy mintát, nem feltétlenül
148
II. A matematikai statisztika elemei (i)
(i)
(i)
azonos minta elemszámmal. Legyen tehát X1 ,X2 ,...,Xni az X(i) változókra vett ni nagyságú minta (i = 1,...,k), továbbá k
ni = n.
i=1
Tekintsük a mintaátlagokat i 1 (i) Xj ni
n
(i)
Xni =
,i = 1,...,k
j=1
és az összesített átlagot 1 (i) ni Xni . n k
Xn =
i=1
Bebizonyítható a következ˝o egyenl˝oség ni k
(i) Xj − Xn
2
i=1 j=1
2
ni k k (i) 2 (i) (i) Xj − Xni + ni Xni − Xn , = i=1 j=1
i=1
vagy más jelöléssel S2 = S22 + S21 . Itt S22 az ún. csoportok közötti, S21 pedig a csoportokon belüli szórásnégyzet, S pedig a teljes szórásnégyzet (variancia). Ekkor megmutatható, hogy a H0 hipotézis fennállása esetén 2
S22 E n−k továbbá a
=σ , 2
S21 k−1
S21 E k−1
= σ2 ,
S22 n−k
és
szórás jellegu˝ kifejezések függetlenek. Mivel S21 1 , k − 1 σ2
illetve
S22 1 n − k σ2
χ2 eloszlású valószínuségi ˝ változó k − 1, illetve n − k szabadságfokkal, így – természetesen H0 hipotézis teljesülése esetén – az Fk−1,n−k =
2 1 S1 k−1 σ2 2 1 S2 n−k σ2
=
n − k S21 S∗2 = 1 , k − 1 S22 S∗2 2
149
10. Statisztikai hipote ´zisek
10.1. táblázat. Szórásfelbontó táblázat Szóródásokra
Csoportok között Csoportokon belül Teljes
Négyzetösszeg
Szabadságfok
Empirikus szórásnégyzet
k−1
2 S∗2 1 = S1 /(k − 1)
n−k
2 S∗2 2 = S2 /(n − k)
n−1
–
(i) 2 ni Xn i − Xn i=1 ni k (i) 2 (i) S21 = Xj − Xn i
S22 =
S2 =
k
i=1 j=1 ni k i=1 j=1
(i)
Xj − Xn
2
hányados F-eloszlású valószínuségi ˝ változó k − 1, n − k szabadságfokkal, ahol S∗2 1 =
1 2 S k−1 1
és
S∗2 2 =
1 S2 . n−k 2
A döntéshozatal áttekinthet˝ové tétele érdekében alkalmazhatjuk az ún. szórásfelbontó táblázatot. A szóráselemzésnél alkalmazott F-próba menete a következ˝o: el˝ore kiválasztott kis p számhoz k−1, n−k szabadságfok esetén kikeressük az F-eloszlás táblázatából a megfelel˝o Fp kritikus értéket. Ha a mintából kapott fk−1,n−k érték nagyobb mint Fp (fk−1,n−k > Fp ), úgy a hipotézist elvetjük, ellenkez˝o esetben nincs ellentmondás a minta és a hipotézis között, tehát azt elfogadhatjuk. Ez a legegyszerubb ˝ ún. „klasszikus” eset a szórásanalízis módszerei közül. A szórásanalízis rendkívül sokat fejl˝odött, fontos területe a statisztikának, rengeteg, a bemutatotthoz hasonló, de többfokozatú módszerrel b˝ovült. Alapgondolat-menetük, megközelítési módjuk azonban hasonlít a bemutatott módszerhez.
10.6. A to ¨bbva ´ltozo ´s statisztikai elemze ´s tova ´bbi lehet˝ ose ´gei A faktoranalízis segítségével lehet˝oség nyílik n eredeti, egymással részben lineáris kapcsolatban lév˝o változóból álló változórendszer leírására, általában n-nél kevesebb lineárisan független származtatott változóval. Az eredeti változókat, amelyek az elemzés kiindulópontjai, változóknak, a származtatott változókat pedig faktoroknak nevezzük. A változók és a faktorok között két lényeges és egymással összefüggésben lév˝o különbség van. Az egyik számukra, a másik egymással való kapcsolatukra vonatkozik. A változók száma általában nagyobb, mint a faktorok száma, másrészt a változók közül egyesek, mondjuk az i-edik és a j-edik változók, alakulása egymástól nem független. A faktorok száma éppen azért lehet kisebb, mint a változóké, mert a változók között vannak egymástól lineárisan függ˝ok, míg a faktorok között nincse-
150
II. A matematikai statisztika elemei
nek. Ezzel a megállapítással el is jutottunk a faktorképzés lényegéhez, amely szerint a faktorok az eredeti változók lineáris függ˝oségük alapján képzett csoportjai. Egy adott változórendszer a fenti általános feltételek mellett számos különböz˝o jellegzetességgel rendelkez˝o faktorizációja állítható el˝o. A faktorizációk általában a változók és a faktorok közötti összefüggések konkrét formájára, és a faktorok el˝oállításának módjára tett feltevésekben különböznek egymástól. A faktoranalitikus eljárások közé tartozó komponensanalízisnél a célunk, hogy az eredeti, egymástól részben nem független változókból álló rendszert minél kevesebb egymástól független faktorral minél pontosabban írjuk le. Feltételezzük, hogy a változók felírhatók a következ˝o formában: z1t = a11 f1t + a12 f2t + ··· + a1p fpt + ··· + a1m fmt z2t = a21 f1t + a22 f2t + ··· + a2p fpt + ··· + a2m fmt .. . zjt = aj1 f1t + aj2 f2t + ··· + ajp fpt + ··· + ajm fmt .. . znt = an1 f1t + an2 f2t + ··· + anp fpt + ··· + anm fmt , ahol zjt =a j-edik változó t-edik mérése, zpt =a p-edik faktor t-edik értéke, ajp =a j-edik változóhoz és a p-edik faktorhoz tartozó faktorsúly. A faktorsúlyok becslésének többféle módszere ismeretes. E módszerek közös, az eredmények értelmezése szempontjából jelent˝os vonása, hogy a becslésnél az eredeti változók közötti összefüggéseket mutató korrelációs mátrixból indulnak ki. A faktorsúlyok reprezentálhatják a változók és a faktorok közötti, és meghatározzák a kés˝obbiekben ismertetett módon magukat a faktorokat is. A faktorsúlyok a változók és a faktorok egymással való kapcsolatának szorosságát mutatják. A magas faktorsúly a változóval való szoros, az alacsony változóval való laza kapcsolatra utal. Nulla, vagy közel nulla faktorsúly azt jelenti, hogy nincs kapcsolat a megfelel˝o változó és a szóban forgó faktor között. A faktoranalízis alkalmazásával széles köru˝ lehet˝oség nyílik a sokváltozós elemzésre. Egyideju˝ és id˝oben eltolt kapcsolatok egyaránt elemezhet˝ok. Az egyideju˝ kapcsolatnál a vizsgálatokban a fejl˝odést és ennek különböz˝o vonásait kifejez˝o változók összetartozó értékei egy és ugyanazon id˝opontra vonatkoznak. Id˝oben eltolt összefüggésekhez pedig úgy juthatunk, hogy a változók egy részénél késleltetést vezetünk be. A faktoranalízissel a változók közötti kölcsönös kapcsolatok tárhatók fel. A faktorsúlyokból a kapcsolat létére és er˝osségére vonatkozóan nyerhetünk információkat.
10. Statisztikai hipote ´zisek
151
A faktoranalízis el˝onye, hogy nem kell el˝ore meghatároznunk, hogy melyik az eredmény és melyek a magyarázó változók. Nem kell tehát egy ok-okozati kapcsolatot az összefüggésbe beépíteni. Ugyanakkor a komponens- és diádanalízissel is vizsgálhatók id˝oben egymásra következ˝o és kauzálisnak feltételezett kapcsolatok, oly módon, hogy a magyarázó változatokat késleltetjük. A faktoranalízist is magában foglaló általánosabb módszert (amely egyben a faktoranalízis továbbfejlesztése is) a cluster analízis. A mérnöki gyakorlatban ezek a módszerek – és más hasonló eljárások – egyel˝ore viszonylag kevésbé használatosak, inkább a közgazdasági elemzésekben és más távolabbi területeken (pszichológia, biológia stb.) alkalmazzák o˝ ket. Ennek megfelel˝oen, ezúttal csak utalásszeruen ˝ kerültek megemlítésre.
11 A statisztikai o ¨sszefu ¨ gge ´sek (korrela ´cio ´e ´s regresszio ´ analı´zis)
11.1. Sztochasztikus o ¨sszefu ¨ gge ´sek jellemze ´se Véletlen (sztochasztikus) valószínuségi ˝ változók és rendszerek elemzése során gyakran találkozunk funkcionális összefüggésekkel, amelynél egy bizonyos mennyiség egy vagy több másik mennyiség egyértelmu˝ függvényeként jelenik meg, azaz Y = f(X1 ,X2 ,...,Xn ) alakú többváltozós függvény határozza meg az X1 ,X2 ,...,Xn input változók és az Y output változó közötti kapcsolatot. Tehát X1 ,X2 ,...,Xn változók értékeinek ismeretében Y értéke egyértelmuen ˝ meghatározható. Hasonló típusú funkcionális összefüggések statisztikai sokaságok, azaz valószínuségi ˝ változók között is fennállhatnak. Így ha Y, X valószínuségi ˝ változók, úgy a funkcionális kapcsolat Y = f(X) alakú, vagyis x minden értékéhez y-nak egy (és csakis egy) értéke van hozzárendelve. Általában azonban két vagy több statisztikai sokaság, valószínuségi ˝ változó közötti kapcsolat nem ennyire „szoros”. Általánosnak tekinthet˝o az az eset, hogy X értékeinek ismeretében nem tudjuk egyértelmuen ˝ megadni Y értékét, de meg tudunk adni olyan szukebb ˝ intervallumot, ahová X ismeretében Y nagy valószínuséggel ˝ esik (11.1. (a) ábra). Tehát azokban az esetekben, amikor X értéke nem határozza meg egyértelmuen ˝ Y értékét, de X különböz˝o értékeihez Y-nak más és más valószínuségeloszlása ˝ tartozik, azt mondjuk, hogy X és Y között sztochasztikus összefüggés, véletlen kapcsolat van. A statisztikában különböz˝o módszereket dolgoztak ki a sztochasztikus öszszefüggések és kapcsolatok vizsgálatára. Ennek els˝o lépése az összefüggések szorosságát mutató ún. statisztikai függ˝oségi mér˝oszámok meghatározása, valamint ezekkel közvetlen kapcsolatban az egyik változó függvényében a másik változó becslését biztosító analitikus függvénykapcsolatok (regressziók) meghatározása.
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
153
(a)
(b) 11.1. ábra. (a) A korrelációs mez˝o és a regressziós sík; (b) a feltételes várható érték
Ezen módszerek között az elméletileg legfontosabb és a gyakorlatban (a közlekedésben is) legtöbbet alkalmazott módszer a korrelációs vizsgálat és a regressziós analízis. A következ˝okben el˝oször a legalapvet˝obb függ˝oségi mér˝oszámokat és regressziós összefüggéseket tekintjük át, majd foglalkozunk a többváltozós statisztikai elemzés kérdéseivel is.
11.2. Ke ´tva ´ltozo ´s statisztikai o ¨sszefu ¨ gge ´sek e ´s fu ¨ gg˝ ose ´gi me ´r˝ osza ´mok 11.2.1. A korrela ´cio ´s egyu ¨ tthato ´e ´s a linea ´ris regresszio ´
A klasszikus függ˝oségi mér˝oszámok egyike a korrelációs együttható (F. Galton és K. Pearson), mely a két statisztikai sokaság, valószínuségi ˝ változó – X és Y – közötti kapcsolat szorosságát méri. Elméleti képlete
ryx =
E[(X − E(X))(Y − E(Y))] D(X)D(Y)
154
II. A matematikai statisztika elemei
ahol E(X), D(X) az X, E(Y), D(Y) pedig az y valószínuségi ˝ változó várható értéke, illetve szórása. A korrelációs együttható legfontosabb tulajdonságai a következ˝ok: 1. 0 ≤ |ryx | = |rxy | ≤ 1 (a negatív értéku˝ ryx fordított kapcsolatra utal) item |rYX | = 1 akkor, és csakis akkor, ha Y = a+bX, azaz a két változó között lineáris függvényszeru˝ kapcsolat van. (Ha b > 0, akkor ryx = 1. Ha b < 0, akkor ryx = 1). 2. Ha Y és X független, akkor ryx = 0. Fordítva általában nem igaz, azaz ryx = 0-ból nem következik a két változó függetlensége. 3. Ha a két változó közötti kapcsolatot egy kétdimenziós normális eloszlás írja le, akkor ryx = 0-ból következik, hogy Y és X független valószínuségi ˝ változók. Megállapíthatjuk, hogyha a korrelációs együttható értéke 1 közelében van, akkor a két változó közötti kapcsolat szoros lineáris jellegu. ˝ Alacsonyabb értékek esetén a kapcsolat „kisebb” szorosságára következtethetünk. Normális eloszlással leírt kapcsolat esetén – a 4. pont szerint – egészen kis, a 0-hoz közel álló ryx értékek esetén a kapcsolat hiányára következtethetünk. A korrelációs együttható el˝onye: egyszeru˝ kiszámítása és felépítése. Hátrányát a 2. és 3. pont mutatja, azaz csak lineáris kapcsolat esetén lehet egyenl˝o 1-gyel. Nem lineáris kapcsolat esetén gyakran egyáltalán nem képes a két változó közötti kapcsolat szorosságának mérésére. 11.2.2. Pe ´lda ´k
1. Legyen U és V független valószínuségi ˝ változó megegyez˝o eloszlással és legyen Y = U+V, X = U−V. Megmutatható, hogy a ténylegesen létez˝o kapcsolat ellenére ryx = 0. 2. Legyen X változó szimmetrikus eloszlású. Megmutatható, hogy az Y = |X| függvényszeru˝ kapcsolat ellenére ryx = 0. 3. Ha X standard normális eloszlású és Y = aX2 , ahol a tetsz˝oleges konstans, akkor a kvadratikus függvénykapcsolat ellenére ryx = 0. Megjegyezzük, hogyha az X és Y valószínuségi ˝ változókat standardizáljuk a következ˝o módon, akkor X∗ = akkor
X − E(X) D(X)
és
Y∗ =
Y − E(Y) D(Y)
ryx = E(X∗ ,Y ∗ ).
A korrelációs együttható és a lineáris kapcsolat közötti összefüggés alapján felvet˝odik a kérdés, hogyan becsülhetjük az egyik változó lineáris függvénye-
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
155
ként a másik változót. Tehát keressük azt az yr = a + bx lineáris függvényt, melyre a becslés négyzetes középhibája minimális, azaz 2
2
E(Y − Yr ) = min E(Y − a − bX) . a,b
A minimalizálást biztosító a, b paramétert a ∂ 2 E(Y − a − bX) = 0, ∂a ∂ 2 E(Y − a − bX) = 0 ∂b egyenletek megoldásaként kaphatjuk: b0 = ryx
D(Y) , D(X)
a0 = E(Y) − ryx
D(Y) E(X). D(X)
Így a legjobb lineáris becslést az Yr∗ = E(Y) + ryx
D(Y) (X − E(X)) D(X)
kifejezés adja, melyet lineáris regressziós egyenletnek nevezünk. Standardizált változatban a fenti összefüggés az alábbi alakot ölti Yr∗ = ryx X∗ , vagyis mindkét összefüggésb˝ol látható a lineáris regressziós becslések és a lineáris statisztikus kapcsolatok szorosságát mér˝o korrelációs együttható, mint függ˝oségi mér˝oszám kapcsolata. A korrelációs együttható felírható még az 2 min E(Y − aX − b) a,b |ryx | = 1 − D2 (Y) és a r2yx =
D2 (a0 + b0 X) D2 (Y)
összefüggéssel is. Érdekes összefüggést mutat még az ryz ≤ ryx
156
II. A matematikai statisztika elemei
kapcsolat, ahol Z = aX+b tetsz˝oleges lineáris függvény. Nyilván a fenti egyenl˝otlenség is az yr becslés optimális tulajdonságával kapcsolatos. A lineáris függ˝oség fokát jellemezhetjük még a Csebisev egyenl˝otlenséggel a következ˝o formában P(|Yr − E(Y)| ≥ D(Y)) ≤ r2yx . Gyakran csak a korrelációs együttható számlálóját használjuk a számításaink során, amit kovarianciának nevezünk: Kyx = E[(Y − E(Y))(X − E(X))]. 11.2.3. A korrela ´cio ´s egyu ¨ tthato ´e ´s a linea ´ris regresszio ´ becsle ´se
Ha az X és Y statisztikai sokaságra nagyszámú egyideju˝ megfigyelést végzünk, és így rendelkezünk egy X1 ,X2 ,...,Xn , illetve Y1 ,Y2 ,...,Yn mintával, akkor a korrelációs együtthatót az elméleti képlet alapján az átlag és szórás már ismert kiszámításához hasonlóan becsülhetjük
^ryx =
1 n
n
n
(xi − x)(yi − y) =
i=1
σ ^yσ ^x
(xi − x)(yi − y)
i=1 n
2
(xi − x)
i=1
n
, 2
(yi − y)
i=1
ahol x és y a megfelel˝o mintaátlagok, σ ^y, σ ^ x pedig a megfelel˝o empirikus szórások. Nyilván 0 ≤ |^ryx | ≤ 1. Az ^ryx -et empirikus korrelációs együtthatónak nevezzük. Ha az (xi ,yi ), i = 1,...,n pontokat egy koordináta-rendszerben ábrázoljuk, a feladat a lineáris regresszió számításnál az, hogy megkeressük azt az Y = aX+ b egyenest, amely a nyert ponthalmazhoz a legjobban illeszkedik, a legkisebb négyzetes közép hiba értelmében, azaz meghatározzuk az a és b számokat, melyekre n 1 2 (yi − axi − b) f(a,b) = n i=1
a legkisebb, azaz minimális. Differenciálszámítás segítségével a ∂f = −2 (yi − axi − b)xi = 0, ∂a n
i=1
∂f = −2 ∂b
n
(yi − axi − b) = 0
i=1
egyenletekb˝ol határozható meg az a és b legjobb, azaz optimális becslése.
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
157
A kés˝obbi többváltozós regressziók mátrixos tárgyalása, valamint a legkisebb négyzetek becslési módszer alkalmazása miatt a feladat mátrix-vektoros megfogalmazását is közöljük. Ez a következ˝o: b yr = (I : x) a n×2 (n×1) yT = (y1 ,y2 ,...,yn ) xT = (x1 ,x2 ,...,xn ) ahol I egy (n × 1) elemb˝ol álló, csupán 1-eseket tartalmazó vektor. Ekkor az ! !T b b y − (I : x) y − (I : x) a a négyzetes középhiba differenciálása és 0-val egyenl˝ové tétele után, a 9. fejezetben bemutatott legkisebb négyzetek becslési módszere alapján −1 b y n x T T = (I : x) (I : x) (I : x) y = 2 a xy x x kifejezést kapjuk, ahonnan ugyancsak a n
a ^=
i=1
(xi − x)(yi − y)
(xi − x)
2
,
^ = y−a b ^x
becsléseket kapjuk. Innen ^rxy fogalmának figyelembevételével, egyszeru˝ átalakítás után a legjobb lineáris regressziós becslés (11.2. ábra), a következ˝o szerint y ^ r = y +^ryx
σ ^y (x − x). σ ^x
Ennek alapján, ha x = x a megfigyelt érték, akkor az y értékére ez az összefüggés adja a legjobb lineáris becslést a négyzetes középhiba kritérium alapján. Itt is igaz, hogy y ^ ∗r = ^ryx x∗ .
11.2. ábra. A lineáris regresszió illusztrálása
158
II. A matematikai statisztika elemei
Megemlítjük még a kovariancia (torzítatlan) becslését is: ^ yx = K
1 (yk − y)(xk − x). n−1 n
k=1
Felvet˝odik természetesen a kérdés, hogy adott n számú megfigyelésb˝ol számított empirikus korrelációs együttható mennyire közelíti az x és y közötti ryx elméleti korrelációs együtthatót. Ha x és y együttes eloszlása kétváltozós normális eloszlás, akkor belátható, hogy az ^ryx statisztikai függvénynek (mely nyilván valószínuségi ˝ változó) a sur ˝ uségfüggvénye: ˝ 1 n−2
n−2 du u 2 (n−1)/2 2 (n−4)/2 1−r 1−z , fn (z,r) = π 1 − rzu 1 − u2
−1 ≤ z ≤ 1,
0
ahol r az elméleti korrelációs együttható. Ekkor a becslés várható értéke
# 1 − r2 1 +O E(^rn ) = r 1 − 2n n2 "
illetve a becslés szórása a négyzetes középhiba
1 − r2 E(˜rn − r) = D (^rn ) = n 2
2
2 .
Jól látható, hogy az ^rn becslés, ha enyhe mértékben is, torzított (ha r = 0,1). Az a ^n regressziós együttható becslésére pedig az alábbi szórás értékeket kapjuk: 1/2
1 D(y) 2 E(a − a ^n ) 1 − r2 . = D(^ a) = n D(x) Az ^rn torzítása miatt, bár ez általában kis érték, felvet˝odik a kérdés, kereshetünk-e olyan becslést ^rn szórására, ami eleget tesz a torzítatlanság követelményének. Többféle megoldás lehetséges. Például konstruálhatunk egy g függvényt, amelyre E[g(^rn )] = g(r). Harley megmutatta, hogy van ilyen függvény, mégpedig pl. az E(arcsin^rn ) = arcsinr. Közvetlen módszer r torzítatlan becslésére egy hipergeometrikus függvény rn = rF
!
1 1 1 , , (n − 2), 1 − r2 , 2 2 2
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
159
ahol
p Fq (α1 ,...,αp ;ρ1 ,...,ρq ;x)
=
P Γ (αh +k) k ∞ Γ (αh ) Z h=1 k=0
q
h=1
(a)k =
Γ (ρh +k) Γ (ρh ) k!
Γ (a + k) . Γ (a)
Más hasonló torzítatlan becslések is rendelkezésre állnak, gyakorlati alkalmazásuk azonban ritka. ˝ uségfüggvénye ˝ és szórása alapján r korrelációs együtthaA megadott ^rn sur tójú intervallum becslések, azaz konfidencia intervallumok is készíthet˝ok. Ugyancsak normális eloszlás esetén belátható, hogy a √ ^rn t = n−2 1 − r2n statisztika Student-eloszlású valószínuségi ˝ változó n−2 paraméterrel (szabadság fokkal). Abban az esetben, ha y és x függetlenek, a t-statisztika értéke közel van zérushoz, így a statisztika alkalmazható a H0 : P(x < u,y < z) = P(x < u)P(y < z) függetlenségi feltevés ellen˝orzésére. Ha x, y együttes eloszlása nem normális eloszlás, akkor a sur ˝ uségfüggvény ˝ meghatározása nagyon bonyolult feladat. Általános feltételek mellett ^rn várható értékére, szórására aszimptotikusan érvényes, hogy 1 E(^rn ) = r + O n és
2 1 + r2 1 +O , E(^rn − r) = D (^rn ) = n n3/2 2
2
ahol D2 (^rn ) (aszimptotikusan) a korrelációs együtthatóra vonatkozó, az adott minta alapján történt becslés négyzetes középhibáját is mutatja. Látható, hogy ^rn az r aszimptotikusan torzítatlan becslése. R. A. Fisher bevezetett egy z=
1 1 +^rn ln n 1 − rn
statisztikai függvényt, amelyre, ha n elég nagy, akkor E(z) ≈
r 1 1+r · + 2 1 − r 2(n − 1)
160
II. A matematikai statisztika elemei
és D2 (z) =
1 . n−3
Ez elég általános feltételek mellett közelít˝oleg normális eloszlású, a fenti formulával kifejezett várható értékkel és szórással. Be lehet bizonyítani, hogyha az x és y változó közötti kapcsolat kétváltozós normális eloszlású, akkor az xn , yn , σ ^y, σ ^ n és ^rn öt elemb˝ol álló becslés maximum likelihood típusú, és az elégségesség követelményének is eleget tesz. Az rn intervallum becslése, azaz konfidencia intervallumának számítása a 1 −^rn 1 − r2n √ √ P ^rn − t < r < ^rn + t = 1−p n n formula alapján történhet, ahol p a megválasztott kicsiny valószínuség, ˝ míg a hozzátartozó t értékét meghatározhatjuk pl. egy N. David által erre a célra szerkesztett táblázatból. A korrela´cio ´s ha´nyados e ´s a felte ´teles va´rhato ´e ´rte ´k
A korrelációs hányados fogalma, az általános (nemlineáris) regresszió fogalmán, vagy a valószínuségelméletben ˝ általában feltételes várható értéknek nevezett fogalmon alapul. Az Y változó feltételes várható értékének regressziós függvényét az X változóra az
E(Y | X = x) =
∞ yf(y | X = x)dy −∞
∞ yk P(yk | x) k=−∞
összefüggéssel határozhatjuk meg, ahol diszkrét eloszlás esetén p(yk | xi ) =
P(yk ,xi ) P(xi )
a feltételes valószínuségeloszlás, ˝ míg folytonos valószínuségi ˝ eloszlás esetében f(y | x) =
f(y,x) δ2 F(y,x) = f(x) δyδx
dF(x) dx
−1 ,
ahol f(y | x) és f(y,x) a feltételes, illetve együttes sur ˝ uségfüggvény, ˝ F(y,x) pedig a kétváltozós (együttes) eloszlásfüggvény az Y és X valószínuségi ˝ változók között. Vagyis a regresszió a feltételes sur ˝ uségfüggvény ˝ várható értéke, és így függvénye x-nek. A korrelációs mez˝ot és a regressziós függvényt a 11.1. (b) ábra illusztrálja.
161
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
A regressziónál, mint (feltételes) átlag típusú fogalomnál, rögtön felvet˝odik a körülötte adódó szóródás nagyságának meghatározása. Erre szolgál a feltételes szórás fogalma:
2
∞ 2
D (Y | x) = E (Y − E(Y | x)) | x = 2
(y − E(y | x)) f(y | x)dy. −∞
Ezek, mint általánosabb fogalmak, természetesen tartalmazzák az el˝oz˝o pontban bemutatott lineáris közelítést is. Legyen ugyanis az y és x közötti kapcsolat kétváltozós normális eloszlású. Ekkor f(y | x) =
f(x,y) f(x)
=
1
2πD2 (Y) 1 − r2yx
2 D(Y) − 21 y − E(Y) − ryx D(X) (x − E(X))
exp D2 (X) 1 − r2yx
Az el˝oz˝o pont értelmezésének és jelölésének megfelel˝oen könnyen belátható, hogy ∞ D(Y) (X − E(X)) yf(y | x)dy = E(Y) − ryx E(Y | x) = D(X) −∞
és ∞
2 (y − E(Y | x)) f(y | x)dy = D2 (y | x) = D2 (Y) 1 − r2yx .
D (y | x) = 2
−∞
Vagyis a feltételes várható érték ekkor lineáris függvénye x-nek és a feltételes szórás állandó. Mivel E[E(Y | X)] = E(Y), ezért fontos információt kaphatunk még az E(Y | X) feltételes várható értéknek, mint ugyancsak valószínuségi ˝ változónak, az E(Y) körüli szóródásnak meghatározásával: 2
D2 (E(Y | x)) = E[E(Y | x) − E(Y)] ∞ 2 ∞ yf(y | x)dy − E(Y)dydx f(x)dx, = −∞
−∞
továbbá, mivel általános értelemben D(Y | X) valószínuségi ˝ változó X függvénye, ugyancsak fontos lehet˝oség az átlagos feltételes szórás meghatározására, azaz
E D2 (Y | X) =
∞
∞
∞ 2
(y − E(Y | X = x)) f(y,x)dydx.
D2 (Y | X = x)f(x)dx = −∞
−∞ −∞
162
II. A matematikai statisztika elemei
Könnyen bebizonyítható, hogy fennáll a rendkívül fontos D2 (Y) = D2 [E(Y | X)] + E D2 (Y | X) ún. szórásnégyzet felbontási tétel. Ennek értelmezése a következ˝o: A feltételes várható érték (regresszió) szórásnégyzetét jellemzi az Y véletlen (valószínu˝ ségi) változó ingadozásainak (szóródásának) azon része, melyet az X változó vált ki. Az átlagos feltételes szórás jellemzi az Y változó szórásának azon részét, mely az összes többi (általában ismeretlen) faktorral kapcsolatos (tehát kivéve az X változó hatását). Az el˝obbi értelmezésb˝ol rögtön következik, hogy a feltételes várható érték szórását felhasználjuk az Y és X változók (statisztikai sokaságok) közötti statisztikus kapcsolat szorosságának mérésére a következ˝o formában: E D2 (Y | X D2 [E(Y | X] 2 = 1− Yyx = D2 (Y) D(Y) amit korreláció hányadosnak nevezünk. Ezt a másik, klasszikusnak tekintett függ˝oségi mér˝oszámot el˝oször K. Pearson vezette be, a fenti elméleti formában pedig Kolmogorov. A korreláció hányados tulajdonságai a következ˝ok: 1. ηyx = ηxy = D[E(Y | X]/D(X), azaz nem szimmetrikus, de szimmetrikussá tehet˝o az η = max(ηyx ,ηxy ) értelmezéssel. 2. 0 ≤ ηyx ≤ 1, azaz mindig pozitív értéket vesz fel. 3. ηyx = 1, akkor és csak akkor, ha y és x között tetsz˝oleges függvényszeru˝ kapcsolat van, azaz Y = f(X), ahol f(X) tetsz˝oleges (Borel-mérhet˝o) függvény. Ezt a fontos tényt egyébként a szórásfelbontási tételb˝ol is könnyen beláthatjuk. Mivel E D2 (Y | X 2 = 1, ηyx + D2 (Y) ezért annak szükséges és elégséges feltétele, hogy η2yx = 1 2 E D2 (Y | X = E[Y − E(Y | X] = 0, vagyis ekkor a szórásfelbontási tételb˝ol következ˝oen az X egyértelmuen ˝ meghatározza Y-t, azaz Y és X valószínuségi ˝ változók között függvényszeru˝ kapcsolat van. Egyébként a fenti összefüggésb˝ol Y = E(Y | x) is következik, ami ugyancsak függvényszeru˝ kapcsolat esetén áll fenn. 4. Ha az Y és az X változók függetlenek, akkor ηyx = 0, fordítva azonban nem igaz, azaz ηyx = 0-ból nem következik, hogy az X és az Y korrelálatlanok, vagyis ryx = 0.
163
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
(a)
(b)
11.3. ábra. (a) Az empirikus regressziós függvény és lineráris közelítése; (b) a kétváltozós normális eloszlás sur ˝ uségfüggvénye ˝
5. Kétváltozós normális eloszlású (azaz lineáris) kapcsolat esetén η2yx = r2yx , azaz abszolút értéke megegyezik a korrelációs együtthatóval (11.3. ábra). 6. Általában η2yx ≥ r2yx . Ez a fontos összefüggés, ami megint jelent˝os el˝onye a korrelációs hányadosnak, tovább élesíthet˝o a Rényi–Gebelein tétellel: sup r2yf(x) = η2yx . f(x)
Az egyenl˝oség akkor és csak akkor áll fenn, ha f(X) = aE(Y | x) + b, ahol a és b tetsz˝oleges konstansok. Ez a tétel is mutatja a feltételes várható érték központi jelent˝oségu˝ szerepét. Ezt talán még plasztikusabban kifejezi a következ˝o összefüggés: ha Y változót X változó egy (most általában nemlineáris) f(X) függvényével szeretnénk közelíteni úgy, hogy a lineáris közelítéshez hasonlóan az f(X) becslés E[Y − f(X)]
2
négyzetes középhibája minimális legyen, akkor ezt az f(X) = E(Y | x) választás biztosítja. A lineáris összefüggést ennek speciális eseteként kapjuk (lásd E(y∗ | x∗ ) = ryx X∗ összefüggést). Így a korreláció hányados a korrelációs együtthatóval hasonló módon is kifejezhet˝o, azaz 2
min E(Y − f(X)) η2yx
= 1−
f(x)
D2 (Y)
és
r2yx
= 1−
min E(Y − aX − b) a,b
D2 (Y)
2
164
II. A matematikai statisztika elemei
Ezeknek az eredményeknek alapján a két minimális négyzetes középhiba különbségét értelmezhetjük a két változó közötti kapcsolat „természetes” nemlinearitási fokaként, azaz 1 2 2 min E(Y − (aX + b)) − min E(Y − f(X)) = η2yx − r2yx . D2 (Y) a,b f(x) Ezt az eredményt felhasználhatjuk a nemlinearitási fok empirikus becslésére. Pe ´lda´k
1. Tekintsük azt a példát újra, ahol X standard normális eloszlású, és beláttuk, hogy az Y = aX2 függvényszeru˝ kapcsolat esetén ryx = 0 volt. Bebizonyítható viszont, hogy ηyx = 1, vagyis a korrelációs hányados mutatja a függvényszeru˝ kapcsolatot. 2. Tekintsük azt az esetet, amikor X és Y közötti kapcsolatot kétváltozós standardizált normális eloszlás írja le r korrelációs együtthatóval. Ekkor az Y 2 és X közötti kapcsolat nyilvánvalóan nemlineáris. Ekkor az ry2 x = 0, azaz a korrelációs együttható nem képes mutatni (az esetleg – az 1-hez közel álló r érték esetén – er˝os) kapcsolatot. A korreláció hányados viszont
E Y 2 | x = 1 − r2 X2 − 1 és
2
2 = r4 E X2 − 1 = 2r4 . D2 (E(Y | x)) = E 1 − r2 X2 − 1 √ Mivel D(Y) = D(Y) = 1, így D y2 = 2, azaz Yyx = r2 . Ez jól mutatja az Y 2 és X változók közötti kapcsolat szorosságát. A regressziós görbe általánosítható többváltozós esetre is, azaz ekkor Y-nak az X1 ,X2 ,...,Xn változókra E(Y | X1 ,X2 ,...,Xn ) a többváltozós feltételes várható értéke, míg az ún. többváltozós korreláció hányados D E(Y | X1 ,X2 ,...,Xn ) , ηy|x1 ,x2 ,...,xn = D(y) amelyre ugyanazok a tulajdonságok érvényesek, mint az egyváltozós esetben. Az egyváltozós esethez hasonlóan a nemlinearitási fok η2y|x1 ,x2 ,...,xn − r2y|x1 ,x2 ,...,xn , ahol ry|x1 ,x2 ,...,xn az ún. többszörös korrelációs együttható, amelyet a 11.3. pontban értelmezünk.
165
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis) 11.2.4. A korrela ´cio ´ ha ´nyados e ´s a regresszio ´s fu ¨ ggve ´nyek becsle ´se
Legyen x1 ,x2 ,...,xn és y1 ,y2 ,...,yn két szimultán megfigyelés (minta) az x és y sta tisztikai sokaságra. Ekkor a korreláció hányadost a következ˝oképpen határozhatjuk meg: ∆1 ,∆2 ,...,∆n csoportokba rendezzük az x1 ,x2 ,...,xn megfigyeléseket, ahol ∆i+1 −∆i = ∆ az intervallumok hossza és x∗i az egyes intervallumok középértéke. Elkészíthetjük az ni = f(x∗i ) statisztikát, mely azt a számot jelenti, hogy a mintából hány elem esik a ! ∆ ∆ x∗i − , x∗i + 2 2 csoportba (intervallumba). A megfelel˝o relatív gyakoriság nyilván P(x∗i ) =
f(x∗i ) . n
Ekkor a feltételes várható érték becslését, a feltételes átlagot, a következ˝oképpen határozhatjuk meg: yn (x∗i ) =
1 1 1 yk Ix∗i (xk ) = yj Ix∗i (xj ), ∗ f(xi ) p(x∗i ) n n
n
k=1
j=1
i = 1,...,m,
ahol I az indikátorfüggvény, azaz ∆ ∗ 1, ha xk ∈ x∗i − ∆ 2 ,xi + 2 Ix∗i (xk ) = ∆ ∗ 0, ha xk ∈ / x∗i − ∆ 2 ,xi + 2 . Ekkor a korreláció hányados becslése, ha f(x∗i ) = ni és i = 1,...,m m
η ^2yx =
ni (y(x∗i ) − y)
2
i=1
n
, (yj − y)
2
j=1
illetve a szórásfelbontási tétel alapján (az evvel ekvivalens becslési formula felhasználásával) ni m 2 (yj (x∗i ) − y(x∗i )) η ^2yx = 1 −
i=1 j=1
n
, 2
(yj − y)
j=1
yj (x∗i )
x∗i
ahol az csoportba es˝o, xk megfigyeléshez tartozó yk értékek. Ez a csoportosítás miatt is, torzított becslés. Ha a csoportok számát növeljük, azaz ∆ csökken, akkor a torzítottság ugyan elvileg csökken, de egy csoportban kevesebb a mintaszám, így a becslésünk bizonytalanabb. E két ellentétes hatás figyelembevételével kell a megfelel˝o ∆-t megválasztanunk.
166
II. A matematikai statisztika elemei
Ha n → ∞ és ∆ → 0, akkor eléggé általános feltételek mellett yn (x∗ ) → E(Y | x∗ ), azaz a feltételes átlag tart a feltételes várható értékhez (elméleti regresszióhoz). Gyakrabban alkalmazzák a következ˝o, általában még „pontatlanabb” eljárást. Ekkor elkészítjük az ún. kontingencia táblát. Ez azt jelenti, hogy x változót is csoportosítjuk, és az y1 ,y2 ,...,yn mintaértékeket besoroljuk az y∗1 ,y∗2 ,..., y∗n középértékekkel megadott csoportokba. Ekkor fij jelenti annak gyakoriságát, hogy ! ∆ ∗ ∆ ∗ xk ∈ xi − ,xi + 2 2 mintaértékek esetén az x változóra yk ∈ y∗i −
∆ ∗ ∆ ,y + 2 i 2
!
mintaértékek következnek be az y változóra nézve. Így az ún. kontingencia vagy korrelációs tábla: y ∗ x❅ ❅ y1
y∗2
...
y∗j
...
y∗n
f11 f21 .. . fi1 .. . fn1
f12 f22 .. . fi2 .. . fn2
... ... .. . ... .. . ...
f1j f2j .. . fij .. . fnj
... ... .. . ... .. . ...
f1n f2n .. . fin .. . fnn
x∗1 x∗2 .. . x∗i .. . x∗n
Ezekb˝ol a gyakorisági értékekb˝ol a megfelel˝o empirikus valószínuségek ˝ (relatív gyakoriságok)
fij P˜ y∗j ,x∗i = , n
P˜ y∗j ,x∗i fij fij ˜P y∗j | x∗i = = = . ∗ ∗ P(xi ) f(xi ) ni Ekkor a feltételes várható érték becslését, a feltételes átlagot a csoportosított adatokból a kontingencia tábla szerint az y(x ˜ ∗i ) =
y∗j P y∗j | xi =
1 1 fij y∗j f(x∗i ) n m
j=1
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
167
összefüggésb˝ol határozhatjuk meg. Ezek felhasználásával a korreláció hányados becslése m
η2yx
=
ni m
2
ni (y(x ˜ i ) − y)
i=1
m
, 2
illetve
(yk − y)
k=1
η ^2yx
= 1−
2 fij (yk − y(x ˜ i )) i=1 k=1 . m 2 (yk − y) j=1
ugyanezek a kifejezések felírhatók az el˝oz˝oekben meghatározott empirikus valószínuségeloszlásokkal ˝ is, azaz pl. m
η ^2yx
=
˜ ∗i ) − y) P(x∗i )(y(x
i=1 m
j=1
2
2 . ∗ ∗ P yj yj − y
A becslés standard hibájának (négyzetes középhibának) megállapítása már a torzítottság miatt is meglehet˝osen bonyolult feladat. Bebizonyítható, hogy n elemu˝ független minta esetén
2
2 1 − η2yx 2 2 , E η ^yx − ηyx ≤ n azaz
2 1 − η2yx D Y^yx . ≤ n kis értéket vesz fel, akkor különösen megn˝o a becslési
Tehát láthatóan, ha ηyx hiba lehet˝osége. A fenti egyenl˝otlenségek lehet˝oséget adnak, hogy közelít˝o konfidencia intervallumot konstruáljunk ηyx -re. Az ηyx -re vett becslés is speciális esetekben felhasználható az x és y közötti függetlenség hipotézisének (H0 : η2yx = 0) ellen˝orzésére. Mivel ennél megbízhatóbb és sokkal gyakrabban alkalmazott függetlenség vizsgálatnak számít a kontingencia fogalmán alapuló χ2 típusú függetlenség vizsgálat (amelyet a következ˝o pontban ismertetünk), ezért tárgyalásától itt eltekintünk. (Bizonyos – nem részletezett – normalitásra vonatkozó feltételek teljesülésekor, függetlenség esetén η ^2yx n−m · 1 − Y^yx m − 1 Fm−1,n−m eloszlású valószínuségi ˝ változó, így a próba egyszeruen ˝ végrehajtható.) Sokkal fontosabb azonban a két változó közötti kapcsolat linearitására tett hipotézis, azaz H0 : η2yx = r2yx .
168
II. A matematikai statisztika elemei
Ekkor, ha x és y közötti kapcsolat teljesen lineáris és a csoportokban az eloszlás normális típusú (a csoportok száma m) bebizonyítható, hogy η ^ 2yx −^r2yx n − m · 1−η ^ 2yx m − 2 Fm−2,n−m eloszlású, azaz F eloszlású m−2 és n−m szabadságfokkal. A próba a szokásos módon hajtható végre. Belátható így a η2yx − r2yx nemlineáris mér˝oszám elméleti jelent˝osége, de az is, hogy gyakorlatban a η2yx − r2yx kiszámítás még nem elégséges, hiszen a két becslés eltérése esetén nem tudjuk, hogy az eltérés mennyire a nemlinearitás, illetve lineáris kapcsolat esetén a becslési hibaként adódó véletlen eltérés eredménye. Fontos lehet még a fenti apparátussal a homoszkedaszticitásra tett hipotézis, azaz H0 : D(Y | X) = const ellen˝orzése is, melynek tárgyalásától itt bonyolultsága miatt eltekintünk. (Lásd még a 11.4. pontban a homoszkedszaticitási kapcsolatot.) A korrela´cio ´s index
Ha nem az Y(X) empirikus görbével, hanem valamilyen jól ismert egyszeru˝ (nem lineáris) függvénnyel közelítjük az adott minta alapján az elméleti regressziót (pl. parabolikus függvények, fél-logaritmikus, logaritmikus, exponenciális, logisztikus stb. görbék), akkor a korreláció hányados helyett korrelációs indexr˝ol beszélünk. ^ Ha f(X) a megfelel˝o közelít˝o függvény, akkor a korrelációs index, Iyx elméleti képlete
I2yx
2 ^ E Y − f(X) . = 1− D2 (Y)
Empirikus becslés esetén legyen y ^ r (xi ) a közelít˝o függvénygörbe. Ekkor a korrelációs index ni m
I2yx = 1 −
Nyilván 0 ≤ Iyx ≤ 1 és Iyx ≤ ηyx .
2
(yj − y ^ r (xi ))
i=1 j=1
σ ^ 2y
.
169
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
11.2.5. A ne ´gyzetes kontingencia e ´s a fu ¨ ggetlense ´g vizsga ´lat. A maxima ´lkorrela ´cio ´ A ne ´gyzetes kontingencia
Két diszkrét valószínuségi ˝ változó (eseményrendszer) xi és yj négyzetes kontingenciáján a y2 =
r m 2 (P(yj ,xi ) − P(xi )P(yj ))
P(xi )P(yj )
i=1 j=1
=
r m 2 (P(yj ,xi )) i=1 j=1
P(xi )P(yj )
−1
mennyiséget értjük. Ennek empirikus becslése az el˝obbiekben bemutatott kontingencia tábla adataival n elemu˝ mintából, az f(xi ) = fi és f(yj ) = fj jelöléseket alkalmazva, a következ˝oképpen határozható meg: ϕ ^ 2n
=
m r 2 (fij − fi · fj ) i=1 j=1
fi · fj
m r f2ij = − 1. fi · fj i=1 j=1
Könnyen belátható, hogy 0≤
ϕ2 ≤ 1, q−1
ahol
q = min(r,m).
A fenti hányados a két változó függ˝oségi mér˝oszámának tekintend˝o, 0 akkor, és csak akkor, ha a két változó független, 1 pedig, amikor y függvénye x-nek. A kontingenciához, mint függ˝oségi mér˝oszámhoz szorosan kapcsolódnak a χ2 -próba típusú függetlenség vizsgálatok. A χ2 pro ´ba´val to ¨rte ´n˝ o tiszta fu ¨ggetlense ´g-vizsga´latok
Legyen P(yj ) és P(xi ) valószínuség ˝ eloszlás ismeretlen. Ez esetben a függetlenségvizsgálat egy tiszta függetlenségvizsgálat (lásd 10. fejezet). A hipotézis H0 : P(yj ,xi ) = P(yj )P(xi ),
i = 1,...,r, j = 1,...,m.
Tehát megalkothatjuk a χ = 2
r m 2 (fij − nP(yj )P(xi )) i=1 j=1
nP(yj )P(xi )
valószínuségi ˝ változót, amely aszimptotikusan χ2 eloszlású r · m − 1 szabadságfokkal. Ezek után a próba a szokásos módon elvégezhet˝o. ˝ a-priori ismeMegjegyezzük, hogy a P(yj ) és P(xi ) valószínuségeloszlások rete rendkívül ritka.
170
II. A matematikai statisztika elemei
Y = a + bX + cX2 + dX3
Y = a + bX + cX2
Y = a + bX
logY = a + bX + cX2
logY = a + bX
logY = a + bX + cX2 + dX3
Y = a + blogX
1 Y = a+bX 1 Y = a+bX+cX 2
logY = a + blogX
logY = a + b(logX) + c(logX)2 logY = a + b(logX) + c(logX)2 +d(logX)3
11.4. ábra. Speciális regressziós összefüggések
Becsle ´ses χ2 pro ´ba´val to ¨rte ´n˝ o fu ¨ggetlense ´gvizsga´lat
Ezesetben a P(yj ) és P(xi ) valószínuségi ˝ eloszlások ismeretlenek. Ekkor tekintjük a 2 f −f r r m m 2 fij − i n j f ij χ2 = n = n − 1 fi · fj fi · fj i=1 j=1
i=1 j=1
statisztikát, melyr˝ol bebizonyítható, hogy n → ∞ esetén aszimptotikusan χ2 eloszlású (r − 1) · (m − 1) szabadságfokkal. A próbát a szokásos módon végezhetjük el. Látható, hogy ennek a statisztikának n-edrésze éppen a négyzetes kontingencia empirikus becslése. A kontingencia alkalmazása függetlenség vizsgálatra célszerubb, ˝ mint a korrelációs együtthatóé, illetve korreláció hányadosé, mert az el˝oz˝oekkel ellentétben, elméleti értéke akkor és csak akkor egyenl˝o nullával, ha a két változó független. Így a becsléssel kapott értéke is megbízhatóbb ebb˝ol a szempontból, mint az empirikus korrelációs együttható, vagy a korreláció hánya-
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
171
dos alkalmazása függetlenségvizsgálatra, mivel, ha ezek 0-val egyenl˝ok, abból még nem következik, hogy X és Y függetlenek. A maxima´lkorrela´cio ´
Röviden megemlítjük még a maximálkorrelációt, mely egy minden igényt kielégít˝o elméleti függ˝oségi mér˝oszám. Kiszámítása sajnos rendkívül bonyolult, gyakran nem is lehetséges. Értelmezése lényegében a Rényi–Gebelein-tétel további általánosításából ered: E(u(X)v(Y)) . R(Y,X) = max u,v D(u(X))D(v(Y)) Tulajdonságai: 1. 0 ≤ R(Y,X) ≤ 1. 2. R(Y,X) = R(X,Y), vagyis szimmetrikus függ˝oségi mér˝oszám. 3. 1 akkor, és csak akkor, ha u(X) = v(Y). 4. 0 akkor, és csak akkor, ha X és Y függetlenek. 5. R(Y,X) ≥ ϕ2 (X,Y)/(q − 1) ≥ Yyx ≥ |ryx |. 6. Ha X és Y között a kapcsolatot kétváltozós normális eloszlás írja le, akkor R(Y,X) = |ryx |. Tehát elvileg a legjobb függ˝oségi mér˝oszámnak tunik, ˝ hiszen mindennél pontosabban képes a statisztikai kapcsolat szorosságát mutatni, de megismételjük, hogy inkább elméleti mutató, gyakorlati kiszámítása (becslése) általában igen nehézkes.
11.3. To ¨bbva ´ltozo ´s statisztikai kapcsolatok. A to ¨bbva ´ltozo ´s regresszio ´ 11.3.1. A to ¨bbva ´ltozo ´s regresszio ´
A kétváltozós regresszióval szemben, az alkalmazások során természetesen gyakrabban fordul el˝o az az eset, amikor egy statisztikai sokaság (valószínu˝ ségi változó) becslésekor egynél több további statisztikai sokaságra (valószínuségi ˝ változóra) támaszkodunk. Még gyakrabban fordul el˝o az az eset, amikor több változó segítségével egynél több másik valószínuségi ˝ változót akarunk becsülni. Ez esetben azonban mindegyikre külön-külön ugyanazt az eljárást alkalmazhatjuk. Így elegend˝o egy változó becslésére tárgyalni a többváltozós regressziót. ˝ változóJelölje rendre X1 ,X2 ,...,Xn a rendelkezésünkre álló valószínuségi kat. Ha Y változót akarjuk becsülni, akkor a regressziós függvény E(Y | X1 = x∗1 ,X2 = x∗2 ,...,Xm = x∗m ),
172
II. A matematikai statisztika elemei
ahol x∗1 ,x∗2 ,...,x∗m az x1 ,x2 ,...,xm változók konkrét „értékkészlete”. Mint a kétváltozós esetben, itt is fennáll, hogy a becslés négyzetes középhibájának, azaz 2
E(Y − f(X1 ,X2 ,...,Xm )) kifejezésnek a minimalizálását az
f(X1 ,X2 ,...,Xn ) = E(Y | X1 ,X2 ,...,Xn ) választás biztosítja. Ez a tény adja a többváltozós regressziós függvény kitüntetett szerepét. Sajnos azonban a gyakorlatban m nagyobb (m > 3) értéke esetén ennek kiszámítása rendkívül nagy mintát és nagy mennyiségu˝ számolást igényel, úgyhogy nem igen kerül sor a tényleges becslésre. Helyette a legtöbb esetben (ha ez lehetséges és a nemlinearitási fok nem túl nagy) a lineáris regressziós közelítést alkalmazzuk. Ezt regressziós felületnek is nevezik, és err˝ol tetsz˝oleges eloszlású valószínuségi ˝ változók esetén beszélhetünk. Ezen azt az Y = b0 + b1 X1 + ··· + bm Xm ún. hipersíkot értjük, melyben szerepl˝o b0 ,b1 ,b2 ,...,bm együtthatók minimalizálják a négyzetes középhibát kifejez˝o 2
α = E(Y − b0 − b1 X1 − ··· − bm Xm )
várható értéket. Itt az általánosságot nem korlátva feltettük, hogy E(Y) = 0 és E(Xi ) = 0. Differenciálással az ismeretlen bi együtthatókra a m 1 ∂ − bi Xi Xj = 0, j = 0,...,m α=E Y − b0 − 2 ∂bj i=1
összefüggés alapján a következ˝o egyenletrendszert kapjuk, ha D(Xj ) = σxj és D(Y) = σy , m bi rxi xj σxj , j = 0,...,m, σy ryxj = i=1
ahol általában rxi xj = ryxj =
E(Xi − E(Xi ))(Xj − E(Xj )) , σxi σxj E(Y − E(Y))(Xj − E(Xj )) , σy σxj
i,j = 0,...,m
az ún. totális vagy egyszeru˝ korrelációs együtthatók.
173
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
Mátrixos tárgyalásban az egyenletrendszer megoldásával teljesen megegyez˝oen a b0 ,b1 ,b2 ,...,bm együtthatókra megoldásként a bj = −
σy Ryxj , σxj Ry
j = 1,...,m, b0 = 0
összefüggést kapjuk, ahol Ryxi és Ry az R=
ryy rx1 y .. . rxm y
ryx1 rx1 x1 .. . rxm x1
... ... .. . ...
ryxj rx1 xj .. . rxm x1
... ... .. . ...
ryxm rx1 xm .. . rxm xm
ún. korreláció mátrix el˝ojeles aldeterminánsai. Ugyanis az el˝obbi egyenletrendszert mátrixos alakba írva, az egyszeruség ˝ kedvéért a σxi = σy = 1 esetet tekintve rx1 x1 rx1 x2 ... rx1 xm b1 ryx1 ryx2 rx2 x1 rx2 x2 ... rx2 xm b2 . , . = .. .. .. . . . . . . . . . . ryxm
rxm x1
rxm x2
...
bm
rxm xm
ahonnan b=
b1 b2 .. . bm
=
rx1 x1 rx2 x1 .. . rxm x1
rx1 x2 rx2 x2 .. . rxm x2
... ... .. . ...
rx1 xm rx2 xm .. . rxm xm
−1
ryx1 ryx2 .. . ryxm
.
Innen a mátrixinvertálási muveletek ˝ figyelembevételével kapjuk az el˝oz˝o ered ményt. Ha Y helyébe Xi -t írunk, azaz Y helyett általában Xi -t becsüljük a többiek segítségével, akkor bj helyébe bij -t kell írnunk. Tehát az Ri mátrix rx1 x1 ... rx0 xj ... rx0 xm .. .. .. .. .. . . . . . Ri = rxi x1 ... rxi xj ... rxi xm , .. .. .. .. .. . . . . . rxm x1 ... rxm xj ... rxm xm valamint bij =
σxi Rij . σxj Rii
174
II. A matematikai statisztika elemei
Vagyis ekkor a regressziós sík egyenlete y ^=
n
−
k=1
illetve x ^i =
m k=1 k=1
σy Ryxk xk , σxk Ry
−
σxi Rik xk . σxn Rii
A bj , illetve bij együtthatókat regressziós együtthatóknak nevezzük. Ha a valószínuségi ˝ változók együttes eloszlása többváltozós normális eloszlású, akkor a regressziós sík egyben a pontos E(Y | X1 ,X2 ,...,Xn ) elméleti regressziót (többváltozós feltételes várható értéket) szolgáltatja. Megmutatható, hogy a becslés elméleti négyzetes középhibája 2
E(Y − y ^ ) = σ2y
|R| . Ry
11.3.2. A parcia ´lis e ´s to ¨bbszo ¨ro ¨s korrela ´cio ´s egyu ¨ tthato ´
Az ryx , illetve rxi xj korrelációs együtthatók az Y és Xi illetve Xi és Xj valószínuségi ˝ változók teljes (totális) kapcsolata er˝osségének függ˝oségi mér˝oszámai. Ezért – mint fentebb láttuk – megkülönböztetésként totális korrelációs együtthatónak is szokás o˝ ket nevezni. A többváltozós sztochasztikus összefüggésen belül két (Y és Xi , illetve Xi és Xj ) változó közvetlen összefüggésének mérésére az ún. parciális korrelációs együttható, mint sajátos statisztikai függ˝oségi mér˝oszám szolgál. Szoros korreláció mutatkozhat az Xi hatótényez˝ok között is, pl. annak következtében, hogy alapvet˝oen pl. az Xi és Xj között csak a többi változókon keresztüli kapcsolat hatása érvényesül, egymással pedig lényegében nincsenek kölcsönös okozati összefüggésben, illetve az egymásra gyakorolt közvetlen hatások elhanyagolhatóak. A közvetlen összefüggés mérésére való a parciális korrelációs együttható. Képezzük az εi = Xi − b0 −
m j=1 j=i
bij Xj
és
εk = Xk − b0 −
m
bkj Xj
j=1 j=k
maradványokat (természetesen Xk helyett Y-t is írhatnánk), melyekr˝ol bebizonyítható, hogy az X1 ,X2 ,...,Xm változókra (Xi és Xk kivételével) korrelálatlanok, együttes normális eloszlás esetén pedig természetesen függetlenek is t˝olük, viszont εi pozitívan korrelált Xi -vel és εk pedig Xk -val. Az εi és εk mint két valószínuségi ˝ változó közötti korrelációs együtthatót az Xi és Xk közötti
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
175
parciális korrelációs együtthatónak nevezzük. Tehát ρxi xk =
E{(εi − E(εi ))(εk − E(εk ))} , D(εi )D(εk )
illetve hasonlóan értelmezhetjük ρyxk parciális korrelációs együtthatókat. Ha, nem korlátozva az általánosságot, E(xk ) = 0, k = 1,...,m, akkor m m xk − bij xj bkj xj E xi − j=1 j=i
j=1 j=k
ρxi xk = 2 2 . m m E xi − bij xi E xk − bkj xj j=1 j=i
j=1 j=k
Belátható, hogy az el˝oz˝o jelölésekkel ρx1 xk = −
Rik . Rii Rkk
A parciális korrelációs együttható többdimenziós normális eloszlás esetén kiszámítható az empirikus (páronkénti) korrelációs együtthatókból, amelyek a kétváltozós esetnek megfelel˝oen képezhet˝ok. Pl. X0 ,X1 ,X2 ,X3 (vagyis 4) változó esetén rx0 x2 − (rx0 x2 − rx0 x3 − rx2 x3 ) . ρx0 x2 = 2 2 2 (1 − rx0 x1 ) (1 − rx0 x3 ) (1 − rx2 x3 ) Az Y valószínuségi ˝ változó és becslésének az Y^ valószínuségi ˝ változónak korrelációs együtthatóját többváltozós összefüggésvizsgálatoknál célszeruen ˝ többszörös korrelációs együtthatónak nevezhetjük:
^ | X1 ,X2 ,...,Xn ) − E(Y) E(Y − E(Y)) E(Y
ry = , ^ | X1 ,X2 ,...,Xn ) D(Y)D E(Y ahol ^ | X1 ,X2 ,...,Xn ) = b0 + E(Y
m
^ j xj b
j=1
a lineáris regressziós sík. Ugyanez Xi becslésére:
^ i | X1 ,X2 ,...,Xn ) − E(Xi ) E(Xi − E(Xi )) E(X , ri = D(Xi )D(E(Xi | X1 ,X2 ,...,Xn )) ahol ^ i | X1 ,X2 ,...,Xn ) = b0 + E(X
m j=1 j=i
bij xj .
176
II. A matematikai statisztika elemei
Az ry egyben a regressziós egyenlet, mint függvénymodell illeszkedésére jellemz˝o szorosság mér˝oszáma is. Bebizonyítható, hogy R . ri = 1 − Rii Az ri akkor és csak akkor 1, ha xi = x ^i . A nemlinearitási mér˝oszám a többszörös korrelációs hányados el˝oz˝o pontbani értelmezése szerint X2yx1 ,...,xm − r2yx1 ,...,xm ,
illetve X2xi x1 ...xi−1 xx+1 ...xm − r2xi x1 ...xi−1 xi+1 ...xm .
Analóg módon készíthet˝ok el sajátos nemlineáris típusú regressziós becslések is. Pl. két valószínuségi ˝ változó között a következ˝o módon: y ^ = b0 + b1 x + b2 x2 + ... + bm xm . Az
2 E y − b0 + b1 x + b2 x2 + ... + bm xm
kifejezés minimalizálását (megfelel˝o átjelöléssel) a lineáris regresszióval teljesen analóg módon végezhetjük el. A fenti kifejezést minimalizáló y = b∗0 + b∗1 x + b∗2 x2 + ...b∗m xm m-ed fokú polinomot az y valószínuségi ˝ változó x-re vonatkoztatott m-ed fokú regressziójának (parabolikus regresszió) nevezzük. Ha m ≥ 4, akkor a szükséges számítások általában túlságosan bonyolulttá válnak, ez esetben a fenti polinom-módszer helyett az ún. ortogonális polinomok módszere alkalmazható. Ekkor y becslését, ha X normális eloszlású valószínuségi ˝ változó, elvégezhetjük az y ^=
m
ck Hk (X)
k=0
formában, ahol
k 2 d (−1) −z2 e ez √ dzk 2k k! m k
Hk (z) = √
az ún. Hermite ortogonális polinom-rendszer. Belátható, hogy 1, ha k = j, E(Hk (X)Hj (X)) = 0, ha k = j, vagyis ck -k meghatározhatók az alábbi összefüggésb˝ol: ck = E(YHk (X)).
177
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
A fenti elméleti képletek alapján végezhet˝ok el a megfelel˝o becslések is a rendelkezésre álló minták alapján. A fenti nemlineáris módszerek többváltozós esetre is kiterjeszthet˝ok. Természetesen a számítások ezekben az esetekben jelent˝osebben bonyolultabbá válnak. 11.3.3. A to ¨bbva ´ltozo ´s regresszio ´ becsle ´se
A gyakorlati számítások során a regressziós sík formulájában szerepl˝o elméleti értékek nem ismertesek, ezeket egy n elemu˝ mintából becsüljük. A megfigyeléseink eredménye ekkor legyen x1 (1) x2 (1) ... xm (1) x1 (2) x2 (2) ... xm (2) X= . .. .. .. . . . . . . x1 (n)
x2 (n)
...
xm (n)
Ennek alapján becsülhetjük a megfelel˝o elméleti értékeket, és azokat behelyettesítjük a regressziós sík megadott összefüggésébe, pl. n
^rxi xk =
(xi (j) − xi )(xk (j) − xk )
j=1 n
(xi (j) − xi )
j=1
2
n
1/2 . (xk (j) − xk )
2
j=1
^ i ), xi vagy ^ryxi , D(y), ^ Nyilvánvaló D(x y becslések meghatározása is. Tehát keressük az xi = b0 + bi1 x1 + ... + bim xm regresszióra a megfelel˝o bik értéket, melyet a legkisebb négyzetek elve, mint becslési módszer alapján a n
2
(xi (j) − b0 − bi1 x1 (j) − ··· − bim xm (j))
j=1
kifejezés minimalizálásaként kapjuk, azzal a különbséggel, hogy az egyes elméleti értékek helyébe azok empirikus becslése kerül. A gyakorlatban használatos a mátrix-vektoros felírás is. Ekkor a regressziós becslés nyilván (az el˝obbi jelölésekkel) ^ y = Xb ahol bT = (b1 ,b2 ,...,bm ) a b1 ,b2 ,...,bm paraméterek becslései. A legkisebb négyzetek becslési módszernél bemutatottak szerint a négyzetes középhiba ^ ^ T |X − Xb| E = |y − Xb|
178
II. A matematikai statisztika elemei
minimalizálásával a legkisebb négyzetek módszere szerint (ld. 9. fejezet) ∂E ^ − 2XT y, = ∇b^ E = 2XT Xb ^ ∂b így az optimális lineáris becslésre a
^ = XT X −1 XT y. b összefüggést kapjuk. A gyakorlatban ez a legtöbbször úgy vet˝odik fel, hogy egy rendszer outputja és inputja között a kapcsolatot egy (sajátos értelmezésu) ˝ y = Xb + n egyenlet írja le, ahol b ismeretlen paramétervektor (determinisztikus kapcsolat esetén), és X a rendszer megfigyelt inputja, illetve y a megfigyelt outputja, n pedig a véletlen ingadozást kifejez˝o véletlen (sztochasztikus) vektorváltozó, és legyen E(n) = 0 és E(nT n) = σ2 I, továbbá feltételezzük, hogy X és n statisz^ és ez nyilván tikailag függetlenek egymástól. Ekkor b-re a legjobb becslés a b ^ torzítatlan, mivel belátható, hogy E(b) = b. Belátható az is, hogy ebben az eset^ = (XT X)−1 , ami a Cramer–Rao-tétel szerint a lehetséges minimális ben D2 (b) szórású (négyzetes közép hibájú) becslést jelenti, azaz a becslés hatásos. ^ becslés torTehát a fenti rendszer paramétereinek meghatározását nézve b zítatlan, hatásos (természetesen konzisztens becslés is), vagyis legjobb lineáris becslést biztosítja. Az adott feladatra a b paraméterbecslést elvégezhetjük a maximum likelihood módszerrel is. Ha n többváltozós normális eloszlású vektor E(n) = 0 várható érték vektorral, és cov(n) = σ2 I kovariancia mátrixszal, akkor (a 9. fejezetben bemutatott kapcsolatok alapján) a maximum likelihood módszer eredménye teljesen megegyezik a legkisebb négyzetek módszerével. Ha b-re rendelkezünk a-priori becsléssel és becslésünk bizonytalanságát jellemz˝o kovariancia mátrixszal, akkor b-re (normális eloszlás esetén) alkalmazhatjuk a Bayes-típusú, minimális kockázatú becslést biztosító eljárást. Ha az n-re jellemz˝o a-priori becslés eloszlása normális, akkor nagy mintaszám esetén ez a becslési eredmény közelít˝oleg megegyezik a legkisebb négyzetek, illetve a maximum likelihood módszerrel kapott eredménnyel. 11.3.4. A parcia ´lis e ´s to ¨bbszo ¨ro ¨s korrela ´cio ´s egyu ¨ tthato ´k becsle ´se
Röviden ismertetjük a címben jelzett függ˝oségi mér˝oszámokkal kapcsolatos legfontosabb becslési problémákat.
179
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
A parciális korrelációs együttható becslése n elemu˝ minta esetén n m m ^ i0 − ^ l0 − ^ lj xj (k) xi (k) − b βij xj (k) xl (k) − b β k=1
ρxi xl =
n k=1
j=1 j=i
^ i0 − xi (k) − b
m
2
n
βij xj (k)
k=1
j=1 j=i
j=1 j=l
^ l0 − xl (k) − b
m j=1 j=l
2 . ^ lj xj (k) β
Ezenkívül a ρxi xl kiszámítható a −
^ il R ^ ^ ll Rii R
^ i korrelációs mátrix az Ri korrelációs mátrix becslése és értékéb˝ol, ahol az R ^ ii , R ^ ll az ehhez tartozó megfelel˝o aldeterminánsok. Ez a becslés is torzí^ il , R R tott, bár normális eloszlás esetén készíthet˝o torzítatlan becslés is. Ugyanebben az esetben a négyzetes középhiba D2 (ρxi xl ) ≈
1 1 − ρ2xi xl , n
a becsült paraméterekre pedig 1 σi ^ ij ≈ 1 − ρ2xi xj . D β n σj ^ becslését felírhatjuk a korrelációs, illetve kovariancia együtthatók segítAβ ségével is. Ha n ^ yxj = 1 K (y(k) − y)(xj (k) − xj ) n k=1
és
^ xi xj = 1 K (xi (k) − xi )(xj (k) − xj ), n n
k=1
akkor
^ i1 ^ x1 x1 ... β K .. . .. ^i = β .. = . . ^ xm x1 ... ^ im K β ^ x1 ^rx1 x1 σ . .. = ^rxm x1 σ ^ x1 ^ → b, ha n → ∞. Nyilvánvalóan b
−1 ^ x1 xm ^ yx1 K K .. .. . . ^ yxm ^ xm xm K K −1 ... rx1 xm σ ^ xm .. .. . . ... rxm xm σ ^ xm
^ ^ryx1 D(y) .. . . ^ ^ryxm1 D(y)
180
II. A matematikai statisztika elemei
A többszörös korrelációs együttható becslése n elemu˝ minta esetén a következ˝o: n m ^ ^ (y(k) − y) b0 + βj xj (k) − y ^ry =
k=1
n
2
(y(k) − y)
j=1
m
^0 + b
2 1/2 ^ j xj (k) − y β
,
j=1
j=1
k=1
m
vagy n
(xi (k) − xi ) ^ bi0 +
k=1
^rxi =
m
^ ij xj (k) − xi β
j=1 j=i
2 1/2 m m n 2 ^ ^ ij xj (k) − xi bi0 + (xi (k) − xi ) β
k=1
j=1
.
j=1 j=i
Ez a regressziós kapcsolat szorosságának empirikus mér˝oszáma. Más formában ^ |R| ^rxi = 1 − . ^ ii R Képezhet˝o még a regresszió nemlinearitásának empirikus mértéke is, az elméletileg meghatározott nemlinearitási fok alapján. A többszörös korrelációs együttható becslése ugyancsak torzított (természetesen aszimptotikusan torzítatlan), de készíthet˝ok torzítatlan típusú becslések is. A becslés négyzetes középhibájára pedig közelít˝oleg fennáll a D2 (^ry ) ≈
4r2y 1 − r2y n
összefüggés. Többváltozós esetben analóg módon konstruálhatunk hipotézisvizsgálatokat, konfidencia intervallumokat stb., az ebben a pontban bemutatott becslésekre is.
11.4. Heteroszkedasztikus statisztikai kapcsolatvizsga ´lat A kérdéskört viszonylagos bonyolultsága miatt csak röviden és egyszerusített ˝ formában tárgyaljuk. Heteroszkedasztikus sztochasztikus kapcsolatnak nevezzük azt a – két tetsz˝oleges X és Y valószínuségi ˝ változó közötti – statisztikai összefüggést, amikor Y változónak az X változóra számított feltételes szórásnégyzete D2 (Y | X) nem állandó. Ebb˝ol természetesen következik, hogy homoszkedasztikusnak nevezünk egy statisztikai kapcsolatot, amennyiben a feltételes szórásnégyzet értéke állandó, azaz D2 (Y | X) = const.
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
181
Lineáris és nemlineáris statisztikai kapcsolatok egyaránt lehetnek homoilletve heteroszkedasztikusak. Pl. ha két valószínuségi ˝ változó között a kapcsolatot egy kétváltozós normális eloszlás írja le, akkor a statisztikai jellege nyilván homoszkedasztikus, hiszen D2 (Y | X) = D2 (Y)(1 − ry2 x), ahonnan látható, hogy a feltételes szórás független az X változótól, azaz valóban állandó. Tekintsük viszont az X tetsz˝oleges valószínuségi ˝ változóra nézve a és b konstansok mellett és k csak pozitív értéket felvev˝o valószínuségi ˝ változó esetén a Y = k · aX + b + ε valószínuségi ˝ változót, ahol ε valószínuségi ˝ változó tetsz˝oleges, de független az X valószínuségi ˝ változótól. Ekkor ugyan a sztochasztikus kapcsolat lineáris, de egyúttal heteroszkedasztikus is, hiszen D2 (Y | X) = σ2 X2 = const, ahol σ a k pozitív értéku˝ valószínuségi ˝ változó szórása, vagyis mint láttuk ebben az esetben a lineáris regressziót jellemz˝o feltételes szórásnégyzet nem állandó. Hasonlóan, homoszkedasztikusnak tekinthet˝ok azok a nemlineáris sztochasztikus kapcsolatok, ahol a feltételes szórásnégyzet megadható a korreláció hányadossal D2 (Y | X) = 1 − η2Y|X D2 (Y), vagyis a feltételes szórás értéke ekkor is állandó. A fenti összefüggés a már tárgyalt szórásnégyzet felbontási tételb˝ol kapható, azaz D2 (Y) = D2 (Y | X) + η2Y|X D2 (Y). Mivel D(Y | X) = const így D2 (Y | X) = ED2 (Y | X) és η2Y|X D2 (Y) = D2 {E(Y | X)}, ahonnan a szórásnégyzet felbontási tétel D2 (Y) = D2 {E(Y | X)} + E D2 (Y | X) azonnal következik. Tekintsük a következ˝o nemlineáris statisztikai kapcsolatot Y = sin(X + ε), ahol X normális eloszlású valószínuség ˝ u˝ változó és az ε zajváltozó független az X változótól, ekkor E(Y | X) = E(sinxcosε + sinεcosx | X) = sinx Ecosε + cosx Esinε = sinx Ecosε,
182
II. A matematikai statisztika elemei
innen pedig, mivel sinε = ε −
ε 3 ε5 + ∓ ···, 3! 5!
így D2 (Y | X) = d1 sin2 x + d2 cos2 x, ahol d1 és d2 konstansokra az adódik, hogy d1 = D2 (cosε),
és
d2 = D2 (sinε).
Látható, hogy ez esetben valóban nemlineáris heteroszkedasztikus sztochasztikus kapcsolatról van szó az Y és az X valószínuségi ˝ változók között. Vagyis belátható, hogy a korrelációs hányados nem mindig min˝osül a legjobb függ˝oségi mér˝oszámnak, ellentétben a homoszkedasztikus esettel, ahol a nemlineáris függvénykapcsolatok esetén, mint a Rényi–Gebelein-tétel alapján láttuk, gyakran a legjobb függ˝oségi mér˝oszámnak tekinthet˝o. Ezért bevezethetünk egy úgynevezett általánosított korrelációs hányadost, melynek definíciója a következ˝o: ω2YX
=
1/2 D2 E(Y 2 | X) − 2cov (E(Y | X))2 ,D2 (Y | X) . D2 (Y 2 ) − 2cov[(E)Y | X))2 ,D2 (Y | X)]
Ezesetben a Rényi–Gebelein-tétel általánosítása a következ˝o formát ölti: ωYX = sup cov Y 2 ,f(X) . f
Ennek az új függ˝oségi mér˝oszámnak az általánosított, vagy heteroszkedasztikus korrelációs hányadosnak a tulajdonságai a következ˝ok: 1. 0 ≤ ωYX ≤ 1, ugyanis D2 Y 2 = E D2 (Y 2 | X + D2 E(Y 2 | X , mivel D2 [E(Y 2 | X]-re igaz, hogy D2 [E(Y 2 | X] = E[E(Y 2 | X) − EY 2 ]2 = E[(E(E | X))2 + D2 (Y | X) − EY 2 ]2 = E[E(Y | X)]2 − E(E(Y | X))2 + D2 (Y | X) − E[D2 (Y | X)]
2
= D2 [E(Y | X2 )]2 + D2 [D2 (Y | X)] + 2cov[E(Y | X)2 ,D2 (Y | X)]. A fentiekb˝ol így azt kapjuk, hogy DY 2 − 2cov[(E(Y | X))2 ,D2 (Y | X)] = ED2 (Y 2 | X) + D2 [E(Y | X)]2 + D2 [D2 (Y | X)].
183
11. A statisztikai o ¨sszefu ¨gge ´sek (korrela´cio ´e ´s regresszio ´ analı´zis)
2. Az ωYX nem szimmetrikus, azaz ωYX = ωXY . 3. Determinisztikus esetben, azaz amikor függvényszeru˝ kapcsolat van a két valószínuségi ˝ változó között, akkor ωYX = 1. 4. Ha E(Y | X) = const, akkor D2 (Y | X) = const és így ωYX = 0. 5. Ha D2 (Y | X) = const, akkor 1/2 2 2 2 D [E(Y | X)] (E(YX)) D = η˜ 2Y|x , = ω2YX = D2 (Y 2 ) D(Y 2 ) vagyis ekkor a mér˝oszám a korreláció hányadoshoz nagyon hasonló, annak mintegy kvadratikusan megfelel˝o formulájának tekinthet˝o, azaz ω2YX -t csak az E(Y | X) feltételes várható érték határozza meg. Ez alapján értelmezhetünk egy heteroszkedaszticitási mértéket is két tetsz˝oleges valószínuségi ˝ változó között az alábbi egyszeru˝ formulával γ2 = ω2YX − η˜ 2Y|x , illetve egy relatív heteroszkedaszticitási fokot a γ˜ 2 =
ω2YX − η ^ 2YX ω2YX
formula alapján, ahol 0 ≤ γ2 ≤ 1 és γ2 = 0, ha a kapcsolat homoszkedasztikus, és minél kisebb a heteroszkedaszticitás, annál nagyobb γ2 értéke. Tehát az általánosított és a „rendes” korreláció hányadosok viszonyából a fenti összefüggések alapján következtethetünk a heteroszkedaszticitás mértékére is hasonló módon a nemlinearitás mértékek (fokok) képzéséhez. 6. Ha Y és X valószínuségi ˝ változók között a kapcsolatot kétdimenziós normális eloszlás írja le és nem csökkentve az általánosságot E(Y) = 0, akkor ωYX = |rYX |, ugyanis
E(Y | x) = ryx
D2 Y (x − EX). D2 X
Innen D2 Y (X − EX)2 + (1 − r2xy )D2 Y D2 X 2 2 D Y = r4yx D2 (X − EX)2 . D2 X
!
D2 E(Y 2 | X) = D2 r2yx
7. Két független valószínuségi ˝ változó között az általánosított korreláció hányadosra igaz, hogy ωYX = 0. Természetesen amennyiben ωYX = 0, abból még a függetlenség nem következik. Jellegzetes heteroszkedasztikus kapcsolatok illusztrációit láthatjuk a 11.5– 11.10. ábrákon.
184
II. A matematikai statisztika elemei
11.5. ábra. (a) Lineáris „összefüggés” homoszkedasztikus kapcsolat esetén; (b) Nemlineáris „összefüggés” homoszkedasztikus kapcsolat esetén; (c) Heteroszkedasztikus kapcsolat lineáris regresszió esetén; (d) Heteroszkedasztikus kapcsolat nemlineáris regresszió esetén; (e) Nemlineáris rendszer lineáris modellje; (f) Nemlineáris rendszer, heteroszkedasztikus lineáris rendszerként approximálva
Irodalom
Borovkov, A. A.: Matematikai statisztika. Typotex Kiadó, Budapest, 1999. Ezekiel, M., Fox, K. A.: Korreláció és regresszió analízis. Közgazdasági és Jogi Könyvkiadó, Budapest, 1973. Jordán K.: Matematikai statisztika. Atheneum, 1927. Kádas K.: Közlekedésstatisztikai módszerek. Tankönyvkiadó, Budapest, 1973. Kendall, M., Stuart, A.: The Theory of Advanced Statistics. Ch. Griffin, Vol. I. (4th Ed.) 1977, Vol. II. (4th Ed.) 1979, Vol. III. (3rd Ed.) 1976. Köves P., Párniczky G.: Általános statisztika. Tankönyvkiadó, Budapest, 1966. ˝ Meszéna J., Ziermann M.: Valószínuségszámítás és matematikai statisztika. Közgazdasági és Jogi Könyvkiadó, Budapest, 1981. Móri T. F., Szeidl L., Zempléni A.: Matematikai statisztika példatár. ELTE Eötvös Kiadó, Budapest, 1997. Móri T. F., Székely G. (szerk.): Többváltozós statisztikai analízis. Muszaki ˝ Könyvkiadó, Budapest, 1986. ˝ Prékopa, A.: Valószínuségelmélet. Muszaki ˝ Könyvkiadó, Budapest, 1982. Rajbman, N., Kapitonenko, V., Várlaki, P.: Diszperziós rendszeridentifikáció. Nauka, Moszkva, 1981. (oroszul) Várlaki, P., Magyar, I.: Statisztika. Tankönyvkiadó, Budapest, 1981. Várlaki, P. Bevezetés a statisztikai rendszeridentifikációba. Muszaki ˝ Könyvkiadó, Budapest, 1986. Vincze I.: Matematikai statisztika ipari alkalmazásokkal. Muszaki ˝ Könyvkiadó, Budapest, 1975. Vincze I., Varbanova M.: Nemparaméteres matematikai statisztika. Elmélet és alkalmazások. Akadémiai Kiadó, Budapest, 1993. Wald, A.: Sequential Analysis. Wiley, New York, 1947. Youle, G. U., Kendall, M. G.: Bevezetés a statisztika elméletébe. Közgazdasági és Jogi Könyvkiadó, Budapest, 1964.
III. re ´sz A sztochasztikus folyamatok alapjai
12 Sztochasztikus folyamatok fogalma e ´s jellemze ´se
12.1. Sztochasztikus folyamatok a ´ltala ´nos fogalma Számos muszaki, ˝ fizikai, közgazdasági, stb. feladat esetén felmerül az a probléma, hogy a vizsgálat számára fontos és meghatározó valamilyen {Xt ,t ∈ T} mennyiségek véletlen jelleget öltenek. E mennyiségek leggyakrabban adott objektumra vonatkozó adatok id˝obeli, vagy térbeli (esetleg a kett˝o együtt) változását írják le. Ezeknek a feladatoknak a matematikai modellezése során természetes módon merül fel az a gondolat, hogy a vizsgált {Xt ,t ∈ T} mennyiségeket, mint a T paraméterhez tartozó valószínuségi ˝ változók együttesét értelmezzük, s amelyek valamilyen, egy és ugyanazon (Ω,A,P) valószínuségi ˝ mez˝on vannak értelmezve. Ha a T paraméterhalmaz része a valós számegyenesnek, akkor a {t ∈ T} halmaz felfogható id˝oparaméterként is, és ebben az ˝ változók együttesét – a valószínuségelmé˝ esetben az {Xt ,t ∈ T} valószínuségi letben megszokott módon – sztochasztikus folyamatnak szokás nevezni. Ha a T paraméterhalmaz nem rendezhet˝o nagyság szerinti sorrendbe, akkor a szokásos elnevezése sztochasztikus mez˝o. Utóbbira egyszeru˝ példaként megemlíthetjük azt az esetet, amikor az adott objektumra vonatkozó véletlen mennyiségnek a térbeli helyzetét˝ol való függését írjuk le egy adott térrészben, vagyis amikor a T paraméterhalmaz t = (t1 ,t2 ,t3 ) pontjai a háromdimenziós valós euklideszi tér valamilyen részhalmaza. További elnevezések is ismertek. Aszerint, hogy a T ⊆ R halmaz véges, vagy megszámlálhatóan végtelen, az {Xt ,t ∈ T} sztochasztikus folyamatot diszkrét ˝ míg ha a T halmaz a valós számegyenes véges, vagy végideju˝ (paraméteru), ˝ sztochasztikus folyamatnak telen részintervalluma, folytonos ideju˝ (paraméteru) nevezzük. A legfontosabb példák a diszkrét, illetve folytonos ideju˝ esetekre: T = {1,2,...,N}, {0,1,2,...}, {...,−1,0,1,...}, {a ≤ t ≤ b} (a < b), {0 ≤ t < ∞} és {−∞ < t < ∞}.
190
III. A sztochasztikus folyamatok alapjai
Az elmondottak alapján tehát sztochasztikus folyamat alatt olyan véletlen jellegu, ˝ id˝oben lejátszódó jelenségeket értünk, amelyeknek tetsz˝oleges, a T paraméterhalmazhoz tartozó id˝opontokban felvett értékei valószínuségi ˝ változók. Attól függ˝oen, hogy ezek a valószínuségi ˝ változók milyen értékeket ve˝ komplex értéku, ˝ vagy éppen többdimenziós hetnek fel, beszélhetünk valós értéku, sztochasztikus folyamatokról. Általában, ha kiegészít˝o jelz˝ot nem említünk, akkor valós értéku˝ sztochasztikus folyamatokról van szó. Egy tetsz˝oleges {Xt ,t ∈ T} folyamat realizációi (trajektóriái) alatt az adott folyamat lehetséges megvalósulásait, kimeneteleit értjük, vagyis mindazon {Xt , t ∈ T} függvényeket, melyeket egy kísérlet, vagy megfigyelés során a folyamat eredményezhet. Megjegyezzük, hogy a diszkrét ideju˝ folyamatok esetén a realizációk a folyamat által meghatározott lehetséges (véges, vagy végtelen) számsorozatokat jelentik.
12.2. Sztochasztikus folyamat ve ´gesdimenzio ´s eloszla ´sai Tetsz˝oleges {Xt ,t ∈ T} sztochasztikus folyamatot statisztikai értelemben a folyamat lehetséges végesdimenziós eloszlásai jellemzik, amely fogalom alatt azt értjük, hogy vesszük tetsz˝oleges pozitív egész n és tetsz˝oleges t1 ,t2 ,...,tn ∈ T ˝ változók mellett az Xt1 ,...,Xtb valószínuségi Ft1 ,...,tn (x1 ,...,xn ) = P(Xt1 < x1 ,...,Xtb < xn ),
x1 ,...,xn ∈ R
együttes eloszlásait. A most bevezetett együttes eloszlásfüggvények F = {Ft1 ,...,tn , t1 ,t2 ,...,tn ∈ T, n = 1,2,...}
(12.1)
családja nyilvánvalóan rendelkezik az ún. kompatibilitási feltételekkel: Tetsz˝oleges pozitív egész n és m szám, valamint t1 ,t2 ,...,tn ∈ T esetén fennáll Ft1 ,...,tn ,tn+1 ,...,tn+m (x1 ,...,xn ,+∞,...,+∞) = Ft1 ,...,tn (x1 ,...,xn ), x1 ,...,xn ∈ R,
(12.2)
Az 1,2,...,n számok tetsz˝oleges i1 ,...,in permutációjára az sj = tij , j = 1,...,n jelölés mellett fennáll Fs1 ,...,sn (xi1 ,...,xin ) = Ft1 ,...,tn (x1 ,...,xn ),
x1 ,...,xn ∈ R.
(12.3)
Ha az együttes eloszlások (12.1) összefüggéssel definiált F családja kielégíti a (12.2), (12.3) feltételeket, akkor azt mondjuk, hogy eleget tesz a kompatibilitási feltételeknek. A kompatibilitási feltételek egyben elegend˝oek is ahhoz, hogy megadott végesdimenziós eloszlásokhoz létezzen megfelel˝o folyamat. Erre vonatkozik a Kolmogorov-tétel, amely a valószínuségszámítás ˝ alaptétele:
191
12. Sztochasztikus folyamatok fogalma e ´s jellemze ´se
12.1. T ÉTEL . Legyen adva az együttes eloszlásoknak valamilyen F családja, amely eleget tesz a (12.2), (12.3) kompatibilitási feltételeknek. Ekkor létezik olyan (Ω,A,P) va˝ lószínuségi mez˝o és rajta olyan {Xt ,t ∈ T} sztochasztikus folyamat, melynek végesdimenziós eloszlásai megegyeznek F-fel. Gyakran el˝ofordul, hogy a vizsgálatokhoz teljes mértékben elegend˝o megadni a folyamat végesdimenziós eloszlásait; ebben az esetben azt mondjuk, hogy a folyamat gyenge értelemben adott és ekkor természetesen teljesen mindegy, hogy milyen valószínuségi ˝ mez˝ot képzelünk mögé. Némely esetben fontos lehet a realizációk konkrét tulajdonsága is (pl. folytonosság), mely összefügghet azzal a valószínuségi ˝ mez˝ovel, amelyen értelmezve van a folyamat. Ha adva van az (Ω,A,P) valószínuségi ˝ mez˝o és rajta az {Xt ,t ∈ T} sztochasztikus folyamat, akkor azt mondjuk, hogy a sztochasztikus folyamat er˝os értelemben adott.
12.3. Staciona ´rius folyamatok. Linea ´ris sz˝ ur˝ ok, linea ´ris el˝ orejelze ´s Az id˝oben véletlenszeruen ˝ változó {Xt ,t ∈ T} sztochasztikus folyamatok között a gyakorlat számára különös jelent˝oséggel bírnak azok, melyeknek bizonyos jellemz˝oi az id˝o folyamán egyfajta állandóságot, stacionaritást mutatnak. Ezek közül a legfontosabbak a szukebb, ˝ illetve tágabb értelemben stacionárius folyamatok. A folyamatok id˝oparamétere lehet diszkrét, vagy folytonos. Az egyszeruség ˝ kedvéért általában feltesszük, hogy diszkrét esetben az id˝oparaméter lehetséges értékei a T = {0,±1,±2,...}, míg folytonos esetben a T = (−∞,∞) halmazt alkotják. A stacionaritás fogalma egyaránt fontos egyés többdimenziós valós értéku˝ folyamatok esetén, egyes speciális feladatokban komplex értéku˝ folyamatok is szerepet játszhatnak. Többdimenziós esetben az Xt = (X1t ,...,Xkt )T , t ∈ T jelölést használjuk és ennek megfelel˝oen a folyamat értékeit oszlopvektorokként fogjuk fel. A definíciókat olyan formában adjuk meg, hogy azok egyaránt felölelik az egy- és többdimenziós eseteket is. ´ ltala 12.3.1. A ´nos fogalmak e ´s jelo ¨le ´sek
˝ 12.2. D EFINÍCIÓ . Egy {Xt ,t ∈ T} sztochasztikus folyamatot szukebb értelemben stacionáriusnak nevezünk, ha végesdimenziós eloszlásai az id˝oeltolással szemben invariánsak, azaz tetsz˝oleges pozitív egész n és minden olyan t,t1 ,t2 ,...,tn értékekre, melyekre teljesül ti ,ti + t ∈ T, i = 1,...,n, az (Xt1 ,...,Xtn ) és az (Xt1 +t ,...,Xtn +t ) ˝ valószínuségi változók együttes eloszlása megegyezik. Legyen most az egy-, vagy többdimenziós {Xt ,t ∈ T} sztochasztikus folyamat második momentuma véges minden t ∈ T-re, azaz E|Xt |2 < ∞ és jelölje a várható érték- és kovarianciafüggvényét µX (t) = EXt ,
t ∈ T,
RX (s,t) = cov(Xs ,Xt ) = E(Xs − µs )(Xt − µt )T ,
s,t ∈ T.
192
III. A sztochasztikus folyamatok alapjai
12.3. D EFINÍCIÓ . Ha az X = {Xt ,t ∈ T} sztochasztikus folyamat második momentuma véges minden t ∈ T-re és a várható érték- és kovarianciafüggvényére teljesül a) µX (t) = µX , t ∈ T, b) RX (s,t) = RX (t − s), s,t ∈ T, akkor azt mondjuk, hogy az X folyamat tágabb értelemben stacionárius, vagy röviden szólva stacionárius. A definícióban szerepl˝o RX (u) függvényt az X stacionárius folyamat kovarianciafüggvényének nevezzük. Többdimenziós stacionárius folyamatok esetén az RX (u) = (Rij (u))ki,j=1 mátrixfüggvény Rii (u) eleme az {Xit } komponensfolyamat autokorrelációs függvénye, míg az Rij (u) (i = j) elemet az {Xit } és {Xjt } komponensfolyamatok keresztkovariancia függvényének nevezzük. Megjegyezzük, hogy véges második momentummal rendelkez˝o szukebb ˝ értelemben stacionárius folyamatok mindig stacionáriusak tágabb értelemben is. Egydimenziós stacionárius folyamatokra az RX (u) kovarianciafüggvényen kívül használatos még a folyamat szórásnégyzetével normált rX (u) =
1 1 RX (u) = 2 RX (u) RX (0) σX
korrelációfüggvény. Többdimenziós esetben az k rX (u) = Rij (u)[Rii (0)Rjj (0)]−1/2
i,j=1
korrelációs mátrixfüggvényt használjuk. Az egyes elemeket az el˝oz˝oekkel analóg módon autokorreláció-, illetve keresztkorreláció függvénynek nevezzük. A legfontosabb fogalom, ami lehet˝ové teszi stacionárius folyamatok vizsgálatát a frekvenciatartományban, a spektrális eloszlás-, illetve spektrális su˝ ruségfüggvény. ˝ A stacionaritás fogalmának megadásánál a diszkrét és folytonos ideju˝ eseteket egyaránt felölel˝o definíciót adtunk meg, a különbség csak a paraméterek lehetséges halmazában mutatkozott meg. A további vizsgálatainkban a két különböz˝o esetet szét kell választani amiatt, mert a kovarianciafüggvényre, illetve a bevezetend˝o spektrum el˝oállítására az id˝oparaméter diszkrét, vagy folytonos jellege szerint – bár közös tartalommal – más el˝oállítási tételek igazak. Mi alapvet˝oen csak a diszkrét ideju˝ esettel foglalkozunk részben helyszuke ˝ miatt, részben pedig amiatt, hogy a gyakorlatban (a mintavételezési tételekre támaszkodó eljárásokat használva) általában diszkrét ideju˝ sorozatokat vizsgálunk. Legyen X diszkrét ideju˝ stacionárius folyamat, és az egyszeru˝ tárgyalás kedvéért tételezzük fel, hogy mindkét irányban végtelen paraméteru, ˝ azaz X =
12. Sztochasztikus folyamatok fogalma e ´s jellemze ´se
193
{...,X−1 ,X0 ,X1 ,...}. Ekkor a folyamat RX (k), k = 0,±1,±2,... kovarianciafüggvénye a Herglotz-tétel szerint egyértelmuen ˝ felírható az π RX (k) =
eikλ dGX (λ) −π
alakban, ahol a GX (λ) nemnegatív, monoton nemcsökken˝o, balról folytonos függvény, amelyre σ2X = RX (0) = GX (π) − GX (−π) = GX (π).
GX (−π) = 0,
A GX (λ) függvényt az X folyamat spektrális eloszlásfüggvényének nevezzük. A [−π,π] alapintervallum megválasztása nem egységes az irodalomban, ehelyett néha szokás használni az egységnyi hosszúságú [−1/2,1/2] intervallumot is. A kett˝o között természetesen elvi különbség nincs, az utóbbi esethez tartozó spektrális eloszlásfüggvény az els˝ob˝ol a változó egyszeru˝ skálatranszformációjával adódik. A kovarianciamátrix-függvény többdimenziós esetben (k ≥ 2) hasonló módon állítható el˝o, ekkor az el˝oállításban szerepl˝o GX (λ) mátrixfüggvény f˝odiagonálisában álló elemeket autospektrális eloszlásfüggvénynek, míg a többi elemet keresztspektrális eloszlásfüggvénynek nevezzük. Két fontos esetet különböztetünk meg az eloszlásfüggvényekhez hasonlóan (a folytonos és diszkrét spektrum esetét), azonban itt egészen más tartalommal bírnak ezek az esetek: π eikλ gX (λ)dλ
RX (k) =
(folytonos spektrum esete)
−π
és RX (k) =
∞
σ2k eikλj
(diszkrét spektrum esete).
j=−∞
˝ uség˝ Ha létezik fenti tulajdonságú gX (λ) függvény, akkor azt spektrális sur függvénynek nevezzük. (Többdimenziós esetben az egyes komponensek esetén auto-, illetve keresztspektrális sur ˝ uségfüggvényr˝ ˝ ol beszélünk.) Fontos speciális esetként megjegyezzük, hogy abban az esetben, amikor tel∞ ˝ uségfüggvény ˝ jesül az k=−∞ |RX (k)| < ∞ feltétel, akkor létezik spektrális sur és el˝oállítható ∞ 1 gX (λ) = RX (k)e−ikλ 2π k=−∞
alakban, ami nem más, mint a kovarianciafüggvény inverz Fourier-transzformáltja. Az is világos, hogy mivel a kovarianciafüggvény szimmetrikus a 0-ra,
194
III. A sztochasztikus folyamatok alapjai
ezért a spektrális sur ˝ uségfüggvény ˝ tovább alakítható: ∞ ∞ 1 1 σ2X + 2 RX (k)coskλ = RX (k)coskλ . gX (λ) = 2π 2π k=−∞
k=1
A kovarianciafüggvény adott el˝oállításával együtt magának a stacionárius folyamatnak is létezik megfelel˝o el˝oállítása: π Xt = µ X + Xt = µX +
eitλ dZ(λ) (folytonos spektrum esete), −π ∞
Zk eitλk
(diszkrét spektrum esete),
k=−∞
ahol a Z(λ), −π ≤ λ ≤ π sztochasztikus folyamat zérus várható értéku, ˝ korrelálatlan növekményu˝ folyamat, melyre E(Z(λ ) − Z(λ ))2 = GX (λ ) − GX (λ ),
−π ≤ λ < λ ≤ π,
˝ változók 0 várható értéku, ˝ korrelálatmíg diszkrét esetben a Zk valószínuségi ˝ változók. Ezt az el˝oállítást nevezik a lan és σ2k szórásnégyzetu˝ valószínuségi stacionárius folyamatok spektrálel˝oállításának. A folytonos ideju˝ sztochasztikus folyamatok esetén a diszkrét esethez hasonló fogalmak vezethet˝ok be és hasonló állítások igazolhatók. Általános esetben a GX (λ), −∞ < λ < ∞ spektrális eloszlásfüggvény a szimmetrikus pozitív szemidefinit függvények Bochner–Hincsin féle integrál-el˝oállítási tételével van meghatározva, de bizonyos megszorítások mellett közvetlenül megadható az RX (s) kovarianciafüggvény inverz Fourier-transzformáltjaként is. A korlátos változású GX (λ) függvény a klasszikus felbontási tétel következtében el˝oállítható GX (λ) = GX,1 (λ) + GX,2 (λ) + GX,3 (λ) alakban, a jobboldalon az egyes összetev˝ok a spektrális eloszlásfüggvénynek a Lebesgue-mértékre nézve abszolút folytonos-, diszkrét- illetve szinguláris összetev˝oit jelentik. Ha a spektrális eloszlásfüggvény abszolút folytonos, akkor a Lebesgue-mértékre nézve (λ) deriváltját spektrális sur ˝ uségfüggvénynek, ˝ vagy röviden vett gX (λ) = GX,1 spektrumnak nevezzük. Itt fontos kihangsúlyozni, hogy a mintavételezési tételek alkalmazása átvezet a folytonos ideju˝ folyamatokról a diszkrét ideju˝ folyamatokra. Egy egyszeru, ˝ de fontos tulajdonságot említünk meg. Hogyha az {Xt } stacionárius folyamat felbomlik két független {Zt } és {Wt } stacionárius folyamat összegére, vagyis Xt = Zt + Wt , akkor RX (u) = RZ (u) + RW (u)
és
GX (λ) = GZ (λ) + GW (λ).
Többdimenziós stacionárius {Xt } folyamat esetén fontos még megjegyezni, hogy abban az esetben, amikor létezik spektrális sur ˝ uségfüggvény, ˝ akkor az
195
12. Sztochasztikus folyamatok fogalma e ´s jellemze ´se
i-edik és j-edik komponens közötti lineáris kapcsolat er˝osségét a κ2ij (λ) = [gii (λ)gjj (λ)]−1 |gij (λ)|2 ún. négyzetes koherenciafüggvénnyel szokás mérni. Ha ez a mennyiség 1-hez közeli értéket vesz fel valamilyen tartományban, akkor ez a közöttük meglév˝o er˝os lineáris függésre utal az adott helyen. Egyébként a koherenciafüggvényre mindig teljesül a 0 ≤ κ2ij (λ) ≤ 1 egyenl˝otlenség. 12.3.2. Fontosabb specia ´lis staciona ´rius folyamatok
Nézzünk meg néhány fontosabb speciális stacionárius folyamatot és alapvet˝o tulajdonságaikat, amelyek a kés˝obbi vizsgálataink során alkalmazást nyernek. Ezek közül talán a legfontosabbak a diszkrét spektrummal bíró harmonikus folyamatok és a (folytonos) konstans spektrummal rendelkez˝o fehérzaj folyamatok, amelyek az ún. lineáris folyamatok alapját képezik. Harmonikus folyamatok
Tisztán ugró spektrális eloszlásfüggvényhez vezet a következ˝o egyszeru, ˝ a gyakorlatban fontos szerepet játszó modell Xt = A0 +
q
(Ai cosλi t + Bi sinλi t),t = 0,±1,±2,...,
(12.4)
i=1
ahol q pozitív egész szám, λ1 ,...,λq valós számok, A0 ,A1 ,...,Aq , B1 ,...,Bq egymással korrelálatlan valószínuségi ˝ változók 0 várható értékkel és D2 A0 = 2 2 2 2 σ0 , D Ai = D Bi = σi , 1 ≤ i ≤ q szórásnégyzetekkel. Ekkor az (12.4) egyenlettel megadott folyamatot harmonikus folyamatnak nevezzük. Könnyu˝ ellen˝orizni, hogy az {Xt } folyamat várható értéke minden t-re µX = EXt = EA0 +
q
(EAi cosλi t + EBi sinλi t) = 0,
i=1
kovarianciafüggvénye pedig az A0 ,A1 ,...,Aq , B1 ,...,Bq valószínuségi ˝ változók korrelálatlansága miatt pedig (λ0 = 0) RX (u) = EA20 +
q
[EA2j cos(λi t)cos(λj (t + u)) + EB2j sin(λj t)sin(λj (t + u))]
i=1
= EA20 +
q i=1
σ2j cos(λi u)(cos2 (λj t) + sin2 (λj t)) =
q
σ2i cos(λi u). (12.5)
i=0
Innen következik, hogy az (12.4) egyenlettel definiált harmonikus folyamat stacionárius. A kovarianciafüggvény alakjából az is következik, hogy a harmonikus folyamatnak nem létezik spektrális sur ˝ uségfüggvénye; ˝ a spektrális eloszlásfüggvény tiszta ugrófüggvény, ugrásai a ±λi , i = 0,...,q pontokban vannak
196
III. A sztochasztikus folyamatok alapjai
és nagyságuk σ2i . A (12.5) összefüggésb˝ol következik az a fontos észrevétel is, hogy az (12.4) modell esetén a kovarianciafüggvény nem más, mint konstans amplitudójú harmonikus függvények összege, melyek frekvenciái megegyeznek az (12.4) modellben szerepl˝o frekvenciákkal, továbbá a kovarianciafüggvény nem cseng le a végtelenben. A harmonikus folyamatok speciális eseteként megemlítjük a véletlen koszinusz-folyamatokat. Legyen Xt =
q
ai cos(λi t + ϕi ),
(12.6)
i=1
ahol q,{ai },{λi } konstansok, a {ϕi } valószínuségi ˝ változók pedig függetlenek és a (−π,π) intervallumon egyenletes eloszlásúak. Ekkor az Xt véletlen koszinusz-folyamatok lineáris kombinációjaként áll el˝o. Mindenekel˝ott megjegyezzük, hogy e modell semmivel sem szukebb ˝ annál a modellnél, amelyben véletlen szinuszos tagok is szerepelnek, mivel különböz˝o i és j mellett az id˝o függvényében tekintett {cos(λi t+ϕi )} és {sin(λi t+ϕi )} sztochasztikus folyamatok függetlenek és végesdimenziós eloszlásaik megegyeznek. Az is világos, hogy az (12.6) modell felírható a trigonometrikus függvényekre érvényes addíciós formulák felhasználásával véletlen együtthatós harmonikus függvények összegeként, vagyis Xt =
q
[ai cosϕi cos(λi t) − ai sinϕi sin(λi t)].
i=1
Könnyen ellen˝orizhet˝o, hogy az Ai = ai cosϕi , Bi = −ai sinϕi , 1 ≤ i ≤ q valószínuségi ˝ változók 0 várható értékuek, ˝ korrelálatlanok és D2 Ai = D2 Bi = a2i /2. Ez azt jelenti, hogy a (12.6) egyenlettel definiált véletlen koszinusz-folyamatok összege egy speciális harmonikus (stacionárius) folyamat azonosan 0 várható érték-függvénnyel és RX (u) =
q a2 i
i=1
2
cos(λi u)
kovarianciafüggvénnyel. Fehe ´rzaj folyamat
Az {εt ,t = 0,±1,±2,...} stacionárius folyamatot µε = Eεt várható értéku˝ és σ2ε = D2 (εt ) szórásnégyzetu˝ fehérzaj folyamatnak nevezzük, ha {εt } korrelálatlan sorozatot alkot, azaz cov(εt ,εs ) = RX (t − s) = δt,s σ2ε ahol δt,s a Kronecker-függvényt jelöli (δt,s = 1, ha t = s és δt,s = 0, ha t = s). A µε = 0 várható értéku˝ és σ2ε = 1 szórásnégyzetu˝ fehérzaj folyamatot standard fehérzaj folyamatnak hívjuk. Ezeket a folyamatokat gyakran csak fehérzajként, vagy standard fehérzajként
197
12. Sztochasztikus folyamatok fogalma e ´s jellemze ´se
is szokás említeni. Látható, hogy a fehérzaj folyamatnak mindig létezik spektrális sur ˝ uségfüggvénye ˝ és fennáll gε (λ) =
∞ 1 1 2 σ , Rε (k)e−ikλ = 2π 2π e
−π ≤ λ ≤ π.
k=−∞
Többdimenziós esetben a konstans µε várható érték-vektorú és konstans Rε = Rε (0) szórásmátrixú korrelálatlan stacionárius folyamatot hívjuk fehérzaj folyamatnak. A spektrálsur ˝ uség ˝ mátrixfüggvény ekkor gε (λ) = 1/(2π) Rε . Külön meg kell említeni azt az igen fontos, gyakran el˝oforduló speciális esetet, amikor Gauss-fehérzajról van szó. Ebben az esetben a stacionaritás és korrelálatlanság következtében a fehérzaj folyamat független, azonos (µε ,σ2ε ) ˝ (többdimenziós esetben (µε ,Rε )) paraméteru˝ normális eloszlású valószínuségi (vektor)változók sorozata. Linea´ris folyamatok
Stacionárius folyamatok egyik legfontosabb osztályát a lineáris folyamatok képezik. Azok a folyamatok tartoznak ide, amelyeknek létezik spektrális sur ˝ u˝ ségfüggvénye és erre b˝ovebb magyarázatot az alábbiakban találunk. Tekintsük az {Xt } folyamatot, amely el˝oállítható Xt =
∞
as εt−s ,
(12.7)
s=−∞
∞ alakban, ahol az as valós konstansokra teljesül s=−∞ a2s < ∞, {εt } µε = 0 várható értéku˝ és σ2ε > 0 szórásnégyzetu˝ fehérzaj folyamat. Tetsz˝oleges t-re ˝ változót definiáló (12.7) végtelen sor összege négyzetes az Xt valószínuségi középben van értelmezve, azaz olyan valószínuségi ˝ változót jelent, amelyre teljesül 2 n as εt−s = 0. lim E Xt − m,n→ ∞
s=−m
Ez a valószínuségi ˝ változó az adott feltételek mellett 0 valószínuség ˝ u˝ eseményen kívül jól definiált. Ekkor a (12.7) alakban el˝oállítható folyamatot lineáris folyamatnak nevezzük. Bebizonyítható az az alapvet˝o állítás, hogy egy {Xt } stacionárius folyamat˝ uségfüggvénye, ˝ ha a folyanak akkor és csak akkor létezik gX (λ) spektrális sur mat lineáris. Analóg feltétel többdimenziós esetben: {εt } többdimenziós fehér ∞ zaj és az as mátrixegyütthatókra teljesül Sp t=−∞ as aTs < ∞. Könnyu˝ meggy˝oz˝odni arról, hogy a (12.7) feltételnek eleget tev˝o {Xt } fo∞ lyamat stacionárius, zérus várható értékkel, továbbá RX (u) = t=−∞ at at+u
198
III. A sztochasztikus folyamatok alapjai
kovarianciafüggvénnyel: µX = EXt = ∞
cov(Xt ,Xt+u ) = EXt Xt+u =
∞ s=−∞ ∞
as Eεt−s = 0, ∞
as av Eεt−s εt+u−v =
s=−∞ v=−∞
as as+u .
s=−∞
A kovarianciafüggvényt el˝oállító sor az adott feltételek mellett nyilvánvalóan konvergens és fennáll RX (u) → 0, ha |u| → ∞. Legfontosabb, a kés˝obbi vizsgálataink során is el˝oforduló lineáris folyama∞ tok el˝oállíthatók Xt = s=0 as εt−s alakban. Az ilyen folyamatokat, amikor Xt csak a zajfolyamat múltjától függ, kauzális folyamatoknak nevezzük. Megmutatható, hogy egy {Xt } folyamat akkor és csak akkor kauzális, ha létezik gX (λ) spektrális sur ˝ uségfüggvénye ˝ és teljesül az π loggX (λ)dλ > −∞ −π
Szeg˝o-féle feltétel. Az ARMA folyamatok
A lineáris folyamatok egyik legfontosabb speciális osztályát képezik az ún. ARMA(p,q) autoregresszív-mozgóátlag folyamatok, amelyek el˝oállíthatók Xt = a1 Xt−1 + ··· + ap Xt−p + b0 εt + ··· + bq εt−q ,
(12.8)
˝ véges σ2ε szórásnégyzetu˝ fehér zaj, p, q, alakban, ahol {εt } 0 várható értéku, nemnegatív egész számok, {ai } és {bi } valós konstansok. Ezekkel a folyamatokkal és az általánosításukkal nyerhet˝o ún. ARIMA folyamatokkal az id˝osoranalízis keretében foglalkozunk majd részletesen. Itt még annyit jegyzünk meg, hogy abban az esetben, amikor P(z) = a1 z + ··· + ap zp ún. karakterisztikus polinom gyökei az egységkörön kívül helyezkednek el, akkor {Xt } kauzális folyamat, melynek spektrumára fennáll fX (λ) =
2 1 Q(e−iλ ) , 2π P(e−iλ )
−π ≤ λ ≤ π.
(12.9)
A spektrális sur ˝ uségfüggvénnyel ˝ rendelkez˝o stacionárius folyamatok széles osztályára a spektrumok jól közelíthet˝ok a (12.9) alakban megadott spektrumokkal (e−iλ -ban racionális törtfüggvényekkel), ez biztosítja az ARMA folyamatok alkalmazásának a gyakorlati jelent˝oségét.
199
12. Sztochasztikus folyamatok fogalma e ´s jellemze ´se 12.3.3. Linea ´ris sz˝ ur˝ ok (linea ´ris transzforma ´cio ´k)
Legyen {Xt } egy-, vagy többdimenziós stacionárius folyamat RX (u) kovariancia(mátrix)-függvénnyel és gX (λ) spektrummal. Legyen Yt = LXt , ahol L az ∞ LXt = s=−∞ h(t − s)Xs összefüggéssel definiált lineáris operátor, vagy más ˝ o és a h(t) (mátrix)függvény eleget tesz a néven lineáris szur˝ ∞
∞
h(u)RX (v − u)hT (v) < ∞
u=−∞ v=−∞
feltételnek. Az adott megszorítások mellett minden t egészre Yt négyzetes ∞ középben jól definiált valószínuségi ˝ változó. Jelölje H(λ) = t=−∞ eitλ h(t) a h(t) függvényhez tartozó ún. transzferfüggvényt. Ekkor {Yt } stacionárius folyamat ∞ ∞ h(t + u)RX (v − u)hT (v) RY (t) = u=−∞ v=−∞
kovariancia függvénnyel és gY (λ) = H(λ)gX (λ)H∗ (λ) spektrális sur ˝ uségfüggvénnyel. ˝ Egydimenziós esetben a spektrális sur ˝ uség˝ függvény az egyszerubb ˝ gY (λ) = gX (λ)|H(λ)|2 . alakot ölti. Speciális esetként az Xt = süruségfüggvényére ˝ adódik
∞
s=0 as εt−s
kauzális folyamat spektrális
2 ∞ σ2ε itλ at e . gX (λ) = 2π t=0
12.3.4. Linea ´ris el˝ orejelze ´s
Legyen {Xt } stacionárius folyamat és tekintsük a következ˝o feladatot. Tegyük fel, hogy rendelkezésünkre állnak a folyamat {Xs ,s ≤ t} megfigyelt értékei és ennek alapján valamilyen k ≥ 1 szám mellett meg akarunk határozni egy olyan ^t+k = ∞ as Xt−s ( ∞ a2s < ∞) értéket, amely négyzetes középben legX s=0 s=0 jobban közelíti a folyamat (t + k) id˝opontban felvett Xt+k értékét, azaz ^t+k )2 = minimum. E(Xt − X ^t+k -t nevezzük a folyamat négyzetes középben vett Az így meghatározott X ^t+k )2 számot pedig az el˝orelegjobb k-lépéses lineáris el˝orejelzésének, az E(Xt − X jelzés hibájának.
200
III. A sztochasztikus folyamatok alapjai
Természetesen nézhetjük ezt a feladatot általánosabban is: a lineáris kombinációk helyett {Xs ,s ≤ t} változók valamilyen véges második momentummal rendelkez˝o függvényét véve. Egyébként ebben az esetben is k-lépéses el˝orejelzésr˝ol beszélünk. Ennek a jóval általánosabb feladatnak a megoldását az az ^t+k adja, ami nem más, mint az Xt+k változónak a folyamat {Xs ,s ≤ t} múltX jára vett E(Xt+k | Xs ,s ≤ t) feltételes várható értéke. Ezt a feladatot általában nem tudjuk megoldani, ezért szorítkozunk egy lényegesen szukebb ˝ függvényosztályra – a lineáris függvényekre. Itt feltétlenül meg kell jegyezni, hogy az egyik leggyakrabban el˝oforduló esetben, amikor az {Xt } folyamat Gauss (ld. 12.4. pontot), a négyzetes középben legjobb k-lépéses lineáris el˝orejelzés egyben a négyzetes középben legjobb k-lépéses el˝orejelzést adja. 12.3.5. Wiener-sz˝ ur˝ o
Legyen adva a kétdimenziós (együttesen) stacionárius {(Yt ,Xt ), t = 0,±1,...} sztochasztikus folyamat. Az alapfeladat az, hogy hogyan lehet {Xs ,s ≤ t} megfigyelt értékei alapján négyzetes középben legjobb Y^t becslését adni Yt -nek. Ha Yt = Xt+m (m > 0), akkor ez a feladat nem más, mint az Xt+m változó négyzetes középben legjobb lineáris el˝orejelzése. Jelölje cXX (i), cYY (i), cYX (i) az Y és X együttesen stacionárius folyamatok auto-, ill. keresztkovariancia függvényét, melyekr˝ol feltesszük, hogy abszolút konvergensek. Vizsgáljuk az Y^t =
∞
h(j)Xt−j
j=0
lineáris becslést, ahol a h(j) együtthatókat úgy választjuk meg, hogy mini˝ malizálja az E(Yt − Y^t )2 mennyiséget. Ez a Y^t becslés felfogható egy szurési eljárásnak, melyet Wiener-szur˝ ˝ onek nevezünk. A minimalizációs eljárás a ∞
h(i)RXX (i − j) = RYX (j),
j = 0,1,2,...
(12.10)
i=0
egyenletrendszerhez vezet, amely egy Wiener–Hopf integrálegyenlet diszkrét megfelel˝oje. A (12.10) egyenletrendszerben szerepl˝o h(j) együtthatók becsülhet˝ok a spektrumok, ill. keresztspektrumok becslésének felhasználásával. 12.3.6. Ka ´lma ´n-sz˝ ur˝ o
Az állapotteres (Markov) megközelítésnek köszönhet˝oen a Kálmán-féle rekurziós eljárással sikerrel lehet vizsgálni szurési ˝ problémák többdimenziós feladatát. Tekintsük a következ˝o modellt. Legyen Xi+1 = Fi Xi + εi , Yi = Gi Xi + ηi ,
i = 1,2,... i = 1,2,...
201
12. Sztochasztikus folyamatok fogalma e ´s jellemze ´se
ahol {Xt } az ismeretlen „jelfolyamat”, {Yt } a megfigyelt folyamat és teljesülnek a következ˝o feltételek: Fi ,Gi ismert mátrixok, Fi invertálható, {εi } és {ηi } független 0 várható értéku˝ Gauss-fehérzajok, ismertek az E εi εj = δij Qi , E ηi ηj = δij Ri (δij a Kronecker-delta) kovariancia mátrixok, továbbá E X1 = 0,
E XT1 X1 < ∞,
E εi XT1 = E ηi XT1 = 0,
i = 1,2,...
^i lineáris becslését A feladat meghatározni Xi négyzetes középben legjobb X a megfigyelt Y1 ,...,Yi−1 értékek alapján. A Kálmán-módszer lényege az, hogy ^i el˝orejelzést és a becslési hiba mátrixát rekurzív összefüggéssel adja meg az X – egy újabb becsléshez nem a teljes adathalmazt használja fel, hanem csak a korábbi adatokból származó becslés értékeket és az újabb megfigyelés értékét. A kés˝obbi statisztikai vizsgálatok során szükség lesz az autokovariancia függvényb˝ol származtatott ún. parciális autokorrelációs függvényre, melyet a következ˝o módon határozunk meg: vezessük be az {Xit } i-edik komponensfolyamatra az ... rii (j) ... rii (m − 1) 1 rii (1) r (1) 1 ... rii (j − 1) ... rii (m − 2) ii . . . .. .. .. . . . . . . . . . ri (m) = rii (j − 1) ... 1 ... rii (m − j + 1) rii (j) .. .. .. .. .. .. . . . . . . rii (m − 1) rii (m − 2) ... rii (m − j + 1) ... 1 mátrixot és képezzük az ri (m) mátrixból az r∗i (m) mátrixot úgy, hogy ri (m) utolsó sorát kicseréljük az (rii (1),rii (2),...,rii (m)) sorral. A ρm =
det r∗i (m) , det ri (m)
m = 1,2,...
mennyiséget az {Xit } folyamat parciális autokorrelációs függvényének nevez˝ változók (Xi,(t+1) ,..., zük, ami megfelel az Xit és az Xi,(t+m) valószínuségi Xi,(t+m−1) ) feltételre vonatkozó parciális korrelációs együtthatójának.
12.4. Gauss-folyamatok Alkalmazások során gyakran találkozunk olyan folyamatokkal, melyek végesdimenziós eloszlásai normálisak. Az ilyen sztochasztikus folyamatokat Gaussfolyamatoknak nevezzük. Minthogy egy Gauss-folyamat végesdimenziós eloszlásait a várható értékek és kovarianciák egyértelmuen ˝ meghatározzák, ezért könnyu˝ meggy˝oz˝odni arról, hogy egy Gauss-folyamat akkor és csak akkor stacionárius szukebb ˝ értelemben, ha tágabb értelemben stacionárius. Ez azt jelenti, hogy Gauss-folyamatok esetén a szukebb ˝ és tágabb értelemben vett stacionaritás fogalma egybeesik. Id˝osoranalízisben, különösen lineáris folyamatok esetén er˝osen kihasználjuk azt a tulajdonságát is, hogy egy diszkrét
202
III. A sztochasztikus folyamatok alapjai
ideju˝ Gauss-folyamat akkor és csak akkor független valószínuségi ˝ változók sorozata, amikor a sorozat tagjai korrelálatlanok egymással.
12.5. Fu ¨ ggetlen no ¨vekme ´ny˝ u folyamatok Bizonyos fizikai folyamatok modellezésénél, de más gyakorlati feladatoknál is alapvet˝o szerepet játszanak a független növekményu˝ folyamatok. Ha az X = {Xt ,t ∈ T} folyamat olyan, hogy tetsz˝oleges n ≥ 1, t0 ,t1 ,...,tn ∈ T, t0 < ··· < ˝ változók, mint az tn esetén a X(t1 ) − X(t0 ),...,X(tn ) − X(tn−1 ) valószínuségi X folyamat növekményei függetlenek, akkor azt mondjuk, hogy X független növekményu˝ folyamat. Független növekményu˝ folyamatok egyik speciális esete a Brown-mozgás (Wiener) folyamat, amely diffúziós, vagy Brown-mozgás matematikai modelljét adja. Ez egy speciális Gauss-folyamat, melynek növekményei függetlenek. Egydimenziós esetben egyszeruen ˝ adható meg a végesdimenziós eloszlások ˝ sur ˝ uségfüggvényével. ˝ Az el˝oz˝o jelölés mellett az X(t0 ),...,X(tn ) valószínuségi változók együttes sur ˝ uségfüggvénye ˝ f(x0 ,...,xn ;t0 ,...,tn ) = (2π)−n/2 [t0 (t1 − t0 )···(tn − tn−1 )]−1/2 × (xn − xn−1 )2 1 x20 (x1 − x0 )2 . + + ··· + ×exp − 2 t0 t1 − t0 tn − tn−1 Ebb˝ol a formulából kiolvasható, hogy Wiener-folyamat esetén az X(tj+1 ) − X(tj ), j = 0,...,n − 1 növekmények független, 0 várható értéku˝ és tj+1 − tj szórásnégyzetu˝ normális eloszlású valószínuségi ˝ változók. Független növekményu˝ folyamatok között fontos helyet foglal el az alábbiakban bevezetésre kerül˝o és egészen más jellegu, ˝ csak nemnegatív egész értékeket felvev˝o Poisson-folyamat.
´ ltala 12.6. A ´nos Poisson-folyamatok Legyen {Λ(t),t ≥ 0} olyan nemnegatív, monoton nemcsökken˝o, balról folytonos függvény, melyre Λ(0) = 0. 12.4. D EFINÍCIÓ . Az {N(t),t ≥ 0} nemnegatív egész értékeket felvev˝o sztochasztikus folyamatot Λ(t) várható érték-függvényu˝ Poisson-folyamatnak nevezzük, ha 1. N(0) = 0. 2. N(t) szeparábilis, független növekményu˝ folyamat. 3. Tetsz˝oleges 0 ≤ s ≤ t esetén N(t)−N(s) eloszlás Λ(t)−Λ(s) paraméteru˝ Poisson, azaz P(N(t) − N(s) = k) =
(Λ(t) − Λ(s))k −(Λ(t)−Λ(s)) e , k!
k = 0,1,...
203
12. Sztochasztikus folyamatok fogalma e ´s jellemze ´se
Az {X(t),t ≥ 0}, X(0) = 0 balról folytonos folyamatot lépcs˝os-folyamatnak nevezzük, ha minden 0 ≤ s < t esetén az X(t) − X(s) növekmény csak nemnegatív egész értékeket vehet fel. Eszerint az N(t) Poisson-folyamat olyan lépcs˝osfolyamat, amelynek minden ugrása pozitív. Egyébként a fenti fogalom általánosítása vezet a véletlen pontfolyamatok fogalmához. A Λ(t) várható érték-függvény monoton növ˝o, ezért a szakadási pontjainak {τn } halmaza legfeljebb megszámlálható. Itt meg kell jegyezni, hogy a Λ(t) függvény szakadási pontjainak halmaza – bár ez megszámlálható – nem feltétlenül adható meg monoton növ˝o τ1 < τn < ··· sorozatként. Vezessük be a következ˝o jelölést λn = Λ(τn + 0) − Λ(τn − 0) = Λ(τn + 0) − Λ(τn ). Ekkor könnyen megmutatható a független növekményuség ˝ felhasználásával, hogy N(t) = Nr (t) + Ns (t), t ≥ 0, ahol Nr (t) és Ns (t) független Poisson-folyamatok λn , illetve Λs (t) = λn Λr (t) = Λ(t) − τn 1 rend esetén, azonban egyszeruen ˝ bevezethet˝o olyan új, az X Markovlánc értékeivel meghatározott m dimenziós Y = {Y0 ,Y1 ,...} folyamat, amely els˝orendu˝ Markov-lánc. Vezessük be az X = {(k1 ,...,km ) : k1 ,...,km ) ∈ X} állapotteru˝ Yn = (Xn+m−1 ,...,Xn ), n = 0,1,... sztochasztikus folyamatot. Ekkor P(Yn+1 = (in+m ,...,in+1 ) | Yn = (in+m−1 ,...,in ),...,Y0 = (im−1 ,...,i0 )) = P(Xn+m = in+m ,...,Xn+1 = in+1 ) | Xn+m−1 = in+m−1 ,...,X0 = i0 )
13. Markov-la´ncok
211
= P(Xn+m = in+m ,...,Xn+1 = in+1 ) | Xn+m−1 = in+m−1 ,...,Xn = in ) = P(Yn+1 = (in+m ,...,in+1 ) | Yn = (in+m−1 ,...,in )). Ezzel igazoltuk, hogy a bevezetett Y = {Y0 ,Y1 ,...} folyamat els˝orendu˝ Markovlánc. Ez a tény indokolja azt, hogy a továbbiakban csak els˝orendu˝ Markovlánccal foglalkozunk és az els˝orendu˝ szót elhagyjuk. A Markov-láncok vizsgálatában alapvet˝o jelent˝oséggel bírnak a definíció jobboldalán szerepl˝o feltételes valószínuségek, ˝ melyeknek külön elnevezése is van. 13.4. D EFINÍCIÓ . A pij (n,n+1) = P(Xn+1 = j | Xn = i), i,j ∈ X, n = 0,1,... meny˝ nenyiségeket az X1 ,X2 ,... Markov-lánc egylépéses átmenet-valószínuségeinek vezzük. Szükséges megjegyezni egyrészt azt, hogy a definícióban szerepl˝o i és j állapotok megegyezhetnek egymással (a folyamat a következ˝o id˝opontban maradhat ugyanabban az állapotban), másrészt a most bevezetett átmenet-valószínuségek ˝ nem csak az i, j állapotoktól függhetnek, hanem attól is, hogy mely id˝opontban nézzük. Egyébként a Markov-láncok egyik legfontosabb osztályát képezik azok a folyamatok, amelyekre ezek a mennyiségek nem függnek az id˝ot˝ol. 13.5. D EFINÍCIÓ . Azt mondjuk, hogy az X Markov-lánc homogén, ha a pij (n,n + ˝ 1), i,j ∈ X, n = 0,1,... egylépéses átmenet-valószínuségei függetlenek az n id˝ot˝ol. Ekkor pij (n,n + 1) = pij , i,j ∈ X, n = 0,1,... Ha az X Markov-lánc egylépéses átmenet˝ valószínuségei függnek az id˝ot˝ol, akkor a Markov-láncot nemhomogénnak, vagy inhomogénnak nevezzük. A Markov-láncok végesdimenziós eloszlásait nem határozzák meg egyértelmuen ˝ az átmenet-valószínuségek, ˝ hiszen az függhet a kiinduló X0 valószínuségi ˝ változó eloszlásától. 13.6. D EFINÍCIÓ . A pi = P(X0 = i), i ∈ X eloszlást az X Markov-lánc kezdeti eloszlásának nevezzük. 13.7. T ÉTEL . Tetsz˝oleges X Markov-lánc esetén a kezdeti eloszlás és az egylépéses át˝ ˝ meghatározzák a végesdimenziós eloszlásokat. menet-valószínuségek egyértelmuen Bizonyítás. Jelölje pi , i ∈ X az X Markov-lánc kezdeti eloszlását, pij (n,n+1), i,j ∈ X, n = 0,1,... pedig az egylépéses átmenet-valószínuségeit. ˝ Ekkor tetsz˝oleges n (n = 1,2,...) és i0 ,...,in ∈ X esetén, melyre P(X0 = i0 ,...,Xn = in ) > 0, a feltételes valószínuség ˝ definíciója szerint írhatjuk, hogy P(X0 = i0 ,...,Xn = in ) = = P(Xn = in | X0 = i0 ,...,Xn−1 = in−1 )P(X0 = i0 ,...,Xn−1 = in−1 ) = = P(Xn = in | X0 = i0 ,...,Xn−1 = in−1 )P(Xn−1 = in−1 | X0 = i0 ,...,Xn−2 = in−2 ) ···P(X1 = i1 | X0 = i0 )P(X0 = i0 ).
212
III. A sztochasztikus folyamatok alapjai
Felhasználva a Markov-tulajdonságot azt kapjuk, hogy a keresett valószínuség ˝ kifejezhet˝o az egylépéses átmenetvalószínuségek ˝ és a kezdeti eloszlás segítségével: P(X0 = i0 ,...,Xn = in ) = pin−1 in (n−1,n)pin−2 in−1 (n−2,n−1)···pi0 i1 (0,1)pi0 . Bármely végesdimenziós eloszlás az együttes eloszlásokra fennálló kompatibilitási feltétel következtében ilyen valószínuségek ˝ meghatározott összegeként írható fel. 13.8. M EGJEGYZÉS . Abban az esetben, amikor az X Markov-lánc homogén, akkor a ˝ ˝ alakba írható: nyert összefüggés egyszerubb P(X0 = i0 ,...,Xn = in ) valószínuségre P(X0 = i0 ,...,Xn = in ) = pin−1 ,in pin−2 ,in−1 ···pi0 ,i1 pi0 . Markov-láncok vizsgálatát sokszor leegyszerusíti ˝ az átmenetvalószínuség˝ mátrixok használata. ˝ homo13.9. D EFINÍCIÓ . A véges N, vagy megszámlálhatóan végtelen X állapotteru, ˝ gén Markov-lánc átmenet-valószínuségeib˝ ol alkotott p00 p01 ... p0N p00 p01 p02 ... p10 p11 ... p1N p10 p11 p12 ... P= . , illetve P = p20 p21 p22 ... . . .. .. .. .. . .. .. .. .. . . . . pN0 pN1 ... pNN ˝ mátrixot a Markov-lánc (egylépéses) átmenetvalószínuség-mátrixának nevezzük. Ha a Markov-lánc nem homogén, akkor az n = 0,1,... id˝ot˝ol függ˝o véges, vagy megszámlálhatóan végtelen sok sorból és oszlopból álló Pn = (pij (n,n + 1))i,j∈X mátrixokat ˝ nevezzük a Markov-lánc (egylépéses) átmenetvalószínuség-mátrixainak. Látható, hogy egy véges X = {0,1,...,N} állapotteru˝ Markov-lánc (homogén és inhomogén esetben egyaránt) mindig leírható egy X = {0,1,...} állapottérrel rendelkez˝o Markov-lánccal, ha az utóbbi átmenetvalószínuség-mátrixát ˝ úgy adjuk meg, hogy a 0 ≤ i,j ≤ N indexekhez tartozó mátrixelemek megegyeznek a véges átmenetvalószínuség-mátrixéval, ˝ a többi pedig 0. Ez a tény indokolja azt, hogy a véges, illetve megszámlálhatóan végtelen állapotteru˝ Markovláncokat együtt kezeljük. Megemlítjük, hogy az átmenetvalószínuség-mátrixok ˝ sztochasztikus mátrixok, azaz rendelkeznek a következ˝o tulajdonságokkal: a) Elemei nemnegatívok: pij ≥ 0, i,j ∈ X
(pij (n,n + 1) ≥ 0, i,j ∈ X, n = 0,1,...).
b) Elemeinek soronkénti összege 1: pij = 1, i ∈ X ( pij (n,n + 1) = 1, i ∈ X, n = 0,1,...). j∈X
j∈X
213
13. Markov-la´ncok
Mindkét feltétel természetes; az (a) nem szorul indoklásra, míg a (b) összefüggés pontosan azt fejezi ki, hogy tetsz˝oleges állapotból a Markov-lánc biztosan (1 valószínuséggel) ˝ kerül valamilyen állapotba. 13.10. P ÉLDA . Az els˝o példa azt mutatja, hogy független azonos eloszlású valószínuségi ˝ változók sorozata homogén Markov-láncot alkot. A második példa szerint ilyenek összege is homogén Markov-lánc lesz. Ha a kiinduló valószínuségi ˝ változók sorozatát független, de nem azonos eloszlásúnak definiálnánk, akkor szintén Markov-lánchoz jutnánk, amely azonban már nem feltétlenül lenne homogén. A harmadik példa a véletlen bolyongást írja le a számegyenesen. Ebben az esetben az állapotteret praktikus szempontból az X = {0,±1,±2,...} halmazzal adjuk meg. Legyen U0 ,U1 ,... független, nem negatív azonos eloszlású valószínuségi ˝ változók sorozata közös P(Um = k) = pk , pk ≥ 0,k = 0,1,..., m = 0,1,... eloszlással. a) Definiáljuk az X folyamatot az Xn = Un , n = 0,1,... sorozattal. Ekkor az X folyamat homogén Markov-lánc P(X0 = k) = pk , k = 0,1,... kezdeti eloszlással és p0 p1 p2 p3 ... p0 p1 p2 p3 ... P= p p p p ... 1 2 3 0 .. .. .. .. . . . . . . . átmenetvalószínuség-mátrixszal. ˝ b) Vegyük azt az X folyamatot, melynek kezdeti eloszlása P(X0 = 0) = 1, és tetsz˝oleges n = 1,2,... esetén pedig Xn = U1 +···+Un . Ekkor az X folyamat egylépéses átmenetvalószínuségeire ˝ fennáll pij (n,n + 1) = P(Xn+1 = j | Xn = i) = = P(U1 + ··· + Un+1 = j | U1 + ··· + Un = i) = pj−i , ha j ≥ i = P(Un+1 = j − i) = 0, ha j < i Eszerint az X folyamat homogén Markov-lánc p0 p1 p2 p3 p4 0 p p p p 0 1 2 3 0 0 p0 p1 p2 P= 0 0 0 p0 p1 .. .. .. .. .. . . . . . átmenetvalószínuség-mátrixszal. ˝
... ... ... ... .. .
214
III. A sztochasztikus folyamatok alapjai
c) Legyen most az U0 ,U1 ,... független azonos eloszlású valószínuségi ˝ változók közös eloszlása P(Ui = +1) = p, P(Ui = −1) = 1 − p,
0 < p < 1, i = 0,1,2,...
és definiáljuk az X folyamatot ugyanúgy, mint (b)-ben, azaz legyen P(X0 = 0) = 1 a kezdeti eloszlása, és tetsz˝oleges n = 1,2,... esetén pedig Xn = U1 + ··· + Un . Mint ahogyan azt az el˝obb megjegyeztük, ez a folyamat éppen azt a véletlen bolyongást írja le a számegyenesen, amely az origóból kiindulva minden lépésben egy egységnyit lép a számegyenesen jobbra p, balra pedig 1 − p valószínuséggel. ˝ Itt a p = 1/2 eset felel meg a szimmetrikus bolyongásnak. Az így definiált X folyamat homogén Markov-láncot alkot és egylépéses átmenetvalószínuségeire ˝ teljesül pij (n,n + 1) = P(Xn+1 = j | Xn = i) = = P(U1 + ··· + Un+1 = j | U1 + ··· + Un = i) = ha j = i + 1 p, = P(Un+1 = j − i) = 1 − p, ha j = i − 1 0, ha |i − j| = 1 Bár az átmenetvalószínuség-mátrix ˝ az összes információt tartalmazza az egyes állapotok között lehetséges átmenetekr˝ol, azonban bizonyos esetekben szemléletesen is ábrázolhatók ezek az átmenetek. A 13.2. ábra a bolyongás átmeneteit mutatja be, míg a 13.3. ábra egy véges állapotteru˝ Markov-lánc átmeneteit ábrázolja.
13.2. ábra.
13.2. Az m-le ´pe ´ses a ´tmenetvalo ´szı´n˝ use ´gek e ´s tulajdonsa ´gaik Legyen X Markov-lánc X állapottérrel. Jelölje tetsz˝oleges i,j ∈ X és 0 ≤ s ≤ t < ∞ egész számok mellett pij (s,t) = P(Xt = j | Xs = i),
i,j ∈ X,
és vezessük be a P(s,t) = (pij (s,t))i,j∈X mátrixokat. Homogén Markov-láncok esetén a pij (s,t) csak a t − s különbségt˝ol függ, így pij (s,s + m) = pij (m),
s,m = 0,1,..., i,j ∈ X,
215
13. Markov-la´ncok
13.3. ábra.
ahol a pij (m), m = 0,1,..., i,j ∈ X mennyiségeket az X homogén Markov-lánc ˝ m-lépéses átmenetvalószínuségeinek nevezzük. Gyakran szükségünk lesz az mlépéses átmenetvalószínuségekb˝ ˝ ol képzett P(m) = (pij (m))i,j∈X m-lépéses át˝ menetvalószínuség-mátrixra is. A fenti definíciókban m = 0 esetén 1, ha i = j, pij (0) = 0, ha i = j. Ha az X Markov-lánc nem homogén, akkor hasonló módon vezethet˝ok be ezek a fogalmak, azonban az n értékét˝ol való függ˝oség lehet˝oségét figyelembe kell venni. 13.11. T ÉTEL (C HAPMAN –KOLMOGOROV EGYENLET ). Bármely m ≥ 0, r + s = ˝ m (r,s ≥ 0) esetén az X homogén Markov-lánc m-lépéses átmenetvalószínuségeire fennáll pij (m) = pik (r)pkj (s). k∈X
Bizonyítás. Minthogy az {Xr = k}, k ∈ X események páronként egymást kizá ˝ és a feltéteróak, k∈X P(Xr = k) = 1, ezért az m-lépéses átmenetvalószínuség les valószínuség ˝ definíciója szerint homogén Markov-láncokra teljesül (figyelembe véve az olyan feltételes valószínuségekre ˝ tett korábbi megjegyzésünket, amelyeknél a feltétel valószínusége ˝ esetleg a 0 értéket veszi fel): P(Xm = j,X0 = i) = P(X0 = i) P(Xm = j,X0 = i,Xr = k) = = P(X0 = i)
pij (m) = P(Xm = j | X0 = i) =
k∈X
=
P(X0 = i,Xr = k) P(Xm = j,X0 = i,Xr = k)
k∈X
=
k∈X
P(X0 = i)
P(X0 = i,Xr = k)
=
P(Xr = k | X0 = i)P(Xm = j | Xr = k,X0 = i) =
216
III. A sztochasztikus folyamatok alapjai
=
pik (0,r)pkj (r,m) =
pik (r)pkj (s).
k∈X
k∈X
13.12. M EGJEGYZÉS . Teljesen analóg módon igazolható, hogy inhomogén Markovláncokra a Chapman–Kolmogorov egyenlet a következ˝o formában érvényes: pij (s,t) =
pik (s,r)pkj (r,t),
k∈X
ahol 0 ≤ s ≤ r ≤ t tetsz˝oleges egész számok. A korábban bevezetett P(s,t) = (pij (s,t))i,j∈X jelölés mellett ez az egyenlet átírható tetsz˝oleges 0 ≤ s ≤ r ≤ t egész számok esetén a P(s,t) = P(s,r)P(r,t) mátrixalakba. Egymás után ismételten felhasználva ezt az összefüggést kapjuk, hogy P(0,m) = P(0,1)P(1,2)···P(n − 1,n). Homogén esetben egyszeru˝ következményként adódik a Markov-lánc mlépéses átmenetvalószínuség-mátrixára, ˝ hogy P(m) = Pm , ahol P = P(0,1) jelöli a homogén Markov-lánc egylépéses átmenetvalószínu˝ ség-mátrixát.
13.3. Homoge ´n Markov-la ´ncok a ´llapotainak oszta ´lyoza ´sa az a ´tmenetvalo ´szı´n˝ use ´gek aritmetikai tulajdonsa´gai szerint Markov-láncok viselkedése, aszimptotikus tulajdonságai (pl. határeloszlás létezése) alapvet˝oen függ az egyes állapotok között fennálló kapcsolatoktól, melyek az átmenetvalószínuségekben ˝ tükröz˝odnek vissza. Ezekben a Markovlánc különböz˝o értékei nem játszanak szerepet, csak az egyes állapotok megkülönböztetésére szolgálnak. Számos esetben a vizsgálatok jelent˝osen leegyszerusödhetnek, ˝ például, ha az X állapottér felbontható két olyan egymással diszjunkt X1 és X2 részhalmaz uniójára, melyekre pij = pji = 0, ha i ∈ X1 , j ∈ X2 , vagy j ∈ X1 , i ∈ X2 . Ekkor elég nyilvánvalónak tunik, ˝ hogy az X1 , illetve X2 részhalmazokhoz tartozó állapotok egymástól függetlenül vizsgálhatók. 13.13. D EFINÍCIÓ . Azt mondjuk, hogy a j ∈ X állapot elérhet˝o az i ∈ X állapotból, ha létezik olyan m ≥ 1 egész szám, hogy pij (m) > 0. Ha két i és j állapot olyan, hogy
13. Markov-la´ncok
217
kölcsönösen elérhet˝ok egymásból, akkor az ilyen állapotpárt kapcsolódóknak, vagy érintkez˝oknek nevezzük. Világos, hogyha az i és j állapotok nem kapcsolódóak, akkor vagy minden m ≥ 1-re pij (m) = 0, vagy pedig minden m ≥ 1-re pji (m) = 0. Biztosan nem lehet egyetlenegy állapottal sem kapcsolódó az olyan i állapot, amelyre pii = 1. Az ilyen állapotokat elnyel˝o állapotoknak nevezzük. Az állapotoknak egy tetsz˝oleges X ⊂ X részhalmazát zártnak nevezzük, ha tetsz˝oleges i ∈ X és j ∈ X \ X esetén pij = 0. (Innen adódik, hogy tetsz˝oleges m ≥ 1 lépésszám esetén hasonló összefüggés igaz az m-lépéses átmenetvalószínuségekre ˝ is: pij (m) = 0.) Egy X ⊂ X zárt halmazt minimálisnak nevezünk, ha nem tartalmaz zárt valódi részhalmazt. Világos, hogy egy elnyel˝o állapot mindig minimális zárt halmazt alkot. Az állapotok osztályozása során bizonyosak lényegtelen, bizonyosak pedig lényeges szerephez jutnak. Ennek megfelel˝oen egy i ∈ X állapotot lényegtelen állapotnak nevezünk, ha van olyan j ∈ X állapot, hogy i-b˝ol j elérhet˝o, de fordítva nem. Az ilyen állapotokról elmondható, hogyha a Markov-lánc egyszer egy ilyen állapotba kerül, utána sohasem térhet vissza ugyanoda pozitív valószínuséggel. ˝ Azokat az állapotokat, amelyek nem lényegtelenek, lényeges állapotoknak hívjuk. További vizsgálataink alapvet˝o tárgya az X állapotér lényeges állapotainak X∗ részhalmaza. Ha az X∗ részhalmaz üres, akkor a Markov-lánc állapottere csupa olyan állapotból áll, amelybe a rendszer sohasem tér vissza pozitív valószínuséggel, ˝ így ezek a Markov-láncok a mostani vizsgálataink szempontjából érdektelenek. Egyébként ebben az esetben az egyes állapotokban való tartózkodás valószínuségének ˝ biztosan nem létezik nem 0 határértéke. Ennek megfelel˝oen a továbbiakban feltesszük, hogy az X∗ részhalmaz nem üres. Az X állapotér állapotai között értelmezett kapcsolódási (érintkezési) tulajdonság definiál egy ↔ kett˝os nyíllal jelölt relációt az állapotok között, amelyr˝ol könnyu˝ kimutatni, hogy a reláció reflexív, szimmetrikus és tranzitív, vagyis ekvivalencia-reláció. Ezért X∗ felbontható olyan további véges, vagy megszámlálhatóan sok nem üres, páronként diszjunkt X1 ,X2 ,... részhalmazok uniójára, hogy minden k ≥ 1-re Xk elemei mind kapcsolódók, ugyanakkor tetsz˝oleges 1 ≤ k < n és i ∈ Xk , j ∈ Xn esetén az i és j állapotok nem kapcsolódók. 13.14. D EFINÍCIÓ . Ezeket az Xk osztályokat, melynek elemei mind kapcsolódóak, irreducibilis osztályoknak nevezzük. Markov-láncok elméletében alapvet˝o jelent˝oséggel bírnak azok a Markovláncok, amelyekre minden állapot egymással kapcsolódó, vagyis amikor az X állapottér minden eleme lényeges állapot. 13.15. D EFINÍCIÓ . Egy Markov-láncot irreducibilisnek nevezünk, ha bármely állapot elérhet˝o tetsz˝oleges más állapotból. Ez azt jelenti, hogy a Markov-lánc egy irre-
218
III. A sztochasztikus folyamatok alapjai
ducibilis osztályt képez, vagyis tetsz˝oleges i,j ∈ X állapot esetén létezik olyan (i-t˝ol és j-t˝ol függ˝o) m ≥ 1 egész, hogy pij (m) > 0. A következ˝o fontos fogalom a Markov-láncok periodicitása. Jelölje tetsz˝oleges i ∈ X állapot esetén d(i) azoknak az m ≥ 1 egész számoknak a legnagyobb közös osztóját, amelyekre pii (m) > 0. Ha pii (m) = 0 minden m ≥ 1-re, akkor legyen d(i) = 0. 13.16. D EFINÍCIÓ . A d(i) számot az i állapot periódusának nevezzük. Az olyan Markov-láncot, melyre minden állapot periódusa 1, aperiodikus Markov-láncnak nevezzük. 13.17. P ÉLDA (P ERIODIKUS M ARKOV- LÁNC ). Tekintsük a – homogén Markovláncokra korábban már bemutatott – egyszeru˝ bolyongás esetét a számegyenesen. Világos, hogy ebben az esetben minden i állapotra d(i) = 2, hiszen tetsz˝oleges i állapotból kiindulva 2,4,6,... lépésben térhetünk vissza ugyanoda pozitív valószínuséggel. ˝ Ekkor a pozitív valószínuség ˝ u˝ lépésszámok (a páros természetes számok) legnagyobb közös osztója nyilvánvalóan 2. Megjegyezzük azt is, hogy a 0 id˝opontban a 0 állapotból kiindulva páros lépésben csak páros, páratlan lépésszám esetén pedig csak páratlan állapotba kerülhet a Markovlánc. 13.18. T ÉTEL . Legyen X tetsz˝oleges homogén Markov-lánc X állapottérrel és legyen X ⊂ X egy tetsz˝oleges (nem üres) irreducibilis osztály. Ekkor minden lehetséges i,j ∈ X mellett az i és j állapotok periódusai megegyeznek egymással, vagyis egy irreducibilis osztály állapotainak létezik közös d(X ) periódusa. Bizonyítás. Legyen i,j ∈ X két tetsz˝oleges, egymástól különböz˝o állapot. Az irreducibilitás miatt léteznek olyan t,s > 0 egészek, hogy fennáll a pij (t) > 0 és pji (s) > 0 feltétel. Innen és a Chapman–Kolmogorov egyenlet alapján következik, hogy pii (t + s) ≥ pij (t)pji (s) > 0
és
pji (t + s) ≥ pji (s)pij (t) > 0.
Így d(i) és d(j) nem nulla véges szám. Legyen pii (m) > 0 valamilyen m ≥ 1 egész szám mellett. Ekkor a Chapman–Kolmogorov egyenlet ismételt alkalmazásával kapjuk, hogy pjj (t + s + m) ≥ pji (s)pii (m)pij (t) > 0. Mivel tetsz˝oleges k ≥ 1 egész szám mellett pjj (t + s + km) ≥ pji (s)(pii (m))k pij (t) > 0, így a periódus definíciója szerint d(j) osztója a (t + s + m) és a (t + s + 2m) számok mindegyikének, így ezzel együtt a (t + s + 2m) − (t + s + m) = m különbségnek is. Ebb˝ol következik, hogy osztója az összes olyan m-ek legnagyobb közös osztójának, melyekre pii (m) > 0, vagyis d(i)-nek is. Ezért fennáll
219
13. Markov-la´ncok
a d(j) ≤ d(i) egyenl˝otlenség. Innen, i és j szerepének felcserélésével nyerjük, hogy d(i) ≤ d(j), azaz d(i) = d(j). 13.19. KÖVETKEZMÉNY. Homogén irreducibilis Markov-lánc periódusa minden állapotra egy és ugyanaz a közös d = d(X) szám, amely az adott esetben a Markovláncra jellemz˝o. Egy ilyen Markov-lánc nyilvánvalóan vagy periodikus, vagy aperiodikus aszerint, hogy d > 1, vagy d = 1. Felmerül az a kérdés, hogy milyen jellegzetességet mutatnak azok a k számok, amelyekre a k lépéses átmenetvalószínuségek ˝ pozitívak. Erre vonatkozik az alábbi állítás. 13.20. T ÉTEL . Legyen X homogén Markov-lánc X állapottérrel és legyen i ∈ X tetsz˝oleges állapot. Ekkor létezik olyan Mi egész szám, hogy tetsz˝oleges m ≥ Mi esetén pii (m · d(i)) > 0. Bizonyítás. Ha az i állapot periódusa 0, vagyis ha a Markov-lánc az i állapotból sohasem tér vissza pozitív valószínuséggel ˝ önmagába (ilyenek a lényegtelen állapotok), akkor a definíció szerint d(i) = 0 és ekkor pii (0) = 1 miatt az állítás igaz. Ha d(i) > 0, akkor legyenek m1 ,...,mL olyan egész számok, melyekre egyrészt pii (mk ) > 0, 1 ≤ k ≤ L, másrészt d(i) el˝oáll úgy, mint az m1 ,...,mL számok legnagyobb közös osztója. Ekkor a számelméletb˝ol ismert tétel alapján van olyan Mi szám, hogy minden m ≥ Mi egész mellett létezik az md(i) = i1 m1 + ··· + iL mL egyenletnek megoldása nemnegatív egész i1 ,...,iL számokkal. Ezt az összefüggést és a Chapman–Kolmogorov egyenletet felhasználva nyerjük, hogy i
iL
pii (md(i)) ≥ (pii (m1 )) 1 ···(pii (mr ))
> 0.
Vizsgáljuk meg most a azokat a homogén irreducibilis Markov-láncokat, amelyek d = d(X) periódusa egynél nagyobb. Megmutatjuk, hogy az átmenetek között egyfajta ciklikus tulajdonság áll fenn, mint ami megfigyelhet˝o a korábban említett példánkban, a számegyenesen történ˝o véletlen bolyongás esetén. Ebben a példában minden második lépésben csak páros, vagy páratlan állapotba kerülhetünk attól függ˝oen, hogy páros, vagy páratlan állapotból indultunk ki. Rögzítsünk egy tetsz˝olegesen választott i0 ∈ X állapotot és vezessük be k = 0,1,...,d − 1 esetén az állapotok következ˝o halmazait: Xk = {i ∈ X : pi0 i (k + md) > 0, valamilyen m ≥ 1-re}. Egyszeruen ˝ igazolhatjuk, hogy az X0 ,...,Xd−1 halmazok diszjunktak és uniójuk kiadja a teljes állapotteret. Ugyanis, ha ezek a halmazok mégsem disz-
220
III. A sztochasztikus folyamatok alapjai
junktak, akkor létezik olyan 0 ≤ k1 < k2 ≤ d − 1 és m1 ,m2 ≥ 1, hogy fennáll pi0 i (k1 + m1 d) > 0 és pi0 i (k2 + m2 d) > 0. Mivel a Markov-lánc irreducibilis, ezért biztosan létezik olyan K ≥ 1 egész, hogy pii0 (K) > 0. Felhasználva a Chapman–Kolmogorov egyenletet kapjuk, hogy pi0 i0 (k1 + m1 d + K) ≥ pi0 i (k1 + m2 d)pii0 (K) > 0, pi0 i0 (k2 + m2 d + K) ≥ pi0 i (k2 + m2 d)pii0 (K) > 0, ezért a d periódus a definíció szerint osztója a (k2 +m2 d+k) és (k1 +m1 d+k) számok mindegyikének, így a (k2 −k1 )+(m2 −m1 )d különbségüknek is. Innen következik, hogy d osztója a (k2 − k1 ) számnak, ami nyilvánvalóan nem állhat fenn, mivel 0 < k2 − k1 ≤ d − 1. Az irreducibilitás miatt, mivel az i0 állapotból tetsz˝oleges i ∈ X állapotba pozitív valószínuséggel ˝ el lehet jutni, ezért fennáll X = X0 ∪ ··· ∪ Xd−1 . Belátjuk most azt, hogy tetsz˝oleges választott k = 0,1,...,d − 1, i ∈ Xk és olyan j mellett, amelyre pij > 0, fennáll j ∈ XK , ahol K ≡ k + 1 (modd), azaz K+1, ha 0 ≤ k < d−1 és K = 0, ha k = d−1. Válasszuk meg n-et úgy, hogy teljesüljön pi0 i (n) > 0. Világos, hogy Xk definíciója szerint létezik olyan m egész, hogy pi0 i (k+md) > 0. K definíciója szerint van olyan M egész, hogy k+md+1 el˝oállítható k+md+1 = K+Md alakban. Minthogy teljesül a pij >0 feltétel, így a Chapman–Kolmogorov egyenl˝oség felhasználásával adódik, hogy pi0 j (K + Md) = pi0 j (k + md + 1) ≥ pi0 i (k + md)pij > 0. Innen, az XK halmaz definíciója szerint kapjuk, hogy j ∈ XK . Összegezve a fentieket beláttuk, hogy az X0 ,...,Xd−1 halmazok állapotai között a Markov-lánc csak az alábbi X0 → X1 → ··· → Xd−1 → X0 ciklikus átmenetet engedi meg. Innen adódik egy igen fontos következtetés. 13.21. KÖVETKEZMÉNY. Minthogy tetsz˝oleges k = 0,1,...,d−1 esetén bármely Xk beli állapotból kiindulva pontosan d lépés után kerülünk vissza egy Xk -beli állapotba, ezért ha bevezetjük a (k)
pij = P(Xd = j | X0 = i),
i,j ∈ Xk
(k) (k) mennyiségeket, akkor az el˝obbiek szerint j∈Xk pij = 1, i ∈ Xk . Így a (pij )i,j∈Xk sztochasztikus mátrixot felfoghatjuk úgy is, mint egy Xk állapotteru˝ Markov-lánc egy˝ lépéses átmenetvalószínuség-mátrixát. Ez azt jelenti, hogy az Xk , k = 0,1,...,d − 1 halmazokhoz hozzárendelhetünk egy-egy homogén irreducibilis Markov-láncot és az eredeti d periódusú homogén irreducibilis Markov-lánc pij (m), i,j ∈ X, m-lépéses át˝ menetvalószínuségek m → ∞ melletti aszimptotikus vizsgálatát visszavezethetjük d darab homogén aperiodikus irreducibilis Markov-lánc vizsgálatára.
221
13. Markov-la´ncok
13.4. Homoge ´n Markov-la ´ncok a ´tmenetvalo ´szı´n˝ use ´geinek aszimptotikus tulajdonsa ´gai. Visszate ´r˝ o Markov-la ´ncok. Homogén Markov-láncok vizsgálata során alapvet˝o jelent˝oségu˝ kérdés, hogy létezik-e a Markov-láncnak határeloszlása, azaz létezik-e olyan π = {πi , i ∈ X} eloszlás (πi ≥ 0, i∈X πi = 1), hogy a {pi ,i ∈ X} kezdeti eloszlástól függetlenül fennáll lim P(Xn = i) = πi , i ∈ X. n→ ∞
Ennek a kérdésnek a megválaszolásához szükség lesz olyan mennyiségek vizsgálatára is, mint például egy adott állapotba való visszatérés valószínusége, ˝ a visszatérés lépésszámának várható értéke. Legyen i,j ∈ X tetsz˝oleges és vezessük be a következ˝o jelöléseket: fij (0) = 0,fij (1) = P(X1 = j | X0 = i), fij (n) = P(Xn = j, Xm = j, ha m = 1,2,...,n − 1 | X0 = i),
n = 2,3,...
˝ adja meg, hogy a A most bevezetett fij (n) mennyiség annak a valószínuségét 0 id˝opontban az i állapotból kiinduló Markov-lánc el˝oször az n id˝opontban kerül a j állapotba. Ha i = j, akkor az fij (n) mennyiség a j állapot n lépés alatt történ˝o els˝o elérésének a valószínuségét, ˝ míg ha i = j, akkor az i állapotba n lépés alatt történ˝o els˝o visszatérés valószínuségét ˝ jelenti. Az els˝o elérési, illetve visszatérési valószínuségek ˝ és az m-lépéses átmenetvalószínuségek ˝ közötti összefüggést az alábbi tételben foglalt ún. diszkrét felújítási egyenlet mutatja: 13.22. T ÉTEL . Tetsz˝oleges i,j ∈ X, n = 1,2,... esetén igaz pij (n) =
n
fij (k)pjj (n − k).
k=1
Bizonyítás. Világos, hogy n = 1 esetén teljesül az pij (1) = fij (1)pjj (0) = fij (1) egyenlet. Legyen most n ≥ 2. Ekkor pij (n) = P(Xn = j, X1 = j | X0 = i) + n + P(Xn = j, Xk = j, Xm = j, 1 ≤ m ≤ k − 1 | X0 = i) = k=2
= fij (1)pjj (n − 1) +
n
fij (k)pjj (n − k) =
k=2
=
n
pjj (n − k)fij (k),
n = 1,2,...
k=1
222
III. A sztochasztikus folyamatok alapjai
∞ Jelölje fij = k=1 fij (k), i,j ∈ X. Ez a mennyiség azt a valószínuséget ˝ fejezi ki, hogy a 0 id˝opillanatban az i állapotból kiinduló Markov-lánc valamikor a j állapotba jut. 13.23. D EFINÍCIÓ . Azt mondjuk, hogy az i ∈ X állapot visszatér˝o, ha fii = 1. Azokat az állapotokat, amelyek nem visszatér˝oek, átmenetinek nevezzük. Egy Markovláncot visszatér˝onek, vagy átmenetinek nevezünk, ha az összes állapota visszatér˝o, vagy átmeneti. ˝ ol Ez az osztályozás ebben a formában a pii (n) átmenetvalószínuségekb˝ származtatott fii mennyiségekt˝ol függ, azonban az eredeti pii (n) átmenetvalószínuségekkel ˝ is megadható a következ˝o tétel szerint. 13.24. T ÉTEL . a) Legyen i,j ∈ X tetsz˝oleges. Az i állapot akkor és csak akkor visszatér˝o, ha ∞ pii (n) = ∞. n=1
b) Ha i visszatér˝o állapot, valamint i és j kapcsolódók, akkor j is visszatér˝o. Bizonyítás. a) Mivel pii (0) = 1 és nemnegatív tagokból álló sort szabad tetsz˝oleges sorrendbe átrendezni, így alkalmazva az el˝oz˝o tételben nyert el˝oállítást kapjuk, hogy ∞
pii (n) =
n=1
= Ha tételbeli
∞ n
fii (k)pii (n − k) = ∞
k=1
n=1
fii (k)(pii (0) +
n=1 pii (n)
fii (k)pii (n − k) =
k=1 n=k
n=1 k=1 ∞
∞
∞ ∞
pii (n)) = fii (1 +
∞
pii (n)).
n=1
összeg véges, akkor nyilvánvalóan igaz
fii = 1 +
∞ n=1
−1 pii (n)
∞
pii (n) < 1,
n=1
azaz az i állapot nem visszatér˝o. N ∞ Ha n=1 pii (n) = ∞, akkor nyilvánvalóan fennáll limN→ ∞ n=1 pii (n) = ∞ és tetsz˝oleges pozitív egész N számra N
pii (n) =
n=1
n N
fii (k)pii (n − k) =
n=1 k=1
=
N N k=1 n=k
fii (k)pii (n − k) ≤
N k=1
fii (k)
N n=0
pii (n).
223
13. Markov-la´ncok
Innen kapjuk, hogy fii =
∞
fii (k) ≥
k=1
N
fii (k) ≥ 1 +
k=1
N
−1 fii (k)
k=1
N
fii (k) → 1,
N → ∞,
k=1
azaz ebben az esetben fii ≤ 1 miatt teljesülnie kell az fii = 1 egyenl˝oségnek. Ekkor a definíció szerint az i állapot visszatér˝o. b) A feltételeink szerint létezik olyan n,m ≥ 1 egész szám, hogy pij (m) > 0 és pji (n) > 0. A Chapman–Kolmogorov egyenletb˝ol következik, hogy tetsz˝oleges k ≥ 1 egész mellett pii (m + k + n) ≥ pij (m)pjj (k)pji (n), pjj (n + k + m) ≥ pji (n)pii (k)pij (m). Innen következik, hogy ∞ k=1 ∞
pii (k) ≥ pjj (k) ≥
∞ k=1 ∞
pii (m + n + k) ≥ pij (m)pji (n) pjj (m + n + k) ≥ pij (m)pji (n)
pjj (k),
k=1 ∞
pii (k).
k=1
k=1
k=1
∞
Ez azt jelenti, hogy a pij (m) > 0 és pji (n) > 0 feltételek miatt a ∞
∞
pii (k) és
k=1
pjj (k)
k=1
sorok egyszerre konvergensek, vagy divergensek, és így a tétel (a) állítása szerint egyszerre visszatér˝ok, vagy sem. ˝ felírható az i álla13.25. M EGJEGYZÉS . Tetsz˝oleges i ∈ X állapot esetén egyszeruen potba való visszatérések számának várható értéke. Legyen a Markov-lánc kezdeti elosz˝ lása P(X0 = i) = 1, azaz induljon ki a Markov-lánc az i állapotból 1 valószínuséggel. Ekkor a visszatérések számának várható értéke ∞ ∞ ∞ ∞ P(Xk = i | X0 = i) = pii (k). P(Xk = i) = I(Xk = i) = E k=1
k=1
k=1
k=1
A tétel állítása szerint egy i ∈ X állapot akkor és csak akkor visszatér˝o, amikor a visszatérések számának várható értéke végtelen. ˝ n → ∞ melletti aszimptotikus A pij (n) n-lépéses átmenetvalószínuségek tulajdonságával foglalkozik a következ˝o tétel. 13.26. T ÉTEL . Ha a j ∈ X állapot nem visszatér˝o, akkor tetsz˝oleges i ∈ X állapotra igaz ∞ pij (n) < ∞ és lim pij (n) = 0. n=1
n→ ∞
224
III. A sztochasztikus folyamatok alapjai
Bizonyítás. Az el˝oz˝o tétel bizonyításával analóg módon nyerjük, hogy ∞
pij (n) =
n=1
=
∞ n
fij (k)pjj (n − k) =
n=1 k=1 ∞
∞
k=1
n=k
fij (k)
∞
pjj (n − k) = fij
pjj (n).
n=1
Minthogy a j állapot nem visszatér˝o, ezért ∞
∞
pjj (n) < ∞, így fij ≤ 1 miatt
n=1
pij (n) < ∞,
n=1
amely egyben a tétel második állítását is kiadja.
Belátjuk most, hogy egy i visszatér˝o állapot jellemezhet˝o azzal is, hogy 1 valószínuséggel ˝ végtelen sokszor tér vissza a Markov-lánc ugyanabba az i állapotba. Vezessük be a következ˝o jelöléseket. (j)
Ak = {Xt = j teljesül végtelen sok t ≥ k id˝opontban}, k ≥ 1, (j)
Bk = {t ≥ 1 id˝opontok közül el˝oször a k-ban teljesül Xk = j}, k ≥ 1, (j)
Ck (N) = {Xt = j fennáll legalább N különböz˝o t ≥ k id˝opontban}, t ≥ 0. 13.27. T ÉTEL . Az i ∈ X állapot visszatér˝o, vagy átmeneti aszerint, hogy az (i) rii = P A1 | X0 = i mennyiség értéke 1, vagy 0. ˝ hogy Bizonyítás. Jelölje tetsz˝oleges N ≥ 1 esetén rii (N) azt a valószínuséget, a Markov-lánc legalább N-szer visszatér az i állapotba azon feltétel mellett, hogy X0 = i: (i)
rii (N) = P C1 (N) | X0 = i .
Világos, hogy ez a valószínuség ˝ felbontható olyan valószínuségek ˝ összegére, hogy a Markov-lánc el˝oször pontosan a k id˝opontban tér vissza az i állapotba, s ezután még legalább (N − 1)-szer visszatér oda az X0 = i feltétel mellett (támaszkodva a Markov-tulajdonságra): ∞ (i) (i) P Bk Ck+1 (N − 1) | X0 = i = rii (N) =
= =
k=1 ∞ k=1 ∞ k=1
(i) (i) P Bk | X0 = i P Ck+1 (N − 1) | Xk = i = fii (k)rii (N − 1) = fii rii (N − 1).
225
13. Markov-la´ncok
Ismételten felhasználva ezt az azonosságot, kapjuk, hogy rii (N) = (fii )N . Mivel rii = limN→ ∞ rii (N), ezért rii = 0, vagy 1 aszerint, hogy fii < 1, vagy fii = 1 azaz az i állapot átmeneti, vagy visszatér˝o. 13.28. T ÉTEL . Ha az i,j ∈ X állapotok kapcsolódók, és osztályuk visszatér˝o, akkor igaz ∞ fij = k=1 fij (k) = 1. Bizonyítás. Jelentse Ek , k = 1,2,... azt az eseményt, hogy kiindulva az i állapotból a Markov-lánc a (k − 1)-edik és a k-adik visszatérés között eljut a j állapotba is. Nem nehéz meggy˝oz˝odni arról, hogy a Markov-tulajdonság mi˝ megatt az Ek események függetlenek. Az is világos, hogy valószínuségeik egyeznek és mivel i,j állapotok érintkez˝oek, ezért ez a valószínuség ˝ pozitív. ∞ Így kapjuk, hogy k=1 P(Ek ) = ∞, és a Borel–Cantelli-lemma szerint az Ek , k = 1,2,... események közül 1 valószínuséggel ˝ végtelen sok bekövetkezik és &∞ &∞ fennáll P( k=1 Ek ) = 1. Innen kapjuk, hogy fij = P( k=1 Ek ) = 1. 13.29. KÖVETKEZMÉNY. Ha az i,j ∈ X állapotok kapcsolódók, és osztályuk visszatér˝o, akkor (j) rij = P A1 | X0 = i = 1. Bizonyítás. rij = =
∞ ∞ (j) (j) (j) (j) P Bk ,Ak+1 | X0 = i = P Bk ,A1 | X0 = i = k=1 ∞
k=1
fij (k)rii = fij rjj .
k=1
Feltételeink mellett az el˝oz˝o két tétel szerint rjj = 1, fij = 1, így azt kaptuk, hogy rij = 1. 13.30. P ÉLDA (V ISSZATÉRO˝ M ARKOV- LÁNC ). Korábbi példánkban már szerepelt a véletlen bolyongás a számegyenesen. Kiindulva az origóból, egy részecske véletlenszeruen ˝ mozog egy egységnyit jobbra, illetve balra, p, illetve 1 − p valószínuséggel ˝ (0 < p < 1). Ebben az esetben a részecske mozgását leíró folyamat homogén Markov-lánc, X = {0,±1,±2,...} állapottérrel és p, ha j = i + 1 pij = 1 − p, ha j = i − 1 0, ha |i − j| = 1 egylépéses átmenet-valószínuséggel. ˝ Világos, hogy a Markov-lánc irreducibilis és a periódusa pontosan 2. Kérdés, hogy az állapotai vajon visszatér˝oek-e?
226
III. A sztochasztikus folyamatok alapjai
Ennek a kérdésnek az eldöntéséhez vizsgáljuk meg az n-lépéses visszatérési valószínuségek ˝ összegét. Könnyu˝ észrevenni, hogy p00 (2k + 1) = 0, k = 0,1,... Másrészr˝ol az is világos, hogy a 0 állapotba a részecske 2k lépés alatt csak akkor tér vissza, amikor jobbra is, balra is (tetsz˝oleges sorrendben) pontosan k lépést tesz. Ennek a valószínusége ˝ 2k k (2k)! p (1 − p)k = [p(1 − p)]k . p00 (2k) = k k!k! A Stirling-formula szerint k!-ra k → ∞ mellett a következ˝o aszimptotika adódik k k √ 2πk, k! ≈ e ennek felhasználásával a következ˝o aszimptotikát kapjuk p00 (2k) ≈
2k e
2k
−2 k [4p(1 − p)]k k √ √ 2π(2k) 2πk [p(1 − p)]k = . e πk
A számláló könnyen becsülhet˝o a számtani és mértani közepek között fennálló egyenl˝otlenség segítségével p(1 − p) ≤
p + (1 − p) 2
2
1 = , 4
ahol az egyenl˝oség csak abban az esetben áll fenn, amikor p = 1 − p, vagyis p = 1/2, és az összes többi esetben a szorzat kisebb 1/4-nél. Ez azt jelenti, hogy a p00 (2k) visszatérési valószínuségek ˝ sora egyedül a p = 1/2 esetben (szimmetrikus bolyongás) divergens, az összes többi esetben mindig konvergens. A korábbi tételünk következményeként azt kapjuk, hogy csak a szimmetrikus esetben lesz a Markov-lánc 0 állapota – és így az irreducibilitás miatt az összes többi állapota is – visszatér˝o. Megjegyezzük, hogy hasonló eredményre jutunk abban az esetben, amikor a számegyenes helyett a sík egész értéku˝ pontjaiban nézzük a véletlen bolyongást. Belátható, hogy a szimmetrikus bolyongás esetén, amikor a részecske véletlenszeruen ˝ mozog egy egységnyit jobbra, balra, felfelé, vagy lefelé egyaránt 1/4–1/4 valószínuséggel, ˝ akkor a (0,0) állapot visszatér˝o. Nem szimmetrikus bolyongás esetén nincs visszatér˝o állapot. Érdekes megjegyezni, hogy 2-nél magasabb dimenzióban a Markov-lánc már szimmetrikus esetben sem lesz visszatér˝o.
227
13. Markov-la´ncok
13.5. Homoge ´n Markov-la ´ncok alapvet˝ o hata ´reloszla ´s te ´tele Tekintsük az X homogén Markov-láncot X = {0,1,...} állapottérrel, ˝ P = (pij )i,j∈X (egylépéses) átmenetvalószínuség-mátrixszal, {pi = P(X0 = i), i ∈ X} kezdeti eloszlással, és π(n) = {πi (n) = P(Xn = i), i ∈ X} id˝ot˝ol függ˝o eloszlással. A legfontosabb kérdés, amit vizsgálni fogunk most az, hogy mikor létezik a ˝ m → ∞ mellett, valamint a Marpij (m) m-lépéses átmenetvalószínuségeknek kov-lánc id˝ot˝ol függ˝o π(n) eloszlásának n → ∞ esetén határértéke, és hogyan határozhatók meg. E kérdések szorosan összefüggnek a Markov-lánc visszatér˝o állapotaival, vagyis az olyan i ∈ X állapotokkal, amelyekre teljesül fii = ∞ k=1 fii (k) = 1. Itt megjegyezzük, hogy a visszatér˝o tulajdonság nem függ a Markov-lánc kezdeti eloszlásától. Visszatér˝o állapotokra az n-lépéses átmenetvalószínuségek ˝ aszimptotikus tulajdonsága, a nem nulla határérték létezése attól függ, hogy a visszatérési ∞ id˝onek létezik-e véges µi = k=1 kfii (k) < ∞ várható értéke. E feltétel teljesülése szerint tovább osztályozzuk az állapotokat. 13.31. D EFINÍCIÓ . Egy i ∈ X állapotot visszatér˝o pozitív, vagy nemnullaállapotnak nevezünk, ha µi véges és visszatér˝o nullaállapotnak, ha µi = ∞. 13.32. T ÉTEL . Legyen az X homogén Markov-lánc irreducibilis, visszatér˝o és aperiodikus. Ekkor az összes i,j ∈ X állapotra teljesül lim pij (n) =
n→ ∞
1 . µj
Megjegyezzük, hogy a tétel nem csak a határértékeket adja meg, hanem egyben megvilágítja a bevezetett nemnullaállapot és nullaállapot fogalmát is. Eszerint egy visszatér˝o j állapot nemnullaállapot, ha 1/µj > 0 és nullaállapot, ha 1/µj = 0 (itt és a továbbiakban 1/∞ = 0 konvencióval fogunk élni). A tételbeli aszimptotikus viselkedés szoros összefüggésben van a 13.22. tételben bizonyított diszkrét felújítási egyenlettel, melyre elég általános feltételek mellett bizonyíthatók konvergencia-tételek. Ennek lényegét a következ˝o eredmény (Erd˝os, Feller, Pollard) mutatja, melyet bizonyítás nélkül közlünk. ˝ a nemnegatív egészeLegyen {qk , k ≥ 0} tetsz˝oleges valószínuségeloszlás ∞ ken (qk ≥ 0, k=0 qk = 1) és tegyük fel, hogy a {qk } eloszlás nem rácsos, azaz a qk > 0 feltételnek eleget tev˝o indexek legnagyobb közös osztója 1. 13.33. L EMMA . Ha a {vn , n ≥ 0} számsorozat kielégíti a v0 = 1,
vn =
n k=1
qk vn−k ,
n≥1
228
III. A sztochasztikus folyamatok alapjai
diszkrét felújítási egyenletet, akkor lim vn =
ahol µ =
n→ ∞
∞
k=0 kqk
1 , µ
és 1/µ = 0 ha µ = ∞.
A Tétel bizonyításához szükség lesz még egy eredményre az analízisb˝ol. 13.34. L EMMA . Legyen a {qk } számsorozat olyan, mint az el˝oz˝o lemmában. Ha a {wn , n ≥ 0} számsorozat konvergens, limn→ ∞ wn = w, akkor lim
n→ ∞
n
qk wn−k = w.
k=0
Bizonyítás. Világos, hogy {wn } egyenletesen korlátos és így valamely véges ∞ W szám mellett |wn | ≤ W, n ≥ 0. A limn→ ∞ wn = w és k=0 qk = 1, qk ≥ 0 feltételekb˝ol következik, hogy tetsz˝oleges Z > 0 mellett van olyan N(Z) és K(Z) egész szám, hogy |wn − w| < ε, n ≥ N(ε)
∞
és
qk < ε.
k=K(ε)
Könnyu˝ ellen˝orizni, hogy n > max(N(ε),K(ε)) mellett ∞ n |wn − w| ≤ qk w ≤ qk wn−k − k=0
k=0
n
K(ε)
≤
qk |wn−k − w| +
k=0
qk ε +
k=0
n
qk (W + |w|) +
∞
qk |w| ≤
k=n+1
k=K(ε)+1
K(ε)
≤
qk |wn−k − w| + ∞
qk |w| ≤
k=n+1
k=K(ε)+1
≤ ε + ε(W + |w|) + ε|w| = ε(1 + W + 2|w|). Minthogy ε akármilyen kicsinek választható, így innen közvetlenül adódik a wn → w, n → ∞ konvergencia. A 13.32. tétel bizonyítása. El˝oször i = j mellett igazoljuk az állítást. A diszkrét felújítási egyenlet szerint pii (0) = 1,
pii (n) =
n
fii (k)pii (n − k), n = 1,2,...,
k=1
ahol az i állapot visszatér˝o tulajdonsága következtében fii =
∞ k=1
fii (k) = 1.
229
13. Markov-la´ncok
Felhasználva a 13.33. lemma eredményét kapjuk, hogy lim pii (n) =
n→ ∞
1 . µi
Legyenek most i,j ∈ X egymástól különböz˝o állapotok és alkalmazzuk a 13.34. lemmát. A feltételek szerint a Markov-lánc irreducibilis és visszatér˝o, ∞ így fij = k=1 fij (k) = 1 (fij (k) ≥ 0). Ekkor n → ∞ mellett pij (n) =
n
fij (k)pjj (n − k) → lim pjj (r) = r→ ∞
k=1
1 . µj
A most bizonyított eredmények könnyen átvihet˝ok periodikus Markov-láncokra is. Legyen X homogén, d periódusú (d > 1), irreducibilis, visszatér˝o Markov-lánc. Ebben az esetben az X állapottér felbontható páronként diszjunkt X0 ,X1 ,...,Xd−1 ciklikus osztályokra. Tetsz˝oleges 0 ≤ k,m ≤ d − 1 esetén bármely i ∈ Xk állapotból kiindulva pontosan d lépésszám múlva kerülhetünk vissza el˝oször pozitív valószínuséggel ˝ egy Xk -beli állapotba és pontosan m − k, ha k < m l= m − k + d, ha m ≤ k lépés múlva egy Xm -beli állapotba, egyébként pij (s) = 0, ha s−l nem osztható d-vel. 13.35. T ÉTEL . Legyen a Markov-lánc homogén, irreducibilis, visszatér˝o d > 1 periódussal, i ∈ Xk , j ∈ Xm pedig tetsz˝oleges állapotok. Ekkor lim pij (l + nd) =
n→ ∞
ahol µj =
∞
k=1 kfjj (k) =
d , µj
∞
r=1 rdfjj (rd).
Bizonyítás. Legyen el˝oször k = m, ekkor az i,j ∈ Xk állapotok mellett vizs˝ Ez pontosan ugyanazt jelenti (ld. gáljuk a pij (nd) átmenetvalószínuségeket. 13.21. következmény), mintha azt az X Markov-láncot vizsgálnánk, melynek P = Pd , ahol P az ˝ állapottere Xk és egylépéses átmenetvalószínuség-mátrixa eredeti Markov-lánc egylépéses átmenetvalószínuség-mátrixát ˝ jelöli. Világos, hogy ebben az esetben a származtatott X Markov-lánc már homogén, irreducibilis, visszatér˝o és aperiodikus lesz. Figyelembe véve, hogy az X Markovlánc egylépéses átmenetvalószínuségeire ˝ teljesül pij = pij (d), ezért a Markovláncokra bizonyított határeloszlás tételünk felhasználásával kapjuk, hogy lim pii (n) = lim pii (nd) = ∞ n→ ∞
n→ ∞
k=1
1 kfii (kd)
= ∞ k=1
d kdfii (kd)
=
d . µi
230
III. A sztochasztikus folyamatok alapjai
Tegyük fel most, hogy k = m. Ekkor, mivel fij (k) = 0, pij (k) = 0, ha k = ∞ l + nd, n ≥ 0, és X Markov-lánc visszatér˝osége miatt fij = r=1 fij (l + rd) = 1, ezért n → ∞ mellett adódik, hogy pij (l + nd) =
l+nd
fij (k)pjj (l + nd − k) =
k=1
n
fij (l + rd)pjj (rd) →
r=1
d . µj
Ezzel befejeztük a 13.35. tétel bizonyítását.
13.36. KÖVETKEZMÉNY. Ha az X homogén Markov-lánc irreducibilis, és valamely i ∈ X állapota pozitív visszatér˝o, akkor minden egyes állapota pozitív visszatér˝o. Bizonyítás. Legyen j ∈ X tetsz˝oleges. Mivel a Markov-lánc irreducibilis, ezért létezik olyan s,t > 0, hogy teljesül pij (s) > 0, pji (t) > 0 és így a 13.24. tétel következtében a Markov-lánc visszatér˝o is. Jelölje a Markov-lánc periódusát d. Világos, hogy d > 0, mivel pii (s + t) ≥ pij (s)pji (t) > 0. Ha d = 1, akkor az állítás következik a 13.32. tételb˝ol. Legyen most d > 1. Minthogy pjj (s + nd + t) ≥ pji (t)pii (nd)pij (s) > 0, és a ciklikus osztályokra tett észrevétel szerint (ld. 13.35. tétel el˝ott) pjj (s+nd+ t) > 0 csak akkor állhat fenn, amikor s+t osztható d-vel, vagyis s+t = k·d, így innen és a 13.35. tétel alapján n → ∞ határátmenettel következik, hogy lim pjj ((n + k)d) =
n→ ∞
d d ≥ pji (t)pij (s) lim pii (nd) = pji (t)pij (s) > 0, n→ ∞ µj µi
vagyis ha i visszatér˝o nemnulla állapot, akkor j is az.
Az eddig bizonyított tételek összefoglalásaként a következ˝o állítást fogalmazhatjuk meg. 13.37. T ÉTEL . Legyen X homogén irreducibilis Markov-lánc. Ekkor az összes állapot vagy mind aperiodikus, vagy pedig mind periodikus ugyanazzal a periódussal; vagy mind átmeneti, vagy mind visszatér˝o és azon belül: –
vagy mind nemnullaállapot,
–
vagy mind nullaállapot.
Staciona ´rius eloszla ´s le ´teze ´se
A korábbi jelöléseinknek megfelel˝oen tetsz˝oleges n ≥ 0 id˝opontban πi (n) = P(Xn = i),
i∈X
231
13. Markov-la´ncok
jelöli a Markov-lánc eloszlását. Ekkor π(0) = (πi (0) = pi ,i ∈ X) nem más, mint a kezdeti eloszlás. 13.38. D EFINÍCIÓ . Egy π = (πi ,i ∈ X) eloszlást stacionárius eloszlásnak nevezünk, ha kezdeti eloszlásnak választva tetsz˝oleges n ≥ 0 id˝opontban fennáll a πi (n) = πi , i ∈ X azonosság. Ezt az eloszlást szokás egyensúlyi eloszlásnak is nevezni. Markov-láncok vizsgálatánál az egyik legfontosabb feladat a stacionárius eloszlás létezésének bizonyítása és ezután az eloszlás meghatározása. Míg a ˝ konvergenciájával foglalkozott, itt 13.32. tétel a pij (n) átmenetvalószínuségek a π(n) id˝ot˝ol függ˝o eloszlás n → ∞ határértékének létezésével fogunk foglalkozni, amely ha létezik, egyben megadja a stacionárius eloszlást is. 13.39. T ÉTEL . Legyen az X Markov-lánc homogén, irreducibilis és aperiodikus. (A) Ekkor tetsz˝oleges i ∈ X állapot esetén létezik a πi = lim πi (n) = n→ ∞
1 µi
határérték, amely nem függ a kezdeti eloszlástól. Ha minden állapot átmeneti, vagy visszatér˝o nullaállapot, akkor nem létezik stacionárius eloszlás és minden i ∈ X-re fennáll πi = 0. (B) Ha minden állapot visszatér˝o nemnullaállapot, akkor létezik a π = (πi ,i ∈ X) stacionárius eloszlás és minden i ∈ X-re πi = 1/µi > 0. Ekkor a stacionárius eloszlás ˝ meghatározható a következ˝o lineáris egyenletrendszerb˝ol egyértelmuen 1=
(13.1)
πi ,
i∈X
πi =
πj pji ,
i ∈ X.
(13.2)
j∈X
13.40. M EGJEGYZÉS . Mivel a Markov-lánc irreducibilis, ezért a (B) részben a pozitív visszatér˝oséget elegend˝o egy állapotra megkövetelni, innen automatikusan következik a többi állapotra is. A tétel (13.2) egyenlete átírható a könnyebben áttekinthet˝o π = πP mátrixalakba is, ˝ ahol π = (π0 ,π1 ,...) és P a homogén Markov-lánc egylépéses átmenetvalószínuségmátrixa. A (13.1), illetve (13.2) egyenletekben nem játszik semmiféle szerepet a kezdeti eloszlás, ezért világos, hogyha létezik a π stacionárius eloszlás, akkor független a kezdeti ˝ eloszlástól és csakis a P átmenetvalószínuség-mátrixtól függ. A 13.39. tétel bizonyítása. (A) A teljes valószínuség ˝ tétele szerint πi (n) = P(Xn = i) =
j∈X
P(Xn = i | X0 = j)P(X0 = j) =
j∈X
pij (n)pj .
232
III. A sztochasztikus folyamatok alapjai
Mivel pj ≥ 0, j∈X pj = 1, továbbá pij (n)-ek egyenletesen korlátosak, ezért szabad elvégezni az n → ∞ határátmenetet tagonként a sorban, így kapjuk, hogy 1 1 pj = . lim pji (n)pj = πi = lim πi (n) = n→ ∞ n→ ∞ µi µi j∈X
j∈X
(B) Minthogy minden n ≥ 0 mellett P(n) = (pij (n))i∈X sztochasztikus mátrix, ezért sorainak összege 1, így tetsz˝oleges n,m ≥ 0 esetén fennáll 1=
∞
pij (n) ≥
j=0
m
pij (n),
j=0
ahonnan a 13.32. tétel és a bizonyított (A) állítás felhasználásával nyerjük lim
m
n→ ∞
pij (n) =
m
πj ≤ 1.
j=0
j=0
Mivel ez az egyenl˝otlenség tetsz˝oleges m-re teljesül, ezért nyilvánvalóan igaz a teljes sorra is, azaz ∞ πj ≤ 1. (13.3) j=0
∞ Bebizonyítjuk most a fordított irányú j=0 πj ≥ 1 egyenl˝otlenséget, ami az el˝oz˝ovel együtt igazolja a (13.1) egyenletet, miközben megkapjuk a (13.2) egyenletet is. A Chapman–Kolmogorov egyenletb˝ol adódik, hogy tetsz˝oleges i,j ∈ X és n,m ≥ 0 esetén pij (n + 1) =
∞
pik (n)pkj ≥
m
pik (n)pkj .
k=0
k=0
Véve az n → ∞ határátmenetet, m-ben egyenletesen kapjuk (pij (n + 1) → πj , pik → πk ) m πk pkj ≤ πj . k=0
Minthogy ez minden m mellett igaz, elvégezhet˝o az m → ∞ határátmenet is, így ∞ πk pkj ≤ πj . (13.4) k=0
Másrészr˝ol az el˝obb igazolt (13.3) egyenl˝otlenség felhasználásával látható, hogy ∞ ∞ ∞ ∞ ∞ ∞ πj ≥ πk pkj = πk pkj = πj , 1≥ j=0
j=0 k=0
k=0
j=0
j=0
233
13. Markov-la´ncok
emiatt a (13.4) egyenl˝otlenségben minden j-re egyenl˝oségnek kell teljesülnie, azaz fennáll ∞ πj = πk pkj , j = 0,1,... (13.5) k=0
Ez az egyenlet egyébként nem más, mint a bizonyítandó (13.2) összefüggés. A (13.5) egyenlet ismételt felhasználásával kapjuk, hogy πj = =
∞
pkj πk =
k=0 ∞
∞
pkj
k=0
πm
m=0
∞
∞
πm pmk =
m=0 ∞
pmk pkj =
k=0
πm pmj (2),
j = 0,1,...
(13.6)
m=0
Megismételve ezt a gondolatmenetet az adódik, hogy tetsz˝oleges n ≥ 1 esetén igaz ∞ πm pmj (n), j = 0,1,... (13.7) πj = m=0
∞
Minthogy a m=0 πm sor konvergens (≤ 1), pmj (n) ≤ 1 egyenletesen korlátos minden indexre, továbbá pmj (n) → πj , n → ∞, ezért (13.7)-ben az összegzésen belül szabad elvégezni az n → ∞ határátmenetet (a baloldal eközben változatlan marad): πj = lim
∞
n→ ∞
=
∞
πm pmj (n) =
∞ m=0
m=0
πm πj = πj
∞
πm ,
πm lim pmj (n) = n→ ∞
j = 0,1,...
m=0
m=0
Minthogy j visszatér˝o nemnullaállapot, ezért πj = 1/µj > 0, így az osztás után, melyet szabad elvégezni, adódik a (13.1) összefüggés: ∞
πm = 1.
m=0
Mivel a (13.5) egyenlettel bebizonyítottuk (13.2)-t, ezért csak annak igazolása maradt hátra, hogy a {πi ,i ∈ X} stacionárius eloszlás egyértelmuen ˝ meghatározható a (13.1), (13.2) lineáris egyenletrendszerb˝ol, vagyis ennek az egyenletrendszernek a {πi = 1/µj ,i ∈ X} megoldás az egyedüli megoldása. Tegyük fel az állítással ellentétben, hogy létezik más {πi ,i ∈ X} megoldása is a (13.1), (13.2) egyenletrendszernek. Felhasználva (13.2)-t, (13.7)-hez hasonlóan kapjuk, hogy ∞ ∞ ∞ ∞ ∞ pmk pkj = pkj πk = pkj πm pmk = πm πj = k=0
k=0
m=0
m=0
k=0
234
III. A sztochasztikus folyamatok alapjai
=
∞
pmj (2) = ··· = πm
∞
πm pmj (n),
j = 0,1,...,n ≥ 1
m=0
m=0
∞ sor abszolút konvergens, pmj (n) egyenletesen korláItt is igaz, hogy m=0 πm tos, ezért szabad az összegben tagonként elvégezni az n → ∞ határátmenetet, így ∞ ∞ πj = πj πm = πj , πm πj = m=0
m=0
vagyis a (13.1), (13.2) egyenletrendszernek egy és csak egy megoldása van, éspedig a π = (1/µ0 ,1/µ1 ,...) vektor. Megjegyezzük, hogy abban az esetben, amikor létezik stacionárius eloszlás, egyszeruen ˝ bizonyítható, hogy kielégíti a (13.2) lineáris egyenletrendszert. Ugyanakkor ez a megközelítés egy iterációs eljárást is kínál (ld. a (13.8) egyenletet alább). Ez az eljárás különösen véges állapottér esetén jól alkalmazható. A homogén Markov-lánc tetsz˝oleges n = 0,1,... id˝opontbeli π(n) = (π0 (n),π1 (n),...) eloszlására fennáll a π(n) = π(n − 1)P. egyenlet. Megismételve ezt az összefüggést adódik, hogy π(n) = π(0)Pn ,
n = 0,1,...
(13.8)
Minthogy feltettük, hogy létezik a π stacionárius eloszlás, ezért írhatjuk, hogy π = lim π(n), n→ ∞
így a lim π(n) = lim π(n − 1)P,
n→ ∞
n→ ∞
egyenletb˝ol következik π = πP. 13.41. D EFINÍCIÓ . Egy i ∈ X állapotot a Markov-lánc ergodikus állapotának nevezzük, ha az i állapot apriódikus, visszatér˝o nemnullaállapot (d(i) = 1, fii = 1, µi < ∞). Azt mondjuk, hogy a Markov-lánc ergodikus, ha minden állapota ergodikus. A fentiek szerint a tételbeli tulajdonságokkal rendelkez˝o, pozitív visszatér˝o Markov-lánc mindig ergodikus. Mivel egy homogén, véges állapotteru, ˝ irreducibilis Markov-lánc mindig pozitív visszatér˝o, ezért igaz az alábbi állítás is. ˝ homogén, irreducubilis Markov-lánc mindig er13.42. T ÉTEL . Egy véges állapotteru, godikus.
235
13. Markov-la´ncok
Markov-láncok gyakorlati alkalmazásában az ergodikus eloszlások alapvet˝o szerepet játszanak. Az alábbiakban megadunk bizonyítás nélkül két tételt, melyek elégséges feltételeket biztosítanak az ergodikus eloszlás létezésére homogén, irreducibilis, aperiodikus Markov-láncok esetén, ezenkívül az els˝o tétel a (13.8) iterációs eljárás konvergenciasebességére is becslést ad. 13.43. T ÉTEL (B ERNSTEIN ). Tegyük fel, hogy létezik olyan i0 ∈ X és λ > 0, hogy minden i ∈ X állapot mellett teljesül a pii0 ≥ λ egyenl˝otlenség. Ekkor lim pij (n) = πj ,
n→ ∞
i,j ∈ X,
ahol π = (πi ,i ∈ X) jelöli az ergodikus eloszlást, továbbá | pij (n) − πj | ≤ 2(1 − λ)n , n ≥ 1. j∈X
13.44. T ÉTEL (K LIMOV ). Ha az X = {0,1,...} állapotokhoz található olyan g(i), i ∈ ˝ teljesül X nemnegatív függvény, valamint ε > 0, i0 ∈ X , hogy 1 valószínuséggel E(g(Xn+1 ) | Xn = i) ≤ g(i) − ε,
i ≥ i0 , n ≥ 0,
E(g(Xn+1 ) | Xn = i) < ∞,
i ≥ 0, n ≥ 0,
akkor az X Markov-lánc ergodikus.
13.6. Ergodikus te ´telek Markov-la ´ncokra Legyen az X homogén, irreducibilis visszatér˝o Markov-lánc X = {0,1,...} állapottérrel. Tekintsünk egy tetsz˝olegesen rögzített i ∈ X állapotot és nézzük meg annak relatív gyakoriságát, hogy egy megadott T hosszúságú id˝ointervallumon a folyamat az id˝o hányad részében tartózkodik az i állapotban. Jelölje Si (T ) =
T
I(Xn = i),
n=0
Si (T ) =
T 1 1 I(Xn = i) = Si (T ). T T n=0
A legfontosabb kérdés ami itt felmerül az, hogy létezik-e valamilyen értelem˝ változóknak T → ∞ mellett? ben határértéke az Si (T ) valószínuségi Ahhoz, hogy ennek a problémának a valószínuségelméleti ˝ hátterét megvi(i) (i) lágítsuk, vezessük be a következ˝o jelöléseket: jelölje 0 ≤ T1 < T2 < ··· azokat az egymást követ˝o véletlen id˝opontokat, amelyekben a Markov-lánc az i állapotba kerül, vagyis az i állapot els˝o elérési, illetve visszatérési id˝opontjainak (i) (i) (i) sorozatát. Ez azt jelenti, hogy X(Tn ) = i és X(k) = i, ha k = T1 ,T2 ,... Jelölje (i)
(i)
τ1 = T1 ,
(i)
(i)
(i)
τ2 = T2 − T1 ,
...
236
III. A sztochasztikus folyamatok alapjai
az els˝o elérési, illetve az egymást követ˝o visszatérési id˝ohosszakat. A Markovtulajdonság miatt – ahogyan ezt már korábban megjegyeztük – ezek a való(i) színuségi ˝ változók függetlenek és {τn ,n ≥ 2} azonos eloszlásúak is. A közös ˝ eloszlás nem más, mint az {fii (n),n ≥ 1} n-lépéses visszatérési valószínuségek. (i) Ha a folyamat a 0 id˝opontban az i állapotból indul ki, akkor τ1 eloszlása is megegyezik a többiével. Heurisztikusan világos, hogyha a visszatérési id˝o várható értéke µi , akkor T id˝o alatt átlagosan T/µi -szer tér vissza az i állapotba, vagyis átlagosan ennyiszer tartózkodik a folyamat az i állapotban és így az Si (T ) mennyiség 1/µi körül ingadozik. Ez a körülmény természetesen matematikailag egzakttá tehet˝o és általánosabban is megfogalmazható. 13.45. T ÉTEL . Ha X homogén, irreducibilis visszatér˝o Markov-lánc, akkor 1 valószí˝ nuséggel igaz a következ˝o konvergencia lim Si (i) =
T→∞
1 = πi , µi
i ∈ X.
A Markov-tulajdonság következtében nemcsak a visszatérési id˝ointervallumok, mint valószínuségi ˝ változók függetlenek egymástól, hanem az egymást követ˝o visszatérési id˝ointervallumokon az egyes folyamatszakaszok is. Ez lehet˝ové teszi az el˝oz˝o tételnél jóval általánosabb eredmények bizonyítását is. 13.46. T ÉTEL . Legyen X homogén, irreducibilis pozitív visszatér˝o Markov-lánc. Le gyen g(i), i ∈ X olyan valós függvény, amelyre i∈X πi |g(i)| < ∞. Akkor 1 valószí˝ nuséggel igaz a következ˝o konvergencia T 1 g(Xn ) = πi g(i), T→∞ T
lim
n=0
i∈X
ahol {πi ,i ∈ X} a Markov-lánc ergodikus eloszlását jelöli, amely a megadott feltételek mellett biztosan létezik.
´ tmenetvalo 13.7. A ´szı´n˝ use ´gek becsle ´se Markov-láncokkal történ˝o gyakorlati modellezések során az egyik legfontosabb kérdés a paraméterek becslése. A relatív gyakoriság a 13.45. tétel szerint 1 valószínuséggel ˝ tart az ergodikus eloszláshoz (az adott feltételek teljesülése esetén), így ez megfelel˝o becslése az ergodikus eloszlásnak. A vázolt heurisztikus gondolatmenetb˝ol az is kiderül, hogy elég általános feltételek mellett centrális határeloszlás tétel is bizonyítható rájuk. Nézzük meg most az átmenetvalószínuségek ˝ becslését. Legyen X homogén ergodikus Markov-lánc véges X = {0,1,...,N} állapottér˝ Tegyük fel, rel és P = (pij )i,j∈X egylépéses átmenetvalószínuség-mátrixszal. hogy egy rögzített kiinduló x0 = i0 állapot mellett rendelkezésünkre áll egy
237
13. Markov-la´ncok
n elemu˝ x1 = i1 ,...,xn = in megfigyelés és ennek alapján szeretnénk megbecsülni a P mátrix elemeit. Esetünkben könnyen felírható a likelihood-függvény a Markov-tulajdonság alapján P(X1 = i1 ,...,Xn = in | X0 = i0 ) = pi0 i1 ···pin−1 ,in . Jelölje nij , i,j ∈ X az X0 = i0 ,...,Xn = in sorozatban az i-b˝ol j-be történ˝o egylépéses átmenetek számát és legyen 00 = 1, 0/0 = 0. Ekkor az X0 = i0 feltétel melletti likelihood-függvény N N pnij . L(i1 ,...,in ;P | i0 ) = ij i=0
j=0
Alkalmazva a maximum likelihood módszert, ezt a kifejezést kell maxima lizálnunk a pij ≥ 0, i,j ∈ X, j∈X pij = 1, i ∈ X feltételeknek eleget tev˝o paraméterek szerint. Világos, hogy különböz˝o i értékek mellett a jobboldali zárójelben szerepl˝o kifejezések között nincs semmiféle összefüggés, ezért ez az optimalizálási feladat szétesik (N + 1) azonos típusú optimalizálási feladatra: N n pijij : pij ≥ 0, pij = 1 , i = 0,1,...,N, max j=0
j∈X
ezért az optimalizációt elég egyetlen állapotra elvégezni. Jelölje ni = j∈X nij , i ∈ X. Alkalmazzuk a Lagrange-multiplikátor módszert. Ekkor N N nim nij ∂ nij pij + λ(pi0 + pi1 + ··· + piN − 1) = pij + λ = 0, ∂pim pim j=0
j=0
m = 0,...,N. Innen következik, hogy nim /pim = c, m = 0,...,N valamilyen c konstans mellett. Így N N nim = ni = c pim = c. m=0
m=0
Ennek alapján a pij átmenet-valószínuségekre ˝ a következ˝o p ^ ij =
nij ,0 ≤ i,j ≤ N ni
(feltételes) maximum-likelihood becslések adódnak. Ugyanúgy, ahogyan a relatív gyakoriságra az ergodikus eloszlás becslése esetén, a p ^ ij becslések is 1 valószínuséggel ˝ konvergálnak a becsülend˝o paraméter értékéhez n → ∞ esetén, és hasonlóképpen bizonyítható centrális határeloszlás tétel is.
238
III. A sztochasztikus folyamatok alapjai
A vizsgálatok során sokszor dönteni kell arról, hogy a megfigyelt sorozat tekinthet˝o-e független, azonos eloszlású valószínuségi ˝ változók sorozatának, vagy pedig az egymást követ˝o tagok Markov-láncot alkotnak. Ennek eldöntésére szolgálhat a következ˝o hipotézisvizsgálat. Az el˝oz˝o rész jelöléseit meg˝orizve vizsgáljuk a H0 : az X0 ,X1 ,... sorozat független azonos eloszlású nullhipotézist a H1 : az X0 ,X1 ,... sorozat (els˝orendu) ˝ Markov-láncot alkot alternatív hipotézissel szemben. N Jelölje nij = ni nj /N, ahol nj = k=0 nkj és vezessük be az R=
N N (nij − mij )2 i=0 j=0
mij
tesztstatisztikát. Ez a statisztika aszimptotikusan ekvivalens a likelihood hányadossal, és igazolható az is (Anderson, Goodman), hogy R aszimptotikusan N2 szabadságfokú χ2 -eloszlású, így ennek alapján elvégezhetjük a hipotézisvizsgálatot.
13.8. Folytonos idej˝ u Markov-la ´ncok A gyakorlati alkalmazások során számos olyan, a Markov-tulajdonságnak eleget tev˝o sztochasztikus folyamattal találkozhatunk, amelyek a folytonos id˝oskálán változhatnak, ugyanakkor a lehetséges állapotok halmaza továbbra is diszkrét. Tipikusan ilyenek a születési-halálozási folyamatok, bizonyos fizikai folyamatok (pl. fotonok id˝obeni beérkezését leíró folyamat), de a tömegkiszolgálási, készletezési folyamatok esetén is alapvet˝o szerepet játszanak ezek a folyamatok. Tekintsük az X = {X(t),t ≥ t0 } sztochasztikus folyamatot, melynek lehetséges értékei egy véges, vagy megszámlálhatóan végtelen X halmaz elemei. Itt is, mint a korábbiakban a diszkrét ideju˝ és diszkrét állapotteru˝ Markovláncoknál, az egyszeruség ˝ kedvéért feltesszük, hogy t0 = 0. Az állapotteret a véges esetben az X = {0,1,...,N} halmazzal, míg a megszámlálhatóan végtelen esetben az X = {0,1,...} halmazzal azonosítjuk. Ez mindaddig semmiféle problémához nem vezet, amíg az X halmaz csak az egyes állapotok megkülönböztetésére szolgál, a különböz˝o értékeknek konkrét jelentése nincs. Egyébként az állapottér megválasztása általában itt is praktikus szempontok alapján történik. A diszkrét ideju˝ Markov-láncokkal ellentétben itt az egyes állapotokban való tartózkodási id˝o folytonos eloszlású is lehet. Szemléltetésül nézzük meg a 13.4. ábrát, amely egy lehetséges trajektóriát ábrázol.
239
13. Markov-la´ncok
13.4. ábra.
13.47. D EFINÍCIÓ . Azt mondjuk, hogy az X sztochasztikus folyamat folytonos ideju˝ diszkrét állapotteru˝ Markov-láncot alkot, ha tetsz˝oleges n ≥ 0, 0 ≤ t1 < ··· < tn+1 és minden i1 ,...,in+1 ∈ X mellett fennáll P(X(tn+1 ) = in+1 | X(tn ) = in ,...,X(t1 ) = i1 ) = P(X(tn+1 ) = in+1 | X(tn ) = in ). A definiáló egyenlet jobboldalán szerepl˝o mennyiség alapvet˝o szerepet játszik a folytonos ideju˝ Markov-láncok leírásánál is. 13.48. D EFINÍCIÓ . A pij (s,t) = P(X(t) = j | X(s) = i), i,j ∈ X, 0 ≤ s ≤ t egyenlettel ˝ diszkrét állapotteru˝ X Markov-lánc átmenetvadefiniált függvényt a folytonos ideju, lószínuség-függvényének ˝ nevezzük. A Markov-láncot homogénnak nevezzük, ha minden i,j ∈ X, 0 ≤ s,t mellett teljesül pij (s,s + t) = pij (t). A Markov-lánc legfontosabb jellemz˝oje esetünkben is az átmenetvalószínu˝ ség-függvény és tetsz˝oleges t ≥ 0 id˝opontbeli π(t) = (π0 (t),π1 (t),...) eloszlás. Diszkrét ideju˝ Markov-láncokkal teljesen analóg módon általános esetben itt is érvényes a (most folytonos ideju) ˝ Chapman–Kolmogorov egyenlet, vagyis minden i,j ∈ X és 0 ≤ s ≤ r ≤ t esetén fennáll pij (s,t) = pik (s,r)pkj (r,t). k∈X
Ez az egyenlet homogén Markov-láncokra tovább egyszerusödik, ˝ ugyanis ebben az esetben pij (s + t) = pik (s)pkj (t), i,j ∈ X, 0 ≤ s,t. k∈X
Ha bevezetjük általános esetben a H(s,t) = (pij (s,t))i,j∈X , 0 ≤ s,t és homogén esetben a H(t) = (pij (t))i,j∈X , t ≥ 0 jelölést, akkor a Chapman–Kolmogorov egyenlet felírható a tömörebb mátrixalakba is: H(s,t) = H(s,r)H(r,t),
0 ≤ s ≤ r ≤ t,
illetve H(s + t) = H(s)H(t),
s,t ≥ 0.
240
III. A sztochasztikus folyamatok alapjai
Itt a speciális s = t = 0 esetben H(0,0) = H(0) = I, ahol I az egységmátrixot jelenti. Ha az átmenetvalószínuség-függvény ˝ eleget teszt bizonyos regularitási feltételnek, akkor a Chapman–Kolmogorov egyenlet felhasználásával (végtelen) differenciálegyenlet-rendszer vezethet˝o le rájuk. Egyszeru˝ átalakítással nyerjük, hogy H(s,t + ∆t) − H(s,t) = H(s,t)H(t,t + ∆t) − H(s,t). Mindkét oldalt elosztva ∆t-vel kapjuk, hogy H(t,t + ∆t) − I H(s,t + ∆t) − H(s,t) = H(s,t) . ∆t ∆t Ha létezik a
H(t,t + ∆t) − I = Q(t),t ≥ 0 ∆t→ 0 ∆t határérték, akkor ∆t → 0 határátmenettel adódik a lim
∂ H(s,t) = H(s,t)Q(t) ∂t differenciálegyenlet-rendszer, melyet Kolmogorov-féle direkt egyenletnek szokás nevezni, a Q(t) mátrixfüggvényt pedig a Markov-lánc infinitezimális operátorának. Teljesen hasonló módon nyerhet˝o a H(s + ∆s,t) − H(s,t) I − H(s,s + ∆s)) = H(s + ∆s,t) ∆s ∆s egyenlet, ahonnan a ∆s → 0 határátmenettel kapjuk a ∂ H(s,t) = −Q(t)H(s,t) ∂s Kolmogorov-féle fordított egyenletet. A két egyenletet szokás az intervallum végére, illetve az intervallum elejére vonatkozó Kolmogorov-egyenleteknek is nevezni. A fenti összefüggéseket – fontosságuk miatt – kifejtett formában is megadjuk. Az infinitezimálás operátor elemeire tetsz˝oleges i,j ∈ X, t ≥ 0 mellett pii (t,v) − 1 = qi (t), v↓0 v−t
lim
pij (t,v) = qij (t),i = j, v↓0 v − t
lim
qi (t) =
qij (t).
X\{i}
A végtelen differenciálegyenlet-rendszer a következ˝o alakot ölti: ∂pij (t,v) = pik (t,v)qkj (v) − pij (t,v)qj (v) ∂v
Kolmogorov-féle egyenes egyenlet
∂pij (t,v) =− qik (t)pkj (t,v) + qi (t)pij (t,v) ∂t
Kolmogorov-féle fordított egyenlet
k =j
k =j
241
13. Markov-la´ncok
Az infinitezimális operátor qij (t) eleme interpretálható úgy, mint t id˝opontban az i állapotból a j állapotba való átmenet intenzitásának a nagysága, a qi (t) mennyiség pedig úgy, mint az i állapotból való eltávozás intenzitása. Homoge ´n Markov-la ´ncok
A továbbiakban homogén Markov-láncokkal fogunk foglalkozni melyekre a ˝ kielégíti az alábbi feltételeket: pij (t), t ≥ 0 átmenetvalószínuség-függvény (1) pij (t) ≥ 0, t ≥ 0 (2) j∈X pij (t) = 1, azaz (pij (t))ij∈X minden t ≥ 0 mellett sztochasztikus mátrix (3) pij (s + t) = k∈X pik (s)pkj (t) A gyakorlati alkalmazások során alapvet˝o jelent˝oséggel bírnak azok a Markov-láncok, amelyekre egyfajta folytonossági tulajdonság teljesül a 0 pontban: 1, ha i = j (4) limt↓0 pij (t) = pij (0) = 0, ha i = j Könnyu˝ ellen˝orizni, hogy ez a tulajdonság azzal ekvivalens, hogy a Markovlánc sztochasztikusan folytonos bármely id˝opontban. Ehhez azt kell igazolni, hogy tetsz˝olegesen kicsi 0 < ε < 1 mellett fennáll az, hogy P(|X(t + s) − X(s)| > ε) → 0,
t → 0.
Minthogy a Markov-lánc homogén és a növekménye csak egész értéket vehet fel, ezért a teljes valószínuség ˝ tételének és a (4) tulajdonság felhasználásával egyszeruen ˝ adódik, hogy P(|X(t + s) − X(s)| > ε) = 1 − P(|X(t + s) − X(s)| ≤ ε) = 1 − P(X(t + s) = X(s)) = P(X(t + s) = X(s) | X(s) = i)P(X(s) = i) = = 1− i∈X
= 1−
P(X(t + s) = i) | X(s) = i)P(X(s) = i) =
i∈X
= 1−
pii (t)P(X(s) = i) →
i∈X
→ 1−
P(X(s) = i) = 0,
t → 0.
i∈X
Innen kapjuk, hogy lim P(|X(t + s) − X(s)| > ε) = 1 − lim
t→ 0
t→ 0
= 1−
i∈X
pii (t)P(X(s) = i) =
i∈X
P(X(s) = i) = 0.
242
III. A sztochasztikus folyamatok alapjai
Ennek a folytonossági tulajdonságnak a teljesülését mindig feltesszük a továbbiakban. Látni fogjuk, hogy a folytonos ideju˝ Markov-láncok legfontosabb osztályánál, a születési-halálozási folyamatoknál ez a tulajdonság automatikusan teljesül. Homogén Markov-láncokra rögzített állapotok esetén az átmenetvalószínu˝ ségek csak az id˝okülönbségt˝ol függnek, továbbá az infinitezimális operátor nem függ az id˝ot˝ol, azaz Q(t) = Q = (qij )i,j∈X , ezért a Kolmogorov egyenletek a következ˝o egyszeru˝ alakot öltik mátrix alakban, illetve kifejtett formában: dH(t) = H(t)Q, dt
dH(t) = QH(t), dt
dpij (t) = pik (t)qkj + pij (t)qjj dt k =j
dpij (t) =− qik pkj (t) − qii pij (t) dt k =j
Szu ¨ lete ´si-hala ´loza ´si folyamatok
Gyakorlati jelent˝oségük miatt a folytonos ideju˝ Markov-láncok legfontosabb osztályát a születési-halálozási folyamatok képezik. ˝ 1 valószínuséggel ˝ jobbról folytonos 13.49. D EFINÍCIÓ . Az X = {0,1,...} állapotteru, trajektóriájú X = {X(t),t ≥ 0} sztochasztikus folyamatot születési-halálozási folyamatnak nevezzük, ha ˝ a) Tetsz˝oleges k ≥ 0 állapotból a szomszédos k + 1 állapotba pk = λk /αk valószínuséggel lép a folyamat, míg k ≥ 1 esetén a k − 1 állapotba qk = µk /αk valószí˝ ˝ kerül és q0 = 1 − p0 nuséggel. A 0 állapotból az 1 állapotba p0 valószínuséggel ˝ valószínuséggel marad ott. ˝ b) Bármely k ∈ X állapotban eltöltött id˝o, mint valószínuségi változó, nem függ attól, hogy a folyamat az ebbe az állapotba való kerülése el˝ott milyen trajektóriát futott be, továbbá a tartózkodási id˝o eloszlása αk = λk + µk (λk ≥ 0, µk ≥ 0, αk > 0) paraméteru˝ exponenciális. c) Adott az {uk = P(X(0) = k,k ≥ 0} kezdeti eloszlás. Ekkor az exponenciális eloszlás emlékezetnélküli tulajdonságából egyszeruen ˝ adódik, hogy az X folyamat folytonos ideju, ˝ diszkrét X állapotteru, ˝ homogén Markov-lánc. A k → k + 1 átmenet a születést, a k → k − 1 átmenet pedig a halálozást jelenti (utóbbi esetben teljesülnie kell a k ≥ 1 feltételnek). A k értéket az adott esetben populációnagyságnak, a λk , illetve a µk paramétereket születési, illetve halálozási
243
13. Markov-la´ncok
intenzitásnak nevezzük. Speciális esetben, amikor λk = 0, k ∈ X, akkor a folyamatot tiszta halálozási folyamatnak, ha pedig µk = 0, k ∈ X, akkor tiszta születési folyamatnak nevezzük. Gyakorlatban is fontos speciális esetekhez jutunk p0 = 1, q0 = 0, illetve p0 = 0, q0 = 1 értékek mellett. Az els˝o esetben a folyamat a 0 állapotból 1 valószínuséggel ˝ az 1 állapotba kerül, míg a második esetben, ha a folyamat egyszer elérte a 0 állapotot, akkor onnan már nem mozdul ki többet. Az els˝o esetben a 0 állapotot visszaver˝o állapotnak, míg a második esetben a 0 állapotot elnyel˝o állapotnak szokás nevezni. A trajektóriákra megkövetelt jobboldali folytonosság nem alapvet˝o tulajdonság, lehetne a baloldali folytonosságot megkövetelni. A valamely irányból való félig folytonosság megkövetelése mindenképpen fontos ahhoz, hogy a folyamat minden id˝opontban jól definiált legyen, hiszen az állapotváltozások id˝opontjaiban, amelyek egyben a trajektóriák szakadási pontjai is, meg kell határoznunk a felvett értékeket. Az egyes átmenetek szokásos ábrázolását mutatja a 13.5. ábra.
13.5. ábra.
Ha a folyamatot az állapotváltozás id˝opontjaiban nézzük, és az egymás ˝ diszkutáni állapotok sorozata X = {Xn ,n = 0,1,...}, akkor egy diszkrét ideju, rét állapotteru˝ homogén Markov-lánchoz jutunk, amelyet szokás a folytonos ideju˝ Markov-lánc beágyazott Markov-láncának is nevezni. Ennek átmenetvalószínuség-mátrixa ˝ a következ˝o
0 1 2 3 .. .
0 q0 q 1 0 0 .. .
1 p0 0 q2 0 .. .
2 0 p1 0 q3 .. .
3 0 0 p2 0 .. .
4 0 0 0 p3 .. .
... ... ... ... ... .. .
A születési-halálozási folyamatok id˝ot˝ol függ˝o eloszlására mindig felírható egy lineáris differenciálegyenlet rendszer, amely a Laplace-transzformáltak bevezetésével átírható lineáris egyenletrendszerré. Az alábbi két tétel az erre vonatkozó eredményeket fogalmazza meg abban az esetben, amikor p0 = 1. Ha a 0 állapot elnyel˝o állapot, azaz p0 = 0, akkor hasonló eredmények érvényesek ebben az esetben is, melyek felírásától eltekintünk. Jelölje tetsz˝oleges
244
III. A sztochasztikus folyamatok alapjai
k ≥ 0, t ≥ 0 és mellett πk (t) = P(X(t) = k), k ≥ 0, t ≥ 0, ∞ wk (s) = e−st πk (t)dt, s > 0 0
Legyen a kezdeti eloszlás πk (0) = P(X(0) = k), k ≥ 0. 13.50. T ÉTEL . Legyen X(t) megszámlálható {0,1,...} állapotteru˝ születési-halálozási folyamat, melyre p0 = 1, 0 < pk < 1, k ≥ 1. Ekkor a következ˝o állítások igazak: A πk (t) függvények kielégítik a következ˝o differenciálegyenlet rendszert π0 (t) = −λ0 π0 (t) + µ1 π1 (t), πk (t) = λk−1 πk−1 (t) − (λk + µk )πk (t) + µk+1 πk+1 (t),
k ≥ 1.
Tetsz˝oleges s > 0 esetén a wk (s) függvényekre fennáll a következ˝o lineáris egyenletrendszer sw0 (s) − π0 (0) = −λ0 w0 (s) + µ1 w1 (s), swk (s) − πk (0) = λk−1 wk−1 (s) − (λk + µk )wk (s) + µk+1 wk+1 (s),
k ≥ 1.
Tetsz˝oleges k ≥ 0 esetén léteznek a lim πk (t) = πk
t→ ∞
határértékek, amelyek nem függnek a X(t) folyamat kezdeti {πk (0),k ≥ 0} eloszlásától. Emellett πk = 0, k ≥ 0, ∞ ha a k=0 ρk sor divergens, ahol ρ0 = 1 és ρk = (λ0 λ1 ···λk−1 )/(µ1 µ2 ···µk ), k ≥ 1. ∞ Ha a k=0 ρk sor konvergens, akkor πk > 0, k ≥ 0 és fennáll πk = ρk π0 ,
∞
πk = 1.
k=0
13.51. T ÉTEL . Legyen X(t) véges {0,1,...,N} állapotteru˝ születési-halálozási folyamat, melyre p0 = 1, 0 < pk < 1, ha 1 ≤ k ≤ N − 1 és pN = 0. Ekkor teljesülnek az alábbi állítások: A πk (t) függvények kielégítik a következ˝o differenciálegyenlet rendszert π0 (t) = −λ0 π0 (t) + µ1 π1 (t), πk (t) = λk−1 πk−1 (t) − (λk + µk )πk (t) + µk+1 πk+1 (t), (t) = λN−1 πN−1 (t) − µN πN (t). πN
1 ≤ k ≤ N − 1,
245
13. Markov-la´ncok
Tetsz˝oleges s > 0 esetén a wk (s) függvényekre fennáll sw0 (s) − π0 (0) = −λ0 w0 (s) + µ1 w1 (s), swk (s) − πk (0) = λk−1 wk−1 (s) − (λk + µk )wk (s) + +µk+1 wk+1 (s),
1 ≤ k ≤ N − 1,
swN (s) − πN (0) = λN−1 wN−1 (s) − µN wN (s). Tetsz˝oleges 0 ≤ k ≤ N esetén léteznek a lim πk (t) = πk > 0
t→ ∞
N határértékek, melyekre πj = ρj π0 , π0 = ( j=0 ρj )−1 , és ρ0 = 1, ρj = (λ0 λ1 ···λj−1 )/ (µ1 µ2 ···µj ), 1 ≤ j ≤ N. Homoge ´n, tiszta szu ¨ lete ´si folyamat
Tegyük fel az egyszeruség ˝ kedvéért, hogy a folyamat a 0 id˝opontban a 0 állapotban tartózkodik, azaz π0 (0) = 1. Homogén, tiszta születési folyamat esetén a születési intenzitás λk = λ, k ≥ 0, míg a halálozási intenzitás azonosan 0, azaz µk = 0, k ≥ 1. Ekkor a 13.50. tétel szerint a πk (t) = P(X(t) = k), k ≥ 0 függvények kielégítik a következ˝o differenciálegyenlet rendszert: d πk (t) = −λπk (t) + λπk−1 (t), dt d π0 (t) = −λπ0 (t), k = 0. dt Innen világos, hogy π0 (t) = e−λt , t ≥ 0.
k ≥ 1,
(13.9)
Ezt behelyettesítve a (13.9) egyenletbe, k = 1-re kapjuk, hogy π1 (t) = λte−λt ,
t ≥ 0.
Ezt az eljárást folytatva, teljes indukcióval adódik, hogy (λt)k −λt e ,t ≥ 0, k ≥ 0. k! Ez az eloszlás egyébként nem más, mint a λt paraméteru˝ Poisson-eloszlás. πk (t) =
13.52. D EFINÍCIÓ . A konstans λ > 0 születési intenzitású {N(t),t ≥ 0} tiszta születési folyamatot λ-intenzitású Poisson-folyamatnak nevezzük. Ekkor N(0) = 0 és tet˝ sz˝oleges t ≥ 0 mellett az N(t) valószínuségi változó λt paraméteru˝ Poisson-eloszlású. Megjegyezzük, hogy a λ > 0 paraméteru˝ {N(t),t ≥ 0} Poisson-folyamat pontosan azt a folyamatot adja meg, amely a 0-ból indul ki a 0 id˝opontban, N(t) jelenti a születések számát a t id˝opontig, az egyes születések között eltelt id˝ok, mint valószínuségi ˝ változók függetlenek egymástól és konstans λ paraméteru˝ exponenciális eloszlásúak. Számos fizikai jelenség leírásánál, tömegkiszolgálási rendszerek modellezésénél alapvet˝o szerepet játszik a Poisson-folyamat.
14 Szemi-Markov folyamatok
Legyen {L(t),t ≥ t0 } egy olyan véges, vagy megszámlálhatóan végtelen X állapotteru˝ folyamat, amely a t ≥ t0 id˝oben leírja egy rendszer valamilyen állapotát. A rendszer maga sokféle lehet: tömegkiszolgálási rendszer (pl. készletezési rendszer), fizikai rendszer, de jelentheti akár azt is, hogy egy (mozgó) gépjármu˝ adott t id˝opontban egy meghatározott min˝oségu˝ úton tartózkodik. Jelentse az állapotváltozások egymás utáni id˝opontjait t0 < t1 < t2 < ··· és az egymást követ˝o homogén szakaszok hosszát (amikor nem következik be állapotváltozás) pedig τ1 < τ2 < τ3 < ···, azaz tn = t0 + τ1 + ··· + τn , n = 1,2,... Sok fontos, gyakorlati jelent˝oséggel bíró L(t) folyamat esetén, ha a folyamatot csak az állapotváltozások id˝opontjait megadó t0 < t1 < t2 < ··· helyeken nézzük, vagyis csak az {Ln = L(tn ),n ≥ 0} sorozatot tekintjük, akkor ezen egymás utáni állapotok sorozata Markov-láncot alkot. Ebben az esetben ezt a Markov-láncot szokás az {L(t),t ≥ t0 } folyamat beágyazott Markov-láncának nevezni. Sok esetben, pl. az M|G|1 típusú tömegkiszolgálási rendszerek esetén a rendszerben tartózkodó igények számát leíró folyamat, vagy pl. egy adott úthálózaton véletlenszeruen ˝ mozgó jármu˝ esetén az útmin˝oséget leíró folyamat egzakt módon, vagy jó közelítéssel eleget tesz a következ˝o tulajdonságnak. Ha az egymást követ˝o állapotok sorozata valamilyen L0 = i0 ,L1 = i1 ,..., ij ∈ X, ak˝ kor e feltétel mellett a homogén szakaszok τ1 < τ2 < τ3 < ···, mint valószínuségi változók sorozata független és eloszlásuk csak a kezd˝o, illetve végpontban felvett állapotoktól függ, azaz P(τn < x | Ln−1 = i,Ln = j) = Fij (x),
i,j ∈ X, n = 1,2,...
Az egyik alapvet˝o kérdés, ami ilyen folyamatok esetén felmerül az, hogy adott T id˝ointervallumon egy megadott állapotban átlagosan az id˝o hányad részében tartózkodik a rendszer, illetve létezik-e ennek határértéke (T → ∞ esetén). Formálisan a következ˝or˝ol van szó. Legyen i ∈ X valamilyen állapot és
247
14. Szemi-Markov folyamatok
tekintsük a következ˝o S
(i)
1 (T ) = T
T I(L(t) = i)dt, t0
hányadost, ahol I az indikátorfüggvényt jelöli, azaz az 1, vagy 0 értéket vesz fel aszerint, hogy az argumentumban szerepl˝o feltétel teljesül, avagy nem. A (i)
kérdés az, hogy konvergens-e az S (T ) mennyiség T → ∞ mellett valami˝ és ha igen, akkor lyen qi értékhez (sztochasztikusan, vagy 1 valószínuséggel), hogyan határozhatóak meg ezek a qi , i ∈ X értékek? Az erre vonatkozó eredmények felhasználásával olyan feladatok is megválaszolhatók, mint ami a második példaként megemlített probléma esetén: egy jármu˝ (pl. autóbusz) üzemelése során a vázszerkezet pontjában ébred˝o feszültség egy id˝oegység alatt átlagosan hányszor halad meg egy el˝ore rögzített u feszültségszintet. Minthogy a feszültségszint modellezése még más, eddig nem tárgyalt fogalmakra is támaszkodik, ennek tárgyalására kés˝obb kerítünk sort. Arra kérdésre az itt kifejtend˝o eredmények alapján már fogunk tudni válaszolni, hogy a vizsgált jármu˝ átlagosan az id˝o hányad részében tartózkodik egy megadott útmin˝oségen. Ezután áttérünk a szemi-Markov folyamat matematikailag precíz meghatározására. Tekintsünk egy X ⊂ N véges, vagy megszámlálható halmazból álló állapotteret. Legyen adva az {Ln ,n ≥ 0} homogén Markov-lánc X állapottérrel ˝ és {pi ,i ∈ X} kezdeti eloszés P = (pij )i,j∈X átmenetvalószínuség-mátrixszal lással; t0 rögzített id˝opont, amely a rendszer vizsgálatának kezdetét jelenti. 14.1. D EFINÍCIÓ . Az {L(t),t ≥ t0 } lépcs˝osfolyamatot szemi-Markov-folyamatnak nevezzük {Ln = L(tn ),n ≥ 0} beágyazott Markov-lánccal, ha teljesül a) L(t) = L0 I(t0 ≤ t < t1 ) + L1 I(t1 ≤ t < t2 ) + ···, b) Az Ln Markov-lánc rögzített {Ln = in ,n ≥ 0} (in ∈ X) realizációja mellett az i1 ,i2 ,... állapotokban eltöltött t1 ,t2 −t1 ,t3 −t2 ,... véletlen id˝otartamok, mint va˝ lószínuségi változók függetlenek és fennáll P(tn − tn−1 < x | Ln = i,Ln+1 = j) = Fi,j (x),
n ≥ 1.
(Itt i és j nem feltétlenül különbözik egymástól, lehetséges a visszatérés ugyanabba az állapotba is.) Számos gyakorlati feladatnál felmerül az a probléma, hogy az els˝o homogén id˝otartam eloszlása különbözik azoktól az eloszlásoktól, amelyek a második ciklustól kezd˝od˝oen állnak fenn. Elég általános feltételek mellett az ilyen feladatok esetén is választ lehet adni a fentebb leírt kérdésekre. 14.2. D EFINÍCIÓ . Legyen {L(t),t ≥ t0 } szemi-Markov folyamat, (L∗ ,τ∗ ) kétdimen˝ ziós valószínuségi változó (L∗ ∈ X, τ∗ ≥ 0), amely független L(t) trajektóriájától azon
248
III. A sztochasztikus folyamatok alapjai
feltétel mellett, hogy L0 = i0 ismert. Akkor az ha t0 ≤ t < t0 + τ∗ L∗ , ∗ L (t) = L(t − τ∗ ), ha t ≥ t0 + τ∗ egyenlettel definiált {L∗ (t),t ≥ t0 } folyamatot késleltetett szemi-Markov folyamatnak nevezzük.
14.1. Ergodte ´tel szemi-Markov folyamatokra Legyen {L(t),t ≥ t0 } szemi-Markov folyamat {Ln = L(tn ),n ≥ 0} beágyazott Markov-lánccal. Tegyük fel, hogy a beágyazott Markov-lánc homogén, irreducibilis, aperiódikus és pozitív visszatér˝o, melynek ergodikus eloszlását jelölje {πi ,i ∈ X}. Vezessük be az Fi (x) = pij Fij (x), i ∈ X j∈X
jelölést és tegyük fel, hogy ∞
x dFi (x) < ∞,
mi =
i ∈ X.
−∞ (i)
14.3. T ÉTEL . A fenti feltételek mellett az i állapotban való tartózkodás S ˝ gyakoriságára 1 valószínuséggel igaz a következ˝o konvergencia: lim S
T→∞
(i)
(T ) relatív
πi mi (T ) = . πj mj j∈X
Megjegyezzük, hogy ugyanúgy, ahogyan a Markov-láncok esetében is, itt is bizonyítható ennél általánosabb ergodtétel.
15 Felu ´ jı´ta ´si folyamatok
Tekintsük az {N(t),t ≥ 0} sztochasztikus folyamatot, amely egy esemény egymás utáni bekövetkezéseit számolja a [0,t) id˝ointervallumon (pl. ez lehet egy folyamatosan ég˝o lámpában az izzócserék száma, amikor az izzót haladéktalanul kicseréljük, ha kiégett és azonos fajta izzókat használunk, továbbá vonatkozhat adott alkatrészek cseréjére is, stb.). Jelölje 0 ≤ t1 ≤ t2 ≤ ··· a megfigyelt események egymás utáni bekövetkezési id˝opontjait és legyen t0 = 0. Feltesszük, hogy a bekövetkezési id˝opontok kö˝ változók zött eltelt Ti = ti − ti−1 , i = 1,2,... id˝otartamok, mint valószínuségi függetlenek és azonos eloszlásúak, közös F(x) = P(Tk < x), k = 1,2,... eloszlásfüggvénnyel. F(x)-r˝ol feltesszük, hogy F(0) = 0 és F(+0) = P(Tk = 0) < 1. Ekkor írhatjuk, hogy t0 = 0,
tn = T1 + ··· + Tn ,
N(0) = 0,
n = 1,2,...,
N(t) = sup{n : tn < t,n ≥ 0} =
∞
I(ti < t),t > 0.
i=1
Az {N(t),t ≥ 0} és a {tn ,n ≥ 1} folyamatokat felújítási folyamatoknak nevezzük (az elnevezés nem egyértelmu). ˝ A tn , n = 1,2,... id˝opontokat az n-ik felújítási id˝opontnak, vagy másképpen, az n-ik esemény bekövetkezéséhez szükséges várakozási id˝onek nevezzük. Megjegyezzük, hogy az {N(t),t ≥ 0} és {tn ,n ≥ 1} folyamatok kölcsönösen egyértelmuen ˝ meghatározzák egymást, ugyanis tetsz˝oleges t ≥ 0 és k ≥ 1 egész mellett akkor és csak akkor teljesül az N(t) ≥ k feltétel, mikor tk < t. Sok esetben az els˝o szakasz hosszának az eloszlása különbözik a többit˝ol, amelyek már megegyeznek egymással, ekkor késleltetett felújítási folyamatról beszélünk. A továbbiak során csak a késleltetés nélküli esettel foglalkozunk, a késleltetett esetre vonatkozó eredmények ebb˝ol egyszeruen ˝ nyerhet˝ok. Mivel a T1 ,T2 ,... szakaszok függetlenek és azonos eloszlásúak, ezért a tn összeg F(n) (x) = P(tn < x) eloszlásfüggvényét a konvolúciós formula segítsé-
250
III. A sztochasztikus folyamatok alapjai
gével írhatjuk fel: F
(n)
∞
(x) =
F
(n−1)
x
(x − y) dF(y) = F(n−1) (x − y) dF(y),
0
F(n) (x) ≡ 0,
n ≥ 2, x ≥ 0,
0
x ≤ 0, n ≥ 1.
Ha Ti eloszlása folytonos, vagy diszkrét, akkor ez a formula kifejezhet˝o a sur ˝ uségfüggvénnyel, ˝ vagy a diszkrét eloszlással. Az egyszerubb ˝ és tömörebb tárgyalás kedvéért ebben a részben nem választjuk szét a különböz˝o speciális eseteket, hanem ezzel az általános megközelítéssel élünk. A felújításelméletben a legfontosabb fogalom a H(t) = EN(t), t ≥ 0 felújítási függvény és a felújításelmélet alapvet˝o feladata éppen a H(t) felújítási függvény vizsgálata, aszimptotikus viselkedésének leírása. Az alábbiakban összefoglaljuk a felújítási függvényre vonatkozó alapvet˝o eredményeket, továbbá kitérünk arra is, hogy az N(t) felújítási folyamatra érvényes a nagy számok törvénye és a centrális határeloszlás tétel. Az els˝o tétel a felújítási szakaszok hosszának eloszlásáról ad fontos információt, ahonnan egyszeru˝ következményként adódik, hogy bármely t id˝opontban a felújítások N(t) számának minden momentuma véges. ˝ 15.1. T ÉTEL . Tegyük fel, hogy {Tn ,n = 1,2,...} független azonos eloszlású valószínuségi változók sorozata és P(T1 < 0) = 0, P(T1 = 0) < 1. Ekkor létezik olyan ρ0 > 0 szám, hogy minden 0 < ρ < ρ0 és t ≥ 0 mellett igaz EeρN(t) < ∞. Innen következik, hogy N(t) els˝o momentuma, vagyis a H(t) felújítási függvény véges és így nyerjük a H(t) = EN(t) = E
∞
I(ti < t) =
∞
P(T1 + ··· + Ti < t)
i=1
i=1
összefüggést, amely a H(t) felújítási függvény el˝oállítását adja az F eloszlásfüggvény konvolúció-hatványainak összegeként: H(t) =
∞
F(k) (t).
k=1
15.2. T ÉTEL . Az el˝oz˝o tétel feltételei mellett érvényes a H(t) függvényre az ún. felújítási egyenlet t H(t) = F(t) + H(t − y) dF(y), t ≥ 0. 0
251
15. Felu ´jı´ta´si folyamatok
15.1. A felu ´ jı´ta ´si fu ¨ ggve ´ny ne ´ha ´ny tulajdonsa ´ga A felújítás-elmélet egyik alapvet˝o feladata, amint azt már korábban megjegyeztük, a felújítási függvény vizsgálata. Az alábbiakban összefoglaljuk a felújítási függvényre vonatkozó alapvet˝o eredményeket Az F eloszlásfüggvényr˝ol feltesszük, hogy F(0) = 0 és hogy F(+0) < 1. 15.3. T ÉTEL (E LEMI FELÚJÍTÁSI TÉTEL ). Létezik a lim
t→ ∞
1 H(t) = t ET1
határérték (1/∞ = 0). A további mélyebb eredményekhez szükség van az ún. rácsos eloszlás fogalmára, mivel az eredmények különböz˝o alakot öltenek attól függ˝oen, hogy F eloszlásfüggvény rácsos, avagy nem rácsos. ˝ 15.4. D EFINÍCIÓ . Egy X valószínuségi változó G eloszlásfüggvényét rácsosnak ne˝ vezzük, ha valamilyen d > 0 és r ∈ R mellett az (X − r)/d valószínuségi változó csak egész értéket vesz fel, azaz P((X − r)/d ∈ Z) = 1. A legnagyobb ilyen d számot az eloszlás lépésének nevezzük. 15.5. T ÉTEL (B LACKWELL -TÉTEL ). Ha az F eloszlásfüggvény rácsos d = 1 lépéssel, akkor 1 , lim qn = n→ ∞ ET1 ahol qn = H(n) − H(n − 1). Ha az F eloszlás nem rácsos, akkor minden h > 0 mellett lim (H(t + h) − H(t)) =
t→ ∞
h . ET1
15.2. Az N(t) felu ´ jı´ta ´si folyamatra vonatkozo ´ nagy sza ´mok to ¨rve ´nye e ´s centra ´lis hata ´reloszla ´s te ´tel Az N(t) folyamat azt számlálja, hogy legfeljebb hány darab véletlen hosszúságú és egymástól független, azonos eloszlású id˝oszakasz összege fér a [0,t) id˝ointervallumba. Ennek t → ∞ melletti aszimptotikus viselkedése szoros öszszefüggésben van azzal, hogy ilyen véletlen hosszak összegére érvényes a nagy számok er˝os és gyenge törvénye, valamint a centrális határeloszlás tétel. Ezt felhasználva bizonyíthatók az alábbi állítások. 15.6. T ÉTEL . Legyen 0 < ET1 = µ < ∞, ekkor fennáll a 1 N(t) → , t µ ˝ konvergencia 1 valószínuséggel.
t→∞
252
III. A sztochasztikus folyamatok alapjai
15.7. T ÉTEL . Ha ET1 = µ, D2 T1 = σ2 < ∞, akkor t → ∞ mellett érvényes a centrális határeloszlás tétel: x 2 1 N(t) − t/µ √ lim P e−u /2 du. < x = Φ(x) = 2 3 t→ ∞ 2π tσ /µ −∞
A következ˝o eredmény, amely az N(t) felújítási folyamat várható értékére és szórására vonatkozik, a korábbiak élesítését jelenti. 15.8. T ÉTEL . Ha µ2 = ET12 < ∞ és T1 eloszlása nem rácsos, akkor t → ∞ mellett H(t) −
µ2 t → 2 − 1, µ 2µ
D2 N(t) =
µ2 − µ 2 t + o(t). µ3
Ha még µ3 = ET13 < ∞, akkor 2 µ2 5µ2 2µ3 µ2 − µ 2 + o(1). D N(t) = t+ − − µ3 4µ4 3µ3 2µ2 2
16 Rekurrens folyamatok
Legyenek Φ(t,x,y) ∈ Rp , t = 0,1,... olyan p-dimenziós vektorértéku˝ függvények, amelyek tetsz˝oleges, az (x,y) ∈ Rp ×Rq változóknak Borel-mérhet˝o függ˝ változók vényei. Legyen Z(0),Z(1),... Rq -beli értékeket felvev˝o valószínuségi sorozata, Y(0) pedig valamilyen p dimenziós kezdeti valószínuségi ˝ vektorváltozó. 16.1. D EFINÍCIÓ . Az Y(t + 1) = Φ(t + 1,Y(t),Z(t + 1)), t ≥ 0 egyenlettel definiált sztochasztikus folyamatot rekurrens folyamatnak nevezzük. Belátható, hogyha az Y(0),Z(0),Z(1),... valószínuségi ˝ változók függetlenek, akkor az {Y(t),t ≥ 0} sztochasztikus folyamat Markov-folyamat, melynek egylépéses átmenetvalószínuség-függvénye ˝ P(t,x,t + 1,Γ ) = P(Φ(t + 1,x,Z(t + 1)) ∈ Γ ),
Γ ∈ B(Rp ),
ahol B(Rp ) az Rp tér Borel-halmazainak σ-algebráját jelöli. Ezek a folyamatok a tömegkiszolgálási rendszerek vizsgálatánál, továbbá a sztochasztikus approximáció elméletében igen nagy jelent˝oséggel bírnak. Egyébként ilyen sorozatként állíthatók el˝o általában a folyamatok paramétereire vonatkozó rekurzív (on-line) becslések is (ld. 9.3.3. végén a várható értékre adott becslési eljárást).
16.1. Sztochasztikus approxima ´cio ´ alapfeladatai Legyen R(x) monoton folytonos függvény és létezzen az R(x) = 0 egyenletnek egyetlen megoldása x∗ . Az R(x)-t csak mérési hibával tudjuk mérni: xk -ban Yk = R(xk ) + Zk+1 , k = 0,1,..., az x0 jelenti a mérés kiindulópontját. Ekkor a feladatunk az xk sorozat olyan megválasztása, amely konvergál valamilyen értelemben x∗ -hoz k → ∞ esetén. Igazolható a nemnegatív szupermartingálokra vonatkozó általános tételek felhasználásával, hogy xk+1 = xk −ak Yk , k ≥ 0 mel˝ lett az ak számok megfelel˝o választásával xk → x∗ ,k → ∞ 1 valószínuséggel
254
III. A sztochasztikus folyamatok alapjai
(erre a feladatra el˝oször Robbins és Monro adott megoldást, eljárásukra L2 beli konvergenciát igazoltak). A második feladatban R(x) differenciálható, egyetlen minimum- (vagy maximum) pontját az x∗ pontban veszi fel. Mérni az el˝oz˝ohöz hasonló módon csak mérési hibával tudunk. A feladat itt is olyan xk sorozat konstruálása, amelyre xk → x∗ , k → ∞ valamilyen értelemben. Erre a feladatra adott választ el˝oször Kiefer és Wolfowitz, s a konvergenciát itt is 1 valószínuséggel ˝ lehet biztosítani.
17 Regeneratı´v folyamatok
Számos sztochasztikus rendszer jól modellezhet˝o regeneratív folyamatok segítségével. Ezek a folyamatok a felújítási folyamatok általánosításaként foghatók fel olyan értelemben, hogy a felújítási szakaszokon kívül még az ezeken a szakaszokon értelmezett és szakaszonként egymástól független, de statisztikusan azonosan viselked˝o sztochasztikus folyamatokat is együttesen vizsgáljuk. A regeneratív tulajdonság lehet˝oséget nyújt határeloszlás- és stabilitási tételek bizonyítására és az ún. regeneratív szimulációs módszerek használatára. 17.1. D EFINÍCIÓ . T hosszúságú ciklusnak nevezzük a (T,Z(t)) párt, ahol T nem˝ negatív értékeket felvev˝o valószínuségi változó, {Z(t),t ∈ [0,T )} sztochasztikus folyamat, amely értékeit valamilyen (Z,B) mérhet˝o térben veszi fel. Az ilyen {Z(t),t ≥ 0} sztochasztikus folyamatot regeneratív folyamatnak nevezzük t0 = 0 < t1 < t2 < ··· regenerációs pontokkal, ha létezik független {(Tk ,Zk (t)),k ≥ 1} ciklusoknak olyan sorozata, hogy teljesül (1) Tk = tk − tk−1 , k ≥ 1, (2) P(Tk > 0) = 1,P(Tk < ∞) = 1, (3) Az összes ciklus sztochasztikusan ekvivalens, (4) Z(t) = Zk (t − tk−1 ), ha t ∈ [tk−1 ,tk ), k ≥ 1. Megjegyezzük, hogy a {tk ,k ≥ 1} folyamat felújítási folyamatot alkot. Hasonlóan a felújítási folyamatokhoz, ha a (3) tulajdonság csak a második ciklussal kezd˝od˝oen áll fenn, késleltetett regeneratív folyamatokról beszélünk. Jelölje F a Tk regeneratív ciklusok közös ∞ eloszlásfüggvényét. Általában feltesszük, hogy létezik a véges µ = E(Tk ) = 0 x dF(x) várható értékük. Regeneratív folyamatok esetén az egyik legfontosabb feladat: találni olyan feltételt, amely biztosítja a lim P(Z(t) ∈ B),
t→ ∞
B∈B
256
III. A sztochasztikus folyamatok alapjai
határérték létezését, ill. meghatározhatóságát. Fontos kérdés ugyancsak a konvergenciasebesség becslése is (különösen a tömegkiszolgálási rendszerek stabilitási kérdéseinek vizsgálatánál, ill. szimulációs eljárások esetében). Legyen {Z(t),t ≥ 0} regeneratív folyamat t0 = 0 < t1 < t2 < ··· regenerációs pontokkal. Feltesszük, hogy a Z(t) folyamat jobbról folytonos és balról létezik határértéke. Ekkor a (Tn ,{Z(tn−1 + u) : 0 ≤ u < Tn }), n = 1,2,... ciklusok függetlenek és sztochasztikusan ekvivalensek; {tn ,n ≥ 1} és a hozzátartozó {N(t),t ≥ 0} számláló folyamat felújítási folyamatot alkot. Legyen h : Z → R olyan mérhet˝o függvény, amelyre minden t esetén fennáll E|h(Z(t))| < ∞. Bizonyítható, hogy bizonyos, a g(t) = E[h(Z(t))I(T1 > t)] függvényre tett nem túl er˝os (a közönséges Riemann-integrálhatóságnál valamivel er˝osebb) megszorítás mellett fennáll lim Eh(Z(t)) = µ
−1
∞
−1
∞
g(s)ds =µ
t→ ∞
0
−1
E[h(Z(s)I(T1 > s)]ds =µ 0
T1
E h(Z(s))ds. 0
Az is igazolható, hogy tetsz˝oleges A ∈ B esetén teljesül lim P(Z(t) ∈ A) = µ−1
∞
t→ ∞
T 1 P(Z(s) ∈ A,T1 > s)ds =µ−1 E I(Z(s) ∈ A)ds .
0
0
Még egy határeloszlás tételt említünk meg, amely sokszor jól alkalmazható a gyakorlatban. 17.2. T ÉTEL . Legyen F nem rácsos, a µ várható érték létezik és ezenkívül teljesüljön legalább az egyik a következ˝o feltételek közül a) P(Z(t) ∈ A) integrálható függvény tetsz˝oleges véges intervallumon. b) Valamilyen n ≥ 1 számtól kezdve az F eloszlásfüggvény konvolúcióhatványainak ˝ uségfüggvénye. ˝ (F(1) = F,F(n+1) = F(n) ∗ F) létezik sur Ekkor teljesül a következ˝o összefüggés: −1
∞
lim P(Z(t) ∈ A) = µ
−1
P(Z(s) ∈ A,T1 > s)ds = µ
t→ ∞
T1
E I(Z(s) ∈ A)ds.
0
0
Példaként tekintsük az {N(t),t ≥ 0} felújítási folyamatot. A felújítási id˝opontok legyenek t0 = 0,tn = T1 +T2 +···+Tn , n ≥ 1, legyen továbbá P(Tk < x) = F(x), k ≥ 1 és µ = E(Tk ) véges. Jelölje tetsz˝oleges t > 0 esetén δ(t) = t − tN(t) ,
γ(t) = tN(t)+1 − t.
(Pl. a t id˝opontban δ(t) jelentheti azt, hogy mennyi ideig nem jött taxi az állomásra, γ(t) pedig azt, hogy mennyi ideig kell még várakozni a következ˝o
257
17. Regeneratı´v folyamatok
taxi érkezéséig, feltéve azt, hogy a követési id˝ok független azonos eloszlású valószínuségi ˝ változók közös F eloszlásfüggvénnyel.) 17.3. Á LLÍTÁS . {δ(t),t ≥ 0} és {γ(t),t ≥ 0} regeneratív folyamatok, továbbá fennáll x 1 (1 − F(u))du. lim P(δ(t) < x) = lim P(γ(t) < x) = t→ ∞ t→ ∞ µ 0
A regeneratív folyamatokra a felújítási folyamatokhoz hasonlóan bizonyítható a nagy számok törvénye és a centrális határeloszlás tétel is. Azt is megjegyezzük, hogy regeneratív folyamatok elég tág osztályára becsülhet˝o az egyes paraméterek eloszlásának a stacionárius eloszláshoz történ˝o konvergenciasebessége az ún. coupling módszerrel.
Irodalom
Chung, K. L.: Markov Chains with Stationary Transition Probabilities. SpringerVerlag, Berlin, Göttingen, Heidelberg, 1960. Cramer, H., Leadbetter, M. R.: Stationary and Related Stochastic Processes. Wiley, New York, 1967. Doob, J. I.: Stochastic Processes. Wiley, New York, 1953. Gihman, I. I., Skorohod, A. V.: The Theory of Stochastic Processes. Springer-Verlag, Vol. I–II–III, New York, 1974. Gihman, I. I., Szkorohod, A. V.: Bevezetés a sztochasztikus folyamatok elméletébe. Muszaki ˝ Könyvkiadó, Budapest, 1973. Gnedenko, B. V., Kovalenko, I. N.: Introduction to Queueing Theory, 2nd Ed.: Revisited and supplamented. Birkhäuser, Boston, 1989. Karlin, S., Taylor, H. M.: Sztochasztikus folyamatok. Gondolat, Budapest, 1985. Kleinrock, L.: Sorbanállás–kiszolgálás. Muszaki ˝ Könyvkiadó, Budapest, 1979. Snyder, D. L.: Random Point Processes. Wiley, New York, 1975.
IV. re ´sz Bevezete ´s az id˝ osoranalı´zisbe
Bevezete ´s
Id˝osorok alatt általában egy adott objektumra vonatkozó X1 ,...,XT megfigyelt eredmények sorozatát szokás érteni. Ezek a megfigyelések történhetnek az id˝o függvényében, vagy más paraméter szerint, pl. egy útprofil esetén adott helyeken mért értékek, azonban ez tisztán matematikai szempontból teljesen közömbös. A megfigyelt eredmények igen sokrétuek ˝ lehetnek, pl. meteorológiai elemek (átlagh˝omérséklet, csapadékmennyiség, stb.) adott mér˝oállomáson és egymás utáni napokon rögzített sorozata, vagy ezekb˝ol képzett dekádonkénti, havi, éves átlagok sorai; éves napfolttevékenységet jellemz˝o számok sora; egy adott légijáraton utazók száma naponta; napi t˝ozsdei árfolyamok sorozata, de ez lehet pl. egy jármu˝ vázszerkezet megadott pontjában mért feszültség értékeib˝ol alkotott sor stb. Itt meg kell jegyezni, hogy a vizsgált id˝osorok nem csak valamilyen véletlent˝ol függ˝o folyamat realizációi lehetnek, hanem sok esetben alapvet˝oen determinisztikus rendszerre vonatkozó adatsorok (pl. egy id˝opontban a vasúti pályaszakaszt különböz˝o helyeken jellemz˝o adatok), az id˝osoranalízis eszközei és módszerei sokszor ilyenkor is hatékonyan alkalmazhatók. Az id˝osoranalízis, amely az id˝osorok statisztikai analízisével foglalkozik, alapvet˝oen a 20. században fejl˝odött ki. Az els˝o évtizedeket empirikus korszakként is jellemezhetjük, mivel a vizsgálat tárgya els˝osorban az id˝osorokban megmutatkozó tendenciák, szezonalitás, rejtett periódusok kimutatása volt. A 40-es évekt˝ol kezdve A. N. Kolmogorov és N. Wiener alapvet˝o eredményei nyomán id˝osorok interpolációjának és extrapolációjának a vizsgálata került el˝otérbe, a legkisebb négyzetek módszerére támaszkodva. Az 50-es évekt˝ol kezdve az id˝osorok analízisében az egzakt matematikai statisztikai alapokon történt vizsgálatok kerültek el˝otérbe, ennek egyik elindítója U. Grenander volt. A szurési ˝ feladatok terén jelent˝os fejl˝odéshez a Kálmán-féle megközelítés vezetett a 60-as évek legelején. Az id˝osoranalízisben kiugró szerepet játszik az ARMA folyamatokkal történ˝o modellezés, amelyre nagy hatást gyakorolt G. E.
262
IV. Bevezete ´s az id˝ osoranalı´zisbe
P. Box és G. M. Jenkins 70-es évek elején elért eredményei és kifejtett tevékenysége. Az ARMA folyamatok alkalmazhatóságának alapja abban van, hogy a racionális törtfüggvény spektrális sur ˝ uségfüggvénnyel ˝ a folyamatok széles osztálya esetén jól approximálható a spektrum. Az egydimenziós ARMA folyamatok könnyen általánosíthatók többdimenziós esetre is, azonban a nyert modellek paraméterezése korántsem egyértelmu˝ az egydimenziós esettel szemben. Ennek az anomáliának a megszüntetésére az egyik legelterjedtebb módszer a Kálmán-féle állapotteres leírás. Meg kell még jegyezni azt is, hogy az id˝osoranalízis nagymértéku˝ fejl˝odése, új eszközök és módszerek megjelenése, különösen az utóbbi évtizedekben, szoros összefüggésben van a számítástechnika hihetetlen gyors fejl˝odésével. Mára olyan módszerek és eljárások használata vált lehet˝ové és mindennapossá, amelyek nem olyan régen még csak az elvi lehet˝oségek körébe tartoztak. Azt is meg kell jegyezni, hogy az id˝osoranalízis gyakorlati alkalmazása szinte elképzelhetetlen a meglév˝o statisztikai programcsomagok nélkül (MATLAB , SPSS , STATISTICA, STATGRAPHICS stb.) Ezek a programcsomagok minimális számítástechnikai ismeretek mellett is rendkívül hatékony eszközöket jelentenek a konkrét statisztikai elemzésekhez, sztochasztikus modellezéshez.
18 Egydimenzio ´s id˝ osorok statisztikai vizsga ´lata – a ´ltala ´nos eredme ´nyek
Legyenek X1 ,...,XT valamilyen {Xt } stacionárius folyamat egymás utáni T id˝opontban megfigyelt értékei. A következ˝o általános kérdések merülnek fel, melyekre szeretnénk választ adni: hogyan becsülhet˝ok a stacionárius folyamat alapvet˝o jellemz˝oi az id˝o-, illetve frekvenciatartományban, azaz a µX várható ˝ uségfüggvény, ˝ és érték, RX (t) kovarianciafüggvény, illetve gX (λ) spektrális sur a becslések milyen statisztikai tulajdonságokkal rendelkeznek. Utóbbiak közül a fontosabbak: torzítatlanság, torzítás mértéke, konzisztencia, a becslések határeloszlása.
18.1. A va ´rhato ´e ´rte ´k becsle ´se Legyen {Xt } stacionárius folyamat és az X1 ,...,XT realizációja alapján akarjuk becsülni a µX = EXt várható értéket. Jelölje 1 Xi . T T
X=
i=1
Látható, hogy EX =
1 1 EXi = µX = µX , T T T
T
i=1
i=1
ezért X a µX várható érték torzítatlan becslése. ˝ adódik, hogy Nézzük meg most az X becslés szórásnégyzetét. Egyszeruen T T T 1 1 D2 X = D 2 (Xi − µX )(Xj − µX ) = (Xi − µX ) = 2 E T T i=1
i=1 j=1
T T −1 T 1 1 cov(Xi ,Xj ) = 2 = 2 T T i=1 j=1
min(T −k,T )
k=1−T j=max(1,k)
cov(Xk+i ,Xj ) =
264
IV. Bevezete ´s az id˝ osoranalı´zisbe
=
T −1 T −1 |k| 1 1 RX (k). 1 − (T − |k|)R (k) = X T2 T T k=1−T
k=1−T
Speciális esetben, ha a kovarianciákból alkotott sor konvergens, akkor innen határátmenettel adódik, hogy lim T D (X) = 2
T→∞
∞
RX (k).
k=−∞
Ha felhasználjuk a kovarianciák π RX (u) =
eiλu dGX (u) −π
spektrál el˝oállítását, akkor az empirikus várható érték szórásnégyzete kifejezhet˝o a spektráleloszlással 1 1 RX (j − i) = 2 D X= 2 T T T
T
T
T
π eiλ(j−i) dGX (λ) =
2
i=1 j=1
=
1 T2
π −π
i=1 j=1 −π
2 π T 1 eiλk eiλj dGX (λ) = eiλj dGX (λ). T j=1 j=1 k=1
T T
−π
T Az integrandusban szerepl˝o h(λ,T ) = |1/T j=1 eiλj |2 függvény folytonos, tetsz˝oleges λ és T értékek mellett 0 ≤ h(λ,T ) ≤ 1, h(0,T ) ≡ 1 és tetsz˝oleges λ = 0 (−π ≤ λ ≤ π) esetén az összegzés elvégezhet˝o h(λ,T ) =
sin2 (λT/2) . T 2 sin2 (λ/2)
Ennek alapján a szórásnégyzetre az adódik, hogy π
π D (X) =
h(λ,T )dGX (λ) =
2
−π
h(λ,T )gX (λ)dλ. −π
(Az egyenlet második fele akkor érvényes, amikor létezik a gX (λ) spektrális sur ˝ uségfüggvény.) ˝ Megjegyezzük, hogy az integrandusban szerepl˝o h(λ,T ) függvény éppen az analízisb˝ol jól ismert és a 0-ban folytonos függvényként definiált (H(0,T ) = T/(2π)) 1 sin2 (λT/2) H(λ,T ) = 2πT sin2 (λ/2)
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
265
ún. Fejér-féle magfüggvény 2π/T -szerese. A h(λ,T ) függvény korlátos, T → ∞ mellett minden rögzített λ-ra létezik határértéke, amely 1, ha λ = 0 és 0, ha λ = 0. Innen tetsz˝oleges stacionárius folyamat esetén következik, hogy az empirikus várható érték szórásnégyzetének határértéke a folyamat spektrális eloszlásfüggvényének ugrása a 0 pontban, azaz lim D2 (X) = GX (+0) − GX (−0).
T→∞
A szórásnégyzetre levezetett fenti összefüggések alapján kimondható a következ˝o tétel. ∞ 18.1. T ÉTEL . (a) Ha a k=−∞ RX (k) sor konvergens, akkor lim T D2 (X) =
T→∞
∞
RX (k).
k=−∞
(b) Ha a GX (λ) spektrális eloszlásfüggvény folytonos a 0 pontban, akkor a X torzítatlan és konzisztens becslése a µX várható értéknek. Speciális esetben, ha létezik ˝ uségfüggvény, ˝ spektrális sur akkor ez biztosan teljesül. ˝ uségfüggvény, ˝ és az folytonos a 0 pontban, akkor (c) Ha létezik a gX (λ) spektrális sur ∞ R (k) = 2πg (0), és így X X k=−∞ lim T D2 (X) = 2πgX (0).
T→∞
√ A tétel (a) és (c) részeseteiben az átlag szórása const/ T nagyságú a T megfigyelésszám függvényében, míg a (b) esetben csak annyit tudunk mondani, hogy a szórás 0-hoz tart T → ∞ mellett (vagyis a becslés konzisztens), azonban a szórás nagyságrendjér˝ol semmit sem tudunk állítani. Lineáris folyamatok esetén a várható érték becslésére a fenti tétel állításain kívül határeloszlás tétel is fennáll, amely lehet˝ové teszi a µX várható értékre nézve konfidencia intervallum szerkesztését is. ∞ ∞ 18.2. T ÉTEL (A NDERSON ). Legyen Xt = µ+ k=−∞ ak εt−k , ahol k=−∞ |ak | < ˝ változók sorozata 0 várható ∞ és az {εt } független azonos eloszlású valószínuségi ∞ ∞ értékkel és σε szórással. Jelölje R = σε k=−∞ ak . Ekkor ( k=−∞ RX (k))2 = R2 és igaz a következ˝o √ d T (X − µ) → N(0,R), T → ∞ ˝ R szórású normális eloszlású konvergencia eloszlásban, ahol N(0,R) 0 várható értéku, d
˝ ˝ változók eloszlávalószínuségi változót jelent, míg a → szimbólumot a valószínuségi ban történ˝o konvergengiája jelölésére használjuk.
266
IV. Bevezete ´s az id˝ osoranalı´zisbe
18.2. Kovariancia ´k becsle ´se Nézzük meg most az {Xt } stacionárius folyamat RX (u) kovarianciafüggvényének a becsléseit. Erre többféle becslés használatos aszerint, hogy rendelkezésünkre áll-e a folyamat µX várható értéke, vagy sem, illetve a normálásnál hány tagot veszünk figyelembe. Ha a folyamat várható értéke nem ismert, akkor az empirikus várható értéket (átlagot) használjuk becsléseként. Ismert várható érték esetén a kovarianciák becslése tetsz˝oleges |k| < T értékre T −|k| ^ 1k = 1 (Xj − µX )(Xj+|k| − µX ), R T j=1
R1k =
T −|k| 1 (Xj − µX )(Xj+|k| − µX ). T − |k| j=1
Ha a folyamat várható értéke nem ismert, akkor legyen T −|k| 1 ^ (Xj − X)(Xj+|k| − X), R2k = T j=1
R2k =
T −|k| 1 (Xj − X)(Xj+|k| − X). T − |k| j=1
Tetsz˝oleges |k| ≥ T egész esetén definiáljuk az összes becsült kovarianciaértéket 0-nak. A definícióból világos, hogy a kovarianciafüggvényhez hasonlóan a becsült kovarianciafüggvény a változó szimmetrikus függvénye, azaz tetsz˝o^ ik = R ^ i,−k , Rik = Ri,−k , i = 1,2. leges k egész mellett R Ezekkel a becslésekkel kapcsolatban néhány megjegyzéssel kezdjük. Rögzí^ 2k becslései meg^ 1k és R tett megfigyelésszám esetén a kovarianciafüggvény R o˝ rzik az RX (k) kovarianciafüggvényre fennálló pozitív szemidefinit tulajdonságot. Az is világos, hogy tetsz˝oleges k egész mellett ^ ik = T − |k| Rik = 1 − |k| Rik , i = 1,2. R T T Innen a várható értékekre és szórásokra közvetlenül adódik, hogy ^ ik = 1 − |k| ERik , i = 1,2, ER T ^ ik ) = 1 − |k| D(Rik ),i = 1,2, D(R T ^ 1k és R ^ 2k becslésekkel foglalkozni. ezért elegend˝o csak az R1k és R2k , vagy az R Vizsgáljuk meg el˝oször a becsült kovarianciák várható értékét. Minthogy |k| ≥
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
267
T esetén a becslések értékei 0-t vesznek fel, így nyilvánvalóan elegend˝o csak a |k| < T értékekre szorítkozni. Egyszeru˝ számolással kapjuk, hogy T −|k| T −|k| 1 1 E(Xj − µX )(Xj+|k| − µX ) = RX (k) = RX (k), ER1k = T − |k| T − |k| j=1
j=1
vagyis ismert várható érték mellett a kovarianciafüggvény R1k becslése torzitatlan, míg az |k| |k| ^ ER1k = RX (k) − RX (k) ER1k = 1 − T T ^ 1k a kovarianciafüggvénynek csak aszimptotikuösszefüggés következtében R san torzítatlan becslése. Egyébként a torzítás mértéke (|k|/T )RX (k). Az R2k becslés várható értékének meghatározásához ennél jóval többet kell T számolni. Jelölje X˜ t = Xt − µX , X˜ = 1/T j=1 X˜ j = X − µX . Ekkor kapjuk, hogy T −|k| T −|k| 1 1 ˜ X˜ j+|k| − X) ˜ = E(Xj − X)(Xj+|k| − X) = E(X˜ j − X)( T − |k| T − |k| j=1 j=1 T −|k| T −|k| T −|k| T −|k| 1 ˜ ˜ EX˜ 2 . EX˜ X˜ j+|k| + EX˜ j X˜ − EXj Xj+|k| − = T − |k|
ER2k =
j=1
j=1
j=1
j=1
Az utolsó sorban az els˝o tag értéke RX (k), az utolsó tagé pedig nem más, mint EX˜ 2 = D2 (X). A középs˝o két tag összege a következ˝o alakban állítható el˝o T −|k|
1 EX˜ j X˜ + EX˜ X˜ j+|k| = T − |k| j=1
= 2D2 (X) −
1 T − |k|
T j=T −|k|+1
|k| T T 1 1 1 RX (j − m) − RX (j − m). T T − |k| T j=1
m=1
Ha a kovarianciák sora abszolút konvergens, azaz C = kor egyszeruen ˝ adódik, hogy
m=1
∞
j=−∞ |RX (j)| < ∞,
ak-
T (ER2k − RX (k)) + T D2 (X) ≤ |k| C, T −k ahonnan T → ∞ mellett kapjuk ER2k aszimptotikus torzítására lim T (ER2k − RX (k)) = − lim T D2 (X) = −
t→ ∞
t→ ∞
∞
RX (j) = −2πgX (0).
j=−∞
(Megjegyezzük, hogy az adott feltételek mellett létezik folytonos gX (λ) spektrális sur ˝ uségfüggvény.) ˝
268
IV. Bevezete ´s az id˝ osoranalı´zisbe
^ 2k aszimptotikus torzítása könnyen adódik Ebb˝ol az eredményb˝ol ER |k| ^ T (ER2k − RX (k)) = T 1 − ER2k − T RX (k) = T (ER2k − RX (k)) + |k|ER2k , T ahonnan ^ 2k − RX (k)) = − lim T (ER
T→∞
∞
RX (k) + |k|RX (k) = −2πgX (0) + |k|RX (k).
k=−∞
18.3. A kovariancia ´k becsle ´seinek variancia ´ja e ´s kovariancia ´ja A következ˝okben megvizsgáljuk a kovariancia becslések varianciáját és kova^ 1k becslés aszimprianciáját. Az egyszerubb ˝ tárgyalhatóság kedvéért csak az R totikus tulajdonságaival foglalkozunk. Az erre az esetre nyert eredményekb˝ol ^ 1k becslés tulajdonságai közvetlenül adódnak, míg a máaz R1k = T/(T − |k|) R ^ 2k és R2k becslésre hasonló eredmények bizonyíthatók, azonban – bár sik két R a levezetések nem igényelnek új gondolatokat – a számolásigényük lényegesen nagyobb. Ahhoz, hogy eredményeket kapjunk, természetesen a folyamat magasabb rendu˝ momentumaira nézve bizonyos megszorításokat kell tenni, ugyanis a stacionaritásból csak a második momentum végessége következik és így a becslések szórása akár nem is létezhet. Feltesszük, hogy a folyamat negyedik rendig stacionárius, azaz stacionárius, létezik negyedik momentuma és tetsz˝oleges k,m,n egész értékekre teljesül σ(k,m,n) = E(Xt − µX )(Xt+k − µX )(Xt+m − µX )(Xt+n − µX ) = = E(X0 − µX )(Xk − µX )(Xm − µX )(Xn − µX ). Jelölje κ4 (k,m,n) = σ(k,m,n)−[RX (k)RX (n−m)+RX (m)RX (n−k)+RX (n)RX (m−k)] a folyamat Xt , Xt+k , Xt+m , Xt+n értékeihez tartozó negyedrendu˝ kumulánsait. Megjegyezzük, hogy Gauss-folyamatok esetén κ4 (k,m,n) = 0. A továbbiakban az egyszeruség ˝ kedvéért feltesszük, hogy µX = EXt = 0. Ekkor T −k ^ 1k = 1 Xj Xj+k , R T j=1
és a korábbiak szerint
|k| RX (k). T Vizsgáljuk meg most a becslések közötti kovarianciát, amely egyben vá^ 1k = laszt ad a becslés szórására is. Minthogy a definíció szerint minden k-ra R ^ 1k = RX (k) − ER
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
269
^ 1,−k , ezért nyilvánvalóan elegend˝o nézni csak a 0 ≤ k ≤ m értékek mellett az R ^ 1m közötti kovariancia aszimptotikus viselkedését. Világos, hogy ^ R1k és R ^ 1k , R ^ 1,m ) = E R ^ 1k R ^ 1k ER ^ 1m = ^ 1m − E R cov(R T −k T −m 1 T −k T −m RX (k)RX (m) = 2E Xj Xj+k Xn Xn+m − T T T j=1 n=1
=
=
1 T2
T −k T −m
[EXj Xj+k Xn Xn+m − RX (k)RX (m)] =
j=1 n=1
T −k T −m 1 [RX (n − j)RX (n + m − k − j)+ T2 j=1 n=1
+RX (n + m − j)RX (n − j − k) + κ4 (k,n − j,n + m − j)]. A kett˝os szummát átalakítva és bevezetve az s = n − j jelölést (ez a különbség minden tagban egyaránt el˝ofordul), a következ˝o összeghez jutunk ^ 1k , R ^ 1m ) = cov(R
1 T
T −m−1 s=−(T −k)+1
h(s) + m [RX (s)RX (s + m − k)+ 1− T +RX (s + m)RX (s − k) + κ4 (s,k,m − k],
ahol h(s) =
s,
ha s > 0,
0,
ha − (m − k) ≤ s ≤ 0,
−s − (m − k), ha − (T − k) + 1 ≤ s ≤ −(m − k).
Ez a formula már alkalmas arra, hogy a legfontosabb következtetéseket levonjuk. Gauss-folyamat esetén a κ4 negyedrendu˝ kumuláns 0, ezért ebben az esetben a szórásra a következ˝o pontos formula adódik ^ 1k ) = 1 D2 (R T
T −k−1 j=−(T −k)+1
|j| + k 2 RX (j) + RX (j + k)RX (j − k) . 1− T
Ha a T érték elég nagy, akkor használhatjuk Bartlett közelít˝o formuláit ^ 1k ) ≈ D2 (R
∞
1 2 RX (j) + RX (j + k)RX (j − k) , T
^ 1k , R ^ 1m ) ≈ 1 cov(R T
j=−∞ ∞ j=−∞
(RX (j)RX (j + m − k) + RX (j + m)RX (j − k)).
270
IV. Bevezete ´s az id˝ osoranalı´zisbe
Ha az {Xt } folyamatnak létezik folytonos spektrális sur ˝ uségfüggvénye, ˝ akkor igaz a következ˝o ^ 1m ) ≈ 2π ^ 1k , R cov(R T
π
eiλ(m−k) + eiλ(m+k) g2X (λ)dλ
−π
aszimptotikus formula is. Összegzésül az adott feltételek mellett azt kaptuk, hogy az empirikus szórásnégyzet és kovarianciák szórásnégyzete aszimptotikusan const/T nagyságrendu. ˝ Mint a várható érték becslésénél, lineáris folyamatok esetén az empirikus kovarianciákra is kimondható határeloszlás tétel együttesen normális határeloszlással. ∞ ∞ 18.3. T ÉTEL (A NDERSON ). Legyen Xt = µ+ k=−∞ ak εt−k , ahol k=−∞ |ak | < ˝ változók sorozata 0 várható ∞ és az {εt } független azonos eloszlású valószínuségi értékkel és σε szórással. Tegyük fel még, hogy teljesül Eε4t = 3σ4e + κ4 < ∞. Akkor igaz a következ˝o konvergencia eloszlásban d √ √ ^ 10 − RX (0)),..., T (R ^ 1k − RX (k)) → T (R N(0,Σ), T → ∞, ˝ ahol N(0,Σ) 0 várható érték-vektorú, Σ szórásmátrixú normális eloszlású valószínu^ 1i , R ^ 1j ), továbbá ségi vektorváltozót jelöl és Σ = (Σij ),Σij = limT → ∞ T cov(R Σij =
∞
(RX (k + i)RX (k + j) + RX (k + i)RX (k − i)) +
k=−∞ π
= 4π
cos(λi)cos(λj)g2X (λ)dλ +
−π
κ4 RX (i)RX (j) = σ4ε
κ4 RX (i)RX (j). σ4ε
A tételben a Σij kovarianciákat az {Xt } folyamat kovarianciáival, ill. spektrális sur ˝ uségfüggvényével ˝ fejeztük ki. Természetesen, ahogyan ezt a lineáris folyamatok általános tulajdonságainak tárgyalásánál megjegyeztük, Σij -k kifejezhet˝ok az {ai } paraméterekkel is.
18.4. A spektrum becsle ´se. Diszkre ´t e ´s folytonos esetek Tekintsük az Xt =
q
ai cos(ϑi t + ϕi ),
t = 0,±1,...
i=1
tiszta harmonikus folyamatot, ahol q pozitív egész szám, a1 ,...,aq , ϑ1 ,...,ϑq valós számok, a ϕ1 ,...,ϕq véletlen fázisszögek független, a (−π,π) intervallumon egyenletes eloszlású valószínuségi ˝ változók. Mint korábban láttuk, a
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
271
harmonikus folyamatnak nem létezik spektrális sur ˝ uségfüggvénye, ˝ a GX (λ) spektrális eloszlásfüggvény pedig tiszta ugrófüggvény; aminek ugrásai a ±ϑi , i = 0,...,q pontokban vannak és nagyságuk a2i /2. Az alapfeladat ebben az esetben: adott X1 ,...XT realizáció alapján a GX (λ) spektrális eloszlásfüggvény meghatározása, ami egyenértéku˝ az a1 ,...,aq , ϑ1 ,...,ϑq paraméterek meghatározásával. Minthogy a ϕi fázisszögek egy realizáció során változatlanok, ezért az {Xt } egy rögzített realizációra nézve tekinthet˝o q darab ismeretlen amplitudójú, frekvenciájú és fázisszögu˝ (determinisztikus) koszinuszhullám szuperpozíciójának és így ez a feladat ebben a formában egy szokásos numerikus analízisbeli feladatot jelent – adott függvény adott pontokban ismert értékei alapján meghatározni a függvény paramétereit. A gyakorlatban tisztán harmonikus folyamatokkal nemigen találkozunk, általában valami zaj rakódik a minket érdekl˝o harmonikus jelre (ez lehet pl. mérési hiba is). Ezért a fenti folyamat helyett nézzük az Xt =
q
aj cos(ϑj t + ϕj ) + εt
j=1
folyamatot, ahol az {εt } zajfolyamat független azonos eloszlású, µε = 0 várható ˝ változók sorozata, amely értéku˝ és σ2ε = D2 (εt ) szórásnégyzetu˝ valószínuségi független a harmonikus összetev˝ot˝ol. A cél itt is ugyanaz, mint az el˝obb: határozzuk meg (becsüljük meg) a harmonikus összetev˝o frekvenciáit és amplitudóit. Egy megjegyzéssel kezdjük Mivel az {Xt } folyamat két független stacionárius komponensb˝ol tev˝odik össze, ezért a spektrális eloszlásfüggvénye a harmonikus folyamatból származó tisztán ugró és a fehérzajból ered˝o folytonos (σ2ε (x + π)/2π, −π ≤ x ≤ π) spektrális eloszlásfüggvény összegeként (kevert spektrumként) áll el˝o. Az is világos, hogy az {Xt } folyamat átírható Xt =
q
[Aj cos(ϑj t) + Bj sin(ϑj t)] + εt
j=1
alakba, ahol az Aj = aj cosϕj ,Bj = −aj sinϕj véletlen értékek a folyamatra vonatkozó X1 ,...,XT megfigyelés során változatlanok. Tegyük fel, hogy ismertek a ϑj frekvenciák és becsüljük meg az adott realizáció alapján az Aj , Bj mennyiségeket a legkisebb négyzetek módszerének felhasználásával. Ehhez minimalizálnunk kell a T k=1
Xk −
q j=1
2 [Aj cos(ϑj k) + Bj sin(ϑj k)]
272
IV. Bevezete ´s az id˝ osoranalı´zisbe
kifejezést Aj , Bj -k szerint, így kapjuk az ^j = 2 Xk cos(ϑj k) A T T
k=1
^j = 2 és B Xk sin(ϑj k) T T
k=1
mennyiségeket. Innen adódik az ^ 2j + B ^ 2j a ^2j = A
^ j /A ^ j .) becslés. (A realizációból a fázisszög becsült értéke így ϕ ^ j = arctan −B ^ j és B ^ j nem más, mint az X1 ,...,XT Mindenekel˝ott megjegyezzük, hogy A id˝osor normált Fourier-transzformáltjának a valós, illetve képzetes része. Egy megadott realizációban a ϕj véletlen fázisszögek konstansok, így ha az id˝osorok Fourier-transzformáltjainak aszimptotikus viselkedését ismerjük, akkor becsülni tudjuk a ϑj frekvenciákhoz tartozó konstans aj amplitudókat, és ezzel együtt választ tudunk adni arra a kérdésre is, hogy létezik-e adott ϑj frekvenciához tartozó összetev˝oje a folyamatnak. Utóbbi feladat ugyanis éppen annak eldöntését jelenti, hogy a ^2j tekinthet˝o-e 0-nak, avagy sem. Ez az eredmény egy jóval általánosabb problémakör kiindulópontja. A periodogram e ´s tulajdonsa ´gai
Legyen X1 ,...XT adott id˝osor és jelölje T T 2 2 Xk cosλk, B(λ) = Xk sinλk. A(λ) = T T k=1
k=1
Ekkor az IT (λ) = A2 (λ) + B2 (λ),
−π ≤ λ ≤ π
függvényt periodogramnak nevezzük. Egyszeruen ˝ adódik, hogy 2 2 T T T 2 2 Xk sinλk = Xk cosλk + i Xk eiλk , IT (λ) = T T k=1
k=1
k=1
vagyis a periodogram nem más, mint a Fourier-transzformált abszolút értéke négyzetének a (2/T )-szerese. A periodogram egyik igen fontos, a kés˝obbi számolásokhoz nélkülözhetetlen alakját az empirikus kovarianciákkal történ˝o el˝oállítása jelenti. A µX = EXt = 0 feltétel mellett egyszeru˝ átalakításokkal kapjuk, hogy T T 2 −iλn iλm = Xm e Xn e IT (λ) = T m=1 n=1 T T T −1 |k| 2 1− = R1k cos(λk), Xm Xn eiλ(m−n) = 2 T T m=1 n=1
k=1−T
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
273
T −k ahol a korábbiak szerint R1k = R1,−k = 1/(T − k) j=1 Xj Xj+k , 0 ≤ k ≤ T − 1, egyébként 0. Érdekes megemlíteni, hogy Schuster már 1898-ban használta a periodogramot rejtett periódusok kimutatására. A gyakorlatban általában a periodogram kiszámítása a λj =
2π j, T
0 ≤ j ≤ [T/2]
helyeken történik. Látható, hogy ha egy λj frekvencia megegyezik az el˝oz˝o példa valamelyik ϑk frekvenciájával, akkor 2 ^ k = 2 B(λj ). ^k = A(λj ), B A T T Ahogyan a bevezet˝o példában érzékeltettük, a periodogram alkalmas harmonikus összetev˝ok kimutatására. Általában azt várjuk, hogyha a periodogramnál egy adott λ0 frekvenciánál kiugró értéke van, akkor létezik a folyamatnak λ0 frekvenciájú összetev˝oje. Miel˝ott megvizsgálnánk ezt a kérdést precízen a statisztika eszközeivel, foglalkoznunk kell a periodogram statisztikai tulajdonságaival (különböz˝o momentumainak viselkedésével), ugyanis, mint látni fogjuk, lehet a periodogramnak a Fourier-transzformált természetéb˝ol adódóan is kiugró értéke. Ez egyben azt is jelenti, hogyha találunk kiugró értékeket valamilyen frekvenciánál, akkor tesztelnünk kell, hogy valóban van a folyamatnak azzal a frekvenciával rendelkez˝o harmonikus összetev˝oje. Tiszta ´n fehe ´rzajbo ´l, illetve fehe ´rzajbo ´l e ´s harmonikus o ¨sszetev˝ ob˝ ol a ´llo ´ staciona ´rius folyamat periodogramja Fehe ´rzaj folyamat
Kezdjük az A(λm ), B(λn ) valószínuségi ˝ változók vizsgálatával. Tegyük fel el˝oször, hogy a modellben aj = 0, 1 ≤ j ≤ q. Ez azt jelenti, hogy Xt = εt minden t-re, vagyis {Xt } fehérzaj folyamat. Külön ki kell emelni azt a tényt, hogy mennyire fontos tisztázni fehérzaj folyamat esetén a különböz˝o statisztikai tulajdonságokat. Ezek egyrészt támpontokat nyújthatnak a további elemzésekhez és segítenek megérteni egyes tulajdonságokat, másrészt lehet˝oséget biztosítanak annak a gyakorlatban sokszor felmerül˝o kérdésnek az eldöntésére, hogy egy folyamat tekinthet˝o-e véletlen zajfolyamatnak, avagy sem. Legyen tehát {Xt } fehérzaj folyamat, ekkor fennáll E A(λm ) = E B(λn ) = 0. Egyszeruen ˝ adódik az is, hogy 2 T σε , ha λj = 2πj/T 2 2 2 D (A(λj )) = σε cos (λj k) = T 2σ2ε , ha λj = 0. k=1 2
274
IV. Bevezete ´s az id˝ osoranalı´zisbe
Továbbá, mivel 2 2 2 σε sin (λj k) T T
D2 (B(λj )) =
k=1
és
2 2 σε (cos2 (λj k) + sin2 (λj k)) = 2σ2ε , T T
D2 (A(λj )) + D2 (B(λj )) =
k=1
így
D (B(λj )) = 2
σ2ε , ha λj = 2πj/T 0,
ha λj = 0.
Felhasználva a felmerül˝o trigonometrikus sorok egyszeru˝ összegezhet˝oségét, hasonlóan eljárva kapjuk az egyes alappontok mellett a kovarianciákra vonatkozó összefüggéseket: 2 2 σε cos(λm k)cos(λn k) = 0, T
m = n,
2 2 σε sin(λm k)sin(λn k) = 0, T
m = n,
2 2 σε cos(λm k)sin(λn k) = 0, T
m,n ≥ 0.
T
cov(A(λm ),A(λn )) =
k=1 T
cov(B(λm ),B(λn )) =
k=1 T
cov(A(λm ),B(λn )) =
k=1
Nézzük meg azt a speciális esetet, amikor {εt } 0 várható értéku, ˝ σ2ε szórás˝ négyzetu˝ Gauss-fehérzaj. Ekkor a (A(λm ), B(λn ), 0 ≤ m,n ≤ [T/2]) valószínuségi változók együttesen normális eloszlású változók, mivel egyazon független, normális eloszlású változók lineáris kombinációjaként állnak el˝o. Várható értékük nyilvánvalóan 0, szórásnégyzeteik és kovarianciáik megfelelnek az általános esetre felírt fenti értékeknek. Innen következik, hogy az IT (λj ),
0 ≤ j ≤ [T/2]
valószínuségi ˝ változók függetlenek, eloszlásuk megegyezik σ2ε χ22 eloszlásával, ha 0 < j < [T/2] és 2σ2ε χ21 eloszlásával, ha j = 0,T/2, ahol χ22 2 szabadságfokú, ˝ változót, jelöl – két függetmíg χ21 1 szabadságfokú χ2 eloszlású valószínuségi len, standard normális eloszlású valószínuségi ˝ változó négyzetösszege, illetve egy standard normális változó négyzete. Ezek az eredmények – amelyek rejtett periódusok kimutatására szolgáló teszt alapjait is képezhetik – Gauss fehérzaj folyamat esetén pontosak, ugyanakkor elég általános feltételek mellett is igazolhatók hasonló, de csak aszimptotikusan fennálló összefüggések.
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
275
Gauss esetben a fenti el˝oállítás egyszeru˝ következményként adódik, hogy E IT (λj ) = 2σ2ε , 4 4σε , ha 0 < j < T/2 2 D IT (λj ) = 8σ4ε , ha j = 0,T/2. Harmonikus folyamat + fehe ´rzaj
Tekintsük most az Xt =
q
aj cos(ϑj t + ϕj ) + εt
j=1
folyamatot, ahol az {εt } zajfolyamat független azonos eloszlású, µε = 0 vár˝ változók sorozata, ható értéku˝ és σ2ε = D2 (εt ) szórásnégyzetu˝ valószínuségi amely független a harmonikus összetev˝ot˝ol. A véletlen fázisszögek egymástól is független, a (−π,π)-n egyenletes eloszlású valószínuségi ˝ változók. Határozzuk meg ebben az esetben a priodogram várható értékét, amely megvilágítja a korábbi, a periodogramok kiugró értékeivel kapcsolatos megjegyzésünket. Mivel a korábbi összefüggésünk szerint a periodogramok kifejezhet˝ok az empirikus kovarianciákkal, valamint az {Xt } folyamat kovarianciafüggvénye el˝oáll a két független, harmonikus és fehérzaj összetev˝o kovarianciafüggvényeinek összegeként, így kapjuk T −1 |k| |k| ER1k cos(λk) = 2 RX (k)cos(λk) = E IT (λ) = 2 1− 1− T T k=1−T k=1−T q T −1 |k| 2 1− (aj /2)cos(ϑj k) + σ2ε cos(λk) = =2 T T −1
k=1−T
=
q j=1
a2j
j=1
T −1 k=1−T
|k| cos(ϑj k)cos(λk) + 2σ2ε . 1− T
Mivel a trigonometrikus függvényekre fennálló addíciós formulák szerint 1 cos(ϑj k)cos(λk) = [cos(ϑj k + λk) + cos(ϑj k − λk)], 2 továbbá a már korábban is megemlített Fejér-féle magfüggvényre fennáll a T −1 |k| 1 sin2 (λT/2) 1 cos(λk) 1− H(λ,T ) = = 2πT sin2 (λ/2) 2π T k=1−T összefüggés, ezért az E IT (λ) várható érték átírható 1 2 aj 2πT [H(ϑj + λ,T ) + H(ϑj − λ,T )] + 2σ2ε = 2T q
E IT (λ) =
j=1
276
IV. Bevezete ´s az id˝ osoranalı´zisbe
=
q
a2j π[H(ϑj + λ,T ) + H(ϑj − λ,T )] + 2σ2ε
j=1
alakba. A definíció szerint λ = 0-ra H(0,T ) = T/(2π), amely egyben H(λ,T ) függvény legnagyobb értéke, valamint az is világos, hogy további (bár kisebb) kiugró értékei (lokális maximumai) vannak T értékét˝ol függ˝oen. A H(λ,T ) függvény minimumhelyei (nullhelyei) ott vannak, ahol a számláló eltunik, ˝ tehát ahol a λ = 2πm/T egyenl˝oség fennáll valamilyen m egész mellett. Így az E IT (λ) várható értékre levezetett formulából következik, hogy az el˝oáll úgy, mint a 2σ2ε konstans függvény, valamint 2q darab Fejér-féle függvény szuperpozíciója. Utóbbi függvények kiugró értékei (a2i T/2) a λ = ±ϑi frekvenciáknál vannak. A szuperponálódott függvények λ = ±ϑi frekvenciáknál vett maximumai egyre jobban kiugranak T növekedésével, ugyanakkor a többi frekvenciánál 0-hoz tartanak, ez a tény kínálja ezeknek a frekvenciáknak a becslését. A fentiek szerint a periodogram értékei a harmonikus összetev˝o frekvenciáinál aszimptotikusan egyre jobban kiugranak, míg a többi frekvenciánál 0hoz tartanak. Az is világos, hogy T értékét˝ol függ˝oen más helyeken is felvehet nagyobb értéket, ezért tesztelni kell, hogy a kiugró értékek frekvenciájához valóban tartozik-e a folyamatnak harmonikus összetev˝oje. Elja ´ra ´sok rejtett perio ´dusok kimutata ´sa ´ra
Tekintsük az {Xt } zérus várható értéku˝ stacionárius folyamatot, amely felbontható Xt = Yt + Zt alakban. Itt feltesszük, hogy az {Yt } és {Zt } összetev˝okre teljesül: ∞ I. {Yt } olyan lineáris folyamat, amely el˝oállítható Yt = s=0 as εt−s , alakban, ˝ változók sorozata és fennáll Eεt = 0, Eε2t = ahol εt független valószínuségi ∞ ∞ 1, Eε4t < ∞ , s=0 a2s < ∞, s=0 s|as | < ∞. II. A {Zt } folyamatról feltesszük, hogy tisztán harmonikus, véletlen fázisszögekkel, vagyis q aj cos(λj t + ϕj ), Zt = j=1
ahol aj ,λj , j = 1,...,q ismeretlen konstansok, a független ϕj valószínuségi ˝ változók pedig egyenletes eloszlásúak a (−π,π) intervallumon. Jelölje RX (u), RY (u), illetve RZ (u) az {Xt }, {Yt }, illetve a {Zt } folyamat kovarianciafüggvényét. P(λ) teszt Az eljárás annak eldöntésére szolgál, hogy van-e (II) alakú szezonális összetev˝oje az {Xt } folyamatnak. A teszt lényege a következ˝o. Az {Xt } folyamat RX (u)
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
277
kovariancia függvénye nyilvánvalóan felírható RX (u) = RY (u)+RZ (u) alakban. A feltevésünk szerint {Yt } tisztán folytonos spektrummal rendelkezik, ezért RY (u) → 0, ha u → ∞. Ugyanakkor a {Zt } harmonikus összetev˝o spektruma tisztán diszkrét, ezért RZ (u) néhány koszinusz-hullámot tartalmaz ugyanazokkal a frekvenciákkal, mint {Zt }-é. Ez azt jelenti, hogy u → ∞ mellett RX (u) hasonlóan oszcillál mint RZ (u). A teszt-statisztika felépítésében alapvet˝o szerepet játszik a P(λ) =
1 2π
^ X (s)cos(λs), R
0≤λ≤π
m 1. A g ^T (λ) definíciójából világos, hogy a becsült kovarianciaértékek közül csak az R1k (j), |j| ≤ KT értékek vesznek rész a spektrális sur ˝ uségfüggvény ˝ becslésében, másrészr˝ol a benne foglaltak súlyozását a K(x) függvény határozza meg. KT -t szokás ablakszélességnek is nevezni. Megjegyezzük, hogy ez az eljárás analóg a statisztikai irodalomban általánosan használt simító eljárásokkal, az ablakfüggvények konkrét megválasztása és jellege a speciális becslési problémával van összefüggésben. Elég általános feltételek mellett és a K(x) függvény megfelel˝o megválasztásával elérhet˝o, hogy a g ^T (λ) becslés már konzisztens becslés lesz a spektrális sur ˝ uségfüggvényre ˝ nézve. Általában bizonyítható, hogy alkalmas K(x) függvény és KT /T → 0 ,T → ∞ ablaksorozat esetén 2g2 (λ) 1 K2 (x)dx, ha λ = 0, vagy ± π T 2 −1 D (^ gT (λ)) = lim g2 (λ) 1 K2 (x)dx, ha λ = 0,±π T → ∞ KT −1
280
IV. Bevezete ´s az id˝ osoranalı´zisbe
T cov(^ gT (λ), g ^T (µ)) = 0, T → ∞ KT lim
ha λ = µ.
A szakirodalomban számos ablakfüggvény használata terjedt el, ezek közül a legfontosabbakat a 18.1. táblázatban adjuk meg. A fenti becsléseket az id˝otartományban írtuk fel, azonban ezek a becslések könnyen megadhatók a frekvenciatartományban is a periodogram és a K(x) függvény segítségével: π gT (λ) =
JT (λ − u)k(u,KT )du, −π
ahol
KT j 1 eiju . K k(u,KT ) = 2π KT j=−KT
Ez az összefüggés biztosítja a gyors Fourier-transzformáció módszerének a használhatóságát. 18.1. táblázat. Gyakrabban használt ablakfüggvények Periodogram
K(x) =
Bartlett
K(x) =
1, 0,
1 − |x|, 0
Daniell
Parzen
Hamming-Tukey
ha |x| ≤ 1 ha |x| > 1 ha |x| ≤ 1 ha |x| > 1
sinπ|x|, ha |x| ≤ 1 0, ha |x| > 1 2 3 1 − 6x + 6|x| , ha |x| ≤ 1/2 3 K(x) = 2(1 − |x| ), ha 1/2 < |x| ≤ 1 0, ha |x| > 1 0.54 + 0.46cosπx, ha |x| ≤ 1 K(x) = 0 ha |x| > 1 K(x) =
18.5. Elja ´ra ´sok a trend elta ´volı´ta ´sa ´ra Id˝osoraink vizsgálatában egyik fontos feladat a trend leválasztása az adatsorból abból a célból, hogy az id˝osor további elemzése elvégezhet˝o legyen. Ez a leválasztás a trend jellegét˝ol függ˝oen más-más eljárással történhet. A továbbiakban vizsgáljuk az Yt = µt + Xt modellt, ahol µt jelenti Xt id˝ot˝ol függ˝o várható értékét. (vagyis a trendet), míg {Xt }-r˝ol feltesszük, hogy 0 várható értéku˝ stacionárius folyamat, melynek létezik spektrális sur ˝ uségfügg˝ vénye. Az {Yt } folyamat vizsgálata alapvet˝oen két irányban történhet.
18. Egydimenzio ´s id˝ osorok statisztikai vizsga´lata – ´altala´nos eredme ´nyek
281
1. Az egyik irányban nem csak az {Xt } folyamat spektrumát szeretnénk meghatározni, hanem fontos számunkra magának a trendnek az alakja is. Eb^ t reben az esetben egy µ ^ t becslést adunk a trendre, majd a becsült Yt − µ ziduális id˝osorból megbecsüljük {Xt } folyamat spektrumát. Itt megjegyezzük, hogy a µt trend alakjára vonatkozó információ nélkül nemigen van remény konzisztens becslés felépítésére. Ha ismerjük a trend funkcionális alakját, akkor a feladat egy regressziós feladatra vezethet˝o vissza, a függvény paramétereinek becslésével. Esetünkben regressziós függvényként els˝osorban polinomiális ill. trigonometrikus függvény jöhet számításba, melynek elmélete jól kidolgozott. 2. A másik irányban, amikor a trend konkrét alakja nem fontos, a trend ismert jellegét˝ol függ˝oen különböz˝o lineáris szurési ˝ eljárást hajtunk végre az adatsoron, amely a trendet eltávolítja, majd a transzformált {Yt } = {Xt } id˝osor becsült spektrumából az adott szurési ˝ eljárásnak megfelel˝oen visszaál˝ olítjuk az eredeti {Xt } összetev˝o spektrumát. Ha h(u) jelenti a lineáris szur˝ ben a megfelel˝o együtthatókat és H(ω) a hozzátartozó transzferfüggvényt, akkor a spektrumokra (ha léteznek) írhatjuk: fY (ω) = fX (ω) = |H(ω)|2 fX (ω), innen fX (ω) becslésére kapjuk f^X (ω) = |H(ω)|−2 f^X (ω),
−π ≤ ω ≤ π,
H(ω) = 0.
Az alábbiakban felsorolunk néhány eljárást különböz˝o alakú trendek kiemelésére. Polinomia ´lis trend elta ´volı´ta ´sa differenciake ´pze ´ssel
Ha a µt trend q-ad fokú polinom t-ben, akkor µt q-adik differenciája zérussá válik, míg a differenciaképzéssel nyert Yt = Xt = ∇q Yt (∇ = (1 − B) a standard differenciaképz˝o operátor) folyamat becsült spektrumából az {Yt } folyamat {Xt } stacionárius összetev˝ojének spektruma visszaállítható. Minthogy fY (ω) = fX (ω) = |1 − exp(−iω)|2q fX (ω), ezért fX (ω) becslésére kapjuk az f^X (ω) = (2sin(ω/2))−2q f^Y (ω),
−π ≤ ω ≤ π,
ω = 0
mennyiséget. Szezona ´lis trendek kiemele ´se ismert d perio ´dus esete ´n Mozgo ´´atlag sz˝ ur˝ o
Tegyük fel, hogy az {Yt } folyamatnak a µt trendje periodikus, d periódussal. Jelölje páratlan d (d = 2r + 1) esetén Q(B) = (Br−t + ··· + Br+t )/(2r + 1), ill. pá-
282
IV. Bevezete ´s az id˝ osoranalı´zisbe
ros d (d = 2r) esetén Q(B) = (Br−t /2 + Br−(t−1) + ··· + Br+(t−1) + Br+t /2)/(2r), ahol B−1 = D. Ekkor írható Yt = Q(B)Yt = µ+Q(B)Xt = µ+Xt , ahol µ = Q(B)µt konstans. Páros periódus estén a transzferfüggvény abszolút értékének a négyzete egyszeruen ˝ megadható: |Q(e−iω )|2 = sin2 [(2r + 1)ω/2](2r + 1)−2 sin−2 (ω/2). Sz˝ ure ´s d-le ´pe ´ses differencia ke ´pze ´ssel
Esetünkben a transzformált sorozat Yt = (1 − Bd )Yt = Xt = (1 − Bd )Xt = Xt − Xt−d , a transzferfüggvény abszolút értékének a négyzete pedig |1 − exp(−idω)|2 = 4sin2 (dω/2). Sz˝ ure ´s d-le ´pe ´ses mozgo ´´atlaggal
Tekintsük az {Yt } folyamat következ˝o szurését. ˝ Adott pozitív egész r mellett legyen Yt =
r 1 Yt−du = µt + Xt , 2r + 1 u=−r
ahol
Xt =
r 1 Xt−du . 2r + 1 u=−r
A transzferfüggvény ebben az esetben a következ˝o alakot ölti: 2 r sin2 ((2r + 1)ωd/2) 1 −iωdu e . = 2 (2r + 1) u=−r (2r + 1)2 sin2 (ωd/2) Látható, hogy a transzferfüggvény az ωm = 2πm/d, m = 0,1,...,[d/2] értékek esetén konstans 1, ezekt˝ol különböz˝o helyeken elég nagy r mellett közel van 0-hoz, ezért ez a szurési ˝ eljárás az {Xt } összetev˝ot csak a véges számú ˝ ki, így ha az fY (ω) spektrum folytonos, akkor az ωm frekvenciánál nem szuri {Xt } összetev˝ob˝ol származó rész elhanyagolhatóvá válik a változatlanul maradó trendhez képest. Ez azt jelenti, hogy tovább vizsgálható az Y t = Yt − Yt = Xt − Xt ≈ Xt reziduális folyamat.
19 Id˝ osorok modelleze ´se ARMA folyamatokkal
Egy véletlen folyamatról bizonyos id˝oközönként kapott megfigyelési értékek nem függetlenek egymástól, hiszen minden megfigyelési értéket er˝osen befolyásolnak az azt megel˝oz˝o értékek. Ezért éppen ennek a függésnek a jellege az, ami érdekl˝odésre tart számot. Az ilyen id˝osorok úgy viselkednek, mintha egy-egy adott id˝opontban „emlékeznének” a korábbi értékeikre, következésképpen egy id˝opontig rendelkezésre álló adatok bizonyos mértékig meghatározzák az id˝osor jöv˝obeli értékeit, és így bizonyos fokú el˝orelátást tesznek lehet˝ové. Ebben a fejezetben a jelenleg talán leghatékonyabb statisztikai eszközöket és modelleket, valamint becslési eljárásokat igénybevev˝o Box–Jenkins-módszert mutatjuk be az id˝osorok – els˝osorban a stacionárius id˝osorok – elemzése céljából. Az autoregresszív (Autoregressive) és mozgóátlag (Moving Average) típusú, ún. ARMA vagy ARIMA (Autoregressive Integrated Moving Average) id˝osor modellek azon a gyakorlati szempontból is megalapozott feltevésen alapulnak, hogy a bels˝o lineáris összefüggésekkel rendelkez˝o id˝osor véletlen, egymástól független ingadozásokból állítható el˝o. Jelöljük a független valószínuségi ˝ változók sorozatát, melyek tehát egy diszkrét fehérzaj folyamatot alkotnak εt -vel. Az εt folyamatból kiindulva az ARIMA modellel el szeretnénk jutni a ténylegesen megfigyelt zt szezonális, nemstacionárius id˝osorok meglehet˝osen tág osztályához. A legáltalánosabb, ún. szezonális (vagy multiplikatív) ARIMA modell el˝oállítását a 19.1. ábra szemlélteti.
19.1. ábra. A Box–Jenkins id˝osormodellek szakaszai
284
IV. Bevezete ´s az id˝ osoranalı´zisbe
19.1. A staciona ´rius id˝ osorok modelleze ´se ARMA id˝ osor-modellekkel Id˝osoron az id˝oben egymás utáni megfigyelések sorozatát értjük. Egy id˝osor diszkrét, ha a y(t) megfigyeléseket adott t = t1 ,t2 ,...,tn id˝opontokban végezzük. A legtöbb esetben azonos h id˝oközöket választunk, Így pl. ha n számú megfigyelést végzünk, ezeket a t2 = t1 + h, t3 = t1 + 2h, ..., azaz a t = 1,2,...,n id˝opontokra adottnak tekintjük, ahol t = 1-nek az els˝o mintavétel id˝opontját vesszük. Az id˝osorok analízise során a megfigyeléseket úgy tekintjük, mint egy sztochasztikus folyamat realizációit. A továbbiakban olyan x(t) = xt lineáris folyamatokat vizsgálunk, amelyeket a következ˝oképp írhatunk le: xt = c1 xt−1 + c2 xt−2 + ··· + cp xt−p + εt + d1 εt−1 + d2 εt−2 + ··· + dq εt−q , ahol εt független (korreálatlan) sztochasztikus folyamat zérus várható értékkel és konstans σ2ε szórásnégyzettel, εt sorozatot diszkrét fehér zajnak is szokás nevezni. Miel˝ott megvizsgálnánk ezeknek a folyamatoknak az alapvet˝o tulajdonságait, el˝obb a stacionárius id˝osorok leírására szolgáló legegyszerubb ˝ modellekkel foglalkozunk: az autoregresszív (AR) valamint a mozgóátlag (MA)modellekkel. A q-adrendu˝ mozgóátlag-modellben az id˝osor elemei csupán a véletlen elemb˝ol generálhatók, azaz xt = d1 εt−1 + d2 εt−2 + ··· + dq εt−q + εt . Jelent˝osen leegyszerusíti ˝ jelöléseinket a következ˝o egyszeru˝ operátorok bevezetése. Legyen a B késleltet˝o operátor jelentése: Bxt = xt−1 , és jelölje B0 = I az egységoperátort. Mivel bármely n természetes számra Bn xt = xt−n , így tetsz˝oleges d(z) = d0 + d1 z + ··· + dq zq polinomhoz értelmezhet˝o a d(B) = d0 B0 + d1 B + ··· + dq Bq operátor. Hasonlóan értelmezhet˝o a d(B) =
∞ i=0
di Bi
285
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
∞ operátor is, ha −∞ |dj | < ∞. Értelmezhet˝o az ilyen operátorok összege, kü∞ lönbsége, szorzata az xt , t = 0,±1,..., −∞ |Ext | < ∞, Ex2t ≤ C < ∞ id˝osorok halmazán. Definiálhatjuk egy ∞ d(B) = di Bi i=0
operátor e(B) =
∞
ei Bi
i=0
inverzét, melyre d(B)e(B) = I. Megjegyezzük, hogy ha d(B) invertálható és inverze d(B)−1 = e(B), akkor fennáll a következ˝o rekurzív egyenletrendszer d0 B = I, 0
j
di ej−i = 0,
j = 1,2,...
i=0
A d(B) = 1 + d1 B + ··· + dq Bq ún. mozgóátlag-operátor (polinom) vagy mozgóátlag-szur˝ ˝ o segítségével könynyen felírható a mozgóátlag-egyenlet a következ˝o alakban xt = d(B)εt . A p-edrendu˝ autoregresszív modell a következ˝o alakú: xt = c1 xt−1 + c2 xt−2 + ··· + cp xt−p + εt . Tehát az id˝osor értékét a t id˝opontban saját, valamint a korábbi t − 1,t − 2,...,t−p id˝opontbeli értékeivel és a véletlen ingadozást reprezentáló εt változóval, azaz a diszkrét fehér zajjal fejezzük ki. Legyen ekkor c(B) = 1 − c1 B − c2 B2 − cp Bp autoregresszív operátorpolinom. Ez esetben a p-edrendu˝ autoregresszív modell a c(B)xt = εt alakban írható. A kombinált ARMA-modellek autoregresszív és mozgóátlagolású tagokat is tartalmaznak, azaz felírhatók a következ˝o alakban: c(B)xt = d(B)εt .
(19.1)
286
IV. Bevezete ´s az id˝ osoranalı´zisbe
E modellekben az εt értékek az id˝osori elemeknek az átlaguktól való eltérését jelentik (várható érték zérus, azaz az xt id˝osor centralizált). Ahhoz, hogy az ilyen modelleket meghatározhassuk, el˝oször szükség van a megfelel˝o p és q értékek megállapítására. Ezt a folyamat bels˝o összefüggéseit feltáró autokorreláció- és parciális autokorreláció-függvények meghatározásával biztosíthatjuk. Autoregresszív folyamat esetén az autokorreláció-függvény általában exponenciálisan csökken˝o, vagy csillapodó hullámgörbe lefutású. Összefoglalva, a B eltolás-operátor bevezetésével minden (19.1) alakú lineáris folyamat megadható bármely t id˝opontra a következ˝oképpen: cp (B)xt = dq (B)εt , ahol cp (B) = 1 − c1 B − ··· − cp Bp dq (B) = 1 + d1 B + ··· + dq Bq . Ha q = 0, a (19.1) folyamatot p-edrendu˝ autoregresszív vagy röviden AR(p)folyamatnak, míg p = 0 esetén q-adrendu˝ mozgóátlagú MA(q)-folyamatnak nevezzük. Tetsz˝oleges véges p és q esetén autoregresszív-mozgóátlag, vagy ARMA(p,q)-folyamatról beszélünk. A legegyszerubb ˝ és legfontosabb alakok: AR(1) : (1 − cB)xt = εt ,
xt = cxt−1 + εt
MA(1) : xt = (1 + dB)εt ,
xt = εt + dεt−1
ARMA(1,1) : (1 − cB)xt = (1 + dB)εt ,
xt = cxt−1 + εt + dεt−1 .
A (19.1) folyamatot stacionáriusnak nevezzük, ha a c(z) komplex változójú polinom összes zérushelye az egységkörön kívülre esik. A folyamat invertálható, ha ugyanaz teljesül a d(z) polinom zérushelyeire.
19.2. Az AR-, MA- e ´s ARMA-folyamatok autokorrela ´cio ´-fu ¨ ggve ´nyei e ´s autospektrumai 19.2.1. Autoregresszı´v folyamatok autokorrela ´cio ´-fu ¨ ggve ´nye e ´s autospektruma
Az el˝obbi jelöléseknek megfelel˝oen a p-edrendu˝ autoregresszív folyamat autokorreláció-függvényére az xt−λ xt = c1 xt−λ xt−1 + c2 xt−λ xt−2 + ··· + cp xt−λ xt−p egyszeru˝ összefüggés alapján, ha tagonként képezzük a várható értéket, a következ˝o lineáris egyenletrendszert kapjuk Rk = c1 Rk−1 + c2 Rk−2 + ··· + cp Rk−p ,
k > 0,
(19.2)
287
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
ahol Rxx (k) = Rk . Ha k értékeivel (1,2,...,p) tekintjük a fenti egyenletet, akkor az ún. Yule–Walker-egyenletrendszert kapjuk: R1 = c1 + c2 R2 + ··· + cp Rp−1 R2 = c1 R1 + c2 + ··· + cp Rp−2 .. .
(19.3)
Rp = c1 Rp−1 + c2 Rp−2 + ··· + cp amely a c=
c1 c2 .. . cp
r=
,
R1 R2 .. . Rp
,
R=
1 R1 .. . Rp−1
R1 1 .. . Rp−2
... ... .. . ...
Rp−1 Rp−2 .. . 1
jelölésekkel a következ˝oképp írható: c = rR−1 . A (19.2) összefüggésb˝ol a folyamat szórására kapjuk, hogy σ2x =
σ2ε , 1 − R1 c1 − R2 c2 − ··· − Rp cp
míg az autospektrum 2σ2ε Sxx (ω) = , 1 − c1 e−lω2π − c2 e−lω4π − ··· − cp e−lω2πp/2 2
1 0≤ω≤ . 2
Tekintsük a két legfontosabb autoregresszív folyamattípust, az AR(1) és AR(2) folyamatokat. Az AR(1)-folyamatot az xt = c1 xt−1 + εt = εt + c1 εt−1 + c21 εt−2 összefüggés mutatja, ahol c1 -nek ki kell elégítenie a −1 ≤ c1 ≤ 1 stacionaritási feltételt. Autokorreláció-függvényre az alábbi els˝orendu˝ differenciaegyenlet áll fenn: Rk = c1 Rk−1 , amelyb˝ol, mivel r0 = 1, rk = ck1 . Mint a 19.2(a) ábrából is látható, az autokorreláció-függvény exponenciálisan tart zérushoz, ha c1 pozitív. A folyamat szórá sát a σ2x = σ2ε / 1 − c21 összefüggés, autospektrumát az Sxx (ω) =
2σ2ε , 1 + c21 − 2c1 cos2πω
0≤ω≤
1 2
288
IV. Bevezete ´s az id˝ osoranalı´zisbe
kifejezés mutatja. Az AR(2)-folyamatot az xt = c1 xt−1 + c2 xt−2 + εt összefüggés jellemzi. A stacionaritás feltételét megadó összefüggések: c2 + c1 < 1,
c2 − c1 < 1,
−1 < c2 < 1.
A stacionaritás feltétele megadható az x 2 − c 1 x − c2 = 0 karakterisztikus egyenlet gyökei segítségével is, azaz a gyökök abszolút értékének kisebb kell legyen mint 1. Ez esetben az autokorreláció-függvény az alábbi differenciaegyenletet elégíti ki: Rk = c1 Rk−1 + c2 Rk−2 ,
k > 0.
Meghatározását a következ˝o összefüggés mutatja komplex konjugált gyökpár esetén: k {sgn(c1 )} δk sin(2πf0 k + ϕ) , Rk = sinϕ ahol a δ csillapítási tényez˝o, f0 frekvencia és ϕ fázis értéke: √ δ = −c2 ,
|c1 | cos2πf0 = √ , 2 −c2
tanϕ =
1 + δ2 2πf0 . 1 − δ2 tanf0
A Yule–Walker-egyenletekb˝ol kapjuk, hogy c1 =
R1 (1 − R2 ) 1 − R21
és
c2 =
R2 − R21 , 1 − R21
ahonnan az autokorrelációk ismeretében a folyamat paraméterei meghatározhatók. A fenti összefüggések – másodrendu˝ autoregresszív folyamatra vonatkozó stacionaritási feltételek figyelembevételével – a következ˝o alakban is felírhatók: 1 −1 < R1 < 1, R21 < (R2 + 1), −1 < R2 < 1. 2 A szórást ill. az autospektrumot az alábbi összefüggések szerint határozhatjuk meg: σ2ε 1 − c2 σ2ε σ2x = , = 1 − R1 c1 − R2 c2 1 + c2 (1 − c2 )2 − c21 valamint Sxx (ω) =
2σ2ε . 1 + c21 + c22 − 2c1 (1 − c2 )cos2πω − 2c2 cos4πω
Az AR(2)-folyamatra mutat példát a 19.2. ábra.
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
289
19.2. ábra. Tipikus autoregresszív folyamatok, autokorreláció-függvényük és autospektrumuk; a) els˝orendu, ˝ b) másodrendu˝
19.2.2. A parcia ´lis autokorrela ´cio ´-fu ¨ ggve ´ny fogalma
A Yule–Walker-egyenlet autokorrelációs mátrixából meghatározható az ún. parciális autokorreláció-függvény, mely az AR-folyamatok rendjének meghatáro-
290
IV. Bevezete ´s az id˝ osoranalı´zisbe
zásához ad alapvet˝o információt: ρk = ahol
Pk =
|P∗k | , |Pk |
k = 1,2,...
1 r2 .. .
r2 1 .. .
rk−1
rk−2
... ... .. . ...
rk rk−1 .. . 1
és rxx (j) = rj = Rj /R0 az autokorreláció-függvény. A fenti összefüggésekben |Pk | a k × k méretu˝ Pk korrelációs mátrix determinánsa, míg a P∗k mátrixot a Pk mátrixból úgy kapjuk, hogy a k-adik oszT lopot az r = [r1 ,r2 ,...,rk ] vektorral helyettesítjük. A ρk , k = 1,2,... parciális autokorreláció-függvény egy AR-folyamatnál minden k > p-re zérus, ugyanakkor az eredeti folyamat differenciaegyenletének megoldása. Becslése úgy történik, hogy a meghatározásához szükséges fenti mátrixokat a becsült autokorrelációkkal töltjük ki. A parciális autokorreláció-függvény becslési hibájára az érvényes: ρk ) ≈ D2 (^
1 , n
ill.
1 D(^ ρk ) ≈ √ , n
ha k ≥ p + 1,
továbbá a ρ^k , k ≥ p + 1 valószínuségi ˝ változók közelít˝oen függetlenek. Az m = 1,2 speciális esetekben ρ 1 = r1 ,
ρ2 =
r2 − r21 . 1 − r21
Megjegyezzük, hogy a ρm mennyiség nem más, mint az Xt és Xt+m valószínuségi ˝ változók (Xt+1 ,...,Xt+m−1 ) feltételre vonatkozó parciális korrelációs együtthatója. Az AR(p) modellben, ha a cj,p , 1 ≤ j ≤ p autoregressziós együtthatókat a ρm ) kiszámítása történYule–Walker-egyenlet alapján becsüljük, akkor c^j,p (^ het rekurzív módon, ami jelent˝osen leegyszerusíti ˝ a becslési eljárást. Ekkor, ha a c^j,p , 1 ≤ j ≤ p mennyiségeket már meghatároztuk, az AR(p + 1) modellhez tartozó c^j,p+1 , 1 ≤ j ≤ p + 1 mennyiségekre fennáll a következ˝o összefüggés (Durbin-formula, 1960): c^p+1,j = c^p,j − c^p+1,p+1 c^p,p−j+1 , p ^rp+1 − j=1 c^p,j^rp+1−j p . c^p+1,p+1 = 1 − j=1 c^p,j^rj
j = 1,...,p,
291
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
19.2.3. A mozgo ´a ´tlag-folyamatok autokorrela ´cio ´-fu ¨ ggve ´nye e ´s autospektruma
Ezesetben a folyamatot megadó összefüggés a következ˝o alakot ölti: xt = εt − d1 εt−1 − ··· − dq εt−q . Egy MA(q) folyamat invertálható, ha a d(z) = 0 karakterisztikus egyenlet gyökei kívül esnek az egységkörön. Véges mozgóátlag-folyamatnál nem szükséges külön paraméterekre vonatkozó feltétel, a stacionaritás teljesüléséhez. Az Rk = E{(εt − d1 εt−1 − ··· − dq εt−q )(εt−k − d1 εt−k−1 − ··· − dq εt−k−q )} (19.4) összefüggés alapján a folyamat szórása
σ2x = 1 + d21 + d22 + ··· + d2q σ2ε míg az autokorreláció-függvény (ill. normált autokorreláció-függvény): rk =
−dk + d1 dk+1 + ··· + dq−k dq , 1 + d21 + ··· + d2q
k = 1,2,...,q.
Az eddigiek alapján könnyen belátható, hogy egy q-adrendu˝ MA-folyamat parciális autokorreláció-függvénye kielégíti az eredeti folyamat differenciaegyenletét, míg korrelációs függvénye zérus lesz minden k > q eltolásra (rk = 0, ha k > q). Ha az autokorrelációk ismertek, akkor természetesen az MAfolyamatok paraméterei a (19.4) összefüggésb˝ol meghatározhatók. Az MA(q)folyamat autospektruma: 2 Sxx (ω) = 2σ2ε 1 − d1 e−i2πω − d2 e−i4πω − ··· − dq e−i2πqω ,
1 0≤ω≤ . 2
Tekintsük most röviden a két legfontosabb (els˝o- és másodrendu) ˝ mozgóátlag-folyamattípust. Az MA(1) folyamat: a folyamat egyenlete xt = εt − d1 εt−1 , ahol −1 < d1 < +1 az invertálás feltétele (természetesen a folyamat stacionárius d1 minden értékére). Az autokorreláció-függvény normált alakja a következ˝o: d1 , rk = 0, ha k ≥ 2, r1 = − 1 + d21 míg az autospektrum
Sxx (ω) = 2σ2ε 1 + d21 − 2d1 cosπω ,
292
IV. Bevezete ´s az id˝ osoranalı´zisbe
és a parciális autokorreláció-függvény:
−dk1 1 − d21 Pk =
(k+1) . 1 − d21
Az MA(2) folyamat: a folyamat egyenlete xt = εt − d1 εt−1 − d2 εt−2 míg az invertálási feltételek d2 + d1 < 1,
d2 − d1 < 1,
−1 < d2 < 1.
A folyamat autokorreláció-függvénye és szórása: r1 = −
d1 (1 − d2 ) , 1 + d21 + d22
d2 , 1 + d21 + d22
σ2x = 1 + d21 + d22 σ2ε r2 = −
rk = 0,
ha k ≥ 3
autospektruma pedig: Sxx (ω) = 2σ2ε 1 + d21 + d22 − 2d1 (1 − d2 )cos2πω − 2d2 cos4πω alakú. A következ˝o dualitások érvényesek a cp (B)xt = dq (B)εt ARMA-folyamat autoregresszív és mozgóátlag-folyamatai között: 1. Ha a cp (z) polinom gyökei az egységkörön kívül helyezkednek el, akkor xt stacionárius és létezik végtelen mozgóátlag el˝oállítása. Ha a dq (z) polinom gyökei az egységkörön kívül helyezkednek el, akkor xt el˝oállítható végtelen autoregresszív alakban. 2. Az AR- és ARMA-folyamatok korrelációfüggvénye végtelen kiterjedésu˝ és exponenciálisan csökken˝o, az MA-folyamat esetén pedig véges sok tag után zérus lesz. 3. Az AR-folyamat parciális autokorreláció-függvénye véges sok tag után zérus, míg MA-, ARMA-folyamatok esetén végtelen kiterjedésu, ˝ exponenciálisan csökken˝o. 4. Egy p-edrendu˝ autoregresszív folyamat paramétereinek semmilyen invertálhatósági feltételt nem kell teljesítenünk, de a stacionaritáshoz szükséges, hogy a karakterisztikus egyenletek gyökei az egységkörön kívül essenek. Fordítottan, egy MA-folyamat stacionaritására semmilyen feltétel nem szükséges, de az invertálhatóság feltétele, hogy karakterisztikus egyenletük gyökei az egységkörön kívül essenek. 5. A mozgóátlag-folyamat spektruma inverz viszonyban van a megfelel˝o autoregresszív folyamat spektrumával.
293
19. Id˝ osorok modelleze ´se ARMA folyamatokkal 19.2.4. Az ARMA-folyamatok autokorrela ´cio ´- e ´s autospektrum-fu ¨ ggve ´nye
Az autoregresszív mozgóátlag-modell egyenlete xt = c1 xt−1 + ··· + cp xt−p + εt − d1 εt−1 − ··· − dq εt−q mely a már tárgyalt d(B) = 1 + d1 B + ··· + dq Bq c(B) = 1 − c1 B + ··· + cp Bp operátorok bevezetésével az alábbi formában írható fel: c(B)xt = d(B)εt . Ezt a stacionárius véletlen folyamatot az ARMA(p,q) szimbólummal szokás jelölni. Az alapfolyamatok szempontjából az ARMA-folyamat kétféle módon fogható fel: a) mint egy olyan p-edrendu˝ autoregresszív folyamat c(B)xt = et , ahol et egy q-adrendu˝ mozgóátlag-folyamat, illetve b) mint egy olyan q-adrendu, ˝ xt = d(B)vt mozgóátlag folyamat, ahol vt egy p-edrendu˝ autoregresszív folyamat. Mivel c(B)vt = εt , így c(B)xt = d(B)c(B)vt = d(B)εt . Az ARMA(p,q)-folyamat stacionárius, vagyis a c(z) = 0 karakterisztikus egyenlet gyökeinek is kívül kell esniük az egységkörön ahhoz, hogy a folyamat invertálható legyen. Az ARMA(p,q) autokorreláció-függvénye az xt xt−k = c1 xt−1 xt−k + ··· + cp xt−p xt−k + εt xt−k − ··· − dq εt−q xt−k alakból az alábbi differenciaegyenletet elégíti ki: Rk = c1 Rk−1 + ··· + cp Rk−p + Rxε (k) − d1 Rxε (k − 1) − ··· − dq Rxε (k − q), (19.5) ahol Rxε (k) a keresztkorreláció-függvény az xt és εt folyamatok között. Nyilvánvalóan fennáll az Rxε (k) = 0,
ha k > 0
és
Rxε = 0,
ha k ≤ 0
összefüggés és így a (19.5)-b˝ol következik, hogy Rk = c1 Rk−1 + c2 Rk−2 + ··· + cp Rk−p ,
ha k ≥ q + 1.
294
IV. Bevezete ´s az id˝ osoranalı´zisbe
Tehát általában egy ARMA(p,q)-folyamat autokorreláció-függvénye k > p− q eltolás után úgy viselkedik, mint egy AR(p)-folyamat autokorreláció-függvénye. Ez a megállapítás még igen fontos lesz az ARMA-folyamat (p,q) rendjének meghatározására, illetve a modell illesztése (ellen˝orzése) során is. A folyamat szórásnégyzetének képlete: σ2x = c1 R1 + ··· + cp Rp + σ2ε − d1 Rxε (−1) − ··· − dq Rxε (−q), míg autospektruma az Sxx (ω) = 2σ2ε
1 − d1 e−i2πω − dq e−i2πqω 2 |1 − c1
e−i2πω − c
p
2 e−i2πpω |
,
0≤ω≤
1 2
összefüggéssel határozható meg. A parciális autokorreláció-függvény sajnos ez esetben végtelen kiterjedésu, ˝ mivel εt = d−1 (B)c(B)xt miatt d−1 (B) egy végtelen sorozat B-ben. Végs˝o soron tehát a parciális autokorreláció-függvény úgy viselkedik, mint egy tiszta mozgóátlag-folyamat autokorreláció-függvénye, azaz dominál benne az exponenciális csillapítás és/vagy a csillapított szinuszhullámok együttes megjelenése (a mozgóátlag-folyamat rendjét˝ol és paraméterét˝ol függ˝oen). Az ARMA(p,q)-folyamat legfontosabb speciális esetének természetesen az ARMA(1,1)-folyamat tekinthet˝o. Egyenlete (1 − c1 B)xt = (1 − d1 B)εt , illetve xt = c1 xt−1 + εt − d1 εt−1 . Az autokorreláció-függvény és a parciális autokorreláció-függvény r1 =
(1 − c1 d1 )(c1 − d1 ) , 1 − d21 − 2c1 d1
r2 = c1 r1 ,
míg a folyamat autospektruma Sxx (ω) = 2σ2ε
1 − d1 e−2πω 2 |1 − c1
2 e−2πω |
,
1 0≤ω≤ . 2
19.3. Az id˝ osorok struktu ´ ra ´ja ´nak becsle ´se Az autokorreláció- és parciális autokorreláció-függvényeket természetesen a megfigyelések alapján becsüljük. Mint már láttuk, a normált autokorrelációfüggvény becslését az ^k R , k = 1,2,... ^rk = ^0 R
295
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
összefüggéssel kaptuk, ahol n ^j = 1 R (xt − x)(xt+j − x), n
j = 0,1,...
t=j+1
míg a ρ^k , k = 1,2,... parciális autokorreláció-függvény becslését a (19.5) egyenlet segítségével számítjuk úgy, ahogy az Rk autokorrelációs együtthatók he^ k becsléseit helyettesítjük. Minthogy egy adott struktúrájú (p és lyére azok R q adott) sztochasztikus folyamat autokorrelációs és parciális autokorrelációfüggvényei el˝ore kiszámíthatók a stacionaritási és invertálhatósági feltételek által megengedett paraméter-tartományokra, a tényleges id˝osorét pedig becsüljük, azaz a p és q értékek meghatározására. Box és Jenkins alapvet˝o szabályként javasolják, hogy majdnem mindig p + q ≤ 2 legyen (legalábbis kiindulásként), mivel a gyakorlatban el˝oforduló id˝osorokat viszonylag kevés para^ k becsléseknél T-próbával ellen˝orizhetjük, méterrel is jól le lehet írni. Az ^rk és p hogy egy adott k-ra szignifikánsan eltérnek-e zérustól. Egy MA(q)-folyamatra q 1 2 1+2 ri , D (^rk ) ≈ n 2
i=1
míg egy AR(p)-folyamatra D2 (^ pk ) ≈
1 . n
Ha n elegend˝oen nagy, az rk eloszlása MA(q) esetén k > q-ra közelít˝oleg normális. Ugyanez mondható AR(p)-folyamatoknál pk eloszlására k > p-re. Az elméleti és becsült korreláció-függvények alapján a p és q meghatározását struktúrabecslésnek nevezzük. Végül – fontossága miatt – ismételten megjegyezzük, hogy mindig figyelembe kell vennünk: egy ARMA(p,q)-folyamat autokorreláció-függvénye k = p−q eltolás után ugyanúgy viselkedik, mint egy AR(p)-folyamat autokorreláció-függvénye, parciális autokorreláció-függvénye pedig k = q−p eltolás után mint egy MA(q) folyamat parciális autokorrelációfüggvénye.
19.4. A staciona ´rius id˝ osorok struktura ´lis e ´s parame ´teres becsle ´se 19.4.1. Az el˝ ozetes becsle ´sek elme ´leti megalapoza ´sa
A struktúrabecslés, azaz a folyamat (p,q) rendjeinek meghatározása után általában egy el˝ozetes identifikációs lépést iktatunk be a folyamat paramétereinek rekurzív típusú becslése el˝ott. Ez az el˝ozetes identifikáció (paraméterbecslés) a következ˝oképpen hajtható végre: el˝oször is figyelembe vesszük a becsült autokorrelációk és parciális autokorrelációk standard hibáit (négyzetes középhibáinak négyzetgyökét), amelyeket a már ismertetett képletek segítségével a
296
IV. Bevezete ´s az id˝ osoranalı´zisbe
19.1. táblázat. Folyamatok el˝ozetes identifikálása Folyamattípusok
AR(1)
MA(1)
Becslések
^ xx (1) c^1 = R
^1 = d
Paraméterek
c1
d1
1−
√
^ xx (2) 1−4 R ^ xx (1) 2R
ARMA(1,1) ^
c^1 = RR^ xx (2) xx (1) ^ 1 a következ˝o egyenletb˝ol d számítható: ^ 21 + (R xx (1) − c^1 ) d
2 ^1 + + 1 − c^1 − 2Rxx (2) d +(Rxx (1) − c^1 ) = 0 c1 ,d1
következ˝oképpen is számolhatunk (Bartlett szerint):
1/2 1 , D(^rk ) ≈ √ 1 + 2 r21 + r22 + ··· + r2q n 1 D(^ pk ) ≈ √ , k > p. n
k > q,
Az MA(q)-folyamat kezdeti becslése. Mint már láthattuk az MA(q)-folyamat rk autokorrelációja nem zérus és kifejezhet˝o az id˝osormodell paramétereivel, azaz −dk + d1 dk+1 + d2 dk+2 + ··· + dq dqk , k = 1,2,...,q. ^rk = 1 + d21 + d22 + ··· + d2q Ez q egyenletet jelent q ismeretlennel, így rk helyébe annak becslését helyettesítve, a d1 ,...,dq el˝ozetes becslése biztosítható. Az els˝orendu˝ mozgóátlagfolyamat el˝ozetes identifikációját a 19.1. táblázat mutatja. Az AR(p)-folyamat kezdeti becslése. Autoregresszív folyamatok paramétereinek kezdeti becslését a Yule-Walker-egyenletb˝ol számolhatjuk. Az els˝orendu˝ autoregresszív folyamat el˝ozetes identifikációját is a 19.1. táblázat tartalmazza. A maradék szórások kezdeti becslése a mozgóátlag-folyamatnál σ2ε =
R0 2 ^ + ··· + d ^ 2q 1+d 1
míg autoregresszív folyamat kezdeti becslése esetén a σ ^ 2ε = R0 (1 − c^1 R1 − ··· − c^p Rp ) összefüggést kapjuk.
19.5. Az ARMA-modell parame ´tereinek becsle ´se Amennyiben a p és q értékét el˝ozetesen becsültük (lásd 19.1. táblázat), a következ˝o lépés a z = (c,d) = (c1 ,...,cp ,d1 ,...,dq )
297
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
paraméterek meghatározása. Ezt a legkisebb négyzetek módszere vagy az esetben, ha εt normális eloszlású, akkor a maximum likelihood módszer alapján végezzük, amelyben a z szerint minimáljuk az S(z) =
n
ε2t
(19.6)
t=1
reziduál (maradék) négyzetösszeget, ahol εt = d−1 (B)c(B)xt . ˝ uségfüggvénye ˝ Mivel εt normális eloszlása esetén az εt sur n ε2 t −n , P(ε1 ,ε2 ,...,εn ) = const σε exp − 2σ2ε t=1
így az L(ε1 ,...,εn ) = lnP(ε1 ,...,εn ) likelihood függvény maximalizálása ekvivalens a (19.6) kifejezés minimálásával, azaz az így kapott becslések maximum likelihood becsléseknek tekinthet˝ok és így rendelkeznek a becslések legtöbb jó tulajdonságával. A minimalizálást valamilyen iteratív nemlineáris optimálási algoritmus – általában a Newton–Raphson-algoritmus – alapján végezzük, ahol az els˝o iterációhoz többnyire z = 0-t választunk. 19.5.1. ARMA modellek rendje meghata ´roza ´sa ´nak tova ´bbi lehet˝ ose ´gei
Az ARMA modellek gyakorlati alkalmazásával kapcsolatban az els˝o és egyben a legfontosabb probléma a modell rendjének a meghatározása. A gyakorlatban általában a modell rendje ismeretlen, ezért a többi paraméterrel együtt ezt is becsülni kell. A rend becslésére kifejlesztett módszerek alapvet˝oen három részre oszthatók: a) parciális autokorrelációs függvény tulajdonságaira támaszkodó módszerek, b) reziduális rész szórásának vizsgálatán alapuló módszerek, c) Akaike-féle információs kritériumra (AIC) támaszkodó módszerek. a) A korábbi megjegyzéseink szerint AR(p) folyamat esetén a ρk , k ≥ p + 1 parciális autokorrelációk zérus értékuek, ˝ becsléseik 1/n szórásnégyzetu, ˝ közelít˝oen független valószínuségi ˝ változók. Ezt a tényt felhasználva a modell rendjére vonatkozó hipotézisvizsgálat elvégezhet˝o. b) Tekintsünk egy p-ed rendu˝ autoregressziós folyamatra vonatkozó X1 ,..., Xn id˝osort. Illesszünk az id˝osorhoz az AR(k) modellel egy sorozatot kis k értékkel kezdve és ábrázoljuk k függvényében a becsült ^ + c^1,k R(1) ^ + ··· + c^k,k R(k) ^ σ ^ 2ε (k) = R(0)
298
IV. Bevezete ´s az id˝ osoranalı´zisbe
reziduális szórásnégyzet értékét. Azt várjuk, hogy a reziduális szórás lényegesen csökkenni fog, amikor k jól közelíti a valódi p rendet. Ez a technika nem csak az AR(p) folyamatok rendjének meghatározásánál alkalmazható, hanem MA(q) és ARMA(p,q) folyamatok vizsgálatánál is. A reziduális szórások ábrázolása ezekben az esetekben a j, illetve (i,j) függvényében történik. Akaike továbbfejlesztette a reziduális szórás ábrázolásának módszerét (FPE – Final Prediction Error – módszer) autoregressziós folyamatok esetén. Bevezetve az n+k 2 σ ^ (k) FPE(k) = n−k ε mennyiséget, Akaike módszere szerint FPE(k) minimumhelye adja a modell közelít˝o rendjét. c) A legáltalánosabb módszer az AIC Akaike-féle információs kritériumon alapul, mellyel a standard modellek (MA, AR, ARMA) egyaránt vizsgálhatók, s innen származtatható Bayes-féle megközelítéssel az ún. Bayes-féle információs kritérium (BIC). A módszer információelméleti megközelítésen nyugszik és nem csak id˝osorok vizsgálatánál használható. Tegyük fel, hogy a modellben egymástól függetlenlenül p paraméter illeszthet˝o a megfigyeléssorozathoz és jelölje AIC(p) = 2p − 2log(maximált likelihood függvény). Az AIC(p) minimumhelye adja a modell becsült rendjét. Megjegyezzük, hogy Gauss AR, MA, ARMA folyamatok esetén az el˝oz˝o minimalizációs feladat ekvivalens az AIC(p) = 2p + n · log σ ^ 2ε mennyiség minimalizálásával, ahol σ ^ 2ε a reziduális szórásnégyzet. Megjegyezzük, hogy AR folyamatok esetében használható a reziduális szórásnégyzetre megadott fenti formula. Azt is érdemes megjegyezni, hogy az AIC az információelméletben fontos szerepet játszó, két valószínuségeloszlás ˝ között értelmezett ún. Kullback–Leibler-féle információs mennyiségen alapszik.
19.6. A id˝ osormodell illeszkede ´se ´nek tova ´bbi vizsga ´lata Tegyük fel, hogy S(z) minimumát a z = z0 értéknél veszi fel. Ezt a (19.6)-ba helyettesítve, az ^ −1 (B)^ ^εt = d c (B)xt , t = 1,2,...,n mennyiségeket reziduáloknak (vagy maradékoknak) nevezzük. A reziduálokat használhatjuk fel a modell illeszkedésének vizsgálatához, rossz illeszkedés esetén a modell struktúrájának módosításához. Ha az illesztett modell adekvát, akkor az εt reziduáloknak egy Gauss-(diszkrét fehérzaj)-folyamat reprezentációjának kell lenniük. Mivel a „fehér” Gauss-folyamat autokorreláció-függvénye r0 = 1
299
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
kivételével rk = 0 minden k-ra, ezért ha a reziduálok becsült autokorrelációfüggvényében zérustól jelent˝osen eltér˝o értékeket találunk, akkor ez a nem megfelel˝o modellstruktúrára utal. A reziduálok autokorreláció-függvényére az rεε (k) alapján elvégezhetjük az ún. Portmaneau-illeszkedésvizsgálatot. Kiszámítjuk az e=n
L
r2εε (j)
j=1
statisztikát, ahol L elegend˝oen nagy pozitív szám. Ha az illesztett modell adekvát, az e valószínuségi ˝ változó χ2j,p,q eloszlást követ. Így adott valószínuségi ˝ szinten szignifikáns e érték viszont rossz illeszkedésre utal. Egy másik, különösen a szezonális id˝osorok illeszkedésekor hasznos teszt a kumulatív periodogram teszt, amelyben azt vizsgáljuk, helyesen modelleztüke az id˝osor periodikus karakterisztikáját. Ebben a reziduálok periodicitását vizsgáljuk a periodogram segítségével. Egy εt , t = 1,2,...,n id˝osor periodogramja a már ismertetett definíció alapján: 2 n 2 n 2 εt cos2πωi t + εt sin2πωi t , I(ωi ) = n t=1
i = 1,2,...,[n − 2/2],
t=1
a frekvencia: 0 ≤ ωi =
Kumulatív periodogramnak a i j=1 I(ωj ) C(ωi ) = , C(1/2) = 1, n^ σ2ε
1 i ≤ . n 2
i = 1,2,...,[n − 2/2]
mennyiségeket nevezzük. Ha a reziduálok sorozata valóban fehér Gauss-folyamatból származik, akkor a C(ωi ) mennyiségeket az ωt függvényében felrajzolva a pontoknak véletlenszeruen ˝ kell szóródniuk a (0;0), (0,5;1) pontokat összeköt˝o egyenes körül. Az egyenest˝ol való szisztematikus eltérések (amelyeknek szignifikáns voltát Kogomorov–Szmirnov-próbával ellen˝orizhetjük) a modell rossz illeszkedését mutatják. A modellstruktúra módosítása a reziduálok alapján. Amennyiben arra a következtetésre jutunk, hogy az illesztett modell nem adekvát és a reziduálok nem Gauss-folyamat realizációi, akkor a modellstruktúra módosítására van szükség. Tegyük fel, hogy egy ARMA(p,q)-modellt illesztettünk, amikor a tényleges folyamat ARMA(p∗ ,q∗ ). Ekkor a reziduálok a cp (B)dq∗ (B)εt = cp∗ (B)dq (B)αt folyamat realizációi, ahol εt Gauss-folyamat, αt pedig nem. Mivel a c−1 p∗ (B)dq∗ (B)εt = xt
és
cp (B)d−1 q (B)xt = αt
(19.7)
300
IV. Bevezete ´s az id˝ osoranalı´zisbe
összefüggésb˝ol a (19.7) egyenl˝oséget kapjuk. Innen látható, hogy a reziduálok autokorreláció- és parciális autokorreláció-függvényei ARMA(p∗ +q,p+q∗ ) folyamatnak felelnek meg. Az rεε (k), Pεε (k), k = 1,2,... becslésekb˝ol a p∗ + q és p + q∗ mennyiségek megállapíthatók, míg p és q ismert, így a p∗ , q∗ kiszámítható. Ezután elvégezzük az ARMA(p∗ ,q∗ )-modell illesztését. 19.1. P ÉLDA . Igazi struktúra AR(1) p∗ = 1, q∗ = 0; illesztett modell MA(1) p = 0, q = 1. Ekkor az MA(1) illesztésénél kapott reziduálok AR(2)-folyamatot mutatnak, tehát p∗ + q = 2, p + q∗ = 0. Mivel p = 0, q = 1 ismert, kapjuk, hogy q∗ = 0, p∗ = 1, amelyek az igazi folyamatstruktúra paraméterei. Mivel a gyakorlatban becslésekkel dolgozunk, ennek az eljárásnak a sikeres alkalmazása természetesen nem egyszeru, ˝ mivel már a reziduálokat is csak torzított paraméter becsléssel számíthatjuk.
19.7. Az id˝ osorok el˝ orejelze ´se Miután egy adekvát modellt illesztettünk az id˝osor egy t id˝opillanatig rendelkezésre álló megfigyelései alapján, a következ˝o lépés az lehet, hogy el˝orejelezzük egy t + l, l ≥ 1 jöv˝obeli id˝opontra az id˝osor x ^t (l) várható értékét. Mivel az x1 ,...,xt tényadatok csak a t-edik id˝opontig adottak, ilyenkor azt mondjuk, hogy x ^t (l) az id˝osor (id˝oegységgel el˝orevett) el˝orejelzése a t-edik id˝opontban. Mivel minden el˝orejelzés valamilyen függvénye kell legyen a tényadatoknak, mi a lineáris függvényekre szorítkozunk és az el˝orejelzést lineáris el˝orejelzésnek nevezzük. Azt tekintjük a legjobb el˝orejelzésnek, amelyre a tényadatok és az el˝orejelzett értékek közötti eltérés négyzetének várható értéke minimális. Ez a minimális négyzetes középhibájú el˝orejelzés. Mint már tárgyaltuk, ha egy folyamat invertálható, létezik egy végtelen MA reprezentációja: ∞ ϕj εt−j = ϕ(B)εt , xt = j=0
ahol ϕ0 = 1, és a ϕ(B) zérushelyei a komplex sík egység sugarú körén és azon kívül helyezkednek el, εt pedig Gauss fehérzaj-folyamat zérus várható értékkel és σε szórással. Tegyük fel, hogy a legjobb el˝orejelzés x ^t (l) = ϕ∗l εt + ϕ∗l+1 εt−1 + ··· =
∞
ϕ∗l+j εt−j ,
(19.8)
j=0
ahol a ϕ∗l ,ϕ∗l+1 ,... együtthatókat kell meghatározni. írjuk fel a t + l-edik id˝opontra a tényadat és az el˝orejelzés különbsége négyzetének várható értékét (a minimális négyzetes középhibát): ∞
2 ϕl+j − ϕ∗l+j σ2ε , ^t (l)] = 1 + ϕ21 + ··· + ϕ2l−1 σ2ε + E [xt+l − x j=0
(19.9)
301
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
ahol xt+l =
∞
ϕj εt+l−j = εt+l + ϕ1 εt+l−1 + ··· + ϕl−1 εt−1 +
j=0
∞
ϕl+j εt−j
j=0
a folyamat t + l id˝opontbeli értéke. Az x ^t (l) el˝orejelzés akkor optimális, ha (19.9) minimális, ez pedig a ϕ∗l+j = ϕl+j ,
j = 0,1,...
(19.10)
esetén teljesül. Tehát (19.8) és (19.9) figyelembevételével (19.10) alapján kapjuk, hogy xt+l = (εt+l + ϕ1 εt+l−1 + ··· + ϕl−1 εt+1 ) +
∞
ϕl+j εt−j = et (l) + x ^t (l),
j=0
(19.11) ahol et (l) az x ^t (l) el˝orejelzés hibája. A rendelkezésre álló három alapvet˝o el˝orejelzési forma közül a – megítélésünk szerint legfontosabb – differenciaegyenletes kifejezést ismertetjük részletesen. Eszerint a feltételes várható értékre az xt+l jelölést bevezetve, ha l > 0, a legjobb becslés az x ^t (l) = xt+l = c1 t+l−1 +···+cp xt+l−p −d1 εt+l−1 −···−dq εt+l−q +εt+l (19.12) összefüggéssel határozható meg, ahol xt−j = xt−j ha j = 0,1,... xt+j = x ^t (j) ha j = 0,1,... εt−j = x ^t−j − x ^t−j−1 (l) εt+j = 0 ha j = 0,1,... Az el˝obbiekben bevezetett végtelen ϕj , j = 0,1,... mozgóátlag-súlyokkal az el˝orejelzés elvi képlete x ^t (l) = ϕ1 εt+l−1 + ··· + ϕl−1 εt+1 + ϕ1 εt + ϕl+1 εt−1 + ··· + εt+l . A gyakorlatban a kifejezés csonkított formáját célszeru˝ használni, mely l > q esetén a következ˝o x ^t (l) = ct (l) + εt+1 + ϕ1 εt+l−1 + ··· + ϕl−1 εl+1 , ahol ct (l) a csonkított végtelen összeg, melyet vagy elhanyagolunk, vagy hozzávet˝olegesen el˝ore megbecsülünk. A súlyok kiszámítása a ϕ1 = c1 − d1 ϕ2 = c1 ϕ1 + c2 − d2 .. . ϕj = c1 ϕj−1 + ··· + cp ϕj−p − dj
302
IV. Bevezete ´s az id˝ osoranalı´zisbe
egyenletrendszerb˝ol történhet, ahol ϕ0 = 1 és ϕj = 0, ha j < 0 és dj = 0, ha j > q. Ha L nagyobb mint p−1 és q, akkor j > L, és ϕ kielégíti a még következ˝o differenciaegyenleteket is: ϕj = c1 ϕj−1 + c2 ϕj−2 + ··· + cp ϕj−p . Az el˝orejelzés hibájának szórásnégyzete a (19.8) összefüggés segítségével l−1
2 2 ϕ2j σ2ε . (19.13) V (l) = E ct (l) = 1 + ϕ1 + ··· + ϕ2l−1 σ2ε = 1 + j=1
Látható, hogy l növekedésével, amikor egyre távolabbi id˝opontra készítünk el˝orejelzést a hiba szórásnégyzete monoton növekszik (19.3. ábra). Amennyiben tehát az εt Gauss-folyamat, a (19.13) segítségével adott p = 1 − p0 valószínuségi ˝ megbízhatósági (konfidencia) intervallumot tudunk megadni egy l id˝oegységgel el˝ore jelezve: 1/2
^t (l) ± up/2 V (l) xt+l (l) = x
,
(19.14)
ahol up/2 -t a standard normális eloszlás függvényében a p/2-nek megfelel˝o érték (pl. p = 0,05-re up/2 = 1,96). A (19.14)-ben jelölt határok azt jelentik, hogy 1 − p annak a valószínusége, ˝ hogy az (xt−l (−);xt+l (+)) intervallum tartalmazni fogja az xt+l tényadatot a t + l id˝opontban. A p = 0,05-re tehát ez a valószínuség ˝ 95% lesz. Általánosan P{xt+1 (−) < xt+1 < xt+1 (+)} = 1 − p. Jellegzetes példát mutat erre a 19.3. ábra, ahol az eredeti id˝osort pontvonal, a megbízhatósági határokat folytonos vonal jelöli. Jól látható, amit az el˝orejelzés hibájáról mondtunk, hogy ugyanolyan valószínuség ˝ mellett minél hosszabb távra jelzünk el˝ore, a megbízhatósági intervallum nagysága annál jobban növekszik. Ezenkívül, ha nagyobb biztonsággal (valószínuséggel) ˝ akarjuk tudni, hogy ugyanazon el˝orejelzésnél a tényadat hová fog esni, akkor ismét nagyobb határokat kapunk.
19.8. Nemstaciona ´rius id˝ osor-modellek Sok megfigyelt nemstacionárius folyamat rendelkezik bizonyos homogenitással abban az értelemben, hogy a pillanatnyi értékét˝ol és az esetleges trendt˝ol eltekintve egy bizonyos része nagyon hasonlóan viselkedik, mint a többi. Ilyenkor a folyamat megfelel˝o differenciaképzésével stacionárius folyamatot kaphatunk, amiket az ARMA-modellek kis módosításával könnyen leírhatunk. Általában azokat a folyamatokat amelyeknek a δ-dik differenciájuk stacionárius ARMA(p,q)-folyamat, stacionárius autoregresszív integrált mozgóátlagú,
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
303
19.3. ábra. Az id˝osor-el˝orejelzés a) szórás (bizonytalansága), b) konfidencia-intervallumai 50%-os és 95%-os megbízhatóság esetén
vagy röviden ARIMA(p,δ,q)-folyamatoknak nevezzük. Az els˝orendu˝ differenciaképzés, egy xt folyamatra: ∇xt = xt − xt−1 = xt − Bxt = (1 − B)xt , amib˝ol látható, hogy a differenciaoperátor ∇ = 1 − B. Hasonlóan a δ-edrendu˝ δ differenciaoperátor ∇δ = (1 − B) . Például
2 ∇2 xt = (xt − xt−1 ) − (xt−1 − xt−2 ) = 1 − 2B + B2 xt = (1 − B) xt . Így a ∇δ xt stacionárius ARMA(p,q)-folyamat leírható a c(B)∇δ xt = d(B)εt
304
IV. Bevezete ´s az id˝ osoranalı´zisbe
alakban, vagy a Φ(B)xt = d(B)εt
(19.15)
formában, ahol Φ(B) egy p + δ rendu, ˝ ún. általánosított autoregresszív operátor. Bevezetve a ∇δ xt jelölést, a (19.15)-ben szerepl˝o xt ARIMA(p,δ,q)-folyamat a wt ARMA(p,q)-modellre redukálódik, amit az el˝oz˝oek alapján modellezhetünk (illetve készíthetünk el˝orejelzést). Miután a wt folyamatot modelleztük, ebb˝ol a zt -t úgy kapjuk, hogy alkalmazzuk a ∇δ inverz operátorát, azaz δ-szor integráljuk (szummázzuk) az xt -t. Mivel ez is lineáris transzformáció, az illesztés optimális tulajdonságai változatlanok maradnak. Megjegyezzük, hogy nemstacionárius folyamat autokorreláció-függvénye mindig jellegzetes képet mutat, így rögtön megtudhatjuk azt, ha a differeciálás foka nem megfelel˝o.
19.9. Szezona ´lis id˝ osor-modellek A továbbiakban az el˝oz˝o megfontolásokat kiterjesztjük olyan id˝osorokra, amelyekben szezonális komponensek is vannak. Példák a szezonalitásra az olyan id˝osorok, amelyekben éves periodicitás van. Ilyenkor azt mondjuk, hogy a szezonális periódus T = 12, ami a 12 hónapnak felel meg. A szezonális id˝osorok modellezéséhez vezessük be a P-edrendu˝ (stacionárius) szezonális autoregresszív operátort: Cp BT = 1 − C1 BT − C2 B2T − ··· − Cp BPT , a Q-adrendu˝ (invertálható) szezonális mozgóátlag-operátort: DQ BT = 1 + D1 BT + D2 B2T + ··· + DQ BQT , és a szezonális ∂-rendu˝ differenciaoperátort
∂ ∇∂T = 1 − BT . Szezonális autoregresszív integrált mozgóátlagú vagy SARIMA(P,∂,Q)-folyamatnak nevezzük a Cp BT ∇∂T Z˜ t = DQ BT εt folyamatot. Ennek az autokorrelációs- és parciális autokorrelációs-függvényei azonosak a megfelel˝o ARIMA-folyamatéval, csak az egységintervallum szerepét a T veszi át. Ezek után felírható az általános Box–Jenkins-modell: cp (B)CP BT ∇δ ∇∂T Z˜ t = dq (B)DQ BT εt , amit multiplikatív (p,δ,q)×(P,∂,Q)T modellnek is nevezünk. Az ilyen szezonális ARIMA-modellstruktúra becslése a p,δ,q, valamint a P,∂,Q értékek meghatározását jelenti. A tapasztalatok azt mutatják, hogy p+ q+ P + Q + δ+ ∂ ≤ 4 számú paraméter elégséges az id˝osor jó közelítésére.
305
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
˝ ˝ ÚTGERJESZ ˝ 19.2. P ÉLDA . (JÁRM UVEK DINAMIKAI VISELKEDÉSÉT EL OIDÉZ O ˝ TÉS ID OSORÁNAK PARAMÉTERES IDENTIFIKÁLÁSA ) Az állandó sebességgel haladó jármuvet ˝ gerjeszt˝o útprofil nyilvánvalóan id˝osorként is felfogható. A χ2 illeszkedésvizsgálat eredményei: χ2 = 83,913; 57 szabadságfokkal és 3,189% valószínuségi ˝ határokkal. A reziduálok fenti részletes vizsgálata alapján könnyen megállapíthatjuk, hogy már az el˝ozetes identifikáció is szoros illeszkedést, nagyfokú pontosságot ad. Ezért a maximum likelihood paraméterbecslés eredményeinek bemutatásától a jelentéktelen különbségek miatt eltekintünk. Az útgerjesztés id˝osorának autokorreláció-függvényét (200 adatból meghatározva) a 19.4. ábra mutatja, a parciális autokorreláció-függvény és az autospektrum értékei a 19.2. táblázat szerint alakulnak (19.5. ill. 19.6. ábra).
19.4. ábra. Az útgerjesztés id˝osorának autokolleráció-függvénye
19.2. táblázat. Útgerjesztés parciális autokorreláció-függvénye és autospektruma k 0 1 2 3 4 5 6 7 8 9 10
Pk
Fxx [ω(k)]
1 0,977237 −0,755953 −0,0943818 0,0667245 −0,0267041 −0,0552237 −0,0940763 −0,0421856 −0,0236927 0,0236927
0 2,08377 0,0780524 0,00272707 0,0863194 0,0998218 0,144759 0,172704 0,0236853 0,420697 0,392372
306
IV. Bevezete ´s az id˝ osoranalı´zisbe
19.5. ábra. Az útgerjesztés id˝osorának parciális autokolleráció-függvénye
19.6. ábra. Az útgerjesztés id˝osorának autospektuma
Többszöri próbálgatás után az autokorreláció-függvények és az autospektrum alapján AR(2)-modell megválasztása látszik célszerunek. ˝ Az AR(2) el˝ozetes identifikálása alapján kapott paraméterbecslés szerinti id˝osormodell: xt =
1 εt . 1 + 1,716B − 0,756B2
Az id˝osor abszolút értékeinek modellillesztését a 19.7. ábra szemlélteti.
19. Id˝ osorok modelleze ´se ARMA folyamatokkal
307
19.7. ábra. Az úterjesztés id˝osorának el˝orejelzése és modellillesztése
19.8. ábra. Az id˝osormodell reziduálsorozatának részlete
A reziduálok sorozatának átlaga −0,0032, √ szórása 0,0248 a legnagyobb hiba 0,080, az abszolút hiba átlaga 0,02 és ±1/ N = ±0,071. A reziduálok sorozatának részlete a 19.8. ábrán, a reziduálok autokorrelációfüggvénye és autospektruma a 19.9, ill. a 19.10. ábrán látható.
308
IV. Bevezete ´s az id˝ osoranalı´zisbe
19.9. ábra. A reziduálok autokolleráció-függvénye
19.10. ábra. A reziduálok autospektruma
20 Bilinea ´ris id˝ osorok, linearita ´si pro ´ba ´k
20.1. Bilinea ´ris id˝ osorok fogalma Az X1 ,...,XT id˝oben zajló megfigyelést statisztikai analízisnek alávetve gyakran fordul el˝o, hogy az eloszlás nem Gauss-típusú. Ilyenkor két út kínálkozik. Az egyik amikor nemlineáris transzformációt alkalmazunk és ezzel próbáljuk meg elérni a normalitást. A másik pedig az, amikor nemlineáris modellt illesztünk az id˝osorra. Ez utóbbi esethez tartozik a lineáris ARMA modellhez viszonylag közel es˝o bilineáris modell, a fontosabb eredményekkel kapcsolatban ld. Subba Rao és Gabr (1978), (1981), Granger, Andersen (1978), Subba Rao és Gabr (1984), Terdik (1999). A bilineáris jelz˝o arra utal, hogy modellünk lineáris mind a megfigyelést, mind pedig a zajt illet˝oen, ha a másikat fixen tartjuk. 20.1. D EFINÍCIÓ . Az Xt , t = 0,±1,±2,... id˝osort bilineárisnak nevezzük, ha kielégíti az q p r1 r2 dkm Xt−k εt−m + bk εt−k ak Xt−k + Xt = k=1
k=1 m=1
k=0
egyenletet. Feltételezzük, hogy Xt bilineáris id˝osor fizikailag realizálható, az {εt } zajsorozat pedig független azonos eloszlású, Eεt = 0, D2 εt = Eε2t = σ2ε és Eε4t < ∞ (ha a zajfolyamat Gauss, akkor az utóbbi momentumfeltétel automatikusan teljesül). Ahhoz, hogy bemutassuk a bilineáris id˝osorok identifikációjának sajátos problémáit, tekintsük a következ˝o speciális bilineáris modellt (p = r1 = r2 = 1, q = 0): Xt = aXt−1 + dXt−1 εt−1 + εt (20.1) Keressük az egyenlet gyengén stacionárius megoldását, illetve a megoldás létezésének a feltételét. Ebb˝ol a célból bevezetjük az Yt = Xt + c id˝osort, ahol c
310
IV. Bevezete ´s az id˝ osoranalı´zisbe
egy kés˝obb meghatározandó konstans. Az Yt id˝osor nyilvánvalóan kielégíti az Yt = aYt−1 + dYt−1 εt−1 + εt + bεt−1 + c1 = (a + dεt−1 )Yt−1 + εt + bεt−1 + c1 egyenletet, ahol b = −cd és c1 = c(1 − a). Ha az egyenlet jobb oldalán az Yt−1 helyébe a rá is érvényes egyenletet helyettesítjük, majd ezt az eljárást rekurziv módon tovább ismételjük, akkor tetsz˝oleges N ≥ 1 esetén a következ˝o egyenlethez jutunk: Yt = (a + dεt−1 )[(a + dεt−2 )Yt−2 + (εt−1 + bεt−2 + c1 )] + (εt + bεt−1 + c1 ) = = ··· =
N
(a + dεt−k )Yt−N + εt + bεt−1 + c1 +
k=1
+
n N
n=1
(a + dεt−k ) (εt−n + bεt−n−1 + c1 ).
(20.2)
k=1
Jelölje
Wn =
n
(a + dεt−k ) (εt−n + bεt−n−1 + c1 ),
k=1
és vizsgáljuk meg el˝oször a ∗ = WN
N
(20.3)
Wn
n=1
sor (négyzetes középben vett) konvergenciájának feltételét, ha N → ∞. Világos, hogy a Wn = [(εt−n + bεt−n−1 + c1 )(a + dεt−n )]
n−1
[a + dεt−k ],
k=1
szorzatban a szögletes zárójelekben álló valószínuségi ˝ változó függetlenek, ezért EWn = E[(εt−n + bεt−n−1 + c1 )(a + dεt−n )]
n−1
E[a + dεt−k ] =
k=1
= [ac1 + dσ2ε ]
n−1
[a] = an−1 (ac1 + dσ2ε ) = 0,
k=1
ha c1 = −dσ2ε /a. Innen és a c1 = c(1−a) összefüggésb˝ol következik c-re nézve, hogy dσ2ε c1 =− . c= 1−a a(1 − a)
311
20. Bilinea´ris id˝ osorok, linearita´si pro ´ba´k
E választás mellett egyszeruen ˝ adódik az is, hogy 2 = E[(εt−n + bεt−n−1 + c1 )(a + dεt−n )]2 D2 Wn = EWn
n−1
E[a + dεt−k ]2 =
k=1
= a2 c21 + (a2 + a2 b2 + c21 d2 + 4ac1 d)σ2ε + b2 d2 σ4ε + +2d(a + c1 )Eε30 + d2 Eε40 [a2 + d2 σ2ε ]n−1 . Hasonlóan eljárva kapjuk, hogy |cov(Wn ,Wn+1 )| ≤ const·(a2 + d2 σ2ε )n−1 , és cov(Wn ,Wn+m ) = EWn Wn+m = 0,
ha m ≥ 2
A fentiek alapján könnyu˝ ellen˝orizni, hogy a (20.3), és ezzel együtt a (20.2) összegre vonatkozó négyzetes középben vett konvergencia feltétele, valamint (20.2) esetén a gyenge stacionaritás feltétele is egyben: a2 + d2 σ2ε < 1.
(20.4)
Ez azt jelenti, hogy ezen feltétel mellett Yt -t definiálhatjuk úgy, mint (20.2) négyzetes középben vett (N → ∞) határértékét, azaz n ∞ (a + dεt−k ) (εt−n + bεt−n−1 + c1 ). Yt = εt + bεt−1 + c1 + n=1
k=1
Ekkor a fentiek szerint Yt -nek létezik második momentuma és az Xt = Yt −c id˝osor pedig megoldása a (20.1) bilineáris egyenletnek. Yt el˝oállításából és az EWn = 0, n ≥ 1 összefüggésb˝ol az is következik, hogy EYt = c1 = −
dσ2ε , a
és így EXt = EYt − c = −
dσ2ε dσ2ε dσ2ε + = . a a(1 − a) 1 − a
A kovariancia struktúra kiszámításához el˝oször bevezetjük az Zt = Xt − εt −
dσ2ε 1−a
id˝osort. Ekkor EZt = 0 és érvényes a Zt = aZt−1 + dZt−1 εt−1 + gεt−1 + d(ε2t−1 − σ2ε )
312
IV. Bevezete ´s az id˝ osoranalı´zisbe
egyenlet, ahol g = a + dσ2ε /(1 − a). Az egyenletb˝ol látszik, hogy Zs , s ≤ t független εt -t˝ol minden t-re, így tetsz˝oleges s ≥ 1 mellett fennáll cov(Zt ,Zt−s ) = E[(aZt−1 + dZt−1 εt−1 + gεt−1 + d(ε2t−1 − σ2ε ))Zt−s ] = = acov(Zt−1 ,Zt−s ). Világos, hogy cov(Zt ,Zt ) = D2 Zt = σ2Z , és tetsz˝oleges s ≥ 1 esetén igaz cov(Zt ,Zt−s ) = acov(Zt−1 ,Zt−s ) = ··· = as cov(Zt−s ,Zt−s ) = as σ2Z . Az is nyilvánvaló, hogy E(Zt − aZt−1 )2 = E(dZt−1 εt−1 + gεt−1 + d(ε2t−1 − σ2ε ))2 . Kifejtve ezt az egyenletet, adódik (1 − a2 )σ2Z = d2 σ2Z σ2ε + g2 σ2ε + d2 (Eε40 − σ4ε ) + 2dgEε30 , ahonnan σ2Z =
1
1 − (a2 + d2 σ2ε )
g2 σ2ε + d2 (Eε40 − σ4ε ) + 2dgEε30 .
(20.5)
Itt megjegyezzük, hogy (20.4) szerint a jobb oldalon álló tört nevez˝oje pozitív és az adott feltételek mellett σ2Z > 0. A fentiek alapján a Zt id˝osor kovarianciafüggvényére teljesül RZ (s) = a|s| σ2Z ,
s = 0,±1,±2,...
Visszatérve az Xt kovariancia függvényéhez, kapjuk, hogy RX (0) = σ2X = σ2Z + σ2ε , RX (s) = cov(Xt ,Xt−|s| ) = cov(Zt + εt ,Zt−|s| + εt−|s| ) = = cov(Zt ,Zt−|s| ) + cov(Zt ,εt−|s| ), ahol cov(Zt ,εt−|s| ) = E[(aZt−1 + dZt−1 εt−1 + gεt−1 + d(ε2t−1 − σ2ε ))εt−|s| ] = = aEZt−1 εt−|s| = ··· = = a|s| E[(aZt−|s| + dZt−|s| εt−|s| + gεt−|s| + d(ε2t−|s| − σ2ε ))εt−|s| ] = = a|s| (gσ2ε + dEε30 ),
ha s = 0.
313
20. Bilinea´ris id˝ osorok, linearita´si pro ´ba´k
Tehát
RX (s) =
ha s = 0 σ2Z + σ2ε , a|s| (σ2Z + gσ2ε + dEε30 ), ha s = 0.
Az Xt id˝osor spektruma a kovarianciák inverz Fourier-transzformáltja ∞ 1 S2 (λ) = RX (k)eikλ = 2π k=−∞ ∞ 1 2 3 |k| ikλ 2 2 2 2 3 2 (σZ + gσε + dEε0 ) a e + [(σZ + σε ) − (σZ + gσε + dEε0 )] = 2π =
σ2Z + gσ2ε + dEε30 2π
k=−∞ 2
(1 − g)σ2ε − dEε30 1−a . + iλ 2 |1 − e | 2π
A tanulsága ennek a spektrumnak az, hogy annak ellenére, hogy az id˝osor nem lineáris, lineáris id˝osorokra jellemz˝o spektruma van. Innen következik, hogy az identifikáció megköveteli magasabb rendu˝ spektrumok meghatározását is. Gauss-zaj esetén ezt részletesen tárgyalja Terdik (1999). Érdemes még megjegyezni, hogy nem Gauss-zajfolyamat mellett a 2n-ik momentum létezésének szükséges és elégséges feltétele az, hogy Eε2n 0 −∞ −π
ún. Szeg˝o-feltétel.
317
20. Bilinea´ris id˝ osorok, linearita´si pro ´ba´k
Az alábbiakban olyan lineáris folyamatokkal fogunk foglalkozni, amelyeknek a végtelen mozgóátlag el˝oállításában szerepl˝o {εt } zajfolyamat független és azonos eloszlású valószínuségi ˝ változók sorozata. Gauss-fehérzaj folyamatok esetén ez automatikusan teljesül, mivel a fehérzaj várható értéke és szórása egyértelmuen ˝ meghatározza a normális eloszlást, továbbá a Gauss-sorozatok korrelálatlanságából pedig következik a sorozat függetlensége. A linearitásnak most egy általánosabb fogalmát használjuk, amelyet Hannan (1986) vezetett be. 20.5. D EFINÍCIÓ . Az {Xt } folyamatot gyengén lineárisnak nevezzük, ha a legjobb egylépéses el˝orejelzése lineáris, azaz E(Xt |Xt ,Xt−1 ,...) =
∞
αk Xt−k .
k=0
A továbbiakban feltesszük, hogy a Szeg˝o-feltétel teljesül és az {Xt } fizikailag realizálható. Megmutatjuk, hogy a gyenge linearitás ekvivalens azzal a feltevéssel, hogy az {εt } sorozat martingál differencia, azaz E(εt+1 |At ) = 0, ahol At az (εt ,εt−1 ,...) valószínuségi ˝ változók által generált esemény σ-algebra. Valóban, ha {Xt } gyengén lineáris, akkor Xt+1 mer˝oleges vetülete az ˝ változók által kifeszített lineáris térre megegyezik (Xt ,Xt−1 ,...) valószínuségi a feltételes várható értékével, így εt+1 = Xt+1 − E(Xt+1 | Xt ,Xt−1 ,...). A gyenge linearitásból következik, hogy E(Xt+1 | Xt ,Xt−1 ,...) lineáris függvé˝ változóknak, ahonnan adódik, hogy εt az nye az (Xt ,Xt−1 ,...) valószínuségi {Xt } folyamat lineáris transzformáltja és így E(εt+1 |At ) = 0. Megfordítva, ha E(εt+1 | At ) = 0, akkor az εt+1 =
∞
ak Xt+1−k
k=0
összefüggésb˝ol következik, hogy E(Xt+1 |Xt ,Xt−1 ,...) lineáris függvénye az (Xt ,Xt−1 ,...) valószínuségi ˝ változóknak. A gyenge linearitásból következik, hogy az Xt+1 -t az (Xt ,Xt−1 ,...) összes lehetséges függvényei közül négyzetes középben a legjobban a lineárissal lehet közelíteni. Ha például, tekintjük a legjobb kvadratikus el˝orejelzést, azaz
318
IV. Bevezete ´s az id˝ osoranalı´zisbe
keressük azokat az ak ,k = 0,1,... és ajk , j,k = 0,1,... konstans együtthatókat, amelyekre a 2 ∞ ∞ ∞ E Xt+1 − ajk Xt−j Xt−k ak Xt−k − k=0 j=0 k=0 négyzetes eltérés minimális. Akkor a gyenge linearitás esetén jobbat nem kaphatunk, mintha csak az (Xt ,Xt−1 ,...) lineáris függvényeire minimalizálnánk. Tehát a lineáris és kvadratikus el˝orejelzés ilyenkor megegyezik. A Subba Rao – Gabr próba a linearitásra azon alapszik, hogyha az folyamat lineáris, akkor – amint azt láttuk – a bikoherencia konstans (Subba Rao, Gabr, 1980). Ennek a próbának egy stabilabb változatát konstruálta meg Hinich (1982). A gyenge linearitási próba alapja pedig a következ˝o megállapítás. Ha a legjobb lineáris és a legjobb kvadratikus el˝orejelzés megegyezik, akkor az {εt } zajsorozat Sε,3 bispektrumára minden (α,β,γ) frekvencia esetén érvényes a Sε,3 (α,β) + Sε,3 (γ,0) + Sε,3 (−α + γ,−β − γ) = = Sε,3 (β,γ) + Sε,3 (0,−α − β) + Sε,3 (−α + γ,−γ) egyenlet (Terdik, 1999). A gyenge linearitási próba ezen egyenlet fennállásának a leellen˝orzésén alapszik. Az említett linearitási próbák a bispektrum becslés aszimptotikus viselkedésén, határeloszlásán alapulnak. Itt meg kell jegyezni, hogy ennek a statisztikai próbának a gyakorlati alkalmazhatóságát jelent˝os mértékben megkönnyíti, hogy létezik könnyen hozzáférhet˝o statisztikai programcsomag (MATLAB Toolbox).
20.3. Hosszu ´ memo ´ria ´ju ´ sorozatok Tetsz˝oleges azonos eloszlású, véges szórásnégyzettel bíró X1 ,...,Xn sorozat esetén a sorozat összegének szórásnégyzete lineáris, azaz n 2 D Xk = nσ2X , k=1
˝ változók közös szórását. Ez a tulajahol σ2X jelöli az X1 ,...,Xn valószínuségi donság érvényben marad akkor is, ha olyan Xt , t = 0,±1,±2,... stacionárius ˝ uségfüggvénye ˝ és az sorozatot tekintünk, amelynek létezik S2 (λ) spektrális sur folytonos a 0 pontban. Jelölje RX (k), k = 0,±1,... a stacionárius sorozat kovarianciafüggvényét, ekkor D
2
n
k=1
Xk
=n
n−1 k=−(n−1)
|k| RX (k) ≈ nS2 (0), 1− n
319
20. Bilinea´ris id˝ osorok, linearita´si pro ´ba´k
mivel az S2 (0) =
∞
RX (k)
k=−∞
sor a feltételek szerint konvergens és ebben az esetben teljesül (az RX (k), k = 0,±1,... sorozat Cesaro-összegeire fennálló határérték tétel szerint) a lim
n→ ∞
n−1 k=−(n−1)
∞ |k| RX (k) = 1− RX (k) n k=−∞
n konvergencia. Ha különböz˝o nagy n értékek mellett becsüljük a D2 k=1 Xk szórásnégyzetet és vesszük annak logaritmusát, továbbá azt az n szerinti logaritmikus skálán ábrázoljuk, akkor a n 2 logD Xk ≈ logn + logS2 (0) k=1
aszimptotikus összefüggés következtében egy olyan egyenest kapunk, amelynek meredeksége 1. Számos olyan, különféle megfigyelésb˝ol származó adathalmaz ismeretes (Beran, 1994), amelyre a fenti egyenes meredeksége nem 1, hanem 1-nél határozottan nagyobb 2H számérték, ahol H > 1/2. Két ilyen esetet említünk meg. Az egyik, amelyre Hurst (1951) hívta fel a figyelmet, a Nílus minimális vízszintjének a sorozata. A „H” jelölés is Hurst nevéhez fuz˝ ˝ odik és gyakran Hurst-koefficiensnek hívják. A másik ilyen tulajdonságú id˝osor, amely napjainkban vált nevezetessé az Ethernet hálózati forgalom adatsora (Willinger, Taqqu, 1997, stb.). Hosszú memóriájú sorozatok modellezésének alapjául a frakcionálisan differenciált Gauss-zaj (vagy röviden frakcionális Gauss-zaj) szolgál, amelyet az εt = (1 − B)−h Zt ,
0 < h < 1/2
képlettel definiálunk, ahol B a visszaléptetés operátora (BZt = Zt−1 ), Zt Gaussfehérzaj, EZt = 0, D2 (Zt ) = EZ2t = σ2Z és az (1 − B)−h operátort a B operátor négyzetes középben értelmezett hatványsorával (Taylor-sorfejtésével) értelmezzük (ld. Hosking, 1981). Megjegyezzük, hogy folytonos ideju˝ folyamatok esetén a frakcionális Brown-mozgás folyamat játszik alapvet˝o szerepet (Mandelbrot, van Ness, 1968; Terdik, 1999), amelynek diszkretizáltja hasonló tulajdonsággal rendelkezik, mint εt . A frakcionális Gauss-zaj fontosabb tulajdonságai a következ˝ok: szórásnégyzete σ2ε = Eε2t = σ2Z
Γ (1 − 2h) , Γ 2 (1 − h)
320
IV. Bevezete ´s az id˝ osoranalı´zisbe
kovarianciafüggvénye cov(εt ,εt+m ) = σ2ε
(−1)m Γ 2 (1 − h) , Γ (1 − h + m)Γ (1 − h − m)
spektrális sur ˝ uségfüggvénye ˝ S2,ε (λ) =
σ2Z . |1 − λ−1 |2h
A középs˝o formulával kapcsolatban meg kell jegyezni, hogy Γ (x) függvényt x > 0 mellett definiáltuk (ld. a gamma eloszlás definíciója után). Bebizonyítható, hogy a Γ (x) függvény kiterjeszthet˝o analitikusan az egész komplex síkra, ahol az x = 0,−1,−2,... pontok kivételével reguláris és ezekben a pontokban els˝orendu˝ pólusa van. A 0 < h < 1/2 feltétel következtében a nem egész értéku˝ (1 − h), (1 − h + m) és (1 − h − m) pontokban a Γ függvény jól definiált. Megmutatható, hogy aszimptotikusan igaz a cov(εt ,εt+m ) ≈ σ2ε |m|2h−1 ,
|m| → ∞
(20.6)
összefüggés, tehát ellentétben a stacionárius ARMA sorozatokkal, ahol a kovarianciafüggvény exponenciálisan tart 0-hoz |s| → ∞ mellett, itt a csökkenés 2h−1 kitev˝oju˝ hatványfüggvény szerint történik. A (20.6) tulajdonsággal ekvivalens az S2,ε (λ) spektrum viselkedése a 0 pont környezetében, vagyis S2,ε (λ) ≈ |λ|−2h ,
ha λ → 0.
20.6. D EFINÍCIÓ . Az (20.6) tulajdonsággal rendelkez˝o stacionárius id˝osorokat nevezzük hosszú memóriájú folyamatoknak H = h + 1/2 Hurst-koefficienssel. A definíció indoklásánál megemlítjük, hogy (20.6)-b˝ol következik a n 2 logD εk ≈ 2Hlogn + const k=1
összefüggés. A lineáris hosszú memóriájú folyamatok könnyen származtathatók az εt frakcionális Gauss-zajból. Tegyük fel, hogy az α(z) =
p
αk z−k ,
α0 = 1
βk z−k ,
β0 = 1
k=0
és β(z) =
q k=0
20. Bilinea´ris id˝ osorok, linearita´si pro ´ba´k
321
polinomok minden gyöke az egységkörön belül van. Ekkor az α(B)Xt = β(B)εt egyenletet kielégít˝o Xt , t = 0,±1,±2,... sorozatot ARIMA(p,h,q) folyamatnak nevezzük. Az ARIMA(p,h,q) id˝osorok hosszú memóriájúak H = h+1/2 Hurstkoefficienssel. Érdemes felhívni a figyelmet arra, hogy esetünkben h ∈ (0,1/2). Ha a h ∈ (−1/2,0) esetet vizsgálnánk, akkor olyan stacionárius folyamathoz jutnánk, amelynek a spektruma 0-hoz tartana, tehát nem lenne hosszú memóriájú és nem teljesítené a spektrumokkal szemben támasztott szokásos 0 < c1 ≤ S2 (λ) ≤ c2 < ∞ feltételt sem, ami egyébként a rövid memóriájú tulajdonságot jellemzi.
21 Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra ´sa ´ra
21.1. Diszkre ´t input/output id˝ osormodellek fele ´pı´te ´se Tekintsük át röviden az input és output stacionárius id˝osorokból megadható lineáris rendszerek fogalmát a lehet˝o legegyszerubb ˝ gyakorlati jellegu˝ szemléleti formában. 21.1.1. A diszkre ´t linea ´ris id˝ osormodellek reprezenta ´cio ´i
Jelölje az u(t) = u diszkrét stacionárius véletlen (ARMA- vagy ARIMA-) id˝osor egy lineáris rendszer bemenetét. Mivel az ut bemenet adott id˝opontbeli értékének hatása nem azonnal jelenik meg a kimeneten, a diszkrét rendszernek tehetetlensége is van. Ez alapján beszélhetünk a rendszer dinamikus válaszáról és így dinamikus rendszerr˝ol. Azt a modellt, amely a diszkrét bemenetre (küls˝o hatásra) adott dinamikus választ leírja, diszkrét átviteli- vagy transzferfüggvény-modellnek nevezzük. Mivel a be- és kimenet megfigyeléseit meghatározott id˝oközönként (az egyszeru˝ ség kedvéért egymástól egyenl˝o távolságra) végezzük el, így diszkrét transzferfüggvény-modellr˝ol beszélünk. Az ilyen modellek rendkívül eredményesen alkalmazhatók a legkülönfélébb rendszerek viselkedésének leírására is. A továbbiakban feltesszük, hogy az (ut ,yt ) megfigyeléspárok (mintapárok) sorozata rendelkezésünkre áll egyenl˝o intervallumokban (ún. ekvidisztans id˝osorok) a rendszer u(t) = ut bemenete és y(t) = yt kimenete között (21.1. ábra). A továbbiakban nem foglalkozunk azzal, hogy a mintapárok egy diszkrét rendszer bemen˝o-kimen˝o sorozatának megfigyelései vagy egy folytonos rendszer mintavételezett bemen˝o/kimen˝o id˝osorára vonatkoznak-e. Ugyancsak nem foglalkozunk azzal, hogy az (ut ,yt ) mintavételezett megfigyelésekb˝ol helyreállítható-e az eredeti folytonos rendszert jellemz˝o átviteli karakterisztika.
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
323
21.1. ábra. Ekvidisztans bemen˝o/kimen˝o id˝osorok
A diszkrét lineáris stacionárius dinamikus rendszerek mindig megadhatók a következ˝o differenciaegyenlet segítségével (1 + a1 ∇ + ··· + ar ∇r )yt = (b0 + b1 ∇ + ··· + bs ∇s )ut−e ,
(21.1)
ahol a t − e jelölés a holtid˝os tagot jelenti és így az összefüggés a lineáris rendszer és egy holtid˝os tag összevonására utal. Ezt tulajdonképpen egy (r,s)rendu˝ transzferfüggvény-modellnek is tekinthetjük a folytonos lineáris rendszerek modelljeihez hasonlóan. Ez a differenciaegyenletes reprezentáció természetesen felírható a visszafelé léptet˝o (hátrafelé eltoló) B = 1−∇ operátorral is (But = ut−1 ), azaz (1 − a1 B − ··· − ar Br )yt = (b0 − b1 B − ··· − bs Bs )ut−e vagy rövid alakjában a (B)yt = b (B)ut−e , ahol a (B) = 1 − a1 B − a2 B2 − ··· − ar Br b (B) = b0 − b1 B − b2 B2 − ··· − bs Bs . Megjegyezzük, hogy a B eltolásoperátor helyett a diszkrét dinamikus rendszerek identifikációjában az inverz z-transzformáció z−1 a z-transzformáció változójának inverze (21.2. ábra). Ekkor a differenciaegyenlet megoldására az
A z−1 y(t) = B z−1 u(t − e)
324
IV. Bevezete ´s az id˝ osoranalı´zisbe
u(t)
✲
y(t) ✲
B(z−1 ) A(z−1 )
u(t)
✲
b(B) a(B)
(a)
u(t)
y(t) ✲
(c)
) ✲ z−e B(z−1 A(z−1 )
y(t) ✲
u(t)
✲
b(B) Be a(B)
(b)
y(t) ✲
(d)
21.2. ábra. A transzferfüggvény-modell zaj nélküli esetben; a) z-transzformációs felírás késleltetés nélkül; b) z-transzformációs felírás késleltetéssel; c) eltolásoperátoros felírás késleltetés nélkül; d) eltolásoperátoros felírás késleltetéssel
jelölés használatos, ahol
A z−1 = 1 − z−1 a1 − z−2 a2 − ··· − z−r ar
B z−1 = b0 − z−1 b1 − z−2 b2 − ··· − z−r br . Bevezetve a b (B) = b (B)Be jelölést, azaz a holtid˝os tagot összevonva a b (B) operátorral kapjuk, hogy
a(B)yt = b(B)ut , illetve
A z−1 y(t) = B z−1 u(t).
(A differenciaegyenletes alak gyakorlati igényeknek megfelel˝o tárgyalására a 21.4.. fejezetben még visszatérünk.) Innen a transzferfüggvényes alak már közvetlenül adódik, azaz
b(B) b(B) B z−1 y(t) = u(t), ahol a = a(B) a(B) A(z−1 ) kifejezést (diszkrét) átviteli függvénynek, vagy transzferfüggvénynek nevezzük. A továbbiakban els˝osorban az inverz z-transzformációs felírást alkalmazzuk. Az állapotegyenletes felírás zajnélküli esetben (ha b0 = 0) az x(t + 1) = Ax(t) + Bu(t) y(t) = Cx(t) formában adható meg, ahol x(t) a rendszer állapotvektora míg u(t) a rendszer bemenete. Az A, B, C mátrixok megadására még visszatérünk. A fenti
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
325
rendszerfelírás, els˝o benyomásra adódó mesterkéltsége ellenére mind elméleti, mind gyakorlati feladatoknál rendkívül hasznos, hiszen pl. a kimenet ilyen rekurzív formában történ˝o számítása jelent˝os numerikus el˝onyöket biztosít az identifikációs modellezés végrehajtása során (mint a kés˝obbiekben látni fogjuk, így nagyméretu˝ memóriamátrixok tárolása válik feleslegessé). A rendszerállapot fogalmának bonyolult realizáció-elméleti megközelítésével kapcsolatban a szakirodalomra utalunk. Végül megjegyezzük, hogy ebben az esetben is modellezhetjük az egyel˝ore zaj nélküli lineáris rendszert explicit alakban is, amelyben tehát a kimenetek várható értékt˝ol való eltérései a bemenetek várható értékt˝ol való eltéréseinek lineáris összegeként állnak el˝o. Operátoros felírásban, ha
G z−1 = g0 + g1 z−1 + g2 z−2 + ···, akkor
B z−1 xt , xt = A(z−1 )
B z−1 . = A(z−1 )
−1
−1
yt = G z vagyis G z
A g0 ,g1 ,g2 ,... súlyokat (súlykoefficienseket) diszkrét esetben is a rendszer súlyfüggvényének (vagy egységimpulzus-, ill. impulzusválasz függvényének) nevezzük. Ha nincs azonnali válasz egy vagy több kezdeti g0 ,g1 ,... értékre (holtid˝o), akkor ezeket a súlyokat zérussal tesszük egyenl˝ové. Az impulzusválasz-függvény (súlyfüggvény) értelmezését a 21.3. ábra szemlélteti. Megjegyezzük még, hogy fontos kapcsolatot értelmezhetünk a növekményváltozások között is, ha ∇yt = yt − yt−1 és ∇ut = ut − ut−1 , akkor belátható, hogy a ∇yt és ∇ut növekmények ugyanazt a transzferfüggvény-modellt elégítik ki mint yt és xt id˝osorok. Ha a g0 + g1 B + g2 B2 + ··· végtelen sor konvergens |B| ≤ 1 esetén, akkor a rendszert stabilnak nevezzük. A stabilitás feltétele gyakorlatilag azt a természetes feltételt rögzíti, hogy a bemenet véges növekményei a kimeneten ugyancsak véges növekményeket eredményeznek. A továbbiakban nyilván csak stabil rendszerek identifikálásával foglalkozunk, ill. vizsgálandó rendszerekre az említett feltétel nem teljesülését automatikusan kizárjuk. Diszkrét esetben a csak súlyfüggvénnyel való modellezés, a rendszer memóriájának megállapítása a nemparaméteres becslések nagy bizonytalansága miatt általában sajnos nem kielégít˝o. A becslés jellegéb˝ol adódó paraméterhasználat a pontatlanság és becslési bizonytalanság további forrása. Továbbá a gj súlyok közvetlenül általában nem alkalmasak becslésre, mert sok valós helyzetben a gj értékei között függvényszeru˝ kapcsolat áll fenn, mely a becslések jóságát nagymértékben csökkenti.
326
IV. Bevezete ´s az id˝ osoranalı´zisbe
21.3. ábra. A diszkrét súlyfüggvény értelmezése
21.1.2. A modelleze ´si feladat megfogalmaza ´sa
Az eddigiek alapján összefoglalóan megállapíthatjuk, hogy az
vt = A−1 z−1 B z−1 ut rendszer zavarral, ill. zajjal „fert˝ozött”. Feltételezzük, hogy ez a zajhatás a rendszer kimenetén egy additív zajfolyamattal mindig megadható. A ξ(t) zajfolyamatról feltételezzük, hogy ez az (általában stacionárius) ARMA-folyamat független az u(t) bemenett˝ol és zérus várható értéku. ˝ Így a lineáris diszkrét dinamikus (rendszer) reprezentáció a következ˝o alakot ölti:
yt = A1 z−1 B z−1 ht−e + Xt = A−1 z−1 B z−1 ut + C z−1 D−1 z−1 εt . A rendszer azonosítása (általános értelemben) ekkor a transzferfüggvény bal és jobb oldali operátora r és s rendjének, ill. az e értéknek meghatározását, majd az r és s számú paraméter megbízható becslését, továbbá a zajfolyamat, mint ARMA- (vagy ARIMA-) típusú id˝osor p és q rendjének (ill. a differenciálás δ fokának) meghatározását és a megfelel˝o paraméterek becslését jelenti. Az általános azonosítási folyamat záró aktusa a kapott struktúra rendszámainak és a paraméterbecslések jóságának ellen˝orzése. Ezt az általános eljárást a következ˝o lépésekre bonthatjuk: 1. a rendszermuködés ˝ linearitási feltételének ellen˝orzése, 2. a rendszer és a zajfolyamat struktúrájának (rendjének) tehát az r, s, p, q egészek meghatározása,
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
327
3. a paraméterek (transzferfüggvény- és a zajmodell) kezdeti értékeinek meghatározása (durva becslése), 4. a paraméterek becslése a legkisebb négyzetek, a Markov-, a maximum likelihood stb. módszer alapján általában iteratív eljárásokkal, 5. a rendszer modellstruktúrájának esetleges javítása az ellen˝orzési eljárás után. A 2. lépést struktúrabecslésnek, a 3. lépést a transzferfüggvény- és zajmodell el˝ozetes azonosításának, a 4. lépést pedig a modell illesztésének vagy paraméterbecslési szakaszának nevezzük. Az 5. lépés egyértelmuen ˝ a modell ellen˝orzési szakasza, más néven validitásvizsgálata. 21.1.3. Az input/output-modell el˝ ozetes vizsga ´lata
Az el˝ozetes identifikációs eljárás a következ˝o feladatokból tev˝odik össze: 1. a gj súlyfüggvény el˝ozetes durva becslése, ^j becslését felhasználva a jobb és bal oldali operátorok 2. a gj súlyfüggvény g r és s rendjének, továbbá az e értékének el˝ozetes meghatározása, 3. a g ^j becslések az aj és bj paraméterek kezdeti becslésének meghatározása. 21.1. M EGJEGYZÉS . Ha az id˝osorok nem stacionáriusak, akkor azt feltételezzük, hogy stacionáriussá tehet˝ok megfelel˝o differenciaképzéssel. A nemstacionárius viselkedés abból „gyanítható”, hogy ha az (xt ,yt ) sorozat becsült (empirikus) autokorreláció- és keresztkorreláció-függvényei nem csillapodnak megfelel˝o gyorsasággal (sebességgel). Általában elfogadható, hogy δ-fokú differenciaképzés szükséges a stacionaritás eléréséhez, ha ekkor xt = ∇δXt és yt = ∇δYt , rxx (k), ryy (k) és ryx (k) autokorrelációés keresztkorreláció-függvényei már gyorsan csillapodnak. A gyakorlati esetek dönt˝o többségében δ = 0, 1 vagy 2. Tekintsük most részletesen az el˝obbi identifikációs (azonosítási) feladatok megoldását. A gj súlyfüggvényének el˝ozetes becslése. Ezt a feladatot kétféleképpen oldhatjuk meg: a) a bemen˝o folyamat kifehérítésével, vagy b) anélkül. Mindkét esetben szükségünk van a keresztkorreláció-függvények becslésére, míg az utóbbi esetben a bemen˝o folyamat autokorreláció-függvényét is meg kell határoznunk. Bár ezeket elméletileg már tárgyaltuk, a megadott alapvet˝o fontosságuk miatt mégis egészen röviden újra megismételjük. Az autokorreláció-függvény: Rxx (k) = E{[ut − E(u)][ut+k − E(u)]} = Rxx (−k) = E{[ut − E(u)][ut−k − E(u)]} Ryy (k) = E{[yt − E(y)][yt+k − E(y)]} = Ryy (−k) = E{[yt − E(y)][yt−k − E(y)]}, a keresztkorreláció-függvény: Rxy (k) = E{[ut−k − E(u)][yt − E(y)]} = Ryx (−k) = E{[yt − E(y)][ut−k − E(u)]},
328
IV. Bevezete ´s az id˝ osoranalı´zisbe
a megfelel˝o normált autokorreláció- és keresztkorreláció-függvények pedig Rxx (k) , D2 (x) Ryx (k) ryx (k) = , D(y)D(x) rxx (k) =
Ryy (k) és D2 (y) Rxy (k) rxy (k) = . D(y)D(x)
ryy (k) =
A megfelel˝o becslések a következ˝oképpen alakulnak: ^ xx (j) = R
1 (xt − x)(xt+j x) n−j n−j
t=1
^ yy (k) = R
1 (yt − y)(yt+k y), n−k n−k
illetve
t=1
^rxx (k) = ^ryy (k) = Továbbá
^ xy (k) = R
^ xx (k) R σ2x ^ yy (k) R σ2y
.
n−k 1 (xt − x)(yt+k − y), k = 0,1,2,... n−k t=1
n−k 1 (yt − y)(xt+k − x), k = 0,1,2,... n−k t=1
és ^rxy (k) =
^ R(k) , σ ^xσ ^y
ahol x és y az xt ill. yt id˝osorok átlaga, ill. σx és σy az empirikus szórása. A struktúra meghatározása során fontos szerepet játszik a keresztkorreláció becslésének standard hibája, így az ezzel kapcsolatos legfontosabb összefüggéseket is röviden megismételjük. Mint már említettük, Bartlett megmutatta, hogy a keresztkorreláció-függvény négyzetes középhibájára a következ˝o approximáció adható meg (ha a bemenet és a zajfolyamat Gauss-típusú és a rendszer lineáris): D2 [^ryx (k)] ≈
∞ 1 rxx (j)ryy (j) + rxy (k + j)ryx (k − j) + n−k j=−∞ 1 1 +r2xy (k) r2xy (j) + r2xx (j) + r2yy (j) − 2 2 −2rxy (k) rxy (j)rxy (j + k) + rxy (−j)ryy (j + k)
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
329
Ha az összegzés utáni els˝o kapcsos zárójelben lev˝o kifejezés gyorsan tart a zérushoz (ez a gyakorlati esetek jelent˝os részében természetesen teljesül), akkor ∞ 1 rxx (j)ryy (j) + ryx (j + k)ryx (j − k) . D2 [^ryx (k)] ≈ n−k j=−∞
Nagy k értékekre, ill. ha nincs kapcsolat az xt és yt folyamat között (általában, vagy csak egy k > k0 eltolási értéke esetén), akkor az is igaz, hogy D2 [^ryx (k)] ≈
∞ 1 rxx (j)ryy (j). n−k j=−∞
Ha még az is teljesül, hogy a bemenet diszkrét Gauss-típusú fehérzaj folyamat, akkor a következ˝o egyszeru˝ közelít˝o kapcsolatot kapjuk: D2 [^ryx (k)] ≈
1 . n−k
Az utóbbi két fontos esetre, amelyeket a rendszer el˝ozetes identifikációja során rendkívül jól hasznosíthatunk, még az alábbi közelít˝o összefüggések is fennállnak: ∞ 1 cov[^ryx (k)^ryx (k + l)] ≈ rxx (j)ryy (j + l), n−k j=−∞
ill. cov[^ryx (k)^ryx (k + l)] ≈
1 ryy (e). n−k
Mint már tárgyaltuk, a súlyfüggvény el˝ozetes becslését konkrétan kétféle eljárás szerint hajthatjuk végre. Tekintsük el˝oször az egyenletrendszer meggondolásos eljárást. Legyen yt = ∇δYt és xt = ∇δXt stacionárius folyamat zérus várható értékkel. Ekkor az yt = g0 xt + g1 xt−1 + g2 xt−2 + ··· + ξt rendszeregyenlet esetén a g súlyfüggvény optimális becslését minimális négyzetes középhiba kritérium alapján az Ryx (j) = g0 Rxx (j) + g1 Rxx (j − 1) + g2 Rxx (j − 2) + ···, egyenletrendszerb˝ol határozhatjuk meg, azaz r = Rg ahol
^ Ryx (0) ^ R yx (1) r= .. . ^ Ryx (m)
,
j = 0,1,2,...
330
IV. Bevezete ´s az id˝ osoranalı´zisbe
R=
Rxx (1) Rxx (0) Rxx (0) Rxx (1) .. .. . . Rxx (m) Rxx (m − 1)
... ... .. . ...
Rxx (m) Rxx (m − 1) .. . Rxx (0)
és
g=
g0 g1 .. . gm
.
Így m + 1 egyenletünk van m + 1 ismeretlennel. A megoldás sajnos nem ad hatásos becslést. M EGJEGYZÉSEK : 1. Hatékony becslés csak a modellformák felvetése és (esetleges) próbálgatása útján érhet˝o el. 2. Az el˝ozetes becslések rámutatnak azokra a modellalakokra, amelyeket kés˝obb bonyolultabb módon közelítünk meg és tovább finomítunk. 3. Az identifikációs eljárás megköveteli, hogy a bemeneti változó szórása jóval nagyobb legyen, mint a zaj szórása és/vagy a rendelkezésre álló adatok mennyisége elég nagy legyen. 4. Fontos elhárítanunk azt a veszélyt, hogy szükségtelenül bonyolult modellek felé iteráljunk, amelyek különösen többváltozós esetben átláthatatlan becslési problémákhoz vezethetnek. 5. Az iteratív modellalkotást a legegyszerubb ˝ modellek segítségével kezdjük, amelyeken, ha lehet további egyszerusítéseket ˝ hajtsunk végre. Visszafelé haladva a komplikált modellalakokat csak végszükség esetén használjuk fel. 6. Ha lehet, használjuk ki a lehet˝oséget arra, hogy közbens˝o tényez˝ot építsünk a transzfer- és zajmodellek operátoraiba.
21.2. A struktu ´ rabecsle ´s e ´s az el˝ ozetes identifika ´cio ´ elme ´leti alapjai A fentiekben megadott ún. explicit I/O id˝osor modell összetevéséb˝ol kapjuk az alábbi rendkívül fontos összefüggést: a(B)yt = b(B)ut , ahonnan
y(t) = a−1 (B)b(B)u(t)
b(B) B z−1 = = G z−1 , g(B) = a (B)b(B) = −1 a(B) A(z ) tehát a diszkrét transzferfüggvény (átviteli függvény) két polinom hányadosaként állítható el˝o. Az eddig alkalmazott jelölésekkel az ismertetett összefüggésekb˝ol közvetlenül származik az egyenl˝oség:
1 − a1 B − a2 B2 − ··· − ar Br g0 + g1 B + g2 B2 + ··· =
= b0 + b1 B + b2 B2 + ··· + bs Bs = b0 + b1 B + b2 B2 + ··· + bs Bs Be .
és
−1
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
331
Ebb˝ol az összefüggésb˝ol a B egyenl˝o együtthatóinak módszerével kapjuk, hogy 0, ha j < e a1 gj−1 + a2 gj−2 + ··· + ar gj−r − b0 , ha j = e gj = a1 gj−1 + a2 gj−2 + ··· + ar gj−r − bj−e , ha j = e + 1,e + 2,...,e + s ha j > e + s a1 gj−1 + a2 gj−2 + ··· + ar gj−r , A ge+s ,ge+s−r ,...,ge+s−r+1 súlyok az A(z−1 )G(z−1 ) = 0 differenciaegyenletre r kezd˝oértéknek tekinthet˝ok. Így a gj = f(a,b,j) megoldása a fenti differenciaegyenletnek minden gj súlyra (j ≥ e + s − r + 1) alkalmazható. Összefoglalva: 1. e db zérus értéku˝ súllyal rendelkezünk: g0 ,g1 ,...,ge−1 , 2. további s − r + 1 db súlyérték: ge ,ge+1 ,...,ge+s−r nem rögzített (kivéve, ha s < r + 1), 3. a gj súlyok (r db) a j ≥ e+s−r+1 esetben egy r-edrendu˝ differenciaegyenlet kezd˝oértékeként tekinthet˝ok. Az egészen egyszerubb ˝ esetek jelent˝os részében a rendszerek leírhatók alacsonyabbrendu˝ transzferfüggvény-modellekkel, amelyek a gj és aj , bj kapcsolatok megoldását általában könnyuvé ˝ teszik. 21.2.1. Az I/O id˝ osormodellek additı´v zaj jelenle ´te ´ben
A bemenett˝ol független additív zaj figyelembevételével a rendszeregyenlet leírása súlyfüggvényes ésparaméteres alakban a következ˝oképp adható meg: yt =
∞
gk ut−k + X(t) = g(B)ut + ξ(t) =
k=0 −1
=a
(B)b (B)ut−e + X(t) = a−1 (B)b(B)ut + ξ(t).
A fenti összefüggésben ξt stacionárius Gauss-típusú ARMA zajfolyamat (az esetleg szükséges differenciálások után), azaz ξt = cu (B)d−1 u (B)εt , ahol cu (B) = 1 + cX1 B + ··· + cXp Bp du (B) = 1 − dX1 B − ··· − dXq Bq , ˝ fehérzaj. Így a lineáris dinamikus rendés εt a diszkrét (zérus várható értéku) szerek transzferfüggvényes alakban a következ˝o explicit formula szerint adhatók
332
IV. Bevezete ´s az id˝ osoranalı´zisbe
meg: yt =
b(B) c(B) ut + εt = a−1 (B)b (B)Be ut + c(B)d−1 (B)εt = a(B) d(B)
= a−1 (B)b(B)ut + c(B)d−1 (B)εt , ahol b(B) = b (B)Be . Implicit formában az alábbi jelölések felhasználásával a rendszerreprezentáció a következ˝o alakot ölti: a(B)d(B)yt = b(B)d(B)ut + c(B)εt . Innen az a(B)d(B) = a∗ (B) és b(B)d(B) = b∗ (B) jelölések alkalmazásával a∗ (B)yt = b∗ (B)ut + c(B)εt , ahonnan az explicit rendszeralak (a különböz˝o jelölésekkel) yt =
c(B) b∗ (B) ut + ∗ εt = a∗−1 (B)b∗ (B)ut + a∗−1 (B)c(B)εt . a∗ (B) a (B)
A z transzformációs jelöléssel ugyanez
C z−1 B z−1 u(t − e) + ε(t) = v(t) + ξ(t), y(t) = A(z−1 ) D(z−1 ) ahol
C z−1 = 1 + c1 z−1 + c2 z−2 + ··· + cp z−p
D z−1 = 1 − d1 z−1 − d2 z−2 − ··· − dq z−q , illetve, mivel a közös nevez˝ore hozás, mint az el˝obbiekben láttuk, általában végrehajtható (és Aström szerint a gyakorlati alkalmazásoknál nem célszeru˝ az A(z−1 ) és C(z−1 ) operátorok megkülönböztetése), így
B∗ z−1 C z−1 y(t) = ∗ −1 u(t) + ∗ −1 εt , A (z ) A (z ) ahol
B∗ z−1 = B z−1 z−e .
A gyakorlati identifikáció és el˝orejelzés számára az el˝obbi elvi alakok mellett természetesen a következ˝o, a kimenetet megadó, ill. becsl˝o formulát használjuk, amely tulajdonképpen a kimen˝o folyamatot és a rendszermuködést ˝ a következ˝o lineáris, sztochasztikus differenciaegyenlettel írja le: y(t) =
n i=0
bi u(t − e − i) −
n i=1
ai y(t − i) + ξ(t),
333
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
ε(t)
ε(t)
❄
❄
C(z−1 ) D(z−1 )
u(t) ✲
−1
B(z ) ze A(z −1 )
c(B) d(B)
ξ(t) ❄ v(t)✲ ❦
y(t) ✲
u(t) ✲
b(B) Be a(B)
ξ(t) ❄ v(t)✲ ❦
y(t) ✲
21.4. ábra. A transzferfüggvény- és zajfüggvény-modell
ahol ξ(t) = ε(t) +
n i=1
ci ε(t − i) +
n
ξ(t − i).
i=1
Itt ξ(t) a kimenetre redukált környezeti és mérési hatások eredményezte korrelált zajfolyamat, zérus várható értéku˝ és független az u(t) bemen˝o folyamattól, továbbá ε(t) a kimeneti zaj okozója az ún. forrászaj, ami esetünkben zérus várható értéku˝ diszkrét fehérzaj. Az el˝oz˝oekkel ekvivalens összefüggés miatt kapjuk, hogy: x(t + 1) = Ax(t) + Bu(t) y(t) = Cx(t) + ξ(t). Az állapotegyenletes reprezentáció esetén – a súlyfüggvények különböz˝o felbontásának megfelel˝oen – a vektorok és mátrixok természetesen végtelen sokféle módon képezhet˝ok. Ezért általában az ún. minimális paramétert tartalmazó speciális alakokat alkalmazzuk identifikációs célokra. Vagyis jól látható, hogy a különböz˝o diszkrét rendszerreprezentációk is (elméletileg) könnyen egymásba transzfolmálhatók. A bonyolultabb állapotegyenletes modelleket a 22. fejezetben tárgyaljuk részletesebben. Itt is igen b˝o szakirodalomra utalhatunk. Még egy felírási, megközelítési mód lehetséges, amely azt a tényt használja fel vektor-mátrixos felírással, hogy az eddig bemutatott modellformák paraméterekben lineárisak. Ezeket is a 22. fejezetben tárgyaljuk részletesebben.
21.3. Input/output id˝ osorok e ´s additı´v zajmodellek parame ´terbecsle ´si mo ´dszerei Miel˝ott rátérnénk az alapvet˝o módszerek áttekint˝o ismertetésére, rövid, bevezet˝o jellegu˝ kitérést teszünk a paraméterbecslési eljárások alkalmazásával kapcsolatban.
334
IV. Bevezete ´s az id˝ osoranalı´zisbe
21.3.1. A parame ´terbecsle ´si elja ´ra ´sok fele ´pı´te ´se ´r˝ ol
A paraméterbecslési módszerek alkalmazása során a következ˝o lépések megadása szükséges: egyértelmuen ˝ rögzíteni kell a modellstruktúrát, meg kell választani a megfelel˝o identifikációs kritériumot, ki kell választani a megfelel˝o paraméterbecslési, illetve reziduálbecslési algoritmust, és (ha szükséges) a derivált folyamat becslési algoritmusát. 1. A modellstruktúra esetünkben egyértelmuen ˝ az általános transzferfüggvény-modell + az ARMA-zajmodell. 2. Az azonosítási kritériumok közül a leggyakrabban alkalmazott a legkisebb négyzetek elve, továbbá a maximum likelihood elv (azaz a likelihood függvény maximalizálása). Szóba jöhet még az általánosított legkisebb négyzetek kritériuma, többváltozós esetben esetleg a Markov identifikációs kritérium stb. (l. a következ˝o pontban részletesen). 3. A paraméterbecslés voltaképpen nemlineáris programozási feladat, amely mind elméletileg, mind a numerikus analízis és számítógépes realizálások szemszögéb˝ol jelent˝os fejl˝odésen ment keresztül. A továbbiakban egy fontos, sajátos esetben, majd általánosan ismertetjük a legfontosabb paraméterbecslési modelleket, végül részletesen tárgyaljuk az általános transzferfüggvény és ARMA-zajmodell paraméterbecslését a maximum likelihood identifikációs kritérium alapján. Ekkor paraméterbecslési algoritmusnak a talán legtöbbet és leghatéknyabban alkalmazott Newton–Raphson-módszert választjuk. A maximum likelihood paraméterbecslés során végrehajtjuk a reziduál sorozat és a derivált reziduál folyamat becslését, valamint a Hesse-mátrix számítását is. 21.3.2. A legkisebb ne ´gyzetek mo ´dszere
Tekintsük el˝oször a legkisebb négyzetek módszerét diszkrét rendszerek identifikálására. Vizsgálatainkat a legegyszerubb ˝ esettel kezdjük, amikor lineáris dinamikus rendszereink olyanok, hogy torzítatlan becslést készíthetünk. Ez esetben a rendszeregyenletben a c(B) = C(z−1 ) ≡ 1 és d(B) = D(z−1 ) = A(z−1 ), azaz a zajfolyamat AR-típusú továbbá a bemenet független a zajfolyamattól. Ekkor a rendszeregyenlet a következ˝o alakba írható:
A z−1 y(t) = z−e B z−1 u(t) + ε(t), vagyis
B z−1 1 u(t − e) + ε(t), A(z−1 ) A(z−1 ) illetve, ha az egyszeruség ˝ kedvéért e = 0, akkor y(t) =
y(t) =
n i=0
bi u(t − i) −
n i=1
ai y(t − i) + ε(t).
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
335
A fenti egyenlet vektorosan a következ˝o paraméterekben lineáris modellreprezentációval is megadható: y(t) = fyu (t)hab + ε(t). Itt az fyu és hab új jelölések értelmezése a következ˝o fyu (t) = [u(t − e),u(t − e − 1),...,u(t − e − n), −y(t − 1),−y(t − 2),...,−y(t − n)]T , T
hab = [b0 ,b1 ,...,bn ,a1 ,a2 ,...,an ] . A fenti egyenlet mátrixos formában a következ˝o formában írható fel y = Fyu hab + ε ahol y = [y(1),y(2),...,y(N)] ε = [ε(1),ε(2),...,ε(N)]
T
T
és T
Fyu = FN = [fyu (1),...,fyu (t),...,fyu (N)] . Megemlíthetjük még, hogy fontos szerepet játszó Toeplitz-mátrixok (ún. eltolási, késleltet˝o mátrixok) alkalmazásával – könnyen beláthatóan – az output következ˝oképp is felírható: y = b0 Iu + b1 Su + ··· + bn Sn u − a1 Sy − ··· − an Sn y + ε = n n =u aj Sj + ε, bi Si + y j=0
i=0
ahol u = [u(1),u(2),...,u(N)]
T
és 0 . .. 0 i i S = SN = 1 0 .. . 0
N elem
...
... 0 ...
0 1 .. . ...
.. ..
.
. 0
0 1
0
... 0 .. . .. . 0 N elem .. . .. . ... 0 i elem
336
IV. Bevezete ´s az id˝ osoranalı´zisbe
a Toeplitz-mátrix, amelynek csak a f˝oátló alatti i-edik átlója tartalmaz 0-tól különböz˝o értékeket (1-eseket). A legkisebb négyzetek módszerének alkalmazásával a minimálási feladat (az identifikációs kritérium) a N
1 2 ^ [y(t) − fyu (t)hab ] = Q hab = min Q(hab ) = min h h 2
t=1
1 T = min (y − Fyu hab ) (y − Fyu hab ) h 2 kifejezéssel adható meg. Innen a d Q(hab ) = Fyu y + FTyu Fyu hab = 0 dh összefüggésb˝ol az alábbi már tárgyalt becslést kapjuk:
^ N = FTyu Fyu −1 FTyx y. ^ ab = h h A második deriváltak Hesse-féle mátrixa FT F nem negatív definit, így a megoldás valóban minimumpont, ha az FT F nem szinguláris. Mivel az Fyu sztochasztikus változót is tartalmaz, ezért ezekben az esetekben legfeljebb csak aszimptotikusan torzítatlan becslést kaphatunk hab -re, melyhez még fel kell tételeznünk a következ˝o feltételek teljesülését is Fyu = FN :
1 T FN F N = θ N→ ∞ N lim
és
1 T FN εN = 0, N→ ∞ N lim
(21.2)
ahol N a megfigyelések száma. Ugyanis ekkor belátható az alábbi egyenl˝oség ^ N = plim h ^ N, lim E h N→ ∞
N→ ∞
ahol plim a sztochasztikus konvergencia szimbóluma. Behelyettesítve y helyére az FN hN + ε kifejezést
^ N = plim FTN FN −1 FTN FN hN + FTN FN −1 FN εN = lim E h N→ ∞ N→ ∞
−1 T FN ε . = hab + plim FTN FN N→ ∞
A fenti kifejezés második tagját N-nel szorozva és osztva Szluckij-tétele alapján, mivel
plim A−1 B = plimA−1 plimB, azt kapjuk, hogy !
−1 1 ^ N = plim h ^ N = hab + plim 1 FTN FN lim E h plim FTN ε = hab , N→ ∞ N→ ∞ N N→ ∞ N→ ∞ N
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
337
vagyis a (21.2) feltételek teljesülése esetén a becslés valóban aszimptotikusan torzítatlan. A dinamikus rendszernél esetünkben könnyen belátható a legkisebb négyzetek módszerével kapott becslés aszimptotikus torzítatlanságának teljesülése. Ugyanis fyu (t) és ε(t) független (korreálatlan), mivel a bemenetr˝ol feltételezzük, hogy korreálatlan (független) ε(t)-vel, (azaz E[u(t)ε(t)] = 0), továbbá fyu (t) a kimenetnek csak a megel˝oz˝o fehérzaj értékeket tartalmazza. Így az ergodikusság miatt Ryε (0) ... Ryε (0) 1 .. .. .. plim Fyu ε = E(FN εN ) = = 0, . . . N→ ∞ N Ryε (N) ... Ryε (N) vagyis a (21.2) második alapvet˝o feltétele is teljesül. A kapott aszimptotikusan torzítatlan becslést a klasszikus regresszióanalízis nyomán az ún. Gauss-féle normálegyenletek megoldásának, az identifikációelméletben pedig Kalman-féle becslésnek nevezik. A becslésr˝ol még belátható, hogy valamennyi becslés közül a legkisebb szórású, konzisztens, aszimptotikusan hatásos becslésnek tekinthet˝o. A legkisebb négyzetek módszerével kapott becslés természetesen alkalmazható nem normális eloszlású hiba esetén is. Ha a hiba normális eloszlású N = σ2 I korreláció-mátrixszal, akkor a kapott legkisebb négyzetek becslés megegyezik a maximum likelihood becsléssel. 21.3.3. A Markov-fe ´le e ´s a Bayes-tı´pusu ´ becsle ´si mo ´dszerek
A kiterjesztett legkisebb négyzetek módszere, más néven a Markov-becslés esetén ha R egy tetsz˝oleges szimmetrikus súlymátrix, akkor a négyzetes középhiba minimálásából adódó legjobb becslés az 1 T (y − Fyu h) R(y − Fyu h) 2 kifejezés (mint identifikációs kritérium) minimálásából a ^ ab = h ^ = FTyu RFyx −1 FTyu Ry h összefüggéssel adódik. Ha R mátrixnak olyan speciális diagonális mátrixot választunk (amelyben az elemek értékei nagyok ott, ahol a mérés bizonytalansága nagy és kicsik ott, ahol a mérés bizonytalansága kicsi), akkor a veszteségfüggvény érzékelhet˝oen a kis mérési hibával rendelkez˝o mintaelemeket veszi nagyobb súllyal figyelembe. Az aszimptotikusan torzítatlan becsléshez most az alábbi feltételeknek kell teljesülniük (Fyu = FN ): lim
N→ ∞
1 T F RN FN < ∞ N N
és
lim [FN RεN ] = 0.
N→ ∞
338
IV. Bevezete ´s az id˝ osoranalı´zisbe
Az R = N−1 zajmátrix (zajkovariancia-mátrix) esetén, ha az additív zaj normális eloszlású a maximum likelihood módszerrel számítható optimális becslést kapjuk, azaz ^ ab(2) = FTyu N−1 Fyu −1 FTyu N−1 y, h ahol az aszimptotikus torzítatlanság feltétele lim FN N−1 FN < ∞ és lim FN N−1 εN = 0. N→ ∞
N→ ∞
Természetesen ha N = σ2 I, akkor a Markov és a maximum likelihood becslés megegyezik a legkisebb négyzetek típusú becsléssel. A Bayes típusú becslési módszer esetén, ha a hab -ra nézve rendelkezünk a h∗ab és M a-priori becslésekkel (ahol M a h normális eloszlású h∗ab várható értéku˝ a-priori becslés bizonytalanságát jellemz˝o kovariancimátrix), a paraméterek becslését a következ˝o összefüggés szerint határozhatjuk meg feltételezve, hogy az additív zaj normális eloszlású zérus várható értékkel és N kovarianciamátrixszal. ^ ab = M−1 + FTn N−1 FN −1 Mh∗ab + M−1 + FTN N−1 FN −1 × h
−1 T −1 −1 T −1 FN N F N FN N y = × FTN N−1 FN −1 T −1 −1 −1 = M + FTN N−1 FN M−1 h∗ab + M−1 + FTN N−1 FN FN N y. Látható, hogy a becslés lényegében a következ˝o súlyozást jelenti: ^ ab(2) . ^ ab = α1 h∗ab (a-priori szubjektív becslés) + α2 h h
21.4. Transzferfu ¨ ggve ´ny-modellek parame ´tereinek maximum likelihood becsle ´se Mint láttuk a transzferfüggvény-modelleket általánosan a 21.3. ábra szerint adhatjuk meg, ahol v(t) a rendszer zajmentes kimenete és ξ(t) a zajmodell kimenete, u(t) a bemenet, e a holtid˝o, és ε(t) normális eloszlású, zérus várható értéku˝ σε szórású fehérzaj. Tehát
C z−1 B z−1 u(t − e) és ξ(t) = ε(t) (21.3) v(t) = A(z−1 ) D(z−1 ) és az y(t) megfigyelt kimenetet nyilván az y(t) = v(t) + ξ(t) egyenlet alapján kapjuk. A továbbiakban az általánosság megszorítása nélkül feltesszük, hogy B(z−1 ), A(z−1 ), n-edfokú, C(z−1 ), D(z−1 ), pedig m-edfokú polinomjai a z−1 eltolás-operátornak. Az összefüggést részletesen kiírva: v(t) =
b1 z−1 + b2 z−2 + ··· + bn z−n u(t) 1 + a1 z−1 + ··· + an z−n
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
ξ(t) =
1 + c1 z−1 + ··· + cm z−m ε(t). 1 + d1 z−1 + ··· + dm z−m
339 (21.4)
Vagyis láthatjuk, hogy a becsülni kívánt paraméterek (a polinomok együtthatói) a T h = [b1 ,...,bn ;a1 ,...,an ;c1 ,...,cm ;d1 ,...,dm ] ún. paramétervektorba foglalhatók. A h paramétervektor becsléséhez maximum likelihood (ML) becslési módszert használhatunk a következ˝oképp. A (21.3) és (21.4) összefüggések alapján bármely h vektor mellett kiszámíthatjuk az u(t), y(t), t = 1,...,N minták, azaz N-számú megfigyeléspár alapján az e(t | h), t = 1,...,N ún. reziduális hibákat. Rendezzük ezeket egy e = [e(1 | ^ becslését úgy h),...,e(N | h)]T vektorba. A módszerrel a h paramétervektor h határozzuk meg, hogy maximalizálja az e hibavektor N elemének együttes valószínuségét, ˝ azaz annak a valószínuségét, ˝ hogy adott u(t), y(t) összetartozó értékpárok, valamint a h segítségével számított e hiba maximális valószínu˝ séggel megegyezzék a valódi véletlen hibával. A módszerben tehát fN (e | h) feltételes valószínuségi ˝ sur ˝ uségfüggvényt ˝ kell maximalizálni a h szerint. Az fN (e | h) helyett legtöbbször annak természetes alapú logaritmusát, azaz az L(h) = lnfN (e | h) függvényt maximalizálják. Mivel az ε(t)-t normális eloszlásúnak tételezzük fel, így az e is normális eloszlású vektorváltozó, 1 T −1 N/2 −1/2 (21.5) |Z| exp − e Z e fN (e | h) = (2π) 2 feltételes sur ˝ uségfüggvénnyel, ˝ ahol a Z mátrix az e kovarianciamátrixa:
Z = E eeT = σ2ε IN , (21.6) mivel feltettük, hogy e(t) fehérzaj (így E[ε(t)ε(t + k)] = 0 minden k = 0-ra) A likelihood függvény tehát: 1 1 N N 1 N ln2π − ln|Z| − eT Z−1 e = − ln2π − lnσ2ε − 2 eT e, 2 2 2 2 2 2σ (21.7) ahol feltettük, hogy L(h,σε ) a σε -nak is függvénye. Megmutatható, hogy a h és σε becslése külön-külön is elvégezhet˝o. Képezzük ui. az L(h,σε ) függvény σε szerinti parciális deriváltjait és tegyük ezeket zérussal egyenl˝ové L(h,σε ) = −
N eT e ∂L(h,σε ) = − + 3 = 0, ∂σε σε σε ahonnan a σ2ε becslése σ2ε
= σ2ε
eT e ^ = h . N h=h^
(21.8)
(21.9)
340
IV. Bevezete ´s az id˝ osoranalı´zisbe
^ jelölés azt fejezi ki, hogy a számításokat annál a h-nál kell elvégezni, A σ2ε (h) amely L maximumát biztosítja. Helyettesítsük be (21.9)-et a (21.7)-be:
N eT e 1 N T N − e e= L h,σ2ε = L(h) = − ln2π − ln 2 2 N 2 eT e N eT e N . = − (ln2π + 1) − ln 2 2 N
(21.10)
Látható, hogy
ahol
1 max L(h) = min eT e = min Q(h), h 2 h h
(21.11)
1 Q(h) = eT e. 2
(21.12)
Tehát az L(h) függvény maximalizálását a Q(h) függvény minimalizálásával biztosíthatjuk. Azt a h értéket, amelyre a Q(h) felveszi minimumát, a h paramétervektor maximum likelihood becslésének nevezzük. ^ becslés kiszámítása lényegében tehát egy nemlineáris széls˝oértékfeA h ladat megoldását igényli, amire módszert a matematikai programozás számos eljárása közül választhatunk. A gyakorlatban a legelterjedtebb a Newton– Raphson-típusú módszerek alkalmazása, amelynél a h becslését az alábbi iterációval számítjuk: ∂Q(h) , (21.13) hi+1 = hi − αi H(h) ∂h h=h^ i ahol az αi skalár, ún. léptéktényez˝o, továbbá ∂e(t | h) ∂Q(h) ∂eT = e= e(t | h) ∂h ∂h ∂h N
(21.14)
t=1
a gradiensvektor, és ∂2 Q(h) ∂eT ∂e ∂ H(h) = = + ∂h∂hT ∂h ∂hT ∂hT
∂eT ∂h
e
(21.15)
a másodrendu˝ parciális deriváltak ún. Hesse-mátrixa. Numerikus megfontolások alapján a H(h) mátrixot a (21.15) els˝o tagjával közelítik: ∂eT (t | h) ∂e(t | h) ∂eT ∂e ^ = . H(h) T ∂h ∂h ∂h ∂hT N
t=1
(21.16)
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
341
Látható, hogy a (21.13)-ban szerepl˝o mennyiségek kiszámításához csupán két folyamatot, az e(t | h), ún. reziduál és a ∂e(t | h)/∂h, ún. derivált reziduál folyamatot kell el˝oállítani. Ezeket a (21.3) és (21.4) transzferfüggvénymodelleknek az állapottér-reprezentációjával tudjuk a leghatékonyabban el˝oállítani. Ezek az állapottér alakban a következ˝oképp írhatók fel: xv (t + 1) = Fv xv (t) + gv u(t − e) xε (t + 1) = Fε xε (t) + kε ε(t) v(t) = mTv xv (t)
(21.17)
mTε xε (t)
ξ(t) =
y(t) = v(t) + ξ(t) ahol
−a1 .. . −an−1 −an −d1 .. . −dm−1 −dm
1 .. . 0 0 1
... . .. Fv = ... ... ... . .. F= 0 ... 0 ... T , mv = 1 0 ... 0
0 .. . 1 0 0 .. . 1 0
,
b1 .. .
gv = bn−1 bn b1 .. . , kX = cm−1 cm T mX = 1 0 ... 0 .
A (21.4) figyelembevételével teljes modell állapotegyenlete: x(t + 1) = Fx(t) + gu(t − e) + kε (t) y(t) = m x(t) + ε(t), T
ahol F=
Fv 0
0 FX
! ,
g=
gv 0
! ,
k=
0 kX
(21.18) (21.19)
! ,
m = mTv mTX .
(21.20)
Egy adott h mellett az e(t | h) reziduált a (21.19) alapján az x(t + 1) = F − kmT x(t) + gu(t − e) + ky(t) e(t | h) = y(t) − mT x(t)
(21.21)
állapotegyenlettel állítjuk el˝o. A ∂e(t | h)/∂h deriváltfolyamat számításához vizsgáljuk a h egy hj eleme szerinti deriváltat. A (21.21)-b˝ol látható, hogy ∂x(t) ∂e(t | h) = −mT , ∂hj ∂hj
(21.22)
342
IV. Bevezete ´s az id˝ osoranalı´zisbe
illetve ! ∂x(t) ∂g ∂x(t + 1) ∂k ∂ F − kmT x(t) + F − kmT = + x(t − e) + y(t). ∂hj ∂hj ∂hj ∂hj ∂hj (21.23) A (21.23) lényegesen egyszerusödik, ˝ ha speciálisan a bj , aj , cj , dj elemek szerint deriválunk: ∂x(t + 1) ∂bj ∂x(t + 1) ∂aj ∂x(t + 1) ∂cj ∂x(t + 1) ∂dj
∂x(t) ∂g = F − kmT + u(t − e), ∂bj ∂bj ∂x(t) ∂F = F − kmT + x(t) ∂aj ∂aj ∂x(t) ∂k ∂k = F − kmT − mT x(t) + y(t) ∂cj ∂cj ∂cj ∂x(t) ∂F = F − kmT + x(t). ∂dj ∂dj
(21.24)
A (21.24) összefüggésb˝ol látható, hogy az állapotvektornak a h paramétervektor elemei szerinti deriváltjai is hasonló állapotegyenletekkel állíthatók el˝o, mint az e(t | h) mivel az (F−kmT ) állapotviteli mátrix ugyanaz, mint a (21.21) összefüggésben. A lineáris diszkrét modell ezen állapottér-reprezentációjának segítségével – az Newton–Raphson algoritmus számára – az e(t | hi ), t = 1,...,N reziduá^ i veklok meghatározása a következ˝oképpen történik: egy konkrétan becsült h (i) (i) (i) (i) (i) (i) (i) (i) ^ i [^ ^ ,..., b ^ n ;^ ^ ,..., d ^ n ] elemeib˝ol tor ismeretében a h a1 ,..., a ^n ; b c1 ,...,^ cn ; d 1 1 (i) ^(i) ^ ^ ^ összeállíthatjuk az Fv , FX és g(t), k(i) mátrixokat, ill. vektorokat. Ezután a (t − 1)-b˝ol kiindulva rekurzív módon megállapítjuk N-ig az x(i) (t + 1) állapo^(i) ^(i) ^ (i) ^ (i) tokat az Fv , FX és kX , gv mátrixok helyére az F v , FX és kX , g v mátrixo^ i ) értéket az kat helyettesítve a (21.18) képletben. Ezután egy konkrét e(t | h e(t | hi ) = y(t)mT xi (t) összefüggéssel határozzuk meg. Az els˝o lépés a h paramétervektor h0 kezdeti értékének felvétele. Lényegében ugyanezt a gondolatmenetet hajtjuk végre a reziduálok ∂e(t | hi )/∂hi derivált folyamatának számítás során a (21.24) összefüggések alkalmazásával.
21.5. Adaptı´v (rekurzı´v) algoritmusok az input/output id˝ osormodellek azonosı´ta ´sa ´ban A rekurzív (adaptív) algoritmusok fontos szerepet játszanak az id˝osorok és általában a sztochasztikus rendszerek modellezésében és irányításában Ez esetben a már ismert becslést az éppen megfigyelt adatok alapján korrigáljuk az új megfigyelések alapján rekurzív algoritmikus eljárások segítségével. Eszerint
21. Input/output id˝ osormodellek diszkre ´t dinamikus rendszerek leı´ra´sa´ra
343
az új megfigyelések figyelembevételét biztosító adaptív (tanuló) algoritmus általános alakja: dQ[u(t),c(t − 1)] . c(t) = c(t − 1) − H(t) dc(t − 1) Az algoritmus alapja, hogy biztosítja az E{Q[x(t),c(t)]} célfüggvény minimumának megkeresését, feltéve, hogy Q unimodális és a H(t) konvergencia- vagy súlymátrix eleget tesz bizonyos általános feltételeknek. Itt dQ/dc az ún. korrekciós tag. Bebizonyítható, hogy a kvadratikus értelemben optimális adaptív algoritmus a −1 t H(t) = T {Q[u(j),c(t − 1)]} j=1
súlymátrixszal biztosíthatjuk, ahol T a Q-nak a c(t−1) szerinti második differenciálhányadosaiból képzett Hesse-féle mátrix, azaz T {Q[u(j),c(t − 1)]} =
d2 Q[u(j),c(t − 1)] . dc(t − 1)dcT (t − 1)
(A konvergencia feltételeinek elemzésével a szakirodalomra utalunk.) Tekintsük az el˝oz˝oekben bemutatott egyszeru˝ és általános lineáris rendszeralakok identifikálását a legkisebb négyzetek, ill. a maximum likelihood becslések adaptív algoritmusos változataival. Az y(t) = fTyu (t)hab + ε(t) rendszer identifikálására a fenti Cipkin-féle tanulási technika alkalmazásával a következ˝o adaptív identifikációs modellt kapjuk (operatív vagy on-line identifikáció). Mivel Q[u(t),h(t)] = így
2 1 y(t) − fTyu (t)hab , 2
dQ[u(t),hab (t − 1)] = fyu (t) y(t) − fTyu (t)hab (t − 1) . dhab (t − 1)
A konkrét algoritmus pedig: hab (t) = hab (t − 1) + H(t)fyu (t) y(t) − fTyu (t)hab (t − 1) H(t) = H(t − 1) −
H(t − 1)fyu (t)fTyu (t)H(t − 1) . 1 + fTyu (t)H(t − 1)fyu (t)
344
IV. Bevezete ´s az id˝ osoranalı´zisbe
Figyelembe véve H(t) optimális megválasztását, a d2 Q[u(j),hab (t − 1)] = fyu (j)fTyu (j) dhab dhTab összefüggés alapján
H(t) =
t
−1 fyu (j)fTyu (j)
j=1
és így az optimális rekurzív (adaptív) algoritmus −1 hab (t) = hab (t − 1) + FTyu (t)Fyu (t) fyu (t) y(t) − fTyu (t)hab (t − 1) ahol az Fyu (t) jelölést már korábban értelmeztük, továbbá ! Fyu (t − 1) T . Fyu (t) = fTyu (t) Az összefüggés az Fyu mátrix b˝ovítését mutatja és fTyu (t) = [u(t), −y(t)] = [u(t − 1), u(t), −y(t − 1), −y(t)]. 21.5.1. Az a ´ltala ´nos rendszeralak tanulo ´ algoritmusa
Ez esetben a részletek mell˝ozésével a (21.3) becslési modellnek megfelel˝oen 1 Q(t) = ε2 (t) 2
és így
dε(t) = −f∗yuε (t), dh
ahol f∗yuε (t) =
u(t − n) y(t − 1) y(t − n) ε(t − 1) ε(t − n) u(t − 1) ,..., ,− ,...,− , ,..., c(B) c(B) c(B) c(B) c(B) c(B)
!
így dQ(t) = −f∗yuε (t)ε(t), dhabd
ahol
ε(t) = y(t) − (f∗yuε )T (t)habd .
Az adaptív (tanuló) algoritmus a maximum likelihood becslés alapján habd (t) = habd (t − 1) + H(t)f∗yuε (t) y(t) − f∗yuε (t)habd (t − 1) , ahol az f∗yuε (t) egy igen egyszeru˝ állapotegyenleten alapuló rekurzív algoritmus alapján számítható. A H(t) rekurzív számítása megegyezik a (21.4) összefüggésével, csak fyu (t) helyébe f∗yuε (t)-t kell helyettesítenünk. Természetesen mivel f∗yuε (t) függ habd (t − 1)-t˝ol, ezért az f∗yuε (t) rekurzív számítását is fel kell használnunk. A részletek és a további módszerekkel alkotott adaptív (tanuló) algoritmusok a szakirodalomban fellelhet˝ok.
22 To ¨bbva ´ltozo ´s modellreprezenta ´cio ´k e ´s statisztikai azonosı´ta ´suk
Többváltozós, vagy MIMO (Multi-Input Multi-Output) id˝osor modellekr˝ol beszélünk akkor, ha a be- és kimeneti változók száma egynél nagyobb. A MIMO id˝osor-modellek azonosítható alkalmazható modellek megválasztása jóval összetettebb probléma, mint az a SISO-modellek esetében volt. A SISO-rendszerek reprezentációnak megfelel˝oen az egyik lehetséges többváltozós modell a transzferfüggvény-modellek általánosításának tekinthet˝o, ún. transzfermátrix-modell, továbbá az egyváltozós differenciaegyenlet általánosításaként tekinthet˝o ún. vektor differenicaegyenlet-modell, valamint a többváltozós állapottér modellek. A MIMO id˝osor modellek identifikációjában fellép˝o bonyolult realizációelméleti struktúra és paraméterbecslési problémák megoldása ezenkívül szükségessé tette új modellezési megközelítések bevezetését és alkalmazását is, lásd az irodalomjegyzékben. Az általános (zaj nélküli) folytonos MIMO-modell frekvenciatartományban Y (s) = T (s)U(s), ahol T
Y (s) = [Y1 (s),...,Ym (s)] valamint
T (s) =
és
T
U(s) = [U1 (s),...,Ur (s)] ,
B11 (s) A11 (s)
...
Bm1 (s) Am1 (s)
...
.. .
B1r (s) A1r (s)
.. .
Bmr (s) Amr (s)
.
A folytonos és diszkrét MIMO-modellek közötti inputra ekvivalens megfeleltetések elvei azonosak a SISO modelleknél ismertetett elvekkel.
346
IV. Bevezete ´s az id˝ osoranalı´zisbe
22.1. ábra. A MIMO-rendszer transzfermátrix-modellje
22.1. Diszkre ´t I/O id˝ osormodellek A MIMO-rendszerek transzfermátrix-modelljét a 22.1. ábra szemlélteti. Az ábrán u(t) a bemen˝ojelek r-dimenziós vektora, v(t) a rendszer m-dimenziós zajmentes kimen˝o vektora, e(t) zérus várható értéku˝ m-dimenziós fehérzaj vektor, y(t) pedig a megfigyelt (zajjal terhelt) m-dimenziós kimen˝o vektor. A néhány esetben az egyváltozós modelleknél használt x(t) bemenet jelöléssel (mely az ökonometriai irodalomban használatos) szemben, most ismét a MIMO-rendszerek identifikálásánál is alkalmazott u(t) bemen˝o vektor jelölést alkalmazzuk. Az ezek között fennálló összefüggések: v(t) = Tp (z)u(t) w(t) = TN (z)e(t)
(22.1)
y(t) = v(t) + w(t) ahol Tp (z) a rendszer m×r dimenziós, TN (z) pedig a zajmodell m×m dimenziós racionális transzfermátrixa. A Tp (z), TN (z) mátrixok elemei tehát racionális törtfüggvényei az eltolás-operátornak, és a következ˝oképp adhatók meg: n
tpij (z) = {Tp (z)}ij =
b1ij z−1 + ··· + bijij z−nij n 1 + a1ij z−1 + ··· + aijij z−nij
1
=
Bij (z)
m z−mij
tNij (z) = {TN (z)}ij =
1 + c1ij z−1 + ··· + cij ij
m 1 + d1ij z−1 + ··· + dij ij z−mij
(22.2)
1
Aij (z)
1
=
Cij (z)
1
Aij (z)
(22.3)
A transzfermátrix-modellek struktúráját tehát az nij , i = 1,...,m, j = 1,...,r és mij , i,j = 1,...,m számokkal adhatjuk meg, amelyek a Bij (z), Aij (z), ill. Cij (z), Dij (z), polinomok kitev˝oi. A modellben szerepl˝o paraméterek pedig ezen polinomok bkij , akij , k = 1,...,nij , i = 1,...,m, j = 1,...,r és ckij , dkij , k = 1,...,mij , i,j = 1,...,m együtthatói.
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
347
22.1. P ÉLDA . Tekintsük példaként azt az esetet, amikor m = r = 2 tehát két bemen˝o és két kimen˝o változó szerepel a modellben. Tételezzük fel, hogy n11 = 1, n12 = 1, n21 = 1, m11 = 2, m12 = 1, m21 = 1, m22 = 2. Ekkor a (22.2) és (22.3) összefüggések alapján: −1 −1 ! ! b1 b1 12 z 11 z 1 z−1 1+a1 z−1 u1 (t) y1 (t) 1+a 11 12 + = −1 −1 −2 b1 b1 +b2 21 z 22 z 22 z u2 (t) y2 (t) −1 1+a1 z−1 +a2 z−2 1+a1 21 z 22 22 −1 −1 −2 ! 1+c1 1+c1 +c2 12 z 11 z 11 z 1 z−1 +d2 z2 1+d1 z−1 e1 (t) 1+d 11 11 12 + −1 −1 −2 c1 1+c1 +c2 21 z 22 z 22 z e2 (t) 1 1 2 −1 −1 −2 1+d21 z
1+d22 z
+d22 z
Hasonló példákat nagyszámban találhatunk még a szakirodalomban is.
22.2. To ¨bbva ´ltozo ´s a ´llapotte ´r-modellek Többváltozós MIMO-rendszerek állapottér-modelljeit általánosan (a SISO-modellekhez hasonló módon) a következ˝o formában írhatjuk fel: x(t + 1) = Fx(t) + Gu(t) + Ke(t)
(22.4)
y(t) = Hx(t) + Du(t) + e(t),
ahol az F, G, K, H, D megfelel˝o dimenziójú konstans mátrix. A transzfermátrix-modellel való kapcsolat igen egyszeruen ˝ belátható: zx(t) = Fx(t) + Gu(t) + Ke(t) ahonnan az x(t) állapotvektort kifejezve −1
x(t) = (zI − F)
[Gu(t) + Ke(t)]
és a második, ún. megfigyelési egyenletbe behelyettesítve −1 −1 y(t) = H(zI − F) G + D u(t) + H(zI − F) K + I e(t), ahonnan −1
Tp (z) = H(zI − F)
−1
G + D,TN (z) = H(zI − F)
K + I.
(22.5)
Megjegyezzük, hogy ha a Tp (z) elemei csupa valódi törtfüggvények, akkor a D = 0. A fordított irányú kapcsolat, azaz a Tp (z), TN (z), transzfermátrixokkal megadott rendszer állapottér-reprezentációjának, tehát az F, G, K, H, D mátrixoknak a meghatározása már jóval bonyolultabb feladat, aminek megoldására a realizációelmélet módszerei szolgálnak.
348
IV. Bevezete ´s az id˝ osoranalı´zisbe
Az eredményeket felhasználva itt bemutatjuk a transzfermátrix-modell állapotegyenleteinek egy felírását. A Tp (z) mátrix tpij (z) = Bij (z)/Aij (z) elemeinek, mint ahogy láttuk, a következ˝o állapottér reprezentáció feleltethet˝o meg: xij (t) = Fvij xij (t) + gij uj (t), i = 1,...,n yij (t) = hTij xij (t), ahol
−a1ij .. . nij −1 −aij n −aijij
(22.6)
j = 1,...,r,
1 .. . 0 0
... .. .
0 .. . 1 0
1 .. . 0 0
... .. .
0 .. . 1 0
b1ij
.. . gij = (22.7) nij −1 bij ... n bijij ... r és hij = [1,0,...,0]. Könnyen látható, hogy yi (t) = i=1 yij (t). Vagyis a fenti összefüggésekkel kapjuk yj (t)-re a MISO-modell állapotegyenletét. Teljesen analóg módon kapjuk a tNij (z) = Cij (z)/Dij (z) elemek állapottér reprezentációját: xwij (t) = Fwij xwij (t) + kij ej (t) i = 1,...,m (22.8) T j = 1,...,m wij (t) = h xwij (t) + δij ej (t) Fvij =
,
wij
ahol
Fwij =
−d^ij .. . mij −1 −dij m −dij ij
... ...
,
c^ij
.. . kij = mij −1 cij m cij ij
,
és hwij = [1,0,...,0], valamint δij = 1, ha i = j és δij = 0, ha m = j, továbbá m nyilván wi (t) = j=1 wij (t). Egyszeruen ˝ ellen˝orizhet˝o, hogy a v(t) zajmentes kimen˝ovektort a következ˝o állapotegyenlettel adhatjuk meg: xv (t + 1) = Fv xv (t) + Gv u(t) v(t) = Hv x(t),
(22.9)
ahol Fv = diag{Fv11 ,...,Fv1 r ,...,Fvm1 ,...,Fvmr } T 0T ... 0T h11 ... hT1r ... .. Hv = ... . T T T T 0 ... 0 ... hvm1 ... hvmr ! T T ... gTm1 ... 0T g11 ... 0 T . Gv = 0T ... 0T ... 0T ... gTmr
(22.10)
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
349
A zajmodellt leíró állapotegyenlet pedig: xw (t + 1) = Fw xw (t) + Kw e(t) w(t) = Hw xw (t) + e(t),
(22.11)
ahol az Fw , Kw , Hw mátrixokat az összefüggésben szerepl˝o Fwij mátrixból és a hwij , kij vektorokból építjük fel. Ekkor a teljes állapottér-modell: ! ! ! ! ! xv (t + 1) 0 Fv 0 Gv xv (t) u(t) + = + e(t) 0 Kw 0 Fw xw (t + 1) xw (t) ! xv (t + 1) + e(t). y(t) = [Hv Hw ] xw (t + 1)
22.3. Vektor-differenciaegyenlet tı´pusu ´ to ¨bbva ´ltozo ´s ARMA id˝ osormodellek Megmutattuk, hogy a fenti rendszermodellek egy ARMA(p,q)-modell transzferfüggvényével is megadhatók, azaz w(t) =
1 + d1 z−1 + ··· + dq z−1 e(t). 1 + c1 z−1 + ··· + cp z−1
Ez természetesen átírható differenciaegyenlet alakba: w(t)+c1 w(t − 1)+···+cp w(t − p) = e(t)+d1 e(t − 1)+···+dq e(t − q). (22.12) Többváltozós esetben legyen a w(t) m-dimenziós vektor id˝osor és az e(t) m-dimenziós fehérzaj. Ekkor a megfelel˝o kapcsolatot egy vektor-differenciaegyenlettel írhatjuk le: w(t) + C1 w(t − 1) + ··· + Cp w(t − p) = e(t) + D1 e(t − 1) + ··· + Dq e(t − q). (22.13) Bevezetve a −1 = I + C1 z−1 + ··· + Cp z−p C z (22.14) −1 = I + D1 z−1 + ··· + Dq z−q D z jelöléseket (a C(z−1 ), D(z−1 ) ún. polinomiális mátrixok), a (22.13) vektor-differenciaegyenlet az alábbi tömör formában írható:
(22.15) C z−1 w(t) = D z−1 e(t). Ezt a modellt a matematikai statisztikában vektor-ARMA modellnek nevezik. A SISO-transzferfüggvény-modellek, amelyekben a zajmodell egy ARMAfolyamat, az
B z−1 D z−1 y(t) = u(t − e) + e(t) A(z−1 ) C(z−1 )
350
IV. Bevezete ´s az id˝ osoranalı´zisbe
alakban adhatók meg. Tételezzük fel, hogy az A(z−1 ), C(z−1 ) polinomoknak nincs közös osztója, és hozzuk a fenti modellben a transzferfüggvényeket közös nevez˝ore. Ekkor az
˜ z−1 y(t) = B˜ z−1 u(t − e) + D ˜ z−1 e(t) A modellt kapjuk, ahol
˜ z−1 = A z−1 C z−1 A
B˜ z−1 = B z−1 C z−1
˜ z−1 = D z−1 A z−1 . D Ennek többváltozós megfelel˝oje az
A z−1 y(t) = B z−1 u(t) + D z−1 e(t)
(22.16)
formában írható, ahol az A(z−1 ), B(z−1 ), D(z−1 ) polinomiális mátrixok:
A z−1 = I + A1 z−1 + ··· + Ana z−na
B z−1 = B1 z−1 + ··· + Bnb z−nb
D z−1 = I + D1 z−1 + ··· + Dnd z−nc
(22.17)
A modellt a statisztikában vektor ARMAX-modellnek (Auto-Regressive Moving Average with eXogenous input) nevezik. Az ARMAX-modell és a transzfermátrix-modellek kapcsolatát egyszeruen ˝ −1 megkapjuk, ha balról megszorozzuk az A(z ) polinomiális mátrix inverzével
y(t) = A−1 z−1 B z−1 u(t) + A−1 z−1 D z−1 e(t),
(22.18)
ahonnan az összefüggésekkel való összetevésb˝ol kapjuk, hogy
Tp z−1 = A−1 z−1 B z−1 ,TN z−1 = A−1 z−1 D z−1 .
(22.19)
Hozzuk az y1 (t) és y2 (t)-nek megfelel˝o egyenleteket külön-külön közös nevez˝ore (tételezzük fel, hogy a nevez˝o-polinomoknak nincs közös osztójuk). Ekkor pl. az y1 (t)-re vonatkozó összefüggés
1 + a111 z−1 1 + a112 z−1 1 + d111 z−1 + d211 z−2 × 1 + d112 z−1 y1 (t) =
= b111 z−1 1 + a112 z−1 1 + d111 z−1 + d211 z−2 1 + d112 z−1 u1 (t) +
+b112 z−1 1 + a111 z−1 1 + d111 z−1 + d211 z−2 1 + d112 z−1 u2 (t) +
+ 1 + c111 z−1 + c211 z−2 1 + a111 z−1 1 + a112 z−1 1 + d112 z−1 e1 (t) +
+c112 z−1 1 + d111 z−1 + d211 z−2 1 + a111 z−1 × 1 + a112 z−1 e2 (t).
351
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
Teljesen hasonló módon kaphatjuk meg az y2 (t)-re vonatkozó összefüggést. Rövid számolás után belátható, hogy az ARMAX modell a következ˝o:
(22.20) A z−1 y(t) = B z−1 u(t) + D z−1 e(t), ahol T
y(t) = [y1 (t),y2 (t)] ,
T
u(t) = [u1 (t),u2 (t)] ,
T
e(t) = [e1 (t),e2 (t)] ,
továbbá:
−1
A z
=
B z−1 =
0 1 + a˜ 111 z−1 + ··· + a˜ 511 z−5 0 1 + a122 z−1 + ··· + a622 z−6 ! b˜ 111 z−1 + ··· + b˜ 511 z−5 b˜ 112 z−1 + ··· + b˜ 512 z−5 b˜ 1 z−1 + ··· + b˜ 5 z−6 b˜ 1 z−1 + ··· + b˜ 6 z−6 21
D z−1 =
21
22
1 + d˜ 111 z−1 + ··· + d˜ 511 z−5 d˜ 121 z−1 + ··· + d˜ 221 z−5
22
d˜ 112 z−1 + ··· + d˜ 512 z−5 1 + d˜ 1 z−1 + ··· + d˜ 6 z−6 22
!
! .
22
k
Az akij , bij , ckij együtthatókat a polinomok összeszorzása után az azonos hatványú tagok összevonásával kapjuk meg. A (22.20)-b˝ol láthatjuk, hogy az A(z−1 ), B(z−1 ) mátrixok els˝o sorában a legmagasabb z−1 hatványkitev˝o v1 = 5, a második sorokban pedig v2 = 6. Ezeket a számokat a modell strukturális indexeinek nevezzük. Általában m-számú yi (t) kimen˝o változó esetén m-számú vi strukturális index jellemzi a modell szerkezetét. Az ma , mb , mc számokat, tehát a modellben szerepl˝o legnagyobb késleltetést a vi strukturális indexb˝ol kapjuk meg: ma = mb = mc = max vi . i
A példánkban ma = mb = mc = 6. Az Ai , Bi , Di , i = 1,...,6 mátrixokat a A(z−1 ), B(z−1 ), D(z−1 ) polinomiális mátrixokból már közvetlenül felírhatjuk. Megjegyezzük, hogy ha az átviteli mátrixok nevez˝o-polinomjai nem relatív prímek, akkor az ismertetett eljárás során kapott vi indexek még csökkenthet˝ok az A(z−1 ), B(z−1 ), D(z−1 ) polinomiálos mátrixok legnagyobb balosztójának (ami szintén egy nemszinguláris polinomiális mátrix) a leválasztásával. Ekkor a modell A(z−1 ), mátrixa már általában nem lesz diagonális. Ezeknek a realizáció-elméleti problémáknak a megoldása azonban feltételezi a polinomiális mátrixok algebrájának mély ismeretét, ami meghaladja könyvünk kereteit.
22.4. A struktura ´lis analı´zis mo ´dszerei Az egyváltozós ARMA (p,q)-modellek struktúrabecslése a p, q számok meghatározását jelentette, amelyeket a megfigyelt id˝osorok autokorreláció- és par-
352
IV. Bevezete ´s az id˝ osoranalı´zisbe
ciális autokorreláció-függvényei alapján lehetett elvégezni. A transzferfüggvény-modelleknél az A(z−1 ), B(z−1 ), C(z−1 ), D(z−1 ) polinomok fokszámait kellett becsülni. A MIMO-modellek struktúrabecslési problémája (a strukturális identifikáció) lényegesen bonyolultabb, mint a SISO-modelleké. Egy m-dimenziós kimen˝ovektorral rendelkez˝o ARMA- vagy ARMAX-modell esetén a strukturális identifikáció a v1 ,v2 ,...,vm strukturális indexek meghatározását jelenti a bemen˝o- és kimen˝ovektorok megfigyelései alapján. A strukturális indexek becslésének problémájával az 1970-es évek óta foglalkozik a szakirodalom: vektor ARMA-modellek strukturális indexeinek becslésére Tse és Weinert dolgozott ki módszert, a már korábban ismertetett Yule– Walker-egyenletek felhasználásával. Az általános vektor-differenciaegyenletek (ARMAX-modellek) strukturális indexeinek becslésére Bokor és Keviczky adtak eljárást, amely az ún. kanonikus ARMAX-reprezentációk strukturális szabályainak kihasználására és statisztikai hipotézisvizsgálatára épül.
22.5. To ¨bbva ´ltozo ´s I/O id˝ osormodellek parame ´terbecsle ´si mo ´dszerei A gyakorlatban elterjedt paraméterbecslési módszereket tekintve megállapíthatjuk, hogy a vektor-differenciaegyenletek identifikációs (paraméterbecslési) módszerei tekinthet˝ok a legjobban kidolgozottnak és ezek alkalmazása a leginkább jellemz˝o a hetvenes évek identifikációs gyakorlatára. Ennek egyik oka, hogy sok, az egyváltozós (SISO-)modellekre kidolgozott és a gyakorlat által igazolt módszer kiterjeszthet˝o a vektor-differenciaegyenletek paramétereinek becslésére is. A módszerek realizálásában azonban felhasználásra kerülnek az állapottér reprezentációk is (ld. maximum likelihood módszer). Ma már közismertek olyan számítógépi programrendszerek, amelyek alkalmasak mind a transzfermátrix, mind az állapottér és vektor-differenciaegyenlet modellek rendkívül hatékony és gyors identifikációjára. A továbbiakban bemutatjuk, hogy a legfontosabb SISO-modell identifikációjánál már tárgyalt módszerek hogyan általánosíthatók a MIMO-modellek paraméterbecslésére. 22.5.1. A legkisebb ne ´gyzetek mo ´dszere
Amint azt az egyváltozós esetben láthattuk, a módszer akkor alkalmazható a SISO-transzferfüggvények paramétereinek becslésére, amikor a kimen˝o zaj AR-folyamat. Ennek a becslési esetnél eleget tev˝o MIMO-modell a következ˝o:
(22.21) y(t) = A−1 z−1 B z−1 u(t) + A−1 z−1 e(t). Ekkor tehát a
w(t) = A−1 z−1 e(t)
353
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
kimen˝o zajfolyamatot egy vektor AR-modell írja le. Írjuk át a (22.21) modellt a következ˝o alakra:
A z−1 y(t) = B z−1 u(t) + e(t),
(22.22)
ill. y(t) + A1 y(t − 1) + ··· + An y(t − n) = B1 u(t − 1) + ··· + Bn u(t − n) + e(t). Írjuk most fel az összefüggést ún. paraméterekben lineáris alakban: y(t) = PBA f(u,y,t) + e(t),
(22.23)
ahol T f(u,y,t) = f(t) = uT (t − 1),...,uT (t − n),−yT (t − 1),...,−yT (t − n) és PBA = [B1 ,...,Bn ,A1 ,...,An ]. Tegyük fel, hogy N számú u(t) és y(t), t = 1,...,N megfigyelés áll rendelkezésre. Vezessük be az T T f(u,y,1) e (1) y (1) .. .. .. (22.24) Y = , F = , E = . . . T T y (N) f(u,y,N) e (N) jelöléseket. Az N számú megfigyelésre vonatkozó mátrix-egyenletet ekkor az alábbi formába írhatjuk: (22.25) Y T = FPTBA + ET . Látható, hogy még a SISO-modelleknél egy N-dimenziós e hibavektort kaptunk és így az eT e függvényt kellett minimalizálni, MIMO esetben egy E hibamátrixot kapunk, így ennek valamilyen skalár mértékét tudjuk csak minimalizálni a paraméter-mátrix elemei szerint. MIMO-modellek paraméterbecslésekor a m
eTi ei Q(PBA ) = tr ET E =
(22.26)
i=1
függvényt, tehát az EET mátrix nyomát, így az m számú egyenlet eltérési négyzetösszegének az összegét minimalizáljuk a modell-paraméterek szerint. Ezt a következ˝o megfontolások alapján végezhetjük el. Jelöljük hi -vel a PBA mátrix i-edik sorát, és jelölje T h = hT1 ,...,hTm
354
IV. Bevezete ´s az id˝ osoranalı´zisbe
a PBA mátrix hi soraiból képezett vektort. Ekkor T m ∂ T ∂Q(PBA ) = ei e = ∂h ∂h i=1
∂e1 e1 ∂h1
0 .. . 0
+ ··· +
0 .. . 0 ∂eT m em ∂hm
=0
(22.27)
egyenletb˝ol kaphatjuk a h vektor becslését, ahol figyelembe vettük, hogy az eTi ei függvény csak a hi -t˝ol függ, tehát ∂eTi ei /∂hj = 0, ha i = j. Az ei (t) vektor a következ˝oképpen számítható: ei = yi − Fhi , tehát ∂eTi ei = −2FT [yi − Fhi ] = 0, ∂hi
−1 T hi = FT F F yi ,
i = 1,...,m.
(22.28)
Mivel a h a PBA mátrix i-edik sora, az el˝oz˝o legkisebb négyzetek módszerével kapott becslést mátrixegyenlet formájában is megadhatjuk:
−1 T PTBA = FT F F Y. (22.29) A fenti becslési formula alapján belátható, hogy a megfelel˝oen képzett a-priori H hipermátrix és az N hiper-zajmátrix segítségével Bayes- és Markov-típusú becsléseket is készíthetünk a SISO-rendszerek becslésével teljesen analóg módon. 22.5.2. Kiterjesztett legkisebb ne ´gyzetek mo ´dszere
A kiterjesztett legkisebb négyzetek módszere a jól ismert becslési technikát alkalmazza az ARMAX-modellek paramétereinek becslésére. A (22.13) összefüggés szerint y(t) + A1 y(t − 1) + ··· + An y(t − n) =
(22.30)
= B1 u(t − 1) + ··· + Bn u(t − n) + e(t) + C1 e(t − 1) + ··· + Cn e(t − n). Így formálisan is átírhatjuk ezt a modellegyenletet paraméterekben lineáris alakra y(t) = PBAC f(u,y,e,t) + e(t), (22.31) ahol PBAC = [B1 ,...,Bn ,A1 ,...,An ,C1 ,...,Cn ] és f(u,y,e,t) = f(t) = T
= [u(t − 1),...,u(t − n),−y(t − 1),...,y(t − n),e(t − 1),...,e(t − n)] .
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
355
Az N számú mintára vonatkozó mátrixegyenlet a (22.25) összefüggéssel formailag teljesen azonos módon képezhet˝o azaz Y T = EUYE PBAC + ET ,
(22.32)
ahol az Y, E mátrixok felépítése adott, és T f (u,y,e,1) .. FUYE = . . T f (u,y,e,N) Formálisan most is alkalmazhatjuk a legkisebb négyzetek módszerét, és ekkor a (22.29)-hoz hasonlóan a
−1 T FUYE Y PBAC = FTUYE FUYE
(22.33)
becslést kapjuk. Mivel azonban az F(u,y,e,t) és így az FUYE mátrix is tartalmazza az e(t) zajfolyamat realizációit, amelyeket el˝ozetesen nem ismerünk, ezért egy iterációs eljárást alkalmazunk az e(t) zajsorozat becslésére. Az e(t) becslési eljárásban kiindulhatunk a Bi , Ai mátrixok legkisebb négyzetes PAB,0 becsléséb˝ol, amellyel kiszámítjuk az e0 (t − k), k = 1,...,n reziduálvektorokat. Ekkor alkalmazzuk a (22.23) összefüggést a
−1 T T Pi+1 FUYE,i Y BAC = FUYE,i FUYE,i
(22.34)
formában, ahol az FUYE,i jelölés azt jelenti, hogy az FUYE mátrixban az ei (t − k), k = 1,...,n becsléseket helyettesítettük az e(t − k) vektorok helyére. Ezután a további ei+1 (t − k) becsléseket a következ˝o iterációs eljárással kapjuk:
i (22.35) ei+1 (t − k) = y(t − k) − Pi+1 BAC f u,y,e ,t − k . A (22.34) és (22.35) iterációs eljárást a kívánt pontosság eléréséig folytatjuk. 22.5.3. Maximum likelihood parame ´terbecsle ´si mo ´dszer MIMO-rendszerekre
Induljunk ki az általános vektor-differenciaegyenlet-modellb˝ol:
A z−1 y(t) = B z−1 u(t) + C z−1 e(t).
(22.36)
A (22.36) alapján az e(t) hibavektort az
e(t) = C−1 z−1 A z−1 y(t) − B z−1 u(t)
(22.37)
összefüggésb˝ol kapjuk. Jelölje hABC az Ai , Bi , Ci együtthatómátrixokban szerepl˝o paraméterek vektorát, és e(t | hABC ) egy adott hABC vektornál a (22.37) alapján számított hibavektort.
356
IV. Bevezete ´s az id˝ osoranalı´zisbe
A maximum likelihood módszer alkalmazásánál feltesszük, hogy e(t) fehérzaj normális eloszlású vektorváltozó, zérus várható értékkel és Λ kovarianciamátrixszal. Ekkor a már ismertetett megfontolások alapján felírható az L(hABC Λ) ún. log-likelihood függvény: N 1 T mN lnπ − ln|Λ| − e (t)Λ−1 e(t), 2 2 2 N
L(hABC Λ) = −
(22.38)
t=1
amelyet maximalizálni kell a hABC és Λ szerint. Megmutatható, hogy ez a feladat ekvivalens a 1 e(t | hABC )eT (t | hABC ) Q(hABC ) = N N
(22.39)
t=1
függvénynek a hABC paramétervektor szerinti minimalizálásával. A Λ kovarianciamátrix becslését pedig a ^= 1 e(t | hABC )eT (t | hABC ) Λ N N
(22.40)
t=1
összefüggésb˝ol kapjuk, ahol a hABC azt a hABC becslést jelöli, amely minimalizálja a Q(h)ABC függvényt. Ezt a minimumkeresési feladatot is az el˝oz˝o fejezetben bemutatott Newton– Raphson-módszerrel oldják meg a leggyakrabban. Ennek algoritmusa szerint ∂Q(hABC ) i+1 i −1 , (22.41) hABC = hABC − αi H (hABC ) ∂hABC hABC =hi ABC
ahol
∂Q(hABC ) 1 ∂eT (t | hABC ) ^ −1 = Λ e(t | hABC ) ∂hABC N ∂hABC N
t=1
a gradiensvektor, és 1 ∂eT (t | hABC ) ^ −1 ∂e(t | hABC ) Λ N ∂hABC ∂hTABC N
H(hABC ) =
(22.42)
t=1
a közelít˝o Hesse-mátrix. Az e(t | hABC ) reziduálvektor és a ∂eT (t | hABC )/∂hABC derivált folyamat generálásához a SISO-modelleknél bemutatott módon felhasználhatjuk a (22.36) MIMO-modellnek egy ekvivalens állapottér reprezentációját. Ilyen állapottér-modellt adtunk meg a (22.32) és (22.38) összefüggésekkel. Az ML becslés számításának menete lényegében megegyezik az egyváltozós ML becslés algoritmusával, csak a „sima” mátrixok helyett itt speciális hipermátrixok, ill. nagyobb méretu˝ vektorok szerepelnek, valamint az e | h) reziduál vektorváltozó.
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
357
22.5.4. Haszonja ´rm˝ uvek dinamikai vizsga ´lata to ¨bbva ´ltozo ´s parame ´teres identifika ´cio ´val A modelleze ´si proble ´ma felvete ´se
A közúti haszonjármuvek ˝ (pl. autóbuszok) dinamikai analízise és ezzel összefüggésben a jármuváz-szerkezet ˝ dinamikai méretezése az utóbbi néhány esztend˝oben a kutató és tervez˝o mérnökök érdekl˝odésének homlokterébe került. Els˝o modellezési megközelítésben a jármu˝ dinamikai viselkedését egyváltozós esetben (SISO-rendszerként) identifikálhatjuk. A valóságban azonban a dinamikai modellezés szemszögéb˝ol a jármuváz-szerkezet ˝ egy elosztott paraméteru˝ többváltozós dinamikus rendszernek tekinthet˝o, amelyet a jármu˝ haladása során az útprofil sztochasztikusan gerjeszt a kerekeken, a hátsó és els˝o tengelyeken keresztül. Az elosztott paraméteru˝ rendszer dinamikus viselkedése elméletileg parciális differenciálegyenletekkel írható le, ahol az egyenletek paraméterei általában a térbeli változók függvényei. A leng˝o rendszerekben ezeket a paramétereket a tömeg, a merevségi és a csillapítási tényez˝ok (mátrixok) képviselik. A rendszerek modellezésekor az egyenletek paramétereit ismerjük, vagy kísérletileg meghatározzuk, illetve becsüljük a megfelel˝o paraméteridentifikációs módszerek fel használásával. Az elosztott rendszerek paraméteridentifikációja különböz˝o módokon végezhet˝o el. A legegyszerubb ˝ lehet˝oség egy diszkrét modell felépítése, struktúrájának és paramétereinek becslése. (Az elosztott rendszer diszkrét modellje elkészíthet˝o pl. a végeselem módszer segítségével.) Ez egy másodfokú vektor-differenciaegyenletet eredményez, amely (koncentrált paraméteru˝ rendszerként) a következ˝oképpen írható fel: Mv(t) 1 + Kv(z) + Dv(t) = Q0 u(t) + Q1 u(t), y(t) = Rv(t), ahol M, K, D a tömeg, a csillapítási és a merevségi mátrix, u(t) az útprofil sztochasztikus gerjesztése, v(t), y(t) az általános elmozdulás- és feszültségvektor (vagy vertikális gyorsulásvektor), továbbá R egy konstans mátrix, melyet a geometria és az anyagmin˝oség határoz meg. Az identifikációs technika célja – a diszkrét modell alkalmazásával – az útgerjesztésre (bemenet) és a rendszer reakciójára (kimenet) vonatkozó transzfermátrix identifikálása. A rendszer transzfermátrixa a következ˝oképpen adható meg: T (s) = RP−1 (s)Q(s), P(s) = Ms2 + Ks + D, Q(s) = Q1 s + Q0 , ahol S a Laplace operátort jelenti (ld. 22.2. ábra).
358
IV. Bevezete ´s az id˝ osoranalı´zisbe
22.2. ábra. A mechanikai modell illusztrálása
A jármudinamika ˝ valósághu˝ többváltozós paraméteres identifikálását a bemutatott elemi alrendszerek identifikációs módszerrel végeztük el. Tehát a jármudinamika ˝ modellezésére a bemenet és a zajátviteli mátrixok sajátos (elemi alrendszerek módszere, ld. irodalomjegyzékben) megközelítését alkalmazzuk. Ez a felírási mód lehet˝ové teszi az átviteli mátrixok pólusainak közvetlen meghatározását, valamint azon pólusok számának becslését (azaz a saját frekvenciák számának kiszámítását), amelyek szignifikánsak az adott sztochasztikus gerjesztés szempontjából. A paraméterek becslését maximum likelihood módszerrel végezhetjük el. A transzfermátrix pólusainak megfelel˝o sajátfrekvenciák ui. (az ún. modális alakokkal együtt) fontos szerepet játszanak a leng˝o rendszerek struktúrájának identifikációjában. (A sajátfrekvenciák és a modális alakok meghatározása az identifikáció végs˝o célja is lehet, de a tömeg és a merevségi mátrixok számítása, elemeinek becslése a kísérletileg meghatározott modális alakok ismerete alapján szintén elvégezhet˝o. A diszkretizált koncentrált paraméteru˝ végeselemekre alapozott identifikációs modellek alkalmazásával a becsült átviteli mátrixok az el˝oz˝oekben megadott összefüggéseknek megfelel˝oen meghatározhatók. Ezért további vizsgálatainkat a transzfermátrixok meghatározására és értelmezésére koncentráljuk. Kı´se ´rleti felte ´telek e ´s eredme ´nyek
Az identifikálás lemezrugós felfüggesztésu˝ autóbuszon történt, melyet számítógéppel ellen˝orzött berendezés gerjesztett. A kerekek által bevitt gerjesztést a berendezés hengereinek függ˝oleges elmozdulásai idéztek el˝o, számítógépes szabályozás segítségével úgy, hogy az el˝oz˝oleg regisztrált útprofiloknak meg-
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
359
22.3. ábra. A jármudinamika ˝ rendszer modellillesztése 40km/h sebesség esetén
felel˝oen mozogjanak a kerekek. Az útprofil szórása és a jármu˝ sebessége tetszés szerint változtatható volt az adott fels˝o és alsó határok között. A jobb és bal oldali kerekek gerjesztése azonos volt (ortotrop út), és az elüls˝o kerék által bevitt gerjesztést, az x(t)-t T holtid˝ovel vezéreltük. Így gerjesztettük a hátsó kerekeket, ahol T -t a tengelytávolság és a jármu˝ sebessége határozta meg. A megfigyelés két kimen˝o jelre korlátozódott. Ezek feszültségfolyamatok voltak, amelyek a jármuváz-szerkezet ˝ két különböz˝o pontján keletkeztek. A megfigyelt bemen˝o és kimen˝o folyamatok mintavételezése a 0,05 sec. Mintavételezési id˝oköz mellett történt, N = 500 minta nagysággal. A méréseket három sebességi szinten 20, 40 és 60 km/h sebességnél és 4 relatív útprofil szórásnál végeztük. A relatív szórások értéke 100, 50, 25 és 12,5% volt. Az identifikált modellt, azaz a bemenetet és a zajátvitel-mátrixot 40 km/h sebesség és 0,5 relatív útprofil-szórás mellett a 22.3 ábra tünteti fel. Minden blokk egy elemi alrendszert ábrázol, a T (z)-nek megfelel˝oen. Mint látható, az illeszkedés rendkívül pontos, a reziduálok láthatóan fehérzaj-folyamatot alkotnak. Ezért a modell konkrét vizsgálatától eltekintettünk. Az input gerjesztési folyamat autospektrumát a 22.4., a keresztspektrumok valós részének ábrázolását pedig a 22.5. ábra mutatja.
360
IV. Bevezete ´s az id˝ osoranalı´zisbe
22.4. ábra. Az input folyamat autospektruma
22.5. ábra. A keresztspektrum függvények valós része
A mért adatsorokból (természetesen stacionárius id˝osorokból) becsült input és zajátviteli transzfermátrixokat mutatják a következ˝o formulák TV (z) =
0,09z+0,29 z2 −0,16z+0,24
+ z20,28z+0,09 −0,64z+0,31
z2 −0,21z+0,91
−0,15z−0,14
+ z2−0,17z+0,20 −0,62z+0,57
−0,44z+0,07 z2 −0,55z+0,86
+ z20,18z−0,54 −0,65z+0,62
−0,68z−0,07 z2 −0,10z+0,66 +0,12z+0,13 z2 −0,47z+0,86
0,16z+0,22 z2 −0,07z+0,23
0,24z+0,09
z2 −0,16z+0,38 0,04z+0,13 z2 −0,07z+0,68
+ z2−0,32z+0,23 −0,36z+0,61
−0,22z−0,13 z2 −0,11z+0,24
0,75 + z2 −0,46z+0,84
+ z20,32z−0,43 −0,09z+0,47 0
+ z2−0,34z+0,10 −0,29z+0,09
0 −0,13z+0,10 z2 −0,08z+0,72
+ z20,64z−0,05 −0,50z+0,87
22. To ¨bbva´ltozo ´s modellreprezenta´cio ´k e ´s statisztikai azonosı´ta´suk
TN (z) = diag
z2 + 0,8z
361
z2 + 0,76z + 0,1 z2 + 0,95z + 0,26 , , z2 − 0,94z + 0,53 z2 − 0,65z + 0,13 ! z2 + 0,55z + 0,43 z2 + 0,79z − 0,02 z2 + 0,79z + 0,02 , , . z2 − 0,36z + 0,58 z2 − 0,05z + 0,24 z2 − 0,28z + 0,53
z2 − 0,38z + 0,41
,
Az így becsült konkrét transzfermátrixokat használjuk föl a könyv utolsó részében az útspektrum becslés figyelembe vételével az adott útprofilhoz tartozó output folyamat (pl. feszültségértékek id˝osora vagy gyorsulásértékek id˝osora) tényleges statisztikai meghatározására adott jármu˝ haladási sebesség, valamint rögzített terhelési változat, üzemmód típus stb. esetén. Az így kapott output adatsorokból ezután statisztikai agregációval – mint az utolsó fejezetben látni fogjuk – az output folyamat legfontosabb sztochasztikus jellemz˝oi a gyakorlati alkalmazás számára meghatározhatók. A kiinduló információt a jármu˝ sztochasztikus környezetének adatai statisztikái mellett mégis az útspektrum számítások és fenti becsült (identifikált) output és zajátviteli transzfermátrixok képezik.
Irodalom
Anderson, T. W.: The Statistical Analysis of Time Series. John Wiley & Sons, New York, London, 1971. Arató, M.: Linear Stochastic Systems with Constant Coefficients. A Statistical Approach. Springer-Verlag, Berlin, Heidelberg, New York, 1982. Aström, K. J.: Introduction to Stochastic Control Theory. Academic Press, New York, London, 1970. Beran, J.: Statistics for Long-Memory Processes. Vol. 61 of Monographs on Statistics and Applied Probability, Chapman & Hall, London, 1994. Bokor, J., Keviczky, L.: Structural Properties and structure estimation of vector difference equations. Int. J. of Control, 1986, No. 6. Brillinger, D. R., Krishnaiah, P. R. (szerk.): Handbook of Statistics. Vol. 3 – Time Series in the Frequency Domain. North-Holland, 1983. Brillinger, D. R.: Time Series – Data Analysis and Theory. Holt, Rinehart and Winston, 1975. Brockwell, J. P.: Time Series: Theory and Methods. Springer-Verlag, 1987. Choi, B. S.: ARMA Model Identification. Springer-Verlag, New York, 1992. Csáki F.: Szabályozások dinamikája. Akadémiai Kiadó, Budapest, 1970. Eykhoff, P.: System Identification – Parameter and State Estimation. North-Holland, Amsterdam, New York, 1974. Granger, C. W. J., Andersen A. P.: An Introduction to Bilinear Time series Models. Vandenhoek and Ruprecht, Gottingen, 1978. Hannan E. J.: Remembrance of things past. In J. Gani (szerk.): The Graft of Probabilistic Modeling, Ser. of Appl. Probability. Springer-Verlag, New York, 1986, pp. 190–212. Hinich M. J.: Testing for Gaussianility and linearity of a stationary time series. J. Time Series Analysis, 1982, 3, pp. 160–176. Hosking, J. R. M.: Fractional differencing, Biometrika. 1981, vol. 68, pp. 165–167.
Irodalom
363
Hurst, H. E.: Long term storage capacity of reservoirs. Trans. Amer. Soc. Civil, 1951, vol. 116, pp. 770–808. Keviczky L., Bányász Cs., Hilger: Folyamatidentifikáció. SZIKKTI Tudományos Közlemények 55, Budapest, 1977. Ljung, L. and Glad, T.: Modelling of Dynamic Systems. Prentice Hall, Englewood Cliffs, N. J., 1994. Luke Y. L.: Mathematical Functions and their Approximations. Academic Press, 1975. Lütkepohl, H.: Introduction to Multiple Time Series Analysis, Springer-Verlag, New York, 1991. Mandelbrot, R. R., van Ness, J. W.: Fractional brownian motions, fractional noises and applications. SIAM Rev., 1968, vol. 10, 422–437. Michelberger, P., Bokor, J., Keresztes, A., Várlaki, P.: Identification of multivariable linear model for road vehicles dynamics from test data. Int. J. of Vehicle Design, 1986, No. 4. Móri T. F., Szeidl L., Zempléni A.: Matematikai statisztika példatár. ELTE Eötvös Kiadó, Budapest, 1997. Pham D. T.: Bilinear time series models. In H. Tong (szerk.): Dimension Estimation and Models. World Scientific, Singapore, London, 1993, pp. 191–223. Priestley, M. B. Spectral Analysis and Time Series. Academic Press, New York, 1981. Rajbman, N. S., Kapitonenko, V. A., Várlaki, P.: Diszperziós rendszeridentifikáció (oroszul). Moszkva, Energia, 1975. Reimann, J.: Mathematical Statistics with Applications in Flood Hidrology. Akadémiai Kiadó, Budapest, 1989. Subba Rao, T., Da Silva, M. E. A.: Identification of bilinear time series models bl(p,0p,1). Statistica, Sinica, 1992, vol. 2(2), pp. 465–478. Subba Rao, T., Gabr, M. M.: A test of linearity of stationary time series. J. Time Series Analysis, 1980, pp. 145–180. Subba Rao, T., Gabr, M. M.: An Introduction to Bispectral Analysis and and Bilinear Time Series. Lecture Notes in Statistics, vol. 24, Springer-Verlag, New York, 1984. Subba Rao, T. On the theory of bilinear time series models. J. Royal Statist. Soc., B, 1981, 43, pp. 244–255. Subba Rao, T.: On the theory of bilinear time series models. Technical Report 87, Dep. of Math., UMIST, Manchester, UK, 1978. Terdik G.: Bilinear Stochastic Models and Related Problems of Nonlinear Time Series Analysis: A Frequency Domain Approach. Lecture Notes in Statistics, vol. 142, Springer-Verlag, New York, 1999. Terdik G., Máth, J.: A new test of linearity for time series based on bispectrum. J. Time Series Analysis, 1998, vol. 19(6), pp. 737–749.
364
Irodalom
Terdik G.: On problem of identification for stochastic bilinear systems. SAMS, 1995, vol. 17, pp. 85–102. Tusnády G., Ziermann M. (szerk.): Id˝osorok analízise. Muszaki ˝ Könyvkiadó, Budapest, 1986. Willinger, W., Taqqu, M. S., Sherman, R., Wilson, D. V. Self-similarity through high-variability: Statistical analysis of Ethernet LAN traffic at the source level. IEEE/ACM Transactions on Networking, 1997, vol. 5(1):1, p. 16.
V. re ´sz Modelleze ´s e ´s alkalmaza ´s
23 A ja ´rm˝ u terhele ´sto ¨rte ´nete ´nek sztochasztikus modelleze ´se e ´s statisztikai vizsga ´lata A Bevezetésben részletesen foglalkoztunk a jármudinamikai ˝ viselkedés és a szilárdsági méretezés valószínuségi ˝ problémáival és sztochasztikus heteroszkedasztikus szemléleti kérdéseivel. Mint láttuk, minden jármudinamikai ˝ modellezési és méretezési feladat megoldásának alapvet˝o feltétele – sok egyéb szükséges ismeret mellett – a vizsgált objektumra (jelen esetben a jármure) ˝ ható terhek id˝obeli lefolyásának (vagy a terhek statisztikájának) – terhelés történetnek – ismerete a teljes üzemelési id˝oszakban. A feladatot az teszi nehézzé, hogy ez az id˝oszak meglehet˝osen hosszú (számos esetben 10–50 év) és a teher nemcsak a küls˝o körülményeknek, hanem magának a létrehozandó szerkezetnek is függvénye (kinematikai terhek), maga a szerkezet azonban ezekhez a vizsgálatokhoz még nem áll rendelkezésre. A vizsgálatokban tehát meg kell elégedni a tervezend˝o objektumtól többé-kevésbé eltér˝o, korábbi jármu˝ vel végzett kísérletek, üzemi megfigyelések valószínuségelméleti ˝ vizsgálatával, illetve statisztikai eredményeivel. A mértékadó terheléstörténet összeállítása ezért nem pusztán statisztikai feladat, hanem természetesen igen bonyolult fizikai és muszaki ˝ megfontolásokat is igényl˝o vizsgálat. Megjegyezzük, hogy számos jármufajtára ˝ (pl. repül˝ogépekre, hajókra, vasúti jármuvekre) ˝ a terheléstörténetet hatósági (tehát jogi jellegu) ˝ el˝oírások rögzítik. A tervez˝o mérnök helyett ilyen esetekben az el˝oírásokat kidolgozó bizottság végzi el a kodifikáláshoz szükséges vizsgálatokat. Az id˝oben változó statisztikai teher „története” két, szignifikánsan különböz˝o folyamatra bontható: a) A hasznos teher tömegéb˝ol (és az üres jármu˝ tömegéb˝ol) a nehézségi er˝otérben statikus igénybevételek keletkeznek, ezek az id˝oben igen lassan változnak (pl. két megállás között állandónak tekinthet˝ok, ha az üzemanyag tömegének igen csekély változásától eltekintünk).
368
V. Modelleze ´s e ´s alkalmaza´s
b) A jármu˝ mozgásából adódó dinamikus terhek és az abból keletkez˝o dinamikai igénybevételek az id˝oben gyorsan változhatnak. Ilyenek pl. a fékezésb˝ol, gyorsításból, kanyarmenetb˝ol, illetve az egyenl˝otlen úton haladó jármu˝ lengéséb˝ol keletkez˝o igénybevételek. A statikus és dinamikus igénybevételt ezek szerint a jármu˝ alaptulajdonságain kívül az alábbi küls˝o tényez˝ok befolyásolják: a hasznos tömeg nagysága és térbeli elhelyezkedése (áru, utas), a jármu˝ aktuális sebessége és aktuális gyorsulása, az útfelület egyenl˝otlenségei, a forgalmi viszonyok és közlekedési el˝oírások (befolyásolják a sebesség és gyorsulás értékeit), a pálya geometriája, lejt˝ok, kanyarok (ugyancsak a sebesség és gyorsulás értékeit befolyásolják). Teljesen nyilvánvaló, hogy ezek a befolyásoló tényez˝ok helyt˝ol és id˝ot˝ol (valamint az üzemeltetési körülményekt˝ol és feladatoktól is) függnek. A helyzet jellemzésére tekintsük át pl. egy városi autóbusz és egy turista autóbusz üzemeltetési körülményeit: Városi autóbusz
Turista autóbusz
rövid megállótávonként változó utasszám (tömeg) id˝oszakonként csúcsterhelés (tömeg) sur ˝ u˝ megállás kis átlagsebesség sur ˝ un ˝ el˝oforduló gyorsítás, fékezés homogén útfelület a városban többnyire közel vízszintes pálya
hosszú távon állandó utasszám (tömeg) nincs csúcsterhelés (tömeg) ritka megállás nagy átlagsebesség ritka gyorsítás, fékezés heterogén útfelület egy országban változatos pályageometria
Az üzemeltetési körülmények és egyéb felhasználói szempontok is a két autóbusz típusnál annyira eltérnek egymástól, hogy jelenleg már minden gyártó két, egymástól független feladatnak tekinti a városi ill. turista autóbusz tervezését. Sajnálatosan a látszólag egységesnek tun˝ ˝ o városi üzemeltetés sem egységes a valóságban. (Kairó és Budapest forgalmi viszonyai, utas statisztikája, útfelülete stb. szignifikánsan különbözhet és különbözik egymástól, de egy városon belül is alapvet˝oen változhatnak az üzemeltetési viszonyok. Így pl. az 50-es évek utasszámlálási eredményeit nem használhatjuk a 2000. év utas statisztikájának összeállításához.) Az ellentmondások (heterogén terheléstörténet, lehet˝oleg egységes gyártás) feloldására három lehetséges méretezési szemlélet közül választhatunk: a) A számba jöhet˝o piacok (igények) üzemmódjai közül kiválasztjuk a legkedvez˝otlenebbet (a legkedvez˝otlenebbet itt nem definiáljuk pontosan) és
23. Terhele ´sto ¨rte ´net sztochasztikus modelleze ´se e ´s statisztikai vizsga´lata
369
a szilárdsági (élettartam) méretezést erre végezzük el. Az eredménye az összes többi piacon túlméretezett és drága jármu˝ (busz) lesz. b) „Átlagos” üzemi körülmények és észszeru˝ kockázati szint lapján választott konfidencia-intervallum figyelembevételével méretezünk. Az eredmény a piacok egy részén túlméretezett, más részén pedig a kívánatosnál kisebb élettartamú jármu˝ (busz) lesz. c) Minden piacra egyedileg tervezett jármuvet ˝ szállítunk. Ilyenkor a tervezési és gyártási költségek elviselhetetlenül megn˝onek. Bármelyik méretezési szemléletet választjuk is a terhelés „története” (terhelési statisztika) ismerete nélkülözhetetlen a tervezési döntésekben. Példánkban a budapesti autóbusz (városi) közlekedés terhelés történetének legfontosabb statisztikai jellemz˝oit kívánjuk összeállítani. Ehhez a hasznos teher (utasszám), sebesség, útegyenl˝otlenségek együttes eloszlás- (vagy sur ˝ u˝ ség) függvényére kellene adatokat gyujtenünk, ˝ vagy függetlenségük esetén a külön-külön értelmezett utasszám-, sebesség-, útegyenl˝otlenség eloszlás- (su˝ ruség) ˝ függvényekre lenne szükség. A statisztikai függetlenség-vizsgálatok alapján is megközelíthet˝o, de muszaki ˝ megfontolások alapján is megállapítható: A városi közlekedésben az átlag- és végsebességek általában kicsinyek (átlag ∼ 20 km/h, maximális ∼ 50 km/h), az autóbusz energiaforrása (motorja) elegend˝oen nagy és elegend˝oen rugalmas (esetleg túlméretezett) ezért a forgalom megkövetelte sebességet a jármu˝ üres és terhelt állapotban egyaránt gyakorlatilag azonos feltételek mellett érheti el. Más szavakkal a jármu˝ átlagsebessége és a sebesség eloszlás- (sur ˝ uség) ˝ függvénye az utasszámtól független. Feltevésünket alátámasztja az 23.1. és 23.2. ábra, mely a budapesti városi autóbuszok átlagsebességét mutatja a teher/utasszám függvényében, illetve a sebesség hisztogramokat foglalja össze különféle teherállapotra. A sebesség sur ˝ uségfüggvénye ˝ gyakorlatilag független az útfelület min˝oségét˝ol is, ez mutatja a 23.3. ábra, melyen a budapesti aszfalt, ill. kockak˝o borítású útfelület összegzett sebesség hisztogramját foglaltuk össze. Az utasszám és útmin˝oség (aszfalt, ill. kockak˝o) függetlensége nyilvánvaló, külön statisztikai bizonyítást sem igényel. Az egymástól független teher és sebesség statisztikák (jelen esetben közelít˝o hisztogramok) kidolgozása is összetett, munkaigényes feladat, mivel egy Budapest méretu˝ nagyváros autóbusz közlekedési hálózata nem tekinthet˝o homogénnek. A külvárosok és a belváros forgalmi viszonyai, utassur ˝ uségei, ˝ megálló távolságai szignifikánsan eltérhetnek egymástól. Ugyancsak eltér˝o adatokat adnak a különböz˝o napszakokban végzett megfigyelések (csúcsforgalom, éjszakai forgalom, csúcsforgalmon kívüli id˝oszakok). Eltér˝oek a munkanapi és munkaszüneti statisztikák stb.
370
V. Modelleze ´s e ´s alkalmaza´s
23.1. ábra. Egyesített átlagsebesség – hasznos teher statisztikák
23.2. ábra. A különböz˝o teherállapotok egyesített sebességhisztogramjai
Torzításmentes statisztikához ezért igen hosszú (több napos) és a teljes napi üzemid˝ot felhasználó megfigyelés szükséges, mely kiterjed lehet˝oleg a teljes autóbusz közlekedési vonalhálózatra. Ilyen átfogó megfigyelési rendszert csak automatizált eszközökkel lehet kiépíteni. A naponként egy-egy autóbuszról gyujtött ˝ statisztikai adatokból az egyes autóbuszvonalak forgalmi sur ˝ uségé˝ nek figyelembevételével súlyozott összesített statisztikát készíthetünk, hallgatólagosan feltételezve, hogy a közlekedési vállalat bármelyik autóbusza bármelyik útvonalon teljesíthet szolgálatot. Az adott útvonalon haladás valószínusége ˝ (relatív gyakorisága) nyilván arányos az útvonalon közleked˝o autóbuszok által naponként megtett út-teljesítménnyel. Más szóval bármely autóbusz egyenl˝o valószínuséggel ˝ kerülhet a forgalmi úthálózat bármelyik szakaszára.
23. Terhele ´sto ¨rte ´net sztochasztikus modelleze ´se e ´s statisztikai vizsga´lata
371
23.3. ábra. A különböz˝o útkategóriák egyesített sebességhisztogramjai
23.4. ábra. Buszsávval rendelkez˝o belvárosi csuklós autóbuszok hasznos teher – relatív gyakoriság diagramja (hétköznap)
Némileg torzítja az eredményeket az a körülmény, ha több forgalmi központ és az egyes irányító központok csak a vonalhálózat egy-egy részén irányítják a forgalmat. A különböz˝o üzemegységek között általában csak az autóbuszok nagyjavításakor cserél˝odnek a kocsik. Mint már említettük a hétvégi és munkanapi forgalmi viszonyok is (sebesség, utasszám, járatsur ˝ uség, ˝ futásteljesítmény) szignifikánsan különbözhetnek. A 23.4. és 23.5. ábrán bemutatjuk a hétköznapi és hétvégi hasznos teher (utasszám) hisztogramját csúcsid˝oben és csúcsid˝on kívül a belvárosban közleked˝o csuklós autóbuszokra. A 23.6. ábrán ugyanezen buszokra megadtuk a
372
V. Modelleze ´s e ´s alkalmaza´s
23.5. ábra. Buszsávval rendelkez˝o belvárosi csuklós autóbuszok hasznos teher – relatív gyakoriság diagramja (hétvége)
23.6. ábra. A belvárosban közleked˝o, buszsávval nem rendelkez˝o csuklós autóbuszok sebességhisztogramja
menet sebességek hisztogramját. Az ábrából jól látható, hogy a hétvégeken kisebb forgalom miatt a hisztogram eltolódik a nagyobb sebességek irányába. (Az is megállapítható, hogy a buszvezet˝ok jelent˝os mértékben túllépték a városi forgalomban engedélyezett 50 km/h sebességhatárt.) A teljes forgalmi hálózatra és a teljes üzemid˝ore kiterjesztett egyesített hasznos teher statisztika hisztogramja a 23.7. ábrán, míg a sebesség statisztika hisztogramja a 23.8. ábrán látható. A két utóbbi ábrán feltüntettük az egyes osztályokhoz tartozó átlagos gyakoriságon kívül az adatok szórását is. Az így sávos-
23. Terhele ´sto ¨rte ´net sztochasztikus modelleze ´se e ´s statisztikai vizsga´lata
373
23.7. ábra. Egyesített hasznos teherstatisztikák
23.8. ábra. Egyesített sebességstatisztikák
nak adódó hisztogram lehet˝oséget ad arra is, hogy az empirikus sur ˝ uségfügg˝ vényeket valamilyen ismert elméleti sur ˝ uségfüggvénnyel ˝ közelítsük az esetleges mélyebb statisztikai vizsgálatokban. Ismételten hangsúlyozzuk, hogy a vizsgálat adatai Budapest, 1990-es években tapasztalt közlekedési viszonyain alapulnak és más városra, más id˝oszakban (pl. Kairóra 2000-ben) nem jellemz˝oek. Valószínusíthet˝ ˝ o azonban, hogy a kölcsönös függetlenségre vonatkozó vizsgálataink, feltevéseink és az egyes sur ˝ uségfüggvények ˝ (hisztogramok) jellege minden városi autóbusz közlekedésre munka hipotézisként kiterjeszthet˝o. A hasznos teher (utasszám) és sebesség statisztika a statikus és dinamikus igénybevétel meghatározásának két legfontosabb eleme. Természetesen a teljes vizsgálathoz meg kell határozni a gyorsítások és fékezések, valamint a jobb-
374
V. Modelleze ´s e ´s alkalmaza´s
és baloldali kanyarodások statisztikáját is. Ez utóbbi jellemezhet˝o pl. a jármu˝ súlypontjának gyorsulására (hosszirányú és oldalirányú gyorsulás komponensek) vonatkozó statisztikával, melyre e példa keretében nem térünk ki, de megemlítjük, hogy e vizsgálatok során a korábbi sebesség, ill. teher statisztikákhoz hasonló problémák (pl. függ˝oség, függetlenség) merülnek fel. A példa végére hagytuk az útegyenl˝otlenségek statisztikáját, mely a jármu˝ függ˝oleges lengését befolyásolja és így a dinamikus igénybevételek egyik jellemz˝o összetev˝oje. Az útegyenl˝otlenség és hasznos teher, valamint az útegyenl˝otlenség és haladási sebesség függetlenségét már a példa elején feltételeztük. Így az útegyenl˝otlenségek statisztikája elkülönítetten tárgyalható. A gyakorlatban az útegyenl˝otlenségeket teljesítmény sur ˝ uség ˝ spektrumokkal szokták jellemezni, mely a térbeli frekvencia (1 m-re es˝o hullámok száma) függvényében adja meg az adott frekvenciákhoz tartozó amplitúdó (négyzetének) értékét. A leírást bonyolítja, hogy a jármuvek ˝ többségének külön nyomokon futó több kereke van (4–6 kerék) és így egyetlen spektrummal nem jellemezhet˝o a teljes útfelület, figyelembe kell venni az autospektrumok mellett az ún. keresztspektrumokat is. A következ˝okben a vázszerkezet mechanikai kifáradásához, ill. végs˝o soron a vázszerkezet esetleges töréséhez vezet˝o terhelés számítást tekintjük át vázlatosan. Az útspektrum gyakorlati becslésére és a jármu˝ átviteli mátrixának a mért adatokból történ˝o statisztikai, struktúra- és paraméterbecslésére példákat mutattunk be a 19. és 20. fejezetben. Az el˝obbi statisztikai és az utóbbi sztochasztikus modellek alapján a következ˝okben ismertetett vizsgálat így a gyakorlatban mért adatokból teljes egészében végrehajtható.
24 A ja ´rm˝ u viselkede ´sek sztochasztikus modelleze ´se e ´s statisztikai szinte ´zise ige ´nybeve ´teli folyamatokkal
A gyakorlatban használt kifáradási károsodáselméletek alkalmazásához szükség van a jármu-vázszerkezetek ˝ bizonyos pontjaiban ébred˝o feszültségek átlagos szintátmetszési számainak (statisztikájának) meghatározására. Korábban meghatároztuk azokat a legfontosabb tényez˝oket, amelyek a haszonjármuvek ˝ statikus és dinamikus igénybevételét alapvet˝oen befolyásolják. Az alábbiakban bemutatjuk, hogy a rendelkezésünkre álló adatok birtokában részben elvégezhet˝o az elemzés, a maradék rész pedig további mérések alapján befejezhet˝o. Vizsgáljuk meg pl. a függ˝oleges parazita mozgásokból (útegyenl˝otlenségeken állandó sebességgel haladó jármu) ˝ keletkez˝o feszültségek elméleti hátterét, illetve nézzük meg, hogy a számítások elvégzését milyen formulák teszik lehet˝ové. Diszkrét tömegpontokból, merev testekb˝ol felépített lineáris rendszer mozgásegyenlete a ˙h My¨ + Ky˙ + Sy = Gfh v (t) + Dfv lineáris differenciálegyenlettel írható le, ahol M a pontszerunek ˝ vett tömegekb˝ol és a megfelel˝oen transzformált f˝otehetetlenségi nyomatékokból felépített tömegmátrix, K az egyes tömegpontokra (merev testekre) ható csillapításokból álló kvadratikus szimmetrikus mátrix, S merevségi mátrix, D az útfelületre, mint kényszerkoordinátákra a jármu˝ elemeib˝ol (pneumatikból) származó csillapítási mátrix, G az útfelületre, mint kényszerkoordinátákra a jármu˝ elemeib˝ol (pneumatikból) származó merevségi mátrix, y az egyes tömegpontok függ˝oleges elmozdulásának (merev testek súlypont körüli elfordulásának) koordinátáiból felépített vektor,
376
V. Modelleze ´s e ´s alkalmaza´s
fh v (t) a h-útkategória értékhez (úttípus, és rögzített terhelési állapot) és adott v sebességhez tartozó útgerjesztést id˝oben leíró függvény. Általános esetben, ha a jármu˝ négybemenetu˝ gerjesztést kap, és ez a jármu˝ kerekein véletlenszeru, ˝ akkor a stacionárius fh ˝ v (t) Gauss-folyamat spektrálsuruség ˝ mátrixának a meghatározása külön problémát jelent, mivel a jármu˝ bal és jobb oldala által végigfutott útprofilok között keresztkorrelációk általában nem ismertek. A számítások jelent˝osen leegyszerusödnek, ˝ ha Robsont követve feltételezzük, hogy az útgerjesztést leíró függvény a jármu˝ jobb és baloldalán megegyezik, és így az els˝o és hátsó kerekeken azonos, a tengelytávnak megfelel˝o eltolással jelentkezik ugyanaz a gerjeszt˝o hatás. Ennek megfelel˝oen, ha a befutott útprofil-függvényt az út (és természetesen h) függvényében Xh (s) jelöli, akkor az egyes kerekeken a gerjeszt˝o függvény nem más, mint l l h T h h h fh v (t) = (Xv (t),Xv (t),Xv (t − ),Xv (t − )) = v v = (Xh (v · t),Xh (v · t),Xh (v · t − l),Xh (v · t − l)), ahol l tengelytávolság Xh o függvényében mért útegyenl˝otlenv (t) az állandó v sebesség mellett az id˝ ség (útprofil). Ekkor a fh ˝ stacionárius v (t) sztochasztikus folyamat zérus várható értéku Gauss-folyamat, melynek spektrális sur ˝ uségfüggvénye ˝ 1 1 e−iωl/v e−iωl/v 1 h ω 1 1 e−iωl/v e−iωl/v , Φ (ω) = Φh v iωl/v iωl/v e e 1 1 v v iωl/v iωl/v e 1 1 e ˝ uségfüggvényét, ˝ ω = 2πf ahol Φh (ω) jelöli az Xh (s) folyamat spektrális sur pedig a körfrekvenciát. Az eredeti mozgásegyenletnek adott h kategóriaérték és v sebesség mellett létezik megoldása, amely zérus várható értéku˝ stacioná˝ uségfüggvényére ˝ rius Gauss-folyamatot alkot, melynek Φh,y v (ω) spektrális sur fennáll Φh,y v (ω) = −1 −1∗ ∗ 2 = S − Mω2 + Kiω (G + Diω)Φh , v (ω)(G + Diω) S − Mω + Kiω ahol a szögletes zárójelben lev˝o mátrixnak mindig létezik inverze és a mátrixokra alkalmazott ∗ muvelet ˝ a transzponált konjugáltját jelenti. Mivel a fentiek szerint az y(t) elmozdulás zérus várható értéku˝ stacionárius Gauss-folyamat, így a dinamikus igénybevételt a különböz˝o vizsgált helyeken leíró T ¨ F(t) = [F1 (t),F2 (t),...,Fn (t)] = LMy(t)
24. Modelleze ´s e ´s szinte ´zis ige ´nybeve ´teli folyamatokkal
377
folyamat szintén zérus várható értéku˝ stacionárius Gauss-folyamat lesz, melynek spektruma 4 h,y T T Φh,F v (ω) = ω LMΦv (ω)M L
alakban állítható el˝o, ahol L az egységnyi tömeger˝okb˝ol származó igénybevételek mátrixa. Megjegyezzük, hogy a várható érték és a válasz spektrális sur ˝ uségfüggvény ˝ ismerete lehet˝ové teszi az igénybevételek eloszlásfüggvényének számítását. Nézzük meg most, hogyan határozható meg az élettartam-méretezés szempontjából fontos, egyes igénybevételi szintek átlagos átmetszési számának várható értéke. Alkalmazzuk a stacionárius Gauss-folyamatok átlagos szintátmetszési számára vonatkozó Rice-formulát (Leadbetter, Lindgren, Rootzen, 1986, 7.3.2. formula). Világos, hogy az F(t) vektor k-adik komponensének a spekt˝ kedvéért ruma a Φh,F v (ω) mátrix (k,k)-adik eleme lesz, melyet az egyszeruség jelöljön ϕk (ω). Ekkor ∞ 1/2 ∞ −1/2 1 ˜ h,F ω2 ϕk (ω)dω ϕk (ω)dω N = v,k (u) = 2π 0 0 ∞ −1 2 = exp −u 2 ϕk (ω)dω , 0
˜ h,F (u) az Fk (t) komponensfolyamat által az id˝oegység alatt az u-szint ahol N v,k átmetszési számának várható értékét jelöli. Innen kapjuk az útegységre jutó átlagos szintátmetszési számot 1 ˜ h,F Nh,F v,k (u) = Nv,k (u). v
24.1. A feszu ¨ ltse ´gi szintek a ´tlagos a ´tmetsze ´si sza ´ma ´nak meghata ´roza ´sa va ´ltozo ´u ¨ zemmo ´d mellett A jármu˝ az üzemeltetés során különböz˝o statikus terhelési állapotban van, mellyel kapcsolatban a következ˝o feltevéssel élünk. A jármu˝ változó M(t) tömegmátrixát felbontjuk M(t) = M0 + Mt alakban, ahol M0 a terheletlen állapotnak megfelel˝o diagonális mátrix, Mt = zt A a terhelésnek megfelel˝o diagonális mátrix, amely a zt -terhelési állapot és a rendszerre jellemz˝o A diagonális mátrix segítségével számítható. (Ez a feltevés egyenértéku˝ azzal, hogy a terhelés arányosan oszlik meg az egyes koordináták között.)
378
V. Modelleze ´s e ´s alkalmaza´s
A csillapítási és merevségi mátrixot közelít˝oen változatlannak tételezzük fel, bár a terhelési állapottól függ˝oen módosulhat. Ennek vizsgálatával és modellezésével itt nem foglalkozunk. A további vizsgálatainkhoz szükség van az alábbi jelölések bevezetésére. Jelölje a lehetséges útkategóriák és üzemmódok számát h∗ , illetve g∗ és legyen az értékük az s helyen hs , illetve gs . Tekintsük az egymás után következ˝o maximális hosszúságú Uk , k = 0,1,2,... útszakaszokat, amelyeken a jármu˝ útkategóriája és üzemmódja állandó, éspedig a k-adik útszakaszon legyen hs = ik , ˝ jelölés kedgs = jk (s ∈ Uk ), ahol 1 ≤ ik ≤ h∗ , 1 ≤ jk ≤ g∗ . Az egyszerubb véért a továbbiakban összefogjuk a kett˝ot, és a k-adik útszakaszhoz az Ak = (ik − 1)h∗ + jk (1 ≤ Ak ≤ A = h∗ g∗ ) számot rendeljük hozzá, melyet a jármu˝ ál˝ lapotának fogunk nevezni. Világos, hogy ismerve az Ak értéket, egyértelmuen ˝ tartozó útkategória meg tudjuk mondani, hogy az Uk útszakaszon a jármuhöz és üzemmód milyen értéket vesz fel. Vezessük be a jármu˝ A(s), s ≥ 0 állapotfolyamatát a következ˝o módon. Jelölje V0 = 0, Vk = U0 + U1 + ··· + Uk−1 , ha k ≥ 1, A(s) = Ak ,
ha Vk−1 ≤ s < Vk , k ≥ 1.
A következ˝o feltevéssel fogunk élni a továbbiakban: függetlenül attól, hogy mi zajlott le korábban, ha egyszer a jármu˝ az i állapotba került, akkor onnan pij valószínuséggel ˝ a j állapotba (1 ≤ i, j ≤ A) megy át mégpedig úgy, hogy ˝ a jármunek ˝ az i állapotban eltöltött úthossza Fij (x) eloszlású valószínuségi változó. Képlettekkel kifejezve, ez a következ˝oket jelenti: pij = P(A(Vk+1 ) = j | A(Vk ) = i, A(Vk−1 ) = ik−1 ,...,A(V0 ) = i0 ) = = P(A(Vk+1 ) = j | A(Vk ) = i) = pij ,
(24.1)
továbbá Fij (x) = P(Uk < x | A(Vk+1 ) = j, A(Vk ) = i) minden k ≥ 0 és 1 ≤ i,j, i0 ,...ik−1 ≤ A érték mellett. Legyen a kiinduló A(V0 ) = A(0) állapot eloszlása pi = P(A(0) = i),
1≤i≤A
(pi ≥ 0, p1 + p2 + ··· + pA = 1).
(24.2)
A kiinduló (k = 0 esetén fennálló) F0ij (x) = P(U0 < x | A(V1 ) = j,A(0) = i) ≤ Fij (x) eloszlás különbözhet az Fij (x) eloszlástól, ennek azonban összességében nincs észrevehet˝o hatása, ezért feltesszük, hogy F0ij (x) = Fij (x). Ekkor könnyu˝ ellen˝orizni, hogy a (24.1) és (24.2) tulajdonságokkal rendelkez˝o {A(s),s ≥ 0} folyamat szemi-Markov folyamat és a beágyazott Markovlánca {A(Vk ),k ≥ 0}.
24. Modelleze ´s e ´s szinte ´zis ige ´nybeve ´teli folyamatokkal
379
Modellünkkel kapcsolatban még néhány feltevéssel fogunk élni, melyek a gyakorlat számára nem jelentenek megszorításokat: F1. az {A(s),s ≥ 0} szemi-Markov folyamat reguláris (valójában itt minden korlátozás nélkül még azt is fel lehet tenni, hogy van olyan c > 0 konstans, hogy minden k ≥ 0 mellett 1 valószínuséggel ˝ teljesül Uk ≥ c), ∞ F2. µij = 0 xdFij (x) < ∞, 1 ≤ i,j ≤ A, F3. az {A(Vk ),k ≥ 0} beágyazott Markov-lánc irreducibilis, F4. az Uk útszakaszokon az Ak állapotok által csak statisztikusan meghatározott útprofil, sebesség és teherállapot realizációk függetlenek az Uk nagyságától és a korábbi szakaszokra vonatkozó realizációktól. Rögzített Ak (ik és jk ) állapotokra ezeket a realizációkat az egyes üzemmódok leírásánál jellemeztük. Jelölje Uij m , m = 0,1,2,... az Uk , k = 0,1,2,... sorozatban azon egymás után következ˝o útszakaszokat, amelyekre A(Vk ) = i, A(Vk+1 ) = j és legyen az ilyen szakaszok közül a (0,s) intervallumba es˝ok száma ψij (s). A szemi-Markov tulajdonságból következik, hogy Uij m , m = 0,1,2,... független, azonos Fij (x) eloszlású valószínuségi ˝ változók sorozata. Tekintsük most az F(t) n-dimenziós dinamikus igénybevételi folyamat egy ij megadott és egyszeruen ˝ csak F(t)-vel jelölt komponensét. Jelölje Qij m (u) az Um véletlen hosszúságú intervallumon az F(t) folyamat u-szintátmetszéseinek a számát, vagyis azt a számot, amely megmutatja, hogy az F(t) folyamat az adott intervallumon hányszor metszi el az abszcissza tengellyel párhuzamos, u ordinátájú egyenest. Jelölje Nu i , 1 ≤ i ≤ A az útegységre jutó u-szintátmetszések számának a várható értékét azon feltétel mellett, hogy a jármu˝ az i-állapotban ˝ változók sorohalad. Minthogy Uij m független, azonos eloszlású valószínuségi (u), m = 1,2,... független azonos zata, ezért az (F4) feltétel következtében Qij m eloszlású valószínuségi ˝ változók sorozata. Belátható, hogy az (F2) és (F4) feltételek következtében igaz a következ˝o egyenl˝oség u EQij m (u) = µij Ni . A nagy számok er˝os törvénye szerint 1 valószínuséggel ˝ fennáll k 1 ij Qm (u) = µij Nu i. k→ ∞ k
lim
m=1
Az (24.1) és (F1)–(F(3) feltételek következtében bármely (24.2) kezdeti feltétel mellett a Markov és szemi-Markov folyamatokra fennálló nagy számok er˝os törvénye alapján 1 valószínuséggel ˝ igazak a következ˝o állítások: lim
s→ ∞
ψij (s) = ψij < ∞ s
380 és
V. Modelleze ´s e ´s alkalmaza´s
ψij (s) ψij (s) 1 ij ψij (s) 1 Um = lim Uij lim m = ψij µij , s→ ∞ s s→ ∞ s ψij (s) m=1
m=1
és így az i-állapotban eltöltött útszakaszok relatív gyakoriságára A ψij (s) A 1 ij Um = ψij µij . s→ ∞ s
qi = lim
j=1 m=1
j=1
Az el˝oz˝oek alapján kapjuk, hogy ψij (s) A ψij (s) A 1 ij ψij (s) 1 Qij Qm (u) = lim m (u) = s→ ∞ s s→ ∞ s ψij (s)
lim
j=1 m=1
m=1
j=1
=
A
u ψij µij Nu i = qi Ni ,
j=1
és így a váltakozó üzemmódot és útkategóriát is figyelembe véve 1 valószínu˝ séggel adódik, hogy A A ψij (s) A 1 ij Qm (u) = qi Nu N = lim i. s→ ∞ s u
j=1 j=1 m=1
j=1
A továbbiakban még két kérdéssel kell foglalkoznunk, nevezetesen: A) a qi mennyiség, valamint B) adott u szint és i állapot esetén az Nu i átlagos uszintátmetszési számok meghatározásával. A) Az adott feltételek mellett az {A(s),s ≥ 0} folyamat szemi-Markov folyamat {A(Vk ),k ≥ 0} beágyazott Markov-lánccal. Minthogy a véges állapotteru˝ beágyazott Markov-lánc irreducibilis, így ergodikus és létezik πT = (π1 ,...,πA ) ergodikus (stacionárius) eloszlása, amely kielégíti a π = Pπ,
π1 + ··· + πA = 1,
πi ≥ 0
lineáris egyenletrendszert, ahol P = (pij )1≤i,j≤A a Markov-lánc átmenet-valószínuség ˝ mátrixa. Használjuk a szemi-Markov folyamatokra fennálló eredményeket (14. fejezet). Jelölje Fi (x) =
A
pij Fij (x),
j=1 ∞
mi =
xdFi (x). 0
1≤i≤A
381
24. Modelleze ´s e ´s szinte ´zis ige ´nybeve ´teli folyamatokkal
Ekkor az i állapotban való tartózkodás qi átlagos relatív gyakoriságára A ψij (s) π i mi 1 ij Um = A . qi = lim s→ ∞ s j=1 m=1 πj mj j=1
B) Adott u szint és i állapot esetén az Nu i átlagos u-szintátmetszési számok meghatározása. Megjegyezzük, hogyha adott i állapot, v sebesség és z terhelés mellett a korábbiak szerint felírható tetsz˝oleges u szint esetén az átlagos Nu i (v,z) uszintátmetszési szám. A kérdés az, hogy hogyan tudjuk figyelembe venni a változó sebesség- és terhelésviszonyokat. Rögzítsünk tetsz˝olegesen egy i (1 ≤ i ≤ A) állapotot, amely természetesen a neki megfelel˝o hi útkategória és gi üzemmód rögzítését is jelenti. Tegyük fel, hogy a jármu˝ a már rögzített hi útkategórián halad, a hely függvényében mért és sztochasztikusan változó v(s) sebesség- és z(s) terhelésértékekkel. Ez azt jelenti, hogy olyan szituációban vizsgáljuk az átlagos szintátmetszési számokat, mintha csak egy útkategória és egy üzemmód lenne, és ennek alapján vonunk le általános következtetéseket a helyzetre nézve. Mindenekel˝ott megjegyezzük, hogy a jármu˝ sebességét és terhelését leíró v(s) és z(s) sztochasztikus folyamatok az útprofil-folyamattól függetlennek tekinthet˝o, azonban eloszlásuk nyilvánvalóan függhet a rögzített hi útkategóriától. Az útprofil-folyamatról feltettük, hogy stacionárius Gauss-folyamattal írható le, ami egyben azt is jelenti, hogy szukebb ˝ értelemben is stacionárius. A sebesség- és terhelésfolyamatról nem tehet˝o fel ugyanez, vagyis hogy stacionárius Gauss-folyamatok, az azonban itt is feltételezhet˝o, hogy együttesen szukebb ˝ értelemben stacionárius, ergodikus folyamatot alkotnak. A szukebb ˝ értelemben vett stacionaritásból következik, hogy tetsz˝oleges s esetén a v(s) és z(s) valószínuségi ˝ változók együttes eloszlása ugyanaz, az ergodikus tulajdonságból pedig adódik, hogy 1 valószínuséggel ˝ 1 lim s∗→ ∞ s∗
s∗
x2 y 2
I(x1 ≤ v(s) < x2 ,y1 ≤ z(s) < y2 )ds = 0
dF(i) vz (x,y).
x1 y1
A z(s) terhelésfolyamattal kapcsolatban megjegyezzük, hogy a jármu˝ elindulása és megállása közötti id˝oben a terhelése gyakorlatilag csak kismértékben változhat (az is az üzemanyag fogyasztás következtében). A v(s) sebességfolyamat hasonlóságot mutat a terhelésfolyamattal abban az értelemben, hogy a teljes folyamathoz képest egy viszonylag kis tranziens szakaszokból (gyorsítás, fékezés, ívmenet, stb.) összetev˝od˝o részen kívül felbontható olyan (1) (2) (1) (2) U∗1 = (s1 ,s1 ), U∗2 = (s2 ,s2 ),... szakaszokra, amelyeken a sebesség közel konstans (véletlen nagyságú) vj értéket vesz fel. Az el˝oz˝o megjegyzés szerint
382
V. Modelleze ´s e ´s alkalmaza´s
ezeken a szakaszokon a terhelés értéke is (véletlen nagyságú) konstans, melyet jelöljön zj . Világos, hogy ekkor az U∗j intervallumon közelít˝oen fennáll v(s) = vj , z(s) = zj . Megjegyezzük, hogy ha az U∗1 ,U∗2 ,... intervallumokon kívüli tranziens szakaszokhoz tartozó dinamikus terhelések az összes terheléshez képest kis részt képviselnek, ez a rész addicionálható az el˝oz˝ohöz. Vizsgálatuk egyébként más megközelítést és statisztikai analízist igényel, ezért ett˝ol most eltekintünk. Tekintsünk egy (0,s∗ ) útszakaszt és vizsgáljuk meg adott u érték mellett u az u-szintátmetszések N (0,s∗ ) számát. Jelölje m(s∗ ) azt a véletlen indexet, amely megmutatja, hogy U∗1 ,U∗2 ,... sorozat hány tagja esik teljes egészében a (0,s∗ ) útszakaszba. Ekkor az utolsó részintervallum esetleges elhanyagolásával kapjuk, hogy u
u
u
N (0,s∗) = N (U∗1 ) + ... + N (U∗m(s∗) ), u
ahol N (U∗i ) jelenti az u-szintátmetszések számát az U∗i intervallumon. Minthogy a sebesség- és terhelésfolyamat független az útprofil-folyamattól (az eloszlásuk természetesen függhet az útprofil-folyamat jellemz˝oit˝ol), ezért 1 1 u u ∗ ∗ ∗ ∗ ∗ EN (0,s ) = E ∗ E[N (0,s ) | m(s ),Ui ,vi ,zi ,1 ≤ i ≤ m(s )] = s∗ s 1 (1) (1) = E ∗ Nu i (v1 ,z1 )(s2 − s1 ) + ···+ s (m(s∗)) (m(s∗)) u − s1 ) . +Ni (vm(s∗) ,zm(s∗) )(s2 Legyen n1 és n2 két tetsz˝oleges pozitív egész szám. Bontsuk fel a valós számegyenest diszjunkt {∆vj , j = 1,...,n1 } és {∆zk , k = 1,...,n2 } intervallumok összegére (páronként egymást kizáró intervallumok, összegük a valós számegyenes.). Válasszunk egy-egy xj , illetve yk osztópontot a ∆vj , illetve ∆zk intervallumokból. Ha az intervallumrendszerek elég finom felosztásúak, akkor az el˝oz˝o formula második sorában lév˝o várható értéken belüli rész elég nagy s∗ esetén közelít˝oen felírható úgy, mint n1 n2
Nu i (xj ,yk )
j=1 k=1
1 I(s∗ ,∆vj ,∆zk ), s∗
ahol I(s∗ ,∆vj ,∆zk ) jelenti azon (0,s∗ )-beli U∗j intervallumok hosszának az összegét, amelyeken egyszerre teljesül a v(s) ∈ ∆vj , z(s) ∈ ∆zk ) feltétel. A (v(s),z(s)) folyamat ergodikus, ezért a korábbi megjegyzésünk szerint 1 valószínuséggel ˝ igaz 1 1 I(∆vj ,∆zk ) = lim ∗ s∗→ ∞ s s∗→ ∞ s∗
s∗
I(v(s) ∈ ∆vj < x2 ,z(s) ∈ ∆zk )ds =
lim
0
24. Modelleze ´s e ´s szinte ´zis ige ´nybeve ´teli folyamatokkal
=
383
dF(i) vz (x,y),
z x∈∆v j y∈∆k
és így 1 valószínuséggel ˝ ugyancsak fennáll 2 1 1 1 ∗ v z Nu i (xj ,yk ) ∗ I(s ,∆j ,∆k ) = ∗ s∗→ ∞ s s j=1 k=1 n n 2 1 (i) = Nu i (xj ,yk )dFvz (x,y).
n
n
lim
j=1 k=1x∈∆v y∈∆z j
k
Az utóbbi összeg pedig nem más, mint a ∞ ∞
(i) Nu i (x,y)dFvz (x,y)
0 0
integrál közelít˝o összege és tart hozzá, ha a {∆vj }, {∆zk } intervallumrendszert minden határon túl finomítjuk. Összességében azt kaptuk, hogy 1 u EN (0,s∗) = lim s∗→ ∞ s∗
∞ ∞
(i) Nu i (x,y)dFvz (x,y).
0 0
Ezzel a formulával kapcsolatban megjegyezzük, hogy az i állapottól függ˝oen azokban az esetekben, amikor a jármu˝ sebességfolyamata független a terhelésfolyamattól (elegend˝oen nagy motorteljesítmény áll rendelkezésre), akkor (i) (i) F(i) vz (x,y) = Fv (x)Fz (y), és így 1 u EN (0,s∗ ) = lim s∗→ ∞ s∗
∞ ∞
(i) (i) Nu i (x,y)dFv (x)dFz (y).
0 0
Megjegyezzük azt is, hogy természetesen nem csak az aszimptotikus várható érték vizsgálható, hanem az aszimptotikus szórás is, amely azonban sokkal bonyolultabb számolásokhoz vezet, ezért eltekintünk t˝ole. Az fentiekben az útegyenl˝otlenségek teljesítménysur ˝ uség ˝ spektrumából kiindulva építettük fel vizsgálatainkat. A gondolatmenet azonban átalakítható h az útegyenl˝otlenségek fh v (s) → fv (t) egy-egy realizációjának felhasználásával id˝ofüggvényes megoldások keresésére. Az így nyert y(t) id˝osorokból utólag közvetlenül el˝oállítható a mechanikai feszültség szintkeresztezési számok statisztikája. Ez utóbbi gondolatmenet igen nagy teljesítményu˝ számítógépeket
384
V. Modelleze ´s e ´s alkalmaza´s
és rendkívüli háttérmemóriát igényel, el˝onye, hogy a fejezet elején felírt mozgásegyenlet helyett a valóságot sokkal jobban közelít˝o nemlineáris differenciálegyenletet használhatjuk számításainkban. Az esettanulmány elemzése alapján megállapíthatjuk, hogy abban felhasználtuk a tankönyvben ismertetett összes fontosabb statisztikai módszert (eloszlásfüggvény és paraméterbecslések) hipotézis és korrelációs összefüggésvizsgálatok, az id˝osor-elemzés fontosabb eljárásait, pl. az útfelület egyenl˝otlenségeit jellemz˝o autospektrum empirikus (nemparaméteres és paraméteres) becslése során. Hasonló módon az átviteli mátrixok meghatározásához szükségünk van a bemutatott többváltozós statisztikai rendszer-identifikációs modellek alkalmazására a IV. részben bemutatott struktúra- és paraméterbecslési eljárások figyelembevételével. A jármu˝ környezetének sztochasztikus modellezését, mint láttuk a III. részben bemutatott diszkrét és folytonos ideju˝ Markovláncok elmélete alapozza meg, míg a konkrét formulákat a szemi-Markov folyamat statisztikai felhasználásával kaptuk meg.
Irodalom
Borbély G.: Városi autóbuszok hasznos terhelésének és üzemeltetési körülményeinek statisztikája. Doktori értekezés, Budapesti Muszaki ˝ Egyetem, 1991. Dodds, G. J., Robson, J. D.: Simulated road testing. The Journal of Automotive Engineering, 1972, No. 4. Horváth, S., Keresztes A., Michelberger P., Szeidl L.: Mathematical model of the load and stress statistics of vehicle structures. Appl. Math. Modelling, 1982, vol. 6, pp. 92–96. Koller, H. D.: Motor-Lastkollektive und Betriebzustands-Kollektive von LKW, Omnibus und PKW im Fahrbetrieb. Deutsche Kraftfahrforschung und StrassenVerkehrtechnik, 1972, Heft 225, VDI Verlag. Leadbetter M. R., Lindgren G., Rootzen H.: Extremes and Related Properties of Random Processes. Springer-Verlag, New York, 1986. Michelberger, P., Bokor, J., Keresztes, A., Várlaki, P.: Identification of bus dynamics from test data. Proc. of Symp. on Identification and System Parameter Estimation, 1985, vol. 1, pp. 183–188. Robson, J. D.: Cross spectral density in random vibration analysis. Int. J. of Vehicle Design, 1980, no. 2, pp. 121–129.
Ta ´rgymutato ´
abszolút eltérés alkatrészek élettartama általános valószínuségi ˝ tétel aránybecslés átmenetvalószínuségek ˝ mátrixa axiómák Banach-gyufák Bayes tétele Bernoulli-féle kísérletsorozat problémája tétele Bernstein tétele Bertrand-féle paradoxon becslés elégséges hatásos intervallum maximum likelihood torzítatlan torzított becsléssorozat aszimptotikusan torzítatlan konzisztens binomiális egyutthatók ˝ eloszlás közelítése tagjainak maximuma tétel bolyongás síkon számegyenesen visszaver˝o falak esetén Borel–Cantelli lemma Borel tétele Buffon-féle tuprobléma ˝ Csebisev-egyenl˝otlenség diszkrét eloszlás valószínuségi ˝ változó vektorváltozó
Duna vízállásának vizsgálata egyenletes eloszlások kompozíciója egyszeru˝ alternatíva ekvivalens valószínuségi ˝ változók elméleti eloszlás szórás várható érték eloszlás béta bimodális binomiális Cauchy χ2 csonkított diszkrét egydimenziós normális egyenletes együttes elfajult Erlang exponenciális F feltételes folytonos gamma geometriai Pascal hipergeometrikus kevert Laplace logaritmikus normális Markov–Pólya–Eggenberger Maxwell n-dimenziós negativ binomiális Pearson perem Poisson polihipergeometrikus
388 polinomiális Student többdimenziós normális unimodális z eloszlásfüggvény alapvet˝o tulajdonságai együttes feltételes eloszlások keveréke kompoziciója eloszlás paramétere empirikus eloszlás medián momentum szórás terjedelem várható érték ergodicitás esemény biztos elemi különbség lehetetlen összeg sur ˝ uség ˝ szorzat tér eseményfolyamat független növekményu˝ stacionárius növekményu˝ események (sztochasztikus) függetlensége esemény komplementere eseményterek szorzata exponenciális eloszlások kompoziciója faktoriális momentum feltételes eloszlásfüggvény relatív gyakoriság sur ˝ uségfüggvény ˝ valószínuség ˝ várható érték ferdeségi együttható Fischer-féle z eloszlás folytonos valószínuségi ˝ változó vektorváltozó források véletlenszeru˝ használata független események kísérletek független valószínuségi ˝ változók valószínuségi ˝ vektorváltozók függetlenségvizsgálat Gamma-függvény generátorfüggvény Gyakoriság relatív feltételes relatív
Ta´rgymutato ´ halmaz elem függvény komplementere különbség halmaz-összeg (egyesítés) része szorzat (közös rész) hatásfok relatív hatásosság hipotézis alternativ null hipotézisek ellen˝orzése hisztogram homogenitásvizsgálat illeszkedésvizsgálat becsléses tiszta indikátorváltozó interkvartilis félterjedelem inverz-mátrix elemeinek várható értéke izzólámpák élettartama Jordan tételei karakterisztikus függvény kedvez˝o pontok kísérlet kimenetele véletlen kísérletszám meghatározása el˝oírt pontosságú közelítéshez klasszikus valószínuségi ˝ mez˝o Kolmogorov-féle megalapozás Kolmogorov tétele Kolmogorov-egyenl˝otlenség kombináció kombinatotika komplex értékü valószínuségi ˝ változók kompozíció konfidencia-intervallum a binomiális eloszlás paraméterére a sokaság várható értékére két várható érték eltérésére σ-ra kontigencia négyzetes tábla konvergencia valószínuséggel ˝ sztochasztikus korreláció (-s) együttható mátrix parciális többszörös totális korrelálatlan változók páronként korrigált empirikus szórás kovariancia
Ta´rgymutato ´ mátrix központi határeloszlástétel kvantilis Laplace–Ljapunov-tétel lapultsági együttható lehetséges pontok likelihood-egyenlet Lindeberg–Feller-tétel lineárisan független valószinüségi változók lottó számok egyenletes eloszlása maradék Markov-féle egyenl˝oség egyenl˝otlenség Markov-lánc homogén véges állapotú Markov tétele mátrix korreláció kovariancia pozitív definit Dozitiv sumidefinit maximum likelihood módszer medián minta elem eloszlása momentuma -nagyság meghatározása el˝oírt pontosságú becsléshez rendezett szórása várható értéke mintanagyság becslése mintavétel véges sokaságból végtelen sokaságból visszatevés nélkül visszatevéssel módusz Moivre–Laplace-tétel momentum abszolút centrális centrális abszolút empirikus muveletek ˝ eseményekkel nagy számok törvénye er˝os gyenge négyzetes kontingencia nem paraméteres módszerek normális eloszlások kompoziciója normalitás-vizsgálat összeg szórása várható értéke paraméter
389 paraméterek becslése paraméteres módszerek Pearson-család permutáció ismétléses Poisson-eloszlású valószínuségi ˝ változók összegének eloszlása Poisson-folyamat stacionárius növekményu˝ polinomiális tétel pontsur ˝ uség ˝ regresszió (-s) egyenes együttható elméleti empirikus felület görbe lineáris parabolikus sík relatív eltérés gyakoriság feltételes hatásfok szórás részhalmaz selejtvizsgálat sokaság eloszlása sorbanállási probléma statisztikai következtetés statisztikai próba F t u χ2 statisztikai függvény sokaság Steiner-képlet sur ˝ uségfüggvény ˝ együttes feltételes szignifikancia szint szignifikáns eltérés szórás szóródási együttható szorzási szabály általános szorzat várható értéke sztohasztikus folyamat realizációja születési folyamat teljes eseményrendszer teljes valószínuség ˝ tétele terjedelem torzítás valószínuség ˝
390 alapvetö tételei a posteriorl a priori axiómák eloszlás feltételes meghatározása geometriai módszerekkel meghatározása kombinatorikai módszérekkel valószínuségi ˝ mez˝o klasszikus változó vektorváltozó valószlnüségi változó függvénye sur ˝ uségfüggvényének ˝ meghatározása valószínuségi ˝ változók függetlensége függvénye várható értékének meghatározása
Powered by TCPDF (www.tcpdf.org)
Ta´rgymutato ´ hányadosának sur ˝ uségfüggvénye ˝ összegének sur ˝ uségfüggvénye ˝ szorzatának sur ˝ uségfüggvénye ˝ valószínuségi ˝ vektorváltozók függetlensége várható érték feltételes variáció ismétléses véletlen jelenség kísérlet pontelhelyezkedés véletlen esemény-folyamat eseménysur ˝ usége ˝ független növekményu˝ stacionárius növekményü véletlen tagszámú összegek