164 72 5MB
Croatian Pages 202 [214] Year 2001
Zdenka Gogala
OSNOVE STATISTIKE
Mladenu) Maji i Marku
Zdenka Gagala OSNOVE STATISTIKE ISBN
953-6895-08-0
Nakladnik: Sinergija d.o.o. Zagreb Za nakladnika: prof. dr. sc. Darko Tipurić Recenzenti: prof. dr. Ksenija Dumičić prof. dr. Šemso Tanković Lektura i korektura: Alka Zdjelar-Paunović Priprema za tisak: iDEA studio, Samobor Tisak: Grafomark d.o.o., Zagreb
CIP - Katalogizacija II publikaciji Nacionalna i sveučilišna knjižnica Zagreb UD K311 (035) GOGAlA, Zdenka Statistika I Zdenka Gogala. - Zagreb: Sinergija, 2001. Bibliografija. ISBN953-6895-08-0 l. Statistika 4]1217014
Priručnik
PREDGOVOR u ovoj su knjizi izložene osnove statistike koje su potrebne prvenstveno ekonomistima, kako onima u toku veleučilišnog studija, tako onima u praksi. Rad je koncipiran tako da omogući što jednostavniji uvid u materiju, a da usto nije lišen izlaganja teoretske podloge na kojima pojedine statističke metode počivaju, tako da onima, koji osim primjene u svakodnevnoj praksi žele u statističkom istraživanju otići malo dalje, to bude omogućeno.
Imam dugogodišnju praksu kao nastavnik statistike i stoga razvijen osjećaj za one dijelove gradiva koje studenti izrazito teško savladavaj u i koje im pričinja najveće teškoće. Takvi su dijelovi gradiva detaljnije razrađeni. To sc prvenstveno odnosi na materiju u vezi s formiranjem statističkih nizova. Iz istih sam razloga nastojala što je moguće detaljnije obraditi neke temeljne pojmove s kojima se u kasnijoj analizi barata. Također sam za iste pojmove namjerno koristila nekoliko alternativnih izraza, budući sam uočila da usvajanje i posebice baratanje stručnom statističkom terminologijom studentima zadaje mnogo muke. Uz neke stručne nazive na hrvatskom naveden je i odgovarajući naziv na engleskom jeziku, prvenstveno stoga što je jezik računala engleski, pa to može olakšati studentima rad s statističkim softverom (usvajanje raznih statističkih paketa.). Također, neke sam dijelove gradiva namjerno detaljnije i na što jednostavniji način obradila i stoga jer sam imala u vidu veliki broj studenata koji se školuju uz rad, što znači da se školuju u za njih otežanim uvjetima. Stoga je knjiga pisana tako, da ujedno omogući samostalno savladavanje gradiva propisanog programom studija i onima, koji nisu u stanju redovito pohađati nastavu. U knjizi je mnoštvo malih, školskih primjera, koj i nisu brojčano zahtjevni, s ciljem da se maksimalno olakša njihovo razumijevanje . S druge strane neke teme su obrađene u samo u glavnim crtama, sa svrhom da sc pruži osnovna orijentacija u materiji, jer sam imala u vidu studente veleučilišta kojima je knjiga prvenstveno namijenjena, kao i jer sam vodila računa o zahtjevima koji se na ekonomiste u praksi prvenstveno postavljaju. Zahvaljujem svim prijateljima i kolegama koj i su me bodrili u radu i davali mi prijateljske savjete. Zahvaljujem članovima moje obitelji čija mi je lj ubav bila neophodna podrška. Nadalje zahvaljujem recenzentima, sponzorima koji su finanCijski potpomogli izdavanje knjige i izdavaču, čija je ekipa pedantno obavila opsežni i mukotrpni posao pripreme za tisak i samo tiskanje knjige. Ukoliko se se u njoj ipak potkrale greške, one, naravno, treba pripisati meni.
Zdenka Gogala
v
SADRZAJ 1. UVODNI DIO 1.1. Pojam statistika . . . . . . . . .. . . .. 1.2. Podaci . . .. . . . . ..... . ... . . .. 1.3. Statistički skup i osnovni skup ili populacija. .. . . .. . . . .. 1 .4. Prikupljanje podataka i izvori podataka . .. .. . . .. . . . 1 .4.1. iVljerne skale. . . . .. . ... . . . . . . .. 1.4.2. Faze statističkog istraživanja . . . . . . .. .. . 1 .4.3. Matrica podataka . .. .. . . .. .. . ... 1.4.4. Podjela na deskriptivnu i inferencijalnu statistiku . .
............. . . . ..... ............... . . . . . ......................... ..... ...................... . . . . ..................
..
......
...... .
........ ...... ........
..
.
... . .
. ...
. . . ... . . ...... . . ...
............ .. .. ..
. . . ..
.......
.
....... ...
................... . . .
.......... . .
....
. .... .. ...
.. . .. . .. . ..... .. ... . .
..
.
. .. .... ...
...
.. .
. ...
. .....
..
.
...
.. ..
..
.....
..... . ...
..................
...... . .............. ...
.. . .......
. .....
.
....
... .... .
.... ... . . .. . . .. ... .. .
. . . ...
....
...
2.
.
. . ... .... . .... . ...... . . . . .. . .
. .....
.. .... . .. .. ...... . .. . . ... . . ...
.
.
. ..
...
.... .... . ...
. .......
..
. . ..... . . ..
.. ....... . . ..
. . .... ... ... ... . .
OSNOVNI POJMOVI I TEHNIKE DESKRIJYfIVNE STATISTIKE ... .
..
.....
... . .. .
....
.
.
.
. ....... ... .
l
I
1 2 2 2 4 4 5
.7 2. 1 . Uređivanje podataka i formiranje statističkih nizova . . . . .7 2 .2 . Tabelamo i grafičko prikazivanje statističkih podataka, te njihova analiza pomoću relativnih brojeva . . . . ... .. . . 18 2.2.1. Grafičko prikazivanje numeričkih nizova . . . .. . 29 2.2.2 . Relativni brojevi koordinacije i indeksi kvalitativnih nizova . 37 2.3. Srednje vrijednosti . . . ... . . . .. . . 40 2.3. 1 . Aritmetička sredina . ... . . ... ... . . . .. .... 40 2.3.2. Harmonijska sredina . . . . .. . . . . . 53 2.3.3. Geometrijska sredina .. . .. . . .. . . . . . . 56 2 .3.4. Mod . . . . . . .... . . . .. . . 5 6 2.3.5. Medijan .. . . . . .. . . . . 60 2.3.6. Kvantili . . . ... . . . .. . . 66 2.4. :V1jerenje disperzije . . . . .. .. ... . 70 2.4. 1 . Raspon varijaCije . . . . . .. . .. 70 2.4.2. Interkvartil i koeficijent kvartilne deVijacije . ... ... . 71 2 .4.3. Srednje apsolutno odstupanje . .. . . .. .. . .. 74 2.4.4. Varijanea, standardna devijacija i koeficijent varijacije . . . . 75 2 . 5. Ostali pokazatelji numeričkih nizova . .. ... . .. .. 76 2 . 5 . 1 . Monlenti . . . .. . . . ... . . .. . .. 76 2.5.2. Standardizirano obilježje . . . . . . ... . . . . ... . . 8 1 2.5.3. 1\1jere asimetrije . ... . . . . . . . . .. . . .. 82 2 . 5 .4. Mjera zaobljenosti . . . .... . . ... . 87 2.5.5. Mjere koncentracije . . ... . . . . . . .. . .. . . 89 ..
..... . .....
............. .. .. ..
.. ...............
... .
.. ....
... . .......
. .... ..
.
.
...... ... .....
. .. .. ... .. ..
..
....
.... . ..... ..
. ......
.
.
...
.... .... . .. ..... .
.. ........ .
.... .. . ....
........ .. . .
.... .......... ..... .
.. . ... .
...
..
.. . . .... .... . ... ... .. . ... . . . ... . . .. . . . .. . ... ....
... . ... . .. .... .... . .......
. . . . .. . . ..... ...... . ...
.. . ... ..... ... . . . .
....
.
....
..... . . . . . .. ..
... . . . ....... ......... ..
. ....
... ..
. ......
.
.
... .. .
... .... .. ..
.
.. . ....... . ... ..
. ...
.. . .. .. ..
... ...... ..... . .
.
.. . .... ..... . ..... ......
. . ........ . . . ......
. ...........
.. . ..
.
. . . ..
.
.. ......
. . . . .... .. ..
. .. ........ ... ..
. ... ... . . .... .
... ... ..........
..... ..
..
.......
..... . . ........ . .
...
. .. .
...... .... . .....
.... ...... . ..... .......
...
... .
.. ..
...
. ... ... .... . ..
.... ... .... ..... . . ....
...
.. ..
. .. .
.
..
...
.
..
... ... .
... . ......
. ..
. ...
.. . .
.
....
. ..... . ... . . . . ... .
..... .
.... .
.......... .......... ....
. . . . . . ...... . ...............
... ... .... . .. ... ..
.... . ..... . ...
. ... .
. . ....... ..
.... .. . .
. .. ......
..
..
...
...... ....
. ..
.. . . . ..
... . .. ... . ... ..... . ...
....... . . ....
.. ... .. ......
.. ...... . .
.....
.. .
...... . ...... ....
...
.
. .. .
.
.. .. . .
..
. ... . .
..
.
. ..
.. ..
..
..
.
.. . . .. . .. .
. .. ...
.
. .. ........
. . . . ....
.... ... .. ...
.
.
..... . .... . .... .. ... .. . ..
.. .. ..... . . .
...
.... ....... . . . . . . . ....
....... .
.. . .. ... . . . ....
.
.. . ... .
..
. .. . ...... ...
. ... . ..
.
. ... ...
...
.
.
.. ..
..
.. . .. ..
... .. ....
. . . . ..
.
.
. ... .
....... . ... ...... . . .. .. ..... . ... . .
.. . .... ... . .
..
... ........ . .
. .... .
VIII
Sadržaj
3. METODA UZORKA ... . . . . . .. ... . . ... . . . . . .. . . .... . . . . .... .. . . . 99 3. 1 . Osnovne zadaće metode uzorka . ... ..... ..... .. . ... . .. . . . . . .. .... ... . .. 99 3.2. Distribucija procjenitelja . . . . . .. . .. . .. ..... . .... . . . . . . ........ ... . . 1 0 1 3 . 3 . Procjena aritmetičke sredine . . . . . .... . .... . " ........................................ 1 02 3.4. Procjena totala populacije . .. .. . . . . .. . .. . ... . .. .. ..... . 1 09 3.5. Procjena proporcije populacije .. . . . .. ... . . .. . . . . 1 10 3.6. Određivanje veličine uzorka u svrhu provedbe postupaka procjenjivanja .. ... 113 3.7. Ispitivanje pretpostavki o nepoznatim karakteristikama populacije . . 1 16 3.7. 1 . Testiranje hipoteze da je aritmetička sredina populacije jednaka nekoj vrijednosti ... .. .. . .... ..... . . .. .. . . . . . .... . . ... .. 1 1 6 3.7.2. Jednosmjerna testiranja ptetpostavki o nepoznatoj aritmetičkoj sredini populacije ... .. . . . . . .. .. . . .. . . . . 123 3.7.3. Ispitivanje pretpostavki o nepoznatoj proporciji populacije . . . . 1 27 .. .
.
. ..
.
.
. ...
...
.
.
.
.
.
.
.
..
.
.
....
...
.
.
.
.
. .
..
......
.
.
..
. .
. ..
.....
....
..
. .
.
.
.
..
.
...
. . ....
.
.
..
.
..
..
.
.
..
......
.
.
..
..
....
....
. ..
..
...
.
. .
..
.
..
. .. . ..
.......
.
.
..
.
.
.
..
... . . .
.
..
..
..
.
.
...
. ..
...
.
..
.
.
.....
............
.. . .
..
...
..
. . ..
..
..
.
..
...
.
......
. .... . .
. ..... .
...
..
..
..
.
...
....
.... . .
.
...
..
.
...
...
.
.
.
. ....
..
.
.
.. . .
.
..
.
.
.
...
..
.
. ....
.. . .......
..
.
.....
.
. ..
.....
.
.
.
..
. ..
..
.. .
.
..
4. REGRESIJSKA I KOREI.ACIjSKA ANALlZA ...... .. . . . . ... " . ............................... 1 3 1 4. 1 . Svrha regresijske analize . . . . . . .. .. ... . . . . .. . . ... 1 3 1 4.2. Dijagram rasipanja ... . . ... . ..... .. . . . ... . . . . ... . . . . . .. . .... .. 1 32 4.3. Jednostavna linearna regresija......... . . . . ...... . . .. . . ........ : ......................................... 1 34 4.4. Ocjena reprezentativnosti regresije ..... .. .... . . .. .. ... .. ..... . .. .. ... 1 40 4.5. Koeficijent linearne korelacije . . . . .. .. . . .. . . . . . .. .... ...... . ... . . . 1 45 4.6. I nferencijalno-statistički pristup regresijskoj analizi; tabela ANOVA . . . .. 1 48 4.7. Korelacija ranga . . . . .. . . .. . . . .. . . . . . . . . .. . 1 54 .
. . ....
.
..
.
. ...
....
.
. . .. .
..
..
.
... . .
.
...
..
.
.
.
..
......
.. . ..
.
.
.
.
.
.
.
.
.
..
....
...
..
. . . ... .. . ..
..
. ..
.
.
....
...
...
.
.
.. ..
.....
.
. ..
..
.
.
.
.
. . ..
... .
.
.
.
...
.
. . .... . .
..
....
..
..
..
..
..
.....
...
...... . ..
......
.... . .
..
..
.
..
...
..........
....
.
..
.
..
..
....
...
. .
..
..
..
..
..
..
...
.
.....
. ..
.
..
....
. . ..
5. VREMENSKI NIZOVI ...... .... . . . . . . . . . .. .. . .. . . . . ..... .. . 1 57 5. 1 . Vremenski niz - definicija i vrste . .. .. .. ..... . . . . . .. .. . .. . . .. .. . 1 57 5.2. Grafičko prikazivanje vremenskih nizova .. . . . . .. .. . . .. . . ... . . .... .. 1 58 5.3. Osnovni statistički pokazatelji vremenskih nizova . . . . .. ... . .. . ... .. .... . . . 1 68 5.3. 1 . Pokazatelji pojedinačnih apsolutnih promjena . . . . . .. . 1 68 5.3.2. Individualni indeksi . . . . . . . . . .. . . . 1 68 5.3.4. Skupni indeksi . . . . . . . .. . . . . . .. . 1 74 5.3.5. Srednje vrijednosti vremenskih nizova . .. . . . . . . 1 82 5.3.5.1 . Aritmetička sredina . .. . . . .. . . . . . . .... . 1 82 5.3.5.2. Kronološka sredina .. .. ... . . .... . . ... ..... . .. . .. . . 1 83 5.3.5.3. Geometrijska sredina . . .. . . .... . . . . . .... .. . . ... . .. 1 85 5.3.5.4. Trend . .. . .. . . . . . .. . .. .. . . . .. . .. . . .. 1 89 5.3.6. Neke jednostavne tehnike prognoziranja ... . . . . . . ... ... . 202 .
.
.
.
.
....... .. ..
.
..
. ..
.
.
.
..
. ...
.
.
.
.
..
...
.
..
.
.
.....
......
........
.
.
. ..
.
.. . ......
... . ...
.
...
...
. ..
.
.
.
..
..
..
. .. . ...... . ...............
. ....
..
. .. .. . . . . .... . ..
. ...
.
...
..
.
.......
.
.
...
..
..
. ...
.
.
... .
..
.
..
..
.
.
....
.. . .. . .
.
.
..
..
...
..
..
.
..
...
. .. .
..
.....
..
.
.
.
.
.
.
...
.
.
. ..
..
.
....
...
...
. ..
.
.
.
.
.
.. .
.
.
.
.
.
..
.
....... . .....
..
.
....
.......
.... .. . . ..... . .
..
.
..
. .... . .
... .
.... . .. . .
..
...
...
.
. ...
.
..... . ..
..
.
.
..
.
. ....
. ..
...
.
..
.
.
. ...
.
..
. .. . . . .
.
.
.. .
....
..
..
. ...
. . ......
. . ..
..
..... ......
.
. .. .........
.
.. . .
...
..
...
.
..
. . ..
........
...
... .
.
.
.
..
.. .
...
..
.
...
.
.
.
..
.....
.
.
. ..
Dodatak
........... . ...... . . . . . . . . ..................... ...................... ................... . . . ................. ..................
Literatura
..
. . ..
.. . . .
205
. . . . . .. . . . . .. . . . . .. . ....... ... ... . . . ... . . . . .. .. . . . .. . 2 1 O .. .
.
.
..
..
..
..
.
.
.
.
.
. ...
...
.
..
.
.. . .
.. . .
.. . .
.
....
.
..
.
..
.
.
.
.
..
.
UVODNI DIO 1.1. Poja m statisti ka Statistika je znanost o prikupljanju (najčešće brojčanih) podataka različite vrste, kojih je u pravilu mnogo, te o njihovu u ređenju, metodama analize i tumačenju. II svakodnevnom govoru riječ statistika rabi se i za već prikupljene i uređene podatke koji su objavljeni u obliku tabela, grafikona i slično.
1.2. Podaci Podaci (obilježja) su prikupljene informacije o jedinicama promatranja. Na primjer, prilikom popisa stanovništva jedinica promatranja je kućanstvo, a podaci jesu: broj članova kućanstava, njihova starost, bračno stanje, stručna sprema, zaposlenost, mjesečni prihodi, uvjeti stanovanja itd. Kod prikupljanja informacija o gospodarstvu jedinica promatranja je npr. poduzeće, a podaci ili obilježja su broj zaposlenih, njihove plaće, prihod poduzeća, veličina proizvodnje i sl.
2
POGLAVUE l
1.3. Statistički skup i osnovni skup ili populacija . Statistički skup čine jedinice promatranja. Skup prikupljenih podataka naziva se osnovni skup ili populacija. Opsezi tih dvaju skupova mogu se, ali ne moraju, poklapati. Primjeriee, ako je
jedinica promatranja poduzeće, tada statistički skup čine sva poduzeća. Zanima li nas izvoz nekog artiHa po pojedinim područjima, tada je broj podataka o izvozu, koji u tom slučaju čine osnovni skup ili populacij u, različit od broja poduzeća koja taj artikl proizvode jer pojedina poduzeća izvoze isti artikl u više zemalja. Ako nas zanima broj zaposlenih u pojedinim poduzećima, taela sc statistički skup i osnovni skup poklapaju. Statistički sc skup prij e početka prikupljanja podataka mora precizno definirati, i to pojmovno, prostorno i vremenski. To znači, treba utvrditi svojstva koja treba imati neka jedinica da bismo ju uključili u statistički skup, vezano za određeni prostor i vrijeme. Na primjer, ako kažemo skup studenata Veleučilišta Zagrebu školske godine 2000./200L, to podrazumijeva sve studente upisane na Veleučilište koji u toj godini imaju sva studentska prava. Izraz "student Veleučilišta" čini pojmovni dio definicije, oznaka školske godine je vremenski dio definicije, a naznaka da sc radi o Veleučilištu u Zagrebu njezin prostorni dio. Statistički skup je konačan ako se sastoji od konačnog broja jedinica. U protivnom je beskonačan. Statističkih podataka treba biti dovolj no. ZakljuČCi koje na osnovi njih donosimo utemeljeniji su ako je njihov broj veći. Prikuplj eni podaci variraju. Na primjer, broj zaposlenih u poduzećima nije isti, kao ni plaće zaposlenih, ni stručna sprema članova kućanstava. Stoga za prikupljene podatke (obilježja) često rabimo izraz varijabla. II
1.4. Prikupljanje podataka i izvori podataka
Svojstva elemenata statističkih skupova sc mjere. Način mjerenja ovisi o vrsti podataka koje namjeravamo prikupiti. Primjerice, ako nas zanimaju visina i težina studenata, uz njihovo ćemo imc pribilježiti njihovu visinu u centimetrima i težinu u kilogramima. Zanima li nas pak njihov uspjeh u srednjoj školi ili strani jezik koji su učili, uz njihovo ćemo imc pribilježiti prosječnu ocjenu, odnosno naziv stranoga jezika.
1.4.1. Mjerne skale Mjerenje svojstava elemenata statističkih skupova provodi se prema određenim pravilima koja su dana mjernim skalama, i to: nominalnom, ordinalnom, intervalnom i omjernom skalom.
UVO D N I DIO
3
Nominalna skala sc sastoji od liste naziva, kategorija, svojstava po kojima se jedinice statističkoga skupa razlikuju. U spomenutom slučaju prikupljanja podataka o stranom jeziku koji su studenti učili u srednjoj školi, nominalnu skalu čine nazivi stranih jezika poredani nekim proizvoljnim, najčešće abecednim redom. U svrhu identifikacije često se nazivima pridružuju brojevi, a to je ujedno i prikladnije za obradu pomoću računala. Podaci dobiveni primjenom nominalne skale čine nominalnu varijablu ili nominalno obilježje. Nominalno se obilježje katkad pojavljuje u samo dva oblika ili modaliteta, kao npr. spol, u kom slučaju govorimo o alternativnom obilježju. Ako je broj naziva, tj. modaliteta nominalne varijable velik, rabimo nomenklature. To su zakonski, dogovorom državnih organa ili međunarodnih organizacija utvrđeni uređeni popisi modaliteta nominalnog obilježja (nominalne varijable) kojima su pridruženi nomenklaturni brojevi. Tako se npr. služimo nomenklaturom zanimanja, vrsta privrednih djelatnosti, bolesti, uzroka smrti i sl. Posebnu podvrstu nominalnog obilježja čini geografsko obilježje, koje pokazuje povezanost jedinica statističkog skupa s nekim prostorom (npr. mjesto rođenja, mjesto stalnog boravka itd.). Podaci o geografskom obilježju prikupljaju se također pomoću nominalne skale. Ordinalnu skalu čine oblici ili modaliteti istog obilježja koji se međusobno razlikuju po intenzitetu. Takvo se obilježje naziva obilježje ranga, ordinalno ili redoslijedno obilježje. Primjeri ordinalnog obilježja su ocjena, visina zgrade (mjerena brojem katova), postignuti stupanj stručne spreme i sl. Modaliteti obilježja ranga redaju se od manjeg intenziteta prema većem ili obratno. Uobičajeno se modalitetima obilježja ranga pridružuju brojevi, ali nad njima nisu dopuštene brojčane operacije. Npr. dva puta ocjena dovoljan (2) nije ekvivalent ocjeni vrlo dobar (4). Intervainu skalu čine brojevi kojima se mjeri neko svojstvo na taj način da jednake razlike brojeva na toj skali predstavljaju jednake razlike mjerenog svojstva. Položaj nule i mjerna jedinica određeni su dogovorno, kao npr. kod temperaturne skale (ledište vode označeno je nulom). Omjerna se skala sastoji od brojeva čije je.dnake razlike također predstavljaju jednake razlike mjerenog svojstva, ali za razliku od prethodne skale, nula znači nepostojanje mjerenog svojstva, nije utvrđena dogovorom. Starost, težina, cijena, dobit, primjeri su obilježja koja su izražena brojevima do kojih se dolazi primjenom omjerne skale. Ti sc brojevi nazivaju vrijednostima numeričke varijable ili vrijednostima numeričkog obiljcžja. Nad brojevima dobivenim mjerenjem pomoću intervalne skale, kao i onima dobivenim primjenom omjerne skale, dopuštene su osnovne računske operacije. Numerička varijabla (obilježje) može biti diskretna ili diskontinuirana i kontinuirana. Diskretna numerička varijabla može poprimiti prebrojivo mnogo vrijednosti. Obično je broj vrijednosti takve varijable konačan i ona je najčešće cjelobrojna, kao npr. broj djece u obiteljima, broj prodavača u prodavaonicama, broj otkazanih rezervacija itd. Kontinuirana numerička varijabla, za razliku od diskontinuirane, može poprimiti svaku vrijednost između dva broja, dakle u nekom intervalu i mogući broj njezinih vrijednosti je beskonačan (zato jer
4
POGLAVUE 1
se svaki i najmanji interval može prepoloviti i tako unedogled.). Kontinuirane numeričke varijable su, na primjer, visina, težina, duljina. Između visine od 170 i 180 cm teoretski je moguće
bczbroj međuvrijednosti, mada je njihov broj u praksi ograničen stupnjem
preciznosti mjernog instrumenta.
1.4.2. Faze statističkog istraživanja Kao što je već rečeno, statistički su podaci promotrena svojstva (obiljcžja) jedinica statističkog skupa.
Do njih se dolazi statističkim promatranjem, najvažnijom fazom
statističkog istraživanja. Podatke je potrebno, prikupiti prema unaprijed utvrđenom planu istraživanja. Samo stručno prikupljeni podaci osiguravaju kvalitetnu informaciju o pojavi koja se istražuje. Stoga prikupljanju podataka prethodi: a) definiranje ciljeva istraživanja, b) definiranje statističkog skupa, tj. jedinica promatranja, c) izbor obilježja i definiranje njihovih oblika (modaliteta), d) sastavljanje upitnika ili obrazaca evidencije, e) određivanje načina prikupljanja podataka (anketiranjem, putem pošte, telefona i sL),
f) planiranje načina obrade podataka pomoću računala.
Prikupljanje podataka promatranjem, tj. podataka iz primarnih izvora, često je povezano s velikim izdacima. Zato se, kad god je to moguće, nastoje iskoristiti već prikupljeni podaci, tj. podaci koje su prikupile i publicirale statističke i drugc ustanove. U tom slučaju govorimo o podacima iz sekundarnih izvora. Prednost korištenja već prikupljenih podataka je, osim znatno nižih troškova i njihova relativno brza dostupnost. Promatranje je iscrpno (cenzus), ako se prikupljaju podaci o obiljeŽjima svih jedinica
promatranja. U protivnom, tj. obuhvati li se promatranjem samo dio jedinica, ono je reprezentativno. S obzirom na vrijemc provedbe, statistička promatranja mogu biti jednokratna, periodična i tekuća. Jednokratna se sastoje u prikupljanju podataka o obiljeŽjima jediniea u kritički vremenski trenutak (primjer: popis stanovništva). Ponavljaju li se promatranja jedinica nakon određenoga vremenskog razmaka, govorimo o periodičkom promatranju (primjer:
registracija vozila, godišnja prijava poreza). Tekućim se promatranjem (evidencijom) prikupljaju podaci u određenom vremenskom intervalu. Na primjer, podaci o novorođenima evidentiraju sc po satima, danima, mjesecima itd. Slično sc prikupljaju podaci o proizvodnji, prodaji i mnoštvu drugih pojava.
1.4.3. Matrica podataka Prikupljeni podaci uobičajeno se prezentiraju u obliku matrice podataka. Označimo matricu sa D (od engleskog: data), a njeZine clemente od kojih svaki predstavlja pojedinačni podatak
UVODNI DIO
5
ili obilježje, sa dij Uz pretpostavku da s u prikupljeni podaci o K obilježja za N elemenata statističkog skupa, njezin je izgled sljedeći:
Pojedini redak te matrice naziva se entitet. Proizvoljni, i-ti redak sadrži sve podatke, tj. sva obilježja koja se odnose na i-tu jedinicu promatranja. Proizvoljni, j-ti stupac sadrži podatke o istom obilježju (obilježjuj) za svih N elemenata statističkog skupa. Stupac matrice podataka ili nekoliko njih naziva se poljem (engl.: field). Prilikom planiranja statističkog promatranja potrebno je voditi računa o karakteristikama raspoloživog računala, posebno o njegovoj memoriji. Važno je poznavati i postupak unosa te način skladištenja i kasnijeg korištenja podataka. Kako je, zbog velikih troškova i velikog utroška vremena, poželjno koristiti se podacima iz sekundarnih izvora, sve je češće korištenje podataka iz baza podataka I drugih u stanova. U tom slučaju treba unaprijed razmotriti i mogućnosti njihove konverzije u oblik u kome ih prihvaća računalo na kome će se obrađivati.
1.4.4. Podjela na deskriptivnu i inferencijalnu statistiku Statistika koja se bavi organiziranim prikupljanjem podataka, metodama njihove prezentacije i njihovom analizom u cilju pružanja jasne, koncizne i točne informacije o istraživanoj pojavi naziva se deskriptivnom statistilwm. Predmet inferencijalne statistike su statističke metode i tehnike koje omogućuju da se na osnovi dijela informacija koje čine podskup skupa podataka, zaključuje o karakteristikama cijeloga skupa podataka (populacije).
l) Bazapodataka je skup medusobno povezanih podataka namijenjenih zadovoljenju potreba različitih tipova krajnjih korisnika. Baza podataka je također i skup programa koji omogućuju da se prikupljeni podaci na jedinstveni način efikasno i jednostavno održavaju i rabe.
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE 2.1. Uređivanje podataka i formiranje statisti čkih nizova Deskriptivna statistika obuhvaća postupke uređivanja, prezentacije i analize prikupljenih podataka. Prikupljene podatke treba prije svih daljnjih postupaka urediti. Izdvoje li se iz skupa podataka podaci o jednom obilježju i urede li se i nanižu prema nekom pravilu, nastat će statistički niz. j"\aziv niza istovjetan je s vrstom obilježja pa govorimo o nominalnim, ordinalnim) numeričkim itd. nizovima. I
l) Posebnu Vistu nizova čine vremenski nizovi, koji se zbog svojih specifičnosti razmatraju u zasebnom poglavlju ove knjige,
8
POGLAVU E 2
Najčešće je broj podataka s kojima raspolažemo vrlo velik, tako da se redovito radi o prevelikom broju informacija o pojavi koju želimo istražiti, prevelikom a da bi ih ljudski mozak mogao bez prethodne prerade usvojiti. Puko nas nizanje podataka stoga ne zadovoljava. Zadaća je deskriptivnih metoda, medu ostalim, da sumarno zahvate prikupljene informacije i na taj način reduciraju njihov broj . Pritom u reduciranim informacijama moraju ostati sačuvane glavne značajke pojave koja se istražuje, tj. slika pojave ne smije biti iskrivljena. U tu se svrhu najprije provodi postupak grupiranja ili klasifikacije podataka. Grupiranje je raščlanjivanje skupa od N podataka u k grupa (podskupova) prema prethodno utvrdenim modalitetima danog obilježja. Pri provedbi grupiranja poštuju se principi iscrpnosti i medusobne isključivosti. Drugim riječima, to znači da svaki podatak mora b iti obuhvaćen grupiranjem, kao i da svaki podatak mora biti svrstan u samo jednu grupu.2 Grupiranje može biti ekstremno jednostavno, kao što je npr. slučaj kod alternativnog obiljeŽja "spol" kad se u jednu grupu svrstaju svi muškarci, a u drugu sve žene iz danog skupa podataka, ali može biti i vrlo komplicirano . Treba uvijek imati na umu da se grupiranjem gube pojedinačne informacije o obilježjima jedinica pa valja voditi računa da se grupiranjem ne izgube bitne značajke skupa podataka. Broj podataka u grupi naziva se apsolutna frekvencija. Formirani nizovi nose naziv prema vrsti nanizanih podataka, odnosno prema vrsti nanizanih grupa podataka, npr. nominalni, ordinalni, numerički niz. Ako su podaci samo nanizani nekim redom, govorimo o negrupiranom statističkom nizu, o nizu pojedinačnih podataka. Ako su podaci prethodno grupirani, govorimo o grupiranom n izu podataka. Svaki grupirani niz možemo shematski predočiti kao skup parova danog obilježja i pripadnih frekvencija. Obilj ežj e koje čini prvi dio para može biti iskazano pojedinačno, ako je broj oblika iJi modaliteta obilježja malen, kao npr. kod alternativnog obilježja "spoJ", "podrijetlo turista" (domaći i strani) ili kod ordinalnog obilježja (obilježja ranga) "ocjena" ( I do 5). Ako je broj modaliteta obilježja veći, tada se preglednosti radi može provesti stezanje više modaliteta istog obilježj a u jednu grupu - obično na kraju statističke tabele. Na primjer, želimo li osobe grupirati prema znanju stranih jezika, možemo formirati posebne grupe za engleski, njemački, francuski, talijanski i ruski te grupu "ostalo" za sve druge jezike. Radi li se o velikom broju modaliteta numeričke varijable, tada se za više modaliteta istog obilježja stegnu tih zajedno, umjesto naziva grupa rabi naziv razred ili klasa. Uz pretpostavku da je formirano k grupa obilježja, i grupirani statistički niz čini skup parova:
=
l ,2, .. . ,k
(Čitaj:
i
ide od jedan do k),
{obilježje i-te grupe ili razreda, pripadna, tj. i-ta frekvencija.}.
2) JIllikom algebre skujlOVlI s e poštivanje principa iscrpnosti i međusobne isključivosti formulira kao raščlanjivanje (particija) skupa od N podataka u k disjuoktnih podskupova • dakle takvih !\oji se ne preklapaju, lj. čiji je presjek prazan.
9
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
Simbolički, to oznacuJemo ovisno o danom obilježju. Ako se radi o nominalnom ili atributivnom obilježju, čiji i-ti modalitet, tj. modalitet i-te grupe označujemo sa
aj,
te uz
oznaku /; za pripadnu frekvenciju, grupirani nominalni niz čini skup parova
(2.1) Analogno, uz oznaku
Tj
za i-ti oblik ili modalitet redoslijednog obilježja, redoslijedni ili
ordinalni niz čini skup parova:
(2.2) za razliku od nominalnog niza, kod kojega je poredak grupa proizvoljan, kod ordinalnog niza su obilježja poredana bilo prirodnim redom, počevši od najmanjega do najvećeg intenziteta svojstva koje se tim obilježjem iskazuje, bilo obrnutim. Tabele koje slijede sadrže po jedan grupirani statistički niz. Tabela a tabela 2.2. redoslijedni statistički niz.
2.1. sadrži nominalni niz,
.. Tabela 2. l. Poduzeća prema obliku vlasništva u RH 1992. Oblik vlasništva l
društveno
Broj poduzeća 2
2501
zadružno
3
mješovito
231
Ukupno
2735
Izvor: Slat ljetopis 1992, str. 48
.. Tabela 2.2. Osobe prema stupnju naobrazbe stečenom 1990. u RH Stupanj naobrazbe l
Broj osoba 2
osnovna
62310
srednja
42408
viša
3284
visoka
6422
Ukupno Izvor: Mjesečno slat. izvješće 8, 1992., str. 42
114424
10
POGLAVLJE 2
Tabela 2.1. sadrži podatke koji su svrstani u tri grupe, prema tri modaliteta nominalnog obilježja (varijable). Poredak grupa, tj. oblika vlasništva je proizvoljan, tj. mogli smo ih i drugačije poredati. Podaci u tabeli 2.2. svrstani su u četiri grupe, prema četiri modaliteta ordinalnog obilježja poredanih od manjeg postignutog stupnja naobrazbe prema većem, a mogli smo ih poredati i obrnutim redom. Brojevi u stupcu 2 obiju tabela su apsolutne frekvencije. Numeričko obilježje se uobičajeno označuje sa X, te njegova i-ta vrijednost sa Xi' Ako numeričko obilježje poprima manji broj vrijednosti, što je moguće samo ako je ono diskretno (diskontinuirano), tada grupirani numerički niz čini skup parova:
{ Xi' j; } .
(2.3)
Grupirani numerički niz naziva se distribucija frehvencija. Tabela 2.3. sadrži primjer distribucije frekvencija diskretne numeričke varijable "broj djece" . ..... Tabela 2.3. Anketirane obitelji prema broju djece Broj obitelj i
Broj djece l
2
O
7
l
9
2
13
3
7
4
4
Ukupno
40
Podaci su simulirani.
Numerička varijabla "broj djece" u ovom primjeru ima svega pet modaliteta (vrijednosti), tj. broj se djece u 40 anketiranih obitelji kreće od nule do četiri. Zbog maloga broja modaliteta, moguće je bilo formirati grupe O 4 i nakon prebrojavanja podataka uz svaku oznaku broja djece u stupcu br. l, pridružiti u stupcu br.2 odgovarajući broj obitelji. Brojevi u stupcu br. 2 su apsolutne frekvencije. Sve jedinice u grupi imaju istu vrijednost obilježja, tj. istu Vrijednost numeričke varijable. Znači, svih sedam obitelji je bez djece. svih devet obitelji ima po jedno dijete, svih trinaest obitelji ima po dva djeteta itd. -
Ako je numeričko obilježje (numerička varijabla) kontinuirano. tada se podaci grupiraju na osnovi razreda (klasa), i to tako da se formiraju razredi, tj. intervali susjednih vrijednosti obilježja i njima pridruže jedinice (podaci) čije su vrijednosti unutar raspona granica danoga razreda. Razredi, tj. intervali obilježja, omeđeni su s dva broja koji se nazivaju granice
II
OSNOVNI POJMOVI I TEHNIKE DESKRIPTIVNE STATISTIKE
razreda. Donju granicu i-tog razreda označit ćemo sa Lu, II gornju granicu sa L2.> U i-ti se razred svrstavaju podaci s vrijednosti obilježja izmedu granica toga razreda, to jest: •
Iz prethodnog se izraza vidi da se radi o intervalima tipa [ ), tj. o poluotvorenim intervalima. Na primjer, zanima li nas visina studenata (u cm) i definiramo li granice razreda: J 60 l65 l6S - l70 l70 J 75 itd., -
svrstati sve studente čija je visina 160 cm ili veća, ali je manja od J 65 cm. U pm cemo Oni sa J 6 5 cm visine svrstavaju se u drugi razred itd. Brojčano se gornje granice na taj način formiranih razreda podudaraju s donjim granicama razreda koji slijede. Takve se granice nazivaju prave. Dakle, ako je provedeno grupiranje na temelju razreda na opisani način, tada grupirani numerički niz, tj. distribuciju frekvencija kontinuirane numeričke varijable, čini skup parova: Xi
0 kompenZiraju razlikama (Xj - X )3 3
dl Pravokutna (uniformna) distribucija, (l4=1 ,8
c) Distribucija plosnatija od normalne (l4
0,05, pa je potrebno računanje konačne veličine
,
1 _ _1 6_6.:-,4_ _ = 1-8 :' 23 "" 158 tek "h mcuna. 1+0,05 168 UCI
v
Postupak određivanja veličine uzorka za procjenu proporcije populacije istovjetan je određivanju veličine uzorka za procjenu aritmetičke sredine populacije. Izrazi za računanje prethodne veličine uzorka razlikuju se od prethodno opisanih izraza (3.25.) i (3.26.) samo po torne što su standardna devijacija i koeficijent varijacije populacije dani u terminima proporcija, tj.
o"
.J"P-:;j i
V=
t . Daklc,
(3.28.)
1 15
METODE UZORKA
(3.29.) Ako p. a time i q nisu poznati, u postupku određivanja veličine uzorka u svrhu procjene proporcije populacije pretpostavljamo najveći mogući varijabilitet promatranog obilježja u populaciji. U tom su slučaju p i q jednaki i iznose svaki po 0 5,, pa je standardna devijacija 0 5, ,a njezin koeficijent varijacije 100%. populacije
Primjer 3.6 .3. U svrhu kontrole ujednačenosti kvalitete masovne proizvodnje artikla A želi se procijeniti proporcija defektnih proizvoda. Koliko proizvoda treba na slučajan način izabrati u uzorak radi procjene uz 95%-tnu pouzdanost i uz maksimalnu grešku koja se tolerira u procjeni od 0,005? Proporcija defektnih proizvoda cjelokupne tvorničke proizvodnje ocjenjuje se na 0 02. ,
p 0 02 , q l 0,02 0,9 8 z2pq 1,96 20. 02, 0. 9, 8 1 88proizvoda. no = 7 = =
Kako je frakcija manja od 0,05, jer se radi o beskonačnom osnovnom skupu, to je
1 88.
l1u
=
n
=
Primjer 3.6.4. Uoči izbora za članove lokalne samouprave na području na kom je u biračke popise upisano 75500 osoba, želi se procijeniti proporcija glasača stranke "Z" . Koliko osoba treba na slučajan način izabrati u uzorak ako se želi načiniti intervalna procjena uz 95%-tnu pouzdanost i ako se pritom ne želi pogriješ!ti više od 5%? Kako proporcija populacije nije poznata od prije, to ćemo pretpostaviti maksimalni mogući varijabilitet dvaju obilježja osnovnog skupa (glasača stranke "Z" i glasača svih ostalih stranaka zajedno). U tom je slučaju p q 0,5 , pa koeficijent varijacije populacije
fi.loo iznosi 1 00%. Maksimalna pogreška koju smo voljni tolerirati u procjeni izražena je
VP
,
relativno, u postotku, pa stoga u brojniku izraza određivanje veličine uzorka mora biti relativna mjera disperzije populacije, njezin koeficijent varijacije. za
1 16
POGLAVUE 3
20.;lb, tj. •
2
2
1,9 6 1 00 = 1 5 36,64 :::d 5 37 glasača. Kako je frakcija izbora otprilike 5� 1 5 36,64 = O ,O204, sto Je ISpOd SC! to Je' = n = 1 37 . 5 7 5 500
no =--'---=-= --
V
10,
"
110
3.7. Ispitivanje pretpostavki o nepoznatim karakteristikama populacije 3.7 1 Testiranje hipoteze da je aritmetička sredina populacije jednaka nekoj .
.
vrijednosti Kako je već rečeno u uvodnom dijelu ovog poglavlja, pomoću uzorka provodimo dvije vrste postupaka: postupke procjenjivanja karakteristika osnovnog skupa i ispitivanja istinitosti pretpostavki o nepoznatim karakteristikama populacije. O pojedinoj od karakteristika populacije možemo imati vlastitu predodžbu. Ta predodžba može, ali ne mora, odgovarati istini. Ako npr. imamo predodžbu o vrijednosti aritmetičke sredine populacije, to ujedno znači da imamo predodžbu o očekivanoj vrijednosti sampling distribucije aritmetičke sredine, budući da je ona jednaka aritmetičkoj sredini populacije. Da bismo ispitali istinitost naše pretpostavke o nepoznatoj aritmetičkoj sredini populacije, postavljamo par tvrdnji, preciznije, hipoteza (budući da su još neprovjerene), i to: hipotezu Hv ili tzv. nul-hipotezu i hipotezu HJ ili alternativnu hipotezu. Nul-hipoteza glasi da je aritmetička sredina populacije fl jednaka nekoj pretpostavljenoj vrijednosti flu, dok alternativna hipoteza tvrdi suprotno, tj. da su one različite. Simbolički, Ho : fl = flo, ili Hu: fl - flo = O HJ: fl #flu, ili Hl: fl flo, #0. Da bismo ispitali istinitost tvrdnje nul-hipoteze, biramo jz osnovnog skupa uzorak i izračunamo njegovu aritmetičku sredinu x . Ona se po pravilu razlikuje od vrijednosti flo zbog sampling varijacije. Podsjetimo se, iz osnovnog skupa veličine N moguće je na slučajni
način izabrati
(�) uzoraka veličine
n,
čij e aritmetičke sredine variraju. Suština testiranja
sastoji se u prosuđivanju koliko je vjerojatno da aritmetička sredina slučajno izabranog uzorka pripada sampling distribuciji sa sredinom flo, odnosno drugim rijeČima, koliko je vjerojatno da je uzorak izabran iz populacije sa sredinom flo.. Ako je razlika između pretpostavljene i iz uzorka izračunane sredine mala, ako su one blizu, zaključujemo da je
METODE UZORKA
1 17
moguće da je uzorak uzet iz populacije sa sredinom !-lo, odnosno da je nul-hipoteza istinita. Da bismo odredili koju udaljenost od aritmetičke sredine populacije smatramo malom, oko nje formiramo interval od određenog broja ( kraći zapis: z) standardnih grešaka aritmetičke sredine. Ako se aritmetička sredina uzorka nalazi unutar tog intervala, zaključujemo da je nul-hipoteza moguća, tj. da je moguće da je aritmetička sredina populacije, iz koje je uzet uzorak, f.Jo. Taj se interval naziva intervalom prihvaćanja nul-hipoteze, a njegove se granice nazivaju kritičnim granicama (simbol za donju i c2 za gornju kritičnu granicu). On je dan izrazom: Zi'
CJ
(3.30.)
Skica takvog testa dana je na slici 3.3. � Slika 3.3.
1(111 111111111111111..
Podrućje HI P
Grčko slovo
!lo o
d
r u
ć j e
Ho
II( 111111111111111111'
Podrućje HI
u indeksu koeficijenta z označava razinu (nivo) značajnosti. Značajnost ili proporcija podataka sampling distribucije izvan intervala prihvaćanja nul hipoteze, tj. proporcija podataka smještenih lijevo od i desno od , kao što je to prikazano na slici 3.3. Naime, ako se aritmetička sremna uzorka nađe unutar kritičnih granica, razliku između nje i pretpostavljene aritmetičke sredine populacije smatramo slučajnom, u smislu da ju pripisujemo sampling varijaciji. Ako aritmetička sredina uzorka pada u područje izvan kritičnih granica , razliku između nje i pretpostavljene aritmetičke sredine populacije !-lo smatramo prevelikom a da bi bila slučajna. Tako velike razlike između aritmetičke sredine uzorka i pretpostavljene sredine nazivamo značajnima, i njih tumačimo kao znak pripadnosti nekoj drugoj sampling distribuciji sa sredinom f.JJ. Kad bi se npr. (vidi sliku 3.4.) aritmetička sredina uzorka našla na položaju A, smatrali bismo mogućim da je uzorak uzet iz populacije sa sredinom !-lo, pa bismo prema tome mogli uz dani nivo signifikantnosti a smatrati nul hipotezu istinitom. Za uzorak čija bi se aritmetička sredina našla na poziciji B , nul-hipotezu bismo morali odbaciti jer bi razlika između nje i pretpostavljene aritmetičke sredine populacije bila prevelika a da bismo ju mogli proglasiti slučajnom. Do istog bismo zaključka došli kad bi se aritmetička sredina uzorka našla na poziciji C. a
signifikantnost je
CJ
C2
1 18
POG LAVU E 3
� Slika 3.4.
C
Koeficijent značajnosti
C,
f.A.o
zal očitavamo iz tablice 12
A
A
B
za površinu 0,5
signifikantnost od 5%, tj. za a = 0,05, površina u tablici 0,5 - 0,025 = 1,96 (vidi sliku 3.5.).
-
�.
=
2
Tako je npr. za
0,4750 i pripadni z
� Slika 3.5.
Z=1,96
Nul-hipoteza je nesigurna i mi ju uVijek nastojimo odbaciti (anulirati - odatle ime nul hipoteza) u korist alternativne hipoteze H, koja je mnogo sigurnija. U području prihvaćanja nul-hipoteze možemo zamisliti modaine vrhove bezbroj sampling distribucija sa sredinama različitim od pretpostavljene Jia. Ako sredina uzorka pada u to područje a pripada bilo kojoj od njih, mi to nismo u stanju ustanoviti. Velika je vjerojatnost da je uzorak uzet iz osnovnog skupa sa sredinom Jia, ali i iz nekoga drugog osnovnog skupa, čija je aritmetička sredina blizu Jlo. jer su u tom području modaini vrhovi (što znači najveća proporcija jedinica) distribucija sa sredinama različitim od Jia. Ako sredina uzorka pada izvan intervala prihvaćanja nul hipoteze, znatno je veća vjerojatnost da ona ne pripada sampling distribuciji sa sredinom Jia
M ETODE UZORKA
1 19
(a time i da je hipoteza HI istinita) , jer je proporcija jedinica te distribucije lijevo i desno od kritičnih granica mala (slika 3.6.). Stoga tvrdnju za koju smo zainteresirani formuliramo kao HI hipotezu. � Slika 3.6.
I
fT
,
' '
��
!-
flo
Prethodno izlaganje implicira da su pri opredjeljivanju u prilog vjerojatnosti istinitosti tvrdnji koje su formulirane kao dvije suprotstavljene hipoteze, moguće greške. Postoje dVije vrste grešaka kod testiranja: greška tipa l igrešlw tipa ll. Grešku tipa I činimo ako odbacujemo nul-hipotezu, a ona je istinita. Naime, moguće je, budući da je riječ o jednostavnom slučajnom uzorku, da njegova aritmetička sredina padne izvan kritičnih granica, a da on pritom ipak pripada populaciji sa sredinom Jia. Sampling distribucija aritmetičke sredine za veliki uzorak ima oblik normalne distribucije, čiji se krajevi asimptotski približuju osi apscisa, što znači da proporcija jedinica na njezinim rubovima nije nula, a time ni vjerojatnost da uzorak pruži ekstremno veliku ili malu aritmetičku sredinu. Ako se desi takav slučaj, tj. da je aritmetička sredina uzorka koji je uzet iz populacije sa sredinom Jio (što mi ne znamo u vrijeme provedbe testiranja) izvan kritičnih granica, odbacit ćemo nul-hipotezu i time počiniti grešku tipa I. Vjerojatnost da učinimo grešku tipa I jednaka je razini signifikantnosti a, jer je tolika proporcija aritmetičkih sredina sampling distribucije sa sredinom Jio izvan . područja prihvaćanja nul-hipoteze. Grešku tipa II, koja se naziva jJ, činimo ako prihvatimo neistinitu nul-hipotezu kao moguću. Kao što je već spomenuto, nul-hipoteza nije sigurna. U području njezina prihvaćanja može se naći aritmetička sredina uzorka uzetog iz populacije sa sredinom različitom od Jia. U takvom bismo slučaju prihvatili nul-hipotezu kao moguću i time počinili grešku tipa II. Veličina greške tipa II računa se kao dio površine pod sampling distribUcijom s alternativnom sredinom Jil' koji se nalazi u području prihvaćanja nul-hipoteze. Š to je manja vjerojatnost da se počini greška tipa II, veća je snaga testa S, definirana izrazom S = I jJ. (3.3 1 .) Obje vrste mogućih grešaka pri testiranju ovise o širini intervala prihvaćanja nul-hipoteze. Š to je interval uži, veća je vjerojatnost da ćemo počiniti grešku tipa I, a manja da ćemo počiniti grešku tipa II i obratno. Stoga pri odlučivanju o razini signifikantnosti, koja utječe -
1 20
POGLAVLJE 3
na �irinu intervala izmedu kritičnih granica, vodimo računa o mogućim posljedicama obiju vrsta grešaka i opredjeljujemo se za veću vjerojatnost pogreške, čije su posljedice blaže.
z
Do zaključka o mogućoj istinitosti ili odbacivanju nul-hipoteze može se, osim pomoću kritičnih granica, doći i usporedbom empirijskog i tabličnog omjera, kao i pomoću p
vrijednosti.
Empirijski koeficijent značajnosti z· je udaljenost izračunane aritmetičke sredine uzorka od pretpostavljene aritmeti('ke sredine populacije J.lo izražena u standardnim greškama:
z' = l x::ol
Tablični z omjer je koeficijent značajnosti
z%
(3.32.) ' koji je udaljenost kritičnih granica od
pretpostavljene aritmetičke sredine populacije /Jo, tj.
z = Z% = I CI,2�,ut
(3.33.)
Ako je empirijski, tj. izračunani z· manji ili jednak koeficijentu značajnosti izvadenom iz tablice površina normalne distribucije, zaključit ćemo da je nul-hipoteza moguća. U protivnom, tj. ako je z' strogo veći od z , prihvatit ćemo alternativnu hipotezu Hl' To je
%
logično, jer ako je z· ::; z
%
'
znači da je aritmetička sredina uzorka bliže ili jednako udaljena
od pretpostavljene sredine distribucije populacije no što su to kritične granice cJ i C2• Na drugi način iskazano to znači da se aritmetička sredina uzorka nalazi u intervalu prihvaćanja nul-hipoteze.
Empirijska razina značajnosti (signifikt.mtnosti) ili p-vrijednost predstavlja proporciju jedinica sampling distribucije čija je udaljenost od aritmetičke sredine distribucije J.lo veća no što je to udaljenost aritmetičke sredine uzorka. Empirijska razina signifikantnosti računa se tako da se od 0, 5 oduzme površina za z' i dobivena razlika pomnoži s dva. Empirijska razina signifikantnosti ili p-vrijednost prikazana je na slici 3.7. šrafiranom površinom.
� Slika 3.7.
METODE UZORKA
121
LT svrhu donošenja odluke o eventualnoj mogućoj istinitosti nul-hipoteze ili o njezinu
odbacivanju
u
korist
alternativne
hipoteze,
uspoređuje se p-vrijednost
s
razinom
signifikantnosti a . Ako je p-vrijednost veća od ct, (a to će se desiti samo ako je aritmetička
.
sredina uzorka unutar kritičnih granica), zaključujemo da je nul-hipoteza moguća. Ako je manja
ili
jednaka
a,
prihvaćamo
alternativnu
hipotezu
Hl'
P-vrijednost
možemo
interpretirati i kao najmanju razinu signifikantnosti uz koju je moguće odbaciti nul hipotezu. Opisani postupci pri testiranju provode se na velikom slučajnom uzorku malom uzorku, ako se pri testiranju smije rabiti koeficijent
z
(n:::::
30) ,kao i na
iz tablice površina ispod
normalne krivulje. Kod malog uzorka je to slučaj ako se standardna pogreška aritmetičke sredine računa pomoću standardne devijacije populacije koja je poznata, te ako je distribucija promatranog obilježja u osnovnom skupu normalna. Ako se testiranje provodi s malim
(n
Ho hipoteza je moguća.
Izračunat ćemo i p-vrijednost. Površ ina iz tablice A za
z
'
iznosi:
P( z = 1 , 88) = 0,46995, pa je p-vrijednost = (0, 5
0,46995)·2
=
0,060 1 .
Kako j e p-vrijednost veća o d zadane signifikantnosti a, tj. 0,060 1 > 0,05, znači d a nul
hipotezu nije moguće odbaciti jer je očito da se aritmetička sredina uzorka nalazi unutar kritičnih granica. Tek u z signifikantnost veću od 0,060 1 bilo bi u ovakvom slučaju moguće odbaciti nul-hipotezu u korist alternativne.
II sve tri razmotrene varijante donoš enja odluke zaključak je isti, tj. da uz razinu
signifikantnosti 5% prihvaćamo nul-hipotezu kao moguću, tj. moguće je da je prosječni postotak mliječne masti 3,2%.
Izračunat ćemo i veličinu greš ke tipa I I ako je stvarni prosječni postotak mliječne masti u litri mlijeka manji od deklariranog i iznosi 3, l . Na slici 3 . 8. skicirana j e vjerojatnost da se učini
greš ka tipa II kao d io površ ine pod sampling d istribucijom sa sredinom /JJ = 3 , l koji se nalazi u intervalu između 2, 8864 i 3. 5 1 36 .
.. Slika 3.8.
Vidimo d a s e tražena površ i n a sastoji od dviju površ ina, koje zbrojene čine
{J.
D a bismo
očitali tražene površ ine iz tablice A, moramo prethodno izračunati udaljenost kritičnih granica od alternativne sredine u standardnim greš kama:
M ETODE UZORKA
1 23
1 2,8864 3, 1 1 1- 1 3351 1 335 � P 0, 40988 0,1 6 =
=
"
2,585 � p = 0,495 20
fi 0,40988 + 0,4952 0,90508. Snaga testa je mala: S = l fi = 0,09492 (9,5%). =
3.7.2. Jednosmjerna testiranja pretpostavki o nepoznatoj aritmetičkoj sredini
populacije U praksi smo ['esto zainteresirani ne toliko za tvrdnje tipa da je aritmetička sredina populacije jednaka nekoj pretpostavljenoj vrijednosti. koliko za tvrdnje da ona bilo premašuje neku vrijednost, bilo da je ispod neke vrijednosti J.lv. Tada se provode tzv. jednosmjerni testovi, i to test na donju ili test na gornju granicu. Na primjer, može nam kao kupcu mliječnih proizvoda biti stalo da postotak mliječne masti bude barem 3,2% ( po mogućnosti i viši). Istinitost tvrdnje ovakvog tipa provjerava se pomoću testa na gornju granicu. U tom slučaju hipoteze glase: Ho ; J.l :{J.lo. ili Ho ; J.l J.lo ::;; O H I : J.l > J.lo. ili H J.l J.lo> > O. Riječima. nul-hipotezom tvrdimo da aritmetička sredina populacije ne premašuje vrijednost J.lo , a alternativnom hipotezom tvrdimo suprotno. Skica takvog testa dana je na slici 3.9 . I :
.... Slika 3.9.
-------------... ''( ,... '_ '" . .... 11·. 111111111111)1
P o d r u č j e
;.
PodlUčje HI
1 24
POGLAVUE 3
Kod takvog načina provedbe testa formira se samo jedna kritična granica, i to gornja granica Kod jednosmjernih je testova, bilo da se radi o testu na donju, bilo na gornju granicu, cijela signifikantnost, tj. proporcija podataka sampling distribucije izvan područja prihvaćanja nul hipoteze, smještena na jednom od njezinih krajeva. Stoga uz koeficijent značajnosti stoji indeks a, a ne a/2 kao kod dvosmjernog testa. Koeficijent očitava se iz tablice A za površinu 0,50 - a. Za signifikantnost 5 %, površina iz tablice iznosi 0 , 5 - 0,05 = 0,45000 a pripadni iznosi 1 ,64. Kod jednosmjernog testa na gornju granicu odluka se pomoću kritične granice C2 donosi na sljedeći način: ako je aritmetička sredina uzorka x manja ili jednaka kritičnoj granici nul hipoteza ja moguća , tj. moguće je da je aritmetička sredina populacije f.1o ili manja od nje. Ako je aritmetička sredina uzorka veća od gornje kritične granice prihvaćamo tvrdnju hipoteze H kao vjerojatniju, tj. prihvaćamo tvrdnju da je aritmetička sredina populacije veća od J.1o. ili, simbolički: x ::; Cz => Ho je moguća x > C2 => prihvaćamo H Do odluke usporedbom empirijskog i tabli čnog omjera dolazi se na isti način kao i kod dvosmjernog testa. Ako je empirijski, tj. izračunani manji ili jednak koeficijentu značajnosti izvađenom iz tablice površina normalne distribucije, zaključuje se da je nul hipoteza moguća. U protivnom, tj. ako je z' strogo veći od prihvaća se alternativna hipoteza H , . Odluka pomoću p-vrijednosti također se donosi na isti način kao i kod dvosmjernog testa, samo se ona računa neznatno drugačije. Empirijska razina signifikantnosti se kod jednosmjernih testova računa tako da se od 0,5 oduzme površina za Za jednosmjerni test na donju granicu hipoteze glase: Ho : J.1 2 J.1o, ili Ho : p - J.10 2 0 Ht : p < J.1o, ili Ht : J.1 - J.1o , < O . Riječima, nul-hipotezom tvrdimo da je aritmetička sredina populacije veća ili jednaka pretpostavljenoj vrijednosti J.1o , alternativnom hipotezom tvrdimo suprotno, tj. da je aritmetička sredina populacije manja od pretpostavljene. Skica takvog testa dana je na slici 3. 10. Za
Z OI
C2,
C2,
l
j.
Z
z'
Za ,
z' .
a
M ETODE U ZORKA
1 25
.... Slika 3. 1 0 .
1I(: ltllllltlllllllllll }tll
Područje H I
P o d r u č j e
Kod testa na donju granicu formira se samo kritična granica
Ho
CJ:
Odluka pomoću kritične granice ako je aritmetička sredina uzorka X veća ili jednaka kritičnoj granici nul-hipoteza ja moguća, tj. moguće je da je aritmetička sredina populacije /4) ili veća od nje. Ako je aritmetička sredina uzorka manja od prihvaćamo tvrdnju hipoteze H kao vjerojatnij u, tj. prihvaćamo tvrdnju da je aritmetička sredina populacije manja od P o ' lli, simbolički: X ;:: Hu je moguća x < =:> prihvaćamo H l ' Postupak donošenja odluke usporedbom empirijskog i tabličnog omjera, kao i pomoću p vrijednosti isti je kao i kod testa na gornju granicu, Primjer 3,7, 1 .2. Tržišna inspekcija podvrgava mlijeko iz mljekare kontroli zbog prijave da je prosječni sadržaj mliječne masti u litri mlijeka manji od deklariranih 3,2%. Uz razinu signifikantnosti S % provodi se test na donju granicu: Cl
c"
:
(' l '
I
('I =:> Ci
z
HI : P
II 0,16 z
1
=
z
I
=:
p-vrijednost = (0,50 - P (z :::: 1 ,88» = 0,5 - 0,46995 0,03005 < a 0,05 => prihvaćamo H Izračunat ćemo i veličinu greš ke tipa II ovaj jednosmjerni test, ako stvarni prosječni postotak mliječne masti u litri mlijeka iznosi 3, l. Na slici 3. 1 1 . skicirana je vjerojatnost da se učini greš ka tipa II kao dio površ ine pod sampling distribucijom sa sredinom Jil = 3, l koji se nalazi u područj u prihvaćanja nul-hipoteze, tj. desno od donje granice 2,9376. I
za
.... Sli ka 3. 1 1 .
CI
3, 1
3,2
Vidimo ponovno da se tražena površ ina sastoji od dvijU površ ina, koje zbrojene čine {3. Računamo udaljenost kritične granice od alternativne sredine u standardnim greš kama i pripadnu površ inu iz tablice A: z
=
1
2 ,9376 - 3 0,1 6
=
j- 1,0 151
=:
1.02 =} P(z
1 ,02) = 0,3 46 1 4.
Druga površ ina je 0,50 (cijela desna polOVina površ ine ispod normalno distribuirane sampling distribuCije), pa je greš ka tipa Il: {J = 0,3461 + 0,50 0,846 14. Snaga testa je i ovog puta mala: S l - {J 0, 1 5386 ( I 5,39%) . Vjerojatnost da se izbjegne prihvaćanje neistinite nul-hipoteze iznosi 1 5,39% . =
METODE U ZORKA
1 27
3.7.3. Ispitivanje p retpostavki o nepoznatoj p ro porciji populacije
Testiranje pretpostavki o nepoznatoj proporcij i populacije moguće je samo uz uvjet da se radi o velikom uzorku, jer samo se u tom slučaju sampling distribucija može aproksimirati normalnom distribucijom. Postupci su istovjetni onima za testiranje pretpostavki o aritmetičkoj sredini populacije, a oznake koje se rabe su u terminima proporcija. Specifičnost postupaka testiranja pretpostavki o nepoznatoj proporciji populacije je samo računanje standardne greške proporcije. Naime, kako a priori pretpostavljamo da je nul-hipoteza istinita, to se pomoću pretpostavljene proporcije populacije, koju označavamo sa pu. računa standardna greška proporcije. Kod postupaka testiranja, dakle, koristimo se sljedećim izrazima za računanje standardne greške: , ako je frakcija izbora f
� : , ako je f PO O
(J . I'
=
n
N
� 0,05
i
< 0,05.
Primijetimo da je pod korijenom u nazivniku ovih dvaju izraza n (a ne n- l ) , jer ovdje ne procjenjujemo varijancu populacije iz uzorka već računamo s varijancom Prijo, koja je točna ako je točna nul-hipoteza. Kod testa na dvije granice ispituje se istinitost para tvrdnji Ho : p = po' ili Ho : p - po O HI : p r! pu, ili H J : p - pu, r!O. Nul-hipotezom se tvrdi da je proporcija populacije P jednaka nekoj pretpostavljenoj vrijednosti po, dok alternativna hipoteza tvrdi da se one razlikuju. Interval prihvaćanja nul hipoteze dan je sa Ako iz uzorka izračunana proporcija pada u taj interval, zaključujemo da je nul-hipoteza moguća, tj. da je uz danu razinu značajnosti a moguće da proporcija populacije iznosi po. Ako je proporcija uzorka izvan tog intervala, bilo da je lijevo od donje, bilo da je desno od gornje kritične granice, odbacujemo nul-hipotezu u korist alternativne: A
c I :::; p :::; c 2" => H o A
P < Cl A
p > C2
)
=>
je moguća,
. . , . . pnhvacamo HI hipotezu kao IstinitU.
.
1 28
POGLAVLJE 3
I
ovdje se, osim pomoću kritičnih granica, do odluke može doći i u sporedbom empirijskog i tabličnog z omjera, kao i pomoću p-vrijednosti.
Empirijski koeficijent značajnosti z' je, kod testiranja pretpostavki o proporciji populacije, udaljenost izračunane proporcije uzorka od pretpostavljene proporcije populacije PO izražena u standardnim greškama: z
z
Tablični
1\
•
omjer je koeficijent značajnosti
�
z
,
koj i je udaljenost kritičnih granica od
pretpostavljene proporcije populacije po, tj. Po
7 � -
p
Ako je empirijski, tj. izračunani z' manji ili jednak koeficijentu značajnosti izvađenom iz tablice površina normalne distribucije, zaključit ćemo da je nul-hipoteza moguća. II ' protivnom, tj . ako je z strogo veći od z% , prihvatit ćemo alternativnu hipotezu H / : z
"
:::; z
z" >
% � H o je moguća, �
prihvaćamo H/.
Empirijska razina značajnosti računa se na isti način kao kod simetričnog (dvosmjernog ) ' testa o pretpostavljenoj sredini populacije, tj. od 0,5 se oduzme površina za z i dobivena razlika pomnoži s dva. Odluka se pomoću p-vrijednosti donosi na isti način kao prije opisanim testovima, tj . p-vrijednost > p-vrijednost :::;
a =? Ho je a�
moguća, ili
prihvaćamo H I kao istinitu.
lednosmjerni testovi o pretpostavljenoj proporciji populacije provode se na isti način kao istovjetni postupci glede pretpostavljene aritmetičke sredine populacije, koj i se provode na velikom uzorku, uz opisane izmjene u terminima. Isto vrijedi i za računanje greške tipa Primjer
ll.
3.7.3 . 1 .
II uzorku robe veličine 200 izabranom i z vrlo velike pošiljke, nađeno j e 1 0 proizvoda
greškom:
s
METODE UZORKA
129
a) Procijenite uz 95%- tnu pouzdanost proporciju proizvoda s greškom u cijeloj pošiljci. b) I spitajte istini tost tvrdnje dobavljača le robe da postotak proizvoda s greškom ne prelazi 8%. Signifikantnost 2%. Ima l i kupac robe osnove da zatraži sniženje ugovorene cijene robe? Pod a) je radi formiranja i ntervalne procjene potrebno i zračunati proporciju uzorka, standardnu grcšku proporcije i izvaditi koeficijent povjerenja (pouzdanosti) iz tablice A:
p= n 1\
10
m
=
200
0,05 = p rocjena brojem,
Radi se o vrlo velikoj pOŠiljci pa je u tom slučaju
�
= l - 0,05
n < < N J5 ,
=
0,95.
što povlači da je
standardna pogreška proporcije računa pomoću izraza
gl\ J..!L
n-I
=
0,05 · 0,95 1 99
f < 0,05. Stoga se
= 0,0 1 5.
Za veliki uzorak i pouzdanost procjene 0,95 već smo prije očitali iz tablice A ZO,DlS = 1 ,96, pa
je traženi i nterval: P{0,05+ 1,96 ' 0,0 1 5}
P{
0,0206 -:;,
p :::;
0,0794 }
0,95 , odnosno
0,95.
Uz pouzdanost 95% procjenjujemo da se p roporcija proizvoda s greškom kreće izmedu 0,0206 i 0,0794, odnosno između 2,06 i 7,94%. Pod b) je potrebno provesti sljedeći test na donju granicu: Ho : P � 0,08 HI :
p
0,04 1 05
0,04 1 05.
Ho je moguća (nismo j u uspjeli odbaciti), pa zaključujemo
da je proporcija proizvoda s greškom 0,08 ili više, a ne manje kao što tvrdi dobavljač robe. Kupac robe i ma osnove zatraž.iti sniženje ugovorene cijene robe,
15)
Hoje moguća. p-vrijednost = 0,50 - P(z 1 , 5 8 ) = 0,50 - 0,44295 = 0,05705 > 0,02 a, što opet znači da se proporcija uzorka nalazi u intervalu prihvaćanja nul-hipoteze. Da bismo uspjeli odbaciti nul-hipotezu, signifikantnost bismo motali povećati na više od 5,7 1 %.Testiranje uz nivo značajnosti od npr. 6% dovelo bi do željenog odbacivanja hipoteze HJ• Za gornji ćemo primjer izračunati i vjerojatnost da se prilikom testiranja počini greška tipa I l , ako je alternativna proporcija populacije PI = 0,04. Kao što se vidi iz slike, grešku jJ u ovom slučaju čini površina veličine 0,50 P ( I ), gdje je =
=
-
Z
I
- Pl = CI = a
PI
Z
0 ,04105 - 0,04 ,8 1 7. 0,04 · 0,96 200 o::
jJ 0 , 50 - 0,46926 0 , 03074. Snaga ovog testa je velika, jer je mala vjerojatnost da se počini greška tipa Il, što se vidi i iz slike, jer je unutar intervala prihvaćanja nul-hipoteze samo "rep" distribucije sa sredinom pt- S = 1-0,0307 = 0,9693. =
� Slika 3. 1 2 .
=
•
REG RESIJSKA I KO RELACIJSKA ANALIZA 4.1 . Svrha regresjjske analize
Statistička analiza čije su metode i tehnike razmotrene u prethodnim poglavljima jednodimenzionalna je jer je predmet analize bila samo jedna statistička varijabla. No svijet koji nas okružuje nije tako jednostavan pa je često potrebno analizu pojedinačnih varijabli nadopuniti dvodimenzionalnom ili višedimenzionalnom analizom, tj. istodobnom analizom dviju ili više statističkih varijabli. Pojave koje nas interesiraju često su međusobno povezane i spoznati njihovu uzročno-posljedičnu vezu, osim što je izazov, može biti od velike ekonomske koristi. To je svrha regresijske i korelacijske analize. Veza između dViju (ili više) pojava u realnom ekonomskom okruženju nije funkcionalna, kakva je svojstvena matematici. Da je npr. veza između proizvodnje i dobiti funkcionalna, onda bi bilo moguće precizno izračunati dobit za svaku predvidivu razinu proizvodnje. To, svakako, nije slučaj jer na veličinu dobiti mogu, osim proizvodnje, utjecati i brojni drugi čimbenici, od prirodnih nepogoda do tržišnih poremećaja svake vrste, a mnoge os njih nije moguće predvidjeti.
132
POG LAVLJ E 4
Veza koja je predmet regresijske i korelacijske analize jest stohastička ili statistička. Ona je labavija od funkcionalne veze jer osim varijabli čija se povezanost ispituje, uključuje i varijablu koja sumarno izražava sve moguće čimbenike koje nije moguće kvantificirati. Naime, funkcionalna je veza između dViju varijabli oblika Y = f(X), dok je statistička veza predočena modelom jednostavne regresije oblika Y = f(X) + (4. 1. ) Simbolom Y označena je zavisna varijabla, a simbolom X nezavisna varijabla, tj. pojava čiji se utjecaj na pojavu Y ispituje. Sa je označena varijabla nepoznatih utjecaja na zavisnu varijablu Y. Ovakav se model naziva aditivnim jer je varijabla pribrojena funkcijskim vrijednostima f(X). Jedna od zadaća regresijske analize je određivanje oblika regresijske funkcije f(X) ( kraće: regresij e), koja u danom slučaju predočuje povezanost pojava koje se istražuju. i
u.
u
u
4.2. Dijagram rasipanja
Za određivanje oblika regresije kao vrlo prikladno a jednostavno sredstvo služi dijagram rasipanja. Konstruira se tako da se u koordinatni sustav, ili samo u jedan njegov dio, unose parovi vrijednosti varijable X i Y, tj. on se sastoji od točaka (x" y) Najčešće se za konstrukciju toga dijagrama koristi prvi kvadrant ili dio njega, ovisno o vrijednostima obiju varijabli u konkretnom slučaju. Iz rasporeda točaka u dijagramu raSipanja zaključujemo o obliku , smjeru i jakosti veze. Na slikama 4. 1 . 4.4. prikazano je nekoliko mogućih izgleda dijagrama rasipanja. Na primjer, veza među pojavama može biti linearna što sugeriraju točke na dijagramu 4. I .a), ili krivolinijska kao što je predočeno dijagramom 4 . 1 . b) tl
.. Slika 4. 1 .
bl
al y
y
o o o
x
l) Riječ "jednostavna" ovdje znači da je u model uključena samo jedna nezavisna varijabla X.
x
REG RESIJSKA I KORELACIJSKA ANALIZA
1 33
Ako se radi o linearnoj vezi, raspored točaka duž zamišljenoga pravca na dijagramu može biti počevši od lijevoga donjeg prema desnom gornjem uglu (slika 4.2. a) ili obratno, počevši od lijevoga gornjeg prema desnom donjem uglu (slika 4.2. b). li prvom slučaju linearna je veza pozitivnog, a u drugom negativnog smjera . ... Sli ka 4.2. bl
al y
y
o o o o o o o o o o o o o o o o o o o o o o
o o o o o o o o o o o o o o o o o o o o o o
x
x
Nadalje, točke mogu biti gušće ili rjeđe raspoređene oko zamišljene funkcije (bilo da je ona linearna ili krivolinijska), što upućuje na jaču ili slabiju vezu među statističkim varijablama koje su predmet analize. Povezanost varijabli X i Y predočena slikom 4.3.a jača je, dok je ona predočena slikom 4.3.b slabija. ... Slika 4.3. b)
al y
y
o
x
o
o o
o o o o o o
:
o
o
o
x
1 34
POGLAVUE 4
na kraju, odsutnost pravilnosti u rasporedu točaka na dijagramu rasipanja govori u prilog zaključka o nepostojanju veze, što je ilustrirano slikom 4.4 .
l
.... Slika 4 . 4 . y
o
o
x
4.3. Jednostavna linearna regresija
Najjednostavniji slučaj regresijske funkcije jest linearna funkcija, tj. f(X) = a + bX Ako smo se opredijelili za linearnu regresijsku funkciju (kraće: regresij u), potrebno je još oCij eniti parametre i b. Parametri se ocjenjuju metodom najmanjih kvadrata; ona se sastoji u iznalaženju regresije određenih svojstava. Kroz točke predočene dijagram om rasipanja treba povući pravac koji ima svojstva prosjeka, tj. zbroj odstupanja opaženih vrijednosti zavisne varijable od vrijednosti ocijenjenih pomoću regresijskog pravca mora biti jednak nuli i zbroj kvadrata odstupanja opažen ih (empirijskih) vrij ednosti zavisne varijable od pripadnih regresij skih vrijednosti (vrijednosti koje leže na traženom regresijskom pravcu) mora biti minimalan. Na slici 4.5. skiciran je dijagram rasipanja, regresijski pravac s Ocijenjenim parametrima, tj. pravac: a
+ bX
(4.2.) i naznačena je udaljenost (mjerena paralelno s osi ordinata) proizvoljne , i-te točke od njega. Y= a
R EG R ESIJSKA I KORELACIJSKA ANALIZA
135
� Slika 4.5. y
Xi
o
o o
)('Oi�..;.� o o
o
o
:
. o o o :o : o o o o o
x
Traženi je pravac geometrijsko mjesto točaka najbližih opaženim vrijednostima zavisne varijable Y, tj. on odgovara zahtjevu: n
yJ2 =min., �)Yi i=1 odnosno , ako za Yi supstituiramo a + bxj, -
"
(4. 3.)
� )Yi - a - bx i ) 2 min . =
i=1
(4.4.)
Traži se, dakle, minimum kvadratne funkcij e. Postupak traženja minimuma sastoji se u uzastopnom deriviranju izraza (4. 3 . ) po parametrima a i b . Dobivene se derivacije izjednačuju s nulom i kao rezultat tog postupka dolazimo do dviju jednadžbi poznatih pod nazivom nonnalne jednadžbe: II
n
I Yi = na + b I x ; i=1 i=l n
n
n
I Xi Y i = a I x ; + b I x 7 . i=1 i=1 i= 1
(4. 5 .)
Njihovim rješenjem dolazi se do izraza za ocjene parametara i b: a
II
I X i Y i - nXji
=I b = ...:.i--' ,, 2 � X i - nx- 2
___ _
(4.6. )
136
POG LAVLJE 4
(4.7.)
a y - hi .
I zraz (4.6.) za b moguće je modificirati i pisati na više načina. Umjesto i zraza U
brojniku može npr. stajati II
L (Xi
-
x)2 ) ili kao
n
L (Xi x)(Yi -
ji) . Nazivnik
II
L X; nx 2
"
L X i Yi - nxy i=l
često se piše u formi
na ; , tj. kao produkt broja parova vrijednosti varijabli X i Y i varijance
varijable X. U tablici 4. 1 . izložen je postupak računanja parametara linearne regresijske jednadžbe i dane su regresijske vrijednosti. U zmimo, na primjer, da neko poduzeće analizira podatke o ostvarenom prometu i dobiti (oboje u mil. kn) u osam uzastopnih godina:
..
Tabela 4. 1 . Regresijske vrijednosti
Dobit
Xi
Yi
20
l
20
400
1 ,05
30
3
90
900
2,35
40
3,5
140
1600
3,65
50
5
250
2500
4,95
70
7
490
4900
7,55
80
8,5
680
6400
8,85
l
2
I
XJ!i 3
x;f 4
Yi 5
90
9
810
8 100
10, 1 5
100
13
1300
10000
1 1 ,45
480
50
3780
34800
50,00
Prije no što izračunamo parametre l inearne regresije, prikazat ćemo 8 parova vrijednosti prometa i dobiti iz stupaca l i 2 na dijagramu rasipanja:
1 37
REGRESlJSKA I KORELAClJSKA ANALIZA
... Sli ka 4.6.
u
Dobit
m i l . Kn
13
O
12 11 10 9
O
8 7
O
O
6 5
O
4 3
O
O
2 O O 10
20
30
40
50
60
70
80
90
1 00
�� Kn
u mil.
Vidimo da su točke raspoređene približno u pravcu, i to počevši od lijevoga donjeg prema desnomu gornjem uglu. Veza između prometa i dobiti je pozitivna, tj. porast vrijednosti jedne varijable prati rast druge varijable. Veza je također prilične jakosti jer su točke blizu zamišljenoga pravca. Napominjemo da se ovdje radi o školskom primjeru, s malim brojem parova vrijednosti. Samo je po sebi razumljivo da se bolji, statistički utemeljeniji zaključci, dobivaju na osnovi dulje serije vrijednosti obiju varijabli. Prelazimo na ocjenjivanje parametara linearne regresije primjenom izraza Prethodno treba izračunati aritmetičke sredine obiju varijabli:
4 80 6 - = 50 = 6 28 O, Y 8 3 7 80 - 8· 60· 6,25 = 7 80 = 0 13 34 800 8· 6000 ' . 6,25 0,1 3·60 = · 1,5 5. ,
b a
II
(4.6.) i (4.7.).
)
ovom slučaj u , dakle, regresija s ocijenjenim parametrima glasi: y
.
1,55
+
0 , 13
x.
Parametar a interpretiramo kao Vrijednost regresije za Vrijednost nezavisne varijable n ula. Njegova nam interpretacija redovito nije bitna. II ovom bismo ga slučaju in terpretirali kao očekivani gubitak od 1 ,5 5 miL kn ako ne bi bilo prometa. Parametar b se još naziva regresijski
1 38
POGLAVLJE 4
koeficijent i on je najvažniji pokazatelj u regresijskoj analizi. On pokazuje za koliki se iznos
teoretski (tj. prema dobivenoj jednadžbi) mijenja zavisna varijabla, za jedinični porast nezavisne varijable. Prema tome, ako promet poraste za l mil. kn, na temelj u jednadžbe očekujemo povećanje dobiti za 0, 1 3 mil. kn, tj . regresijska vrijednost dobiti se povećava za 0, 1 3 mil. kn . Regresijske su vrijednosti teoretske vrijednosti, vrijednosti koje bi zavisna varijabla trebala poprimiti na temelj u jednadžbe s ocijenjenim parametrima. Za dani niz empirijskih vrijednosti n ezavisne varijable X, pripadne se regresijske vrijednosti računaju njihovim A
uvrštavanjem u regresijsku jednadžbu Y :
YI a + bx1 ]2 = a + bx2
U našem primjeru:
j\ Y2 Y3 A
=
- 1 , 5 5 + 0, 1 3 ·20
1 ,05
1 , 5 5 + 0, 1 3·30 = 2 , 3 5 1 , 5 5 + 0, 1 3 -40
3 ,6 5
+ 0, 1 3 · 1 00 = 1 1 ,4 5 Stupac broj 4 tablice u primjeru 9. 1 . sadrži svih osam regresijskih vrijednosti. Vidimo da j e njihov zbroj jednak 5 0 . To je ujedno kontrola točnosti postupka jer zbroj empirijskih vrijednosti zavisne varijable mora biti jednak zbroju pripadnih regresijskih vrijednosti, tj. mora vrijediti:
Regresijske se vrijednosti mogu pojedinačno analizirati. Uzmimo npr. prvu regresijsku vrijednost 1 ,0 5 . Ona čini procjenu nivoa zavisne varijable, dakle procjenu veličine dobiti, za dani nivo nezavisne varijable, u ovom slučaju za promet od 20 mil. kn. Kako je pripadna stvarna (empirijska) vrijednost dobiti samo I mil. kn, to je razlika YI
YI ::::
l
1 ,05 = - 0,05. To znači da je prvom regresijskom vrijed nosti n ivo dobiti
precijenjen za 0,05 mil. kn ili, relativno izraženo, za 5%. Općenito, razlike yi
yi
Ui su
R EG R ESIJSKA I KORELACIJSKA ANALIZA
vrijednosti varijable neobjašnjenih odstupanja o d teoretskih vrijednosti koje rezidualnim 2 odstupanjima. Za njih se pretpostavlja da su normalno distribuirana ° i konačnom varijancom. Relativna reziduaIna odstupanja dobivaju se reziduaInih odstupanja pripadnom empirijskom vrijednosti zavisne varijable i
139
s e naZIvaJU sa sredinom dijeljenjem m noženjem
kvocijenata sa 1 00, tj.
jJ =
R egresijski pravac
- 1 , 5 5 + 0, 1 3
x
ucrtan je na slici 4.7. U d ijagram raSipanja. To j e
učinjeno pomoću dvije točke čije su ordinate dobivene računanjem regresijske vrijednosti za proizvoljno odabranu vrijednost nezavisne varijable. II ovom je slučaju pravac p rovučen kroz točke T1 (20, 1 ,05) i 'J�(1 00, 1 1 ,45), tj . kroz točke dobivene računanjem prve i osme regresijske vrijednosti. Za u crtavanje regresijskog pravca može se u zeti i točka Cx, ji) , jer je to točka kojom prolazi svaki regres ijski p ravac. Također se može uzeti i točka (O, a) , tj. odrezak na osi ordinata, ako je za konstrukciju dijagrama rasipanja korišten cijeli prvi kvadrant koordinatnog sustava, jer samo u tom slučaju on sadrži svoju n ul-točku .
.... Sli ka 4 . 7 . Dobit
o
13
12 11 10 9 8 7 6
o
5 4
o
3 2 1
O 10
T, 20
30
40
50
60
70
80
90
1 00
Parametar u mil. Kn
Regresij ske su vrijednosti pogodno sredstvo za prognoziranje. Na pnmJer, možemo izračunati koliku dobit možemo očekivati ako bi promet porastao na 1 1 0 mil. kn: 2) o d latinskog: resiđuum • ostatak
140
POGLAVUE 4
Y(x=I IO)
= - 1 , 5 5 + 0, 1 3 · 1 1 0
=
1 2 , 75 mil. kn.
4.4. Ol:jena reprezentativnosti regresije Nakon što smo ocijenili parametre regresijskog pravca, postavlja se pitanje njegove reprezentativnosti. Regresijski je pravac reprezentativniji što je udaljenost parova opaženih, tj . empirijskih vrijednosti od njega manja, tj . što su mu točke na dijagramu rasipanja bliže. Prije no što se pozabavimo mjerama reprezentativnosti, razmotrit ćemo tzv. jednadžbu analize varijance, koja je podloga za računanje pokazatelj ? reprezentativnosti regresije. Ona glasi: n
I (Yi i=l
-
y)2 =
n
I (j\
-
i=l
y)2 +
n
I (Yi i=l
-
yy l.
(4.8.)
Jednadžbu čine tri sume kvadrata čije ćemo značenje ilustrirati pomoću raščlambe dijela ordinate proizvoljne točke iz dijagrama rasipanja.
� Slika 4.8. y
T;(Xi,Yi)
o
o
:} : A
�
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
'Oi-
x
o
o
'-\1-� o
_
o
_ _ _ _ _ _ _ _
o
i � �� _
o
/
_ _ _ _ _ _
o
o
x
3) Pod nazivom jednadžba analize varijance u statističkoj se literaturi podrazumijeva bilo jednadžba triju varijanci:
11
i=1
L (y . - )7) I
11
2
11
L (j . - yl 2
i=1
-'=--- + l
11
n
1=1
L (y - j ) J
same varijance (jer je nazivnik triju varijanci isti).
n
l
2
, bilo njihovih brojnika, budući da su brojnici triju varijanci u istom odnosu kao i
141
REG RESIJ SKA I KO RELACIJSKA ANALIZA
Promotrimo ordinatu točke Tj (xj,Yj) na slici 4.8., preciznije njezin dio do linije Y Y . To je dužina Yi - ji . Ona siječe regresijski pravac u točki čija je ordinata pripadna regresijska vrijednost Yi . Dužina Yi - ji podijeljena je na dva dijela, na dio između regresijskog pravca i prosjeka, dužinu Yi - ji i dužinu Yi - Yi ' tj. dužinu između i-te točke i regresijskog pravca Y . Vrijedi ,dakle, =
(4 .9.)
Razliku Yi ji smatramo protumačenom regresijskom jednadžbom - oč�kujemo, budući da je pravac izraz veze među analiziranim pojavama, da za neku i-tu vrijednost nezavisne varijable zavisna varijabla poprimi teoretsku, tj. regresijsku vrijednost Yi ' Ono što nismo u stanju objasniti jesu su razlike Yi - Yi ' pa ih nazivamo neprotumačenima. Želimo li relaciju (4.9.) izraziti sumarno, za svih n točaka, koliko je parova vrijednosti dviju varijabli, moramo odstupanja kvadrirati. Kako točke na dijagramu rasipanja leže iznad i ispod pravca, tj. kako je -
II
II
II
LYi = L Yi , to je L (Yi - Yi ) = O . i=1 i=1 i=1 II
Isto vrijedi i za zbrojeve odstupanja L (Yi
II
L (Yi - ji) . Stoga se ukupna odstupanja i=1 i=1 kvadriraju i njihovom se raščlambom dolazi do jednadžbe analize varijance (4 .8.). Za dijelove jednadžbe analize varijance uobičajeno se rabe kratice. Za ukupnu sumu kvadrata II
L (Yi - ji) 2 koristit ćemo se kraticom i=1 II
-
ji)
ST (S
=
protumačen u sumu kvadrata L (Yi - ji)� kraticom II
i=1
suma, SP
T =
totalna, tj. ukupna), za
i za neprotumačenu ili reziduainu
sumu kvadrata L (Yi - Yi ) 2 kraticom SR. Vrijedi dakle, i=1 ST = SP + SR.
Iii, precizno: zbroj kvadrata odstupanja empirijskih vrijednosti zavisne . varijable od njezine prosječne vrijednosti jednak je zbroju kvadrata odstupanja regresijskih vrijednosti od prosjeka i zbroju kvadrata odstupanja empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti. Elementi jednadžbe analize varijance podloga su za računanje pokazatelja reprezentativnosti regresije. Kako je regresija to reprezentativnija što su joj točke na dijagramu rasipanja bliže,
1 42
POG LAVUE 4
kao prikladna mjera reprezentativnosti služi varijanca regresije ili reziduaina varijanca cr �
.
Ona se računa kao prosjek reziduaine sume kvadrata:
cr y�
( 4. 1 0 ) .
n
Drugi korijen iz varijance regresije je standardna devijacija regresije:
(4 . 1 1 .) Ona je prosJecno odstupanje opaženih, tj. empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti.
Koeficijent varijacije regresije Vy , koji predstavlja prosječno relativno odstupanje empirijskih vrijednosti zavisne varijable od pripadnih regresijskih vrijednosti jest omjer regresijske standardne devijacije i aritmetičke sredine zavisne varijable pomnožen sa 1 00:
V·y
cr
(4. 1 2 .)
· 1 00 .
Y
Dijeljenjem protumačene sume ukupnom sumom kvadrata dobiva se koeficijent determinacije (simbol re ) kao pokazatelj jakosti veze među dvjema analiziranim varijablama, a time ujedno i pokazatelj reprezentativnosti regresije. On je dan izrazom: n
L eYi
R 2 = -'-i=n-"
____
L (Yi
(4. 1 3 .)
;=1
Što je veza jača, pravac je reprezentativniji, tj. udio protumačenih u ukupnim odstupanjima je veći, a udio neprotumačenih ili reziduainih odstupanja manji. Vrijednost H2 bliže jedinici znači veću reprezentativnost regresije, manju disperziju točaka oko regresije. Koeficijent determinacije se može izraziti i kao l minus udio reziduainih u ukupnim odstupanjima :
n
L (Yi y) 2 i=1
-
(4. 1 4.)
REGRESIJSKA I KORELACIJSKA ANALIZA
1 43
Komponente jednadžbe analize varijance računaju se pomoću sljedećih izraza:
II II L (Yi y) 2 = L y�-ny 2 i=l i=l II
L (Y; y) 2 = ncr; i=1
,
ili
4.
Protumačena suma kvadrata najjednostavnije se računa tako da se regresijski koeficijent b pomnoži svojim broj nikom. tj.
� (Yi
y)2 = b
[� XiYi - nxyl'
odnosno
n II L (Yi y) 2 = bL (Xi - X)(Yi -y) a može se izračunati i pomoću izraza ;=1 i=l II II II = aL y; +b L xiy; - ny2 , L G; ;=1 1=1 ;=1 11 II II x = 2 2 2 2 _ x; - nx 2 ) x1 b i b y) ( ) ( L L LeV 1=1 1=1 1=1 II II II L
Y
. t
I
t :: )'B . .
1 00
Prema tome, ostale ćemo frekvencije dobiti množenjima:
59 · 1 , 356 = 80 59 · 1 ,88 1 = 1 1 1 JI997 59 · 1 ,91 5 = 1 1 3 J1998 J1999 = 59 · 1 ,864 = 1 l 0. J1996
174
POGLAVLJE 5
5.3.4. Skupni indeksi Skupnim indeksima mjerimo relativne promjene skupine pojava. Skupni se indeksi računaju kao vagani prosjeci individualnih indeksa. Ako nas npr. interesira kretanje prodajnih cijena nekih vrsta roba, onda na promjenu cijena više utječu cijene robe koja se u većim količinama pojavljuje na tržištu. Stoga se pri računanju skupnih indeksa cijena one ponderiraj u količinama proizvoda koji su u pitanju, dok npr. pri računanj u relativnih promjena količina skupine artikala, kao ponderi služe cijene proizvoda itd. Najčešće se računaju tri vrste skupnih indeksa: skupni indeksi količina, skupni indeksi cijena i skupni indeksi vrijednosti. Svaki je skupni indeks kvocijent skupine veličina tekućega ili izvještajnog razdoblja u odnosu prema takvoj skupini veličina baznog razdoblja, razdoblja u odnosu prema kojemu se dinamika skupine veličina iskazuje. Način računa�ja skupnih indeksa nije jedinstven. Ovisno o načinu ponderiranja razlikujemo Laspeyresove i Paascheove (čitaj Lasperove i Pašeove) skupne indekse. Laspeyresov skupni indeks količina, računan kao vagana aritmetička sredina individualnih indeksa količina, dan je izrazom:
k L iiL. I 00 · qioPio q i::.,O .: i ..:..:, Q OI ( PO ) - ...!. -i=:!..,. k Lq iOPiO _
___
(5.5.)
S a O označene s u sve veličine baznog (nultog) razdoblja, a s l veličine tekućega ili izvještajnog razdoblja. Količine su označene sa q , a cijene sa p. Oznaka qiJ na primjer, predstavlja i-tu količinu izvještajnog razdoblja. Oznaka QOI (po) znači da se radi o skupnom indeksu količina (Q), indeksi OI upućuju na to da se uspoređuju razdoblja O i l , a po u zagradi upućuje na to da su za pondere korištene cijene nultog razdoblja. Kod svih Laspeyresovih indeksa ponderi su iz nultog, tj . baznog razdoblja. Produkti količina i cijena qiOPiO čine vrijednosti - u ovom slučaju baznog razdoblja. Ponderi qiOPiO mogu se izraziti i relativno, u kom slučaju oni predstavljaju strukturu vrij ednosti pojedinih artikala u baznom razdoblju, tj . : ,
WiO
=
q OP k i iO (100) . LqiOPiO
(5.6.)
i= 1
Struktura vrijednosti može biti dana bilo kao proporcije, bilo u obliku postotaka, pa je stoga množenje sa 1 00 u gornjem izrazu u zagradama. S relativno izraženim ponderima Laspeyresov skupni indeks količina poprima oblik:
VREMENSKI N I ZOVI
1 75
k
I R · 1 00 · WiO - ..qiO .::,.k . Q OI ( Po ) -_ ..!..:·:.!.I ..:.: I WiO i=1
__ _
(5 . 7 .)
Laspeyresov skupni indeks količina u agregatnom obliku dan je izrazom: k
Iq il PiO ( = · 1 00 , ) QOI PO i;1 IqiOPiO i=1
( 5 . 8.)
a dobiven je sređivanjem izraza ( 5 . 5 . ) kraćenjem sa qiQ u brojniku. Paascheovi sku pni indeksi se razlikuju od Laspeyresovih po načinu ponderiranja. Kod Laspeyresova indeksa količina ( 5 . 5 . ) individualni se indeksi količina ponderiraju produktima q,OPiO, dakle vrijednostima baznog razdoblja. Kod Paascheova skupnog indeksa količina kao ponder služe produkti qiOPd, dakle količine baznog po cijenama izvještajnog razdoblja. Na to, da se radi o Paascheovu indeksu, upućuje i oznaka P I u zagradi na lijevoj strani izraza koji slijede. Izraz za Paascheov skupni indeks količina, računan kao vagana aritmetička sredina individualnih indeksa količina glasi: k
I R . l OO · qioPiI qi. .:,O _ ...!.: : I ..:..:. Q OI ( PI ) - i=:.!... k I qiOPil i=1
__ _
(5 .9.)
Isti indeks s relativno izraženim ponderima glasi: k
I R . I OO . Wil i=:.!... : I ..:..:. .q i.:,-O Q OI ( PI ) -_ ...!.: k I w i] i=1
_ _ _
'
(5 . 1 0.)
pri čemu ponderi Wj predstavljaju strukturu vrijednosti pojedinih artikala iz baznog razdoblja po cijenama izvještajnog razdoblja, tj . :
1 76
POGLAVUE 5
( 5 . 1 1 .)
Paascheov skupni indeks količina u agregatnom obliku, dobiven sređivanjem brojnika izraza ( 5 .9.), glasi: k
LqilPil ) · 1 00 . QOI (PI i;1 LqiOPiI i=1
(5. 1 2.)
=
Analogno skupnim indeksima količina, računaju se i skupni indeksi cijena. Kod Laspeyresovih indeksa individualni se indeksi cijena ponderiraj u vrijednostima baznog razdoblja, produktima qiUPiU, a kod Paascheovih indeksa ponderira se s količinama izvještajnog, po cijenama baznog razdoblja, tj. s produktima qilPiU . Laspeyresov skupni indeks cijena, računan kao vagana aritmetička sredina individualnih indeksa cijena, dan je izrazom: k
L lli · 1 00 . qiOP;o
OI (qO ) - ..!;-i-=.!.l--=P....:.i.::-Ok LqiOP;o i=1
R
____
-
( 5 . 1 3.)
S relativno izraženim ponderima Laspeyresov skupni indeks cijena poprima oblik: k
L lli . 1 00 · wio
P OI (qO ) - -'-i=---'I__i..O ..,. LWiO i=l
R
k
_ _ __
-
'
( 5 . 1 4 .)
te u agregatnom obliku: k
LPilqiO i;1 · 1 00 . ( ) qo Ol P LP iOqiO i=l =
( 5 . 1 5.)
VREMENSKI N IZOVI
1 77
Slijede tri izraza za Paascheove skupne indekse cijena:
( 5 . 1 6.) i=]
k
L ..fu. . lOO , wil
P01(qj) = -"=-"'-'7--i=l
k
L Pilqil PoMI ) = i;:1 L P Oq ;=1
(5. 1 7. )
i
· 1 00 .
( 5 . 1 8)
il
Skupni indeks vrijednosti računa se samo u agregatnom obliku , i to tako da se vrijednosti izvještaj nog razdoblja (zbroj produkata qilPI1 ) podijele s vrijednostima baznog razdoblja ( zbrojem produkata q;aPio) i kvocijent pomnoži sa sto: k
V.
OI
L q"Pil -
i=l k
Lq oP O i=l
;
. 1 00 .
( 5. 1 9. )
i
Skupni s e indeks vrijednosti može dobiti i množenjem dvaju skupnih indeksa količina i cijena, od kojih jedan (svejedno koji) mora biti Laspeyresov, a drugi Paaseheov. Primjer: U veletrgovini "A" zabilježen je u dvije godine sljedeći promet triju vrsta robe.
...
Tabela 5 . 9 . Vrsta robe
Cijena po toni u 000 kn
Količina u tonama
1 999.
2000.
1 999.
2000.
PiO
Pil
qiO
qu
staklo
18
20
25
22
porculan
24
25
18
20
keramika
10
8
28
35
l
2
3
4
5
178
POGLAVUE 5
tabeli koja slijedi izračunat ćemo sve elemente potrebne za računanje Laspeyresovih indeksa količina:
U
....
Tabela 5 . 1 0 . Količine Individualni indeksi količina
Vrijedno-
Produkti
sti 1999.
stupaca 2 i 3
2000.g.
Struktura
po
vrijednosli 1999.
cijenama 1999.
Vrsta robe
1
Produkti stupaca 2 i 6
qil . 1 00 qw
q,o PiO
2
3
q il
- ·
qiO
. 1 00 qiO PiO ·
q ilPiO
WtO
5
6
4
qjl l O o. i1';o qiQ •
7
88
450
39600
396
38,7
3405,6
porculan
III
432
47952
480
37, 2
41 29,2
keramika
125
staklo
Ukupno
-
280
35000
350
24. 1
3012,5
1 1 62
122552
1226
100,0
10547,3
"
I !iJl . 1 00 · qioPiO ) ...!.:i-:.c.1 -'-.:. :,-. ( QOI Po - - q. ;0:: k IqiOPiU i=1 _
_ _ _
1 22 5 5 2 = 1 0 5' 5 1 1 62
k
I !iJl . 1 00 · wiO
Q0 1 ( WU) = -'=-'-'-';---
1 05, 5
i=1 k
IqiJPiU
· 1 00 1 226 ' 1 00 = 10 5, 5 . QO I(PO) = ikI 1 162 Iq ;op;o ;=1 Količine navedenih trij u vrsta robe povećane su 2000 . godine u odnosu prema prethodnoj 1 999. godini za 5 , 5 % u prosjeku , raču nano po cijenama 1 999. godine. U
nastavku tabele dani su elementi potrebni za računanje Paascheovih indeksa količina:
VREMENSKI NIZOVI
Vrsta robe
Količine 1999, po cijenama 2000,g, qiOPil
Produkti stupaca 2 i 8 q il
- ·
qiQ
1 00 qiO Pi I ·
9
8
Vrijednosti 2000,
Ponderi
qilPil
Wi1
10
II
Produkti stupaca 2 i I I q 'l
' ·
qiQ
1 00 wiI ·
12
staklo
500
44000
440
42,6
3748,8
porculan
450
49950
500
38,3
425 1 ,3
keramika
224
28000
280
19.1
2387,5
1 1 74
1 21 950
1 220
100.0
10387,6
Ukupno
l 79
k
( ) Q 01 PI
=
� !liL · I 00 · w il L.. , ;=1
q,o k L Wi]
1 0387 6 = 100 ' = 1 03' 9
;=1
Količine navedenih triju vrsta robe povećane su 2000 . godine u odnosu prema prethodnoj 1 999 . godini za 3,9% u prosjeku, računano po cijenama 2000 . godine.
180
POG LAVLJE 5
Slijedi nastavak tabele u kom je i zložen postupak raču nanja skupnih indeksa cijena:
Vrsta robe
Individualni indeksi
Produkti stupaca
Produkti stupaca
13 i 3
13 i 6
cijena
PiO 13
100
PiO
1 00 ' qiOPiO 14
Pl
'
PI O
·
l OO
,
Produkti stupaca 13 i 5
wO
i
PiO
15
· 1 0 0 · qilPiO
Ponderi
w11
Produkti stupaca 1 3 i 17
Pl ' · I OO , wiI PiO
-
18
16
17
staklo
III
49950
4295,7
43956
32,3
3585,3
porculan
104
44928
3868,8
49920
39,2
4076,8
keramika
80
Ukupno
22400
1928,0
28000
28,5
2280,0
1 1 7278
10092,5
1 2 1876
1 00,0
9942,1
Računamo tri varijante Laspeyresova indeksa cijena: k
'" P 'I · I OO · L.. i=l PiO
qiOPiO
1 1 7278 1 1 62
=
1 00'9
i=1
-'=--'-':,--__ = 1=1
10092,5 100 9 100 =
'
I
Cijene triju vrsta robe povećane su 2000. godine u odnosu prema prethodnOj 1 999. godi n i za 0,9% u prosjeku, računano po količinama 1 999. godine.
VREMENSKI N I ZOVI
181
Slijede tri Paascheova skupna indeksa cijena:
k P L -;l · I OO · q'l P 'O 1 2 1 876 P01 ( ql ) = ...!.::.!...�---- = l226 = 99,4 I
I
;=1
k P i1 · 1 00 · Wi1 L __ P i I oM P I ) = ..!;i-::!....:;...:;°7-k--- 9942,1 = 99'4 100 L WiJ i=1
Na kraju ćemo izračunati i skupni indeks vrijednosti:
VO I
=
k L qil Pil 1 . 1 00 = 1 220 · 100 1 05 0 . ;= k 1 162 ' Lq;o P;o ;=1
Isti se rezultat može dobiti množenjima odgovarajućih indeksa količina i cijena, i to:
� l (PO ) ·POI (ql) = 105,5·0,995 = 1 05,0 Vo I = Qo I (PI ).pOI (qo) = 1 03,9· 1,009 = 1 04,84 ", 1 05. Vrijednost prometa triju vrsta roba povećala s e 2000. godine u odnosu prema prethodnoj, 1 999. godini u prosjeku za 5%. VO I
=
Zbog nepostojanja jedinstvene metodologije računanja skupnih indeksa, računa se i tzv. Fischerov " idealni" skupni indeks količina, odnosno cijena. On se računa kao geometrijska sredina dvaju i ndeksa količina (odnosno cijena), od kojih je jedan Laspeyresov, a drugi Paascheov. Za prethodni primjer Fisherovi skupni indeksi bi iznosili:
QO I
.J105,5 · 1 03,9 = 1 04,7
POl .J1 00,9 · 99,5 = 1 00,2 .
182
POGLAVUE 5
Za potrebe ekonomskih analiza u statističkim se zavodima raču naj u različiti posebni oblici skupnih indeksa količina, kao npr. indeksi fizičkog obujma različitih grana proizvodnje, te različite vrste skupnih indeksa cijena, kao skupni indeksi cijena poljoprivrednih proizvoda, industrijskih proizvoda, skupni indeksi cijena u trgOVini na veliko, u trgovini na malo itd. Od posebne je važnosti slmpn i indeks troškova života, kao posebni oblik skupnog indeksa cijena. Pri njegovu se računanju prate promjene cijena samo artikala i usluga potrebnih za svakodnevni život. Služi za izračunavanje realnih plaća i indeksa realnih plaća prema obrascima: ' real nI" Iznos place
=
. der1-.. ' ln e; realm'Jl placa
nominalni iznos indeks troškova života : I OO
=
iznos nominalnih indeks troškova života
· 1 00.
Postupak dijeljenja nominalnih iznosa skupnim indeksom cijena (a indeks troškova života je vrsta skupnog indeksa cijena) je "čišćenje" nominalnih iznosa od inflacije i naziva se deJlacioniranje.
5.3.5. Srednje vrijednosti vremenskih nizova 5.3.5. 1 . Aritmetička
sredina
Izbor srednje vrijednosti vremenskog n iza ovisi o tome radi li se o intervalnom ili trenutačnom vremenskom nizu, te radi li se o stacionarnoj ili dinamičnoj pojavi . Ako se radi o intervalnom vremenskom nizu i o stacionarnoj pojavi, čije frekvencije variraju oko neke zamišljene paralele s osi apscisa, jednostavna aritmetička sredina je prikladna srednja vrijednost vremenskog niza. II takvom, dakle, slučaju računamo:
Reprezentativnost izračunanog prosjeka mjerimo na uobičajeni način, tj. pomoću varijance, standardne devijacije j koeficijenta varijaCije: II
2)y, t=1
11
VREMENSKI N IZOVI
1 83
V = � ·l OO . Y
Varijancu, odnosno standardnu devijaciju računamo najlakše preko momenata, bilo onih oko nule, bilo onih oko odabrane konstante "a" , kao što je to opisano u prethodnim poglavljima. Aritmetičku sred inu intervalnog niza računamo i onda kad raspolažemo s vrlo malim brojem frekvencija, npr. podacima o proizvodnji za tri mjeseca. U takvom se slučaju može izračunati prosjek triju frekvencija njihovim zbrajanjem i dijeljenjem s tri, bez obzira na eventualnu odsutnost njihove stacionarnosti, mada je pitanje što se time dobiva. 5.3.5.2.
Kronološka sredina
Za trenutačni vremenski niz, ako je stacionaran (što vidimo npr. iz grafičkog prikaza) i ako je pojava snimana u jednakim vremenskim razmacima, računa se kronološka sredina pomoću i zraza
Y1 + y
_ _ , _ "
,li
2
==
11-1
+ ""
n-l
y
LJ ·l 1-2
( 5.20.)
To je oblik izraza za vaganu aritmetičku sredinu u kojoj su ponderi vremenska razdoblja između dvaju sukcesivnih snimaka pojave. Ako razdoblja nisu jednaka, ponderi se posebno računaju tako da se razdoblja između pojedinih datuma, na koje se podaci odnose, raspodijele na po dva jednaka dijela. Svaki se podatak, tj . frekvencija, množi ponderom koj i čine polovica razdoblja prije i polovica razdoblja nakon datuma na koji se t a frekvencija odnosi. U općem slučaj u , izraz za kronološku sredinu , s vremenskim razdobljima w kao ponderima glasi: n
L:Yt w/ y = -,-I==..!I_ L:w/ n
( 5 .2 1 .)
1=1
Primjenu kronološke sredine pokazat ćemo na dva pnmJera. U oba se slučaja radi o trenutačnim i stacionarnim nizovima, što se vidi po frekvencijama koje variraju oko 200. Hačunat ćemo prosječni broj zaposlenih jednog poduzeća u razdoblju od devet mjeseci. U prvom su primjeru frekvencije ekvidistantne, tj. među njima je jednaki vremenski razmak\ a u drugom nisu. 4) Jedl1Qslavl1Qsti radi, ulimamo da su svi mjeseci jednake veličine.
1 84
..
POG LAVLJ E 5
Ta bela 5 . 1 1 . Zapos l e n i u poduzeću "A" 1 .-g . mjesec 2000 . , stanje krajem mjeseca
Mjesec
Broj zaposlenih
t
YI
l
!
Ponderi Wt
2
Yili-Jt
3
4
l.
200
0,5
100
2.
200
l
200
3.
202
l
202
4.
201
l'
201
5.
1 99
1
199
6.
202
1
202
7.
200
1
200
8.
203
1
203
9.
202
0,5
101
Ukupno
8
1 608
Iz postupka izloženog u tabeli 5 . 1 1 . vidi se da je i zraz ( 5 .20.) samo specijalni slu čaj izraza ( 5 . 2 1 .), odnosno, u slučaj u jednako vremenski udaljenih podataka poluzbroj što i množenje frekvencija J I i JtI ponderima 0,5 i njihovo zbrajanje nakon toga.
11-1
J
JI + )"2 + L Jt 2 t",)
---�=- = ...!.::.!.--
n -l
1 608 8
-- =
201 zaposlenI. .
2
isto je
VREME NSKI N I ZOVI
�
1 85
Tabela 5. 1 2 . Zaposleni u poduzeću "A" 1 . - g . mjesec 2000 . , stanje krajem mjeseca Mjesec
B roj zaposlenih
t
y,
1.
200
Razdoblja
Polovine razdoblja
3
4
2
l
2
l
l
3
9.
202
Ukupno
-
6
l
200
1 ,5
303
2
402
2,5
500
l
202 1607
1,5 1,5
200
7.
y,w,
5
0,5 0,5
201
4.
w,
l
202
3.
Ponderi
2
l l
8
-
8
n
ji
2 >, w,
=
-'-.'=--,-1__ n
1 607
= __ =
L W,
8
200,87 5 "". 20 1 zaposleni.
' =1
Kolone 3 i 4 tabele 1 1 . 2.2. jesu pomoćne kolone i mogu se izostaviti. Ovdje su u metnute radi razjašnjenja računanja pondera WtO Prvi ponder 1 u stupcu br. 5 jest polovina od 2 mjeseca, koliko je proteklo između datuma kada su zabilježena prva dva podatka. Drugi ponder je 1 , 5 , tj . polovina o d 2, plus polovina jednomjesečnog razdoblja koje slijedi, 0 , 5 itd.
5.3.5.3. Geometrijska sredina Radi li se o dinamičkoj pojavi (bez obzira na to je li niz intervalni ili trenutačni) , može nas interesirati brzina njezina rasta ili pada. Prosječni tempo promjene pojave u nekom razdoblju
1 86
POG LAVLJ E 5
računa se pomoću geometrijske sredine. Ona se definira kao (n- I ) korijen produkta verižnih indeksa vremenske serije: G Kako
/I{j V
2
je
YI
. . ll
.
Y3 '"
1 00 .
\!
. /I-l V/I
( 5 .22.)
.
V3 = h. · 1 00 . . . V,,_ I ==
yz
YII-2
· 100 . V,,=
Y,,-l
· 1 00 .
njihovim
množenjem dolazi do kraćenja brojnikn indeksa V2 s nazivnikom indeksa Vl . kraćenja broj niku indeksa Vl s nazivnikom indeksa V. itd. Ako pomnožirno svih YI- I verižnih indeksa dobivamo: Y2'Y3
•
..
G = n-l
· Yn.)·Yn
=
fi:. . I OO .
V YI
� · 1 00 n-1 pa j e YI
'
•
( 5 .2 3 . )
Geometrijska sredina je izrazom ( 5 .22.) i ( 5 . 2 3 . ) dana u obliku prosječnoga verižnog indeksa. Kako je množenje sa 1 00 kod računanja indeksa prisutno samo i nterpretacije radi Uer je interpretiranje u postocima vrlo rašireno i omiljeno). to se ono može i izostaviti. U tom se slučaju izraz za geometrijsku sredinu reducira na
G=
n-fi .
( 5 .24.)
Geometrijska sredina, računana pomoću izraza ( 5 .24.) , dana je u obliku prosječnoga verižnog indeksa iz kog je uklonjeno množenje sa 1 00 s Iz istog se izraza vidi da je za računanje geometrijske sredine dovoljno podijeliti posljednj u s prvom frekvem:ijom niza i izvaditi korijen veličine 11 - L Geometrijska se sredina može računati i pomoću indeksa n a stalnoj bazi jer s u proporcionalni originalnim frekvencijama p a modifikacija prethodnog izraza ( 5 .24.) za geometrijsku sredinu glasi: G = Il
-f.
.
( 5 .2 5 . )
Treba napomenuti da s e geometrijska sredina smije računati samo za pojave u razdoblju u kome one bilo neprekidno rastu. bilo neprekidno padaju. U takvim su slučajevima svi verižni indeksi ili iznad ili ispod 1 00. Također. osim što svi verižni indeksi moraj u biti bilo veći, bilo 5) Mnogi autori razlikuju indekse od koeficijenata. Kvocijente razina pojave dvaju razdoblja koja se usporedulu, bel množenja s a 100 nazivaju koeficijentima, a nakon množenja sa 100 indeksima. Ima, međutim, autora koji se dosta ležerno odnose prema tim nazivima ; rabe naziv indeks bez obzira na to je li obavljeno množenje sa lOO ili ne.
VREMENSKI N IZ OVI
1 87
manji od 1 00, oni moraju biti i približno istog reda veličina, jer u protivnom računanje geometrijske sredine ne bi imalo smisla. Na primjer, kad bi jedne godine pojava porasla u odnosu prema prethodnoj za 2% (verižni indeks 1 02), a sljedeće za 1 20% (verižni indeks 220) , onda ne bi bilo uputno tvrditi da se pojava u tom razdoblju prosječno godišnje povećavala za 49,8%, tj. približno za 50% (
.JI 02 · 220
=
1 49,8 ).
Pomoću izračunane geometrijske sredine možemo utvrditi prosječnu stopu kojom se pojava u prosjeku mijenjala u promatranom razdoblju. Ako je geometrijska sredina izračunana u obliku prosječnoga verižnog i ndeksa, dakle ako je u rezultatu sadržano množenje sa 1 00, stopa se računa kao kod svakog indeksa, tj. prosječna stopa promjene
=
prosječni verižni indeks - 1 00.
Dakle, ako je geometrijska sredina računana pomoću izraza (5.22.) ili (5.23.), prosječna stopa promjene iznosi:
S
C
IDO.
( 5.26.)
Ako je geometrijska sredina računana pomoću izraza ( 5 .24.) ili ( 5 . 2 5 .) , tj. ako je dana u formi prosječnoga verižnog indeksa "očišćenog" od množenja sa 1 00, prosječna se stopa promjene pojave u promatranom razdoblju računa pomoću obrasca:
S
(C 1) · 100.
(5.27.)
Geometrijska sredina je vrlo pogodno sredstvo za planiranje. za buduće se razdoblje izračunaju teoretske frekvencije na takav način da se početna empirijska frekvencija za svaku sljedeću godinu (ili neku drugu vremensku jedinicu) množi planiranom geometrijskom sredinom. Primjenu geometrijske sredine ćemo pokazati na jednostavnom primjeru. U tabeli 5 . 1 3. koja slijedi dani su podaci o proizvodnji artikl� "A" u tonama za razdoblje 1 994.-2000. za empirijske su podatke izračunani verižni indeksi te pojedinačne stope promjena, kako bi se potkrijepila opravdanost računanja geometrijske sredine, U stupcu 5 dane su teoretske frekvencije.
188
�
POG LAVLJ E 5
Tabela 5. 1 3. Proizvodnja tonama
Godina
u
Verižni indeksi proizvodnje
Pojedinačne stope promjena
Teoretske (očekivane) frekvencije
Ostvareno planirano
V,
SI
YI
YI - YI
-
-
400
-
t
YI
1994.
400
1995.
414
1 03,5
3,5
416
-2
1996.
432
1 04,3
4,3
433
-
1997.
450
1 04,2
4,2
450
O
1998.
470
1 04,4
4,4
468
2
1999.
480
102,1
2,1
487
-7
2000.
506
105,4
5,4
506
O
2
I
3
4
5
6
l
Vidimo da pojava neprekidno raste jer je svaka empirijska frekvencija u stupcu 2 veća od prethodne, te da su svi verižni indeksi veći od sto i usto približno istog reda veličina, što se vidi i iz stupca s pojedinačnim stopama uzastopnih promjena koje su u rasponu od 2, 1 do 5,4%. Znači, uvjeti za računanje geometrijske sredine su ispunjeni. Ona u ovom slučaju iznosi: G
=
,,-lu.: VJ; =
7-�
506 400
;:::; 1,04 .
Do geometrijske sredine možemo doći i vađenjem šestoga korijena iz produkta verižnih indeksa iz stupca br. 3, odnosno:
G
�
'-4V, . V, . ... . V._, . v.
�
.�tr 1=2
V, VI 03,5 · 1 04,L. · 1 05,4 �
�
V1,263 7443 5 5 · 1 0" " 1 04.
Na prvi je pogled vidljivo da je prvi način računanja mnogo jednostavniji i treba ga rabiti kad god raspolažemo originalnim frekvencijama ili njima proporcionalnim veličinama (indeksima na stalnoj bazi, na primjer) .
VRE M E NSKI N IZOVI
189
Iz oba s e rezultata vidi d a j e prosječna stopa porasta proizvodnje artikla " A " u razdoblju 1 994.-2000. iznosila 4% na god in u, tj .
S (G - 1) · 1 00 ( 1 ,04 =
S
=
G - 1 00
1 04
1 00
1 ) · 1 00
4%, odnosno
4%.
U stupcu br. 5 su teoretske frekvencije, tj. frekvencije kakve bi bile da se proizvodnja ravnomjerno povećavala, tj . da je rasla točno prema izračunanoj stopi. One su izračunane tako da je početna empirijska frekvencija povećana u sljedećoj godini za 4% itd . Preciznije,
YI
YI = 400
416 4 1 6 · 1 ,04 = 400 . 1 ,042 = 4 3 3
487 · 1 ,04 = 400 · 1 ,04" = :;06. FrekvenCije u stupcu br. 5 moglo se izračunati i unaprijed, odmah nakon isteka 1 994. godine. Zamislimo da je poduzeće za razdoblje do 2000. godine planiralo prosječni godišnji porast proizvodnje od 4%. U tom bi slučaju plan u cijelosti bio ispunjen, mada je u nekim godinama bilo i podbačaja plana, kao što se vidi iz stupca br. 6 . Planiranje budućih frekvencija za razdoblja nakon n-tog provodi se tako da se posljednja, tj. n-ta empirijska frekvencija pomnoži geometrijskom sredinom dignutom na odgovarajuću potenciju. Tako, ako računamo prognozu za dva razdoblja unaprijed, posljednju empirij sku frekvenciju množimo s geometrijskom sredinom dignutom n a kvadrat itd. Kod korištenja geometrijske sredine u svrhu prognoziranja treba procijeniti hoće li se i nakon n-tog razdoblja pojava o kojoj se radi dešavati u istim uvjetima kao i do tada, je samo u tom slučaju prognoziranje opravdano. Zbog toga nije preporučljivo prognozirati za dugo razdoblje . unaprijed. Za prethodn i primjer prognoza za 2003. godinu iznosi:
Y2003. A
506 · 1 ,04 3
569 tona.
5.3.5.4. Trend Kod dinamičkih vremenskih serija često želimo uočiti i na pogodan analitički način izraziti dugoročnu tendencij u razvoja pojave u vremenu. Vremenska se serija Y uobičajeno predstavlja kao zbroj nekoliko komponenata:
Y 6)
T + e + s + R6 .
( 5 .28.)
Takav model naziva s e aditivnim, z a razliku o d multiplikalivnog modela koji čini umnožak navedenih komponenata. gdje je
Y
T· C· S R..
1 90
POGLAVU E 5
T je oznaka za dugoročnu tendenciju razvoja pojave u vremenu, tj. trend komponentu.
e označuje cikličku komponentu kojom su izražena odstupanja od trenda koja se pripisuju općim poslovnim i ekonomskim uvjetima u kojima se pojava odvija. S izražava sezonsku komponentu kojom se opisuju fluktuacije vremenskog niza koje se ponavljaju u određeni m razdobljima vremena. Na primjer, u zimskim su mjesecima aktivnosti u građevinarstvu na najnižoj razini. R je rezidualna komponenta. Ona je neobjašnjeni ostatak pojave nakon što se glavnina obj asni trend komponen tom, te cikličkom i sezonskom komponentom. ReziduaIna se komponenta može djelomično pripisivati nepredvidivim rijetkim događajima, kao što je potres ili teroristički akt, a djelomično nepredvidivim akcijama ljudi. Premda često nije moguće izolirati svaku od komponenata zasebno (to vrijedi ponajprije za cikličku komponentu), ovakva formulacija modela pomaže analitičarima vremenske serije da bolje shvate fluktuacije analizirane pojave. Trend se izražava kao funkcija vremena modelom: Y = f (X) + u.
( 5 .29.)
Pojava je, dakle, u nekom vremenu predstavljena zbrojem funkcijske vrijednosti f (X) vrijednosti slučajne varijable u. Ako npr. na temelju grafičkog prikaza pojave Y zaključi mo da se pojava linearno mijenja u vremenu, odlučit ćemo se za linearnu funkciju, tj. za
f(X)
a + bX.
Linija trenda s ocijenjenim parametrima glasi (kao i kod linearne regresije) :
Y = a + bX,
(5. 30.)
a parametri a i b ocjenjuju se metodom najmanjih kvadrata. za svaku jedinicu vremena jednadžba linearnog trenda s ocijenjenim parametrima glasi Y,
a+
bx"
(5.3 1 .)
a ocjene parametara računaju se pomoću izraza: 11
2:>tYt nxy
b = �--/I ,, ?
-2
(5. 32.)
L.,x; - nx !=I
a
y bi .
( 5 . 33.)
t
VREM ENSKI N I ZOVI
191
Računanje parametara jednadžbe trenda demonstrirat ćemo na nekoliko malih, školskih primjera. Prvi se primjer odnosi na proizvodnju artikla HA", dakle na intervalni niz.
�
Tabela 5 . 1 4 . Računanje parametara l inearnog trenda Godina
Proizvodnja u 000 kom
Varijabla vrijeme
t
YI
X/
X/YI
XI
1 996.
15
l
15
l
1 997.
24
2
48
4
1998.
33
3
99
9
3
2
l
4
2
5
1 999.
42
4
1 68
16
2000 .
42
5
210
25
Ukupno
1 56
15
540
55
i = .!2. = 3 , -y = � = 3 1 2 , 5 ' 5 "
L XtYt - nxy
b = ,- l n
'" L.. X t2 - nx 2 -
t=l
a
72 = 7 2 = 540 - 5 . 2 . 3 1' 2 = ' 55 - 5 · 2 lO 2
= Ji -bi = 31,2 - 7,2 · 3 = 9,6 y = 9,6 + 7 , 2 x
x =
1 , 30.06.1996. god.
Jed. za x
Jed. za y
=
l godina
=
000 kom.
CD
Ovo je standardni oblik jednadžbe linearnoga trenda. Ispod jednadžbe trenda uvijek se navode oznake koje omogućuju interpretaciju izračunanih parametara linearnoga trenda. Parametar b općenito predstavlja prosječnu promjen u pojave u promatranom razdoblju za jedinični porast varijable vrijeme. U ovom ćemo slučaju reći da je proizvodnja artikla HA" u promatranom razdoblju prosječno na godinu rasla za 7,2 tisuće komada.
1 92
POGLAVLJE 5
Parametar a nema neku posebn u i nterpretaciju, osim geometrijske, On je veličina ordinate trenda u ishodištu, tj. točki x = O. U ovom slučaju 9,6 je teoretska proizvodnja izračunana na temelj u jednadžbe za nultu, dakle za 1 99 5 . godinu, preciznije proizvodnju dosegnutu na dan 30.06, 1 99 5 , 7 Računanje trenda moguće je jako pojednostavniti drugačijim računanjem vremena, tj , počevši od sredine niza unaprijed i unazad. Kako je vremenska n ul-točka tada u sredini niza, to je aritmetička sredina n a taj način formulirane varijable vrijeme n ula, pa se izrazi za parametre trenda znatno reduciraju, Uz oznake Xr za na taj način transformiranu varijablu ' vrijeme i a i b ' za parametre l inearnog trenda računane pomoću nje, izrazi za njihovo računanje glase: a
= y,
( 5 , 34.)
"
b' =
2:XtJ't
",, 1= -,1__
(5.35,)
/I
2: x; t=1
Za podatke i z prethodnog primjera izračunat ćemo jednadžbu linearnog trenda pomoću izraza (5. 34.) i ( 5 . 3 5 ,) ,
....
Tabela 5. 1 5 . Računanje para metara linearnoga trenda, linea rno transform irana varijabla vrijeme (tj. ishodište u sredini razdoblja) Godina
I
Varijabla vrijeme
YI
XI
15
-30 -24
l
-1 = 2 - 3
O
0 = 3-3
2
3
X
1 997.
24
-2 -l
1 998.
33
O
O 42
l
1 = 4-3
2
84
4
2
1 996,
)l
Objašnjenje za vrijednosti u stu cu br. 3
Proizvodnja u 000 kom
1 999.
42
2000.
42
Ukupno
1 56
=
5-3
10
Ovdje se radi a i nteflla lnom vremenskom nizu, čije su jrekvencijO nastale l�rajanJem tokom promatranag razdo�lja,
U svrhu proved�e raznih
operacija s trendom, pose�no u svrhu računanja teoretskog nivoa pOjave za manja, npr. mjesečna razdol!lja, uzima se da su svi podaci datirani u sredini razdoblja u kom su nastali, Tako se uzima da su godišnji podaci datirani u sredini pojedine godine, tj, na dan 30,06, Ako se trend rabr samo za analizu godišnjih podataka, datum
30,06, u Gznakama uz jednadžbu trenda može se ilGStaviti,
dovoljna je samo oznaka godine,
1 93
VREMENSKI N IZOVI
a
. =
ji
X ""
; = 3 1 ,2 .
3 1 ,2 + 7,2 x
0, 30.06. 1998. gOd.
(?)
Jed. za x = 1 godina Jed. za y = 000 kom. '
Vidimo da se jednadžba CD od jednadžbe @ razlikuje samo u parametru a , što je i logično jer ordin ata na dan 30. 06. 1 998., budući da se radi o rastućem trendu, mora biti veća od ordinate na dan 30. 06. 1 99 5 . za tri prosječna godišnja porasta proizvodnje. Dakle, 3 1 ,2 9,6 + 3· 7,2 . U posljednjem, šestom stupeu tabele 5. 1 5 . pokazano je da se vrijednosti varijable vrijeme iz stupea br. 3 te tabele mogu shvatiti kao rezultat linearne transformaeij e koja se provodi na vrijednostima varijable vrijeme iz stupca br. 3 tabele 5 . 1 4 . prema obrascu: XI XI X . Zbog toga se jednadžba @ naziva i jednadžba na temelju linearno transformirane (kodirane) varijable vrijeme. l\apominjemo da se opisani postupak transformacije varijable vrijeme provodi kod neparne duljine serije. Kod parnog broja frekvencija postupak linearne transformacije je drugačiji i opisan je u primjeru prikazanom u tabeli 5 . 1 8 . ovog poglavlja. -
Pomoću jednadžbe linearnog trenda računaju se trend vrijednosti, tj . vrijednosti koje pojava teoretski poprima na temelju izračunane jednadžbe. One se računaju na isti način kao i regresijske vrijednosti, tj . uvrštavanjem odgovaraj ućih vrijednosti nezavisne varijable vrijeme u jednadžbu trenda s ocijenjenim parametrima. One u našem slučaju iznose:
1 94
....
POGLAVUE 5
Tabe l a 5 . 1 6. Trend vrijednosti
Godina
Trend vrijednosti
t
Y/
l
Računanje trend vrijednosti
"
al pomoću jednadžbe CD
2
3
1996.
1 6,8
1 6,8
=
1 997.
24,0
24,0
=
1 998.
3 1 ,2
3 1,2
=
1 999.
38,4
38,4
2000.
45,6
45,6
Ukupno
156
=
bl pomoću jednadžbe @ 4
9,6 + 7,2 · 1
16,8
9,6 + 7 ,2 · 2
24,0
3 1 ,2 + 7,2 · (- l)
9,6 + 7,2 · 3
31,2
3 1 ,2 + 7,2 · O
9,6 -I: 7,2 · 4
38,4
9,6 + 7,2 · 5
45,6
=
3 1 ,2 + 7,2 . (-2)
3 1 ,2 + 7,2 · 1 =
31,2 + 7,2 · 2
-
-
Vidimo da je zbroj trend vrijednosti jednak zbroju originalnih frekvencija, tj .
n
n
;=1
;=1
L YI LYI '
Frekvencije vremenskog niza, kao i jednadžba trenda (ucrtana pomoću dvije trend vrijednosti) prikazane su na grafikonu 5. 1 3 .
....
Grafikon 5 . 1 3 . Proiz. u 000 kom. 50
40
30
20
10
o
1 996
1 99 7
1 998
1 999
2000
Godina
VREMENSKI N IZOVI
1 95
Jednadžba se trenda, na isti način kao i regresija, rabi za prognoziranje. Prognoziranje unaprijed (ekstrapolacija) opravdano je samo ako se pojava i nakon n-tog razdoblja odvija u približno istim uvjetima kao do tada. Prognoza proizvodnje artikla "A"za 200 1 . godinu pomoću jednadžbe (j) iznosi: 9,6 + 7,2 · 6 '= 52,8 tisuća komada .
hool = )\x:6)
Do istog rezultata možemo doći i pomoću jednadžbe 0 : 3 1,2 + 7,2 · 3 = 52,8 tisuća komada.
Y2001
Ocjena reprezentativnosti izračunanog trenda provodi se na isti način kao ocjena reprezentativnosti regresije. U tu se svrhu računaju varijanca, standardna devijacija i koeficijent varijacije trenda, kao i udio protumačenih u ukupnim odstupanjima.
Varijanca trenda se, jednako kao i kod regresije, računa kao prosjek reziduaIne sume kvadrata:
YI ) 2 (j � = ...:.;;;.:.--- •
y
n
Drugi korijen iz varijance trenda je standardna devijacija trenda:
n
Ona predstavlja prosječno odstupanje opaženih frekvencija od pripadnih trend vrijednosti.
Koeficijent varijacije trenda
V; ,
koji označuje prosje