167 52 214MB
Norwegian Pages 416 Year 1999
GUNNAR G. LØVÅS
Statistikk - for universiteter og høgskoler
Universitetsforlaget
© Universitetsforlaget AS 1999 ISBN 82-00-12755-9
3. opplag 1999
Det må ikke kopieres fra denne boka i strid med åndsverkloven eller avtaler om kopiering inngått med Kopinor, interesseorgan for rettighetshavere til åndsverk. Kopiering i strid med lov eller avtale kan medføre erstatningsansvar og inndragning, og kan straffes med bøter eller fengsel.
Forfatteren har mottatt støtte fra Faglitterært fond.
Henvendelser om denne boka kan rettes til: Universitetsforlaget AS Postboks 2959 Tøyen 0608 Oslo
Omslag: Anneli Skaar Trykk: Falch Hurtigtrykk A/S, Oslo 1999
11
Forord Jeg har skrevet denne boka fordi jeg synes at statistikk og sannsynlighet sregning er nyttig og spennende, og for at du skal lese den. Du blir herved invitert med på en “reise’’ der vi i fellesskap skal bli kjent med statistikkfagets viktigste temaer. Boka er primært skrevet for deg som ønsker å bruke statistikk som et verktøy i din framtidige arbeidssituasjon. Du kan godt tenke på denne boka som en verktøykasse. Her finnes det mange generelle verktøy (skrujern, hammer og sag) som du helt sikkert får bruk for, og noen spesialverktøy (drill og vinkelsliper). Vi kommer til å bruke mest tid på de generelle verktøyene, men du bør også orientere deg om hvilke spesialverktøy som finnes. Jeg har derfor inkludert beskrivelser av flere spesialverktøy enn det som er vanlig i en innføringsbok. Jeg har valgt å gruppere verktøyene etter hvilke typer oppgaver de er ment å løse. Statistikkfaget inngår som et basisfag i de aller fleste utdanninger på høgskole- og universitetsnivå. Enten du studerer økonomifag, ingeniørfag, fiskerifag eller farmasi, så passer denne boka for deg. De ulike fagdisiplinene vektlegger ulike deler av faget, men basisverktøyene er de samme. Behovet for spesialverktøy vil variere, men uansett hva du studerer, er det stor sannsynlighet for at boka inneholder det verktøyet du trenger. For å gjøre boka lettlest, interessant og underholdende har jeg valgt eksempler fra mange ulike fagområder. I “gamle” lærebøker var ofte forordet fullt av lovprisninger til alle sekretærene som ved hjelp av skrivemaskin hadde tatt hånd om forfatterens håndskrevne manus. Det var også vanlig at bøkene inneholdt en stor mengde tabeller og beregningsformler som kunne være til hjelp når leseren skulle utføre krevende beregninger for hand. Slik er det ikke lenger - verden har forandret seg! Hele denne boka er produsert ved hjelp av min lille, bærbare datamaskin. Det gjelder ikke bare tekst og figurer, men også alle beregningene. Jeg har selv benyttet beregningsprogrammene Excel og Minitab, og forklarer gjennom hele boka hvordan du kan bruke disse programmene til a utføre dine egne beregninger. Etter at datamaskinen ble allment tilgjengelig, har faget endret karakter. Nå er det viktigst at du forstår ideene og vet hvordan de ulike verktøyene kan brukes (og eventuelt misbrukes). Dette kan også være vanskelig, men stiller deg ovenfor andre utfordringer enn de regnetekniske. Etter Reform 94 i den videregående skolen er det mange studenter som allerede kan mye statistikk. Andre studenter har ingen forkunnskaper. Det er også svært variabelt hvor mye matematikk studentene behersker. Det gir store utfordringer til faglærerne, som må komponere et passelig pensum. På sikt vil jeg håpe at flest mulig studenter har kunnskaper som svarer til de to-tre første kapitlene i denne boka. Da blir det mer tid til de nyttige verktøyene i bokas siste del. Et typisk innføringskurs vil fokusere på kapitlene 3 til 6. som utgjør fagets kjerne og presenterer basisverktøyene sannsynlighetsregning, estimering og hypotesetesting. Kapitlene 7 til 10 presenterer noen av spesialverktøyene. Jeg anbefaler at du velger a fordype deg i ett eller to av disse kapitlene, avhengig av dine faglige interesser. I tillegg synes jeg at du bør lese introduksjonen til de andre kapitlene, slik at du vet hvilke spesialverktøy som fins. Boka er såpass omfattende at den også kan brukes til et videregående kurs der man går i dybden på flere av kapitlene 7 til 10. Jeg har skrevet læreboka for å hjelpe deg i møtet med et nytt fag. Dine medstu denter og forelesere kan også hjelpe deg, men det er du som må lære faget. Skal du lykkes, må du være villig til å bruke tid og krefter og ikke gi opp første gang du “møter veggen". Diskuter problemene med noen, og les en gang til. Da er det stor sjanse for at du kommer deg videre. Hvis du lykkes, vil du lære hvordan du bør forholde deg til usikker informasjon, hvordan du skal samle inn og analysere data, og hvordan du kan
iii ta gode beslutninger. Jeg håper at du vil like bade statistikkfaget og denne boka, og ønsker deg lykke til videre på reisen. Nar denne boka endelig har blitt ferdig, er det mange som fortjener en takk. Mitt første skikkelige møte med statistikkfaget fikk jeg som student ved NTH i Trond heim og siden ved Universitetet i Oslo. Jeg vil takke alle mine dyktige og engasjerte faglærere for at de penset meg inn på statistikksporet. Mange av dem har også deltatt i diskusjoner om denne boka, og gitt meg gode ideer til fagvalg og presentasjonsform. Statistikkfaget er utrolig spennende, og helt siden studietiden har jeg gått med en liten forfatter i magen og hatt lyst til å skrive en lærebok. På en mate er det tilfeldig at jeg kom igang med skrivingen, men den positive mottakelsen jeg fikk av forlagsredaktør Geir Tufteland, var utvilsomt med på å sette fart på planene. Han har vært en viktig bidragsyter helt fra første stund, både som inspirator og innpisker når det til tider har vært nødvendig. I prosjektets tidlige fase hadde jeg stor nytte av kommentarer fra John Tyssedal og detaljerte innspill fra Rune Winther, som også bidro i arbeidet med å lage bokas disposisjon. Bjørn Auestad leste gjennom en tidlig versjon av boka og gav meg mange nyttige tilbakemeldinger. Dag Gundersen leste gjennom det komplette manuskriptet med falkeblikk. og han oppdaget en utrolig mengde skrivefeil og unøyaktigheter som nå er rettet opp. Finner du flere feil, så skyld på meg! Boka inneholder mange oppgaver, og de mest spennende er antakelig eksamensoppgavene. Jeg vil rette en stor takk til faglærerne Ingrid Glad, Amir Hashemi, Harald Horten, Gorrn Jacobsen, Dag Nylund, Arild Wikan og Rune Winther som velvillig har latt meg gjengi eksamens oppgaver med løsninger fra henholdsvis Universitetet i Oslo og høgskolene i Bergen, Sør-Trøndelag, Agder, Hedmark, Harstad og Stavanger. Mine arbeidsgivere, Statuett og Hålogaland Kraft, fortjener også en takk for å ha lagt forholdene godt til rette for forfattervirksomheten min. Min aller største takk går til mine kjæreste, Randi, Jonas og Håvard, som gir meg mye glede, og hver dag drar meg ut av min bokverden og hjem til middagsgryter, legoklosser og fjellturer. De siste månedene har det riktignok blitt lite av denslags, siden bokprosjektet har tatt og fått rner tid enn noen skulle ha trodd. Jeg gleder meg til å komme hjem igjen, og til å bli en mer spennende mann og far.
Harstad, november 1998 Gunnar G. Løvås PS. Hvis du oppdager noen feil eller har andre kommentarer av positiv eller negativ art, vil jeg gjerne høre fra deg. Send en kort melding til [email protected], og jeg vil være deg stor takk skyldig. Alle som gir verdifulle bidrag, kan håpe på hederlig omtale i forordet til neste utgave av boka. D.S.
Innhold I Innledning
1
1
3
Hva er statistikk?
1.1
1.2
1.3 1.4
1.5 2
Bokas innhold............................................................................................................. 1.1.1 Noen eksempler............................................................................................ 1.1.2 Historie.......................................................................................................... 1.1.3 Bokas oppbygning..................................................................................... Noen viktige begreper............................................................................................ 1.2.1 Populasjon og utvalg................................................................................. 1.2.2 Variasjon....................................................................................................... 1.2.3 Variabel ty per................................................................................................ Modeller • Innsamling av data................................................................................................... 1.4.1 Problemløsning krever data................................................................... 1.4.2 Generelt om datainnsamling.................................................................... Oppsummering..........................................................................................................
Hva er fakta om utvalget?
2.1 2.2 2.3
2.4
2.5
2.6 2.7 2.8 2.9
Beskrivelse av kategoriske data.......................................................................... Beskrivelse av diskrete data.................................................................................. Beskrivelse av kontinuerlige data....................................................................... 2.3.1 Frekvenstabell ............................................................................................ 2.3.2 Histogram....................................................................................................... 2.3.3 Stamme- og bladdiagram....................................................................... 2.3.4 Spredningsplott............................................................................................ 2.3.5 Tidsserieplott................................................................................................ 2.3.6 Generelle diagramtips.............................................................................. 2.3.7 Formen på histogrammet ....................................................................... Sentralmål.................................................................................................................... 2.4.1 Modus.............................................................................................................. 2.4.2 Median.......................................................................................................... 2.4.3 Gjennomsnitt............................................................................................... 2.4.4 Sammenligning av modus, median og gjennomsnitt..................... Spredningsmål.......................................................................................................... 2.5.1 Variasjonsbredde........................................................................................ 2.5.2 Varians og standardavvik....................................................................... 2.5.3 Variasjonskoeffisient................................................................................. Skjevhet og kurtosis*................................................................................................ Grupperte data*...................................................................................................... Statistikk med Excel............................................................................................... Statistikk med Minitab............................................................................................
3
3 3 6 7 8 8 10 11 12 13 13 15 1” 19 19 22 24 24 25 27 27 28 29 30 31 32 32 33 35
36 37 37 40 40 11 42 48
4
INNHOLD
2.10 Oppsummering.......................................................................................................... 2.11 Oppgaver....................................................................................................................
Sannsynlighetsteori
II 3
53
Sannsynlighetsregning
55
3.1
Utfallsrom og hendelse............................................................................................
55
3.2
Sannsynligheten for en hendelse..........................................................................
58
Uniform sannsynlighetsmodell................................................................ Sannsynlighet basert på relativ frekvens..........................................
59
3.2.1 3.2.2
3.3
3.4
65
Litt mengdelære........................................................................................
66
3.3.2 Sannsynlighetsregningens aksiomer..................................................... 3.3.3 De viktigste regnereglene....................................................................... Betingede sannsynligheter..................................................................................... 3.4.1 Definisjon......................................................................................................
68 69 72
Regler for betingede sannsynligheter.................................................. Litt om Bayes............................................................................................... Hendelsestre ...............................................................................................
74 77
3.4.2 3.4.3 3.4.4
3.5
3.6
3.7 3.8 3.9
Uavhengige hendelser
............................................................................................
4.2
4.3 4.4
4.5 4.6
64
66
72
79
81
3.5.1
Er hendelsene uavhengige?
...................................................................
82
3.5.2
Regler for uavhengige hendelser............................................................
83
Telleregler - Kombinatorikk.................................................................................
85
3.6.1 3.6.2
Produktregelen............................................................................................ Urnemodellen...............................................................................................
86 87
3.6.3
De viktigste tellereglene..........................................................................
87
3.6.4 Sannsynligheter basert på kombinatorikk ....................................... Bruk av datamaskin...............................................................................................
91 94
Oppsummering.......................................................................................................... Oppgaver....................................................................................................................
94
Stokastiske variabler
4.1
60
3.2.3 Subjektiv sannsynlighet for en hendelse.......................................... 3.2.4 Eksempel på tallfesting av sannsynligheter....................................... Innføring i sannsynlighetsregning....................................................................... 3.3.1
4
5Q 5Q
95 99
Stokastiske variabler...............................................................................................
99
Diskrete sannsynlighetsmodeller..........................................................................
101
4.2.1
Sannsynlighetsfordeling..........................................................................
101
4.2.2
Forventningsverdi ........................................................................................
106
4.2.3
Varians og standardavvik.......................................................................
Kontinuerlige sannsynlighetsmodeller................................................................ Flere variabler samtidig........................................................................................
111 114 121
4.4.1
Simultanfordeling........................................................................................
121
4.4.2 4.4.3 4.4.4
Kovarians og korrelasjon.......................................................................... Uavhengighet............................................................................................... Hendelsestre ...............................................................................................
123 126 127
Oppsummering.......................................................................................................... Oppgaver....................................................................................................................
128 129
INNHOLD 5
Vanlige sannsynlighetsmodeller
133
Innledning.................................................................................................................... Binomisk modell...................................................................................................... Hy per geometrisk fordeling..................................................................................... Geometrisk fordeling............................................................................................... Poissonfor de lingen................................................................................................... Eksponentialfordelingen........................................................................................ Normalfordelingen ................................................................................................... 5.7.1 Historie.......................................................................................................... 5.7.2 Normalfordelingen..................................................................................... 5.7.3 Sjekk av normalitet ................................................................................. 5.8 Sentralgrenseteoremet ............................................................................................ 5.9 Andre modeller*...................................................................................................... 5.9.1 Kj ikvadratfor delingen............................................................................. 5.9.2 Student t-fordelingen................................................................................. 5.9.3 Fisher F-for delingen................................................................................. 5.9.4 Multinomisk fordeling............................................................................. 5.9.5 Binormalfor de lingen................................................................................. 5.10 Bruk av datamaskinen............................................................................................ 5.10.1 Excel ............................................................................................................. 5.10.2 Minitab.......................................................................................................... 5.11 Oppsummering.......................................................................................................... 5.12 Oppgaver....................................................................................................................
133 135 139 141 142 146 150 150 150 156 157 162 164 165 166 167 168 170 170 171 171 171
5.1 5.2 5.3 5.4 5.5 5.6 5.7
III 6
5
Grunnleggende statistikk
175
Estimering og hypotesetesting 177 6.1 Et innledningseksempel........................................................................................ 177 6.1.1 Hvilken vraksannsynlighet har det nye utstyret? ......................... 178 6.1.2 Hvor sikkert er estimatet?....................................................................... 179 6.1.3 Er det nye utstyret bedre enn det gamle?....................................... 180 6.1.4 Bør AluProd kjøpe det nye utstyret?................................................. 183 6.2 Punkt estimering...................................................................................................... 183 6.2.1 Basisteori...................................................................................................... 184 6.2.2 Punktestimat for forventningsverdien p.......................................... 186 6.2.3 Punktestimat for standardavviket a................................................. 187 6.2.4 Punktestimat for sannsynligheten p ................................................. 189 6.2.5 Punktestimat for raten Å ...................................................................... 190 6.2.6 Stratifisering*............................................................................................... 190 6.3 Konfidensinter valler ............................................................................................... 191 6.3.1 Teori................................................................................................................. 191 6.3.2 Konfidensintervall for p, når a er kjent (Z-intervall)..................... 193 6.3.3 Konfidensintervall for p når rr er ukjent (T-intervall).................. 194 6.3.4 Konfidensintervall for n.......................................................................... 196 6.3.5 Konfidensintervall for sannsynligheten p.......................................... 197 6.3.6 Konfidensintervall for raten Å............................................................... 201 6.4 Hypotesetesting - metode og teori................................................................... 201 6.4.1 Etablering av modell og formulering av hypotesene..................... 202 6.4.2 Testobservator og forkastingsområdets form................................... 203 6.4.3 Valg av akseptable feilsannsynligheter.............................................. 204 6.4.4 Spesifikasjon av forkast ingsområde og prøvest ør reise.................. 206
G
INNHOLD
6.5
6.6 6.7
6.8 6.9
IV 7
Andre anvendelser
Analyse av sammenhenger 7.1 Innledning.......................................................................................................... 7.2 Korrelasjon............................................................................................................. 7.3 Enkel lineær regresjon........................................................................................
7.4 7.5
7.6
7.7
7.8 7.9 8
6.4.5 Testens konklusjon............................................................................. 6.4.6 Sammenheng med konfidensintervaller.............................................. Hypotesetesting i praksis........................................................................................ 6.5.1 Hypotesetest av p nar a er kjent (Z-test)....................................... 6.5.2 Hypotesetest av p når a erukjent (T-test) ..................................... 6.5.3 Hypotesetest av sannsynlighetenp...................................................... Empirisk fordelingsfunksjon* .............................................................................. Bruk av datamaskinen.................................................................................... 6.7.1 Excel ............................................................................................................. 6.7.2 Minitab...................................................................................................... Oppsummering...................................................................................................... Oppgaver.................................................................................................................
7.3.1 Regresjonsmodellen ................................................................................. 7.3.2 Regresjonslinjen........................................................................................ 7.3.3 Hvor god er modellen?............................................................................. 7.3.4 Noen egenskaper........................................................................................ 7.3.5 Er det en sammenheng mellom x og y? .......................................... 7.3.6 Hvilken respons kan vi forvente?........................................................ 7.3.7 Hvilke observasjoner er sannsynlige?................................................. 7.3.8 Kontroll av forutsetningene................................................................... 7.3.9 Vektet regresjon*........................................................................................ Ikke-lineær regresjon............................................................................. Multippel lineær regresjon................................................................................. 7.5.1 Vanlig multippel regresjon...................................................................... 7.5.2 Polynomisk regresjon................................................................................. Tidsrekkeanalyse - prognoser...................................................................... 7.6.1 Trend............................................................................................................. 7.6.2 Sesongvariasjon........................................................................................... 7.6.3 Tilfeldig variasjon .................................................................................... 7.6.4 Prognose ...................................................................................................... Bruk av datamaskinen................................ 7.7.1 Excel .......................................................................................................... 7.7.2 Minitab...................................................................................................... Oppsummering...................................................................................................... Oppgaver..........................................................................................................
Sammenligning av grupper
8.1
Innledning......................................................................................................
8.2
8.1.1 8.1.2 8.1.3 8.1.4 8.1.5 T-test
Hvormange grupper og hvor mange observasjoner?....................... Randomisering............................................................................. Paring og blokkdeling............................................................................. Klyngeutvalg............................................................................................... Hva slags data harvi?............................................................................... for to grupper...............................................................................................
210 212 212 212 214 215 216 217 218 218 218 219
223 225 225
227 230 230 231 233 234 235 237 237 239 240 241 244 244 247 248 250 251 252 253 9^ 255 256 257 257 263 9g3
264 264 264 266 266 267
INNHOLD
8.3
8.4
8.5
8.6
8.7 8.8 9
8.2.1 Litt sammenligningsfilosofi ................................................................... 8.2.2 Uparet T-test............................................................................................... 8.2.3 Paret T-test................................................................................................... 8.2.4 Vurdering av paret og uparet test........................................................ Variansanalyse for flere grupper.......................................................................... 8.3.1 Noen illustrasjoner.................................................................................... 8.3.2 Enveis variansanalyse ............................................................................. 8.3.3 Samtidige konfidensintervaller............................................................... 8.3.4 Kontroll av forutsetninger...................................................................... 8.3.5 Toveis variansanalyse*............................................................................. 8.3.6 Litt forsøksplanlegging*.......................................................................... Ikke-parametriske tester........................................................................................ 8.4.1 Uparet Mann-Whitney-Wilcoxon-test ............................................. 8.4.2 Paret Wilcoxon-test................................................................................. 8.4.3 Paret fortegnstest .................................................................................... 8.4.4 Kruskal-Wallis’ test av flere grupper* ............................................. Analyse av kategoriske krysstabeller............................................................... 8.5.1 Kjikvadrattest ........................................................................................... 8.5.2 Simpsons paradoks.................................................................................... 8.5.3 Modelltest...................................................................................................... Bruk av datamaskinen........................................................................................... 8.6.1 Excel ............................................................................................................. 8.6.2 Minitab......................................................................................................... Oppsummering......................................................................................................... Oppgaver....................................................................................................................
Statistisk kvalitetsstyring Kontrolldiagrammer ............................................................................................... 9.1.1 Shewhart T-diagram.................................................................................
9.1
9.2
9.3
9.4
9.5 9.6
9.1.2 s-diagram for spredning......................................................................... 9.1.3 Kombinert T-s-diagram.......................................................................... 9.1.4 p-diagram for defektandel...................................................................... 9.1.5 Andre kontrolldiagrammer ...................................................................... Kapabilitet................................................................................................................. 9.2.1 Toleransegrenser og kapabilitetsindeks ............................................. 9.2.2 Fortolkning av kapabilitetsindeks ........................................................ Akseptanskontroll .................................................................................................. 9.3.1 Kontrollens karakteristikk...................................................................... 9.3.2 Akseptanskontroll basert på defektandel.......................................... 9.3.3 Akseptanskontroll basert på målinger ............................................. Bruk av datamaskinen........................................................................................... 9.4.1 Excel ............................................................................................................. 9.4.2 Minitab......................................................................................................... Oppsummering......................................................................................................... Oppgaver....................................................................................................................
10 Simulering
10.1 Simulering av tilfeldige tall ................................................................................. 10.2 Simulering av en stokastisk variabel ............................................................... 10.3 Simulering med datamaskinen............................................................................. 10.3.1 Excel ............................................................................................................. 10.3.2 Minitab.........................................................................................................
7 267 269 271 273 273 274 275 277 278 279 281 282 282 285 286 287 288 288 290 291 292 292 293 293 294 299
299 302 307 308 308 310 311 311 313 315 316 317 319 321 321 321 322 322 325
326 327 329 330 33O
INNHOLD
8
10.3.3 Noen eksempler.......................................................................................... 10.4 Simulering av flere stokastiske variabler ........................................................ 10.4.1 Uavhengige variabler................................................................................. 10.4.2 Avhengige variabler ................................................................................. 10.5 Simulering av funksjoner........................................................................................ 10.6 Simulering av integral*........................................................................................... 10.7 Oppsummering......................................................................................................... 10.8 Oppgaver....................................................................................................................
330 331 333 333 335 339 341 341
A
Eksamensoppgaver
347
B
Ekstra bevis
367
B.l B.2 B.3 B.4 B.5 B.6 B.7
Bevis til kapittel 3.................................................................................................. Bevis til kapittel 4.................................................................................................. Bevis til kapittel 5.................................................................................................. Bevis til kapittel 6.................................................................................................. Bevis til kapittel 7.................................................................................................. Bevis til kapittel 8.................................................................................................. Bevis til kapittel 10..................................................................................................
367 368 369 373 373 375 375
C Litteratur
377
D Fasit
379
E Statistiske tabeller E.l Kumulativ binomisk sannsynlighet................................................................... E.2 Kumulativ poissonfordeling ................................................................................. E.3 Kumulativ standardnormalfordeling ............................................................... E.4 t-fordelingens kvantiltabell.................................................................................... E.5 Kjikvadratfordelingens kvantiltabell ...............................................................
397
398 399 400 401 402
Del I
Innledning
1
Kapittel 1
Hva er statistikk? 1.1 1.2 1.3 1.4
Bokas innhold Noen viktige begreper Modeller Innsamling av data
Side Side Side Side
3 8 12 13
Moderne statistikk er noe annet enn de kjedelige tallene og tabellene du kanskje tenker på. Sannsynlighet steorien ble utviklet på 1600-1700 tallet for å analysere vinnersannsynligheten i forskjellige pengespill. Faget har siden utviklet seg sterkt, og den generelle teorien har fått en rekke anvendelser i naturvitenskap, teknikk, medisin, økonomi og samfunnsvitenskap.
1.1
Bokas innhold
Vi bruker statistikk som hjelpemiddel nar vi skal fatte beslutninger i situasjoner der noe er uforutsigbart eller tilfeldig. I en komplisert verden er det ofte slik: Vi vet om flere mulige konsekvenser, men vi vet ikke sikkert hvilken konsekvens vår beslutning vil få. Beslutninger må fattes selv om usikkerheten er til stede. (Hvis du utsetter beslutningen, har du jo tatt en beslutning.) Gjennom statistikkfaget skal vi se hvordan vi kan fatte gode beslutninger i situasjoner hvor noe er variabelt eller tilfeldig.
1.1.1
Noen eksempler
Som en liten smakebit på hva statistikkfaget dreier seg om, skal vi kort beskrive noen eksempler der faget kan være til stor nytte. • Legemiddeltesting. Før nye legemidler slippes ut på markedet, ma produsen ten bevise at middelet virker, og at det har begrensede bivirkninger. Det blir derfor gjennomført kontrollerte forsøk, først på dyr og deretter på mennesker som har sagt seg villige til å delta i forsøket. Noen av personene får en narrepille (placebo-pille) slik at man kan sammenligne behandlingseffekten hos dem som fikk reell behandling, og hos dem som fikk en narrepille. Hvis legemiddelet gir gode resultater, er det bare tilfeldig, eller skyldes det faktisk at medisinen er god? Statistiske metoder kan hjelpe legene til å planlegge et godt forsøk (hvor mange forsøkspersoner trengs? hvem skal få narrepiller?), og til å analysere resultatene etterpå (beviser resultatene at middelet virker?).
3
KAPITTEL 1. HVA ER STATISTIKK?
4
• Økonomiske risikovurderinger. Svært mange bedrifter kjennetegnes av at både utgifter og inntekter er usikre: Råvareprisene varierer, rentekostnader vari erer, produksjonskostnadene er usikre, markedsprisen for sluttproduktet varierer, og man vet ikke hvor mange produkter man klarer a selge. For å sette opp et budsjett må bedriften anslå disse viktige størrelsene. Statistikkfaget kan hjelpe til med å gi et bilde av hvilket overskudd bedriften kan forvente, og hvor stor risikoen er for å gå med underskudd. • Teknisk risikoanalyse. Ved dimensjonering av bygninger (oljeplattformer, bro er, boligblokker, demninger) stilles man hele tiden overfor spørsmålet: Hvor
sterke skal konstruksjonene være, hvor sterk påvirkning skal de tåle? Hvor sannsyn lig er det at bygningene blir utsatt for de sterkeste påkjenningene de er ment å tåle? Bør norske hus tåle jordskjelv (slik som hus i Los Angeles bør)? Hva er sannsynligheten for jordskjelv i Norge i forhold til LA? Ingeniører må alltid fore ta en avveining mellom hvor sterk konstruksjonen må være, og hvor mye penger man skal bruke på bygningen. I denne avveiningen kan statistikkfaget være til stor hjelp. • Sykdomsrisiko. Hva er sannsynligheten for å få kreft? Er denne sannsynlig heten påvirket av bestemte risikofaktorer, slik som røyking, asbest, radonstråling, kaffedrikking, lettbrus osv.? Det fremmes en mengde resultater fra medisinsk forskning som vi må lære å forholde oss til. Ofte får slike resultater fordreide oppslag i tabloidpressen. Hva betyr egentlig resultatene? Er det sikkert at de er gyldige for hele befolkningen? Er det bare tilfeldig at forsøksresultatet ble som det ble? Slike kritiske spørsmål står helt sentralt i statistikkfaget, innenfor
fagområdet statistisk hypotesetesting. • Kvalitetstesting. Hvor mange defekte deler er det i et vareparti? Mange typer produkter lar seg ikke kvalitetsteste uten at produktene blir ødelagt. Da tvinges vi til å si noe om hele varepartiet på grunnlag av en tilfeldig utvalgt stikkprøve. Andre ganger er det mulig, men svært kostbart å teste alle produktene, slik at man ønsker å kontrollere så få produkter som mulig. Hvor mange enheter må vi teste? Hvor mange feil kan vi godta i stikkprøven og likevel akseptere varepar tiet? Denne typen spørsmål er svært sentrale i mange industrier, for eksempel for produsenter og kjøpere av bildeler, flydeler og elektroniske komponenter. Sannsynlighetsregningen kan hjelpe til å gi gode svar på disse viktige spørsmå
lene. • Vedlikeholdsplanlegging. Vedlikehold utføres vanligvis for å minimere kost nader knyttet til drift og for å tilfredsstille visse minimumskrav til sikkerhet. I norsk elforsyning brukes hvert år flere milliarder kroner på å vedlikeholde kraft stasjoner og ledninger. Hvis et kraftselskap reduserer vedlikeholdskostnadene, blir det flere feil. For å bestemme riktig nivå på vedlikeholdet må kraftselskapet vite hvilke konsekvenser feilene har, og hvor ofte de skjer. Manglende kunnskap om konsekvensene har i mange tilfeller ført til for høyt vedlikeholdsnivå - for
sikkerhets skyld. En lignende problemstilling har man knyttet til forsikring. Vi vet hva forsikringen koster, men vi vet ikke om vi får noen nytte av den. • Lagerstyring. Det koster penger å ha varer på lager, ved at kapital og areal bindes opp. Men det koster også penger ikke å ha varene på lager når man trenger dem (og best illingst iden for å få tak i varene kan være lang). Det gjel der enten lageret inneholder råvarer og reservedeler til egen produksjon, eller det inneholder salgsvarer som skal leveres til kundene. Ingen vet nøyaktig når reservedelene trengs, eller nøyaktig hvor mange varer kundene vil etterspørre i
1.1. BOKAS INNHOLD
5
neste uke. Kunnskap om de ulike kostnadene (og om bestillingstid) kan sammen med statistiske data lede fram til regler for optimalt lagerhold. • Prosjektstyring. Et prosjekt kan deles opp i delprosjekter. Vanligvis er det let tere å anslå varighet og kostnad for delprosjektene enn for selve hovedprosjektet. Basert på slike anslag kan sannsynlighetsregningen hjelpe oss å anslå varighet og kostnad for hele prosjektet. Et prosjekt trenger ikke være av Gardermoens størrelse for at slike vurderinger skal være nyttige. • Valg av servicenivå. Mange tjenesteytende virksomheter håndterer en uforut sigbar kundemasse. Man vet ikke på forhånd hvor mange kunder som vil melde sin ankomst neste dag. Problemstillingen er aktuell for matbutikken, banken eller storbedriften som skal velge antall kassepersonale, bankfunksjonærer og sentralbordbetjenter. Er det for få ansatte, blir køene for lange og irritasjonen stor (kundene velger kanskje en annen tjenesteleverandør neste gang). Er det for mange ansatte, blir kostnadene unødig store. Med kunnskap om typiske mønstre i kundenes ankomsttider kan man finne fram til et riktig servicenivå. (Det er
opplagt mange bedrifter som ikke har gjort leksen sin her!) • Juridiske spørsmål. Et hovedprinsipp i retten er at man er uskyldig inntil det motsatte er bevist. All rimelig tvil skal komme tiltalte til gode. Men hvor stor kan tvilen være før den er urimelig? Med sannsynlighetsregning kan man i mange saker beregne hvor stor tvilen er, basert på visse antakelser og observasjoner. I den såkalte Landås-saken i Bergen i 1995 ble en hjelpepleier tiltalt for drap på en rekke pleiepasienter. Påtalemyndighetens hovedindisium var basert på statistikk. Det var spesielt mange som døde når denne hjelpepleieren var på jobb. Retten besluttet at hjelpepleieren skulle frifinnes, fordi den mente at det kunne være tilfeldig at så mange var døde på akkurat disse vaktene. (Retten baserte sin beslutning på sannsynlighetsberegninger presentert av forsvarerne.) • Spørreundersøkelse. De fleste av oss har opplevd å få tilsendt et spørreskjema eller bli oppringt fra et meningsmålingsinstitutt. Spørreundersøkelser kan være nyttige for å kartlegge forhold som ikke lar seg registrere eller måle med vanlige "måleinstrumenter . Slike målinger brukes ofte for å kartlegge hvor tilfredse kun der og medarbeidere er, oppslutningen til politiske partier, preferanser til ulike produkter og generelle holdninger til aktuelle problemstillinger. Svært ofte er det unødvendig og altfor kostbart å spørre hele populasjonen av medarbeidere, kun der og andre involverte. Spørmålene stilles bare til et utvalg fra populasjonen. Resultatene av undersøkelsen danner basis for beslutninger om tiltak som skal iverksettes (av bedriftsledelsen, partiledelsen, markedsssjefen, politikere). Statis tikkfaget gir svar på hvor mange som bør spørres, og hvor sikre resultatene fra
undersøkelsen er. • Optimalisering av produksjonsprosess. I prosessindustrien foregår produk sjonen vanligvis ved at en mengde ulike råstoffer blandes sammen. Kvaliteten på sluttproduktet avgjøres av blandingsforholdene mellom disse stoffene, rekkeføl gen på sammenblandingen, temperaturer, trykk, luftfuktighet osv. I kompliserte produksjonsprosesser er det ofte slik at man ikke har full kontroll på alle input parameterne (de varierer). De produksjonsansvarlige har muligheten til å endre blandingsforhold, temperatur og trykk, men kjenner ofte ikke konsekvensene av slike endringer. For å lære mer om produksjonsprosessen er det vanlig å foreta prøveproduksjoner. Statistikkfaget kan hjelpe til med å planlegge slike prøver og analysere hvilke endringer som vil føre til bedre produktkvalitet.
KAPITTEL 1. HVA ER STATISTIKK':
6
• Mønstergjenkjenning. Et bilde sier mer enn 1000 ord men hva sier bildet? En tomflaskeautomat tar et bilde av flasken som settes inn i automaten. Ingen av bildene blir helt like, siden alle flaskene plasseres litt forskjellig i automaten (i tillegg er alle flaskene litt forskjellige). Automaten må deretter beslutte hva slags flaske dette er. I oljeselskapene analyserer man geologiske test data fra bore hull i Nordsjøen. Hver testmåling “avbildes” med sine karakteristikker. Ingen karakteristikker er helt like. Noen steder er det mye olje, andre steder er det lite eller ingenting. Geologene må gi en anbefaling om hvor de tror det kan finnes olje (helst mye). Oljeselskapet må deretter ta en beslutning om hvor det skal søke konsesjoner og foreta nye boringer.
• Veddemål. Er du villig til å satse 700 kroner på at Norge kvalifiserer seg til Fotball-VM i 2002 hvis du kan vinne tusen kroner dersom du far rett? Norge lyktes i å kvalifisere seg til USA i 1994 og til Frankrike i 1998, men tidligere tiders statistikk taler ikke til Norges fordel. Hvor stor sjanse har Norge for a kvalifisere seg? Det kan være vanskelig å svare på dette spørsmålet direkte, men basert på kampoppsettet i Norges kvalifikasjonsgruppe kan du anslå hvilke kampresultater du har størst tro på. Sannsynlighetsregningen kan hjelpe deg til å kombinere dine gjetninger på en ryddig måte, slik at du far fram en totalgjetning på hvilke sjanser Norge har. • Spill. Mange spill er slik at spillerne må ta beslutninger underveis. I poker må du vurdere om du skal bytte ut kort. Du vet hva du har, men ikke hva du får. Ved ruletten må du velge om du skal satse på rødt eller sort. Du kan observere rulettens resultater i årevis; likevel vet. du ikke hvilken farge som blir resultatet i neste runde. I Yatzy må du underveis bestemme deg for om du skal samle til “hus” eller om du skal prøve å få “yatzy". Det siste er vanskeligere, men gir flere poeng. Du kan ikke vite om du vil lykkes. I alle disse situasjonene kan sannsynlighetsregningen hjelpe deg til å ta gode beslutninger.
1.1.2
Historie
Statistikk har lenge dreid seg om å samle inn store tallmengder og stille disse opp i tabeller, særlig med tanke på å belyse ulike samfunnsmessige forhold. Slik statistikk har vært et viktig hjelpemiddel for politikere og andre makthavere i tusenvis av år. (Tenk bare på Josef og Maria som reiste til Betlehem for å skrive seg inn i manntallet.) Alle siviliserte samfunn har etter hvert bygd opp et stort apparat for å samle inn slike opplysninger. Arven fra romerne videreføres i Norge av Statistisk sentralbyrå (SSB). Statistisk årbok inneholder om lag 500 tabeller som beskriver naturressurser, sosiodemografi, sosioøkonomi, næringsøkonomi, samfunnsøkonomi og samfunnsorganisatoriske emner. Det finnes for eksempel en tabell som heter “ Campingplasser. Tallet på plasser og gjestedøgn". Denne tabellen baserer seg på registreringsskjemaer som samtlige camp ingplasser må fylle ut. I skjemaet skal det opplyses om antall overnattingsgjester hver dag i sesongen, fordelt på nasjonalitet. Kan du forestille deg hvor mye arbeid som totalt sett går med til a lage denne statistikken? (Årlig er det om lag 4 millioner overnattinger pa ca. 750 campingplasser.) Hovedutfordringen i denne type statistikkinnsamling er å motivere dem som skal fylle ut registreringsskjemaene, til å gjøre jobben samvit tighetsfullt og riktig. Denne typen “gammeldags” tallinnsamling vil ikke være tema i denne boka. Moderne statistikk, slik vi definerer statistikkfaget i denne boka, ble først tatt i bruk i samfunnsvitenskap, landbruksforskning og medisinsk forskning. Carl F. Gauss, Francis Galt on og andre oppdaget systematiske mønstre i det som mange trodde var et
1.1.
BOKAS INNHOLD
7
ubeskrivelig kaos. Deres ideer var svært nyttige nar ulike fenomener skulle beskrives. Ronald A. Fisher var blant de forste som innså hvor viktig det var å planlegge eksperi menter på en systematisk måte, slik at det ble mulig å trekke gode konklusjoner etterpå. Utviklingen fram til i dag har resultert i en mengde statistiske metoder som kan benyttes i svært mange sammenhenger. I denne boka skal vi lære om de viktigste metodene, men du skal vite at det finnes flere. Mange flere. Sannsynlighetsregningen har også en lang forhistorie, nær knyttet til terning- og kortspill. Navn som Pierre de Fermat, Blaise Pascal. Jacques Bernoulli og Thomas Bayes star sentralt i den tidlige utviklingen av det som er dagens matematisk baserte sannsynlighetsregning. Selv orn utgangspunktet var nært knyttet til spill, viste det seg raskt at sannsynlighetsregningen også kunne brukes på andre områder. I Norge utga Axel Sophus Guldberg (1838-1913) boka “Om Sandsynlighetsregningen og dens An vendelse paa Hazardspil og Forsikringsvæsen” så tidlig som i 1873.1 denne boka ser han sannsynlighetsregningen som "Kilden til en ny Videnskab, som kunde erholde Anven delser, hvorom man neppe skulde have nogen Anelse, og som griber ind i Forhold som synes at ligge udenfor al menneskelig Beregning". Gjennom bokas mange eksempler skal vi se at Guldberg fikk rett i sin spådom: Sannsynlighetsregningen har “usannsynlig mange" anvendelsesområder.
1.1.3
Bokas oppbygning
Etter a ha lest denne boka bør du beherske de viktigste statistiske metodene slik at du kan bruke dem selv. Du skal også være i stand til å tolke statistiske opplysninger. Boka fokuserer mye på ideer og intuisjon framfor på matematikk og beviser. Hvert kapittel innledes med tekst og illustrasjoner som du kan forstå uten a måtte sette deg inn i matematiske formler. Statistikkfaget inneholder bade statistikk og sannsynlighetsregning. Dette er egent lig to ulike disipliner som griper sterkt inn i hverandre, på den maten at den ene delen ofte er en forutsetning for den andre. Vi trenger statistikk for å skaffe kunnskap til bruk i saimsynlighetsberegningene. Og vi trenger sannsynlighetsregningen for a lage gode modeller som vi bruker når vi gjør statistiske analyser. I denne boka vil vi veksle litt fram og tilbake mellom statistikk og sannsynlighetsregning. Boka består av fire deler, som bør leses i den rekkefølgen de er oppført. Etter Reform 94 er mye av stoffet i del 1 (og noe av del 2 og del 3) tatt inn i matematikkpensum for den videregående skolen. Selv om du har vært borti dette stoffet før, bør du lese igjennom stoffet for a sikre deg at definisjoner, begreper og symboler betyr det som du tror. I Innledning. Du har allerede begynt å lese innledningen, som er ment å være en myk start på statistikkfaget. Viktige begreper skal defineres, og vi skal se hvordan forsøksdata kan presenteres.
II Sannsynlighetsteori. I denne delen skal vi for alvor gå løs på sannsynlighetsreg ningen. med fokus på tilfeldighet og hvilke monstre som tross alt finnes i denne tilfeldigheten. Vi skal lære å regne ut sannsynligheten for at ulike hendelser vil inntreffe. Vi skal lære orn tilfeldige variabler og bli kjent med de vanligste sannsynlighetsfordelingene. III Grunnleggende statistikk. Her skal vi lære orn hvordan vi kan trekke kon klusjoner om hele grupper basert på opplysninger om deler av gruppen. Vi skal se hvordan statistikk kan benyttes for å teste om hypoteser er sanne.
IV Andre anvendelser. I bokas tre første deler lærer du en del grunnleggende teknikker og begreper som kan brukes i ulike sammenhenger. I del IV skal vi ta
8
KAPITTEL 1. HVA ER STATISTIKK?
disse teknikkene i bruk på nye områder. Vi skal lære å analysere sammenhenger mellom ulike tallstørrelser (er det en sammenheng mellom utetemperaturen og solgt mengde iskrem?), og å sammenligne ulike grupper (virker medisin A bedre enn medisin B?). Vi skal også lære om statistisk kvalitetskontroll. Til slutt skal vi se hvordan vi kan simulere tilfeldigheter med datamaskin. Den faglige dybden blir ikke like stor i denne siste delen av boka som i de foregående. Her er hoved hensikten å gi deg en smakebit på hva statistikken kan brukes til. Kanskje du da får lyst til å lære mer?
1.2
Noen viktige begreper
Hensikten med statistiske undersøkelser er ofte å skaffe kunnskap om en stor mengde enheter (individer eller objekter). Alle de enhetene som er av interesse for oss, utgjør til sammen en populasjon. Istedenfor å undersøke alle enhetene velger vi ut noen få. Ut fra svaret vi får fra dette utvalget, forsøker vi å si noe om enhetene i hele populasjonen.
1.2.1
Populasjon og utvalg
Tenk over hva de følgende utsagnene betyr. Er det noen forskjell på innholdet? • Arne, Fride, Annette og Martin foretrekker privatbilen. Randi reiser kollektivt. • 4 av 5 nordmenn foretrekker privatbilen.
• 29 av 36 nordmenn foretrekker privatbilen. • 80 % av alle nordmenn foretrekker privatbilen.
Mange aviser har en 5-på-gaten-spalte der fem tilfeldige personer stilles et spørsmål. I onsdagsavisen uttaler Arne, Fride, Annette og Martin at de foretrekker bilen, mens Randi kjører kollektivt. Fire av de fem foretrekker bilen. Gir det oss grunnlag for å påstå at 80 % av alle nordmenn foretrekker bilen? Nei! Avisen må spørre flere enn fem personer for å trekke en slik konklusjon. Hvor mange må spørres for at avisen skal få et brukbart anslag på andelen som foretrekker bil? 10, 50, 100 eller 1000 personer? Vi skal senere i boka se hvordan vi kan gi et fornuftig svar på dette spørsmålet. En populasjon er stor hvis den består av mange enheter. Det er ingenting i veien for at populasjonen kan være uendelig stor. Hver enhet kan beskrives ved verdien av en eller flere variabler, eksempelvis alder, vekt og bosted. I tabell 1.1 er det vist noen eksempler på populasjoner, enheter og variabler. Av eksemplene i tabellen er det bare barna i klasse 2b som er en liten populasjon. De andre populasjonene er store. Vi må vanligvis begrense oss til å undersøke noen av enhetene, et såkalt utvalg av enheter. Det skyldes at populasjonen er så stor at det er enten umulig, for kost bart eller for tidkrevende å undersøke alle enhetene. Men det kan også skyldes at enhetene må ødelegges for å bli undersøkt (smakstester av pølser, kollisjonstester av biler eller prøveutskytning av raketter er eksempler på slike destruktive tester). Fakta opplysninger om utvalgets enheter er startpunktet for alle statistiske undersøkelser. Målet med statistikkfaget er å si mest mulig (og riktig) om hele populasjonen basert på fakta fra utvalget. Å overføre fakta fra utvalget til kunnskap om populasjonen, kalles generalisering. Dette er illustrert i figur 1.1. Under en arkeologisk utgravning fant man et hulemaleri som vist i figur 1.2. Det meste av maleriet var ødelagt, men en liten del av maleriet viser seks huleboere (ut valget). Arkeologene vet fra tidligere funn at dette antakelig var et maleri av alle huleboerne i stammen (populasjonen). Arkeologenes utfordring er a si mest mulig om
1.2. NOEN VIKTIGE BEGREPER
9
Variabel (eksempler) Motorytelse, Kjørt lengde, Farge, Antall seter, Antall eiere
Populasjon Alle biler i Norge
Enhet
Alle borehull i Nordsjøen Alle kvinner over 18 ar
Ett borehull En kvinne
Alle Alle Alle Alle Alle
En bil
ferskvann i Troms vanndråper i Mjøsa barn i klasse 2b Statoil-kunder ungdommer i Norge
Ett ferskvann En vanndråpe Ett barn En kunde En ungdom
Olje (ja/nei), Trykk, Dybde Høyde, Antall barn. Inntekt, Skostørrelse, Politisk parti pH-verdi. Antall ørret per m3 Antall tarmbakterier, Antall alger Vekt, IQ, Blodtype, Religion Tilfredshet, Omsetning, Postadresse Antall sexpartnere per år, Antall sigaretter per dag
Tabell 1.1: Populasjon, enheter og variabler
POPULASJON: Transportmiddel til nordmenn over 18 år
I I I Beslutninger | Handlingsvalg
KUNNSKAP OM POPULASJON: 70 - 90 % av alle nordmenn foretrekker bilen framfor bussen
Generalisering
FAKTA OM UTVALG: 29 av 36 foretrekker bilen framfor bussen
Figur 1.1: En viktig del av statistikkfaget: Å trekke konklusjoner om en hel populasjon basert på et lite, tilfeldig utvalg. Legg merke til at kunnskapen om populasjonen in neholder et element av usikkerhet.
10
KAPITTEL 1. HVA EB STATISTIKK?
Figur 1.2: Hva kan du si om populasjonen hvis du bare studerer utvalget?
populasjonen basert på bildet av de seks huleboerne. Arkeologene kan si ganske mye. men de mangler viktig informasjon om populasjonen. (De kan jo ikke se resten av populasjonen, slik vi kan.) Det er derfor stor risiko for at de trekker feil konklusjoner av typen: “50 % av huleboerne hadde mistet en fot.” Hvis enhetene i populasjonen er svært forskjelligartede, med stor innbyrdes varia sjon, er det vanskelig å si noe om populasjonen basert på et lite utvalg. Sjansen vil være stor for at man trekker feil konklusjoner. For a få et godt bilde av slike populasjoner må vi ha opplysninger fra et stort utvalg som er representativt for populasjonen. Spørsmålet om hvordan man best gjør et utvalg, er svært sentralt i statistikkfaget. Hvis vi velger enheter fra populasjonen helt tilfeldig, far vi et tilfeldig utvalg. Det å foreta et utvalg og gjennomføre observasjoner for hver enhet, vil vi med en samlebetegnelse kalle et forsøk.
1.2.2
Variasjon
Hvis alle enheter var helt like, var det tilstrekkelig å undersøke en enhet. Så enkelt er det sjelden eller aldri. Vi skal kort nevne de tre viktigste typene variasjon som vi vil studere i statistikkfaget.
• Populasjonenes enheter er forskjellige. Hvis vi måler samme variabel for flere ulike enheter, vil vi vanligvis oppleve stor variasjon. Forskjellen fra menneske til menneske, fra bil til bil. fra snøkrystall til snøkrystall vil vi kalle populasjonens variasjon. • Verdien til hver enkelt enhet kan endre seg. En terning viser forskjellig antall øyne fra kast til kast, og et fotballag oppnår forskjellig resultat fra kamp til kamp. Aksjekursene beveger seg fra dag til dag, og temperaturen i en smelteovn gar opp eller ned fra time til time. Dette kalles prosessvariasjon. Xoen ganger er det mulig a forutsi hva som helt sikkert vil skje fra ett tidspunkt til det neste. Men i de fleste prosesser kan vi i beste fall gi en prognose på den mest sannsynlige framtidsutviklingen.
1.2. NOEN VIKTIGE BEGREPER
11
• En målemetode kan gi forskjellig svar fra gang til gang nar vi maler samme variabel for samme enhet flere ganger. Hvis vi maler lengden av et jernbanespor tre ganger, far vi tre forskjellige svar. Når optikeren måler øyets brytningsindeks fem ganger, får han fem forskjellige svar. Denne variasjonen kalles måleusikkerhet. Når vi trekker ut en tilfeldig enhet fra populasjonen på et tilfeldig tidspunkt, kan vi ikke på forhånd vite verdien av en aktuell variabel. Denne verdien vil på et vis være tilfeldig, på grunn av de tre variasjonstypene som er beskrevet. Dette er grunnen til at vi senere i boka vil snakke om tilfeldige variabler, for å fa tydelig fram at verdien til variabelen er påvirket av tilfeldigheter. Årsakene til variasjonen kan være mange, men statistikkfaget overlater til filosofi- og religionsfagene å diskutere kilden til denne variasjonen.
Det kan være vanskelig å skille de forskjellige variasjonstypene fra hverandre. Det gjelder særlig prosessvariasjonen og måleusikkerheten. Tenk på måling av blodtrykk hos en hjertepasient. Det er velkjent at blodtrykket kan variere betydelig fra minutt til minutt. Vi vet også at de manuelle målemetodene har stor måleusikkerhet. Hvis vi foretar flere malinger etter hverandre, vil både selve blodtrykket og kvaliteten pa malingene variere. En endring i målt blodtrykk betyr derfor ikke nødvendigvis en endring i faktisk blodtrykk. I den statistiske variansanalysen er det utviklet metoder for å beregne størrelsen pa de forskjellige variasjonstypene. Dette vil vi komme tilbake til.
1.2.3
Variabeltyper
Enhetene i utvalget og populasjonen kan som nevnt beskrives av visse variabler. En heten “menneske” kan for eksempel beskrives av variablene alder, vekt, hvilepuls, kjønn, hårfarge, bosted, hobbyer, sosial status, antall barn, inntekt, yrke, politisk par ti, skostørrelse, osv. De mulige variabelverdiene kalles kjennetegn. Variabelen hårfarge kan for eksempel ha kjennetegnene hvit, lys blond, blond, mørk blond og svart. Legg merke til at det ikke finnes en objektivt riktig inndeling i kjennetegn. Vi kunne jo også ha inkludert hårfargene gul og brun. Inndeling i aktuelle kjennetegn er en viktig del av forberedelsene til en statistisk undersøkelse. En maling eller registrering av kjennetegn for en bestemt enhet, kalles en obser vasjon. Hans Georg Schwensen er en enhet fra populasjonen av mennesker. Vi kan observere at alder = 35 ar. vekt = 85 kg, hvilepuls = 65 per min, kjønn = mann, hårfarge = lys blond, bosted = Bømlo, hobbyer = frimerkesamling, vektløfting og leirdueskyting; sosial status = gift, antall barn = 3, inntekt = 280 890 kr/år, yrke = lensmannsbetjent, politisk parti = Kystpartiet, skostørrelse = 44. (Variabelnavnet står til venstre for likhetstegnet, mens kjennetegnet står til høyre.) Vi har tre typer variabler:
1. Kategoriske variabler. Dette er kvalitative variabler som ikke naturlig kan beskrives ved et tall, men hvor enheten tilhører en bestemt kategori (gruppe). Eksempler: kjønn, hårfarge, bosted, hobbyer, sosial status, yrke. Mye av den sam funnsvitenskapelig forskningen dreier seg om slike kategoriske data.
2. Diskrete variabler. Dette er kvantitative variabler der bare enkelte tall langs tallskalaen er aktuelle som kjennetegn. Tallene som ligger mellom disse pa tallskalaen. gir ikke noen mening. Eksempler: skostørrelse og antall barn. Ofte vil vi bare bruke heltallene, men det kan like godt være andre tall som er aktuelle. Tenk bare på skostørrelsene oppgitt på amerikansk mate (8. 8|. 9. 9| osv.). Antall barn er et eksempel pa en tellevariabel, der bare heltallene er relevante.
KAPITTEL 1.
12
HVA ER STATISTIKK?
3. Kontinuerlige variabler. Dette er kvantitative variabler der alle tallverdier in nenfor et gitt intervall kan brukes for a angi et kjennetegn. Alle mulige desimaltall innenfor intervallet er altså tillatt. Eksempler: alder (år med desimalangivelse), høyde, vekt, hvilepuls og inntekt. Mye av den naturvitenskapelige forskningen dreier seg om slike kontinuerlige variabler.
I datamaskinalderen vil vi ofte bruke tallkoder også for kategoriske variabler, for eksempel slik at “mann = 1” og “kvinne = 2”. Men her har ikke tallene i seg selv noen mening. Det er meningsløst å si at en kvinne er større enn en mann (siden 2 er større enn 1). Det gjelder generelt for kategoriske variabler at det er vanskelig å sortere verdiene. Ofte er det umulig, andre ganger lar det seg gjøre under tvil. Man kan sortere politiske partier langs en høyre-venstre-akse, men det er ikke alle som vil være enige i valget av en slik akse. Selv om vi skulle klare å sortere verdiene, ei det ikke mulig å si noe om avstanden mellom de ulike variabelverdiene. Er avstanden mellom hobbyene “frimerkesamling” og ” myntsamling” mindre enn avstanden mel lom “frihåndstegning” og “vektløfting”? Svaret er ikke opplagt, siden det ikke finnes noe avstandsmål for kategoriske variabler. Av denne grunn er det umulig å beregne gjennomsnitt for kategoriske variabler. Det gir eksempelvis liten mening å snakke orn gjennomsnittlig kjønn i en populasjon. I mange situasjoner vil skillet mellom diskrete og kontinuerlige variabler være lite merkbart. Ta kroppsvekt og hvilepuls som eksempler: De fleste vekter og pulsmålere oppgir resultatet som et heltall. Unøyaktigheten i målemetoden er såpass stor at det ikke har noen hensikt å angi målingen med desimaler. Det fører til at den kontinuerlige variabelen framstår som en diskret variabel. Forskjellen på diskrete og kontinuerlige variabler har bare praktisk interesse hvis den diskrete variabelen bare har et fåtall mulige verdier. Ellers kan vi tenke på de fleste kvantitative variabler som kontinuerlige.
1.3
Modeller
En modell er en etterligning av virkeligheten. Modeller kan gi oss verdifull innsikt som det enten er umulig eller kostbart å skaffe direkte fra virkeligheten. Statistikkfaget gjør flittig bruk av modeller, fordi modellene kan være svært nyttige for oss når vi skal fatte beslutninger. Fysiske modeller som et modelltog, et skip i miniatyr eller en prototyp av en bil, har lenge vært viktige for ingeniørene. Modellene kan utsettes for påkjenninger, og vi kan se hvordan modellen påvirkes av dette. Vi observerer, forandrer modellen og utsetter den for nye påkjenninger. Etter hvert er det vanligere med simuleringsmodeller, som lar oss eksperimentere med datamaskinen. Du har kanskje forsøkt deg som bilfører i et dataspill, eller som pilot i en flysimulator? Dette er også modeller av de systemene som simuleres. Tilsvarende finnes det spill som simulerer samfunnsøkonomien i et tenkt samfunn basert på matematiske modeller utviklet av sosialøkonomene. Men - og det er et stort og viktig MEN - en modell er en forenkling av virkeligheten. Modellen baserer seg alltid på visse antakelser og forutsetninger. I visse situasjoner vil modellen stemme svært godt overens med virkeligheten, mens den i andre situasjoner oppfører seg helt annerledes enn virkeligheten ville gjort. Når vi skal fatte beslut ninger basert på kunnskap fra modeller, må vi vite når modellen er god, og nar den er ubrukelig. Det finnes to hovedtyper av modeller:
• En deterministisk modell beskriver et fenomen som er forutsigbart. I matematikkog fysikkfagene har du kanskje lært formler for kinetisk energi og for volumet av
1.4. INNSAMLING AV DATA
13
en kule: r.
1
2
E = —mv 2
4 o V = -7rr 3
Disse formlene gir samme resultat hver gang. Det er ingen tilfeldigheter involvert! De fleste klassiske, fysiske modeller er deterministiske. De fleste naturlovene du har lært i din tidligere skolegang, er slike deterministiske teorier og modeller. • En stokastisk modell beskriver et fenomen som involverer tilfeldigheter, som der for er uforutsigbart. Modeller som beskriver antall oppringninger til sentralbor det i morgen, eller antall timer til neste strømstans, eller vekten av morgendagens fiskefangst, vil vanligvis være stokastiske. En stokastisk modell kan ikke si hva som kommer til å skje, men den kan angi hvilke utfall som er mulige, og hvilken sannsynlighet de ulike utfallene har.
Mange modeller er en kombinasjon av begge typer, gjerne som en deterministisk basismodell med visse stokastiske delmodeller. Statistikkfaget omhandler usikkerhet. Rent deterministiske modeller er derfor ikke av interesse i statistikkfaget. Vi kan godt si, som en forenkling, at statistikkfaget er læren om utvikling og bruk av stokastiske modeller - som hjelp til å fatte beslutninger. Figur E3 viser en litt abstrakt skisse av statistikkfagets viktigste elementer. I fi guren ser du at en stokastisk modell står sentralt plassert. Modellen blir hele tiden oppdatert på bakgrunn av data om virkeligheten. I denne oppdateringen er statistiske verktøy uunnværlige. Modellen kan brukes til å svare på spørsmål av typen: "Hvis vi endrer denne parameteren, hva skjer da?” Vi får ny kunnskap som er basis for de beslutningene vi skal fatte. For at beslutningene skal bli best mulig, må vi vite noe om modellens gyldighetsområde: Når er modellen god, og når er den dårlig?
1.4
Innsamling av data
Utgangspunktet for hele statistikkfaget er at det foreligger et problem eller spørsmål. Se figur L3. Vi lager en modell for å ta gode beslutninger som knytter seg til prob lemet. For å lage brukbare modeller må vi ha god kunnskap om virkeligheten. Denne kunnskapen skaffer vi oss ved å foreta datainnsamling. Statistikkfaget kan benyttes for å analysere de innsamlede data, men faget kan ikke hjelpe deg til å stille de riktige spørsmålene og til å velge hvilke data som skal samles inn. Du må bruke din egen sunne fornuft! Neste avsnitt illustrerer hvordan vi kan gå fram for å stille fornuftige spørsmål for å bli bedre kjent med et problem.
1.4.1
Problemløsning krever data
En problemløsningsprosess kan deles inn i fem faser: Kartlegging, årsaksanalyse, prob lemløsning, iverksetting og effekt maling, som vist i figur E4. Datainnsamling spiller en sentral rolle i fasene 1. 2 og 5. I praksis vi du ofte oppleve at man går direkte løs på fase 3, uten å gjøre en skikkelig jobb på de to første fasene, noe som lett kan resultere i dårlige beslutninger. I fase 1 må vi definere noen variabler som er egnet til å beskrive problemets om fang. Slike variabler kalles gjerne kvalitetsindikatorer eller nøkkeltall. Vi må samle inn måleverdier for en eller flere slike variabler. Disse verdiene vil vise om vi har et reelt problem som fortjener videre oppmerksomhet. Hovedoppgaven i fase 1 er å finne fakta om problemet uten å være forutintatt. Det kan være lurt å stille spørsmål som starter med NÅR. HVOR. HVEM.
14
KAPITTEL 1. HVA EB STATISTIKK?
Registrerer et problem: Hvor høy er en tilfeldig person?
Den virkelige verden
0
Tenker ut en modell Gjør valg og tar beslutninger som angår den virkelige verden
Bruker modellen og får ny kunnskap
Samler inn forsøksdata Beregner forventede utfall
Statistiske tester
Justerer modell basert på sammenligning av modell og observasjoner
Figur 1.3: En generell beskrivelse av statistikkfaget. Hovedpoenget er å være til hjelp når beslutninger skal fattes.
1 > Kartlegging og problemdefinisjon /
Figur 1.4: En vanlig prosess for problemløsning
1.4. INNSAMLING AV DATA
15
Som eksempel skal vi se på et pizzabudbilfirma i Oslo som har problemer med forsinkede leveranser. Firmaet velger leveringstiden som kvalitetsindikator. I første halvår har de hatt hele 27 % forsinkede leveranser i forhold til sin garanti om å levere innen en time. I fase 1 stiller vi spørsmålene nedenfor: • Når oppstår problemet? Er det i rushtiden, i snøvær eller på varme sommer dager? Hvor store er forsinkelsene? • Hvem er involvert? Er nyansatte mer forsinket enn andre? Er det spesielle kundegrupper som opplever problemet?
• Hvor oppstar problemet? Er det i bestillingen, pa kjøkkenet eller i budbilen at tidsforbruket er for høyt? Er det spesielle deler av byen som har problemer?
I fase 2 spør vi HVORFOR. En idédugnad kan være nyttig for å få fram mange hypoteser orn mulige årsaker. Som hjelp til å framsette hypoteser finnes 5M-regelen. som sier at årsakene kan knyttes til Menneske, Miljø, Materiell. Metode eller Maskin. Vi forsøker å grave oss stadig dypere ned i årsakens mysterium. Det kan vi gjøre ved hele tiden a spørre hvorfor, med utgangspunkt i hypotesene fra forrige hvorforspørsmal. Vi må også framsette hypoteser orn hvilke årsaker som er viktigst, slik at vi i fase 3 kan forsøke å eliminere de viktigste delene av problemet. Datainnsamlingens funksjon (i fase 2) er å skaffe fram fakta slik at vi kan teste om hypotesene våre er riktige. Første fase viste at de nyansatte sjåførene ofte var involvert i forsinkelsene. I andre fase er det da naturlig å spørre: • Hvorfor er de nyansatte sjåførene involvert? Hypoteser: Finner ikke fram i byen, Kjører de lengste avstandene. Har de dårligste bilene. • Hvorfor finner de ikke fram? Hypoteser: Har ikke kjentmannskurs, Blir sendt til de vanskeligste adressene, Har ikke kart. Har liten erfaring.
• Hvorfor har de nyansatte ikke kjentmannskurs? Hypoteser: Dårlig økonomi, Liten interesse, Må tas pa fritiden.
Fase 5 er viktig, men mangler i mange beskrivelser av en problemløsingsprosess. I denne fasen skal vi vende tilbake til den kvalitetsindikatoren som ble definert i starten av prosessen. Hensikten med fase 5 er å fortsette målingene for å se om de iverksatte tiltakene virkelig har hjulpet pa problemet. Pizzabudbilfirmaet må følge med for å se om de klarer å overholde garantitiden sin! Det er kanskje ikke nok å sende de nyansatte sjåførene pa kjentmannskurs i arbeidstiden? Tips 1 En sammenheng mellom to variabler er ikke nødvendigvis det samme som
en årsakssammenheng. (Kaffedrikkere kan ha et dårligere sexliv enn andre, men det trenger ikke nødvendigvis skyldes kaffen; kanskje det skyldes at de står opp for tidlig om morgenen?)
1.4.2
Generelt om datainnsamling
Kvaliteten av våre analyser kan aldri bli bedre enn kvaliteten av de dataene vi samler inn. Kvaliteten av dataene er nøye knyttet til svarene på følgende spørsmål: • Er utvalget stort nok? • Er utvalget representativt for hele populasjonen?
KAPITTEL 1. HVA ER STATISTIKK?
16
Bilfører kan trolig takke airbagen Figur 1.5: Hvorfor overlevde bilføreren? Var det airbagen som reddet ham/henne? Eller var det lav fart, bilbeltet eller bilens konstruksjon som var arsaken til det gode utfallet? (Harstad Tidende 3.10.97)
• Har målingene pågått lenge nok? • Har observatøren påvirket målingene? • Er variabler og kjennetegn entydig og fornuftig definert? • Er målingene nøyaktige? Planlagt eksperiment
Det kan være stor forskjell på et planlagt eksperiment og mer vilkårlige registreringen Eksperimenter (eller forsøk) vil normalt være å foretrekke, men det finnes mange prob lemstillinger der det er umulig eller etisk uforsvarlig å gjennomføre forsøk. Fordelen med planlagte eksperimenter er at vi kan kontrollere forsøksbetingelsene, slik at det blir lettere å trekke konklusjoner. Tenk deg et forsøk der noen tusen personer ble bedt om å kjøre med sikkerhetsbelte bare annenhver dag, for å kunne vurdere effekten av beitebruk. Risikoen for person skader gjør at dette vil være uaktuelt. Vår eneste mulighet er å observere resultatet av bilulykker og se hvordan det går med førerne. Det kan tenkes at de som kjører uten bilbelte, i større grad enn andre har nye, kollisjonssikre biler med airbag. Hvis disse klarer seg bra uten bilbelte, betyr det ikke nødvendigvis at bilbelter er unødvendige. Hvordan tolker du overskriften i avisoppslaget i figur 1.5? Spørreundersøkelser
Objektive målinger av kvantitative størrelser er normalt bedre enn subjektive, kvali tative utsagn. Det er bedre å måle sentralbordets responstid elektronisk enn å spørre innringeren om han/hun måtte vente litt, lenge eller veldig lenge. Spørreundersøkelser bør derfor ikke brukes ukritisk; undersøk alltid om du kan få bedre informasjon på en annen måte. Ved bruk av spørreskjemaer er det to problemer knyttet til representativitet: Skje maene må sendes til et representativt utvalg, og et representativt utvalg av disse igjen må svare på skjemaet. Et eksempel på særdeles lite representative målinger er slike “ring inn og gi din stemme under debatten”-målinger som etter hvert har blitt pop ulære i TV. Hvem tror du det er som ringer inn? På samme mate som vi må bruke kalibrert teknisk måleutstyr i eksperimenter, må også spørsmålsstillingen i et spørreskjema være presis, forståelig og minst mulig ledende. Det er gjennomført en mengde undersøkelser som viser hvor mye svarene kan endres bare ved en liten endring i spørsmålsteksten. Ved større justeringer i teksten kan man oppnå omtrent de svarene man vil ha. La oss tenke oss at Greenpeace ønsker å ut fore en spørreundersøkelse for å kartlegge andelen av nordmenn som ønsker å stanse hvalfangsten. Nedenfor er det foreslått to
OPPSUMMERING
1.5.
17
spørsmål som begge tar sikte på å ansla denne andelen. Hvilket spørsmål tror du miljøorganisasjonen ville valgt? Hva tror du hvalfangernes organisasjon ville valgt, om de skulle gjøre en egen undersøkelse? Tror du de ville funnet samme svar?
1. Er du enig i at hvalfangst, drap på verdens største, utryddingstruede pattedyr, må forbys snarest mulig?
2. Er du enig i at hvalfangst må tillates i begrenset omfang, for å sikre bærekraftig ressursforvaltning og kystbefolkningens livsgrunnlag? I spørreundersøkelser kan folk ha en tendens til å svare det de tror spørreren ønsker seg, og/eller ha en frykt for å avsløre egne synspunkter i betente saker. Derfor anbe fales det vanligvis at respondenten (den som fyller ut skjemaet) får være anonym. Tidspunktet for når malingene utføres, kan også være av stor betydning. Tenk på en spørreundersøkelse om folks holdninger til prøveløslatelser fra fengslene. Anta at undersøkelsen utføres dagen etter at en voldtektsdømt har begått en ny, brutal voldtekt mens han var på permisjon. Svarene på denne undersøkelsen vil garantert bli anner ledes enn om de samme spørsmålene ble stilt en uke tidligere. På samme måte kan også rekkefølgen av spørsmålene spille en stor rolle, siden alle spørsmålene styrer tankene til respondenten. I denne boka vil du lære hvordan svarene fra en spørreundersøkelse kan analyseres. Selve utformingen av spørsmål og skjemaer er en egen vitenskap som vi ikke vil se nærmere på. Som hovedregel anbefales det å gjennomføre en forundersøkelse blant et lite utvalg respondenter. en såkalt pilotstudie, der respondentene selv får formulere sitt svar. Basert på disse svarene kan man definere noen standard svaralternativer og luke bort misforståelser og tvetydigheter. Disse svaralternativene brukes i hovedunder søkelsen. der respondenten bes om å velge ett av svaralternativene. Vanligvis anbefales det at respondenten også tilbys å krysse av i en vet-ikke-boks. Uten et slikt svaralter nativ vil mange gi uttrykk for flere meninger enn de egentlig har. Sunn skepsis
Ett av statistikkfagets hovedmål er å gjøre deg til en kompetent mottaker av statistisk informasjon. Ikke ta alt du leser, for “god fisk"! Mange av “informasjonsplanterne” har politiske eller økonomiske baktanker med sine budskap. Tenk alltid på hva de er ute etter å oppnå, og hvem som har finansiert, utført og publisert forsøksresultatene. Forestill deg et forsøk som utføres for å påvise at et nytt produkt er bedre enn andre produkter på markedet. Produsenten av det nye produktet vil neppe offentliggjøre forsøksresultater som viser at han ikke er best eller nesten best. Han kan betale ulike seriøse forskninginstitutter for å gjøre forsøkene, og så velge å offentliggjøre bare de rapportene han liker. Husk i tillegg å stille spørsmålene på side 15 når du mottar spektakulære nyhetsmeldinger. Da vil du ofte oppdage at nyhetsmeldingene ikke er verdt papiret de er skrevet på. Tips 2 Still alltid spørsmålet: Kan resultatene ha en annen forklaring enn den som blir påstått?
1.5
Oppsummering
Når du har lest dette kapitlet, bør du
• kjenne statistikkfagets basisdefinisjoner: populasjon, utvalg, variabel, variasjon, observasjon
18
KAPITTEL 1.
HVA EB STATISTIKK?
• vite forskjell på kategoriske, diskrete og kontinuerlige variabler • forstå at observasjoner fra et tilfeldig utvalg ikke sier alt om en populasjon • være klar over at datainnsamling må planlegges godt • vite at statistikkfaget kan hjelpe deg til å ta gode beslutninger
Kapittel 2
Hva er fakta om utvalget? 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
Presentasjon av kategoriske data Presentasjon av diskrete data Presentasjon av kontinuerlige data Sentralmål Spredningsmål Skjevhet og kurtosis * Grupperte data * Statistikk med Excel Statistikk med Minitab
Side Side Side Side Side Side Side Side Side
19 22 24 31 36 40 41 42 48
Utgangspunktet for de fleste statistiske analyser er at vi har samlet inn fakta opplysninger for et utvalg av enheter fra en populasjon. Hensikten med slik datainnsam ling vil vanligvis være at vi ønsker kunnskap om hele populasjonen. En samling uorganiserte rådata sier oss ikke spesielt mye. Datasettet må struktur eres for å gi oss nyttig informasjon. Først skal vi se hvordan dataene kan organiseres i tabeller og fremstilles grafisk. Etter hvert skal vi forsøke å trekke ut essensen av informasjon fra datasettet. Til slutt i kapitlet vil vi gi en kort innføring i programmene Excel og Minitab. I praksis vil vi utføre statistiske analyser ved hjelp av slike (eller lignende) dataprogram mer. Det er derfor ikke noe stort poeng at du skal kunne gjøre alt “for hånd”. Men du må forstå hva programmene regner ut, og du må være klar over hvilke fallgruver du kan støte borti.
2.1
Beskrivelse av kategoriske data
Kategoriske data er observasjoner av kategoriske variabler (som ikke naturlig kan beskrives ved et tall). Kategoriske variabler brukes ofte når vi vil dele en populasjon inn i ulike kategorier. Vanligvis er det enkelt å organisere dataene i en tabell som viser hvordan utvalgets enheter fordeler seg i de forskjellige kategoriene. (En kategori svarer til et kjennetegn.) En slik tabell kalles en frekvenstabell. I tillegg til antallet bør tabellen også vise den prosentvise andelen som hører til hver kategori. Innholdet i frekvenstabellen egner seg godt for presentasjon i kakediagrammer eller søylediagrammer . Slike diagrammer kjenner du sikkert fra før. Et kakediagram viser en sirkelflate der hvert kjennetegn svarer til et kakestykke (en sirkelsektor). I et søylediagram er hver kategori representert av en søyle. Alle søylene er like brede, og høyden
19
KAPITTEL 2.
20
Parti RV SV AP SP V KrF H FrP Andre
Antall stemmer 43 224 155296 904 370 204 684 115 079 352 996 370 395 395 337 42 409
HVA ER FAKTA OM UTVALGET?
Relativ frekvens (: %) 1.7 6.0 35.0 7.9 4.5 13.7 14.3 15.3 1.6
Tabell 2.1: Resultat av stortingsvalget i 1997. Valgdeltakelsen var på 78 %.
Figur 2.1: Kake- og smultringdiagram for stortingsvalget 1997
er proporsjonal med antallet i hver kategori. For å illustrere dette skal vi se på to enkle eksempler. Et søylediagram kan gjøres mer lesbart ved å sortere kategoriene slik at den største kategorien kommer først, den nest største kommer deretter, osv. Da får vi et paretodiagram, der det er lett å se hvilke kategorier som er viktigst. Eksempel 3 Partitilhørighet er en kategorisk variabel. Ved hjelp av den kan be folkningen deles inn i grupper basert på det partiet de har størst tiltro til. Stemme fordelingen etter stortingsvalget i 1997 er vist i tabell 2.1. Slike tabeller gir nøyaktig informasjon, men de er kjedelige, og det kan være tungt å fordøye informasjonen. Vi får et mye bedre bilde av resultatene ved å tegne et diagram. Figur 2.1 viser to varianter av et kakediagram. Figur 2.2 viser henholdsvis et søylediagram og et paretodiagram. Hvilket diagram synes du gir best informasjon? Forskning har vist at den menneskelige hjerne lettere ser forskjell på arealstørrelser enn på vinkler. De fleste av oss vil derfor ha lettere for å lese et søylediagram enn et kakediagram. Spesielt gjelder det hvis det er mange kakestykker som er omtrent like store. Lesbarheten kan bedres litt ved å angi prosentverdien som svarer til hvert kakesykke.
I mange sammenhenger registerer vi rner enn en variabel for hver enhet. Det kom pliserer frekvenstabellen litt. Hvis vi har tre variabler med henholdsvis fire, to og to kategorier, får vi en krysstabell med 4 x 2 x 2 = 16 kombinasjoner av kategorier. Slike krysstabeller kalles kontingenstabeller. Eksempel 4 Vi mennesker har forskjellige sovevaner. Noen sover på ryggen, mens andre sover på magen. Hvis 1100 personer blir spurt om hvordan de foretrekker å sove,
2.1. BESKRIVELSE AV KATEGORISKE DATA
21
Figur 2.2: Søylediagram og paretodiagram for stortingsvalget 1997
Sovevane Sover på magen Sover på ryggen Sover på siden Vet ikke Totalt
Alder < 40 år Mann Kvinne 33 67 176 104 50 70 24 36 283 277
Alder 7> 40 år Mann Kvinne 47 97 107 80 86 65 39 19 279 261
Totalt antall 244 467 271 118 1100
Tabell 2.2: Kontingenstabell for sovevane, alder og kjønn
kan svarene fordele seg som vist i tabell 2.2. Svarene er gruppert avhengig av personens alder og kjønn. Denne tabellen er litt lettere å lese enn tabellen for stortingsvalget, men den er likevel ganske kjedelig. Både kakediagrammet og søylediagrammet i figur 2.3 får fram hovedbudskapet bedre. Her er dessuten kakediagrammet lettere å lese siden det er færre kakestykker. For å undersøke om det er forskjeller mellom kjønn og aldersgrupper, kan innholdet i hver kolonne visualiseres ved separate søyle- og kakediagrammer. Vi kan også pre sentere alle kolonnene i ett og samme diagram. To varianter av dette er vist i figur j. 2. Hvilken av figurtypene synes du er mest informativ? De yngre mennene i utvalget sover mest på ryggen. Betyr dette at yngre menn generelt sover mer på ryggen enn de andre gruppene? I avsnitt 8.5 skal vi lære å besvare denne typen spørsmål.
Kategoriske variabler faller av lasset på dette stadiet. Siden det ikke er mulig å sortere verdiene til slike variabler, vet vi ikke nok til å kunne bruke de andre beskriv-
Sovevaner (blant 1100 spurte)
Figur 2.3: Kakediagram og søylediagram for sovevaner
KAPITTEL 2.
HVA ER FAKTA 021 UTVALGET?
Figur 2.4: Søylediagram og stablet søylediagram for sovevaner.
elsene i dette kapitlet. Den eneste kortbeskrivelsen vi kan gi, er å si hvilken verdi som er vanligst. (Vi skal komme tilbake til de kategoriske variablene senere i boka, men na kan du altså glemme dem en stund).
2.2
Beskrivelse av diskrete data
Diskrete data er observasjoner av diskrete variabler (der bare enkelte tall langs tallinjen er aktuelle som kjennetegn). Vi vil konsentrere oss om diskrete variabler med få mulige tallverdier. Hvis en diskret variabel har mer enn 20 mulige tallverdier, kan vi med fordel beskrive dataene som om de var kontinuerlige (se side 24.) Dataene kan presenteres i en frekvenstabell, omtrent på samme måte som for kategoriske data. I tabellen skal det være en rad for hver av de aktuelle tallverdiene. Tabellen bør inneholde kolonner for bade antall observasjoner og relativ frekvens. Vi vil vanligvis presentere den relative frekvensen som kommatall istedenfor som prosenttall. Tallet 0.184 betyr det samme som 18.4 %. Slike kommatall vil bli mer og mer vanlige senere i boka, nar vi starter sannsynlighetsregningen. (Noen ganger sløyfer vi sifferet “0” foran kommaet; skrivemåten .184 betyr altså 0.184, som betyr 18.4 %). Frekvenstabellens innhold kan illustreres ved søylediagrammer. Vanligvis bruker vi antall eller relativ frekvens som verdi pa Y-aksen. To spesielle varianter av dette er strekdiagrammet og histogrammet. I et strekdiagram tegner vi en tynn strek for hver dataverdi, der høyden kan være antall eller prosentandel. I histogrammet er søylene så brede at de står helt inntil hverandre. (Histogrammet defineres mer presist på side 25.) Strekdiagrammet benyttes hvis det er viktig å fa fram at variabelen er diskret, siden histogrammet kan gi inntrykk av at variabelen er kontinuerlig. Et lite eksempel skulle klargjøre det hele. Eksempel 5 Et postordrefirma som selger barnetøy, er interessert i å vite mer om
sine potensielle kunder. De tar plass utenfor en av Hennes & Mauritz’ butikker og stiller spørsmål til kvinnene som kommer ut av butikken. Blant annet vil de vite hvor mange barn kvinnen har født. Resultatene etter at 103 kvinner hadde avgitt sitt svar (noen kvinner ville ikke svare), er vist i tabell 2.3. Innholdet i tabellen er fremstilt grafisk som strekdiagram og histogram i figur 2.5. Hvor representative tror du at utval get av kvinner utenfor H&M er i forhold til hele populasjonen av kvinner? (Du kan kontrollere det ved å slå opp i Statistisk årbok.)
2.2. BESKRIVELSE AV DISKRETE DATA
Antall fødte barn 0 1 2 3 4 ■5 6 7 8 9 Totalt
Antall kvinner med så mange barn 12 34 28 19 5 3 0 1 0 1 103
23
Relativ frekvens .116 .330 .272 .184 .049 .029 .000 .010 .000 .010 1.000
Tabell 2.3: Frekvenstabell for kvinners fruktbarhet
Fruktbarhet blant 103 kvinner
Figur 2.5: Strekdiagram og histogram for kvinnenes fruktbarhet
KAPITTEL 2.
24
2.3
HVA EB FAKTA OKI UTVALGET?
Beskrivelse av kontinuerlige data
Kontinuerlige data er observasjoner av kontinuerlige variabler (der alle tallverdier in nen et gitt intervall kan brukes for å angi et kjennetegn). Vi skal se på flere måter å beskrive slike data på, med utgangspunkt i frekvenstabellen.
2.3.1
Frekvenstabell
For kontinuerlige variabler er et uendelig antall tallverdier langs tallinjen tillatt. Vi kan ikke lage frekvenst a beiler på samme måte som for kategoriske og diskrete variabler. Da kunne vi jo risikere at tabellen ble skummelt stor. Vi må dele opp tallskalaen i passende intervaller og telle opp antallet observasjoner i hvert intervall. Frekvenstabellen skal ha en rad for hvert intervall, og kolonner for antall observasjoner og relativ frekvens. Eksempel 6 Tenk deg at du har fått 116 poeng på en prøveeksamen. Resultatene for alle studentene var 97, 117, 89, 145, 124, 73, 84, 95, 136, 112, 135, 92, 95, 136, 112, 135, 92, 108. 88, 102, 116, 138, 97, Ifl, 78, 98, 103, 103, 113, 94, 45, 97, 101, 121, 100. Hvor mye forteller disse tallene deg om din egen prestasjon? Denne usorterte listen gir ikke mye informasjon. Ved å sorterte listen ser vi hva som var best og dårligst, og ser at du hører til den beste halvparten (forutsatt at målet var å få flest mulig poengfl For å få et bedre bilde vil vi lage en frekvenstabell. Da må vi gjøre et subjektivt valg av hvilke intervaller vi skal bruke. Det finnes ingen fasit. Tabell 2-4 viser to forskjellige frekvenstabeller for de samme prøveresultatene. Legg merke til at intervallenes bredde er ulik. Kan du fra tabellen si omtrent hvor mange prosent av studentene som fikk mindre enn 116 poeng? Kommentar: Jeg har valgt å betrakte disse dataene som kontinuerlige, selv om de strengt tatt kanskje er diskrete. Siden det er mer enn 20 forskjellige mulige verdier, vil det være uhensiktsmessig å presentere dataene i en frekvenstabell der hver mulig verdi skal ha sin egen rad. Da ville det blitt altfor mange rader i tabellen.
Frekvenstabellen suppleres ofte med en ekstra kolonne med overskriften kumulativ relativ frekvens. Dette er vist lengst til høyre i tabell 2.4. Den kumulative frekvensen er rett og slett summen av frekvenser for alle intervaller til og med det aktuelle intervallet. For intervallet 90-109 finner du kumulativ frekvens 0.601, som er lik 0.029 + 0.000 + 0.143 + 0.429. Dette svarer til prosentandelen (60.1 %) av studenter som fikk 109 poeng eller mindre. Tolkningen av en frekvenstabell er lettest hvis antallet intervaller ikke blir for stort, og hvis alle intervallene har samme bredde. Som en tommelfingerregel anbefales det a bruke 5-15 intervaller. Intervallbredden bør være et “rundt antall’’ enheter; det er f.eks. bedre med intervallene 0.40-0.50 og 0.50-0.60 enn med intervallene 0.412-0.493 og 0.493-0.574. Det er viktig å ha klart for seg nøyaktig hva som er øvre og nedre grense for hvert intervall, slik at en dataverdi blir registrert i riktig intervall. Åpne intervaller av typen “< 70” bør i det lengste unngås, siden slike intervaller vil skape trøbbel nar vi senere skal lage histogrammer basert på frekvenstabellen. Bruksanvisning Slik lager du en frekvenstabell:
1. Finn minste og største verdi i datasettet.
2. Del opp avstanden fra minste til største verdi i et passende antall like store intervaller. Intervallene skal til sammen dekke hele intervallet fra minste til største verdi. Ingen intervaller må overlappe. 3. Tell opp antall observasjoner i hvert intervall.
2.3. BESKRIVELSE AV KONTINUERLIGE DATA
Intervall
Antall
Relativ frekvens
40-49 50-59 60-69 70-79 80-89 90-99 100-109 110-119 120-129 130-139 140-149 Total
1 0 0 2 3 9 6 5 2 5 2 35
.029 .000 .000 .057 .086 .257 .171 .143 .057 .143 .057 1.000
Kumulativ relativ frekvens .029 .029 .029 .086 .172 .429 .600 .743 .800 .943 1.000
25
Intervall
Antall
Relativ frekvens
30-49 50-69 70-89 90-109 110-129 130-149 Total
1 0 5 15 7 7 35
.029 .000 .143 .429 .200 .200 1.001
Kumulativ relativ frekvens .029 .029 .172 .601 .801 1.001
Tabell 2.4: To forskjellige frekvenstabeller for eksamensresultatene
4. Beregn relativ frekvens av hvert intervall slik: antall observasjoner i intervallet Relativ frekvens = ---------- ---------- -—---------------------totalt antall observasjoner
2.3.2
Histogram
Et histogram er et søylediagram som visualiserer innholdet i en frekvenstabell. Histogrammet er definert slik at arealet av alle søylene til sammen er lik 1. Vi skal bruke histogrammet flittig senere i boka. Vi har tidligere sett at det er mulig å lage forskjellige frekvenstabeller for de samme dataene. Pa samme måte kan vi også lage flere ulike histogrammer, avhengig av valgt intervallbredde og startverdi for første intervall. To histogrammer for eksamensresul tatene i eksempel 6 er vist i figur 2.6. Histogrammene er basert direkte på frekvenstabellene i tabell 2.4. Det eksisterer med andre ord ikke ett histogram som er riktigere enn de andre. Nar vi skal lage et histogram, har vi friheten til å lage det histogrammet som vi mener gir best bilde av dataene. (En slik frihet kan misbrukes!) Hvis søylebredden blir for liten, blir histogrammet veldig “hakkete”, slik at det er vanskelig å få et godt bilde av hvordan observasjonene fordeler seg. Blir søylebredden for stor, mister vi nyttig informasjon. Dette er grunnen til at vi anbefaler å bruke 5-15 intervaller i fr ekvens t ab ellen. Bruksanvisning Slik lager du et histogram:
1. Lag en frekvenstabell for datasettet. 2. Lag et søylediagram med en søyle for hvert intervall i frekvenstabellen. Søylebredden skal være lik intervallenes bredde, slik at søylene står helt tett inntil hverandre. Søylenes høyde beregnes slik: , relativ frekvens i intervallet Søylehøyde =------ ;--------- - ----- ------ —-------intervallets bredde Tabell 2.5 viser hvordan bruksanvisningen kan følges. Her vises både frekvens tabellen og søylenes høyde, bredde og areal. Søylehøyden er beregnet etter formelen ovenfor. Legg spesielt merke til at arealet av hver søyle er lik den relative frekvensen i intervallet. På denne måten blir det totale arealet i histogrammet lik 1.
KAPITTEL 2.
26
Ekasmensresultater
HVA ER FAKTA OM UTVALGET?
Eksamensresultater
Antall poeng
Figur 2.6: To histogrammer for det samme datsettet, med ulik intervallbredde
Frekvenstabell Intervall Antall Relativ frekvens 1 30-49 .029 0 50-69 .000 70-89 5 .143 90-109 15 .429 110-129 7 .200 7 130-149 .200 Totalt 35 1.001
Histogram-data Søylebredde Søylehøyde Søyleareal 20 20 20 20 20 20
.0015 .0000 .0072 .0215 .0100 .0100
.029 .000 .143 .429 .200 .200 1.001
Tabell 2.5: Histogramdata for eksamensresultatene. Søylehøyden beregnes som relativ frekvens dividert på søylebredde
2.3.
BESKRIVELSE AV KONTINUERLIGE DATA
27
Figur 2.7: Venstre: Kroppshøyde for soldater i 1997. Høyre: Sammenligning av kroppshøyde i 1910 og 1997. Eksempel 7 Kroppshøyde for norske vernepliktige måles hvert år. Statistisk årbok viser en frekvenstabell for alle disse målingene. Intervallene er oppgitt som “Inntil 165 ', 165-169, 170-174 osv. Intervallet 165-169 må her forstås som intervallet fra 165 cm til og med 169.99 cm, slik at intervallbredden er 5 cm. Et histogram for kroppshøyden til 31 383 vernepliktige i 1997 er vist til venstre i figur 2.7. Hvor høy vil du si at en typisk norsk soldat er? Kroppshøyden har endret seg en del i løpet av det siste århundret. En måte å sammenligne to histogrammer på er vist til høyre i den samme figuren, der vi kan se at kroppshøyden har økt siden 1910. Hvor mye har kroppshøyden økt? Betyr det at alle soldater i dag er høyere enn alle soldater var før?
2.3.3
Stamme- og bladdiagram
En annen presentasjonsform er stamme- og bladdiagrammet. Det gir noe av det samme bildet som histogrammet, men basert på en tallmessig oppstilling. Vi lager diagrammet ved å sortere dataene og organisere dem i rader, basert på det første sifferet (eller de første sifferne). Et stamme- og bladdiagram for eksamensresultatene er vist i figur 2.8. Stammen er vist til venstre, og bladene til høyre. Diagrammet skal leses slik: Raden “7 | 38” svarer til tallene 73 og 78, mens raden “13 ' 55668” svarer til 135, 135, 136. 136 og 138. Fra diagrammet kan vi enkelt lese ut alle verdiene, samtidig som vi far et visuelt inntrykk av hvordan de fordeler seg. (Snu boka 90 grader, og bladene viser deg nøyaktig samme bilde som histogrammet til venstre i figur 2.6.)
2.3.4
Spredningsplott
Som nevnt vil vi ofte samle opplysninger orn flere variabler for hver enhet. Da er vi oftest interessert i å se om det er en sammenheng mellom variablene. En første sjekk av slike sammenhenger kan vi gjøre ved å plotte et spredningsdiagram. Vanligvis plotter vi dette for to variabler om gangen. Da vil hver enhet svare til et punkt i IVY-planet, slik at vi får like mange punkter som vi har enheter. Et spredningsdiagram kan antyde om det er en sammenheng mellom dataene, men husk at tilfeldighetene kan skape mønstre som kanskje ikke er gyldige for hele populasjonen. Etter at eksamensresultatene forelå, ble de 35 studentene i eksempel 6 spurt om hvor mange prosent av forelesningene de hadde deltatt pa. Faglæreren var interessert i dette for å vurdere om studentene hadde noen nytte av a delta i undervisningen. Han definerte variablene eksamensresultat og deltakelse. I figur 2.9 er spredningsdiagrammet for studentene vist. Hvert punkt svarer til en student. Ser det ut til å være
KAPITTEL 2.
28
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
HVA ER FAKTA OM UTVALGET?
5
38 489 224557778 012338 22367 14 55668 15
Figur 2.8: Stamme- og bladdiagram for eksamensresultatene Effekt av undervisning
160
»
140 120
3 -MINITAB - Untitled
om Descriptive Statistics N 35
Me an 106,06
Minimum 45,00
Max irnum 145,00
Resultat
Variable
1
Median 102,00
SE Mean
TrMean 106,71
2 1,71
MWE3
Worksheet 1: Histogram 'Resultat';
_ C3
C1
C2
Studentnr.
Resultat
Deltagelse
1
1
97
32,19
2
2
117
60,36
3
3
89
34,93
4
4 5
145
5 6
6
73
124
32,24 37 05“] 48,17
0. er
PU1 A A2 a a3) = F(AJ ■ P(A2 I AJ • F(A3 Ri n A2)
(3.9)
Begrunnelse. La oss ta utgangspunkt i de to hendelsene A3 og B = Ai A A2 og benytte regel 49 i to omganger, slik:
P(Aj
A
A-2
A A3)
P[B A A3] = F(B) • F(A3 \ B)
P(A1nA2) • P(A3 \ A: A A2) F(A1)-F(A2| A1)-F(A3| A1AA2)
Eksempel 52 Du bor i et område der det er 7 % sjanse for at en innbruddstyv vil
besøke boligen din i løpet av sommerferien. Firmaet som installerte innbruddsalarmen, oppgir at det er 95 % sjanse for at alarm,en utløses, gitt at det er innbrudd. I tillegg hevder firmaet at alarmen gitt at det er innbrudd og alarmen utløses bråker så mye at 70 % av alle tyver vil rømme. Hvor stor er sannsynligheten for at det blir innbrudd og alarmen utløses og tyven rømmer? Løsning: Oppgaveteksten gir oss følgende hendelser og sannsynligheter:
B = besøk av tyv A = alarm utløses R = tyv rømmer
P(B) = 0.07 F(A j B) = 0.95 F(B [ B A A) = 0.70
Sannsynligheten for at du får besøk av tyven og alarmen utløses og tyven rømmer, blir PfiB OAoRj
P(B) ■ F(A | B) ■ F(B | BA A) 0.07 ■ 0.95 • 0.70 = 0.047
La oss dvele litt ved det siste eksemplet og fokusere på sannsynligheten for at alarmen utløses. Hvordan kan vi finne F(A)? I oppgaven har vi sett på at alarmen kan utløses hvis det blir innbrudd. Men det finnes også en annen mulighet, nemlig falsk alarm. Hvis vi tegner et lite “hendelsestre". kan vi fa en oversikt over hvilke mulige forløp som fører til at alarmen utløses. Se figur 3.14. I hvert forgreningspunkt er den betingede sannsynligheten for hvert svaralternativ angitt. Hver gren i treet svarer til et mulig forløp. Sannsynligheten for hvert enkelt forlop kan regnes ut med inuitiplikasjonsregelen, som i de to siste eksemplene. Legg merke til at ett og bare ett forløp vil inntreffe. Forløpene er altså disjunkte. Vi kan derfor summere sannsynlighetene for de forløpene som leder til alarm, og finne F (alarm)
F(A)
Ffriktig alarm) + F (falsk alarm) F(B) ■ F(A | B) + F(B) ■ F(A | B)
0.07-0.95+ 0.93-0.12 0.178
Her har vi laget et enkelt hendelsestre med bare to forløp som leder til alarm. Det er selvfølgelig ikke noe i veien for a lage et mer detaljert hendelsestre med mer enn to
76
KAPITTEL 3.
SANNSYNLIGHETSREGNING
——I ------------ I------------- > Innbrudd?
Alarm?
Tidsakse
Figur 3.14: Hendelsestre for utløsning av innbruddsalarm grener ut fra hvert forgreningspunkt. I alle forgreningspunkter må grenene (til høyre) være parvis disjunkte, og summen av sannsynlighetene må være lik 1. Det betyr at en hendelse vil følge ett, og bare ett, forløp gjennom treet. Det motiverer følgende regel (som bevises på side 367). Regel 53 (total sannsynlighet) En, og bare en, av hendelsene B}.B2......... Bn vil inntreffe. For enhver hendelse A gjelder:
P(A) = P(BØ ■ P(A | Bt) + P(B2) • P(A | B2) + • • • + P(B„) ■ P(A | B„)
(3.10)
Eksempel 54 Vi kan dele idrettsutøvere inn i tre kategorier. Gruppe 1 er de som doper seg nå, gruppe 2 er de som har dopet seg tidligere, og gruppe 3 er de som aldri har dopet seg. En såkalt pålitelig kilde antar at idrettsutøverne fordeler seg med henholdsvis 2, 14 og 84 % i de tre gruppene. En urinprøve fra en utvalgt idrettsutøver går først gjennom en enkel doping-test (kalles screening/ Når det tas en slik enkel dopingtest av utøverne, er det alltid en viss fare for å trekke feil konklusjoner. Sannsynligheten for at første screeningtest indikerer at utøveren er dopet, antas i eksemplet lik 0.80, 0.06 og 0, 03 for de tre gruppene. Hvor stor er sannsynligheten for at en tilfeldig utøver som må avlegge dopingprøve, har positiv screeningtest? Løsning: La A bety at en tilfeldig utøver avlegger positiv test, mens Bi betyr at han hører til gruppe i. I teksten finner vi følgende sannsynligheter
P(Bi) = 0.02 P(B2) = 0.14 P(B3) = 0.84
P(A | Bi) = 0.80 P(A j B2) = 0.06 P(A i B3) = 0.03
Sannsynligheten for at en tilfeldig utøver avlegger positiv test, er ifølge loven om total sannsynlighet lik P(A)
=
P(B1)-P(A|B1) + P(B2)-P(A|B2) + P(B3)-P(4|B3)
=
0.02 • 0.80 + 0.14 ■ 0.06 + 0.84 ■ 0.03 = 0.05
Dette resultatet gjelder for de utøverne som må avlegge dopingtest. Resultatet er ikke representativt for alle idrettsutøvere, siden flertallet av testene tas av utøvere i idretts grener der dop er spesielt utbredt. Et annet viktig poeng er at svaret ovenfor gjelder for
3.4. BETINGEDE SANNSYNLIGHETER
i i
første screeningtest. Etter denne første testen blir det gjennomført grundige analyser som reduserer andelen med positiv dopingtest til om lag 1.5-2 %.
3.4.3
Litt om Bayes
I eksemplene ovenfor har vi beregnet sannsynligheten for en bestemt hendelse som kan inntreffe på ulike måter. Vi kan si at hendelsen har ulike “årsaksforløp". Na skal vi introdusere Bayes’ regel som hjelper oss til å regne baklengs: Gitt at innbruddsalarmen utløses, hvor sannsynlig er det at det er innbrudd? Gitt at en idrettsutøver avlegger positiv dopingtest, hvor sannsynlig er det at han er dopingfri og uskyldig? Ved a kombinere definisjonen av betinget sannsynlighet med multiplikasjonsregelen fant presten Thomas Bayes (1702-1761) den følgende regelen, som bærer hans navn. Denne regelen kan gi en del overraskende konklusjoner, som vi snart skal se. Vår intuisjon har problemer med slik baklengsregning; vi har en tendens til å glemme at de ulike årsaksforløpene kan ha svært ulik sannsynlighet. Regel 55 (Bayes’ regel) En, og bare en, av hendelsene B\. B-2- ■ ■ • • Bn vil inntreffe. Hendelsen A inntreffer med sannsynligheten P(Afi som. regnes ut ved hjelp av regel 53. Sannsynligheten for at hendelsen Bi inntraff, gitt at A har inntruffet, er
Begrunnelse. Fra definisjonen av betinget sannsynlighet og multiplikasjonsregel
en følger uttrykket nedenfor. I 4A _ P^nB7) _ P(Bt) • P(A I Bj) ( '1 1 J P(A) Pl A)
■ Eksempel 56 Gitt at innbruddsalarmen utløses, hvor sannsynlig er det at det er
innbrudd? Løsning: Vi tar utgangspunkt i hendelsestreet på figur 3.1f. Husk at B betyr besøk av innbruddstyv, og A betyr at alarmen utløses. Sannsynligheten for at det virkelig er innbrudd, gitt at alarmen utløses, finner vi ved bruk av Bayes' regel: I
=
P(B) ■ P(A | B) 0.07 ■ 0.95 P(A) = 0.0-. 0.95 ^0.93. O.!2 = 037
Hvis alarmen utløses, er det altså så mye som 63 % sjanse for at alarmen er falsk! Dette er kanskje grunnen til at de færreste av oss reagerer nar alarmen går? Vi har lært oss at det vanligvis er falsk alarm. Eksempel 57 Hvor sannsynlig er det at en idrettsutøver som avlegger positiv dop
ingtest, likevel er dopingfri? Løsning: Vi benytter tallene fra eksempel 5j. Husk at A betyr at utøveren avlegger positiv test, mens B% betyr at utøveren er dopingfri. Sannsynligheten for at en utøver som avlegger positiv screeningtest. likevel er dopingfri, finner vi med Bayes' regel: PiB, | A} = 13 1 ’
P(A)
JH. = °-84-° °.3 = o.5O 0.05
Halvdelen av utøverne som avlegger positiv screeningtest. er altså uskyldige! Tilsvarende resultat er svært vanlig i medisinske anvendelser (HIV-test, tuberkuloseprøver osv.).
78
KAPITTEL 3. SANNSYNLIGHETSREGNING
Logndetektor
Ufortjent skinn av objektivitet Av prof. Odd Aalen og profstip.
Thore Egeland, Seksjon for medi sinsk statistikk, Universitetet i Oslo Løgndetektoren, eller polygrafen, figure rer mye i mediene for tiden. Professor Sven Svebak ved Universitetet i Trond heim utfører løgndetektortester i mange aktuelle saker, og det publiseres stadig sannsynligheter for at tiltalte eller dømte personer er uskyldige. Resultater fra Svebak ble blant annet bragt frem i for bindelse med Birgitte Tengs-saken. Typisk er de publiserte sannsynlighe ter svært høye, til dels godt over 99 pro sent, f.eks. ble det i Dagbladet 27.11.1 en annen sak angitt en sannsynlighet for uskyld på 99,8 prosent. Uten å ta stilling tilløgndetektorens generelle anvende lighet eller de aktuelle sakene, vil vi få på peke at de angitte sannsynligheter fra et faglig statistisk synspunkt virker urime lig høye. Sannsynligheter godt over 99 prosent gir en til visshet grensende sik kerhet. Og hvis man kunne stole på slike
tall, ville løgndetektoren være et særde Hvis man skal beregne en sannsynlig les sikkert instrument til å avgjøre de het for skyld eller uskyld gitt en løgndevanskeligste saker. tektortest. må man i tillegg ha et utDenne påståtte sikkerhet rimer ikke gangsestimat for sannsynligheten for at med den alminnelige internasjonale vur vedkommende er skyldig/uskyldig. I dering av løgndetektoren. Det ville også praksis vil det her være tale om en sub jektiv vurdering som kan påvirke resulta innebære at løgndetektoren hadde en diagnostisk sikkerhet langt over den de tet sterkt. Fortolkningen av løgntesten fleste medisinske tester har. Som repre vil også på andre måter kunne være av sentanter for et fag der sannsynlighets hengig av subjektive vurderinger. regning er en presis matematisk viten Når løgndetektoren omgis av en nim skap, reagerer vi på at sannsynligheter bus av datamaskiner og matematiske sannsynligheter, får den et ufortjent presenteres på en så ukritisk måte. Slike resultater kan bli direkte farlige når de i skinn av objektivitet. Den burde snarere andre sammenhenger viser høye sann presenteres som et redskap for subjekti synligheter for at en person er skyldig. ve faglige vurderinger på linje med andre Hvis sannsynligheter skal knyttes til psykologiske sakkyndige vurderinger, løgndetektoren. forutsetter det som et med de forbehold dette nødvendigvis in minimum at følgende størrelser må være nebærer. Hvis man presenteres for sann kjent: 1) Man må kjenne løgndetektosynligheter for skyld og uskyld basert på rens sensitivitet. dvs. dens evne til å av en løgntest. må man be om å få lagt på sløre at en person er løgner. 2) Man må bordet alle forutsetninger i beregningevidere kjenne løgndetektorens spesifisine slik at man kan la stilling til gyldighe tet, dvs. dens evne til å avsløre at en per ten av disse. son snakker sant. Sensitivitet og spesifisitet er fundamentale størrelser ved all medisinsk diagnostisk testing. Ideelt sett skulle disse sannsynligheter ligge nær 100 prosent, men er ofte vesentlig la vere. Det ligger i sakens natur at det er vanskelig å anslå disse størrelser for løgndetektoren; de en finner i faglittera turen er sprikende, men ofte lave. De kan variere i området 60-90 prosent, alt etter den spesifikke sammenheng de er bereg net i. Slike verdier gir ikke grunnlag for å angi sannsynligheter for skyld eller uskyld på over 99 prosent. Vi kan derfor ikke forstå det matematiske grunnlaget for de stadig publiserte sannsynligheter.
Figur 3.15: Kjenner du igjen Bayes’ regel? (Aftenposten 16.12.97)
Det er ikke uvanlig med tester der et stort flertall av de som tester positivt, faktisk er negative. Av denne grunn er det viktig at det blir tatt flere prøver, at prøvene blir analysert grundig med ulike metoder, at arbeidet kvalitetssikres, og at de som leser testresultatene, er klar over at konklusjonene kan være feil. Gjennom slike rutiner vil de fleste dopinglaboratorier hevde at deres endelige testresultat ikke dømmer noen uskyldige. Bayes’ teorem er særlig viktig innen medisinsk diagnostikk, der legen alltid er på jakt etter en diagnose med utgangspunkt i funnene sine. Her betyr B at pasienten virkelig er syk. mens A betyr at legens testmetode forteller at pasienten er syk. Testens evne til å avsløre at en person er syk, kalles testens sensitivitet og uttrykkes ved P(A B f Testens_evne til å avsløre at en person er frisk, kalles testens spesifisitet og uttrykkes ved P(A | B). For at legen skal kunne vurdere om pasienten er syk. må han i tillegg vite hvor stor andel av befolkningen som lider av den aktuelle sykdommen. Denne basisraten uttrykkes ved P(Bf Ser du at disse tre opplysningene er nøyaktig hva Bayes’ regel ber orn for å kunne beregne P(B j A)? Det er jo denne sannsynligheten som er interessant for legen. Avisinnlegget i figur 3.15 presenterer samme resonnement i en litt annen setting. Bayesiansk statistikk er en samlebetegnelse på bruk av subjektive sannsynligheter i forbindelse med Bayes’ regel. Litt enkelt sagt er logikken slik: Forestill deg at B\. B2. •. • er mulige tilstander for et fenomen som vi ikke kan observere direkte. For et forsøk utføres, har vi vare subjektive anslag for sannsynlighetene F(Bi), F(B2) osv., som kalles a priori sannsynligheter. Nar forsoket er ferdig utført, kan vi registrere visse data som vi betegner A. Da kan vi oppjustere sannsynligheten P(Bf) ved å beregne F(Bx A). Denne beregnede sannsynligheten kalles a posteriori sannsynlighet. Pa
3.4. BETINGEDE SANNSYNLIGHETER
79
tilsvarende måte kan vi oppdatere P(B2) osv. Bayesiansk statistikk kan være nyttig i mange sammenhenger, men her skal vi ikke forfolge Bayes’ ideer videre.
3.4.4
Hendelsestre
Noe av det nyttigste du kan lære i statistikkfaget. er å tegne hendelsestrær. Da kan du beregne de fleste sannsynligheter du er interessert i. Slike trær er dessuten gode pedagogiske hjelpemidler nar du ønsker a presentere dine resonnementer og regnestykk er for andre. Vi skal se et par praktiske eksempler på hvordan slike trær kan tegnes og benyttes til a regne ut sannsynligheter. Eksempel 58 Hva er sannsynligheten for at en elg blir mellom tre og fire dr gammel? Hva er sannsynligheten for at elgen blir mindre enn fire år? Hva er sannsynligheten
for at en elg som har overlevd ett år. skal bli mellom fire og fem år gammel? Løsning: Vi tegner et hendelsestre som. vist i figur 3.16. Til venstre starter vi med en nyfødt elg og beveger oss langs en tidsakse mot høyre. I hvert forgreningspunkt i treet spør vi om. elgen har overlevd det året som har gått. Treet har ulike forgreninger, som alle ender til høyre i diagrammet der det er angitt, hvor gammel elgen ble. Alle forløpene er disjunkte, siden elgen vil følge ett og bare ett av forløpene. I hvert forgreningspunkt er den betingede sannsynligheten angitt, knyttet til de to svaralternativene. Forløpet, som fører til at elgen blir mellom tre og fire år, er markert med tykk strek. Ifølge multiplikasjonsregelen kan vi finne sannsynligheten for at elgen følger dette førløpet, ved ganske enkelt å multiplisere alle sannsynlighetene langs streken. Ergo: P(elg blir 3-f år gammel) — 0.48 • 0.60 • 0.68 - 0.25 = 0.05 Hva er sannsynligheten for at elgen blir mindre enn fire år? Hendelsestreet viser fire ulike forløp som fører til at elgen blir mindre enn fire år. Siden disse forløpene er disjunkte, kan vi summere sannsynlighetene for hvert av de fire forløpene, og fa vårt, svar:
P(elg blir mindre enn fire ar)
=
0.52 +0.48 • 0.40
+0.48 ■ 0.60 ■ 0.32 +0.48 • 0.60 • 0.68 • 0.25
=
0.85
Hva er sannsynligheten for at en elg som. har overlevd ett år, skal bh mer enn fire år? Siden elgen har overlevd ett ar, betyr det at første forgreningspunkt i hendelsestreet ikke lenger er interessant. Den ønskede sannsynligheten finner vi ved, å multiplisere følgende tall: P(elg blir f-5 år i elg overlevde første år) = 0.60 • 0.68 ■ 0.75 • 0.35 = 0.11 Nøyaktig samme type resonnement benyttes av Statistisk, sentralbyrå og andre når de skal, regne ut sannsynligheten for at et menneske blir x år. sannsynligheten for at et. ekteskap varer i y år, sannsynligheten for at en kvinne med brystkreft overlever z år, sannsynligheten for at en lyspære lyser mer enn 1500 timer, osv. Slike analyser hører til et fagfelt, som kalles forløpsanalyse.
Eksempel 59 Noe av det verste som. kan skje på en oljeplattform er en utblåsing
(blowout), der olje eller gass plutselig lekker ut i store mengder. En utblåsing kan lede
KAPITTEL 3. SANNSYNLIGHETSREGNING
80
Alder 0-1 år 1- 2 år
2- 3 år 3- 4 år
4- 5 år
Nei >0.65
Død før alder
1 år
2 år
3 år
4 år
5 år
Tidsakse
Figur 3.16: Hendelsestre viser mulige levetidsforløp for en elg
til eksplosjon eller brann, men det kan også gå bra. Figur 3.11 viser et hendelsestre: Vi starter til venstre med tilstanden “kritisk drift”, som betyr at det bores i geologiske strukturer med høyt trykk. Ut fra denne boksen går det forgreninger til flere mulige hendelsesforløp. Hendelsestreet viser seks disjunkte hendelsesforløp som dekket hele ut fallsrommet (siden ett og bare ett av hendelsesforløpene vil inntreffe). I hver forgrening er sannsynligheter for ja/nei-svar oppgitt, betinget med hensyn på hele hendelsesfor løpet før dette tidspunktet. (Sannsynligheten for utblåsing gjelder for et helt døgn med kritisk drift.) Vi stiller tre spørsmål som alle forutsetter at plattformen er i en kritisk driftstilstand: (a) Hvor stor er sannsynligheten for dødsfall på grunn av brann? (b) Hvor stor er sannsynligheten for dødsfall? (c) Gitt at det blir dødsfall, hvor stor er sannsynligheten for at det skyldes brann? Løsning: (a) Vi finner sannsynligheten for et bestemt hendelsesforløp ved å multi plisere sannsynlighetene langs grenen som beskriver det aktuelle forløpet. Under kritisk drift, et helt døgn får vi P(dødsbrann) = 0.001 ■ 0.95 • 0.10 ■ 0.45 • 0.30 = 1.3 ■ 10"5
(b) Sannsynligheten for dødsfall finner vi ved å summere sannsynligheten til de for løpene som leder til dødsfall. Under kritisk drift, et. helt døgn får vi P(død)
=
P(dødsbranri) + P(dødseksplosjon)
=
1.3 -10~5 +0.001 0.05 = 6.3 • 10"5
Sannsynligheten for dødsfall et “tilfeldig” døgn vil være mye lavere enn dette, siden plattformen bare er i kritisk driftstilstand deler av tiden. Hvis vi skulle regne ut sannsyn ligheten for dødsfall et tilfeldig døgn, måtte vi vite hvor ofte plattformen er i kritisk, drift., og vi måtte vite noe om risikobildet den resterende delen av tiden. (c) Gitt at det blir et dødsfall under kritisk drift, hvor sannsynlig er det at døds fallet skyldes brann? Ifølge Bayes’ regel finner vi svaret, ved å ta sannsynligheten for dødsbrann og dele på den totale sannsynligheten til de forløpene som leder til dødsfall, slik:
, P(dødsbrann) 1.3 • 10-5 ~ P(brann død) =----- ——----- = — = 0.206 P(død) 6.3-10 0
3.5.
UAVHENGIGE HENDELSER
Ja
Ja
0.05
Dødsfall
0.001 Nei
Kritisk drift
Nei
81
0.95
Ja
0.10
Nei
0.90
Ja
0.45
Nei
0.55
Ja
0.30
Nei
0.70
Ikke dødsfall
0.999
Utblåsing?
Eksplosjon?
Brann?
Mislykket slokking?
Mislykket evakuering?
Tidsakse
Figur 3.17: Eksempel på hendelsestre for en offshore-ulykke
Denne typen hendelsestrær brukes i stort omfang i alle industrier der man utfører risikoanalyser. Hensikten er både å kartlegge risiki og i neste omgang å vurdere effekten av ulike tiltak. Blant de ivrigste brukerne finner man kjernekraftindustrien, flyselskaper og oljeselskaper.
3.5
Uavhengige hendelser
I avsnittet om betingede sannsynligheter har vi sett hvordan ny informasjon kan påvirke sannsynlighetene. Nå skal vi se pa situasjoner der ny informasjon ikke nød vendigvis påvirker de involverte sannsynlighetene. Dette kan skyldes at informasjonen enten er totalt irrelevant, eller at de involverte hendelsene er uavhengige av hverandre. To eksempler:
• Igor har overlevd russisk rulett en gang tidligere. Bør det påvirke sannsynligheten for at han lykkes denne gangen? • Min datamaskin kollapser i dag. Bør det påvirke sannsynligheten for at din datamaskin kollapser neste uke? I disse eksemplene bør informasjon om at en bestemt hendelse har inntruffet, ikke påvirke sannsynligheten for at en annen hendelse skal inntreffe. Sannsynligheten er alt så den samme, uavhengig av om vi har denne informasjonen eller ikke. Dette motiverer oss til følgende definisjon: Definisjon 60 (uavhengighet) A og B er uavhengige hendelser hvis
P(A \ B) = P(A)
Uavhengighet er en viktig egenskap. Når hendelsene er uavhengige, blir regnestykk ene ofte enklere fordi vi slipper å ta hensyn til betingede sannsynligheter. Vi skal etter hvert se flere eksempler på hvordan vi kan forenkle beregningene dersom de involverte hendelsene er uavhengige. Først må vi imidlertid lære litt mer om hva uavhengighet er, og hvordan vi kan kontrollere om hendelser er uavhengige. En alternativ definisjon av uavhengighet, som kan utledes av den første, er gitt nedenfor. Denne definisjonen er ikke like intuitiv, men enklere a bruke i praksis. Her
KAPITTEL 3.
82
Leser VG Leser ikke VG Sum
FrP 0.10 0.05 0.15
Sp 0.04 0.06 0.10
SANNSYNLIGHETSREGNING
Andre 0.26 0.49 0.75
Sum 0.40 0.60 1.00
Tabell 3.2: Sammenheng mellom avisvalg og partivalg
blir det ogsa tydeliggjort at hendelsene A og B spiller samme rolle i definisjonen av uavhengighet. Uavhengighet er en symmetrisk egenskap! Hvis A er uavhengig av B. må selvsagt B være uavhengig av A. Definisjon 61 (uavhengighetsbetingelse) A og B er uavhengige hendelser hvis og
bare hvis
Begrunnelse. Siden hendelsene er uavhengige, er P(A \ B) — P(A). Ved å sette
dette inn i multiplikasjonsregelen som sier P(A A B) = P(B) ■ P(A | B), beviser vi ligningen ovenfor. ■ Mange statistikkstudenter blander sammen begrepene uavhengighet og disjunkthet. Ikke gjør den samme feilen! Disjunkte hendelser er ikke uavhengige. Uavhengige hen delser er ikke disjunkte. Dette burde framkomme tydelig av betingelsene for uavhengig het og disjunkthet av hendelsene A og B, nar de blir stilt opp ved siden av hverandre.
A og B er uavhengige A og B er disjunkte
3.5.1
P(AnB) = P(A) • P(A n B) = 0
Er hendelsene uavhengige?
Vi kan kontrollere om to hendelser er uavhengige av hverandre, ved å sjekke om uavhengighetsbetingelsen er oppfylt. Et lite eksempel illustrerer poenget. En valg forsker ønsker å undersøke om det er en sammenheng mellom valg av avis og valg av parti. Han fokuserer pa avisen VG og partiene Sp og FrP. I tabell 3.2 presenteres den relative frekvensen i hver kategori slik resultatet kunne ha blitt hvis noen tilfeldig valgte mennesker ble intervjuet. Er partivalg avhengig av avisvalg? Vi undersøker først FrP. der uavhengighetsbetingelsen ikke er oppfylt:
P(FrP A VG) - 0.10
0.06 = P(FrP) ■ P(VG)
Hvis vi far vite at en person stemmer FrP. er det økt sannsynlighet for at vedkommende leser VG. Hvis vi får vite at en person leser VG, er det økt sannsynlighet for at han stemmer FrP. Opplysningene er altså ikke uavhengige av hverandre. For Sp derimot, er partivalg og avisvalg uavhengige, siden uavhengighet sbetingelsen er oppfylt
P(Sp n VG) = 0.04 = P(Sp) • P(VG) Hvis vi får vite at en person stemmer Sp, forandrer det ingenting på sannsynligheten for at han leser VG. Hvis vi far vite at en person leser VG. forandrer det ingenting pa sannsynligheten for at han stemmer Sp. Hittil har vi sett pa uavhengighet av to hendelser. En utvidelse av definisjonen gjør det mulig a snakke om uavhengighet av flere hendelser. Følgende definisjon sier hva som skal til for at tre hendelser er uavhengige. For flere hendelser blir det mange flere krav. Hendelsene Ai, A-2........ An er uavhengige hvis sannsynligheten til hver enkelt Ai er upåvirket av samtidige opplysinger om alle de andre hendelsene.
3.5.
UAVHENGIGE HENDELSER
83
Definisjon 62 (uavhengighet av tre hendelser) Hendelsene Ai- A2 og A3 er uav
hengige hvis følgende fire krav er tilfredsstilt: P(A1nA2)
PUi) ■ p(A-2)
P(Ai
n A3)
P(A1fiPUs)
PM2AA3)
P(A2)-P(A3)
p (A i n a2 r1a3)
P(Al) • P(A2) • P(A3)
(3.11)
Det kan være vanskelig a forstå hva dette betyr. La oss kaste to terninger, en hvit og en bla. og definere hendelsene A-[ = sum øyne er sju A2 = sekser med hvit terning A3 = sekser med blå terning
Hvis vi far opplysninger om en av hendelsene, påvirker det ikke sannsynligheten for de to andre. Det kan du kontrollere i venndiagrammet i figur 3.11. Hvis vi derimot far opplysninger om at to av hendelsene har inntruffet, påvirker det sannsynligheten for den siste. Hvis Ai og A2 har inntruffet, vet vi jo at A3 ikke kan ha inntruffet. De tre hendelsene er derfor ikke uavhengige. (Matematisk er det lett a vise at de tre første betingelsene i definisjon 62 er oppfylt, mens den fjerde betingelsen ikke er oppfylt.) I mange praktiske situasjoner er det enten umulig eller unødvendig a kontrollere om hendelsene er uavhengige. Basert pa innsikt i det fenomenet vi studerer, kan vi ofte si om det er fornuftig a anta at hendelsene er uavhengige (eller iallfall så lite avhengige at vi velger å se bort fra avhengigheten). Tenk f.eks. på to tilfeldige bilførende nordmenn. Ola og Kari. Til hver av dem er det knyttet en sannsynlighet for å bli involvert i et biluhell. Normalt er det er ingen rimelig grunn til å tro at disse to sannsynlighetene er avhengige av hverandre, selv om det hypotetisk sett kan hende at Ola og Kari blir involvert i den samme bilulykken. Hvis derimot Ola og Kari er naboer med felles dobbeltgarasje, blir situasjonen en annen, siden de to har relativt stor sjanse for å bli involvert i samme biluhell (en liten bulk regnes ogsa som et uhell, siden bade Ola og Kari har nye, fine biler). Selv om vi ikke alltid kan bruke regneregler for å avgjøre om hendelser er uavhengige eller ikke, så er det viktig a ha et bevisst forhold til avhengighetsproblematikken. Dersom du i en gitt situasjon er usikker på om hendelsene er uavhengige, er det spesielt viktig å dokumentere den antakelsen du gjør, og helst også dokumentere begrunnelsen for din antakelse. Slik åpenhet er en grunnleggende forutsetning for at dine vurderinger og regnestykker skal få den nødvendige tillit i beslutningsprosessen.
3.5.2
Regler for uavhengige hendelser
Na skal vi forlate spørsmålet orn hvorvidt hendelsene er uavhengige. Vi skal i stedet snu hele situasjonen pa hodet, og spørre: Hvis det er rimelig a anta at hendelsene er uavhengige, hvilken glede har vi av det? Følgende regel er en direkte konsekvens av definisjonen av uavhengighet (se ligning 3.11). Regneregel 63 (multiplikasjonsregel for uavhengige hendelser)
P(A1 n a2 n • • • n A„) = P(Afi> ■ p(a2)
• • • • • P(An)
(3.12)
Vi skal se pa flere eksempler nedenfor der vi skal benytte denne multiplikasjonsregelen. Les disse eksemplene kritisk. Vurder om det er OK å anta at de involverte hendelsene er uavhengige.
KAPITTEL 3.
84
SANNSYNLIGHETSREGNING
Eksempel 64 Johnny er fortapt i tipping. Han har kontrollert sin tippeevne i lang
tid. og har grunn til å tro at han klarer å tippe riktig kampresultat med sannsynlighet 0.80 i tre såkalt sikre kamper, sannsynlighet 0.55 i sju andre kamper, og sannsynlighet 0.33 i de to vanskeligste kampene. Hva er Johnnys subjektive sannsynlighet for a få 12 rette? Løsning: La hendelsen Al bety at Johnny tipper riktig i kamp nummer i. Vi antar at alle kampresultatene er uavhengige av hverandre. Fra multiplikasjonsregelen følger det at P(12 rette)
P(AX n a2 n
• • ■ n
ax2)
P(AØ ■ P(A2) ■ ... ■ P(Av2)
0.803 • 0.557 • 0.332 0.00085 Vi må benytte det samme resonnementet for å finne vinnersannsynligheten i alle spill der de involverte sannsynlighetene er ulike fra kamp til kamp (tipping, V75, V5, odds en). Dette er i motsetning til spill der alle utfall er like sannsynlige (myntkast, kortog terningspill, rulett, lotto). Den sistnevnte typen spill lærer du om i avsnitt 3.6. Eksempel 65 I 196f ble en kvinne frastjålet vesken sin under en handletur i Los
Angeles. Øyenvitner beskrev tyven som en ung, blond kvinne med hestehale, som stakk fra stedet i en gul bil, kjørt av en svart mann med bart og skjegg. Politiet klarte å identifisere et par som tilfredsstilte alle disse kriteriene, men de manglet beviser. Deres eneste argument var at det var svært usannsynlig at et tilfeldig par ville tilfredsstille kriteriene. Hvor usannsynlig var det egentlig? Løsning: Sannsynligheten for de ulike kriteriene ble av retten fastsatt slik:
P(gul bil)
-=
0.10
P(mann har bart)
-=
0.25
P (kvinne har hestehale)
-=
0.10
P(kvinne har blondt hår)
-=
0.33
P(svart mann har skjegg)
-=
0.10
P(par av ulik rase i samme bil)
-=
0.001
Retten gikk utfra at disse karakteristika var uavhengige av hverandre. Sannsynligheten for at et tilfeldig par skulle tilfredsstille alle kravene, ble derfor beregnet ved å multi plisere sannsynlighetene med hverandre: P(par tilfredsstiller kriterier) = 14= 12000000
Retten fant aktoratets argument tilfredsstillende - det eneste sannsynlige var at paret måtte være skyldig - slik at paret ble dømt. Saken ble anket til Californias høyesterett, som frikjente paret. Også i Høyesterett ble sannsynlighetsregningen benyttet som viktig argument. Kan du tenke deg hvordan Høyesterett resonnerte? (Hint: Anta at det finnes 2f millioner par på USAs vestkyst. Hvor stor er da sannsynligheten for at det finnes flere par som tilfredsstiller disse kriteriene?) Tidligere i kapitlet har vi presentert to addisjonsregler, en generell variant og en som gjelder hvis hendelsene er disjunkte (reglene 40 og 45). Nå kommer den tredje og siste varianten, som gjelder hvis hendelsene er uavhengige.
3.6.
TELLEREGLER - KOMBINATORIKK
85
Regneregel 66 (addisjonsregel for uavhengige hendelser) U
A2 U ... U An) = 1 - F(A) ■ F® ..... F(®)
Begrunnelse. La oss vise regelen for tre uavhengige hendelser, A, B, C. Fra ligning 3.2 vet vi at A U B U C = A Fl B Fl C. Dermed gir komplement regelen og multiplikasjonsregelen for uavhengige hendelser at
P(A u B U C) = 1 - P(A u B U C) = 1 - P(A F B Fl C) = 1 - F(A) ■ F(B) • F(C)
Eksempel 67 Sannsynligheten for at PC-en feilfungerer på grunn av programvarefeil kan antas å være konstant, lik 0.001 per time. Hvis PC-en er i bruk døgnet rundt et
helt år, hvor stor er sannsynligheten for å oppleve programvarefeil? Løsning: Et vanlig år består av 8760 timer, og vi lar hendelsen A2 bety at PC-en feilfungerer i time nummer i. Ifølge opplysningene er P(Af) = 0.001, slik at P(A~f) = 0.999. Vi antar at sannsynligheten for å støte på en feil i en bestemt time er uavhengig av hva som skjer i de andre timene. Sannsynligheten for å oppleve programvarefeil i løpet av året blir P(AV U A2
U ... U
Ag760)
=
1 - F(®) • P(Af) ..... F(®®)
=
1 - O.9998760 = 1 - 0.00016
=
0.99984
Dette svaret er langt unna hva vi hadde fått dersom vi feilaktig antok at hendelsene var disjunkte. Da ville jo svaret blitt lik 8760 • 0.001 = 8.76, som opplagt må være feil siden en sannsynlighet ikke kan være større enn 1. Sørg for at du ikke gjør denne pinlige feilen på eksamen, eller - enda verre - i ditt senere arbeid! Eksempel 68 En gresk strandløve tilbringer sommerferien sammen med skandinaviske
jenter, helst en ny hver dag. Alexos er smittet av hiv, og han har fått opplyst at sannsyn ligheten for å smitte en kvinne er 0.01 per samleie. Alexos synes denne sannsynligheten er så liten at han unnlater å informere kvinnene, og insisterer på å nyte samværet uten kondom. Sommerferien er lang i Hellas: Alexos klarer å erobre ljO kvinner i løpet av sommermånedene. Hvor stor er sannsynligheten for at minst en av kvinnene får hiv? Løsning: Vi lar hendelsen Aj bety at kvinne nummer i blir smittet. Ifølge opplysning ene er P(Af) = 0.01, slik at P(Atj = 0.99. Addisjonsregelen gir oss sannsynligheten for at minst en av kvinnene blir smittet:
F(A1UA2U...UA140)
3.6
=
1 - F(®) - F(®) •... • F(A^)
=
1 - O.99140 = 1 - 0.245
=
0.755
Telleregler — Kombinatorikk
I avsnitt 3.2.1 om det uniforme sannsynlighetsbegrepet definerte vi sannsynligheten for en hendelse som antall gunstige utfall delt på antall mulige utfall. Når vi kaster en mynt eller en terning, er det lett å bruke denne formelen fordi vi klarer å telle opp antall muligheter. I mer kompliserte situasjoner trenger vi kombinatoriske telleregler for å finne fram til antall muligheter. Kombinatorikk er en del av et fagfelt som kalles diskret matematikk. Kombinatorikk oppleves ofte som vanskelig og er et fagfelt der intuisjonen i beskjeden grad kan være
KAPITTEL 3. SANNSYNLIGHETSREGNING
86
Ekstrautstyr
Figur 3.18: Hvor mange bilmodeller kan Håvard velge blant?
til hjelp. Men som alltid ellers: Nøkkelen til forståelse ligger i systematisk arbeid. En trøst kan være at resten av temaene i denne boka ikke er avhengig av at du forstår kombinatorikken til bunns. Det viktigste er at du ikke får angst når vi senere i boka skriver uttrykk av typen (£). Konklusjon: Gjør så godt du kan!
3.6.1
Produktregelen
Mange forsøk foregår i flere etapper. På travbanen kan vi tenke på V75 som et forsøk med sju etapper. I leketøysbutikken kan vi oppfatte Håvards bilkjøp som et tretrinns valg. Butikken selger lekebiler i tre forskjellige størrelser som fås i fire forskjellige farger, med enten tilhenger feste eller takgrind. Hvor mange forskjellige biler kan Hå vard velge blant? Figur 3.18 viser hvordan antall muligheter i en etappe etterfølges av nye muligheter i neste etappe. Først velger han én av tre størrelser. Deretter velger han blant fire farger. Det finnes totalt 3 • 4 kombinasjoner av størrelse og farge. For hver av disse 12 kombinasjonene finnes det to varianter av ekstrautstyr (takgrind eller tilhengerfeste). Totalt antall muligheter blir 3 • 4 • 2 = 24. Regel 69 (produktregelen) Et forsøk utføres i k etapper. I første etappe er det mulige utfall, i andre etappe er det m-2 mulige utfall, osv. Totalt antall utfall for hele
forsøket er lik ug ■ rn-2 ■
■ ■ ■ mk.
Eksempel 70 I hestespillet V75 skal man tippe vinneren i sju travløp. I hvert løp deltar inntil 15 hester. I neste uke er antall hester i de sju løpene lik: 12, lj, 11, 10, 15, 12, 13. Vinnerrekken er en sortert liste med vinnerhestenes nummer. Finn totalt antall mulige vinnerrekker. Løsning: Vi tenker på V75 som et sju-trinns forsøk, der hvert travløp tilsvarer et forsøk. I første løp er det m}=12 mulige utfall, i andre løp er det m2=lf mulige utfall, osv. Ifølge produktregelen er totalt antall mulige vinnerrekker lik
m-i ■ m-2 ■ m^ ■ m4 ■ m5 •
■ m7 = 12 • lf • 11 • 10 ■ 15 ■ 12 • 13 = j3 2f3 200
Disse vinnerrekkene er ikke like sannsynlige, siden noen hester er bedre enn andre. For å finne sannsynligheten av en bestemt vinnerrekke må vi regne slik som i eksempel 6f.
3.6.
TELLEREGLER - KCRIBINATORIKK
87
Figur 3.19: Urnemodell: Vi rører godt rundt, og trekker en tilfeldig kule.
3.6.2
Urnemodellen
Produktregelen hjelper oss til a beregne antall muligheter i et forsøk som utføres i flere etapper. Hvis det er en nøye sammenheng mellom de ulike etappene, kan en urnemodell være til stor hjelp. Vi tenker oss en urne som inneholder mange kuler, som vist i figur 3.19. Kulene er merket slik at vi kan se forskjell på dem. Vi skal bruke urnemodellen som en modell som gjør det enklere a forstå hvor mange muligheter som finnes. En alternativ modell som gjør samme nytten, er å tenke på en flosshatt med mange nummererte papirlapper. Eller tenk pa en stor utgave av lottotrekningsmaskinen pa Hamar. Forsøket består som sagt av flere etapper. I første etappe trekker vi ut en kule. Hvis kulen legges tilbake i urnen før neste trekning, foregår trekningen med tilbakelegging. Hvis kulen ikke legges tilbake i urnen, foregår trekningen uten tilbakelegging. Slik forsetter vi å gjøre en trekning for hver etappe helt til hele forsøket er utført. Etterpå sitter vi igjen med noen trekningsresultater. Hvis rekkefølgen av trekningsresultatene er viktig, sier vi at resultatet er ordnet. Hvis rekkefølgen av trekningsresultatene er uvesentlig, sier vi at resultatet er ikke-ordnet. Xår vi kombinerer disse variantene av trekning og resultatorganisering, får vi totalt fire forskjellige varianter, der vi skal finne formler for de tre som har praktisk relevans: 1. Potensregelen: Ordnet resultat fra trekning med tilbakelegging 2. Permutasjonsregelen: Ordnet resultat fra trekning uten tilbakelegging 3. Kombinasjonsregelen: Ikke-ordnet resultat fra trekning uten tilbakelegging
3.6.3
De viktigste tellereglene
Vi starter med å betrakte trekninger som foregår med tilbakelegging. og vi regner med at rekkefølgen av trekningsresultatene er viktig. La oss starte med et eksempel for å se koblingen tilbake til produktregel 69. Eksempel 71 I tipping skal man tippe resultatet av 12 fotballkamper. I hver kamp
finnes tre mulige resultater: H. U eller B. Vinnerrekken er en sortert liste med tolv resultater, eksempelvis HUH HBU BBH HHU. Finn totalt antall mulige vinnerrekker. Løsning: Forestill deg en urne med tre kuler merket henholdsvis H. U og B som i figur 3.20. Vi trekker ut en kule og krysser av for et mulig resultat i første kamp. Vi legger kulen tilbake i urnen, og rører godt rundt. Kulen må legges tilbake igjen, siden det jo er fullt mulig at flere kamper ender med samme resultat. På nytt trekker vi en kule og krysser av for et mulig resultat i andre kamp. Vi foretar totalt 12 trekninger: en trekning for hver kamp. Rekkefølgen av resultatene er viktig, siden HUB i de tre første
88
KAPITTEL 3. SANNSYNLIGHETSREGNING
Foretar 12 trekninger med tilbakelegging. Rekkefølge av resultatene er viktig.
Figur 3.20: Urnemodell for fotballtipping
kampene ikke er det samme som UBH. Ifølge produktregelen er antall kombinasjoner lik 12 gauger
mi ■ 7712 • rug • ■ •
mn ’ mi2 = 3 ■ 3 ■ 3 • ■ • 3 • 3 = 312 = 531 440
Disse kombinasjonene er ikke like sannsynlige, siden noen fotballag er bedre enn andre. For å finne sannsynligheten av en bestemt vinnerrekke må vi regne slik som i eksempel 6j. Regneregel 72 (potensregelen) Vi velger ut k enheter, med tilbakelegging, fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall er nk.
I de fleste sammenhenger foregår trekningene uten tilbakelegging. Den vanligste trekningen i statistikkfaget er jo at vi velger ut et tilfeldig utvalg fra en stor populasjon av enheter. Da kan den samme enheten bare velges ut en gang (i samme studie). Vi skal derfor konsentrere oss om situasjoner der trekningen foregår uten tilbakelegging. Fremdeles er rekkefølgen av trekningsresultatene interessant. Som en introduksjon, la oss se på et lite eksempel. Eksempel 73 Foran friidretts-VAI inviterer en løssalgsavis til en tippekonkurranse der du skal tippe rekkefølgen av de tre vinnerne på 800 m for herrer. Totalt deltar 13 løpere. Hvor mange forskjellige tips kan avisen få? Løsning: Vi tenker oss en urne med 13 kuler som er nummerert på samme måte som løperne. Vi trekker en kule, og tipper gull til løperen med dette nummeret. Det finnes altså = 13 mulige gulltips. Kulen legges ikke tilbake igjen i urnen, siden en løper ikke kan vinne mer enn én medalje i samme løp. Sølvtipset kan velges blant de resterende løperne, slik at det er m? = 12 mulige sølvtips. Bronsetipset velges blant de gjenværende løperne, slik at det er 7773 = 11 mulige bronsetips. Rekkefølgen av trekningsresultatene er viktig, for det bestemmer hvem som er tippet som vinner av hvilken medalje. Totalt antall ulike tips som avisen kan få, er ifølge produktregelen lik 771! ■ 7772 ’ m3 = 13 • 12 • 11 = 1716. Regneregel 74 (antall permutasjoner) Vi velger ut k enheter, uten tilbakelegging,
fra en samling med n merkede enheter. Totalt antall mulige ordnede utfall kalles antall permutasjoner av k fra n, og er lik
Pn,k
= 77. • (r?. - 1) ■ • • (77 - Å? + 1)
Notasjon 75 (fakultet) Før vi går videre, la oss bli kjent med skrivemåten nl, som uttales Ai-fakultet". Definisjonen sier at 0! = 1 og at nl = n • (72 — 1) • • • 3 ■ 2 • 1. Dermed skulle det være greit a innse at vi kan omskrive uttrykket for antall permutasjoner til F>
n’
Pn’k = (n - k)
5, er vi automatisk sikret at n > 20, slik at vi kan være rimelig trygge på at sentralgrenseteoremet gir en god tilnærmelse.
■ Noen tilleggsbetingelser bør være oppfylt for at normalt ilnærmingen skal være god:
• Binomisk fordeling: Sannsynligheten p må ikke være for nær 0 eller for nær 1. • Hypergeometrisk: Populasjonens størrelse N rna være mye større enn utvalgsstørrelsen n. Heller ikke her må andelen p = M/N være for nær 0 eller for nær 1. • Poissonfordeling: Her bør vi kreve at a2 = Xt > 10. Husk at binomisk, hypergeometrisk og poissonfordelingene er diskrete fordelinger, mens normalfordelingen er en kontinuerlig fordeling. Tilnærmingsregelen sier altså at vi kan regne ut en diskret sannsynlighet ved å benytte en kontinuerlig fordeling! Det viser seg at vi vil fa en enda bedre tilnærmingsformel dersom vi innfører en såkalt heltallskorreksjon. Det går ut på å erstatte x med x + 0.5 i ligning 5.6. Dette er illustrert i følgende eksempel. Eksempel 156 I eksempel 132 besøkte vi et borettslag som plantet 90 grantrær. Sann synligheten for at et lite grantre vokser opp til juletre, er 0.42. Antall juletrær som kan høstes, kalles Y. Finn P(Y < 39) ved hjelp av regel 155. Løsning: Først beregner vi forventning og varians
p
=
np = 90 ■ 0.42 = 37.8
a2
=
np{ 1 - p) = 90 • 0.42 ■ 0.58 = 21.93 = 4.682
Betingelsen for å foreta normaltilnærming, er oppfylt. Uten heltallskorreksjon finner vi 39 _ 37 s F(y < 39) « gå———) = G(0.256) « 0.600 4.68
Med heltallskorreksjon finner vi P(Y < 39) « g(39 + 0'^.~37'8) = G(0.363) « 0.641 4.68
Ingen av svarene avviker mye fra fasiten 0.6435 som vi kjenner fra eksempel 132, men svaret med heltallskorreksjon er svært nøyaktig, tatt i betraktning at dette bare er en tilnærming.
5.9
Andre modeller *
Hittil har vi vært innom de vanligste sannsynlighetsmodellene i statistikkfaget. Men det finnes flere fordelinger, mange flere. Enhver statistikers største drøm er selvsagt a finne opp en ny fordeling og fa den oppkalt etter seg. Sannsynlighetstettheten til slike modeller har en tendens til å få form av noen grusomt stygge matematiske uttrykk. Hvis du synes at matematikk er skummelt, da er det lurt a ta en pause nå, og ga direkte videre til neste kapittel.
5.9. ANDRE MODELLER*
163
De vanligste kontinuerlige populasjons favdelingene som vi ikke har nevnt i særlig grad, listes opp nedenfor. Sannsynlighetstettheten til de fleste av disse fordelingene ligger som st andar dfunksjoner i Excel og Minitab. Hvis du vil vite hvordan sannsyn lighet sfordelingene ser ut, kan du benytte hjelpemenyene i disse programmene. Den uniforme fordelingen er den eneste av disse som du kommer i kontakt med i fortset telsen.
• Uniform eller rektangulær fordeling (introdusert i eksempel 113) • Trekant fordeling (introdusert i oppgave 12 på side 130) • Betafordeling
• Gammafordeling • Cauchyfordeling • Laplacefordeling • Weibullfordeling (omtalt på side 149) • Paretofordeling • Lognormal fordeling
Dette avsnittet handler i hovedsak om fordelingen til funksjoner av uavhengige, normalfordelte variabler fra samme populasjonsfordeling. I praksis er det tilstrekkelig at fordelingen er tilnærmet normalfordelt. Det viktigste er at fordelingen er rimelig symmetrisk, og at “spredningskravene” i figur 5.17 er omtrentlig ivaretatt. La Xi.X-2......... Xn være uavhengige og identisk fordelte variabler fra en normal fordeling. Tenk på dette som målinger fra et tilfeldig utvalg av størrelse n. I forrige avsnitt har vi sett at gjennomsnittet X er en stokastisk variabel. Samme argumen tasjon leder til at utvalgets varians S2 også er en stokastisk variabel. Utvalgets varians er definert som s2 = —L-xSx-x)2 n —
1 2—
2= 1
Hvilken sannsynlighetsfordeling har variansen S2? Når vi studerer dette og beslektede spørsmål vil vi etterhvert bli kjent med følgende fordelinger: • Kjikvadratfor delingen • Student t-fordelingen • Fisher F-fordelingen
Helt til slutt i avsnittet skal vi stifte bekjentskap med to simultane sannsynlighets fordelinger. Dette er generaliseringer av de to fordelingene vi har vært mest borti så langt, nemlig den binomiske fordelingen og normalfordelingen. Fordelingenes navn er • multinomisk fordeling • binormal fordeling
KAPITTEL 5.
164
VANLIGE SANNSYNLIGHETSMODELLER
Figur 5.26: Noen kjikvadr at fordelinger
5.9.1
Kjikvadratfordelingen
Kjikvadratfordelingen har fått navnet sitt fra den greske bokstaven x, som uttales “kjf‘ (men egentlig skulle skrives “khi” på norsk). Dette er den greske bokstaven som ligner mest på vår X. Når vi skriver X2, kan ikke grekerne gjøre annet enn å skrive x2, som da må uttales "kjikvadrat”. Derav navnet. Følgende definisjon begrunnes nærmere pa side 372. Definisjon 157 (kjikvadratfordelingen) La X±, X-2,.... Xn være uavhengige stan-
dardnormalfordelte variabler. Da er summen Y = Xf + X2 + • • • + Xl
kjikvadratfordelt med n frihetsgrader. Hvis X-ene er delvis avhengige av hverandre, vilY være kjikvadratfordelt med et lavere antall frihetsgrader. Sannsynlighetsfordeling, forventning og varians til Y med k frihetsgrader er gitt nedenfor, der K er en konstant som sørger for at arealet under tetthetskurven blir lik 1.
f fy) = K • yk/2-ie-y/2,
E(Y) = k,
Var(Y) = 2k
Kjikvadratfordelingen har bare én parameter, som kalles fordelingens antall fri hetsgrader. Legg merke til at kjikvadratfordelingen er ekstremt venstreskjev for et lavt antall frihetsgrader; se figur 5.26. Med over 20 frihetsgrader blir kjikvadratfordelingen tilnærmet normalfordelt, noe som er en direkte konsekvens av sentralgrenseteoremet. Uttrykket til variansen S2 inneholder summen X2 + X2 + • • • + X2. Det burde derfor ikke være så overraskende at vi kommer borti kjikvadratfordelingen i ulike sammenhenger der vi studerer variasjonen i et datasett. Regel 158 (fordeling til S2)
(n — 1) ■ S2 Y — - ------- x-----cH
er kjikvadratfordelt med n — 1 frihetsgrader
Begrunnelse. Siden Z( = (Xj — hj/0” er standardnormalfordelt, betyr det at
V Z'2 = ]U(X; — p)2/xj=o
Legg merke til at en del lærebøker bruker symbolet istedenfor xa for å under streke at det er kjifcrødnhfordelingen vi ser på. Siden 2-tallet ikke har noen selvstendig funksjon har jeg tillatt meg å ta det bort, for a forenkle symbolikken litt.
5.9.2
Student ^-fordelingen
Denne fordelingen har et rart navn, ikke sant? Matematikeren og kjemikeren William Sealy Gosset (1876-1937) arbeidet med ulike eksperimenter i Guinness-bryggeriet i Dublin. Han oppdaget at datidens statistiske metoder, som baserte seg pa at alle utvalg var store, passet dårlig for å beskrive de resultatene han fikk i sine eksperimenter med små utvalg. Han utviklet den teorien sorn ligger bak dette avsnittet, og publiserte sine resultater under psevdonymet “Student”. Derav navnet. Fra sentralgrenseteoremet vet vi at X er tilnærmet normalfordelt, slik at
-/g
er tilnærmet standardnormalfordelt. I praktiske situasjoner kjenner vi sjelden popu lasjonens standardavvik 2) be tydelig større enn P(Z > 2). Det er altså mer sannsynlig å observere store verdier av T-variabelen enn av Z-variabelen. Et spredningsintervall for T vil dermed være bredere enn et spredningsintervall for Z. Jo større datasett vi har, jo rner like blir de to sannsynlighetsfordelingene. Har vi mer enn 30 observasjoner, klarer vi ikke å se forskjell pa de to fordelingene. Følgende definisjon begrunnes pa side 372. Definisjon 159 (student t-fordelingen) Variabelen T i ligning 5.7 er t-fordelt med n—1 frihetsgrader. Sannsynlighetsfordeling, forventning og varians til T er gitt neden for, der K er en konstant som som sørger for at integralet under tetthets kurven blir
lik 1. f2 f(t) = K • (1 + ——)-n/2
E(T)=Q
Var(T) > 1
166
KAPITTEL 5.
VANLIGE SANNSYNLIGHETSMODELLER
Figur 5.27: Student t-fordelinger, sammenlignet med standardnormalfordelingen I praktisk bruk av i-fordelingen vil vi vanligvis være mest interessert i kvantilene. Du finner de vanligste kvantilene i tabell E.4 bak i boka. Kvantilene er definert pa nøyaktig samme måte som for normalfordelingen og kjikvadr at fordelingen: La T være i-fordelt med k frihetsgrader. Verdien ta kalles o-kvantilet til f-fordelingen med k frihetsgrader, hvis
P(T >ta) = a
5.9.3
Fisher F-fordelingen
Ronald Aylmer Fisher (1890-1962) er en av de virkelige forgrunnsfigurene i moderne statistikk. Han var utdannet matematiker fra Cambridge og arbeidet i en lengre per iode som statistiker med landbruksforskning ved Rothamsted Experimental Station. Mye av hans arbeid handlet om hvordan man kan forstå og forklare variasjonen i et datamateriale, eller sammenligne variasjonen i flere ulike datasett. De metodene som Fisher utviklet, er godt egnet til å vurdere og sammenligne effekten av ulike typer behandlinger av typen vanning, gjødsling, sprøyting, osv. Metodene blir også mye brukt for å planlegge eksperimenter på en slik måte at det skal være lett å trekke konklusjoner etterpå. Vi skal se hvordan det er mulig å sammenligne variasjonen i to ulike populasjoner (eller to grupper fra samme populasjon, f.eks. kvinner og menn). La Xi, X-2,.... Xn og Yi.X-2....... Xm være uavhengige, tilfeldige utvalg fra to normalfordelte populasjoner med varians henholdsvis cr2x og a2.. Legg merke til at utvalgene ikke behøver være like store. Ut valgenes varianser kalles pa vanlig mate Sx og Sy. Fisher fant ut at den enkleste måten å sammenligne to varianser på var å lage brøken mellom utvalgsvariansene: F= A %
La oss anta at populasjonsvariansene er like hverandre, dvs. a2x — rr2-. Da kan vi forvente at utvalgsvariansene er like hverandre, slik at E(F) ~ 1. Hvis vi observerer en stor verdi av F, da tyder det på at variasjonen i X-populasjonen er større enn variasjonen i U-populasjonen. Men hva er stort, og hva er lite? Det kan vi finne ut ved å se på sannsynlighetsfordelingen til variabelen F: Definisjon 160 (Fisher) Hvis populasjonsvariansene er like hverandre, vil variabe len F være fisherfordelt med n — 1 og m — 1 frihetsgrader.
5.9. ANDRE MODELLER*
167
Figur 5.28: Noen F-fordelinger
Fisherfordelingen har altså to parametere, som begge kalles antall frihetsgrader. Grunnen til at frihetsgradene dukker opp her også, er at de følger med hver sin av S2ene. Legg merke til at F aldri kan bli negativ, siden alle leddene i brøken er positive. Noen F-fordelinger er vist i figur 5.28. Sannsynlighetsfordelingen presenteres nedenfor, og begrunnes på side 372. Definisjon 161 (fisherfordelingen) La Y være fisherfordelt med
og k^ frihets grader. Sannsynlighetstettheten presenteres nedenfor, der K er en konstant som som sørger for at integralet under tetthetskurven blir lik 1.
ff lfi = K ■ yk'/2~l . (1 + blyj-IN+k-,)/?
k-2
I praktisk bruk av F-fordelingen er vi vanligvis mest interessert i kvantilene. De er definert på nøyaktig samme måte som for normalfordelingen, kjikvadratfordelingen og f-fordelingen. Vi har ikke tatt med en tabell over fisherfordelingen i denne boka, siden en slik tabell tar sa stor plass pa grunn av alle de mulige kombinasjonene av antall frihetsgrader. Du huner dessuten fisherfordelingen i bade Excel og Minitab.
5.9.4
Multinomisk fordeling
I en binomisk forsøksrekke registrerer vi antall forekomster av to hendelser: B og B. derav navnet fønomial. En multinomisk forsøksrekke er helt analog, men na er vi interessert i forekomsten av k ulike kategorier. Vi har en multinomisk forsøksrekke med n delforsøk dersom: 1. hvert delforsøk har k mulige utfallskategorier: B\. B?.... . B^.
2. sannsynlighetene pi = P(Bi) er den samme i alle n delforsøkene, og ]F/=u Pi = 1 3. delforsøkene er statistisk uavhengige av hverandre.
Vi lar den stokastiske variabelen Xt være antall forekomster av B,. Siden det er nøyaktig n delforsøk. rna X, = n. Nar vi kjenner k — 1 av X-ene, kan vi alt så regne ut den siste. Dette er grunnen til at vi for binomialfordelingen bare har beskjeftiget oss med én variabel selv om vi har to mulige kategorier. Den simultane sannsynlighetsfordelingen til X-ene kalles multinomialfor delingen.
168
KAPITTEL 5.
VANLIGE SANNSYNLIGHETSMODELLER
Definisjon 162 (multinomialfordelingen) Variablene X^. X2......... Xk er multino-
misk fordelt hvis følgende ligning gjelder for alle heltallsverdier av xt som er slik at
=nP [Xi —
. X'2 — X2
XT-X-2'.
Pi PV Pk
En multinomisk forsøksrekke kan alltid "reduseres tilbake” til en binomisk forsøksrekke: Hvis vi bare var interessert i den første kategorien, kunne vi nøye oss med a registrere forekomsten av og B^. Vi ville få nøyaktig samme verdi for Vp Situasjo nen ville være binomisk, dvs. Vi ~bin(n,pi). Dette resonnementet er selvsagt gyldig for alle V-ene. Forventning og varians til de enkelte V-ene kan vi derfor finne som vi pleier i en binomisk modell: EfV,) = npz
Va.r(Xi) = np.fl - pf)
Det er opplagt at V-ene ikke kan være uavhengige av hverandre. Når vi kjenner verdien til Vj vil dette påvirke sannsynlighetsfordelingen til Xj. Faktisk er det slik at en høy verdi av Xi mest sannsynlig svarer til en lav verdi av V,-, og omvendt. (Hvis vi får mange i kategori Bz er det jo ikke så mange igjen som kan være i kategori Bj, og omvendt.) Vi skulle derfor vente at kovariansen til Xi og Vj er negativ. Det kan vises at kovariansen er lik
Cov(VZ;Vj) = -npipj Hva skjer med den multinomiske sannsynlighetsfordelingen når antall forsøk n blir et stort tall? Vi skal ikke svare direkte på spørsmålet, men isteden se at kjikvadrat fordelingen dukker opp som et hendig hjelpemiddel. Når n øker, garanterer sentralgrenseteoremet at hver Xi blir tilnærmet normalfordelt. Den standardiserte variabelen Xi-EfXj) vVarfX,) vil da være tilnærmet standardnormalfordelt. I regel 157 lærte vi at summen Z^ + Z^A ■ ■ ■ + Z'l er kjikvadratfordelt med k frihetsgrader hvis alle Z-ene er uavhengige. I vårt eksempel er Z-ene avhengige pa den måten at når k — 1 av dem er kjent, da kjenner vi også den siste. Vi har bare k — 1 frihetsgrader. Legg merke til at Var(Vj) « E(Xf. Utnytter vi det, finner vi at fc
p (X, - Æ(Xt))2 V
E(X,)
er tilnærmet kjikvadratfordelt med k — 1 frihetsgrader. (Når vi ser på krysstabellene i avsnitt 8.5, ser vi at antall frihetsgrader blir enda mer redusert, avhengig av antall rader og kolonner i tabellen). Det er denne Q-summen som danner grunnlaget for de meget populære kjikvadrattestene som vi skal komme tilbake til.
5.9.5
Binormalfordelingen
Na skal vi se pa situasjoner der vi har flere variabler som hver for seg er normalfordelte. For å forenkle framstillingen skal vi holde oss til det enkleste tilfellet, nemlig at vi har to normalfordelte variabler X og Y. Binormalfordelingen er bare av interesse hvis variablene er avhengige av hverandre, dvs. hvis korrelasjonen p 0. Alt som sies i det
169
5.9. ANDRE MODELLER *
Trinomisk fordeling (n = 4, alle Pi = 1 /3)
Figur 5.29: En multinomisk fordeling med tre variabler kalles en trinomisk fordeling.
følgende, kan relativt enkelt generaliseres til så mange variabler som vi ønsker oss. Da snakker vi om at variablene er multinormalt fordelte. Binormalfordelingen egner seg til a beskrive de fleste fenomener der normalfordel ingen egner seg, og der det er en avhengighet mellom de to variablene. Noen eksempler kan være:
• Vekt og høyde på en tilfeldig person • Varighet og kostnad av et prosjekt
• Inntekt og formue for en tilfeldig kommunalt ansatt I mange sammenhenger registrerer vi verdien til den ene variabelen først og den andre verdien etterpå. Gitt at vi først registrerer X = x, hva blir da den betingede sannsynlighetstettheten til V? Vi benytter skrivemåten Y j x for å poengtere at vi har kunnskap om x-verdien. På side 373 begrunnes det at Y \ x er normalfordelt med forventning og varians ry
---- U~Vx) (7 X
c\
c\
c\.
U ~P )
(5-8)
Disse formlene fortjener to små kommentarer som er viktige for teorien bak lineære regresjonsmodeller, som vi skal lære om i kapittel 7. • Forventningsverdien til Y når X = x er kjent, er en lineær funksjon av ver dien x. Vi kan skrive EfY \ x) = a + /3x, der a og /3 er to konstanter. Det betyr eksempelvis at vi et stykke på vei kan forutsi kroppsvekten nar vi kjenner kroppshøyden. • Variansen til Y nar X = x er kjent, er mindre enn nar X er ukjent. Faktoren p2 angir hvor mye variansen reduseres med når vi får kjennskap til verdien av X. Hvis korrelasjonen er stor, får vi god kunnskap om kroppsvekten ved å få opplyst kroppshøyden. Er korrelasjonen liten, er opplysningen av liten verdi.
Binormalfordelingens simultantetthet f (x, y) kan selvsagt skrives som en formel. Dette uttrykket er imidlertid sa “skremmende" at det er plassert på side 373, hvor
170
KAPITTEL 5.
Binormal fordeling (rho = - 0.7)
VANLIGE SANNSYNLIGHETSMODELLER
Binormal fordeling (rho = 0)
Binormal fordeling (rho = 0.7)
Figur 5.30: Noen binormalfordelinger
du kan slå opp hvis du er spesielt interessert. Noen eksempler på binormalfordelingens simultantetthet er vist i figur 5.30. Legg merke til at et vannrett snitt gjennom fordelingen vil gi oss en flatekontur som er en ellipse. Alle loddrette snitt parallelt med X- eller V-aksen far en snittflate som ser ut som den klokkeformede normal fordelingen. Legg ogsa merke til at jo større p2 er, jo mer rettlinjet er sammenhengen mellom X og Y. Hvis variablene X og Y er uavhengige, da er p = 0, og vi far den enkle sammenhengen f (x, y) = fx (x) ■ fy(y), der de to sistnevnte /-ene er den vanlige normalfordelingstettheten.
5.10
Bruk av datamaskinen
Hvis du lærer deg å bruke datamaskinen, sparer du deg for mye regnearbeid. Det er ikke vanskelig!
5.10.1
Excel
Sannsynligheten P(X — x) beregnes ved hjelp av funksjoner i Excel. Det enkleste er å velge Sett inn ► Funksjon, angi kategorien Statistisk og velge den funksjonen som beskriver sannsynlighetsfordelingen til den stokastiske variabelen X. Da får du opp et vindu av samme type som i figur 5.4. Der må du angi verdien x og de parameterne som beskriver fordelingen til X. Vanligvis må du angi om du ønsker å beregne punktsannsynligheten P(X = x) eller den kumulative sannsynligheten P(X < x). Dette gjøres ved å angi 0 eller 1 til slutt i listen av funksjonens argumenter. De vanligste funksjonene er listet nedenfor, og deres navn burde forklare hvilke fordelinger det er snakk om.
• BINOM.FORDELING(x; antall forsøk n; sannsynligheten p\ 0 eller 1) • HYPGEOM.FORDELINGfx; antall forsøk n; antall spesielle i populasjonen M: populasjonens størrelse N). Dette gir punktsannsynligheten. • POISSON(x; forventningsverdien Xt; 0 eller 1) • EKSP.FORDELING(.r; raten Å; 0 eller 1) • NORMALFORDELING^; forventningsverdi p\ standardavvik cr; 0 eller 1) • NORMSFORDELING(z) gir verdien til Gaussfunksjonen G(z)
5.11.
OPPSUMMERING
5.10.2
171
Minitab
Punktsannsynligheten P(X = x) eller den kumulative sannsynligheten P(X < x) beregnes svært enkelt med Minitab. Velg Calc ► Probability Distributions og markér hvilken sannsynlighetsfordeling du er interessert i. Da far du opp et vindu. Der rna du krysse av om du vil ha punktsannsynlighet eller kumulativ sannsynlighet. Du må angi fordelingens parametere. Nederst må du angi hvilke x-verdier du vil beregne sannsynligheten for. Er du bare interessert i én x-verdi, angir du denne i feltet input constant. Trykker du OK, far du svaret. Minitab lager et normaltestplott ved kommandoen Stat ► Basic Statistics ► Normality Test.
5.11
Oppsummering
Når du har lest dette kapitlet, bør du • kjenne de viktigste sannsynlighetsmodellene • vite nar de ulike modellene egner seg
• kunne beregne sannsynligheter i binomisk, hypergeometrisk. poisson-, normalog eksponentialfordeling, ved bruk av tabell og kalkulator/datamaskin • kjenne normalfordelingens viktigste egenskaper • forstå sentralgrenseteoremets betydning for normalfordelingen • kunne benytte normaltilnærming for binomisk, hypergeometrisk og poissonfordelt variabel
5.12
Oppgaver
1. En keramiker produserer fem kaffekanner før lunsj. Sannsynligheten for at en kanne må vrakes, er lik p = 0.4. La X være antall vrak blant de fem. Finn P(X = 3). Tegn opp sannsynlighetsfordelingen til X.
2. Du er sulten, og kjøper åtte tilfeldig valgte pølser i en pølsebod. Sannsynligheten for at pølseskinnet er sprukket, er lik 0.20 for hver av pølsene. La X være antall sprukne pølser blant disse åtte. Hvilken sannsynlighetsfordeling har X? Finn P(X = 2) og P(2 < X < 5). Finn E(X).
3. Du planter ti sennepsfrø i hver sin blomsterpotte. Spiresannsynligheten er den samme for alle frøene, lik 0.6. La X være antall frø som spirer, blant disse ti. Hvilken sannsynlighetsfordeling har X? Finn F(X = 3) og F(2 < X < 6). Finn E(X). Tegn opp sannsynlighetsfordelingen til X. 4. En fabrikk benytter et produksjonsutstyr hvor 11 % av enhetene blir defekte. De foretar en liten prøveproduksjon der de lager 160 enheter. La X være antall defekte blant disse. Hvilken sannsynlighetsfordeling har X? Finn P(X = 13). Benytt datamaskinen til a finne P(X < 13). 5. En bonde sår 7.2 millioner gressfrø. Hvert av dem spirer med sannsynlighet 0.8. La X være antall millioner frø som spirer. Finn P(X < 6.8).
172
KAPITTEL 5.
VANLIGE SANNSYNLIGHETSMODELLER
6. En spesialpedagog skal undersøke læreevnen til n — 900 tilfeldig utvalgte elever. Fra litteraturen antar han at andelen av alle skolebarn som har lærevansker, er p = 0.15. Pedagogen er interessert i variabelen X lik antall barn med lærevansker i utvalget. Finn P(115 < X < 150). 7. En bilselger har åtte biler på lager, hvorav tre som er defekte. Du har mye penger, og kjøper fire tilfeldig valgte biler. La Y være antall defekte blant de bilene du kjøpte. Hvilken sannsynlighetsfordeling har F? Bestem fordelingens parametere. Hva er verdimengden til Y? Finn P(F = 1). Tegn et sannsynlighetshistogram.
8. I lotto trekkes det fra en urne med 34 kuler som er merket 1 til 34. Det finnes ni kuler med ensifret nummer. La Y være antall ensifrede nummer blant de sju lottotallene som trekkes ut førstkommende lørdag. Hvilken sannsynlighets fordeling har F? Finn P(Y = 3). Hva er verdimengden til Y? Finn og tegn opp sannsynlighetsfordelingen til Y. 9. En liten skog inneholder 64 elger, hvorav 14 som er merket. En ivrig elgjeger feller tilsammen åtte elger i jakta. La Y være antall merkede elger i jegerens fangst. Finn P(Y — 3) og P(Y < 3). 10. En middels stor skog inneholder 640 elger, hvorav 140 som er merket. En ivrig elgjeger feller tilsammen åtte elger i jakta. La Y være antall merkede elger i jegerens fangst. Anta først at Y er hypergeometrisk fordelt. Finn P(Y = 3) og P(Y < 3). Anta deretter at Y er binomisk fordelt og beregn de samme sannsynlighetene. Kommentér resultatet.
11. En kjempestor skog inneholder 6400 elger, hvorav 1400 som er merket. Alle jegerne feller tilsammen 800 elger. La A" være antall merkede elger blant de omkomne. Finn P(X < 200) og P(160 < X < 185). Hint: Benytt norrnaltilnærming. 12. Det finnes 34 lottotall. Ett av dem er ditt lykketall. Hver uke er sannsynligheten lik 7/34 for at lykketallet skal bli trukket ut. La Z være antall uker til lykketallet trekkes ut. Hvilken sannsynlighetsfordeling har Z? Finn P(Z = 3) og E(Z). Gi en begrunnelse for at sannsynlighetsfordelingen til Z er vist i figur 4.5.
13. Kari er kjemiker, og har et stort mål i livet: å finne opp en fantastisk superlim. Hun har bestemt seg for å fortsette helt til hun lykkes. Sannsynligheten for at hun lykkes, er hver dag lik 0.001. La X være antall dager inntil hun lykkes med sin oppfinnelse. Hvilken sannsynlighetsfordeling har X? Hvor lenge bør Kari forvente å holde på, dvs. hva er E(A)? Finn sannsynligheten for at hun lykkes i løpet av et år, dvs. P(X < 365).
14. Et datamaskin er i kontinuerlig drift hele døgnet. Over lang tid er det registrert at maskinen har Å = 0.25 feil per måned. La X være antall feil i løpet av de neste t — 12 månedene. Hvilken sannsynlighetsfordeling har A? Finn P(X < 4) og P(X = 4). Finn E(X). 15. Kristine fisker kontinuerlig med dorgen. Hun forventer å fa Å = 5 fisker per time. La X være antall fisker som Kristine har fanget etter 4 timer. Hvilken sannsynlighetsfordeling har XI Finn P(A = 15) og P(X < 15). 16. Et fylke opplever i gjennomsnitt en dødsulykke i trafikken per måned. La X være antall ulykker i løpet av en måned. Studier av ulykkesstatistikken viser at X er poissonfordelt. Finn P(X = 0) og P(X = 2). La Y være antall ulykker per ar. Hvilken sannsynlighetsfordeling har Yl Finn P(Y = 6) og P(F < 8).
5.12.
OPPGAVER
173
Tilleggsoppgave: En ulykke kommer sjelden alene, sies det. Drøft denne påstanden i lys av at X er poissonfordelt. 17. La X være antall diskotekbranner i løpet av et ar. Det er god grunn til å anta at X er poissonfordelt. La Y være antall personer som omkommer i slike branner hvert ar. Forklar hvorfor Y ikke er poissonfordelt. 18. Levetiden T til en lyspære antas å være eksponentialfordelt med forventet levetid H = 1500 timer. Finn sannsynligheten for at pæren ryker i løpet av 1000 timer (husk at Å = 1/p). Finn også sannsynligheten for at pæren overlever ett ar, dvs. P(T > 8760). Anta at det har gatt et helt år, og at lyspæren fremdeles virker. Hvor sannsynlig er det at den vil lyse 1000 timer til? 19. Kundene ankommer et postkontor pa helt tilfeldige tidspunkt og aldri samtidig. Hver time forventes Å = 4 kunder å ankomme (dette var før de ineffektive kon torene ble nedlagt). Definér de to variablene X
=
antall nye kunder i løpet av to timer
T
=
tiden til neste kunde kommer
Hvilken sannsynlighetsfordeling har A? Finn P(X = 6) og F(4 < X < 10). Hvilken sannsynlighetsfordeling har T? Finn sannsynligheten for at det går over en halv time til neste kunde ankommer, dvs. F(T > 0.5).
20. Hvert ar dør omlag 36 000 nordmenn av hjerte- og karsykdommer (kilde: SSB). Anta at disse dødsfallene skjer pa tilfeldige, uavhengige tidspunkt, slik at for ventet antall dødsfall per måned er Å = 3000. Definér de to variablene X
=
antall dødsfall i løpet av t = 12 måneder
T
=
tid mellom to etterfølgende dødsfall
Hvilken sannsynlighetsfordeling har X? Finn P(X < 35800) ved bruk av nor malt ilnærming. Hvor mange dødsfall kan vi forvente per dag? Hvilken sannsyn lighetsfordeling har T? Finn P(T < 20 minutt).
21. La Z være standardnormalfordelt. Finn F(Z < 0) og F(Z < 1.22) og F(1.13 < Z < 2.45) og F(—0.87 < Z < 1.11) ved å slå opp i tabell E.3 bak i boka. 22. Kristine far være med sin bestefar pa Vestfjorden, midt mellom Henningsvær og Hamarøy, for a fiske torsk. Vekten V av dagens fangst antas å være normal fordelt med forventningsverdi p = 200 kg og standardavvik er = 40 kg. Kristines bestemor blir skuffet hvis de kommer hjem med mindre enn 180 kg torsk. Hvor sannsynlig er det at hun blir skuffet? 23. Kroppshøyden X til en tilfeldig utvalgt norsk soldat, kan antas å være nor malfordelt med forventning p = 180 cm og standardavvik rr = 8 cm. Beregn F(X < 167) og F(X > 195) og F(175 < X < 182) ved å sla opp i normalfordelingstabellen. 24. Strømmen i skjøteledningen til Petters gutterom varierer. La oss anta at strøm men X (i ampere) på et tilfeldig tidspunkt er normalfordelt med forventningsver di 9 A og standardavvik 2 A. Finn P(X < 6.8) og F(7.3 < X < 8.9).
25. Anta at lønnen til en tilfeldig lavtlønnet arbeider er normalfordelt med forvent ning kr 190 000 og standardavvik kr 16 000. Finn et 99 % spredningsintervall for lønnen.
174
KAPITTEL 5.
VANLIGE SANNSYNLIGHETSMODELLER
26. La X være høyeste bølge neste ar i et delområde av Nordsjøen. La oss anta at X er normalfordelt med forventningsverdi 12 meter og standardavvik 2 meter. Finn en grenseverdi slik at det er 95 % sikkert at den maksimale bølgehøyden kommer under denne grensen. 27. La T være badetemperaturen ved Mallorca i juli neste ar. La oss anta at T er normalfordelt med forventningsverdi 24.8 grader og standardavvik 2.2 grader. Finn en grenseverdi slik at det er 99.9 % sikkert at temperaturen kommer over denne grenseverdien. 28. Et prosjekt består av 4 uavhengige delprosjekter, som alle har normalfordelte varigheter. Prosjektene er nummerert fra 1 til 4, og utføres etter hverandre i denne rekkefølgen. Delprosjektene har forventningsverdi henholdsvis 4, 5, 7 og 9 dager og standardavvik 1 dag. La Y være prosjektets totale varighet. Hvilken sannsynlighetsfordeling har F? Finn E(Y) og Var(F). Finn P(Y < 20).
29. Levetiden X til en type lyspærer er eksponentialfordelt med forventet levetid lik = 1500 timer. Da vil standardavviket være 1540). 30. Olga har bare en lampe i huset sitt, og lampen bruker bare en pære. Hun har kjøpt 50 lyspærer på tilbud, hver av dem med eksponentialfordelt levetid, med //. = = 1500 timer. Når en pære ryker, erstattes den med en “ny” umiddelbart. La T være den totale tiden Olga har lys i lampen sin, helt til siste pære er oppbrukt. Hvilken sannsynlighetsfordeling har TI Finn P(T < 8 år).
Del III
Grunnleggende statistikk
175
Kapittel 6
Estimering og hypotesetesting 6.1 6.2 6.3 6.4 6.5 6.6
Innledningseksempel Punktestimering Konfidensintervall Hypotesetesting - metoder og teori Hypotesetesting i praksis Empirisk fordelingsfunksjon *
Side Side Side Side Side Side
177 183 191 201 212 216
Hittil i statistikkfaget har vi konsentrert oss orn å gjøre sannsynlighetsberegninger under forutsetning av at vi kjenner alle parameterne som beskriver en modell. De aktuelle parameterne har i hovedsak vært sannsynligheten p i binomisk og hypergeo metrisk modell, forventning p og standardavvik rr i en sannsynlighetsfordeling, og raten X i poissonprosessen. I svært mange praktiske situasjoner er problemstillingen snudd på hodet: Parameterne er ukjente! Hensikten med dette kapitlet er å lære deg
• å anslå (estimere) slike parametere med rimelig grad av sikkerhet, og • å ta stilling til en påstand (hypotese) om verdien av en parameter.
Dette kapitlet handler egentlig om generalisering, slik vi definerte det i kapittel 1. Poenget er å skaffe kunnskap om en stor populasjon på bakgrunn av et lite antall ob servasjoner. Se tilbake på figur 1.1. Dette kapitlet handler om å bestemme en fornuftig størrelse på utvalget og om å beskrive usikkerheten i det resultatet vi finner. Vi skal starte med et omfattende innledningseksempel. Gjennom dette eksemplet bør du få en forståelse for hva estimering og hypotesetesting er. Logikken er egentlig ganske grei, men den kan lett drukne i formler og matematikk - som derfor er utelatt i stor grad i eksemplet. Etterpå skal vi gå mer nøye igjennom teorien, og du skal lære å utføre estimering og hypotesetesting pa egen hånd i de vanligste situasjonene.
6.1
Et innledningseksempel
Forestill deg at du jobber i produksjonsbedriften AluProd AS, som produserer en spesiell type enheter av metall til bruk i store lastebilmotorer. Bilfabrikkene - som er AluProds kunder - stiller ekstremt store kvalitetskrav til disse delene. I løpet av et år produserer bedriften 20 000 enheter. Med dagens produksjonsutstyr må så mye som 11 % av alle enhetene vrakes, slik at i underkant av 18 000 enheter kan leveres til kundene. Vi sier at vraksannsynligheten er 0.11. 177
178
KAPITTEL 6. ESTIMERING OG HYPOTESETESTING
1-20
21-40
G = vrak
41- 60 61- 80
81-100 101-120
121-140 141-160
Figur 6.1: Prøveproduksjon av 160 enheter
Nylig har det dukket opp en ny type datastyrt produksjonsutstyr på markedet. Din bedrift får tilbud om å kjøpe dette utstyret. Selgeren påstår at det nye utstyret har betydelig lavere vraksannsynlighet enn dagens utstyr. Av erfaring vet dere at det ikke er mulig å stole på alt en selger sier. Dessuten er utstyret svært dyrt. AluProd ønsker ikke å kjøpe utstyret uten å være sikre på at det virkelig er bedre enn da gens utstyr. Bedriften blir derfor enig med selgeren om å fa prøve utstyret en kort periode. I løpet av denne perioden rekker bedriften å produsere 160 enheter. Pa bak grunn av denne prøveproduksjonen ønsker bedriften svar på noen spørsmål knyttet til vraksannsynligheten for det nye utstyret:
• Hvor stor er vraksannsynligheten p for det nye utstyret? (estimering)
• Er det rimelig sikkert at det nye utstyret er bedre enn det gamle? (hypotesetesting) • Bør vi kjøpe det nye utstyret? (beslutningsteori) Alle disse tre spørsmålene krever at vi trekker en konklusjon om en populasjon (alle enheter som vil bli produsert med utstyret) pa bakgrunn av observasjoner fra et lite utvalg (prøveproduksjonen). I kapittel 1 kalte vi dette generalisering og påpekte at det var noe av hovedpoenget med statistikkfaget. Nar du foretar slik generalisering, er det svært viktig å ha et bevisst forhold til usikkerheten i de konklusjonene du trekker.
6.1.1
Hvilken vraksannsynlighet har det nye utstyret?
En liten prøveproduksjon kan aldri gi oss et nøyaktig svar på hvilken vraksannsyn lighet det nye utstyret har. Men vi kan ha håp om at prøveproduksjonen er rimelig representativ for produksjonsutstyrets kvalitet. I så fall vil andelen defekte i prøven gi et godt anslag for utstyrets vrakandel. Prøveproduksjonen av de 160 enhetene gav oss resultatene som er vist i figur 6.1. Ved a telle opp finner vi at 13 av enhetene rna vrakes. Var beste gjetning på utstyrets vraksannsynlighet blir da
, antall vrak i prøveprod. 13 Estimert vraksanns. = --------------------------------------- =----- = 0.081 antall enheter i prøveprod. 160
(6.1)
Prøveproduksjonen tyder pa at det nye utstyret er bedre enn det gamle utstyret, siden estimert vraksannsynlighet er lavere enn 0.11. Men kan vi stole pa at utstyret virkelig er bedre? Vi har jo bare produsert 160 enheter. Hvis vi bare hadde produsert de 50 første prøveenhetene, ville vi funnet 5 enheter som matte vrakes, slik at estimatet hadde blitt 5/50 = 0.10. Kontroller i figur 6.1.
6.1. ET INNLEDNINGSEKSEMPEL
179
Figur 6.2: Vrakandelen endrer seg underveis i prøveproduksjonen.
Hvis vi bare hadde produsert de første 100 prøveenhetene, ville vrakandelen vært 9/100 = 0.09. Basert på de 160 prøveverdiene kan vi tegne opp en kurve som viser hvordan vårt estimat (den relative frekvensen av vrak) har endret seg underveis i produksjonsserien, se figur 6.2. Legg merke til at estimatet hele tiden endrer seg. Vi kan ikke være sikre på at vi har fått riktig svar etter a ha produsert 160 prøveenheter. Men kurven varierer mindre etter hvert som prøvestørrelsen øker. Hvis du husker kasinoeksemplet fra kapittel 3, vet du at de store talls lov garanterer at den relative frekvensen vil nærme seg sin riktige verdi bare prøvestørrelsen blir stor nok (se figur 3.3). Neste spørsmål blir derfor: Hvor nær sannheten er estimatet pa 8.1 %?
6.1.2
Hvor sikkert er estimatet?
La oss gå litt tilbake i tid, til et tidspunkt før produksjonsserien startes, og definere den stokastiske variabelen
X — antall defekte i prøveproduksjonen For hver enhet er vi bare interessert i om den må vrakes eller ikke. Vi antar at vraksarmsynligheten p er den samme for alle enhetene. Vi antar at enhetene er statistisk uavhengige av hverandre. Hvis disse antakelse er riktige, betyr det X er binomisk fordelt med parametre n og p. Hittil i læreboka har vi konsentrert oss om a beregne P(X = x) nar parameterne er kjente størrelser. For AluProd er imidlertid situasjonen snudd på hodet: Sannsynligheten p er ukjent! Hensikten med hele prøveproduksjonen er jo nettopp å estimere verdien til p på bakgrunn av en observert X-verdi. Vrakandelen i den forestående prøveproduksjonen kalles p (uttales p-hatt):
antall vrak i prøveproduksjonen
X
antall enheter i prøveproduksjonen
n
Vi sier at p er en estimator for den ukjente verdien p. Estimatoren er en funksjon av den stokastiske variabelen ÅL Estimatoren er dermed selv en stokastisk variabel! Sannsynlighetsfordelingen til p må ha samme form som sannsynlighetsfordelingen til ÅL bare med en annen skalering av aksene. Siden X er tilnærmet normalfordelt. ma det bety at p er tilnærmet normalfordelt. Estimatorens forventningsverdi er lik den ukjente parameterverdien, dvs. E(p) = p. Estimatorens standardavvik kalles standardfeilen og skrives SE(p).
180
KAPITTEL 6.
ESTIMERING OG HYPOTESETESTING
Figur 6.3: Hvis vi gjentok prøveproduksjonen 100 ganger, ville vi finne 100 forskjellige konfidensintervaller. Noen av dem ville bomme (B).
Det er 95 % sannsynlig at estimatoren p får en verdi i intervallet p ± 2-SE(j5), ifølge figur 5.17. Ved å snu på rekkefølgen i dette utsagnet kommer vi fram til det som statistikere kaller et konfidensintervall etter det engelske ordet confidence, som betyr tillit: Det er 95 % sannsynlig at prøveproduksjonen vil gi oss en p-verdi slik at intervallet p ± 2-SE(p) inneholder den ukjente parameterverdien p. For AluProd blir konklusjonen (beregnes i eksempel 188) at det er 95 % sikkert at utstyrets ukjente vraksannsynlighet befinner seg i intervallet [0.039. 0.123]
Vi kan ikke være helt sikre på at den ukjente vrakandelen befinner seg i dette intervallet. Hvis vi utførte 100 like store prøveproduksjoner, kunne vi forvente at 95 av dem ville gi oss konfidensintervaller som inneholdt den ukjente vrakandelen p, mens 5 av intervallene ville “bomme”. Dette prinsippet er illustrert i figur 6.3, der hele prøveproduksjonen er gjentatt 100 ganger (simulert med datamaskinen). Vi kan tenke på vårt intervall som ett tilfeldig valgt blant alle disse intervallene. Vårt intervall kan være ett av “bomskuddene” (merket B), men det er stor sjanse for at vi har “trukket ut” ett av de intervallene som faktisk inneholder den ukjente parameteren. AluProd kan ikke gjøre annet enn å håpe at de har vært heldige. Av mangel på bedre informasjon bør AluProd derfor gå ut fra at vrakandelen befinner seg i intervallet [0.039, 0.123]. En beslutningstaker må selv bestemme hvor stor sikkerhet han ønsker at et konfi densintervall skal ha. Hvis AluProd ønsker å lage et konfidensintervall som med 99 % sikkerhet inneholder den riktige vrakandelen, vil konfidensintervallet blir bredere, lik [0.026. 0.136]. Jo sikrere man ønsker at et konfidensintervall skal være, desto bredere blir intervallet. Et bredt intervall gir på sin side mindre informasjon. Når kravet til sikkerhet er gitt, kan vi redusere lengden på konfidensintervallet ved å øke prøvepro duksjonen. Dette stemmer bra med sunn fornuft: Et større utvalg gir oss bedre (mer presis) kunnskap om populasjonen!
6.1.3
Er det nye utstyret bedre enn det gamle?
Selgeren av det nye utstyret påstår at hans utstyr er bedre (har lavere vraksannsyn lighet) enn det gamle utstyret. Hvordan kan vi ta stilling til selgerens påstand? En på
6.1. ET INNLEDNINGSEKSEMPEL
181
stand er enten riktig eller gal. Det finnes altså to motstridende påstander som konkur rerer om å få vår tilslutning. I statistikkfaget blir påstandene vanligvis benevnt med Ho og H\, der bokstaven H er valgt fordi det er vanlig å omtale denne typen påstander som hypoteser. For AluProd er hypotesene
Hq H\
— nytt utstyr er ikke best (p > 0.11) =
(6.2)
nytt utstyr er best (p < 0.11)
Hvilken hypotese har du størst tro på? Fra før har vi anslått at vraksannsynligheten til det nye utstyret er 0.081. Ved første øyekast tyder det pa at det nye utstyret er bedre enn det gamle. Men er nå det sikkert? Kanskje selgeren bare har vært heldig med at prøveproduksjonen gikk så bra? Legg merke til at E/j er den påstanden som startet tankearbeidet. Hensikten med statistisk hypotesetesting er å ta stilling til om det er overveiende sannsynlig at hy potese TLi er riktig. Det finnes to mulige konklusjoner på en slik hypotesetest:
• Vi beholder Hq fordi vi ikke er overbevist (nok) om at H\ er riktig. • Vi forkaster Hq og konkluderer at Hr sannsynligvis er riktig.
En hypotesetest kan aldri fastslå helt sikkert hvilken hypotese som er riktig. Det er alltid en viss fare for at vi trekker feil konklusjon. Og det finnes to typer feil vi kan gjøre, som vist i figur 6.4. Den feilkonklusjonen bedriften er mest engstelig for å gjøre, er å forkaste det gamle utstyret hvis det egentlig er best (og deretter bruker masse penger på et feilaktig kjøp). Å forkaste Ho hvis den egentlig er riktig, kalles feil av type I. Den andre feilkonklusjonen kalles feil av type II. og svarer til at AluProd ikke lar seg overbevise om det nye utstyrets fortreffelighet, selv om det nye utstyret faktisk er bedre enn det gamle. De to feiltypene står i et motsetningsforhold til hverandre. Hvis vi er veldig opptatt av ikke å gjøre feil av type I. vil vi desto oftere gjøre feil av type II (og omvendt). Vi ønsker selvfølgelig at sannsynligheten for begge disse feiltypene skal være så liten som mulig. Utgangspunktet i hypotesetestingen er imidlertid å fokusere på sannsynligheten for å gjøre feil av type I. For å forstå hvordan vi kan utføre en hypotesetest, la oss enda en gang skru klokken tilbake til et tidspunkt for prøveproduksjonen starter. Planleggingen og utføringen av en hypotesetest vil da gå igjennom følgende trinn: 1. Vi må etablere en sannsynlighet smodell som knytter seg til forsøket. Var modell sier at antall vrak X er binomisk fordelt med parametere n og p. Vi formulerer hypotesene og uttrykker dem ved den ukjente parameteren p, som i ligning 6.2.
2. Vi må identifisere en stokastisk variabel som er knyttet til forsøket, og som vi kan basere vår beslutning på. I vårt eksempel er naturlig å velge X som såkalt testobservator. 3. Vi må bestemme oss for om det er små eller store verdier av testobservatoren X som skal lede til at vi forkaster nullhypotesen Hq. Vi sier at vi bestemmer formen pa forkastingsområdet. I vart eksempel er det rimelig å forkaste nullhypotesen hvis vi observerer en liten verdi av X.
4. Bedriften må velge hvor stor sannsynlighet for type I feil som kan aksepteres. Anta at AluProd kan akseptere 5 % feilsannsynlighet. Vi sier at de velger 5 % signifikansnivå. Da kan sannsynlighetsregningen brukes til å beregne en fornuftig
182
KAPITTEL 6. ESTIMERING OG HYPOTESETESTING
Naturens ukjente sannhet:
Vår beslutning:
r> u ij H ij{) Behold
Forkast H„
Ho er sann:
H} er sann:
Gammel maskin best
Ny maskin best
• •
Behold gammel maskin
Riktig konklusjon
® ®
NMn
Gal konklusjon (Type II feil)
Vi unnlater å kjøpe ny maskin som er dårlig
Vi beholder den gamle maskinen selv om den nye maskinen er bedre
® ® Gal konklusjon CA' (Type I feil)
te® Riktig yb konklusjon
Vi kjøper dyr og dårlig maskin
Vi kjøper en ny god maskin
K'P maskin
Figur 6.4: To typer feilkonklusjoner i hypotesetesting
grenseverdi for forkastingsområdet. Matematikken forteller at AluProds beslut ningsregel skal være:
Forkast Hq dersom X < 11. 5. Etter at prøveproduksjonen er fullført, og bedriften observerer X = 13 > 11. må konklusjonen bli: Selv om prøveresultatene ser lovende ut, er AluProd ikke overbevist orn at den nye maskinen er best. Vi kan ikke utelukke at selgeren bare har hatt flaks med prøveproduksjonen. Konklusjon: Vi beholder Hq pa 5 % signifikansnivå. Sa langt har vi konsentrert oss om feil av type I. Selvsagt ønsker vi også at sannsyn ligheten for å gjøre feil av type II er minst mulig. Testens styrkefunksjon viser hvor sannsynlig det er at vi forkaster nullhypotesen, for gitte verdier på den ukjente para meteren p. Figur 6.5 viser styrkefunksjonen for AluProds test (kurven merket n = 160). Legg merke til følgende:
• Selv om det nye utstyret er dårligere enn det gamle (med p > 0.11), er det mulig at vi vil konkludere feil og tro at det nye utstyret er best.
• Hvis det nye utstyret har halvert vraksannsynlighet (med p = 0.055), så er det omtrent 80 % sikkert at vi vil komme fram til riktig konklusjon. Altså er det omtrent 20 % sannsynlighet for å trekke feil konklusjon, dvs. å gjøre en feil av type II.
Styrkefunksjonen er særlig nyttig nar vi planlegger en hypotesetest. Hvis vi har bestemte krav til sannsynligheten for begge to feiltypene, kan vi ved hjelp av styrke funksjonen finne fram til en passende størrelse på prøveproduksjonen (utvalget). Figur 6.5 viser styrkefunksjonen for tre mulige prøvestørrelser. Den ideelle styrkekurven som
6.2. PUNKTESTIMERING
183
Styrkefunksjon
Figur 6.5: Testens evne til å trekke riktig konklusjon øker nå utvalgsstørrelsen øker.
er tegnet opp. svarer til at vi aldri trekker feil konklusjon. I praksis er det umulig å lage en test som har denne ideelle egenskapen. Men etter hvert som utvalgets størrelse øker, ser vi at testen nærmer seg den ideelle kurven.
6.1.4
Bør AluProd kjøpe det nye utstyret?
Vi har ikke fatt nok opplysninger om AluProd og deres problemstilling til a anbefale eller fraråde kjøp av det nye utstyret. En statistiker bør anbefale bedriften a forlenge prøveproduksjonen, slik at de far produsert et større antall testenheter. Hvis bedriften får anledning til å produsere f.eks. n = 500 enheter, da vil hypotesetestens styrke øke betraktelig. Det vil gi beslutningstakerne større sikkerhet for at de kjenner utstyrets egenskaper godt nok. I figur 6.4 er det for enkelhets skyld satt likhetstegn mellom testens konklusjon (forkast Hq) og det a kjøpe den nye maskinen. Vanligvis vil det ikke være noen slik direkte kobling mellom testens konklusjon og den beslutning bedriften bør ta. AluProd må basere sin beslutning pa bedriftsøkonomiske kalkyler, strategiske vurdringer og andre faktorer som ligger utenfor statistikerens fagfelt. De viktigste spørsmålene vil typisk være: • Hvor mye taper bedriften på at en enhet må vrakes?
• Hvor mye koster det nye utstyret? • Hva gjør konkurrentene: hva krever kundene?
6.2
Punktestimering
Vi vil snakke om to typer estimering: punktestimering og konfidensintervaller. I punktestimering anslår vi verdien av en parameter med en enkelt verdi, mens et konfidens intervall presenterer et intervall som vi mener at parameterverdien med stor sikkerhet ligger i. Konfidensiiitervallene presenteres i avsnitt 6.3.
184
6.2.1
KAPITTEL 6.
ESTIMERING OG HYPOTESETESTING
Basisteori
Vi foretar estimering hver gang vi anslår en parameter i en stokastisk modell. Allerede i kapitlene 2 og 3 stiftet vi bekjentskap med noen av de viktigste estimatorene som vi na skal se nærmere pa. I kapittel 2 lærte du a regne ut gjennomsnittet T og stan dardavviket s for et datasett. I kapittel 3 lærte du å finne sannsynligheten p for en hendelse som relativ frekvens av hendelsen. I dette kapitlet skal vi se nærmere på hvilken nøyaktighet våre tallmessige anslag får. Notasjon 163 I denne boka bruker vi den greske bokstaven 0 (uttales “teta”) som symbol på en vilkårlig ukjent parameter.
Hver gang du leser 6*, kan du altså tenke pa den bestemte parameteren som er aktuell (i hovedsak p, p eller rr). Vi skal bruke “hatt-tegnet” som symbol på estimatoren 0, som uttales teta-hatt. Hver gang du ser et slikt hatt-tegn. rna du gå ut fra at dette er en estimator for den parameteren som gjemmer seg under hatten. Husk at det finnes ulike typer variasjon: variasjon i en populasjon, i en prosess og mellom måleverdier i samme måleserie (se side 10). La X^X?.... ,Xn være n sto kastiske variabler som representerer uavhengige observasjoner fra en slik populasjon, prosess eller måleserie. Den ukjente parameteren i9 beskriver en egenskap ved sannsyn lighetsfordelingen til X-ene. Vi utfører en serie forsøk (eller på annen måte observerer en tallverdi for hver av X-ene) slik at vi får datasettet X\,X2,... ,xn. Hensikten med var datainnsamling er å anslå verdien på den ukjente parameteren 0. Definisjon 164 (estimering) En estimator 0 er en funksjon av X^.X-2,... ,Xn, som brukes for å estimere verdien til den ukjente parameteren 0. Verdien til estimatoren kalles et punktestimat for 0, og denne verdien kan beregnes når datasettet foreligger.
Siden X-ene er stokastiske variabler, vil også 0 være en stokastisk variabel. Det betyr at 0 har en sannsynlighetsfordeling, og at det gir mening å snakke om estimatorens forventning og varians. Sagt mer folkelig betyr det at en estimator er usikker vi vil sjelden eller aldri klare å anslå parameterens verdi helt nøyaktig. Det er naturlig å stille tre krav til en estimator. For det første er det rimelig å kreve at estimatoren ikke systematisk over- eller underestimerer parameterverdien. For det andre ønsker vi at estimatoren skal være mest mulig nøyaktig, med minst mulig spredning. For det tredje ønsker vi at estimatoren skal bli mer nøyaktig når størrelsen på utvalget øker. Siden en estimator er en stokastisk variabel, kan disse tre kravene formuleres slik:
1. Estimatoren skal være forventningsrett, dvs. E(0) = 0. 2. Estimatoren skal ha minst mulig varians, dvs. Var($) minst mulig. 3. Estimatorens varians skal gå mot null når størrelsen på utvalget øker.
At en estimator er forventningsrett, betyr følgende: Forestill deg at du trekker ut mange tilfeldige utvalg, alle av størrelse n. For hvert utvalg regner du ut et estimat for den ukjente parameterverdien. Da får du en rekke forskjellige estimater for den samme parameterverdien. Hvis du bruker en forventningsrett estimator, betyr det at gjennomsnittet av alle dine estimater vil nærme seg den sanne parameterverdien etter hvert som du tar flere og flere utvalg. Dersom en estimator er forventningsrett, betyr det ikke at vi kan forvente å estimere riktig verdi. Ett enkelt estimat kan være langt unna den ukjente, riktige parameter verdien. Estimatorens standardavvik er et mål på estimatets unøyaktighet. Estima torens standardavvik kalles estimatorens standardfeil og betegnes SE(Ø), etter engelske standard error.
6.2.
185
PUNKTESTIMERING
Figur 6.6: En analogi til skytebanen Tips 165 Ved valg blant flere aktuelle estimatorer bør vi velge den forventningsrette
estimatoren som har minst varians/standardfeil.
For å illustrere liva dette tipset betyr, bli med en liten tur på en skytebane. En skytter har liten spredning (varians) i skuddene sine dersom de treffer nær hverandre. Skytteren har innstilt siktet riktig (forventningsrett) dersom skuddene fordeler seg “symmetrisk’’ i forhold til blinkens sentrum. Figur 6.6 viser resultatene av fire skyttere som skyter hver sin skuddserie. Det er lett å se at den forventningsrette skytteren med minst varians er best. Hva har så dette med estimering å gjøre? Forestill deg at blinken er tegnet opp med en slags usynlig farge, slik at vi ikke ser hvor den er. Skytteren er imidlertid utstyrt med visuelle hjelpemidler slik at han ser blinken. Var oppgave er å gjette hvor blinkens midtpunkt er (= ukjent parameter) etter å ha sett ett skudd fra en skytter (= estimator). Vår beste gjetning på hvor blinkens sentrum er, må være der skuddet treffer. Vi har ikke noe bedre forslag å komme med! Da er det opplagt en fordel at skytteren er forventningsrett med liten varians. Matematiske statistikere har utviklet en masse teori for a finne egnede estimatorer og undersøke deres egenskaper. I de situasjonene vi skal se på i denne boka, kommer vi ganske langt med litt intuisjon. I mer avanserte situasjoner kan imidlertid matema tisk estimeringsteori være uunnværlig. De tre mest kjente “ideene” har gitt oss navn som momentestimator, minste kvadraters estimator og sannsynlighetsmaksimeringsestimator (statistikkfagets lengste ord). Den sistnevnte ideen er ganske enkel: Kommentar 166 I innledningseksemplet observerte vi 13 enheter som måtte vrakes
og 147 som kunne godkjennes. Sannsynligheten for det observerte resultatet er lik
P(observert resultat) =
160\
13 )
p13-(l-p)147
(6.3)
Denne sannsynligheten er tegnet som en funksjon av parameterverdien p i figur 6.7. Som punktestimator skal vi velge den verdien av p som best forklarer det observerte resultatet, dvs. den verdien som maksimaliserer sannsynligheten i ligning 6.3. Figuren viser at vårt estimat skal være 0.081, som vi tidligere har funnet. (Matematisk ser vi dette ved å derivere ligning 6.3 mhp. p og finne dens nullpunkt.) I tillegg til de kravene som er nevnt, ønsker vi at estimatoren skal være robust. Det betyr at den skal være lite følsom for ekstreme observasjoner og lite følsom for avvik fra våre antakelser om normalfordeling osv. Det er ikke nok at vår skytter er forventningsrett på en godværsdag, han må også treffe blinken nar det blåser.
186
KAPITTEL 6.
ESTIMERING OG HYPOTESETESTING
Sannsynlighetsmaksimeringsestimator
Parameterverdi p
Figur 6.7: Logikken bak sannsynlighetsmaksimeringsestimatoren
6.2.2
Punktestimat for forventningsverdien p,
I praktiske anvendelser er det svært vanlig at vi ønsker å estimere forventningen og/eller standardavviket til en variabel. Noen eksempler kan være
• Vi foretar flere målinger (av vekt, lengde, temperatur) av samme enhet. Den sanne ukjente måleverdien kalles p. Usikkerheten i målemetoden karakteriseres ved standardavviket a. Hvis vi benytter standard måleutstyr, er det mulig at 5. Eksempel 188 La oss returnere til innledningseksemplet med AluProd. der p er sann
synligheten for at en produsert enhet må vrakes. Antall vrak i prøveproduksjon på n = 160 enheter kalles X og er binomisk fordelt. Når produksjonen var utført, fant vi 13 defekte enheter. Finn et 95 % konfidensintervall for p. Løsning: Punktestimatet for vraksannsynligheten er p = x/n — 13/160 = 0.081. Det er lett å kontrollere at forutsetningen for regel 187 er oppfylt. Et tilnærmet 95 % konfidensintervall for p er derfor gitt ved 0.081 ± 1.96V°'°81^ ~°'081^ = 0.081 ±0.042 = [0.039. 0.123] .
V
160
Vi er ofte interessert i å anslå andelen p av en populasjon som tilfredsstiller en viss egenskap, f.eks. stemmer pa et bestemt politisk parti. For a anslå denne andelen tar vi et tilfeldig utvalg fra populasjonen og registrerer X lik antall som tilfredsstiller den aktuelle egenskapen. Da blir X hypergeometrisk fordelt. Vår beste estimator for andelen er p = X/n. Estimering av en andel blir derfor det samme som estimering av en sannsynlighet. Hvis utvalgsstørrelsen er stor og populasjonen enda mye større, blir X tilnærmet normalfordelt. Dersom denne betingelsen er oppfylt, vil regel 187 angi et konfidensintervall for andelen p. Eksempel 189 La p være andelen av norske velgere som vil stemme pa. Høyre. Vi lar Y være antall høyrevelgere i et tilfeldig utvalg pa n — 1000 velgere. Når meningsmålin gen utføres i januar, finner vi Y =170 høyrevelgere. Finn et 95 % konfidensintervall
for p. Løsning: Punktestimatet for p er lik p = Y/n = 170/1000 = 0.17. Legg merke til at Y er hypergeometrisk fordelt. Siden populasjonen av velgere er mye større enn utvalget, erY tilnærmet binomisk fordelt. Forutsetningen for regel 187 er også oppfylt. Et tilnærmet 95 % konfidensintervall for p er derfor gitt av regel 187 lik
0.17 ± L96\/
-'iqqq0'1^
=0.17 ±0.023 = [0.147, 0.193]
Kommentar: Legg merke til at intervallet er ganske bredt selv om så mye som 1000 personer er spurt. Mediene vil vanligvis presentere resultatet i prosent, og si at 17 % vil stemme Høyre. Mediene burde også opplyse at det finnes en betydelig feilmargin, ±2.3 %. Hvis vi gjentar en tilsvarende meningsmåling i februar og finner at 18 ± 2.4 % da vil stemme Høyre kan vi konkludere at Høyre har fått økt sin oppslutning i populasjonen av velgere? Nei! Hva tror du mediene vil konkludere?
Også når vi lager konfidensintervaller for p, kan vi regne oss fram til en fornuftig stikkprøvestørrelse. KonHdensintervallets lengde L er lik i=2.2tt/2./a±± V
n
(6.17)
6.3. KONFIDENSINTERVALLER
199
Hvis vi krever at konfidensintervallets lengde skal være mindre enn eller lik en bestemt L-verdi. far vi at datasettets størrelse rna tilfredsstille følgende krav: _ /'Zct/2\'2 n >4/9(1- p)
(6.18)
Hvis vi har god forhåndskunnskap om den aktuelle sannsynligheten, kan vi benytte ligning 6.18 ganske direkte. Hvis vi ikke har noen idé om verdien av p, har vi to mu ligheter: Vi kan foreta en liten pilotstudie for å få et grovestimat på p. eller vi kan utnytte at p( 1 —p) (za/2/L\ . Eksempel 190 Hvor mange velgere må spørres for at vi kan estimere andelen høyretilhengere med en nøyaktighet pa ±1 prosentpoeng? Løsning: Når vi ønsker denne nøyaktigheten, krever vi egentlig at L < 0.02. Når ikke noe er oppgitt, kan vi gå ut fra at det snakkes om et 95 % konfidensintervall. I eksempel 189 fant vi at p — 0.17. Selv om vi ikke hadde utført den studien, ville vår forhåndskunnskap om partienes popularitet ledet oss til omtrent den samme gjetningen. Den nødvendige stikkprøvestørrelsen kan beregnes direkte fra ligning 6.18 slik:
n > 4-0.17-0.83 f—J
= 5420
Så mange personer er det vanligvis ingen meningsmålingsinstitutter som har tid til å. spørre. Usikkerheten i de estimat som preger nyhetsbildet, er atskillig større enn ±1 prosentpoeng. Kommentar: Konfidensintervallets lengde avhenger av andelen p. Siden vi i praksis anslår alle partienes andeler i samme undersøkelse, betyr det at prosentpoengene er mest nøyaktige for de minste partiene (unøyaktigheten er størst forp = 0.5/ Ofte er den relative nøyaktigheten mer interessant enn nøyaktigheten oppgitt i prosentpoeng. Hvis vi skal estimere en liten tallstørrelse vil vi vanligvis ønske mindre feilmargin enn hvis vi estimerer en stor tallstørrelse. Dette bør vi tenke på når vi stiller krav til intervallets lengde L. I kapittel 2 stiftet vi bekjentskap med det frekvensbaserte sannsynlighetsbegrepet og regel 36 om de store talls lov. Vi poengterte at den relative frekvensen av en hendelse etter hvert vil stabilisere seg i nærheten av en bestemt verdi, nemlig sannsynligheten for denne hendelsen. Dette er statistikkfagets viktigste naturlov. Dens begrunnelse er enkelt sagt at konfidensintervallets lengde L gar mot null nar antall observasjoner n gar mot uendelig (ifølge ligning 6.17). Ved a undersøke et tilstrekkelig stort datasett kan vi altså estimere p så nøyaktig som vi bare matte ønske det. Kommentar 191 Hvis vi har for få observasjoner til at regel 187 kan benyttes, finnes
det en grafisk løsningsmetode som gir oss et ganske nøyaktig svar. Metoden baserer seg på å beregne hvor sannsynlig det observerte resultatet er, for forskjellige verdier av den ukjente parameteren, akkurat som vi gjorde i figur 6.7. Istedenfor a finne den ‘"mest sannsynlige parameterverdien" finner vi de to parameterverdiene som svarer til sannsynligheten a/2. Disse parameterne er 100(1— o) % konfidensintervallets grenser. Eksempel: Avisen Vårt Land foretok en meningsmåling om politiske framtidsvyer og konkluderte i sitt førstesideoppslag med at "Fire av seks tror at Bondevik holder nyttårstalen neste år”, som vist i figur 6.11. De fleste leserne vil oppfatte det slik at 67 % av folket har tro på Bondevik. Har avisen grunnlag for å presentere dette budskapet etter å ha intervjuet seks personer? Finn et 95 % konfidensintervall for p basert på den grafiske løsningsmetoden.
200
KAPITTEL 6. ESTIMERING OG HYPOTESETESTING
Taler han neste år ? Fire av seks tror at Bondevik holder nyttårstalen neste år også.
Figur 6.11: Meningsmåling i Vårt Land 29.12.97
Figur 6.12: Grafisk konfidensintervall
Løsning: Den binomiske variabelen X er antall blant n — 6 tilfeldig valgte personer som tror på Bondevik. Avisens utvalg resulterte i at man observerte fire Bondeviktilhengere. Den grafiske løsningsmetoden sier at vi skal beregne sannsynligheten
m = 4) = dVa-p)2 \4/
for forskjellige verdier av p. I figur 6.12 er denne sannsynligheten tegnet sammen med en horisontal linje for det valgte konfidensnivået, a/2 = 0.025. Dette gir oss det nøyaktige konfidensintervallet for p når vi observerer fire av seks, lik [0.22. 0.96 . Konfidensintervallet er så bredt at det egentlig ikke forteller noe som helst. Etter å ha undersøkt så lite som seks personer vet journalisten svært lite om hvor stor andel av populasjonen som deler utvalgets oppfatning. Alt fra 22 % til 96 % av befolkningen har tro pa Bondevik. Konklusjon: Vårt Land hadde ikke særlig grunnlag for a presentere den overskriften som ble valgt.
6.4. HYPOTESETESTING - METODE OG TEORI
6.3.6
201
Konfidensintervall for raten Å
Vi ønsker ofte å ansla hvor mange ganger en hendelse vil inntreffe per tidsenhet i det lange løp. Det svarer til å estimere raten Å i en poissonprosess. Det er selvsagt av interesse å vite noe om unøyaktigheten i slike anslag. Vanligvis vil vi observere poissonprosessen i t tidsenheter og registrere X lik antall ganger hendelsen inntreffer. Variabelen X vil da være poissonfordelt. For å anslå Å vil vi basere oss på den for ventningsrette estimatoren Å = X/t og dens estimerte standardfeil. Hvis vi observerer
prosessen lenge nok, vil Å være tilnærmet normalfordelt ifølge regel 155. I tråd med regel 179 finner vi: Regneregel 192 (konfidensintervall for Å) Det tilfeldige intervallet
er et tilnærmet 100(1 — a) % konfidensintervall for raten X. Når vi observerer en
bestemt verdi for X kan vi beregne tallverdien til X og dermed finne intervallgrensene. I eksempel 175 estimerte vi årlig forventet antall dødsfall på norske veier. I løpet av t — 13 år omkom x = 4522 personer i trafikken. Punktesimatoren for raten ble derfor lik Å = x/t = 4522/13 = 348 dødsfall per år. Et 95 % konfidensintervall for den årlige raten blir
348- 1.96-
6.4
Hypotesetesting — metode og teori
Vi foretar statistisk hypotesetesting hver gang vi tar stilling til en hypotese (pås tand. ønske, mistanke, arbeidshypotese) på bakgrunn av innsamlede data. Til hver slik hypotese finnes det alltid en “motsatt” hypotese, slik at vi har to hypoteser å velge mellom. Nå skal vi kort repetere de fem trinnene i hypotesetestingen slik de ble presentert i innledningseksemplet. Deretter skal vi gå detaljert igjennom de ulike trinnene. 1. Bestem en passende sannsynlighetsmodell, og formuler hypotesene.
2. Identifiserer en testobservator, og bestem formen på forkastingsområdet.
3. Velg hvor stor sannsynlighet for feilkonklusjon du kan akseptere. 4. Bestem forkastingsomradets kritiske grenseverdi. Her bør du også vurdere utvalgsstørrelsen og testens styrke. 5. Vi samler inn data, sammenligner observert verdi på testobservatoren med gren severdien, og konkluderer. Mange statistikkstudenter synes at hypotesetesting er vanskelig. Hvis du lærer deg disse grunnleggende trinnene, vil det sjelden være vanskelig å utføre en hypotesetest. Legg merke til at det bare er punkt 4 som involverer sannsynlighetsregning. Alle de andre punktene er sunn fornuft satt i system. Det er viktig at vi gjennomfører trinnene i angitt rekkefølge. Mange misforståelser oppstår fordi man venter med å formulere
202
KAPITTEL 6. ESTIMERING OG HYPOTESETESTING
hypotesene og velge signifikansnivå til etter at man har analysert datasettet. I beste fall blir det feil, i verste fall er det juks! I avsnitt 6.5 presenteres det kokebokoppskrifter som forteller hvordan du kan utføre de vanligste hypotesetestene. For a forstå hva oppskriftene egentlig dreier seg om. bor du lese dette avsnittet grundig. Vi skal i fortsettelsen holde oss til to eksempler for a illustrere hva de ulike trinnene betyr. Det ene eksemplet handler om promilletesting av båtførere, og det andre handler om testing av en ny medisin.
6.4.1
Etablering av modell og formulering av hypotesene
Alle statistiske analyser starter med at vi etablerer en modell. Vi identifiserer noen stokastiske variabler og resonnerer oss fram til hvilken sannsynlighetsfordeling de har. Sannsynlighetsfordelingen beskrives bl.a. av den ukjente parameteren 9 og eventuelt noen andre parametere. Hensikten med vår datainnsamling er å ta stillilng til en påstand om verdien av 9. Vi velger H± som den arbeidshypotesen vi ønsker å teste. Nullhypotesen Hq velges som den motsatte pastanden. Begge hypotesene må knyttes til den ukjente parame teren 9. Bevisbyrden legges pa hypotese H\. Tvilen kommer nullhypotesen til gode - den er sann inntil det motsatte er bevist. Hypotesetesting kan derfor sies å være en konservativ framgangsmåte som favoriserer det bestående, det som kan hevdes uten noe "bevis”. Dette er grunnen til at Hq omtales som nullhypotesen eller status quo-hypotesen, mens If omtales som den alternative hypotesen. Eksempel 193 Politiet har anledning til å foreta promillekontroller av båtførere. Hvis alkoholinnholdet er over 0.8 promille, skal båtføreren straffes. Hvis alkoholinnholdet er lavere, skal båtføreren gå fri. Anta at kontrollen utføres ved at båtføreren blåser så lenge inn i et alkometer at måleinstrumentet får registrert fem måleverdier Xi, X?,.... X5. Vi kan tenke pa målingene som uavhengige observasjoner av en tilnærmet normal fordelt variabel med forventning p og standardavvik a = 0.06 (oppgitt av produsenten).
Hva er politiets hypoteser? Den hypotesen som man ‘‘‘ønsker” å bevise, er alltid H\. Politiet foretar kontrollen fordi de er på jakt etter syndere. Det er derfor naturlig å velge II\ lik “promillekjører”. Båtføreren er uskyldig inntil det motsatte er bevist. Derfor velges Hq som “edru”. Begge disse påstandene kan knyttes til den ukjente pa rameteren p slik: Ho
:
Båtføreren er uskyldig (p < 0.8)
H±
:
Båtføreren er skyldig (p > 0.8)
Eksempel 194 Et legemiddelfirma har utviklet et nytt medikament til behandling av pasienter med Alzheimers sykdom. Eksisterende medikamenter har en nytteeffekt hos 60 % av pasientene. Legemiddelfirmaet påstår at det nye medikamentet er bedre enn de eksisterende. For a teste den nye medisinen blir j0 pasienter behandlet med det nye medikamentet. Totalt X av disse pasientene vil oppleve nytte av medisinen. Variabelen X er binomisk fordelt med ukjent parameter p. Legemiddelfirmaet foretar testen fordi det ønsker å vise at dets medisin er best. Samfunnet vil normalt være interessert i at behandlingseffekten er dokumentert før medisinen slippes ut på markedet, slik at tvilen kommer rikstrygdeverket til gode. Da er det fornuftig a velge hypotesene slik:
Hq
:
Ny medisin er ikke best (p < 0.6)
IL
:
Ny medisin er best (p > 0.0)
203
6.4. HYPOTESETESTING - METODE OG TEORI
I de fleste situasjoner er det relativt greit a bestemme hvilken hypotese som skal være nullhypotese, og hvilken som skal være den alternative hypotesen. Noen sjeldne ganger kan det imidlertid være tvil om hvilken som bør ha bevisbyrden, og dermed hvilken hypotese som skal være H±. (I slike tilfeller er testens styrkefunksjon spesielt viktig.) Forestill deg følgende to situasjoner:
• Det foretas en kontroll av giftutslippet fra en fabrikk. Er det myndighetene som må bevise at utslippet er for høyt, eller er det bedriften som må bevise at utslippet er tilstrekkelig lavt?
• Et legemiddelfirma påstår å ha utviklet en vidunderlig medisin som raskt kan helbrede aids-pasienter. Er det produsenten som må bevise at medisinen virk er, eller er det helsemyndighetene som må bevise at den ikke virker? Eller skal pasientene selv få velge? Mange av pasientene er antakelig villige til å ta en sjanse; de har ikke så mye å tape, men alt å vinne. Mediene har beskrevet en del slike saker i de siste årene, der myndighetene ikke vil godkjenne behandlingsformer som enkelte ressurssterke pasienter likevel får tilgang til (ofte via utlandet). Poli tikerne snapper opp “saken” og tvinger igjennom vedtak som kanskje ikke var særlig fornuftige. Det finnes generelt tre ulike mater hypotesene kan formuleres på. De to første er prinsipielt nokså like og kalles ensidige tester, mens den siste skiller deg fra de andre og kalles en tosidig test. I de fleste praktiske situasjoner har vi en bestemt mistanke som vi ønsker å teste. Da er det naturlig å benytte en av de ensidige testene. Verdien 0q tilsvarer grenseverdien mellom de to hypotesenes gyldighetsområde, som har vært lik 0.8 og 0.6 i henholdsvis promillekontroll- og medisineksempelet.
Alternativ 1 Alternativ 2 Alternativ 3
6.4.2
Ho-.6 F(x)
når n
> oo
Dette betyr at forsøksdataenes histogram vil ligne på variabelens sannsynlighets histogram. Hvis vi har et stort datasett, blir likheten stor. I kapittel 10 skal vi utnytte at konvergensregelen også gjelder for simuleringsdata! Når antall gjentatte simuleringer blir stort nok, får vi et godt bilde av fordelingsfunksjonen F, og dermed et godt grunnlag for å estimere forventning, varians og enhver interessant sannsynlighet.
6.7
Bruk av datamaskinen
De fleste beregningene i dette kapitlet er relativt enkle - hvis du forstår hva du skal gjøre. Undersøkelser av andelen p er spesielt enkle, siden det bare er å telle opp. Det mest regnekrevende er å finne utvalgets gjennomsnitt og standardavvik. I praksis vil
218
KAPITTEL 6. ESTIMERING OG HYPOTESETESTING
Empirisk fordelingsfunksjon
10
0
20
30
40
50
Brenntid (sek)
Figur 6.18: Så lenge brant de 60 fyrstikkene.
vi beregne disse størrelsene med datamaskinen, og da kan vi like godt la maskinen gjøre hele jobben for oss. Utgangspunktet er at en kopi av de n dataene ligger usortert i en kolonne i regnearket.
6.7.1
Excel
• Verktøy ► Dataanalyse ► Deskriptiv Statistikk beregner gjennomsnitt og standardavvik. Disse tallverdiene kan du benytte i de aktuelle formlene for a
finne konfidensintervall eller utføre hypotesetester. • Empirisk fordelingsfunksjon: Merk dataene og velg Data ► Sorter. Fyll nabokolonnen med verdiene p. p. ved å velge Rediger ► Fyll ► Serie. Merk dataene i de to kolonnene, og velg Sett inn ► Diagram ► Punktdiagram.
6.7.2
Minitab
• Stat ► Basic Statistics ► 1-Sample Z gir Z-intervall eller Z-test. • Stat ► Basic Statistics ► 1-Sample T gir T-intervall eller T-test. • Stat ► Basic Statistics ► 1-Proportion gir intervall og test for p.
• Empirisk fordelingsfunksjon: Sorter dataene ved å velge Manip ► Sort. Fyll nabokolonnen med verdiene M ved a velge Calc ► Make Patterned Data ► Simple Set of Numbers. Velg Graph ► Plot, og angi de to kolonnenavnene som henholdsvis X og Y.
6.8
Oppsummering
Nar du har lest dette kapitlet, bør du
• vite at en estimator er en stokastisk variabel som gir et upresist estimat • vite hva det betyr at en estimator er forventningsrett og har liten varians • vite at et konfidensintervall med stor sikkerhet inneholder den ukjente parame teren kjenne hypotesetestingens fem hovedtrinn
OPPGAVER
6.9.
219
• forstå begrepene nullhypotese, forkastingsområde, type I-feil, signifikansnivå, styrkefunksjon og p-verdi • vite hva det betyr at en konklusjon er statistisk signifikant • kunne beregne punktestimat og konfidensintervall og utføre hypotesetest for p og p • kunne beregne p-verdien i tester om p og p
6.9
Oppgaver
1. Skriv først ned 20 ulike, tilfeldige tall mellom 1 og 160.
Du arbeider i et firma som mottar en leveranse med 160 enheter av en spesiell type. Du far i oppdrag å kontrollere kvaliteten til tyve tilfeldig valgte enheter. Forestill deg at varepartiet er vist i figur 6.1. Du skal kontrollere de tyve enhetene som svarer til dine egne tilfeldige tall. Hvor mange defekte finner du? Etter at du har utført denne kontrollen (uten å se på de 140 andre enhetene), hva er din beste gjetning pa defektandelen? Hvis du velger ut tyve tilfeldige enheter pa nytt, finner du like mange defekte da? Hva er forventet antall defekte? 2. En tilfeldig nordmann har kroppshøyde med ukjent forventning p og standard avvik rr. Vi skal velge ut to tilfeldige, uavhengige personer, og male deres høyder som kalles A”i og X-2- Beregn forventningsverdi og varians til de følgende estimatorene for p. Hvilken av estimatorene er best? _ 2X. + 5X2 7
Xi + X2 2
Ko — --------- -------
— ----------------------
/2
~ Ko /3
i„
Xi 10Q
— 110 “F -------
3. Laksen i en oppdrettsmerde har vekt med ukjent forventningsverdi p og stan dardavvik a. Per skal fiske opp fem tilfeldige lakser og finne deres gjennomsnittsvekt X, mens Kari skal fiske opp tre lakser og finne deres gjennomsnittsvekt Y. Hvilken av følgende estimatorer er best? Begrunn svaret.
Per fant x = 2.14 mens Kari fant y = 2.56. Hva er din beste gjetning pa p?
4. I en by i Sør-Amerika. er innbyggerne enten fattige eller rike. En tilfeldig fattig person har inntekt X med forventningsverdi p med varians a2. En tilfeldig rik person har inntekt Y med forventningsverdi 15p og varians 4rr2. En norsk forsker ønsker å anslå p. Han samler inn fem X-verdier med gjennomsnitt X og fem Yverdier med gjennomsnitt Y. Hvilken av følgende estimatorer for p er best? X+Y
“
16
X + 4V
~
~
61
5. Et vareparti ankommer i to containere med henholdsvis 300 og 700 enheter i hver. Kvalitetskontrolløren Bjartmar undersøker 30 enheter i den forste containeren og finner Xi som er defekte, mens han undersøker 70 i den andre, og finner X2 defekte. Hvilken av de følgende estimatorene for defektandelen p er best? P1 ~
X] + X2 100
P? =
3X2 + 7 X-2 580
220
KAPITTEL 6. ESTIMERING OG HYPOTESETESTING
6. La X være poissonfordelt med forventning Xt. Vis at den folgende estimatoren er forventningsrett og har varians som går mot null nar tiden går mot uendelig.
t
7. Vis at estimatorene i eksempel 176 er forventningsrette. Regn ut estimat orenes varians og kontroller at svarene i eksemplet er riktige. (Hint: nm = nk = n/2.) 8. I en skog er det et ukjent antall N elger, hvorav M = 80 er merket i øret av et forskningsteam. I elgjakten felles n = 60 tilfeldige elger, hvorav X er merket. Finn en estimator for populasjonsstørrelsen N basert pa X-verdien. Det viser seg at 14 elger var merket; hvor mange elger vil du tippe at det var i skogen, før jakta? 9. I et maratonløp deltar det N løpere med startnummer merket fra 1 til N. Du jobber i Røde Kors, og får seks tilfeldige personer til behandling. Deres startnum mer var 67, 32, 15, 83, 59 og 41. Hvor mange deltagere var det i maratonløpet, tror du? Hint: La Xn være den største av n tilfeldig valgte nummer fra 1 til N. Det kan vises at
10. En landskapsmåler, Håvard, benytter moderne laserutstyr for å male avstanden mellom to punkter. Hver måleverdi kan oppfattes som en observasjon av en normalfordelt variabel, med den virkelige avstanden p som forventningsverdi og standardavvik a — 2.04 meter. Havard foretar n = 16 målinger, og finner gjennomsnittsverdien x — 2316 meter. Hjelp Håvard med å finne et 95 % konfi densintervall for den virkelige avstanden p. Tilleggsoppgave: Hvor mange målinger må Håvard foreta for at lengden pa kon fidensintervallet skal bli lik 0.2 meter.
11. Diameteren på en tilfeldig pizza av typen Grandpapa, er normalfordelt med forventning p og standardavvik a. Finn et 95 % konfidensintervall for p basert på følgende diametermålinger (cm):
31
32
30
31
29
30
12. Betrakt dataene i forrige oppgave som en pilotstudie for å estimere standard avviket til pizzadiameteren. Nå skal du planlegge en større undersøkelse hvor det kreves at konfidensintervallet for p skal ha lengde mindre enn L = 0.2 cm. Hvor mange pizzaer må du da kontrollere?
13. Finn et 95 % konfidensintervall for variansen til pizzaene i oppgave 11, basert på de seks målingene. Hva blir det tilsvarende konfidensintervallet for standard avviket? 14. Reisevanene til 36 tilfeldige personer kartlegges i en undersøkelse. 29 av personene foretrekker privatbilen framfor kollektivtrafikken. Finn et 90 % konfidensintervall for andelen p av populasjonen som foretrekker privatbilen. Sammenlign med figur 1.1. Hvor mange personer må spørres for at konfidensintervallet skal få lengde L = 0.05?
6.9.
OPPGAVER
221
15. Fimaet netTopp utførte en meningsmåling blant 1600 kvinner, der spørsmålet var om de kunne tenke seg å gjøre det med Clinton hvis de ble lovet full diskresjon. Av alle norske kvinner vil andelen p svare ja. Finn et 95 % konfidensintervall for p nar du får vite 389 av kvinnene svarte ja pa spørsmålet fra netTopp. 16. Figur 6.14 viser at hypotesetesten kan gi riktige eller feilaktige konklusjoner. Lag en tilsvarende figur for testen av den nye medisinen som omtales i eksempel 194. 17. Testen av det nye medikamentet som omtales i eksempel 194, ga følgende resultat: 30 av de 40 pasientene hadde nytte av behandlingen. Test hypotesene som ble definert i eksemplet, med signifikansnivå 0.05. Hva blir din konklusjon? 18. Vanlig kjøttdeig skal ikke inneholde mer enn 14 % fett. Anne har mistanke om at kjøttet inneholder for mye fett, og bestemmer seg for å utføre en hypote setest. La X være prosentandelen fett i en tilfeldig porsjon kjøttdeig. Vi antar at X er normalfordelt. med forventning p prosentpoeng og standardavvik rr = 3 prosentpoeng. Du skal utføre en Z-test med signifikansnivå 0.05.
Utfør testen, og gi din konklusjon basert på A-malingene nedenfor: 14
15
18
12
17
15
13
19
16
Beregn testens p-ver di. Beregn testens styrkefunksjon for p-verdiene 13. 14. 15, 16 og 17 og skisser den.
Anne krever at sannsynligheten for type Il-feil skal være mindre enn 0.10 når p — 16. Hvor mange stikkprøver må hun ta for å oppna denne teststyrken? 19. Helsemyndighetene stiller strenge krav til støynivået ved rockekonserter. Anta at det gjennomsnittlige støynivået ikke tillates a overstige 100 dB. Helsemyn dighetene har mistanke om at støynivået er for høyt når gruppa Hewwi spiller. Vi antar at støynivået pa et tilfeldig tidspunkt er normalfordelt med forventning p og st andar dawik rr. Utfør en T-test, og trekk din konklusjon basert på de følgende uavhengige målingene. 103
105
108
102
107
99
101
106
103
20. Gjennomsnittlig høyde for alle unge norske menn, er 180 cm. Unge menn fra Finnmark er tilsynelatende lavere. I 1997 var det 528 vernepliktige fra Finn mark, med gjennomsnittshøyde 177.2 cm (kilde: SSB). Anta at kroppshøyden til en tilfeldig ung mann fra Finnmark, er normalfordelt med forventning p og standardavvik rr = 7 cm. Anta også at det er tilfeldig hvem som utfører vernep likten. Er det grunnlag for å hevde at unge menn fra Finnmark er lavere enn landsgjennomsnittet? Utfør hypotesetest med signifikansnivå 0.01.
21. Anta at det årlige forbruket av nitrogen i Norge, er normalfordelt med forvent ning p og standardavvik rr. Forbruket av nitrogen i norsk landbruk, er vist neden for for årene 1987-1996 (kilde: SSB). Finn et 95 % konfidensintervall for forbruket p. Utfør en T-test for a undersøke om det er grunnlag for a hevde at forventet nitrogenforbruk er over 110 000 tonn. 109 807 110 875
111 208 109 299
110 138 108 287
110 418 110 851
110 790 111 976
222
KAPITTEL 6. ESTIMERING OG HYPOTESETESTING
22. NRK radio meldte 20.10.98 om en undersøkelse blant 152 leger, hvorav 23 sa seg villige til a jukse med ventelisteordningen for a hjelpe sine pasienter. La p være andelen av alle norske leger som er villige til å jukse. Gir undersøkelsen grunnlag for a hevde at p > 10 %? Velg selv signifikansnivå. 23. Gjennom lengre tid har Populistpartiet (PP) hatt oppslutning fra 15 % av vel gerne. Forrige uke ble det utført en meningsmåling blant 400 personer, hvorav 72 var PP-tilhengere. Gir undersøkelsen grunnlag for a hevde at PP har endret sin oppslutning? Utfør hypotesetest på signifikansnivå 0.05. Beregn festens p-verdi. 24. Gunnhild er nyansatt ved en produksjonbedrift. Fra sjefen har hun fått streng beskjed om at hun ikke må være altfor nøye med kvaliteten, samtidig som hun ikke må lage altfor mange defekte. Sjefen har regnet ut at han tjener mest penger hvis defektandelen er 10 %. Etter første uke har Gunnhild laget 134 enheter, hvorav 6 defekte. Gir dette sjefen grunnlag for å hevde at Gunnhild avviker fra “normen’’? Utfør hypotesetest pa signifikansnivå 0.05. 25. For noen år siden var jeg pa Interrail, og møtte en tilfeldig dag tilfeldigvis noen av mine beste venner, pa et tilfeldig gatehjørne, i en tilfeldig by (Wien). Var det bare tilfeldig, eller...? Du har antagelig opplevd noe av det samme selv, a møte en bekjent pa et usannsynlig sted. Anslå sannsynligheten for at akkurat dette møtet (mitt eller ditt) skulle inntreffe. Betyr det at vart møte ikke kan ha vært tilfeldig? Hint: Hvor sannsynlig er det at du aldri skulle ha opplevd et usannsynlig møte, når du tar hensyn til alle dine bekjente, og alle de stedene du har besøkt.
26. La X være prosentandelen fett i en tilfeldig valgt porsjon kjøttdeig. Tegn den empiriske fordelingsfunksjonen til X på bakgrunn av datasettet i oppgave 18. 27. La Y være diameteren pa en tilfeldig valgt pizza av en bestemt type. Tegn den empiriske fordelingsfunksjonen til Y på bakgrunn av datasettet på side 51. i oppgave 10. Hint: Bruk datamaskinen.
Del IV
Andre anvendelser
223
Kapittel 7
Analyse av sammenhenger 7.1 7.2 7.3 7.4 7.5 7.6
Innledning Korrelasjon Enkel lineær regresjon Ikke-lineær regresjon Multippel regresjon Tidsrekkeanalyse
Side Side Side Side Side Side
225 227 230 241 244 248
Er det en sammenheng mellom en bils alder og risikoen for at den blir involvert i en bilulykke? Er det en sammenheng mellom utetemperatur og solgt mengde iskrem? Er det en sammenheng mellom kroppshøyde og intelligens? Gar aksjekursene oppover? Er det en sammenheng mellom én målt alis variabel og en annen målt alis variabel? Statistikk kan benyttes for å analysere mulige sammenhenger basert på innsamlede data. Først ser vi om datasettet indikerer at en slik sammenheng eksisterer. Deretter undersøker vi om den observerte sammenhengen er signifikant eller kan være oppstått tilfeldig. Det er også interessant å vite hvor sterk sammenhengen er: Hvor mye en dres ulykkesrisikoen hvis vi kjøper ny bil? Er det sikkert at den endres? Hvor stor er sannsynligheten for at risikoen øker? Vi skal se på to ulike mater å beskrive sammenhenger på. Korrelasjonsanalysen undersøker om det er en lineær sammenheng mellom variablene, mens regresjons analysen forteller oss hvilken lineær sammenheng som passer best til dataene. Til slutt i kapitlet skal vi se at regresjonsanalysen kan utvides til også å se på ikke-lineære sammenhenger. Regresjonsanalysen er desidert mest matnyttig: den vil derfor få størst oppmerksomhet.
7.1
Innledning
Når vi ønsker å analysere sammenhenger, er det underforstått at vi tror på muligheten av en slik sammenheng. De variablene som vi studerer, må derfor på en eller annen måte være relatert til hverandre. Vanligvis oppfatter vi den ene variabelen Y som en funksjon av den andre, X. Derfor går ofte Y under navnet responsvariabel og X under navnet forklaringsvariabel. Var oppgave er å undersøke om det virkelig eksisterer en slik sammenheng som vi mistenker. Var analyse baserer seg på et datasett med n par observasjoner: (X^. Yi), 12), ... ,(Xn. Yn). Figur 7.1 viser et eksempel pa 104 par observasjoner over sammenhengen mellom forklaringsvariabelen temperatur og responsvariabelen issalg. I korrelasjons analysen er det vanlig a tenke pa både X og Y som stokastiske variabler. I regresjon-
225
226
KAPITTEL 7. ANALYSE AV SAMMENHENGER
Temperaturavhengig issalg
CD
0
-10
0
10
20
30
Utetemperatur
Figur 7.1: Er det en sammenheng mellom temperatur og issalg? sanalysen oppfatter vi vanligvis Y som en stokastisk variabel, mens X er en størrelse som vi har full kontroll pa. Vi skal ikke gjøre noe stort poeng ut av denne forskjellen, siden analysene fungerer like godt i begge tilfeller, enten X er stokastisk eller kon trollert. Det første skrittet i en analyse av denne typen sammenhenger er å tegne et spredningsplott slik som i figur 7.1. Dette diagrammet er det svært enkelt å lage, og det gir oss et godt utgangspunkt for våre videre analyser. Hvis et slikt plott ikke antyder at det er en sammenheng mellom variablene, vil heller ikke de statistiske metodene være særlig til hjelp. Dersom bildet antyder at det er en sammenheng, kan de statistiske metodene analysere om sammenhengen er tilfeldig eller signifikant. Neste skritt vil ofte være å tegne den rette linjen som passer best til datasettet. Denne linjen, som er vist i figur 7.2, kalles regresjonslinjen. Hensikten med regresjonsanalysen er å undersøke om regresjonslinjen også sier noe om populasjonen av alle mulig observasjoner og ikke bare om utvalget. Er det helt sikkert at linjen virkelig skal gå oppover eller er det bare utvalgets tilfeldigheter som lurer oss? Hvor stor spredning har punktene rundt regresjonslinjen? Hvis vi kjenner utetemperaturen, hva kan vi da si om issalget? Før vi starter selve analysen, må vi ta med tre advarsler:
• Vi kan ikke stole på en lineær sammenheng utenfor det området der vi har obser vasjoner. Med vårt datasett vet vi veldig lite om issalget dersom temperaturen er 40 °C! • En sammenheng er ikke det samme som en årsakssammenheng. Årsaken til den observerte sammenhengen kan være noe ganske annet enn førsteinntrykket lurer oss til å tro. Forestill deg at issalgsdataene i figur 7.1 gjelder gjennomsnittlig temperatur og issalg i 104 norske byer. Da kan det godt tenkes at issalget skyldes lønnsnivå, antall kiosker eller antall kafeer - som alle kan henge sammen med temperaturen. Hvis folk spiser mer is i Oslo enn i Finnmark, kan det like godt skyldes deres høye lønnsnivå og store mengde kiosker som deres høye temperatur. • Det finnes mange ikke-lineære sammenhenger, som vare analyser har problemer med å oppdage. Selv om vi ikke klarer å finne en sammenheng, kan vi ikke utelukke at den eksisterer i en eller annen form. Tips 210 Vær alltid forsiktig med å påstå at du har oppdaget en årsaksammenheng. Sørg alltid for å undersøke andre forklaringsmuligheter først.
7.2. KORRELASJON
227
Figur 7.2: Regresjonslinjen antyder at det er en sammenheng mellom variablene.
7.2
Korrelasjon
Pa side 123 definerte vi den teoretiske kovariansen Cov(X, Y). Na skal vi estimere ko variansen med utgangspunkt i vare n observasjonspar (Xj. Ifi), (Å^. , (Nn. Yn). En brukbar estimator for kovariansen kalles Sxy og defineres lik
Sxy = —- X)(Y, - Y) n— 1
(7-1)
2=1
På side 124 definerte vi korrelasjonen p til to variabler. Korrelasjonen ble definert som kovariansen delt på begge de to variablenes standardavvik. Vi har nettopp lært a estimere kovariansen med Sxy-, og vi vet hvordan vi kan estimere st andar davvikene med Sx og Sy. Definisjonen av den empiriske korrelasjonen, som kalles R. burde derfor ikke være særlig overraskende. Definisjon 211 (empirisk korrelasjon) Viharn observasjonspar (Xi.Y-fi). (X2.Y2). ... .(Xn,Yn). Deres empiriske korrelasjon kalles R, og defineres av ligning 7.2. Når observasjonene foreligger, kan vi beregne verdien til R. Denne tallverdien kalles r.
Sxy
=
Sx'Sy
m^Xi-XfiYj-Y)
vhZifv-vp ■ yrjur - F)?
(7.2)
Legg merke til at R er en stokastisk variabel med en bestemt sannsynlighetsfordeling. Vi vil altså ikke observere den ukjente korrelasjonen p, men en tallverdi r som forhåpentlig ikke avviker altfor mye fra den ukjente. Kvaliteten på estimatoren R oker hvis antall observasjoner øker. Korrelasjonen har følgende fortolkning, som illustrert i eksemplene i figur 7.3: • r ligger mellom —1 og 1.
• Absoluttverdien til r antyder hvor sterk lineær sammenheng det er mellom X og Y. Jo større absoluttverdi. desto sterkere sammenheng. Ekstremverdiene r = 1 og r = —1 svarer til at (X. V)-verdiene ligger nøyaktig pa en rett linje. Vi far r nær null hvis det ikke er en lineær sammenheng mellom X og Y.
KAPITTEL 7.
228
ANALYSE AV SAMMENHENGER
Figur 7.3: Noen spredningsplott og deres empiriske korrelasjonskoeffisient r
• Fortegnet til r angir retningen på sammenhengen: Positiv r indikerer at (X. Y)verdiene ligger i nærheten av en økende rett linje. Negativ r indikerer at (X. Y)verdiene ligger i nærheten av en avtakende rett linje. Det er alltid mulig å beregne korrelasjonskoeffisienten, men det er ikke sikkert at den forteller oss noe meningsfullt! Tre av eksemplene til høyre i figur 7.3 viser ikke-lineære mønstre. Her gir ikke korrelasjonskoeffisienten særlig mye informasjon. Sammenlign de ulike eksemplene i figuren og se at det finnes flere måter å få r ~ 0. Bare det venstre av dem betyr at det ikke er noen sammenheng mellom variablene (verdien til den ene hjelper oss ikke til å si noe om verdien til den andre). Det er også flere måter å få r ~ 0.8 på, men bare det ene av de to eksemplene passer til en lineær modell. Eksemplet nederst til høyre i figur 7.3 viser at dataene beskriver to ulike populasjoner. Her bør vi analysere oss fram til hva som skiller de to populasjonene fra hverandre, og studere dem hver for seg. Eksempel 212 Beregn korrelasjonskoeffisienten r til de følgende fem observasjonsparene, som er knyttet til fem tilfeldig utvalgte biler:
Motorstørrelse x Bensinforbruk y
75 0.48
145 1.09
55 0.53
88 0.97
122 0.78
Løsning: I praksis vil vi selvsagt la en datamaskin foreta selve beregningen. Men la oss se hvordan vi kunne gjøre beregningen for hånd. Vi finner løsningen på en enkel måte ved å fylle ut følgende tabell: X
75 145 55 88 122 x = 97
y 0.48 1.09 0.53 0.97 0.78 17 = 0.77
x—x -22 48 -42 -9 25
y-y -0.29 0.32 -0.24 0.20 0.01
(x — x)2 484 2304 1764 81 625 £ = 5258
(y - yY 0.0841 0.1024 0.0576 0.0400 0.0001 E = 0.2842
Vi setter tallverdiene inn i ligning 7.2.
- xfiy - y) a/E(æ
- x)2y/Yffiy - VY
_
30.27 V5258 • 0.2842
(x - x)(r/ - y) 6.38 15.36 10.08 -1.80 0.25 E = 30.27
7.2. KORRELASJON
229
Histogram over simulerte R-verdier
Figur 7.4: Selv om variablene er uavhengige (p = 0). kan vi observere en korrelasjon r som er ganske stor.
Kommentar 213 (simulering av R) Vi kan foreta simuleringer'med datamaskinen
for å se hvilken sannsynlighetsfordeling den empiriske korrelasjonskoeffisienten R har. La oss anta at både X og Y er normalfordelte og uavhengige, dvs. at p = 0. Vi lar datamaskinen generere 50 tilfeldige observasjonspar og beregner R-verdien. Dette gjentas mange ganger, slik at vi finner mange forskjellige R-verdier. Figur 7.f viser et histogram over 100 simulerte korrelasjonsverdier. Budskapet er: Selv om variablene er uavhengige, vil vi vanligvis observere en korrelasjon forskjellig fra null. Hvis vi observerer r — 0.2. kan vi da konkludere at variablene er positivt korrelerte - eller er det bare tilfeldig?
Hvis både X og Y er normalfordelte med korrelasjon p, da sies variabelparet (X. Y) å være binormalfordelt. Du kan lese om binormalfordelingen og se noen eksempler på fordelingen på side 170. I eksempel 283 kan du se hvordan det er mulig å simulere observasjonspar for en generell binormal fordeling med korrelasjon p.
Vi vil vanligvis observere en korrelasjons ver di forskjellig fra null. Hvor mye forskjel lig fra null rna den observerte verdien være for at vi virkelig kan stole på at variablene er relatert til hverandre? Det finnes statistiske hypotesetester for å undersøke dette spørsmålet. Det viser seg imidlertid at disse testene gjør nøyaktig samme jobb som å spørre om regresjonslinjen (som i figur 7.2) virkelig går pa skrått. Hvis regresjonslinjen er horisontal, betyr det at X og Y er uavhengige. I avsnitt 7.3.5 skal vi lære å teste hypotesen om “skråhet”. Hvis vi studerer k variabler samtidig, kan vi beregne korrelasjonen mellom hvert par av variabler ved hjelp av formel 7.2. Det er vanlig å stille opp de beregnede verdiene i en k x Zc-matrise som kalles korrelasjonsmatrisen. Langs diagonalen vil det alltid stå 1, siden hver variabel er perfekt korrelert med seg selv. Denne matrisen, som lages av datamaskinen, viser hvilke variabler som er knyttet til hverandre. Denne typen analyser kan gi svært god innsikt i et problem. Innsikten er meget viktig for å foreslå gode regresjonsmodeller. Figur 7.5 viser en korrelasjonsmatrise for de fem bilene som ble omtalt i eksempel 212. Du bør kjenne igjen ett av tallene. De andre tallene er beregnet på tilsvarende måte. Et raskt blikk på denne matrisen forteller at bensinforbruket er mest avhengig av motorstørrelsen og minst avhengig av bilens vekt.
KAPITTEL 7. ANALYSE AV SAMMENHENGER
230
Motorstørrelse Motorstørrelse
1
Bilens vekt Bilfører alder Bensinforbruk
-0,512 0,662 0,783
Bilfører alder
Bilens vekt 1 -0,544 0,048
1 0,233
Bensinforbruk
1
Figur 7.5: Korrelasjonsmatrise for fire variabler knyttet til bilbruk
7.3
Enkel lineær regresjon
Regresjonsanalysen gar lenger enn korrelasjonsanalysen. Nå spør vi ikke bare om det er en sammenheng mellom variablene, men vi ønsker å finne ut hvilken sammenhengen det er. Hvilken sammenheng er det mellom formue og opplevd lykke? Hvilken sammenheng er det mellom mengden av armeringsjern og styrken i en betongkonstruksjon? Vi skal starte med å se på enkel lineær regresjon. Det betyr at vi bare ser pa en rettlinjet sammenheng mellom to variabler. I avsnitt 7.4 skal vi se hvordan regresjon kan brukes for å beskrive ikke-lineære sammenhenger. Avsnittet deretter handler om multippel lineær regresjon, der vi jakter på sammenhengen mellom flere forklaringsvariable og én responsvariabel. Helt til slutt skal vi analysere tidsrekker, og forsøke å lage prognoser.
7.3.1
Regresjonsmodellen
Husker du at enhver rett linje kan skrives som y — a + flx, der konstanten a sier hvor linjen krysser r/-aksen (høyden over origo), mens konstanten fl er linjens stigningstall. Når x øker med 1, øker altså y med fl. Dette er illustrert nedenfor.
Som et illustrasjonseksempel skal vi se pa sammenhengen mellom motorstørrelse (hk) og bensinforbruk (liter/mil). Det er naturlig å oppfatte motorstørrelsen som en størrelse vi har full kontroll på. Den er ikke tilfeldig. Vi mistenker at bensinforbruket avhenger av motorstørrelsen, men vi har også grunn til å tro at andre, mer tilfeldige faktorer spiller inn. Vi antar at det stokastiske bensinforbruket Fj er relatert til mo torstørrelse Xi ved
y? = oc + flx i + 6j
Feilleddet e7 er en stokastisk størrelse som "forstyrrer" den lineære sammenhengen som gis av den ukjente linjen a + flxz. Vi antar at feilleddene, som også kalles residualer, er uavhengige og normalfordelte med forventning null og ukjent varians cr2. Modellen er vist i figur 7.6. Dette betyr at
E(YZ) = a + 3xi
Var(V) =
(7.3)
Vi antar altså at variasjonen er like stor uansett hvilken æ-verdi vi ser på. I en del virkelige situasjoner kan dette være en tvilsom antakelse, siden det ofte vil være slik at variasjonen øker nar x-verdien oker.
7.3.
ENKEL LINEÆR REGRESJON
231
Figur 7.6: Stokastisk modell for regresjonsanalyse
Hensikten med regresjonsanalysen er å finne et best mulig estimat til den ukjente linjen y = a + Øx som beskriver den modellmessige sammenhengen mellom forklar ingsvariabelen og responsvariabelen. Vår oppgave blir derfor å estimere de ukjente størrelsene a og 0 pa bakgrunn av de innsamlede data? Var beste gjetning på den uk jente linjen kalles regresjonslinjen y = a + Øx. Hvordan kan vi finne regresjonslinjens koeffisienter a og 03 Det er tema i følgende avsnitt. Kommentar 214 Hvis x-verdiene også er stokastiske. betyr det at vi ikke har kontroll over forsøksbetingelsene. Vi kan likevel foreta regresjonsanalyse pa helt vanlig måte. Det spiller altså ingen rolle for statistikeren om x-ene er kontrollerte eller tilfeldige, så lenge målet er å si hvordan responsen Y påvirkes av forklaringsvariabelen x.
7.3.2
Regresjonslinjen
Vi ønsker å estimere regresjonslinjens koeffisienter a og 0. Estimeringen må basere seg på innsamlede data. Regresjonslinjen y = a + øx er den linjen som passer best til datasettet. Regresjonslinjen er var beste gjetning pa den ukjente linjen y = a + Øx. Vi har jo ikke noe bedre forslag a komme med!
Vi utfører et forsøk med fem forskjellige biler og far det følgende datasettet og spredningsplottet i figur 7.7.
Motorstørrelse x Bensinforbruk y
75 0.48
145 1.09
55 0.53
88 0.97
122 0.78
Ta fram en linjal og legg den mellom punktene i figur 7.7. Hvordan vil du plassere linjalen slik at den best mulig beskriver sammenhengen i datasettet? Forsøk a finne de verdiene av a og 0 som svarer til den linjen du synes passer best. (Hvis 20 personer gjør den samme øvelsen, tror du de finner den samme linjen?) Hva er det som avgjør om en linje passer godt til datasettet?
La oss tegne to vilkårlige linjer i spredningsplottet. For a vurdere om de passer godt, kan vi summere de absolutte avstandene mellom punktene og linjen. Ut fra et slikt kriterium er det lett a bli enig om at linjen til høyre på figuren nedenfor passer bedre enn linjen til venstre.
232
KAPITTEL 7. ANALYSE AV SAMMENHENGER
Figur 7.7: Er det en sammenheng mellom motorstørrelse og bensinforbruk?
Matematisk sett er det vrient å håndtere absoluttverdier. Før datamaskinens tid var det derfor ikke så lett å finne den linjen som passet best ut fra et ønske om å minimalisere absoluttverdien av avvikene. Regresjon basert på enkle avstander har derfor ikke slått særlig godt an. Den løsningen som vanligvis brukes, heter minste kvadraters metode. Vi tar ut gangspunkt i en vilkårlig linje. Metoden baserer seg på at vi for hvert punkt tar avstanden mellom punktet og linjen og kvadrerer denne avstanden (vi huner et avvikskvadrat). Deretter finner vi summen K av alle avvikskvadratenes arealer. Minste kvad raters metode sier at vi skal velge den linjen som gir oss minst mulig kvadratsum K. To mulige alternativer er vist i figuren nedenfor. Det finnes ingen linjer som gjør at kvadratsumrnen blir mindre enn 0.110. Linjen til høyre i figuren er derfor minste kvadraters rette linje.
Følgende regel, som bevises på side 373, forteller hvordan vi kan regne oss fram til linjens koeffisienter. Legg merke til at stigningstallet er proporsjonalt med korrelasjo nen. Regel 215 (minste kvadraters rette linje) Dataene (æi. z/i). (^2,^2), • • • • ( o 200 0) 2 150 -
,
0
0
20
40
60
80
100
120
x = Hastighet (km/t) før oppbremsing
Figur 7.15: Ikke-lineær sammenheng mellom hastighet og bremselengde
skal være noe poeng i å benytte vektet regresjon. Vektet regresjon anbefales derfor primært hvis datasettet er lite og/eller variasjonen til V-ene er svært forskjellig for ulike x-verdier.
7.4
Ikke-lineær regresjon
Noen ganger er det opplagt at sammenhengen mellom x og y er ikke-lineær. Det kan skyldes at vår kunnskap om fenomenet gir oss mistanke om en annerledes sammenheng, eller det kan skyldes at spredningsplottet avslører en spesiell form på sammenhengen. Figur 7.15 viser et eksempel på sammenhengen mellom bremselengde y (meter) og hastighet x (km/t) for 20 biler. Fra fysikkens lover har vi grunn til å vente at bremselengden er en funksjon av farten opphøyd i annen potens. La oss forsøke å finne en sammenheng slik at y = (a + Øx)2. Før å finne de koeffisientene a og 0 som passer best, skal vi omskrive denne sammenhengen til ^/y = a + Øx og definere y * = ^/y. Til venstre i figur 7.16 vises et spredningsplott av alle (æ. t/ *)-observasjonsparene. Legg merke til at sammenhengen her ser atskillig mer lineær ut. På vanlig måte kan vi finne den rette linjen som passer best til dette spredningsplottet:
* = -1.205 + 0.171 x y
Denne linjen har r2 = 0.88, som er såpass nær 1 at regresjonslinjen er rimelig god.
242
KAPITTEL 7. ANALYSE AV SAMMENHENGER
Figur 7.16: Tilpasning av ikke-lineær kurve. Mellomresultat til venstre og svar til høyre
Ikke-lineær modell y = /O) y = ae3x fl y = ar y — a + (3 log x y = 1/(1 + ea+i3a:) y = a+ f _ i y ct+3x y = a + /3y/x
Omforming av variabler sk
0 = b*
* — log X x
a = ea , S = 10“*,
* = log X x
S =a *,
3= K
* —X X
a =a * ,
3= K
y = In?/, * y = log?/,
X =x
* i/ * z/
= y,
Omforming av koeffisienter
3= K
* = J x a = a\ 3 = b* = y, _ i * =X X a = a * , 3^K y — y' * = y/x X a = aT 3= K * = y, y * =X X a=a * . 3 = b* * = \/yy y = (a + /3x}2 _ i = cn T i+æ — a =a * , 3=K * ___ul_______ X y * — TT l+æTabell 7.1: Noen ikke-lineære modeller og de nødvendige omformingsreglene * z/
x
Siden y = (y *) 2, blir var beste gjetning for bremselengden y gitt av regresjonskurven y = (-1,205 + 0.171 t)2
(7.10)
Denne kvadratiske linjen er tegnet inn til høyre i figur 7.16. Gjennom dette enkle eksemplet har vi illustrert hvordan det er mulig å benytte den vanlige lineære regresjonsteknikken også for å finne sammenhenger som er ikkelineære. I vårt eksempel var det nødvendig å omforme y til y * — yfy slik at vi fant en sammenheng som var tilnærmet lineær. I andre situasjoner kan det være nødvendig a omforme x til ,r *. Den generelle framgangsmåten for å finne en ikke-lineær sammenheng kan da beskrives slik:
• På bakgrunn av kjennskap til problemet, eller inspirert av spredningsplottet, far vi mistanke om at den ukjente sammenhengen beskrives av y — f (x), der f er en ikke-lineær funksjon. Tabell 7.1 viser noen eksempler på mulige /-funksjoner. • Omform y til *y og x til *x i henhold til tabellen. • Finn lineær regresjonslinje *./ = *a + *6 *x på vanlig måte, med utgangspunkt i de omformede variablene. Her er altså *a og *å de estimerte koeffisientene til den omformede, rette linjen.
• Beregn koeffisientene S og 3 i den ikke-lineære modellen i henhold til tabellen.
7.4. IKKE-LINEÆR REGRESJON
Bruktbilpris vs. alder
243
Bruktbilpris vs. alder
Bruktbilpris vs. alder ~ 250 4
N
;
200 -
y
Q. & 150 1
f«
100 J
o i
50-
= 237 - 169 log(x) / /
4
* . / *
0
*
.
0 -t----,---- T----- r----- .----- T----T----- t----- r----- r— 0
1
2
3
Alder (år)
4
5 6 7 8 Alder (ar)
•
T---
9 10 11 12 13
Figur 7.17: Ikke-lineære modeller: eksponent iell, potensiell og logaritmisk Eksempel 225 Den følgende tabellen viser gjennomsnittlig bruktbilpris for biler av ulik alder. La x være alder og y gjennomsnittsprisen. Tilpass en modell på formen y — ae .
Alder (x år) Pris (y kkr) * = In y y
1 24 3 5.49
2 185 5.22
3 165 5.11
4 133 4-89
5 112 4-72
6 94 4-54
7 97 4.57
8
84 4-43
9 78 4.36
10 66 4-19
11 72 4-28
12 63 4.14
Løsning: Vi foretar omformingen som foreslås i første rad i tabell 7.1, der vi skal bruke y * = In y og x * = x. For å forenkle regningen er logaritmetallene tatt med i tabellen ovenfor. Ved å ta utgangspunkt i første og tredje rad i tabellen, gir får vi følgende regresjonslinje: * = 5.418 — 0.116 .r y *
Fra tabell 7.1 ser vi at koeffisienten a * = 5.418 må omregnes til a = e“* = e5'418 = 225. Koeffisienten (3 — *b — —0.116. Var ikke-lineære regresjonskurve blir derfor y = 225
Kommentar: Vi kunne like godt ha valgt en annen modell, for eksempel y = ar3. Det ville etter samme type regnearbeid gitt oss den ikke-lineære regresjonskurven y — 271x~()r>l. Et tredje alternativ er en modell av typen y = a + (3 log .r. Regresjonskurvene for disse tre alternative modellene er vist i figur 7.17. Av de tre modellene i figur 7.17 ser det ut til at den logaritmiske modellen til høyre er best. Men det kan godt tenkes at det finnes andre modeller som er enda bedre. I de fleste tilfeller finnes det ingen fasit som kan fortelle oss hvilken ikke-lineær modell vi bør bruke. Unntaket er problemstillinger der fysiske eller økonomiske “naturlover" gir oss grunn til å forvente en bestemt sammenheng. Vi kan teste hypoteser om stigningstallet og lage konfidensint ervaller og prediksjonsintervaller også for de ikke-lineære modellene, forutsatt at de vanlige betingelsene er oppfylt. Vi bør derfor sjekke om de omformede observasjonsparene * .y )(x danner et lineært mønster, og undersøke om residualene i den omformede modellen tilfredsstiller kravene om konstant varians, uavhengighet og normalfordeling. I avsnitt 7.5.2 skal vi se pa en fleksibel polynomisk modell som kan brukes for å beskrive ikke-lineære sammenhenger. Kommentar 226 (logistisk regresjon) Noen ganger betegner responsenY en sann synlighet eller andel. Forestill deg at et tilfeldig utvalg av personer i alderen 0-20 år ble spurt om de har drukket øl. For hver aldersgruppe (x = alder) kan vi finne andelen Y av de spurte som hor drukket. Vi ønsker å finne en regresjonskurve som tilpass er seg våre observasjoner på best mulig måte. En vanlig modell i dette tilfellet er
KAPITTEL 7.
244
ANALYSE AV SAMMENHENGER
Sannsynlighet for øldrikking
0
5
10
15
20
x = Alder (år)
Figur 7.18: Logistisk regresjon for å finne sannsynlighetskurve
y = 1/(1 + ea+'3;c), som kalles en logistisk ligning eller S-kurve. Legg merke til at uansett hvilken verdi x har, vil y være mellom 0 og 1 og dermed tilfredsstille kravet til en sannsynlighet. Figur 7.18 viser resultatet av en logistisk analyse av våre øldata. Framgangsmåten er helt analog med eksempel 225, der vi må bruke den fjerde raden i tabell 7.1.
7.5
Multippel lineær regresjon
Svært ofte finnes det flere mulige forklaringsvariabler i en gitt situasjon. Bensinfor bruket kan være avhengig av alle faktorene motorstørrelse, bilens vekt og bilførers alder. Issalget kan avhenge av alle faktorene temperatur, nedbørsmengde og utsalgs pris. Multippel lineær regresjon hjelper oss å finne den beste lineære sammenheng mellom responsen og de ulike forklaringsvariablene. Multippel regresjon er et av sta tistikkfagets mest nyttige - og mest brukervennlige - verktøy. Dette verktøyet må du lære deg!
7.5.1
Vanlig multippel regresjon
Anta at responsen Y påvirkes av de tre forklaringsvariablene æi, x^ og x3. Helt analogt med den enkle lineære modellen antar vi at følgende sammenheng gjelder:
Yi = a + /31xli +
/32x22. + /33x.3z + e?
(7.11)
Her er Xu,X2i og x31 forklaringsvariablenes verdi for z-te observasjon som resulterer i responsen yi. Feilleddet e; er normalfordelt med forventning null og varians lik rr2, nøyaktig som i den enkle modellen. Koeffisientene a,/31,/32 og Z?3 er ukjente, men konstante størrelser. Vår oppgave er å estimere dem så godt som mulig, og trekke slut ninger om dem (hypotesetester og konfidensintervaller). Denne modellen kan utvides til flere enn tre forklaringsvariabler, eller innskrenkes til bare to forklaringsvariabler. Det burde ikke være overraskende at vi kan bruke minste kvadraters metode for a finne estimatene S./31,/32 °g Øs- Framgangsmåten er helt analog med det vi gjorde i begrunnelsen for regel 215. Vi kunne ha regnet oss fram til formlene for koeffisientene, men skal unngå det regnearbeidet her. I praksis vil vi likevel være avhengige av å bruke et dataprogram for a klare å utføre beregningene.
7.5. MULTIPPEL LINEÆR REGRESJON
245
Eksempel 227 Vi har en mistanke om at bensinforbruket Y kan være avhengig av faktorene x± = motorstørrelse, .r2 = bilens vekt og x3 = bilførerens alder. Vi skal foreta mulitippel regresjon ved hjelp av et statistikkprogram, med utgangspunkt i de fem observasjonene i tabellen nedenfor.
Observasjon nummer — Motorstørrelse (hk) = Bilens vekt (kilo) X2 X3 — Bilførerens alder (år) — Bensinforbruk y
1 75 1050 40 0.48
2 145 1100 55 1.09
3 55 1200 27 0.53
4 88 1170 18 0.97
5 122 1030 35 0.78
Excel gir resultatene i figur 7.20. Minitab gir resultatene i figur 7.19. Sammenlign denne utskriften med resultatene fra den enkle regresjonsanalysen på side 235, der vi bare brukte motorstørrelse som forklaringsvariabel. Legg merke til at r2 har økt betraktelig (også den justerte r2). Det tyder på at den multiple modellen beskriver dataene bedre enn den enkle modellen. Dette budskapet gjentas lenger nede i utskriften hvor vi ser at en mye større del av totalvariasjonen 0.2842 blir forklart ved den multiple modellen. Helt nederst i utskriften ser vi hvilke av x-ene som forklarer mest av varia sjonen, dvs. hvilke av forklaringsvariablene som er viktigst: Viktighetsrekkefølgen er motor, bilvekt, alder, sortert etter størrelsen på “Seq SS”. Hvilket bensinforbruk kan vi vente av en bil med Xi = 80 hk motor, vekt x2 = 1150 kg og en bilfører med alder x3 = 50 år? Forventningsverdien angis av regresjonslinjen. Fra Minitabs utskrift ser vi at forventningsverdien er lik (liter/mil): y
=
-2.0 + 0.0093 æi + 0.0019 x2 - 0.0061 x3
=
-2.0 + 0.0093 ■ 80 + 0.0019 • 1150 - 0.0061 • 50
=
0.62
Fra datautskriften ser vi også hva som er standardavviket til de ulike koeffisien tene, og de tilhørende T- og p-verdier knyttet til en hypotesetest hvor nullhypotesen er at koeffisienten er null. Opplysningene har nøyaktig samme betydning som tidligere, i avsnitt 7.3.5. I vårt banale eksempel med altfor få observasjoner, er ingen av koeff isientene signifikant forskjellige fra null (dette ser vi av at p-verdiene er så høye). Tallstørrelsen r2 er fremdeles definert ved ligning 7.6 på side 234. men fortolkningen er ikke lenger direkte knyttet til korrelasjonen mellom x3 og y. Det viktige for oss er å vite at r2 uttrykker hvor godt modellen passer til datasettet. Den justerte r2 uttrykker hvor godt modellen passer til populasjonen som datasettet stammer fra (se kommentar 218). Du må ikke ga i den fella å tro at viktigheten til en forklaringsvariabel Xj avhenger av størrelsen på koeffisienten (ff. Dette vil du forstå hvis du tenker deg at bilens vekt ble
oppgitt i tonn heller enn kilo. Da ville koeffisienten /?2 ha blitt 1000 ganger større - uten at bilens vekt ble noe viktigere av den grunn. For å avgjøre hvilke forklaringsvariabler som er viktige, må vi se hvor stor del av den totale variasjonen SSt som forklares av de ulike .r-ene. Dette kommer fram nederst i Mintab- utskrift en i figur 7.19. Hvor mange forklaringsvariabler bør vi benytte? Regresjonskurven vil tilpasse seg bedre og bedre til datasettet jo flere variabler vi benytter. Men det betyr ikke nød vendigvis at modellen blir bedre. Hvis vi har med for mange forklaringsvariabler, vil regresjonskurven overtilpasse seg til det mønsteret som datasettet tilfeldigvis har. Den justerte r2 sier hvor god modellen forventes å være. Nar vi sammenligner forskjellige aktuelle modeller, kan det være naturlig å velge den modellen som gir høyest justert r2. I vårt bensineksempel kunne vi ha laget sju forskjellige lineære modeller, som alle er
KAPITTEL 7. ANALYSE AV SAMMENHENGER
246
The regression equation is Bensinforbruk = - 2,00 + 0,00926 Motor + 0,00188 Bilvekt - 0,00607 Alder
Coef -2,001 0,009260 0,001879 -0,006069
Predictor Constant Motor Bilvekt Alder
StDev 1,381 0,002531 0,001110 0,006735
P 0,385 0, 170 0,340 0,533
= 74,9%
R--Sq(adj)
R-Sq = 93,7%
S = 0,1335
T -1,45 3 , 66 1, 69 -0,90
Analysis of Variance
Source Regression Residual Error Total Source Motor Bilvekt Alder
DF 3 1 4
DF 1 1 1
SS 0,26639 0,01781 0,28420
MS 0,08880 0,01781
F 4,99
P 0,315
Seq SS 0,17426 0,07766 0,01446
Figur 7.19: Multippel regresjonsanalyse med Minitab
Recjresionsstatistikk
Multippel R R-kvadrat Justert R-kvadrat Standardavvik s Observasjoner
0,9682 0,9373 0,7493 0,1335 5
Variansanalyse SK
fg
Regresjon Residualer Totalt
3 1 4
0,2664 0,0178 0,2842
Koeffisienter Standardfeil
Skjæringspunkt Motor Vekt Alder
-2,0010 0,0093 0,0019 -0,0061
1,3808 0,0025 0,0011 0,0067
GK
0,0888 0,0178
t-Stat
-1.4491 3,6594 1,6924 -0,9011
F
4,9853
Signifkans-F
0,3154
P- verdi
0,3845 0,1698 0,3398 0,5331
Figur 7.20: Regresjonsanalyse med Excel. Nederst til venstre står koeffisientene Oi,32 og 33-
MULTIPPEL LINEÆR REGRESJON
Forbruk Forbruk Forbruk Forbruk Forbruk Forbruk Forbruk
0,212 0,58 0 , 614 -0,47 0,311 - 2,45 -2,00
+ + + + + + +
0,00576 0,00017 0,0045 0,00090 0,00823 0,00805 0,00926
Motor Bilvekt Alder Bilvekt Motor Motor Motor
+ + +
0,0070 0,00970 0,00220 0,00188
247
Alder Alder Bilvekt Bilvekt - 0,00607 Alder
R-Sq 61.3 0.2 5.4 9.8 75.8 88.6 93.7
Adj . R-Sq 48.4 0.0 0.0 0.0 51.6 77.3 74.5
Figur 7.21: Alle disse modellene er minste kvadraters modeller for bensinforbruket.
minste kvadraters estimater med forskjellige forklaringsvariabler. Beste tilpasning til hver modell er vist i figur 7.21. To av ligningene vil du kjenne igjen fra før (eksemplene 216 og 227). Den beste tilpasningen ser ut til a være y — —2.45+0.00805 x\ +0.0022 x%, som har høyest justert r2. Bilførerens alder x% er ikke sa viktig at den behøver å være med i modellen.
7.5.2
Polynomisk regresjon
Vi har sett hvordan ikke-lineære sammenhenger mellom y og x kan håndteres ved a omforme variablene. I ligning 7.10 pa side 242 fant vi eksempelvis en sammenheng mellom bremselengde y og hastighet x slik:
y = (-1.205 + 0.171 ,r)2 = 1.45 - 0.41 x + 0.029 x2
Vi har altså funnet et annengrads polynom (kvadratisk polynom). Det er riktignok ikke full “fleksibilitet” i dette polynomet, siden koeffisienten til det midterste leddet er avledet av de to andre. En fullt ut fleksibel modell kan skrives i formen Tj = Q +
xi + 0'2 xi +
Det er heller ikke noe i veien for a lage polynomer av høyere orden, f.eks. et tredjegrads polynom (kubisk polynom), slik: V). = Q! + di Xj + 02
+ '^3
4“ ei
Ved a definere xu = x i og x%{ = x2 og x^i = x] ser vi at denne ligningen er et spe sialtilfelle av den multiple regresjonsmodellen på side 244. Vanlig multippel regresjon vil derfor gi oss minste kvadraters estimatene ct,di,d2 °g /^3 som var beste gjetning pa polynomets koeffisienter. Det er ikke noe i veien for å finne polynomer med enda høyere orden, men vi bør være forsiktige slik at vi unngår overtilpasning. Figur 7.22 viser polynomer av andre, tredje og sjette orden for bremselengdene. Hvilket polynom passer best? Jo flere ledd vi tar med i polynomet, desto bedre tilpasning far vi. dvs. at r2 øker. Men modellen vil raskt overtilpasse seg dersom vi har med for mange ledd i modellen. En mate å undersøke modellen på er å lage “prognoser” ut til sidene for a se hva modellen forteller. Hvis modellen “spar" en åpenbart feilaktig utvikling, da er den dårlig antakelig over tilpasset. De tre modellene for bremselengde gir “prognosene” som er vist i figur 7.23. Ut fra figuren skulle vi klare oss lenge med en modell av andre orden. Modellens gyldighetsområde er .r-området der vi har observasjoner. Det er farlig a ekstrapolere, dvs. a benytte modellen utenfor gyldighetsområdet. Det illustreres til fulle av figur 7.23. Innenfor gyldighetsområdet er alle de tre modellene rimelig like. Så snart vi beveger oss utenfor modellenes gyldighetsområde, peker modellene i helt forskjellige
248
KAPITTEL 7. ANALYSE AV SAMMENHENGER
Figur 7.22: Polynomtilpasning av ulik orden
Figur 7.23: Det er “livsfarlig" å benytte en modell utenfor sitt gyldighetsområde.
retninger. Budskapet er at det er vanskelig og skummelt å lage prognoser. Vi vet altfor lite om de områdene av S-aksen hvor vi ikke har observasjoner. (Noen ganger, som i vårt eksempel, er det imidlertid mulig å resonnere seg fram til visse tilleggsopplysninger. En god modell bør f.eks. tilfredsstille følgende krav: Bremselengden avtar når farten avtar; bremselengden er aldri negativ; bremselengden må være null hvis farten er null.) Noen ganger kan det også være farlig å benytte en modell innenfor gyldighetsom rådet for deler av x-aksen der vi ikke har observasjoner. Det kan skyldes at sammen hengen mellom x og y har en helt annen form enn den sammenhengen som vi forsøker å beskrive. Forestill deg at vi med jevne tidsintervaller måler tilstanden til en størrelse som varierer etter et syklisk mønster, som vist til venstre i figur 7.24. Fordi vi er litt uheldige med valg av intervall mellom målingene, viser våre observasjoner en stigende trend istedenfor et syklisk mønster. Uansett hvilken regresjonsteknikk vi da benytter, vil vi få en regresjonslinje som er helt meningsløs, som vist til høyre i figur 7.24.
7.6
Tidsrekkeanalyse — prognoser
Hvordan blir været i morgen? Hvordan blir boligrenten neste kvartal? Hvor mye iskrem kan vi regne med å selge neste sommer? Se figur 7.25. Spåkoner, astrologer og statis tikere gjør så godt de kan for å besvare denne typen spørsmål. Dessverre er det vanske lig å spå - især om framtiden. Enhver prognose eller spådom må derfor tas med minst en klype salt. Statistisk tidsrekkeanalyse er en teknikk som brukes for å analysere hvordan en variabel Y utvikler seg med tiden. Hvis malingene foretas med jevne tidsintervaller, på tidspunktene 1.2......... n. kan vi skrive måleverdiene som Fj. Y-2.......... Yn. Var oppgave er å lage en modell (kurve) som passer best mulig til de observerte verdiene. Denne
7.6.
TIDSREKKEANALYSE - PROGNOSER
249
Figur 7.24: Vår regresjonsmodell kan være en dårlig modell i delområder av x-aksen der vi mangler observasjoner.
Figur 7.25: Tidsrekkeanalyse: Hvordan vil issalget utvikle seg i framtiden? modellen ønsker vi a bruke til å lage en prognose for de k neste tidspunktene, inn i den ukjente framtiden. Observasjoner
Prognose
,yn;yn+1,yn+27..
,Yn+k
Hele hensikten med tidsrekkeanalysen er altså å ekstrapolere, dvs. a benytte modellen utenfor dens gyldighetsområde. I forrige avsnitt ble det påpekt hvor farlig det er. Uansett hvor god modell vi lager, kan vi ikke håpe på å spa særlig langt inn i framtiden. Meteorologen klarer i beste fall å spå været noen få dager framover. Enhver tidsrekkemodell baserer seg pa den fundamentale antakelsen at framtiden følger de samme tilfeldige variasjonsmønstre som fortiden. Ingen slik modell vil være i stand til å forutsi store endringer av typen børskrakk, oljekrise, krig eller oppfinnelsen av ny teknologi. Tidsrekkemodeller er best egnet til å beskrive naturlige systemer, slik som variasjon i temperatur og nedbør fra måned til måned. Modellene har min dre sjanse for å lykkes nar de spar om fenomener som inkluderer menneskelig atferd, eksempelvis i økonomi. Merkelig nok er det likevel økonomene som er de ivrigste prognosemakerne - særlig i oppgangstider. Tidsrekkeanalysen forsoker å beskrive tidsrekkens variasjon ved fire faktorer. 1. Trend: De fleste tidsrekker indikerer at det er en slags langsiktig utvikling opp-
250
KAPITTEL 7. ANALYSE AV SAMMENHENGER Issalg Y{
Tilfeldige avvik U{
Figur 7.26: Tidsserien kan dekomponeres i trend, sesongvariasjon og tilfeldige avvik.
over eller nedover. Salget til Kremls AS i figur 7.25 viser at salget har økt i løpet av den aktuelle perioden på litt over åtte år.
2. Sesongvariasjon: En tidsrekke kan variere med typiske mønstre over døgnet, uken eller aret. Siden sesongene har en veldefinert lengde, er det mulig å skille ut disse effektene. Kremls-salget viser tydelig en årlig syklus, med topp i sommer månedene og bunn om vinteren. Hvis vi hadde studert salget mer detaljert, ville vi antakelig også sett at salget var høyere pa lørdager og søndager enn på ukedagene. 3. Autokorrelasjon: Tidsserien er selvkorrelert dersom det er en viss avhengighet mellom naboverdiene, utover den avhengigheten som skyldes trend og sesong. Tenk deg at Kremls selger til de store dagligvarekjedene. Hvis salget er unormalt høyt en måned, betyr det kanskje at butikkene blir sittende med store lager, slik at de vil kjøpe mindre neste periode. I så fall er autokorrelasjonen negativ.
4. Tilfeldig variasjon: Den variasjonen som ikke kan forklares ved noen av de andre faktorene, kalles tilfeldig.
Det finnes en rekke ulike modeller som brukes, men de to vanligste er Multiplikativ modell: Additiv modell:
Yt = Tt • St ■ Ut Yt = Tt + St + Ut
Den første modellen sier at verdien Yt er et produkt av trendverdien Tt, sesongfaktoren St og den tilfeldige faktoren Ut som muligens er autoregressiv. Denne modellen er først og fremst egnet nar sesongutslagene er proporsjonale med trendens verdi. Den additive modellen sier at verdien Yt er summen av de andre faktorene. Denne modellen passer nar sesongutslagene er uavhengige av trendens verdi. I vårt eksempel ser det ut til at den additive modellen passer best. Legg merke til at enhver tidsserie kan dekomponeres etter samme mønster som modellene sier. Figur 7.26 viser eksempelvis hvordan iskrerndataene kan deles opp i tre additive ledd som kan summeres, dvs. at Yt — Tt + St + Ut. I fortsettelsen skal vi se hvordan vi kan dekomponere tidsserien og på den måten finne estimater for de ulike faktorene i modellen. Når vi har funnet estimatene, er det lett å lage prognoser (selv om de er feil).
7.6.1
Trend
Vi estimerer trenden ved å benytte minste kvadraters metode. Uansett om trenden er lineær eller ikke-lineær, kan vi finne en egnet metode blant de som er foreslått
7.6.
TIDSREKKEANALYSE - PROGNOSER
251
tidligere i kapitlet. Hvis vi tror at trenden til iskremdataene er lineær, kan vi estimere trendlinjen i figur 7.26 pa helt vanlig måte (sjekk med linjal i figur 7.25): Tj — 8.15 + 0.12 i
Trenden vil være den samme uansett om vi benytter multiplikativ eller additiv modell. Ha imidlertid i bakhodet at vi ikke har noen garanti for at framtiden vil være like positiv som tidsrekken antyder. Det er heller ikke noen selvfølge at trendlinjen skal være lineær. Figur 7.27 viser tre mulige trendkurver. og synliggjør hvor ulike prognoser vi vil få ved forskjellige valg av trend. Blant disse tre alternativene synes den logaritmiske kurven (merket 3) å passe best, med høyest r2-verdi. Det finnes ingen fasit som kan fortelle oss hvordan trenden egentlig ser ut. Vi tvinges til a gjøre et subjektivt valg som får store konsekvenser for den prognosen vi skal avgi. Dette alene er god nok grunn til å være svært skeptisk til prognoser som presenteres av andre - uansett om de kaller seg eksperter - og ikke ha altfor stor tiltro til egne prognoser heller. Det er spesielt viktig å være forsiktige nar vi anslår økonomiske trender. I velfungerende finansielle markeder, slik som pa børsen, råvaremarkeder og valutamarkedene er det nemlig slik at markedets felles forventning om prisutviklingen automatisk forer til at prisen endres til det forventede nivået. Hvis alle tror at Norsk Hydros aksje skal stige med 10 kroner i morgen, ja da kjøper de aksjen med en gang, og prisen stiger med 10 kroner øyeblikkelig. Hva som skjer i morgen, vet derfor ikke meglerne noe om. Framtiden er usikker, og den beste spådommen er at prisen i morgen er lik prisen i dag. Dette gjelder uansett hvor mye prisen har steget eller sunket i de foregående tidsperiodene! Du må derfor ikke la deg lure til a kjøpe aksjer fordi kursoppgangen har vært spesielt gunstig den siste tiden. Du må heller ikke stole på eksperter som sier at renten vil stige eller synke. De vet ikke hva de snakker orn de bare gjetter! Hvis deres utsagn var riktige, ville renten endres momentant. (Kommentarene oven for gjelder ikke pa samme måte for fysiske varer. Vi kan ha god grunn til a forvente sesongvariasjoner eller andre endringer i prisen på jordbær, poteter og torsk.) Hvis man studerer en tidsutvikling der det er vanskelig å fa øye pa noen fornuftig trend, er det vanlig a lage en liksom-trend ved a "glatte” kurven av observasjoner. En mulighet er a ta et glidende gjennomsnitt, som betyr å ta gjennomsnittet av en viss mengde naboobservasjoner og plotte resultatet i en kurve. Slike glattingsteknikker kan se imponerende ut i et diagram, men er ikke altfor mye verdt til å spå framtiden (ikke de heller).
7.6.2
Sesongvariasjon
I den multiplikative modellen oppgis sesongfaktoren St som en prosentandel av trendverdien Tt. I den additive modellen er sesongleddet St et absolutt tall som skal adderes til trendverdien Tt. Var beste gjetning pa sesongfaktoren rna derfor avhenge av valgt modell. I hver tidsperiode kan vi observere hvor mye måleverdien Yt avviker i forhold til trenden Tt. Dette avviket kalles Zt og skyldes sesongvariasjonen og tilfeldigheter (oppkalt etter Zesong). Legg merke til at Zt selv er en tidsserie uten trend. For de to modellene kan vi estimere Zt slik:
Multiplikativ modell: Additiv modell:
Zt = Yt/Tt Zt = Yt — Tt
For å finne sesongfaktoren St må vi vite hvor mange observasjoner det er i hver sesong. I eksemplet har vi månedlige observasjoner slik at arssesongen består av 12
KAPITTEL 7. ANALYSE AV SAMMENHENGER
252
Figur 7.27: Ulike trendkurver gir svært ulike prognoser! (lineær, kvadratisk polynom og logaritmisk).
målinger. Sesongfaktoren for januar blir altså Si, for februar S? osv. Det er naturlig å velge gjennomsnittet av alle Z-observasjonene for den aktuelle perioden som vårt estimat for sesongvariasjonen. Måned Januar Februar
Observasjoner Z2, Zi4, Z26, Z38,...
Gjennomsnitt Si S2
Desember
Z12, ^24, ^36, Z48, . .
Si2
■Zl, -Z13, Z25, Z37. ...
Nedenfor er de estimerte sesongfaktorene for iskremsalget vist for de to modellene. Sesong
Multiplikativ modell
1 2 3 4 5 6 7 8 9 10 11 12
0,709724 0,804525 0,951607 1,04365 1,14326 1,30558 1,34442 1,18980 1,13190 0,950351 0,774924 0,650254
Additiv modell -4,06857 -3,08473 -0,99263 0,61864 2,25290 4,50749 5,48066 2,83048 1,96677 -0,78302 -3,33065 -5,39734
De multiplikative tallene må tolkes slik: I januar selges kun 71 % av den mengden som trenden indikerer. Om sommeren selges betydelig mer, med en topp i juli, da salget er hele 134 % av trendkurvens verdi. Den additive kurven må tolkes annerledes: Her sier resultatene at salget i januar er 4.1 tonn lavere enn trendkurven, mens salget i juli er 5.5 tonn høyere enn trendkurven. Figur 7.26 viser den samme additive sesongvariasjonen gjentatt år etter ar.
7.6.3
Tilfeldig variasjon
Den variasjonen som ikke forklares ved trend eller sesong, sies å være tilfeldig (kalles også hvit støy eller random walk). Avhengig av hvilken modell vi har valgt, kan vi
7.6.
TIDSREKKEANALYSE - PROGNOSER
253
Figur 7.28: To ulike prognosemodeller for issalget (multiplikativ lineær modell og log ar it misk additiv modell)
tallfeste de tilfeldige leddene Ut slik for de n tidsperiodene: Multiplikativ modell:
Additiv modell:
Ut = Zt/St. Ut =Zt- St
Legg merke til at også Ut er en tidsserie. Hvis modellen skal være brukbart god, bør tidsserien Ut vise et tilfeldig variasjonsmønster. Avvikene Ut i figur 7.26 ser ut til å være rimelig tilfeldige, riktignok med et rart mønster mot slutten.
7.6.4
Prognose
Na har vi kommet så langt at vi kan lage en spådom om framtiden. Spådommen baserer seg pa følgende meget viktige antakelser:
• Den valgte trenden fortsetter videre inn i framtiden. • Sesongfaktorene er de samme i framtiden.
• Vi ser bort fra den tilfeldige variasjonen. Vår prognose for framtidige tidspunkter blir ganske enkelt: Multiplikativ prognose:
Additiv prognose:
Yt = Tt • St Yt = Tt + St
Figur 7.28 viser hvordan våre prognoser vil se ut. Den ene prognosen benytter multi plikativ modell med lineær trend, mens den andre modellen er additiv med logaritmisk trend. Figuren illustrerer godt hvordan prognosene avhenger av hvilken trendlinje vi har valgt. Til venstre er det antatt at issalget skal fortsette å vokse som før. mens den logaritmiske modellen til høyre antar at salgsmengden flater ut. Hvilken prognose tror du mest pa? Prognosene i figur 7.28 utvikler seg ganske forskjellig hvis vi beveger oss langt inn i den ukjente framtiden. Men legg merke til at prognosene er relativt like det første aret. Hvis vi primært er interessert i de nærmeste månedene, kan prognosene gi oss nyttig informasjon. Prognosene kan være grunnlag for a utarbeide ferielister og å bestille fløte og sukker. Men prognosene er ikke egnet til å si om vi trenger en ny isfabrikk som skal gjøre tjeneste de neste ti arene.
254
KAPITTEL 7. ANALYSE AV SAMMENHENGER
Det finnes ulike teknikker for a lage prediksjonsintervaller for prognosen. Hvis tidsserien ikke inneholder sesongeffekter. men bare en trend med tilfeldige variasjon er. kan vi lage et prediksjonsintervall ved hjelp av formlene i regel 223: se også figur 7.12. Uansett hvilken teknikk vi velger, er det stor sjanse for at vi ender med grenser som er sa vide at det lite meningsfullt å lage dem. Unntaket er der tidsserien verken inneholder trend eller sesongvariasjoner, men bare består av tilfeldige endringer. Da har vi en tidsserie av den typen som studeres med statistiske kontrolldiagrammer pa side 299. Kommentar 228 (flere sesongtyper) Vi kan godt tenke oss at en tidsserie inne
holder flere typer sesongvariasjon, eksempelvis for bade måned og dag. For å få en god modell bør vi ha Uke mange sesongledd i vår modell som det finnes relevante sesongtyper. Vi kan ha en månedlig sesongfaktor Sm og en daglig sesongfaktor Sd som beskriver variasjonen fra dag til dag (sesonglengde sju dager). Den multiplikative modellen vil da se slik ut Y = T ■ Sm ■ Sd ■ U. Du estimerer de ulike faktorene på noenlunde samme måte som forklart i teksten. Kommentar 229 (autokorrelasjon) Statistikere snakker ofte om antokorrelasjon
eller seriekorrelasjon knyttet til en tidsserie av observasjoner. Det kan være inter essant å undersøke om det er en sammenheng mellom naboverdiene til tidsserien U\.U-2- • • • • Un, som er en tidsserie uten trend og sesongvariasjoner. For å undersøke om det er en slik sammenheng, lager vi par av naboene, slik: (Lf.Lfifi (Lfi-Lfl,... ,
... . (Uri_i.U,fl
For disse n — 1 parene kan vi beregne korrelasjonen omtrent som før, bare med en liten justering:
„
£”=2(O-i-^)(O-e) E''=1(O-i-)2
Denne formelen gir oss første ordens autokorrelasjon (også kalt lag 1 -korrelasjon). Ved å lage par av nabo-naboverdier (U, 2-Ufi kan vi tilsvarende finne en formel for andre ordens autokorrelasjon. Da forstår du sikkert også hva sjette eller åttende ordens autokorrelasjon er for noe. Kommentar 230 (ARMA-modeller) Vi kan raffinere vår tidsrekkemodell dersom
de tilfeldige leddene Ut er autokorrelerte. Isåfall kan vi lage modeller av typen Ut = a.A /3Ut-i Yet, der vi ser at nabotidspunkt har avvik som henger sammen med hveran dre. Den skisserte modellen kalles autoregressiv modell av første orden og benevnes A7?(l). Ved å ta med de p foregående U-ene i modellen, får vi en AR(p)-modell. I vårt eksempel fant jeg regresjonsligningen Ut = 0.48 + 0.47t4-i + 0.057U-2 ved hjelp av minste kvadraters metode. Når vi har en slik modell, far vi en liten korreksjon i vår prognose på de første p = 2 tidspunktene. Slike AR (p)-modeller kombineres ofte med såkalte M A(q)-modeller, oppkalt etter rnoving average for glidende gjennomsnitt. Til sammen gir dette oss modeller som. går under navnet ARMA(p. q). I praksis er det ikke så mye a oppnå ved denne typen raffinering når vi tar hensyn til den usikkerheten som er knyttet til vårt valg av trend. Disse metodene er primært av interesse hvis tidsserien Y ikke har noen trend eller sesongvariasjon. Kommentar 231 (multivariabel tidsrekkemodell) Vi kan analysere en tidsrekke ved hjelp av den multiple regresjonsmodellen. Det gir oss muligheten til å analysere om andre forklaringsvariabler enn tiden (æij også kan påvirke utviklingen av tidsrekken.
255
7.7. BR UK AV DATAMASKINEN
Vi kunne tenke oss at Kremls hver måned registrerte forklaringsvariablene antall salgsagenter (xfi) og antall kroner brukt på reklame (xff). For modellens skyld kunne vi også definere variabelen mi lik 1 hvis måneden er januar, og null ellers: variabelen 777.2 Hk 1 hvis måneden er februar, og null ellers. Tolv slike månedsindikatorer kan defineres. En multippel regresjonsmodell kunne da se slik ut: Yt = a + (ffiu + 02x2t + fizx3t +
+ • • • + /315rrzi2t + et
Ved hjelp av minste kvadraters metode er det en enkel sak for datamaskinen a beregne alle koeffisientene. I tillegg til at denne modellen kan gi oss en prognose, kan den også benyttes til å analysere om reklamekampanjene har hatt noen effekt, og til å spå hvor mye salget vil øke dersom vi ansetter flere salgsagenter. Ulempen med den foreslåtte modellen er at den inneholder så mange koeffisienter at det er stor fare for overtilpasning. Det er også viktig at de ulike forklaringsvariablene ikke er for sterkt innbyrdes korrelerte. Antakelig ble modellen bedre hvis vi bare hadde en m-indikator for de fire årstidene og ikke for alle de 12 månedene. Kommentar 232 (korrelasjon mellom tidsrekker) Det kan være svært interes
sant å undersøke korrelasjonen mellom to ulike tidsrekker, f.eks. mellom issalget Yt og utetemperaturen Xt. Et spredningsplott over de sammenhørende verdiene for vårt eksempel er vist i figur 7.1. Når du ser denne figuren igjen, forstår du sikkert at kor relasjonen mellom to tidsserier kan estimeres på helt vanlig måte ved hjelp av formel 7.2. Korrelasjonen er hk 0.72 i dette tilfellet. For en porteføljeforvalter er det meget nyttig å. kjenne korrelasjonen mellom pris endringene til ulike verdipapirer. Korrelasjonsanalyse kan avsløre om olje, gull, dollar, tyske mark og Orkla-aksjer har en tendens til å endre seg i samme eller motsatt retning. For hvert par (eksempelvis olje og gull) beregnes korrelasjonen og resultatene stilles opp i en korrelasjonsmatrise, som forklart pa side 229 og vist i figur 7.5. For å redusere risikoen fo?’ verditap bør forvalteren sørge for at porteføljen inneholder verdipapirer som er negativt korrelerte. I så fall vil tap på et verdipapir høyst sannsynlig oppveies av en gevinst på et annet. (Denne strategien er også - dessverre - en effektiv hindring for at forvalteren skal innkassere de store gevinstene: mange fristes derfor til å ta uaksptabelt stor risiko.) Samme tema er også, omtalt i kommentar 118 og illustrert i figur f.21.
7.7
Bruk av datamaskinen
Alle regneark og statistikkprogrammer med respekt for seg selv inneholder funksjon er for a foreta korrelasjonsanalyse. regresjonsanalyse og tidsrekkeanalyse. Manuelle beregninger er svært tidkrevende, så det finnes ingen gode grunner til ikke a benytte datamaskinen. Utgangspunktet vil alltid være at vi har en kolonne for responsvariabelen (Y-verdiene) og en kolonne for hver av forklaringsvariablene (x-ene).
7.7.1
Excel
• Verktøy ► Dataanalyse ► Korrelasjon foretar korrelasjonsanalyse av to eller flere variabler. Resultatet framstilles i en korrelasjonsmatrise, som vist i figur 7.5. • Sett inn ► Diagram ► Punktdiagram lager et spredningsplott (merk cellene som inneholder datasettet før du utfører denne kommandoen).
256
KAPITTEL 7. ANALYSE AV SAMMENHENGER
l
Type
1
Alternativer
Figur 7.29: Slik velger du trendkurve i Excel.
• Diagram ► Legg til trendlinje tegner regresjonslinjen (du må klikke på punktdiagrammet før denne kommandoen blir aktivert). Da åpnes vinduet i figur 7.29. og du får muligheten til å velge om du vil ha en lineær modell eller bruke en ikkelineær model av samme type som i figurene 7.17 eller 7.22. Ved å dobbeltklikke pa regresjonslinjen kan du angi at du vil se linjens r2-verdi og hvilken formel
som beskriver kurven. • Verktøy ► Dataanalyse ► Regresjon gir deg de tallstørrelsene du trenger for å lage konfidensintervaller og teste hypoteser om stigningstallet til regresjon
slinjen. Du utfører multippel regresjon med den samme kommandoen; bare sørg for å angi hele området der alle x-verdiene er lagret. Et eksempel på en utskrift er vist i figur 7.20 for bensinforbruksdataene fra eksempel 227. Du kan også velge a tegne opp residualene pa forskjellige måter, for å sjekke at modellens forutsetninger er tilfredsstilt. • Diagram ► Legg til trendlinje kan benyttes til å finne en trend for en tidsserie. Ved å dobbeltklikke pa trendkurven får du også anledning til a an gi at du ønsker en prognose framover i tid (uten sesongeffekter). For å ta hensyn til sesongeffekter må du foreta manuelle beregninger som skissert i avsnitt 7.6.2.
7.7.2
Minitab
• Stat ► Basic Statistics ► Correlation lager en korrelasjonsmatrise.
• Stat ► Regression ► Fitted Line Plot lager et spredningsdiagram med inntegnet lineær regresjonskurve. Du kan velge om du vil ha inntegnet konfidensgrenser og prediksjonsintervall som vist i figurene 7.11 og 7.12; velg under kommando Options. Du kan også angi om regresjonslinjen skal være lineær, eller et kvadratisk eller kubisk polynom. • Stat ► Regression ► Regression analyserer regresjonslinjen. Da far du en utskrift som vist i figur 7.10. Du kan samtidig undersøke residualene grafisk, dvs. å tegne opp diagrammene i figur 7.13: velg underkommando Graphs.
257
OPPSUMMERING
7.8.
• Stat ► Regression ► Regression gir deg den vektede regresjonslinjen hvis du velger underkommando Options. der du refererer til en kolonne som inneholder
vektene Wj. • Stat ► Regression ► Binary Logistic Regression foretar logistisk regresjon
(se kommentar 226). • Stat ► Regression ► Regression foretar multippel regresjon hvis du angir flere kolonnenavn i feltet predictors. Du kan benytte kommandoen Stat ► Re gression ► Best Subsets for å fa hjelp til å velge ut hvilken delmengde av forklaringsvariablene som gir den beste modellen (dette vil gi deg omtrent samme informasjon som i figur 7.21). • Stat ► Time Series ► Decomposition foretar tidsrekkeanalyse.
7.8
Oppsummering
Når du har lest dette kapitlet, bør du
• kunne beregne empirisk korrelasjon og fortolke svaret • kunne tegne et spredningsdiagram og finne den lineære regresjonslinjen
• kunne lage konfidensintervall for, og teste hypoteser om. koeffisientene o og 0 • kunne beregne konfidensintervall for regresjonslinjen og prediksjonsintervall • kunne kontrollere at regresjonsmodellens betingelser er oppfylt • forstå prinsippet bak de ikke-lineære regresjonsmetodene • kunne utføre multippel lineær regresjon med et dataprogram
• forstå hovedideene bak tidsrekkeanalyse • vite at det er farlig å ekstrapolere og vanskelig å lage gode prognoser
7.9
Oppgaver
De aller enkleste oppgavene kan du løse for hand, mens du vil være avhengig av datamaskinen for å løse de mer omfattende oppgavene. Sørg for å lære deg hvordan din datamaskin kan benyttes! Når du behersker datamaskinen, kan du løse de fleste oppgavene pa noen få minutter!
1. Beregn korrelasjonskoeffisienten r til de følgende fem observasjonsparene. Tegn også et spredningsplott, og finn minste kvadraters rette linje. Gjør beregningene for hand. X
y
4 3
2 2
3 2
5 4
2
1
2. Tegn et spredningsplott med fem tilfeldig valgte (X,-. Y^-punkter. Tegn en vann rett strek som svarer til F, og en loddrett strek som svarer til X. Legg merke til at absoluttverdien av (Xi — X)(Yt — Y) er lik arealet av et avviksrektangel. Tegn dette. Før hvert observasjonspar finnes det et slikt rektangel. Rektangelet kan sies
258
KAPITTEL 7. ANALYSE AV SAMMENHENGER a være "positivt" hvis tallverdien er et positivt tall. I motsatt fall sies rektangelet a være negativt. Hva betyr dette for fortolkningen av den empiriske kovariansen Sxy- I hvilke delområder av (X. Fj-planet vil observasjonspar (X^Ej) bidra positivt til Sxy, og i hvilke delområder vil de bidra negativt? Hvordan stemmer dine svar overens med eksemplene i figur 7.3?
3. En industribedrift produserer skruer. Med jevne tidsmellomrom trekkes det ut noen tilfeldige skruer der det måles seks forskjellige størrelser som kalles X} til Xq. I en prøveperiode ble det også gitt en totalvurdering av kvaliteten Y på en bedriftsintern skala. En korrelasjonsanalyse gav korrelasjonsmatrisen nedenfor. Er det nødvendig å male både X4 og X5? Kan vi forutsi Xg når vi kjenner de andre X-ene? Bedriften ønsker a rasjonalisere sin kontroll og bare måle tre X-variabler pa stikkprøveskruene i framtiden. Det er lurt å måle variabler som sier noe om kvaliteten, men målevariablene bør ikke være for sterkt korrelert innbyrdes. Hvilke tre variabler bør bedriften måle? Hvis bedriften bare kunne foreta en X-maling på hver skrue, hvilken variabel burde måles?
X1
X3
X2
Gjengelengde X1
1,000
Hal slengde X2
0,648
Hodeiengde X3
0,874 0,928
X4
X5
Y
1,000
1,000
Halsdiameter X4
-0,133 -0,077 -0,099
1,000
Hodediameter X5
-0,102 -0,088 -0,095
0,984
1,000
Gjengeavstand X6
-0,124
0,028
0,018
Kvalitet Y
X6
0,005 -0,038
1,000
0,225 0,495 0,427 0,804 0,782 0,232
1,000
Tilleggsoppgave: Kan du tenke deg noen fysiske forklaringer som gjør at de ulike variablene er relatert til hverandre (ko-relatert = korrelert) slik som korrelasjonsmatrisen sier?
4. Eksempel 212 viser dataene for motorstørrelse (x) og bensinforbruk (?/) og den beregnede korrelasjonen r. Figur 7.8 viser observasjonene og regresjonskurven. Forestill deg at disse resultatene førte til store nyhetsoppslag med overskiften “Store motorer bruker mest bensin". En stund etterpå oppdager forskeren at en av måleverdiene var feil. Bilen med motor x = 145 hk hadde faktisk bare bensinforbruk y — 0.52 liter/mil. Regn ut korrelasjonen, og finn en ny regresjonskurve for det korrigerte datasettet. Hvor mye betyr denne ene feilregistreringen? Hvis datasettet hadde bestått av 500 observasjonspar, hvordan tror du da at en feilregistrering ville påvirke regresjonskurven? Tror du at mediene ofte lager ny hetsoppslag som det ikke er dekning for?
5. Fra hovedkontoret i Brussel et det ytret ønske om at motorstørrelsene i eksem pel 212 blir beskrevet ved kW istedenfor hestekrefter (1 hk = 730 W). Det gir følgende tabell for de samme observasjonene: Motorstørrelse (kW) x Bensinforbruk (liter/mil) y
54.8 0.48
106.0 1.09
40.2 0.53
64.3 0.97
89.1 0.78
Beregn korrelasjonen pa nytt for dette datasettet. Sammenlign med eksempel 212, og kommenter resultatet. Finn den lineære regresjonslinjen. Sammenlign med koeffisientene til linjen i figur 7.8, og kommenter resultatet.
7.9.
OPPGAVER
259
6. Sammenhengen mellom issalget Y og celciustemperaturen X ble illustrert i figur 7.2. Korrelasjonen er r = 0.72, og regresjonslinjen er y = 9.5 + 0.5x. En britisk aksjonær ønsker a fa temperaturene omregnet til fahrenheit. La oss definere Z som fahrenheittemperaturen slik: Z = 32 4- X • 9/5. Hvilken korrelasjon er det mellom Y og Z? Finn koeffisientene til regresjonlinjen y = a + Øz. Kommenter hvilken effekt slike skalaendringer har.
7. Er det en sammenheng mellom kroppsvekt og kroppshøyde for samme person? Den følgende tabellen viser seks observasjonspar. La x være kroppshøyde og Y være vekten. Vi antar at Y = ct + /3x + e, der feilleddet e har varians a2. Estimer regresjonslinjens koeffisienter og standardavviket. Lag konfidensintervall for ko effisientene. Er det sikkert at vekten øker når kroppshøyden oker? Hvis du møter en person som er 175 cm høy, hvilken vekt vil du gjette at vedkommende har? Finn et prediksjonsintervall for vekten til denne personen. Finn et prediksjons intervall til vekten til den nyinnflyttede basketballspilleren med kroppshøyde 2.20 m. Hvilken vekt vil du tippe at en dverg pa 1 meter har? Tror du på dine ekstrapolasjoner i de to siste spørsmålene?
Kroppshøyde (x cm) Vekt (V kg)
156 65
183 78
169 75
191 94
180 84
163 60
Tilleggsoppgave: Tegn opp et spredningsplott for høyde og vekt, og tegn inn bade regresjonslinjen og en vannrett linje for gjennomsnittet Y. Tegn opp alle avvikskvadratene som svarer til kvadratsummene SSt, SSr og SSe etter møn ster av figur 7.9. Beregn de tre kvadratsummene. og finn r2. 8. Er det en sammenheng mellom kroppshøyden til en far og en sønn? For å un dersøke denne muligheten ble ti tilfeldige voksne sønner spurt om sin egen og sin fars kroppshøyde. Resultatene er gitt i tabellen nedenfor. La x være fars høyde og Y være barnets høyde. Vi antar også at Y = a + Øx + e, der feilled det e har varians T2. Estimer regresjonslinjens koeffisienter og standardawiket. Lag konfidensintervall for koeffisientene. Hvis du selv er 190 cm høy, så finn et prediksjonsintervall for kroppshøyden (i voksen alder) til din nyfødte sønn. Fars høyde (a? cm) Barns høyde (V cm)
175 177
182 181
169 173
194 188
183 184
188 185
177 177
174 180
180 179
184 182
Kommentar: Regresjonsanalysen har faktisk fatt navnet sitt fra denne typen forsøk, som ble beskrevet av engelskmannen Francis Galton i 1885. Han ob serverte at barn av spesielt høye eller spesielt lave foreldre har en tendens til å få kroppshøyde nærmere gjennomsnittet enn foreldrene sine. Han beskrev dette som regression to the mean. som kan oversettes med å gå tilbake mot gjennom snittet. (Denne effekten er gjeldende siden stigningstallet 0 < 1.) 9. Er det en sammenheng mellom gjødselmengde og avlingsmengden? En bonde har et jorde på 20 mal. Han delte dette opp i 20 like store delområder, og tilsatte ulike mengder gjødsel x. Nar innhøstingen ble foretatt, registrerte han avlingsmengden Y. Resultatene er vist nedenfor. Tegn et spredningsplott over dataene. Vi antar pa vanlig mate at Y = a + øx + e. Finn regresjonslinjen y = a+Øx. Øker avlingen nar gjødselmengden øker, dvs. er ø positiv? Neste sommer vil han tilsette 180 tonn gjødsel spredt tilfeldig utover hele åkeren. Hvor stor avling kan han forvente ifølge modellen?
KAPITTEL 7. ANALYSE AV SAMMENHENGER
260
Tabell: Avling og gjødselmengde (beggi i tonn per mål) Gjødselmengde x Avling Y
8 27
7 30
13 26
9 32
6 26
5 11 18 36
9 27
14 36
13 31
6 34
10 29
12 21
13 25
12 35
10 26
7 19
8 22
12 37
10 25
10. Bonden i forrige oppgave registrerte mer enn bare avlingsmengde og gjødsel mengde. Resultatene er vist nedenfor, oppgitt per mål dyrket mark. Foreta mul tippel regresjonsanalyse, og estimer parameterne i modellen Y = a + + /32æ2 + /?3^3 + e. (Bruk datamaskinen.) Finn også konfidensintervaller for alle parameterne. Er det sikkert at /3-ene er forskjellige fra null? Hvilken av de tre forklaringsvariablene er viktigst i modellen? Hvilken avling kan bonden forvente neste år hvis han over hele sin 20 mål store åker sprer 180 tonn gjødsel og 200 kilo gift og foretar kunstig vanning over hele åkeren?
Tabell: Avling og tilsetningsstoffer (gjødsel i tonn, gift i kg, vanning ja=1, nei=0) Gjødselmengde x1 Giftmengde x2 Kunstig vanning x3 Avling Y (tonn)
8 12 1 27
7 13 0 30
13 11 0 26
9 14 0 32
6 11 0 26
5 8 0 18
11 16 1 36
9 12 0 27
14 16 1 36
13 13 0 31
6 15 1 34
10 12 1 29
12 10 0 21
13 11 0 25
12 15 1 35
10 12 0 26
7 8 0 19
8 10 0 22
12 16 1 37
10 11 0 25
11. Finn en ikke-lineær kurve med formen y — a + | for bruktbilprisene i eksempel 225. Tegn opp den kurven du finner, og sammenlign med alternativene som er vist i figur 7.17. Hvilken modell er best? 12. Den følgende tabellen viser andelen av ekteskapene som hvert år oppløses ved skilsmisse. Anta at det er helt tilfeldig hvilke ekteskap som ender med skilsmisse. I så fall var sannsynligheten for å bli skilt i 1995 (forutsatt at du var gift) lik 0.0117. Lag et tidsserieplott for skilsmisseraten. Finn den lineære trendkurven, og beregn r2-verdien. Finn konfidensintervallene til de ukjente koeffisientene a og 0. Er det sikkert at skilsmisseraten har økt, dvs. at 0 > 0? Hvilken skilsmisserate vil du spå i år 2020? Beregn prediksjonsintervallet for dette årstallet. Forsøk også å tilpasse et andregrads polynom til dataene. Hvilken prognose får du da? Tabell: Skilsmisser (antall oppløste ekteskap per 1000 bestående) (Kilde: SSB) Ar 1980 1990 1970 1975 1985 1965 3,4 6,5 7,9 9,5 Skilsmisser 2,9 4,9
1995
11,7
Tilleggsspørsmål: Hvis du var nygift i 1995, og skilsmissesannsynligheten 0.0117 også gjaldt i framtiden, hvor stor sannsynlighet er det for at ekteskapet ditt varer i 50 år (se bort fra muligheten for dødsfall)?
13. Tallene nedenfor viser antall drepte (X) og antall hardt skadde (K) i trafikken i Norge. Beregn korrelasjonen mellom de to tidsseriene, og finn den lineære regre sjonslinjen til både antall dødsfall og antall hardt skadde. Hvor mange drepte vil du vente i år 2020? Tror du på denne spådommen? Klarer du å anslå omtrent hvor mange hardt skadde det vil være i år 2020 uten å finne regresjonslinjen for y?
Tabell: Trafikkulykker i Norge (Kilde: SSB) Ar Antall dødsfall Antall hardt skadde
1984 407 265
1985 402 229
1986 452 287
1987 398 234
1988 378 220
1989 381 230
1990 332 203
1991 323 190
1992 325 177
1993 281 175
1994 283 178
1995 305 182
1996 255 183
7.9.
OPPGAVER
261
14. Tabellen nedenfor viser hvor stor andel menn (X) og kvinner (F) over 16 ar som røyker tobakk. Tegn begge tidsseriene i et felles plott (merk X-ene med kryss og F-ene med sirkler). Hvilken korrelasjon vil du tippe at det er mellom tidsseriene? Beregn korrelasjonen, og kontroller om du tippet riktig. Finn en lineær regresjonslinje for hver av de to seriene. Hvor stor andel av mennene vil du vente røyker i ar 2020? Hva blir tilsvarende tall for kvinnene? Tror du på disse prognosene? Hvor stor andel av mennene røykte i år 1900 ifølge modellen? Virker det troverdig?
Tabell: Andel røykere over Ar 1973 74 75 76 Menn 52 51 50 47 Kvinner 32 32 32 32
16 år i Norge 77 78 79 46 44 43 31 31 31
(Kilde: SSB) 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 42 41 41 41 42 41 40 40 39 38 36 36 37 37 35 34 34 31 32 32 33 33 32 32 32 34 34 33 33 34 33 32 32 32
15. Den følgende tabellen viser spedbarnsdødeligheten (X) som årlig antall døde un der ett ar blant 1000 levendefødte. Tabellen viser også gjennomsnittlig kroppshøyde (F) til norske vernepliktige. Tegn begge tidsseriene i et felles plott (merk X-ene med kryss og F-ene med sirkler). Hvilken korrelasjon vil du tippe at det er mellom tidsseriene? (Se bort fra de to første kolonnene, der det mangler observasjoner.) Beregn korrelasjonen, og kontroller om du tippet riktig. Finn en passende ikke-lineær regresjonslinje for hver av de to seriene. Hvilken barnedøde lighet og kroppshøyde vil du spa i år 2020?
Tabell: Spedbarnsdødelighet og kroppshøyde i Norge (Kilde: SSB) Ar Dødelighet (promille) Kroppshøyde (m)
1890 97 *
1900 80 *
1910 76 171,0
1920 52 171,4
1930 45 172,8
1940 37 173,8
1950 23 176,2
1960 17 177,1
1970 12 178,7
1980 8 179,4
1990 5 179,7
16. Da sykdommen aids dukket opp på midten av 1980-tallet, ble det utarbeidet svært dystre prognoser for hvor mange som ville få sykdommen. Tabellen neden for viser antall nye tilfeller av aids over en tidsperiode. Forestill deg at du befinner deg i slutten av 1987 og bare kjenner de fire første observasjonene i tabellen ne denfor. Legg merke til at antall nye tilfeller nærmest doblet seg fra ar til ar. Det var derfor fristende å benytte en eksponentiell modell av typen y = ae3x for å beskrive utviklingen. Estimér koeffisientene S og 3 basert på bare de fire første registreringene, og lag en prognose med utgangspunkt 1987 - for hvor mange nye sykdomstilfeller det ville være i år 2000. Er det rart at mediene lagde store overskrifter dengang? Tabellen nedenfor viser imidlertid at utviklingen ble mindre dramatisk. Hvilken prognose vil du gi for antall nye tilfeller i ar 2010, basert på alle registreringene i tabellen?
Tabell: Utviklingen av aids i Norge (Kilde: SSB) Ar 1984 1985 1986 1987 1988 1989 Nye tilfeller 4 11 17 30 35 45 Dødsfall 0 12 9 22 23 27
1990 53 38
1991 63 40
1992 52 56
1993 62 72
1994 73 54
1995 66 56
1996 49 42
17. En sportsbutikk har registrert salget av sykler og ski for hvert kvartal de siste fire årene. Kvartalene er nummerert 1-16. der 1 betyr vinter første året. Finn en lineær trendkurve for sykkelsalget. Lag en tidsrekkemodell med additiv sesongeffekt for sykkelsalget (det er fire sesonger/kvartaler hvert år). Hvilket salg vil du spa førstkommende var (om to kvartaler)? Lag en tilsvarende additiv modell for skisalget. Kombiner disse modellene slik at du kan spa det kombinerte salget
KAPITTEL 7. ANALYSE AV SAMMENHENGER
262
av sykler og ski. Hvilken sesongvariasjon har det totale salget? (En tegning kan være til god hjelp). Hvilken korrelasjon er det mellom sykkelsalget og skisalget?
Tabell: Sykkel- og skisalget siste fire ar Kvartal nummer Sykler Ski (antall par)
1 4 76
2 48 37
3 77 13
4 8 87
5 6 94
6 77 28
7 97 13
8 11 104
9 14 106
10 89 36
11 107 23
12 27 108
13 18 122
14 121 24
15 136 14
16 30 125
Kapittel 8
Sammenligning av grupper 8.1 8.2 8.3 8.4 8.5
Innledning T-tester for to grupper Variansanalyse Ikke-parametriske tester Analyse av krysstabeller
Side Side Side Side Side
263 267 273 282 288
Svært ofte ønsker vi a sammeligne ulike “grupper" for å se om det er en forskjell mellom dem. Vi undersøker ulike medikamenter og ser hvilke behandlinger som er mest effektive. Vi sammenligner ulike nasjonaliteter og ser om det er forskjeller i edb-kunnskapsnivå. Vi sammenligner effekten av ulike markedsføringskampanjer. Det datasettet vi samler inn, vil nesten alltid indikere at det er en forskjell. Nå skal vi lære å stille spørsmålet: Er disse forskjellene signifikante, eller skyldes forskjellene bare tilfeldigheter? Vi skal altså foreta en test av de to hypotesene Ho : gruppene er like
: noen av gruppene er ulike
I tillegg til å teste disse hypotesene er vi interessert i å anslå hvor stor den eventuelle forskjellen er.
8.1
Innledning
Utgangspunktet i dette kapitlet er at vi ønsker a sammenligne data som er samlet inn for ulike grupper. La oss se pa to eksempler, slik at du forstår hva denne typen sammenligninger dreier seg om: Eksempel 233 En bedrift ønsker å sammenligne egenskapene til to ulike herdemidler
som blir brukt for å redusere tørketiden til betong. Bedriften blander ut ti betongprøver tilsatt herdemiddel A og ti prøver med herdemiddel B. Gjennomsnittlig herdetid for de to midlene registreres lik henholdsvis, f.5 og 5.7 timer. Betyr dette at herdemiddel A gir kortere tørketider - eller skyldes forskjellen tilfeldigheter i prøveblandingene (eller andre årsaker)? Eksempel 234 Et bilblad ønsker a teste slitestyrken til fire typer bildekk. Totalt åtte
biler utstyres med dekk fra de fire produsentene, som kalles A D. Etter en måneds testkjøring måles dekkenes mønsterdybde, og man fastslår slitasjen på hvert dekk. Dekk ene fra produsent C er gjennomsnittlig mindre slitt enn de andre dekkene. Er dette tilfeldig, eller betyr det at disse dekkene har størst slitestyrke? 263
264
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
Allerede nar vi planlegger slike analyser, må vi tenke gjennom en rekke viktige forhold. Vi skal snart se på noen spørsmål som det er viktig å svare pa. Til slutt i innledningen skal vi se litt pa den statistiske sarnmeriligningsfilosofien og gi en oversikt over de ulike metodene som omtales i kapitlet.
8.1.1
Hvor mange grupper og hvor mange observasjoner?
Det er ganske vanlig at vi foretar en sammenligning mellom bare to grupper. Vi kan sammenligne et nytt og et gammelt produkt, eller vi kan sammenligne kvinner og menn. En rekke statistiske metoder er derfor utviklet spesielt for å sammenligne to grupper. Den vanligste metoden kalles to-utvalgs T-test. Hvis vi ønsker å sammenligne flere grupper, finnes det også metoder for a foreta slike sammenligninger. Den vanligste metoden kalles variansanalyse. Vi bør ikke ha for mange grupper i forhold til det totale antallet observasjoner. Da får vi stor risiko for å trekke feilaktige konklusjoner. Akkurat som i forrige kapittel vil våre analyser være avhengige av standardfeilen til de estimatorene som inngår. Standardfeilen er som kjent omvendt proporsjonal med Vn. Det betyr at vi ved å firedoble antall observasjoner får doblet kvaliteten på den hypotesetesten vi skal utføre. Oftest antar vi at variansen er den samme i alle gruppene. Da er det fornuftig å velge like mange observasjoner i hver gruppe. Hvis variansene er svært ulike, bør vi velge flest observasjoner i gruppen(e) med antatt størst varians. Forholdet mellom antall observasjoner bør om mulig settes lik forholdet mellom gruppenes antatte varianser.
8.1.2
Randomisering
Det er viktig at våre forsøksenheter velges ut på en slik måte at observasjonene er representative for den aktuelle gruppen, og uavhengige av hverandre. I praksis er vi sikret at begge disse kravene tilfredsstilles hvis vi foretar tilfeldige utvalg. Hva betyr det å foreta tilfeldige utvalg? Jo - vi skal velge ut våre forsøksenheter mest mulig tilfeldig, og fordele dem helt tilfeldig i de ulike gruppene (om mulig). Dette kalles randomisering (eller tilfeldiggjøring) og er egentlig ganske enkelt. La oss f.eks. se hvordan vi kan lage to randomiserte grupper med henholdsvis ni og n? enheter. Først velger vi ut + n% tilfeldige enheter fra populasjonen. Deretter fordeler vi enhetene tilfeldig i de to gruppene (trekk tilfeldig ut «i som skal høre til gruppe 1, og la resten høre til gruppe 2). Eksempel 235 En lege ønsker å undersøke effekten av et nytt blodtrykksenkende medikament. Dette gjøres ved å sammenligne effekten med en placebo-narrepille som ikke har noen effekt. Blant populasjonen av dem som lider av for høyt blodtrykk velger han ut 20 tilfeldige personer som skal delta i studien. Deretter trekker legen tilfeldig ut hvilke 10 pasienter som skal tildeles medisin og hvilke 10 som skal få placebopille. Da er forsøket randomisert. Pasientene skal bruke den tildelte medisin i en måned. Etterpå registrerer legen den oppnådde reduksjonen i pasientenes systoliske blodtrykk. Kommentar: I eksperimenter der psykologiske faktorer kan spille inn, er det viktig at forsøket er blindt. Det betyr at pasientene ikke måfå vite om de mottar reell behan dling eller narrepille. Hvis heller ikke den behandlende legen vet hvilket medikament pasienten mottar, sies forsøket a være dobbelt blindt.
8.1.3
Paring og blokkdeling
Den variabelen som vi er interessert i (herdetid, dekkslitasje, blodtrykk) vil ofte avhenge av flere faktorer enn den som angår gruppeinndelingen (herdemiddel, dekk-
8.1.
INNLEDNING
265
type, pilletype). Herdetiden kan være avhengig av fuktigheten og sandkvaliteten. Dekkslitasjen kan avhenge av kjørelengde, biltype og sjåførens kjørestil. Det er viktig at vi unngår systematiske skjevheter som kan skyldes effekten av slike faktorer. Hvis alle betongprøvene med herdemiddel A er blandet av Per (som er flinkest til å blande hurtigherdende betong), er det ikke så rart at middel A kommer best ut av testen. Hvis alle bildekkene av type C kjøres av de mest forsiktige sjåførene, som dessuten har kjørt de korteste distansene, er det vel ikke rart at disse dekkene er minst slitt. Vi må sørge for at forsøksbetingelsene er rettferdige mot de ulike gruppene. Da kan vi anta at forskjellene mellom gruppene skyldes gruppetilhørigheten og ikke andre årsaker. Hvis vi foretar helt tilfeldige utvalg, kan vi være rimelig sikre på at forsøks betingelsene blir rettferdige. I en del situasjoner er det imidlertid lett å sikre seg enda større grad av rettferdighet i forsøksbetingelsene. Da vil vi være sikret pålitelige analyseresultater. Hvis vi kun har to grupper, kan vi oppnå maksimal rettferdighet ved paring: Det betyr at vi velger observasjonene som par (med en observasjon for hver gruppe) der alle andre andre faktorer er likest mulig. Med flere enn to grupper kalles den samme tankegangen blokking eller blokkdeling. Tidligere har vi vært innom noen av de samme ideene under overskriften stratifisering (se side 190).
Diskusjonen ovenfor er litt abstrakt, men de følgende eksemplene vil forhåpentlig hjelpe deg til a forstå hva tilfeldige utvalg, paring og blokking kan være for noe.
Eksempel 236 Hvordan skal vi utføre herdemidddeltesten som er beskrevet i eksempel 233? En dårlig løsning er at Per blander ti prøver som tilsettes herdemiddel A og Pål blander ti prøver med herdemiddel B. Forskjell i måten å blande på vil da kunne påvirke herdetidene. Randomisering betyr f.eks. at Per og Pål samarbeider om å blande 20 prøver og trekker lodd om hvilke ti prøver som skal tilsettes A og hvilke ti som skal tilsettes B. Paring vil si at Per og Pål lager ti betongblandmger av dobbel størrelse. Hver blanding deles i to like store deler, en som tilsettes A og en som tilsettes B (etter loddtrekning) . Da får vi ti par av herdetider som hører sammen. Differansen mellom disse herdetidene må skyldes herdemiddelet eller tilfeldigheter, for alle andre forhold er helt like. Eksempel 237 Hvordan skal vi teste slitestyrken til bildekkene? De åtte testbilene trenger til sammen 32 dekk. I utgangspunktet virker det fornuftig å ha åtte testdekk av hver type. En mulighet er å utstyre to biler med dekk av type A, to biler med type B. osv. En slik forsøksplan åpner for mange spekulasjoner i ettertid, siden forskjellene i slitasje kan skyldes mye annet enn dekktypene. En atskillig bedre mulighet er a fordele dekkene helt tilfeldig på de 32 mulige stedene. Enda, bedre er det å benytte blokking. Det vil si å plassere ett dekk av hver type på alle bilene (dette illustreres i figur 8.13). Hver bil er altså en blokk. Da er vi sikre på at alle dekktypene har kjørt, like langt, akselerert, like mye, kjørt de samme biltypene osv. Eventuelle forskjeller mellom dekkene må da
skyldes dekktypene - eller tilfeldigheter. Paring (eller blokking) fører ikke bare til mer rettferdighet: Paring fører dessuten til at variansen til de involverte estimatorene blir minst mulig. Det betyr at konfi densintervallet blir smalere og hypotesetestens styrke blir høyere. Det er altså lettere å oppdage signifikante forskjeller mellom gruppene dersom vi benytter paring! Paring eller blokking bor benyttes så ofte som mulig. Men det finnes situasjoner der det er umulig eller for kostbart. Data som stammer fra mer tilfeldige observasjoner (og ikke fra kontrollerte forsøk), vil sjelden være paret eller blokket. Det kan vi ikke endre på, og må analysere dataene slik de foreligger.
266
Nasjon USA Kina Norge
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
Kulestotlengde (meter) 18.6. 19.3. 17.8, 20.2.19.8 20.3, 19.5, 21.4. 18.7. 21.0 17.8, 18.3. 19.9. 18.5. 20.1
Snitt 19.1 20.2 18.9
Doping? (J/N) N, N, J. J, N J, N, J. N, J N, .1. N, N, N
Ant. J. 2
3 1
Ant. N 3 2 4
Tabell 8.1: Ulike analysemetoder for måltall (t.v.) og antall (t.h.)
8.1.4
Klyngeutvalg
I noen situasjoner er det uhensiktsmessig a gjennomføre et rent tilfeldig utvalg eller et blokkdelt utvalg. Forestill deg en revisor som skal ta stikkprøver av regnskapsbilag fra en hamburgerkjede med 40 filialer spredt utover landet. Hvis han skal kontrollere 100 bilag og trekker helt tilfeldige bilagsnummer. kan han risikere å måtte reise rundt på omtrent alle kontorene. Det er altfor tidkrevende og kostbart! Isteden velger han ut fem filialer tilfeldig og trekker 20 tilfeldige bilag for hver filial. Dette kalles klyngeutvalg, og foregår i dette eksemplet i to trinn. I første omgang velges et utvalg av såkalte primære utvalgsenheter. Fra hver av de utvalgte primærenhetene velges et antall sekundære utvalgsenheter. Det er de sistnevnte som inngår i den statistiske analysen. Analyser basert på klyngeutvalg er ikke like pålitelige som analyser basert pa et helt tilfeldig utvalg av samme størrelse. Siden klyngeutvalget kan være billigere a gjennomføre, kan det likevel hende at vi med de samme ressursene/tidsbruk kan oppnå brukbare resultater. Når først vår revisor er på plass på de fem stedene, kan han enkelt kontrollere 100 bilag på hvert sted - uten at kostnadene øker noe særlig. Det vil selvsagt bedre analysens kvalitet.
8.1.5
Hva slags data har vi?
I samfunnsfagene er det vanlig å benytte kategoriske kjennetegn. Da beskrives hver observasjon langs en verbal skala av typen “dårlig/middels/bra” eller “ja/nei”. Resul tatene av slike undersøkelser oppsummeres vanligvis i en krysstabell hvor hver celle inneholder antall observasjoner av en bestemt kategori (se tabell 8.1, høyre del). Sam menligning av grupper basert på krysstabeller, kalles kjikvadrattester (se side 288). Slike analyser er mindre utsagnskraftige enn analyser basert på måltall. Du bør derfor alltid vurdere om det er mulig a benytte kvantitative maltall i relasjon til ditt problem. Økonomer og ingeniører er vanligvis så heldige at det er er mulig å foreta kvantita tive målinger. Det betyr at hver observasjon vil være et måltall, knyttet til en diskret eller kontinuerlig maleskala. I de fleste sammenhenger vil vi betrakte tallene som ob servasjoner av en kontinuerlig stokastisk variabel. Resultatene kan f.eks. oppsummeres ved gruppenes gjennomsnittsverdi (se tabell 8.1, venstre del). Når vi analyserer mål talls variabler, må vi gjøre visse antagelser om deres sannsynlighetsfordeling. De fleste analyseteknikker baserer seg på at variablene er normalfordelte. Ofte antar vi dessuten at fordelingene har samme standardavvik. Normalitetsbetingelsen er viktigst hvis vi har under 30 observasjoner i noen av gruppene. Mange av metodene som forutsetter at variablene er normalfordelte, fungerer rimelig bra selv om fordelingen er litt “unormal . (Pa side 156 kan du se hvordan du kan sjekke om et datasett er t ilnærmet normalfordelt.) Hvis variablene ikke er normalfordelte, finnes det andre analyseteknikker. En type slike teknikker gar under navnet ikke-parametriske metoder. De har fått sitt navn for di de ikke baserer seg pa noen bestemt fordeling der det inngår parametere av typen p. rr. p. X. Isteden er slike metoder basert pa enkle antakelser, f.eks. at fordelingene er symmetriske. De vanligste ikke-parametriske metodene er oppkalt etter kjente statis tikere som Wilcoxon, Mann, Whitney, Kruskal og Wallis. Disse metodene utnytter
8.2. T-TEST FOR TO GRUPPER Metode
Uparet T-test Paret T-test Enveis variansanalyse Toveis variansanalyse 5 lann-Whitney- Wilcoxon Paret Wilcoxon Fortegnstest Kruskal-Wallis Friedman
Antall grupper 2 2 > 2 > 2 2 2 2
> 2 > 2
267
Fordeling Normal (lik varians) Normal Normal, lik varians Normal, lik varians Like fordelinger Symmetrisk Ingen antakelser Like fordelinger Like fordelinger
Forsøks opplegg Randomisert Paret Randomisert Blokket Randomisert Paret Paret Randomisert Blokket
Side 267 271 275 279 282 285 286 287 287
Tabell 8.2: Metoder for sammenligning av grupper, basert på måltall Gruppe Medisin: Placebo:
Målinger (redusert trykk) 8, 4, 6, -3. 10, 5, -1, 2, 9, 7 2, 3, -2, 0, 1. 1, -1, 3. 0
Antall n.i = 10
712 = 9
Gjennomsnitt X = 4.7 Y = 0.8
Varians = 4.32 S'l = 1.72
Tabell 8.3: Forsøksdata for test av blodtrykksmedisin
informasjonen i datamaterialet noe dårligere, fordi de typisk bare bryr seg om rekke følgen av tallene (og ikke tallenes størrelse i seg selv). Det betyr at slike metoder vil ha litt lavere teststyrke enn metoder som baserer seg pa tallstørrelsene direkte. Fordelen med de ikke-parametriske metodene er at de er mindre følsomme for ekstreme obser vasjoner som kan skyldes male- eller inntastingsfeil. Statistikerne sier derfor at disse metodene er mer robuste. De vanligste metodene for sammenligning av grupper basert på måltall er presen tert i tabell 8.2. Metodene er listet i prioritert rekkefølge etter hvor vanlige de er i bruk blant ingeniører og økonomer.
8.2
T-test for to grupper
Den absolutt vanligste måten a sammenligne kvantitative data for to grupper på. er å utføre en T-test. Som navnet antyder, er dette en metode som er nær beslektet med T-testen som vi lærte om i kapittel 6. Denne testen finnes i to varianter, avhengig av om datasettet er paret eller uparet.
8.2.1
Litt sammenligningsfilosofi
La oss returnere til eksempel 235 og se hvordan legen utførte sin test av den nye blodtrykksmedisinen. Legen valgte ut ti tilfeldige pasienter som fikk blodtrykksmedisin og ti som fikk placebo-piller. Dessverre døde en av pasientene før studien var fullført (hun ble overkjørt på en regnværsdag). Dette var tilfeldigvis en av personene i placebogruppen. Legen må derfor basere sin analyse pa de 19 tallverdiene i tabell 8.3. Hvert tall svarer til oppnådd reduksjon i blodtrykket etter en måneds bruk av henholdsvis medisin og placebo. En første tilnærming til et gruppert datasett bør være a inspisere tallene og se om det er noen forskjeller. Ulike grafiske presentasjonsteknikker kan være nyttige. Mange foretrekker a tegne opp punktplott eller boksplott for de ulike gruppene. Se figurene 8.1 og 8.2. som antyder at medisinen gir større blodtrykksreduksjon enn placebopillene. Dersom slike grafiske teknikker ikke indikerer at det er en forskjell pa gruppene, kan
268
KAPITTEL 8.
SAMMENLIGNING AV GRUPPER
Placebo ----------- ------ - ------ ------- - ------ ------- - --------------------------------------------------------— Medisin —--------------- ------- >-------------- --------------- ------- *------ - ------ ------- ------- ------- y— 0
5
10
Figur 8.1: Blodtrykksreduksjon ved to behandlingsmåter
Figur 8.2: Boksplott over blodtrykksreduksjon for to behandlinger vi heller ikke regne med at statistiske metoder skal avsløre dem. De statistiske meto denes hovedfunksjon er a undersøke om de observerte (tilsynelatende) forskjellene er signifikante eller kan skyldes tilfeldigheter. I denne typen sammenligninger knytter vi vanligvis hypotesene til forventningen til de to behandlingene. Er det noen forskjell i forventningene, eller er de tilnærmet like? Vi ser at gruppenes gjennomsnittsverdier er forskjellige: Forsøkspersonene har større effekt av medisin enn av placebo-pillene. Betyr det at medisinen også vil være mest effektiv for hele populasjonen? For å svare pa dette spørsmålet må vi ta hensyn til standardavviket til gjennomsnittene. Etter hvert som du leser videre, vil du se at våre hypotesetester (både T-test og variansanalyse) baserer seg på en brøk som grovt sagt kan oppfattes som forskjell mellom gruppegjennomsnitt
standardavvik i gruppene Hvis denne brøken blir stor, tyder det på at forskjellen mellom gruppene er stor i forhold til hva det er sannsynlig å observere dersom nullhypotesen er sann. I så fall kan vi forkaste nullhypotesen. I forrige kapittel lærte vi å beregne et konfidensintervall for en forventningsverdi. Vi er derfor i stand til å beregne et slikt konfidensintervall for hver gruppe (forutsatt at antakelser om normalfordling og uavhengighet er gyldige). T-intervallene for hver gruppe er vist i figur 8.3. Legg merke til at konfidensintervallene så vidt overlapper. Hva betyr det? Snart skal vi se hvordan vi kan foreta den ønskede hypotesetest. og beregne tilhørende p-verdi. Kommentar 238 Metodene i dette kapitlet blir brukt for å påvise forskjeller mellom
grupper. De statistiske metodene sier imidlertid ikke noe om årsaken til forskjellene. Årsaken til at gruppene er forskjellige, kan være noe helt annet enn gruppeinndelingen. I avsnitt 8.5.2 skal vi se nærmere på denne problemstillingen. Hvis forsøket er randomisert og/eller blokket, er det imidlertid god sjanse for at forskjellen mellom gruppene har den årsaken som datasettet leder oss til å tro.
8.2. T-TEST FOR TO GRUPPER
Placebo
269
------------------
Medisin
2.1)
------------------------------------------------ [1/7,7.$) :'---------------------- r 0
5
10
Figur 8.3: Sammenligning av konfidensintervaller for forventningsverdiene
Gruppe 1:
Datasett
Gjennomsnitt
X,. X2......... Xn,
X = X £ X.
Varians
i=l
Gruppe 2:
. Y.......... Y„,2
Y = X V 1; ■ 1=1
« - n2
s22 =
1=1
Tabell 8.4: Datastruktur for uparet T-test
8.2.2
Uparet T-test
Vi ønsker å sammenligne to grupper med henholdsvis n\ og ri2 tilfeldig valgte enheter. Den stokastiske variabelen Xt uttrykker responsen (måleverdien) som vi kommer til å registrere for enhet nummer i i gruppe 1. Den stokastiske variabelen Yj uttrykker responsen for enhet nummer j i gruppe 2. Totalt vil forsøket resultere i datasettet som er vist i tabell 8.4. For hver gruppe kan vi estimere gjennomsnitt og varians på vanlig måte. Vi skal snart se at disse størrelsene er alt vi trenger for å utføre hypotesetester og lage konfidensintervaller. For å benytte en uparet T-test, må vi gjøre følgende antakelser. 1. X-ene er uavhengige av hverandre og normalfordelte. dvs. X ~Normal(^1. rr1 ).
2. V-ene er uavhengige av hverandre og normalfordelte, dvs. Y ~Xormal(^2- a'2 )• 3. Vi forutsetter at X1.X2......... Xn} er uavhengige av Y1.Y2............... Yn.,.
Hele hensikten med hypotesetesten er å undersøke om det er en forskjell pa de to gruppegjennomsnittene. Hypotesene kan derfor formuleres slik: Ho : hi = T2
H} :
M2
La oss definere differansen mellom de to gruppeforventningene lik D — /ij — //2. Vi ønsker a estimere denne differansen, og det er naturlig a ta utgangspunkt i den forventningsrette estimatoren D = X — Y. Hvis vi observerer at D har spesielt stor absoluttverdi, gir det oss grunn til å forkaste nullhypotesen. For å vite hva som er stort eller lite, må vi kjenne estimatorens varians. Siden dataene til hver gruppe er normalfordelte, vil også estimatoren D være normalfordelt med følgende varians:
Var(D) = Var® + (-1)2 • Var(V) =
ni
n2
(8.1)
Hvis vi hadde vært sa heldige a kjenne gruppenes standardavvik, hadde det vært enkelt å komme videre i samme spor som for Z-testen i kapittel 6. Dessverre vil gruppenes standardavvik og cr2 være ukjente i de aller fleste situasjoner. Vi må derfor basere oss på estimat orene Si og 82Hvis gruppestørrelsene er små (under 30 obervasjoner i hver gruppe), finnes det ingeir enkel teoretisk løsning på vårt testproblem. Vi klarer bare a finne en løsning
270
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
dersom gruppenes varianser er like, dvs. = rr2 = za (ensidig).
TT - E(W) JVarfW)
(8.8)
Kommentar 250 I teksten og eksemplet har vi sett bort fra den muligheten at noen av tallverdiene kan være like. I teorien er det umulig (variablene er jo kontinuerlige), men i praksis skjer det relativt ofte fordi måleutstyret ikke er nøyaktig nok. Dette skaper imidlertid ingen store problemer. Først sorterer vi alle tallene så godt det lar seg gjøre.
Hver gang noen tall er like store, gir vi dem rekkefølgenummer lik gjennomsnittet av de aktuelle rekkefølgenumrene. Eksempelvis: Hvis 4- og 5. sorterte observasjon er like store, får de begge rekkefølgenummer lik 4-5. Hvis 8.-10. sorterte observasjon er like store, får alle tre rekkefølgenummer lik 9. Kommentar 251 Siden den ikke-parametriske testen bare er opptatt av sorteringen av X-er og Y-er, betyr det at vi egentlig ikke er avhengige av å utføre absolutte målinger. Det eneste som kreves, er at vi kan rangere observasjonene i forhold til
hverandre. Ikke-parametriske tester kan derfor benyttes til å sammenligne grupper hvor det er vanskelig å måle, men mulig å sortere. Et eksempel kan være en sammenligning av kreativiteten til to ulike kunstnere, basert på en rangering av deres ulike kunstverk.
8.4. IKKE-PARAMETRISKE TESTER
8.4.2
285
Paret Wilcoxon-test
Vi har n uavhengige observasjonspar (Xi, Yi), (X-2- Y?), ■ . ■ fXn, Yn). Gruppenes medi aner er henholdsvis zni og 7712- Differansen mellom observasjonsverdiene i par nummer i kalles D, = X7 — Y, (som i tabell 8.5). Vi forutsetter at fordelingene er kontinuerlige og symmetriske. Vi ønsker a teste nullhypotesen om at
: medianene er ulike (ttzi
Hø : medianene er like (mi = m-i)
ff 7722)
Ideene til denne ikke-parametriske testen ble fremsatt i 1945 av Frank Wilcoxon. Testen baseres utelukkende på differansene Di. Hans idé var å "merke” de n differ ansene med deres fortegn, og deretter sortere dem i stigende rekkefølge basert på absoluttverdien (om noen verdier er like, gjør vi som i kommentar 250). Hvis nullhy potesen er riktig, skulle vi vente at det er omtrent like mange positive og negative differanser, og at disse er blandet sammen helt tilfeldig i sorteringslisten. Hvis en be tydelig overvekt (eller undervekt) av differansene er positive, har vi god grunn til å forkaste nullhypotesen. Likeså kan vi forkaste nullhypotesen hvis de positive fortegnene “klumper” seg sammen i den ene enden av sorteringslisten. Eksempel 252 En bedrift ønsker å undersøke effektiviteten av to nye dataverktøy for å utføre en arbeidsoppgave. Ledelsen bestemmer at undersøkelsen skal utføres som et paret forsøk, for å unngå at forskjeller i de ansattes kunnskapsnivå skal påvirke resultatet. De velger ut ti tilfeldige arbeidere som utfører arbeidsoppgaven to ganger, en gang med hver metode. For hver arbeider trekkes det lodd om hun skal benytte verktøy 1 eller verktøy 2 først. Undersøkelsen gav følgende resultater, målt i minutter som var nødvendige for å utføre oppgaven:
Arbeider nr. Verktøy 1 Verktøy 2 Differanse
1 72 65 7
2 48 34 14
3 35 38 -3
4 87 59 28
5 45 44 1
6 92 51 41
7 56 50 6
8 29 38 -9
9 41 39 2
10 67 51 16
La oss sortere alle de ti differansene i stigende rekkefølge basert på deres absoluttverdier, og “merkedem med deres fortegn: Sorterte data: Rekkefølgene:
+1 +2 —3 +6 1234
+7 5
—9 6
+14 7
+16 8
+28 9
+41 10
Den ikke-parametriske testen er bare opptatt av sorteringen (+4---- f-4---- H + ++J, og hvilken rekkefølgesum som knytter seg til plussene i denne sorteringen. Denne summen kalles TV+ og er i dette tilfellet lik W+ = 1 + 2 + 4 + 5 + 7 + 8 + 9 + 10 = 46. Tilsvarende kan vi finne W_ =3 + 6 = 9. Hvis nullhypotesen er sann, skulle vi forvente at de to summene var omtrent like. Er forskjellen mellom TV+ og W- så stor at vi må forkaste nullhypotesen om likhet? Er verktøy 2 signifikant raskere enn verktøy 1? Legg merke til at IV4. +H+ = 1 + 2 + • • • + n. Når vi kjenner den ene rekkefølgesummen, kjenner vi dermed den andre. Derfor er det tilstrekkelig å konsentrere seg om en av de to. I fortsettelsen skal vi fokusere pa og for enkelhets skyld skrive IT uten indeks. I utgangspunktet kan vi betrakte rangsummen H’ som en stokastisk variabel. Der som nullhypotesen er sann, vil alle mulige kombinasjoner av plusser og minuser være like sannsynlige. Det finnes ialt 2n slike muligheter ifølge potensregelen. Til hver kom binasjon svarer det en bestemt verdi av TY, men flere av kombinasjonene kan ha samme
286
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
verdi. I dataverktøyeksemplet er det 210 = 1024 ulike kombinasjonsmuligheter. Atte av disse vil gi IV = 46. nemlig 1-
4—I—I—I—I—i—I—I------- P
2. 3.
- + + + + + + -++ +- + + + + - + ++
4.
+ + - + 4------ F +
++
5. 6. 7. 8.
+ + +-------- F + + + + -- + + + - + + ++ - + - + - + + + ++ +---------- ++++++
Sannsynligheten for det observerte resultatet er derfor P(W — 46) = 8/1024. Tilsvar ende kan vi etter en del arbeid finne sannsynligheten for alle andre aktuelle verdier for TV (minste verdi er null og største verdi er 1 + 24------- F 10 = 55). Den fordelingen som vi da får. gar under navnet Wilcoxons fortegnsfordeling. Vi har grunn til å forkaste nullhypotesen dersom W er spesielt stor (eller spesielt liten). Det svarer jo til at det er mange plusser, og/eller at plussene klumper seg sammen i den ene enden av sorteringslisten. For å avgjøre om det observerte resultatet gir grunn til a forkaste nullhypotesen, beregner vi p-verdien. I dette eksemplet blir pverdien såpass liten at det er god grunn til a forkaste nullhypotesen. p = p(W > 46) = 0.033 Kommentar 253 (normaltilnærmelse) Hvis vi har over 20 observasjonspar, og nullhypotesen er riktig, vil W være tilnærmet normalfordelt, med forventning og vari
ans (begrunnes på side 315): E(W)
= +L±12
Var(W} = ++lX2n + l)
Beregn disse tallverdiene. Når du observerer en W-verdi, kan du beregne den tilhørende Z-verdien fra ligning 8.8 på side 28j. For valgt signifikansnivå a finner du za-verdien i figur 5.18. Forkast nullhypotesen om like medianer dersom \Z\ > za/2 (tosidig) eller \Z\ > za (ensidig).
8.4.3
Paret fortegnstest
Wilcoxons parede test forutsetter at fordelingen til differansene D> er tilnærmet sym metrisk. Hvis denne forutsetningen ikke er gyldig, kan vi benytte en annen testmetode som ikke forutsetter noe som helst. Fortegnstesten baserer seg på følgende idé: Dersom nullhypotesen er sann (media nene er like), vil en differanse være positiv med sannsynlighet 0.5. Vi ser bort fra eventuelle differanser som er identisk lik null. La oss definere S som antall positive differanser blant de n. Legg merke til at S er binomisk fordelt. Det er grunn til å forkaste nullhypotesen dersom vi observerer spesielt mange (eller spesielt få) positive differanser. I dataverktøyeksemplet observerte vi S = 8. For å avgjøre om dette gir grunnlag for forkasting, rna vi beregne p-verdien (slå opp i binomisk tabell med n = 10 og p — 0.5): p = P(S > 8) = 1 - 0.945 = 0.055 Legg merke til at denne p-verdien blir større enn i den parede Wilcoxon-testen. Det be tyr at fortegnstesten har lavere styrke, dvs. ikke samme evne til a oppdage signifikante forskjeller. Det er prisen vi må betale for at vi ikke gjør noen antagelser. Fordelen med fortegnstesten er at den alltid kan benyttes! Fortegnstesten krever heller ikke at differansene Dt kan uttrykkes ved tall. Det er tilstrekkelig at de kan beskrives som positive eller negative. Dette er grunnen til at fortegnstesten er godt egnet til kvalitative sammenligninger, f.eks. av estetikk eller pølsesmak.
8.4. IKKE-PARAMETRISKE TESTER
287
Eksempel 254 To arkitekter. A og B. har laget hvert sitt forslag til et nytt rådhusbygg. 11 politikere ble valgt tilfeldig til en komite for å vurdere forslagene. Deres vur dering er slik: 6 foretrekker A, 3 foretrekker B og 2 svarer “vet ikke’'. Er A ’s alternativ mest populært i poZzizfcerpopulasjonen?
Løsning: Vi ser først bort fra de to vurderingene som er ubrukelige. Da gjenstår vi med n = 9 vurderinger. Vår nullhypotese er at begge alternativene er like populære blant populasjonen av politikere. Det er grunn til å forkaste denne hypotesen dersom et betydelig flertall av de ni foretrekker A. For a avgjøre om S — 6 gir grunnlag for a forkaste, må vi beregne p-verdien p = P(S >6) = 1 - 0.746 = 0.254
Siden p-verdien er så høy (over 0.05), er det ingen grunn til a forkaste nullhypotesen. Det er ikke bevist at A ’s forslag er mest populært.
8.4.4
Kruskal-Wallis’ test av flere grupper *
Kruskal og Wallis foreslo i 1952 en ikke-parametrisk test som benyttes for å sammen ligne medianene i k grupper. Utgangspunktet er et datasett av samme type som i en enveis variansanalyse (se tabell 8.6 på side 276). I motsetning til variansanalysen kr ever ikke Kruskal-Wallis’ metode at observasjonene er normalfordelte. Deres metode er en direkte generalisering av ideen bak Mann-Whitney-Wilcoxon-testen pa side 282. Poenget er a sortere alle n observasjonene i stigende rekkefølge, og beregne rekkefølgesummen Wt for observasjonene i gruppe nummer i. Se eksempel 248 for å forstå hvordan dette gjøres. Vi regner ut tilsvarende rekkefølgesum for alle de k gruppene. I utgangspunktet er Up en stokastisk variabel. Dersom nullhypotesen er sann, er for ventning og varians gitt av de samme formlene som i kommentar 249, nemlig £(Up) =
nfln + 1)
2
W am n;.n(n + l) Var(Up) % ------ -- ------
Hvis nullhypotesen er sann, skulle vi forvente at den observerte Hp-verdien var i nærheten av E(Wi). Hvis det er mange store avvik mellom det observerte og forven tede, gir det grunn til å forkaste nullhypotesen. Vi skal på vanlig mate ta utgangspunkt i den standardnormalfordelte Z7; som defineres nedenfor. Regel 157 sier at summen Q av alle awikskvadratene Zf er kjikvadratfordelt. Hvis du regner litt, finner du at Q er lik:
W)
FAWA
Regel 255 (Kruskal-Wallis’ test) Vi forkaster nullhypotesen om like medianer der som Q er større enn a-kvantilet i kjikvadratfordelingen med (k — 1) frihetsgrader.
Dersom datasettet har form som en blokket eller toveis variansanalyse (se fig ur 8.14), finnes det en variant av Kruskal-Wallis’ test som kalles en Friedman-test. Forskjellen er primært at vi sorterer observasjonene i hver av de b blokkene for seg. uten å ta hensyn til de andre blokkene. Gruppe i far da ett rekkefølgenummer fra hver blokk. Summen av disse kalles Hp og testen baseres på en kvadratsum som er tilnærmet proporsjonal med Q ovenfor. Vi forkaster nullhypotesen om like medianer dersom b2Q er større enn a-kvantilet i kjikvadratfordelingen med (Å: — 1) frihetsgrader.
288
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
8.5
Analyse av kategoriske krysstabeller
En kontingenstabell eller krysstabell er en tabell som oppsummerer resultatene fra kate goriske forsøk. Bedriften ZinkProd ASA testet to ulike typer produksjonsutstyr for a finne utstyret med lavest defekt sannsynlighet. Deres prøveproduksjon gav resultatene i den følgende 2 x 2-tabellen, og bedriften stiller spørsmålet: Er den ene maskinen signifikant bedre enn den andre? Er det er sammenheng mellom maskintype og defekt sannsynlighet?
OK Maskin 1 Maskin 2 Totalt
186 264 450
Defekt 14 36 50
Totalt 200 300 500
Analysene kan like godt utføres for større krysstabeller med r rader og k kolonner, såkalte r x fc-tabeller. Nedenfor vises et eksempel på en 4 x 3-tabell. Legg merke til at vi ikke teller med totalraden og -kolonnen. Totalt 99 hester har deltatt i en måling av sine hestekrefter og fått karateristikken sterk, middels eller svak. Er det en signifikant forskjell på hesterasene?
Fjording Dølahest Islandshest Araber Totalt
Sterk 12 13 9 3 37
Middels 8 13 8 5 34
Svak 3 5 12 8 28
Totalt 23 31 29 16 99
Våre hypoteser om at gruppene er like eller ei, kan formuleres som
Ho:
kolonner og rader er uavhengige, eller alle radene har samme sannsynlighetsfordeling kolonner og rader er ikke uavhengige, eller noen rader har forskjellig sannsynlighetsfordeling
Testmetoden går vanligvis under navnet kjikvadrattest, men den kalles også uavhengighetstest eller homogenitetstest. Husker du hvordan vi definerte uavhengighet? Vi sa at to variabler var uavhengige hvis opplysninger om den ene variabelens verdi ikke påvirker sannsynlighetsfordelingen til den andre variabelen. Hesterase og styrke er uavhengige hvis opplysninger om hesterase ikke hjelper oss til å vite noe om hes tens styrke. Dersom vi forkaster nullhypotesen, vet vi at noen av hesterasene har ulik styrkefordeling.
8.5.1
Kjikvadrattest
La oss kalle kjennetegnene til radene for Alt A2. ■ ■ ■ ■ Ar og kjennetegnene til kolonnene for ,Bk- Vi trekker ut n tilfeldige enheter fra populasjonen, enten helt tilfeldig, eller med et forhåndsbestemt antall i hver rad. Vi definerer XLJ som antall enheter i utvalget med kombinasjon AiBj. Vi definerer Ri som totalt antall enheter med radkjennetegn Aj. Tilsvarende defineres Kj som totalt antall enheter med kolonnekjennetegn Bj. Alle disse størrelsene presenteres i r x fc-tabellen.
289
8.5. ANALYSE AV KATEGORISKE KRYSSTABELLER
a2 Ar Totalt
Totalt
X22
Bk Xn x2k
Xr2 K2
xrk Kk
Rr n
Bi Xn X‘21
B-2
xrl
Ki
• ■
Å'12
Ri R-2
Dersom nullhypotesen er sann, betyr det at det ikke er noen sammenheng mellom kjennetegnene A og B. I så fall skulle vi forvente at antall enheter med kombinasjon AzBj er lik antall Ar multiplisert med sannsynligheten for å være av type Bj (siden Xij er binomisk fordelt). Vår beste gjetning på denne sannsynligheten er andelen av forsøksenhetene som havnet i kategori Bj. Det forventede antallet kalles Etj og er vårt beste forslag på verdien til E(Xzj).
Eij — (antall Aj) ■ (sannsynlighet Bj) = Rz ■
Det kan være nyttig å skrive opp disse forventede verdiene i kontingenstabellen sammen med observasjonsverdiene. En mulighet er å skrive de forventede tallverdiene Eij i parenteser ved siden av de observerte verdiene Xij. For kombinasjonen sterk fjording finner vi E — 23 • 37/99 = 8. 60. Totalbildet ser slik ut:
Fjording Dølahest Islandshest Araber Totalt
12 13 9 3 37
Sterk (8.60) (11.6) (10.8) (5.98)
Middels 8 (7.90) 13 (10.7) 8 (9.96) 5 (5.49) 34
3 5 12 8 28
Svak (6.51) (8.77) (8.20) (4.53)
Totalt 23 31 29 16 99
Det er naturlig å forkaste nullhypotesen dersom det er store avvik mellom de ob serverte verdiene XZJ og de forventede verdiene EZJ. Vår testobservator vil derfor basere seg på avviket (Xjj — Eij). Siden noen avvik er positive og noen er negative, er det ingen god idé å bare summere dem. Løsningen er, som i mange andre sammenhenger, å opphøye awikene i andre potens. Som testobservator skal vi benytte summen av disse avvikskvadratene (dividert med sine forventningsverdier). Summen inkluderer ett ledd for hver av de r ■ k tabellcellene (observert-forventet)2
forventet
(8.9)
Det er enkelt å beregne Q for vart hesteeksempel. Vi regner ut (X — E)2 / E for hver enkelt tabellcelle. For kombinasjonen sterk fjording får vi verdien (12 — 8.6)2/8.6 = 1.34. Slik kan vi beregne alle tallverdiene i den følgende tabellen. Verdien til Q er summen over alle cellene. Tabellen nedenfor viser at Q — 12.14 for hestene våre. Er denne verdien stor nok til å forkaste nullhypotesen?
Fjording Dolahest Islandshest Araber
Sterk 1.34 0.17 0.30 1.49
Middels 0.00 0.49 0.39 0.04
Svak 1.89 1.62 1.76 2.65
Q = 12.14
290
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
Simultanfor delingen til V-ene kalles den mulitinomiske fordeling. Du kan lese om denne fordelingen på side 167 (der vi ser pa en rad om gangen). Der argumenteres det for at Q er kjikvadratfordelt hvis antall observasjoner er et stort tall (alle EtJ > 5). I en krysstabell der bade radsummene Rt og kolonnesummene Kj er kjente, er det tilstrekkelig å kjenne (r — 1) • (k — 1) av observasjonene. Resten av observasjonene kan da regnes ut. Dette er grunnen til at Q er kjikvadratfordelt med (r — l)(År - 1) frihetsgrader. Dersom rad- og/eller kolonnesummene ikke er kjente, må vi estimere dem, men ender opp med nøyaktig det samme antall frihetsgrader. Regel 256 (kjikvadrattest) Vi forkaster nullhypotesen om uavhengighet dersom Q
er større enn a-kvantilet i kjikvadratfordelingen med (r — l)(År — 1) frihetsgrader. I hesteeksemplet har vi (4 — 1) (3 — 1) =6 frihetsgrader. La oss teste om det er en forskjell mellom hesterasene, på signifikansnivå a — 0.10. Ved å slå opp i kjikvadratfordelingens tabell E.5, finner vi den kritiske verdien 10.64. Siden vår observerte Q-verdi er større, kan vi forkaste nullhypotesen. Det er en sammenheng mellom hesterase og hestekrefter! Kommentar 257 Kjikvadrattesten forutsetter at vi har et stort antall observasjoner. Da kan vi være rimelig sikre på at alle X{j er tilnærmet normalfordelt, noe som igjen betyr at Q blir tilnærmet kjikvadratfordelt. Som tommelfingerregel bør vi kreve at alle Eij > 5. Hvis denne betingelsen ikke er tilfredsstilt, kan analysen gi oss feilaktige svar. Kvaliteten på slike analyser kan bedres ved å slå sammen to eller flere rader (eventuelt kolonner) slik at de gjenværende tabellcellene tilfredsstiller dette kravet.
8.5.2
Simpsons paradoks
Hvis vi forkaster nullhypotesen, kan vi konkludere med at det er en statistisk sammen heng mellom rad- og kolonnekjennetegnene. Men vi har ikke påvist noen årsakssam menheng. Vi må alltid være oppmerksom på at utelatte variabler kan være årsaken til den sammenhengen som vi observerer. Kanskje fjordingene er sterkere fordi de brukes til tungt skogsarbeid, mens araberhestene er slappe fordi de står det meste av dagen i sine båser? Årsakssammenhengen er i så fall knyttet til hvordan hestene brukes, og ikke til hestens rase. Våre statistiske konklusjoner må alltid ledsages av sunn fornuft og god kunnskap om det fenomenet vi studerer. I noen tilfeller kan vi faktisk få helt feil bilde dersom vi utelater en viktig variabel, slik at den riktige sammenhengen er motsatt av den vi har oppdaget. Dette kalles Simpsons paradoks og illustreres med det følgende eksemplet. Slike feilkonklusjoner skyldes ofte at data fra ulike kilder (tabeller) er slått sammen i en tabell. Les eksemplet, og husk budskapet neste gang du uttaler deg pa bakgrunn av statistiske undersøkelser. Eksempel 258 Det hadde vært interessant å sende ut et spørreskjema til bilførere for å kartlegge hvor mange som har fått en bilskade de siste arene. Resultatet av undersøkelsen kunne blitt slik:
Alann Kvinne Total
Bilskade 233 87 320
Ikke bilskade 323 194 517
Total 556 281 837
Her er det en signifikant forskjell på kjønnenes evne til å kjøre skadefritt. Andelen 233/556 = 0.42 av mennene var involvert i en skade, mens kvinnenes andel bare var
8.5. ANALYSE AV KATEGORISKE KRYSSTABELLER
291
87/281 = 0.31. Analysen antyder altså at kvinner er dyktigere sjåfører enn menn. Er det sant? Løsning: Ved å undersøke spørreskjemaene nærmere kunne vi foreta, en ekstra kate gorisering. avhengig av hvor stor bil personene kjører. Da kunne resultatene presenteres slik:
Mann Kvinne Total
Skade 150 16 166
Store biler Ikke skade 35 2 37
Total 185 18 203
Skade 83 71 154
Små biler Ikke skade 288 192 480
Total 371 263 634
Nå er bildet snudd på hodet. For store biler var 88 % av kvinnene mot 81 % av mennene involvert i en skade. For små biler var 27 % av kvinnene mot 22 % av mennene involvert. Kvinnene har høyest skadeandel både for store og små biler!
8.5.3
Modelltest
Istedenfor å sammenligne radene i en krysstabell med hverandre kan vi velge a sam menligne en tabellrad med en slags “hypotetisk fasit”. Dette er en av de statistiske testene som benyttes mest. Testen er svært anvendelig for å analysere data fra spørre undersøkelser, som vi skal se i neste eksempel. Vår nullhypotese er at observasjonene har en bestemt sannsynlighet pj for å havne i kategori nummer j. En slik sannsynlighet er spesifisert for hver tabellcelle. Vi har totalt n observasjoner. Antallet observasjoner i celle j kalles Xj, som er binomisk fordelt med forventningsverdi Ej — npj. Hypotesetesten baserer seg pa kvadratsummen
y^
y-^ (Xj — Ej)2 J=1
E. J
* (observert-forventet)'
forventet
A—*
alle celler
Regel 259 (Modelltest) Vi forkaster nullhypotesen om at spesifisert sannsynlighetsmodell passer dersom Q er større enn a-kvantilet i kjikvadratfordelingen med (k — 1)
frihetsgrader. Eksempel 260 En stor nasjonal spørreundersøkelse har vist at 20 % av studentene drikker seg fulle hver fredag, mens 50 % drikker med måte og 30 % ikke drikker. En tilsvarende undersøkelse ble gjennomført for et tilfeldig utvalg av 150 studenter i Volda, der 56 drakk seg fulle, 86 drakk litt, og resten drakk brus. Er det grunnlag for å hevde at studentene i Volda drikker mer enn det som er typisk for studenter? Utfør hypotesetest
med signifikansnivå a = 0.05. Løsning: Vi setter opp tabellen som følger nedenfor. De to første radene oppsum merer opplysningene i oppgaveteksten. Tredje rad viser det forventede antall E = np, dersom nullhypotesen er sann, for hver kategori. Siste rad viser bidraget til Q-summen, som blir lik 20.f. Fra kjikvadrat fordelingens tabell E.5, med 3 — 1 frihetsgrader og a = 0.05, finner vi den kritiske verdien lik 5.99. Siden den observerte Q er større enn 5.99. kan vi forkaste nullhypotesen. Vår konklusjon blir derfor at studentene i Volda drikker mer enn det som. er typisk for studenter. (Advarsel: dataene er fiktive, så ikke fest for mye lit til konklusjonen.) Drikkevane
Observert antall (X) Hypotese-sannsynlighet (p)
Hypotese-forventning (E) Avvikssum (A — E)2 / E
Beruset
Måteholden
Avhold en
Sum
56 0.30 45 2.7
86 0.50 75 1.6
8 0.20 30 16.1
n = 150 1.0 150 Q = 20.4
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
292
Tilpasningstesten kan også benyttes for a undersøke om et datamateriale kommer fra en bestemt sannsynlighetsfordeling. Det følgende eksemplet viser hvordan vi kan kontrollere om dataene er observasjoner av en normalfordelt variabel. Nøyaktig samme framgangsmåte kan brukes for å teste om dataene har en annen fordeling. Eksempel 261 I løpet av en toårsperiode ble 24 månedlige nedbørsmengder registrert. Undersøk om den månedlige nedbørsmengden er normalfordelt med forventning 100 mm og standardavvik 30 mm. Benytt signifikansnivå a = 0.05. Løsning: Nedbørsmengdene ble registrert i en frekvenstabell med k = 5 intervaller, se nedenfor. Først vises antall måneder X med nedbør i hvert enkelt intervall. Deretter vises sannsynligheten p til hvert intervall forutsatt at nullhypotesen er sann (beregnet fra normalfordelingen). Neste rad viser det forventede antallet E = np, mens siste rad viser bidraget til kvadratsummen Q — 6.10. Fra kjikvadratfordelingens tabell E.5, med 5 — 1 frihetsgrader, finner vi den kritiske verdien lik 9-49- Den observerte Q-verdien er altså ikke stor nok til å forkaste hypotesen om normalfordeling. Vi har ingen grunn til å mistro at dataene er normalfordelte! (En advarsel: Første og siste kolonne har et for lavt forventet antall observasjoner ifølge kommentar 257. Disse to kolonnene kan derfor med fordel slås sammen for å øke kvaliteten på analysen.) Nedbør (ant. mm.)
0-60
60-90
90-110
HO-140
>140
Sum
4 0.261
4 0.278
5
n = 24
0.091
1.0 24 Q = 6.10
Observert antall mnd. (X)
3
8
Hypotese-sannsynlighet (p)
0.091
0.278
Hypotese-forventning (E)
2.18 0.309
6.67
6.64
6.67
2.18
0.265
0.804
1.069
3.648
Avvikssum (V — E)2/E
Datamaskinen kan benyttes også til denne typen tester, nøyaktig som beskrevet i punktene nedenfor.
8.6
Bruk av datamaskinen
Vanligvis vil vi benytte et dataprogram for å utføre de testene som er beskrevet i dette kapitlet. Det er krevende å foreta beregningene for hånd, og stor risiko for feiltrykking på kalkulatoren. Det er enklere med datamaskinen. Sørg for at dataene ligger i regn earket med en kolonne for hver gruppe. Hvis datasettet er paret/blokket, må hver rad svare til ett par eller én blokk. Ved noen enkle tastetrykk vil dataprogrammet beregne testens p-verdi. Hvis denne er under ditt valgte signifikanskrav (typisk a = 0.05), gir det grunnlag for å forkaste nullhypotesen.
8.6.1
Excel
• Uparet T-test: Velg Verktøy ► Dataanalyse ► T-test:To utvalg Her finnes det to valgalternativer, avhengig av om du antar at variansene er like eller ei. Det åpnes opp et vindu der du må angi cellområdene hvor dataene befinner seg, velge signifikansnivå, og angi “antatt gjennomsnittsawik” lik null. (Det sistnevnte angis som en tallverdi dersom du ønsker å teste om forskjellen er signifikant større enn en viss verdi.) Figur 8.5 viser et eksempel på en resultatutskrift. Her vises bade T-verdien og p-verdien (ensidig eller tosidig). • Paret T-test: Velg Verktøy ► Dataanalyse ► T-test:Gjennomsnitt for to parvise utvalg. • Enveis variansanalyse: Velg Verktøy ► Dataanalyse ► Variansanalyse: en faktor. Programmet beregner gjennomsnitt og varians for hver gruppe og lager en ANOVA-tabell.
8.7.
OPPSUMMERING
293
• Toveis variansanalyse: Hvis vi har en observasjon for hver kombinasjon av gruppe og blokk, må dataene organiseres slik som i figur 8.14. Velg Verktøy ► Data analyse ► Variansanalyse: to-faktor uten tilbakelegging. Hvis vi har flere observasjoner for hver kombinasjon (gruppe/blokk), må dataene organiseres litt annerledes (se hjelpemenyen i Excel). Velg Verktøy ► Dataanalyse ► Vari ansanalyse: to-faktor med tilbakelegging. • Ikke-parametriske tester: Du kan bruke regnearket til a sortere og summere, slik at du får beregnet verdien av W. Deretter gjør du som skissert i kommentar 249 eller 253. • Kjikvadrattest: Bruk funksjonen KJI.TEST, der du angir hvilke regnearkceller som inneholder henholdsvis de observerte og de forventede verdiene. Deretter beregnes p-verdien for testen.
8.6.2
Minitab
• Eparet T-test: Velg Stat ► Basic Statistics ► 2-Sample t og angi hvilke kolonner datene ligger i, hvilket hypotesealternativ du har (for eksempel “greater than”), hvilket konfidensnivå du ønsker (a = 0.05 svarer til konfidensnivå 95 %), og kryss av dersom du antar at gruppenes varianser er like. Figur 8.4 viser eksem pel på resultat utskrift. Legg merke til at Minitab regner ut et konfidensintervall for differansen i effekt, i tillegg til at bade T-verdien og p-verdien beregnes.
• Paret T-test: Stat ► Basic Statistics ► Paired t. Se eksempel på resultat i figur 8.6. • Enveis variansanalyse: Velg Stat ► ANOVA ► One-way. Da vil programmet produsere en ANOVA-tabell og samtidig beregne individuelle T-intervaller for hver enkelt gruppes forventning p^. • Toveis variansanalyse: Dataene rna ligge i tre kolonner i regnearket; en kolonne for dataene, en for gruppenummer, og en for blokknummer. Velg Stat ► ANOVA ► Two-way. Da vil programmet produsere en toveis ANOVA-tabell. som i figur 8.15. • Eparet Mann-Whitney-Wilcoxon-test: Velg Stat ► Nonparametrics ► MannWhitney. • Paret Wilcoxon-test: Lag først en regnearkkolonne som inneholder differansene Di. Velg Stat ► Nonparametrics ► 1-Sample Wilcoxon. • Fortegnstest: Velg Stat ► Nonparametrics ► 1-Sample Sign.
• Flere ikke-parametriske tester: Velg Stat ► Nonparametrics ► KruskalWallis eller eventuelt Friedman. • Kjikvadrattest: Velg Stat ► Tables ► Chi-Square Test.
8.7
Oppsummering
Når du har lest dette kapitlet, bør du • vite hvordan forsøk kan gjennomføres randomisert eller paret/blokket • beherske minst de tre første metodene i tabell 8.2
KAPITTEL 8.
294
SAMMENLIGNING AV GRUPPER
• kunne beregne kvadratsummen Q for en krysstabell, og foreta en kjikvadrattest • kunne organisere innsamlede datasett i et regneark • kunne benytte datamaskinen til a utføre analysene • forstå liva det betyr at en observert p- ver di er liten eller stor
8.8
Oppgaver
Du kan med fordel benytte datamaskinen til a løse enkelte av oppgavene. 1. En avis ønsker å undersøke om det er en forskjell i partitilhørighet mellom menn og kvinner. Avisen har bestemt seg for å spørre 200 personer. Hvordan bør undersøkelsen gjennomføres for å gi mest mulig pålitelige svar? Diskuter fordeler og ulemper med følgende alternativer:
Ved å spørre 200 tilfeldige personer. Ved å spørre 100 tilfeldige menn og 100 tilfeldige kvinner. Ved å spørre 100 tilfeldige ektepar. Ved a spørre 100 tilfeldige tvillingpar (med en mann og en kvinne). 2. En revisor skal ta stikkprøver av regnskapsbilag fra en hamburger kjede med 40 filialer spredt utover landet. Han vil basere sin undersøkelse pa totalt 120 bi lag. Diskuter fordeler og ulemper med følgende undersøkelsesmetoder (ta hensyn bade til det praktiske og statistiske):
Å undersøke 120 tilfeldige bilag ved en tilfeldig valgt filial.
Å undersøke 20 bilag på seks steder. A undersøke tre tilfeldig valgte bilag fra hver filial. A undersøke 120 tilfeldig valgte bilag blant populasjonen av alle bilagene.
3. En gruppe arkeologer foretar utgravninger av gamle bosettinger vest og øst i samme dalføre. De finner en rekke gjenstander som dateres med anerkjente metoder. Er bosettingene av ulik alder? Benytt a — 0.05.
Tabell: Arkeologiske data. Sted Vest Øst
Snittalder Alder (år) av gjenstander 1499 1642 1446 1579 1475 1613 1362 1266 1503 1416 1655 1323 1875 1367 1257 1707 1504 1358 1724 1456 1745 1487 1471 1576 1243 1670 1449 1748 1536
St.avvik 177 160
4. En bowlingspiller har mistanke om at resultatene i andre spillerunde er bedre enn i første omgang. Han noterer seg resultatene på ti forskjellige dager. Gir dataene grunnlag for å konkludere at andre spillerunde gir flest poeng? Benytt a — 0.01 og utfør en uparet T-test. Angi et 98 % konfidensintervall for differansen i poengsum mellom spillerundene. Tabell: Bowlingresultater Dag nummer Første spillerunde Andre spillerunde
1 110 136
2 96 103
3 132 140
4 106 128
5 135 145
6 109 95
7 107 142
8 118 127
9 84 128
10 127 140
Poengsnitt 112 128
St.avvik 16 17
8.8.
OPPGAVER
295
5. Et oppdrettsanlegg for kveite har testet to ulike fortyper i en sommersesong. Småfisk i en merde ble fordelt tilfeldig pa to andre merder. og ble foret med for av ulik type. I september trekkes det ut 14 tilfeldige fisk fra liver merde. Gir dataene grunnlag for a konkludere at for A gir fisk med størst vekt?
Beregn 95 % konfidensintervall for differansen mellom forventet vekt til fisk som er foret med henholdsvis type A og B. Utfør hypotesetest med konfidensniva a = 0.05.
Tabell: Sammenligning av fiskefor. Fortype A B
Vekt (kg) av kveite Snittvekt 15,16 17,28 12.33 11,86 16,31 12,08 9,96 16,18 15.96 18,75 15.35 19,52 16,88 13,90 15,11 17,73 16,03 14,85 18,18 17,08 19,06 15,64 18,29 23,41 14,22 17,35 16,89 16,59 18,54 17,42
St.avvik 2,76 2,38
6. Er det en sammenheng mellom type gulvbelegg og antall sykefraværsdager? En tilfeldig valgt gruppe arbeidere ved en stor bedrift ble spurt om hvilken type gulbelegg de har hjemme, og hvor mange sykefraværsdager de hadde ifjor. Re sultatene er oppsummert i tabellen nedenfor. Sammenlign to og to av radene i tabellen ved a utføre en uparet T-test. Skiller gulvbeleggene seg fra hverandre?
Kan du tenke deg at folks valg av gulvbelegg henger sammen med andre faktorer som også påvirker sykefraværet? Vil sykefraværet bli redusert dersom alle skifter til parkettgulv?
Tabell: Sammenligning Gulvbelegg Teppe 20 Vinyl 7 Parkett 7
av gulvbelegg og sykefravær Antall sykefraværsdager 7 9 18 19 11 9 0 28 11 9 9 11 3 10 16 0 9 16 6 9 1 1 15 12 4 17 11
20 16 9
16 14 6
18 1
19
Ant. personer Middelfravær 13 14,22 12 10.10 14 8.33
St.avvik 7.41 5.14 5.79
7. To kjemikere arrangerte en konkurranse om hvem som klarte å lage det beste superlimet. De fikk utdelt samme typer materialer (av forkjellig art) som de skulle forsøke å feste til hverandre med sitt super lim. Deres herdetider er oppgitt i tabellen nedenfor. Er det grunnlag for å hevde at Camilla er dyktigere enn Henrietta? Utfør en paret T-test med signifikansnivå a = 0.05. Finn også konfi densintervall for differansen i forventet tørketid.
Tabell: Herdetid (sekunder) for superlim Material nummer Camillas lim Henriettas lim Differanse
1 8,15 7.50 0,65
2 4.87 6.84 -1,97
3 9.65 9.44 0.20
4 6,75 7.44 -0,69
5 8,89 7,55 1.34
6 5.49 11,27 -5,78
7 9,12 15,65 -6.53
8 9,86 8,90 0,96
9 6,07 7,49 -1.42
10 Gjennomsnitt 7,13 7,60 10,82 9,29 -3,69 -1.69
St.avvik 1.79 2.70 2.80
8. Løs oppgave 4 en gang til. men denne gangen som en paret T-test. Beregn et konfidensintervall for differansen mellom forventet poengsum i de to spille omgangene. Sammenlign med intervallet som du fant i oppgave 4. og kommenter resultatet. 9. Hvilke av gruppene i gjødselseksemplet er signifikant forskjellige. Se pa utskriften fra Minitab i figur 8.10.
10. LTidersøk om det er en signifikant forskjell i kulestøtlengden til de ulike nasjonene som presenteres til venstre i tabell 8.1. Benytt signifikansnivå a = 0.10 og utfør en variansanalyse.
296
KAPITTEL 8. SAMMENLIGNING AV GRUPPER
11. Følgende tabell viser saksbehandlingstid til noen tilfeldig valgte skademeldinger som ble innsendt til fire ulike forsikringsselskap. Er det en forskjell i gjennom snittlig saksbehandlingstid? Foreta variansanalyse og benytt a = 0.05. Foreta et residualplott for å sjekke at kravet om uavhengighet og normalfordeling er tilfredsstilt.
Tabell: Saksbehandlingstid i forsikringsselskap Selskap Sikker AS ForSikker AS Safe AS Insurance AS
48 33 53 45
37 35 51 20
33 36 47 22
Saksbehandlingstid (dager) 37 23 37 13 31 55 48 39 38 36 44 66 35 40 48 41 22 34 19 23
22 32 56 20
11
40 26
45 29
Antall saker Gjennomsnitt 29,14 10 9 38,98 11 47,78 11 27,37
St.avvik 11,72 7.59 8,55 8,91
12. En produksjonsbedrift ønsker å sammenligne fem ulike produksjonsmetoder. Kvaliteten til produktene vurderes langs en kvalitativ skala, fra 1-20, der 20 er topp kvalitet. Den følgende tabellen viser kvaliteten til et randomisert utvalg av produkter for hver av metodene. Foreta en variansanalyse for å sammenligne metodenenes forventede kvalitet. Benytt a — 0.10. Er det noen forskjeller?
Tabell: Kvalitet pa produkter fra ulike produksjonsmetoder Metode A B C D E
11 14 17 16 16
11 15 17 15 13
14 8 16 16 15
9 15 18 15 12
Kvalitet 8 17 15 15 17
(skala 1 - 20) 11 9 11 16 16 15 15 13 13 7
9 11 15 15 15
17 13 13 19 17
9 13
12 13
16 12
17
Antall saker Gjennomsnitt 11 10,91 11 13,27 9 15,78 11 15,64 10 13,70
St.avvik 2,66 2,57 1,48 1,50 3,02
13. Er det forskjell i gjennomsnittstemperatur ulike steder i Norge? Den følgende tabellen viser registrert gjennomsnittstemperatur hver måned i 1996 på fire forskjellige steder (kilde: Meteorologisk institutt).
Er residualene uavhengige og normalfordelte, slik at variansanalysen kan brukes?
Foreta enveis variansanalyse for å undersøke om det er signifikante forskjeller i temperatur fra sted til sted. Utnytt at datasettet er blokket, og foreta en toveis variansanalyse. Er det forskjell fra sted til sted? Har månedene forskjellig temperatur?
Tabell: Månedlig gjennomsnittstemperatur i 1996 Måned Oslo Sola Værnes Tromsø
1 -5,1 0,5 -2,7 -0,8
2 -6,3 -0,8 -4,1 -6,0
3 -0,7 1,8 0,5 -1,2
4 4,8 6,3 4,3 -0,6
5 8,5 7,9 7,5 2,8
6 14,2 11,1 11,3 8,6
7 15,9 12,7 12,8 11,0
8 18,3 17,7 17,1 12,3
9 10,1 12,0 8,5 6,5
10 7,6 10,3 6,8 3,6
11 0,3 3,2 -2,0 -0,9
12 -4,4 0,2 -3,0 -4,4
Årssnitt 5,27 6,91 4,75 2,58
St.avvik 8,51 5,97 7,03 5,94
14. Beregn Mann-Whitney-Wilcoxons variabel W (egentlig VFy) for de uparede blodtrykksdataene i tabell 8.3. Like data behandles som skissert i kommentar 250. Bruk datamaskin for å utføre en hypotesetest hvor du undersøker om me disinen har en effekt. (Alternativt kan du bruke normaltilnærmelsen i kommentar 249.) 15. Tabellen nedenfor viser årlig skilsmisserate for noen europeiske og asiatiske land (FN, 1994). Er det en forskjell i skilsmissehyppigheten mellom de to verdensdel ene? Foreta en Mann-Whitney-Wilcoxon-test med signifikansnivå 0.01, og utnytt normaltilnærmelsen i kommentar 249. Like data behandles som skissert i kom mentar 250.
8.8.
297
OPPGAVER Tabell: Skilsmisserater Europa
Asia
0,8 1,1 1,3 0,2
2,1 2,9 1,6 1,6
3,4 1,9 1,2 0,7
1,3 1,9 0,8 0,5
1,9 3,0 0,4 0,2
2,7 3,1 1,0 1,9
2,9 0,9 0,8 1,5
2,4 2,2 0,1 2,8
2,5 2,4 0,6 0,8
3,0 2,8 1,3 0,9
3,7 0,5 1,4 1,3
16. Foreta en Mann-Whitney-Wilcoxon-test for de arkeologiske data i oppgave 3.
17. Beregn Wilcoxons fortegnsvariabel W (egentlig for de parede joggeskodataene i tabell 8.5. Finn sannsynligheten for å observere akkurat denne verdi en. Er det grunnlag for å hevde at sko av type A og sko av type B har ulike slitasjeegenskaper? Utfør Wilcoxons fortegnstest ved å beregne p-verdien. Hva blir din konklusjon? 18. En landsdekkende butikkjede foretar en spørreundersøkelse for å kartlegge hvor fornøyde kundene er. De har oppdelt sitt for handler nett i fire geografiske re gioner. Den følgende tabellen viser resultatene av undersøkelsen. Analyser denne krysstabellen ved hjelp av en kjikvadrattest. Velg selv signifikansnivå a. Er det en forskjell i kundetilfredsheten mellom regionene? Tabell: Spørreundersøkelse av kundetilfredshet Region
Sør-vest Sør-Øst Midt Nord Total
Antall kunder som er Fornøyde Vet ikke Misfonøyde 74 89 235 654 309 203 244 79 366 54 54 179 1434 696 410
Total
398 1166 689 287 2540
19. I oppgave 7 på side 51 blir du bedt om å lage en krysstabell som viser sam menhengen mellom nasjonalitet, kjønn og røyking. Lag den tabellen, og utfør en passende kjikvadrattest.
20. En lege utfører en randomisert studie for å sammenligne ulike behandlinger mot øreverk. I løpet av forsøksperioden har 177 pasienter deltatt i forsøket, som gav resultatene nedenfor. Analyser denne krysstabellen ved hjelp av en kjikvadrat test. Velg selv signifikansnivå a. Er det bevist at antibiotika er mest effektivt? Tabell: Behandling mot øreverk Behandling Antall p asienter med sykdomsvarighet 14 dager 24 4 7 Varm melk 10 34 12 3 8 Antibiotika 22 12 3 Hostesaft 5 17 2 Placebopille 9 5 97 12 43 25 Total
Total
45 57 42 33 177
21. En produksjonsbedrift ønsker å sammenligne fem ulike produksjonsmetoder. Kvaliteten til produktene vurderes kvalitativt, som god/middels/dårlig. Den føl gende krysstabellen viser kvaliteten til et randomisert utvalg av produkter for hver av metodene. Foreta en kjikvadrattest for a sammenligne metodenene. Benytt a = 0.10. Er det noen forskjeller? Les kommentar 257. Slå sammen kolonnene for middels og dårlig, og gjenta kji kvadrat analysen.
Sammenlign denne oppgaven med oppgave 12. Hvilken type data gjør det enklest å oppdage forskjeller?
298
KAPITTEL 8.
SAMMENLIGNING AV GRUPPER
Tabell: Kvalitet pa produkter fra ulike produksjonsmetoder Metode Antall produkter med kvalitet Total God Middels Darliq A 1 5 5 11 B 2 1 8 11 C 4 5 0 9 D 5 6 0 11 E 1 3 6 10 Total 16 29 7 52
22. Den følgende tabellen viser resultatene av lottotrekningene første halvår 1995. I denne perioden ble det trukket ut 27 • 7 = 189 lottokuler (inklusive en ekstratrekning, eksklusive tilleggstall). Diagrammet nedenfor viser hvor mange ganger hvert tall ble trukket ut. Hvor mange ganger ville du vente at hvert tall skulle blitt trukket ut - dersom alle kuler har lik sannsynlighet?
Foreta en modelltest for a undersøke om alle kulene har lik sannsynlighet for å bli trukket ut. Benytt signifikansnivå 0.05. Lottotall (1. halvar 1995) 10 a> 8 +
llllllllllhlhlllllllllllllllli 4
7
10
13
16
19
22
25
28
31
34
Kapittel 9
Statistisk kvalitetsstyring 9.1 9.2 9.3
Kontrolldiagrammer Kapabilitet Akseptanskontroll
Side Side Side
299 311 315
Statistisk kvalitetskontroll omhandler i hovedsak to forhold, akseptanskontroll og prosesstyring. Vi foretar akseptanskontroll for å undersøke om vi kan akseptere et vareparti. Dette er vanligst i forholdet mellom underleverandør og kunde. Hvis varepar tiet ikke kan aksepteres, må varene kasseres eller bearbeides på nytt, eller prisen må reduseres. Statistisk prosesstyring benytter kontrolldiagrammer for å overvåke en pro duksjonsprosess og sikre at produktene blir OK. Med jevne tidsrom foretar vi målinger av viktige variabler i produksjonsprosessen. Hvis måleverdiene gir grunn til mistanke om at noe er galt, foretar vi nærmere undersøkelser og eventuelt justerer produksjon sutstyret. Prosesstyring er den mest offensive angrepsmåten. Istedenfor å vente til produk sjonen er ferdig - og undersøke hvor mange enheter som må vrakes - går vi direkte inn i produksjonsprosessen for å sikre at produktene blir gode. Vi skal derfor bruke mest tid på prosesstyring i dette kapitlet.
9.1
Kontrolldiagrammer
De fleste produsenter foretar en rekke malinger for å overvåke produksjonens kvalitet. Malingene vil normalt være knyttet direkte til produktene eller tjenestene, men de kan også (med fordel) være knyttet til den bakenforliggende produksjonsprosessen. Statistiske kontrolldiagrammer kan anvendes enten vi ser på produkter, tjenester eller prosesser. For å forenkle framstillingen i fortsettelsen skal vi fokusere på produkt kvalitet. Eksempel 262 Bedriften MetaBolt AS produserer spesielle bolter til bruk i lastebiler. Det er stor etterspørsel etter bolter med diameter AI = 20.7 mm. Hvordan kan bedriften sikre seg at de produserer bolter med tilnærmet riktig diameter? En mulighet er å måle diameteren på hver eneste bolt etter hvert som de produseres. Bedriften har gjort dette tidligere og avdekket noen typiske mønstre i hvordan diameteren endrer seg fra bolt til bolt. Se figur 9.1. Den normale, tilfeldige variasjonen er vist i (a), mens (b)-(d) indikerer ulike typer problemer som krever en justering av produksjonen. Bedriftens ledelse synes det er altfor kostbart å kontrollere alle boltene. Hvordan kan produksjonen styres - og om nødvendig justeres - uten at alle boltene må kontrolleres?
299
KAPITTEL 9.
300
STATISTISK KVALITETSSTYRING
(b) Økende forventning
(a) Stabil prosess 21,1
21,1 -T----------------------------------------------21 J
21
20,9 j
20,9 20,8 20,7
20,6
20,5 -i 20,4 J---------- T---------- T---------- 1---------- T---------- T---------- 7------- 1 0
10
20
30
40
50
60
70
80
90
100
20,5 20,4 0
10
20
30
40
50
60
70
80
90
10o|
________________ __________________ i (d) Langsom variasjon
0
10
20
30
40
50
60
70
80
90
101
Figur 9.1: Ulike typer variasjon i målt boltdiameter
Vi bruker kontrolldiagrammer for å overvåke en produksjonsprosess uten å måtte kontrollere alle enhetene. Det finnes kontrolldiagrammer for å overvåke både forvent ningsverdien og variasjonen, slik at avvik av type (b) og (c) i figur 9.1 kan oppdages. Det er vanskeligere å oppdage avvik av type (d). Ideen er å ta ut en liten stikkprøve med jevne mellomrom, og foreta målinger på de utvalgte enhetene. På bakgrunn av målingene beregnes en kvalitetsindikator. En kvalitetsindikator er altså en tallstørrelse som er beregnet med utgangspunkt i de innsamlede dataene. Enhver tallstørrelse som indikerer om produksjonen går godt eller dårlig, kan egne seg som kvalitetsindikator. Så lenge kvalitetsindikatoren ligger innenfor noen definerte kontrollgrenser, antar vi at prosessen er stabil. Hvis vi ob serverer en verdi utenfor kontrollgrensene, slås det alarm, som vist i figur 9.2. Vi sier at alarmen er falsk dersom det bare er tilfeldig at vi observerer en verdi utenfor kon trollgrensene. Det vanligste kontrolldiagrammet kalles et Shewhart-diagram, oppkalt etter opphavsmannen Walter Shewhart, der gjennomsnittet X er kvalitetsindikator. Et kontrolldiagram har flere funksjoner. Ofte brukes det som dokumentasjon i forholdet mellom produsent og kunde. Hvis kontrolldiagrammet viser et tilfredsstil lende bilde, vil de fleste kunder være fornøyde. Kontrolldiagrammet skal også kunne brukes i ettertid til feilsøking, både for å lokalisere defekte enheter på et lager og for å identifisere feil i selve produksjonsutstyret. Kontrolldiagrammet skal helst være enkelt å forstå (være pedagogisk) og enkelt å bruke. Hvis diagrammet skal fylles ut for hand, stilles det andre krav enn hvis utfyllingen skjer automatisk med en datamaskin. De to viktigste kravene til et kontrolldiagram er gitt nedenfor og står i et motset ningsforhold til hverandre: • Diagrammet skal oppdage kvalitetsavvik raskt. • Diagrammet skal gi fa falske alarmer.
9.1. KONTROLLDIAGRAMMER
301
Figur 9.2: Kontrolldiagrarn basert på gjennomsnittsverdi X
Legg merke til at kvalitetsstyringen kan formuleres som en hypotesetest. Null hypotesen er at prosessen er stabil (som i figur 9.1a), mens alternativet er at et kvalitetsavvik har inntruffet (som i figur 9.1b-d). For å utføre hypotesetesten må vi svare på følgende spørsmål:
1. Hvor ofte skal vi ta stikkprøver?
2. Hvor store stikkprøver skal vi ta? 3. Hvilke variabler skal vi måle i hver stikkprøve?
4. Hva skal være kvalitetsindikator? 5. Hvordan kan vi finne egnede kontrollgrenser?
Hyppigheten av kontrollen bør først og fremst avgjøres av kostnaden ved a produ sere feilaktige enheter. Hvis kostnaden er stor, vil det være viktig å oppdage endringer raskt. I så fall bør vi kontrollere ofte. Hvis kostnaden er liten, kan vi øke tiden mellom hver kontroll. Stikkprøven bør være så stor at kvalitetsindikatoren (som er en stokastisk variabel) har liten varians. Det er vanligvis bedre å ta små stikkprøver hyppig enn store prøver sjelden. I de fleste sammenhenger anbefales fra 4 til 6 enheter i hver stikkprøve. Hvis kundens kvalitetskrav er meget strenge i forhold til prosessens naturlige variasjon, anbefales det å benytte større stikkprøvestørrelse. Kontrollen bør rette seg mot kritiske egenskaper ved produktet eller prosessen. Valget av målevariabler og kvalitetsindikator må derfor baseres pa god faglig innsikt og analyser av historiske målevariabler. Kanskje kan en korrelasjons- eller regresjons analyse hjelpe oss til å se hvilke målevariabler som indikerer om produktet blir godt eller ei? (Dette diskuteres nærmere i oppgave 3 på side 258.) I resten av avsnittet skal vi konsentrere oss om spørsmål 5, knyttet til de vanligste kvalitetsindikatorene: Hvordan kan vi finne “gode" kontrollgrenser? Notasjon 263 Symbolbruken vil være felles i alle avsnittene. Stikkprøvens størrelse kalles n. Måleverdien til stikkprøvens enhet nummer i kalles Afi. Vi forutsetter at X, er tilnærmet normalfordelt med forventning p og standardavvik ct. Vi forutsetter at alle X-ene er uavhengige, både innenfor stikkprøven og mellom de ulike stikkprøvene.
302
KAPITTEL 9.
STATISTISK KVALITETSSTYRING
Vi kaller den nedre kontrollgrensen Cj (lower control) og den øvre kontrollgrensen C((upper control).
9.1.1
Shewhart x-diagram
Det vanligste kvalitetsavviket skyldes at prosessens forventningsverdi p endrer seg underveis, bort fra den ønskede verdien p0. En sUk forandring, som kan skyldes verktøyslitasje, er vist i figur 9.1b. For a oppdage slike avvik er det naturlig å benytte gjennomsnittet X = (Å'j + X2 + • • • + A'n)/n som kvalitetsindikator. Siden de enkelte malingene er tilnærmet normalfordelte. vet vi at X er tilnærmet nor målfor delt. Kontrolldiagrammet benyttes som nevnt for a utføre en hypotesetest. I denne situa sjonen kan hypotesene formuleres slik:
Hq
:
Prosessen er stabil (p = p0)
Hy
:
Kvalitetsavvik har inntruffet (p
p0)
Dette er en situasjon der vi kan foreta en Z-test dersom standardavviket er kjent. Fra regel 203 (alternativ 3) vet vi at nullhypotesen skal beholdes dersom den observerte Z-verdien er mellom grensene ±za/2. Dette uttrykket kan omskrives til et uttrykk der det observerte gjennomsnittet x er klemt mellom to grenser: Vi tror på Hy hvis
p0 - za/2-^= 0.90
Æ(0.06) < 0.05
Betingelsen for poissontilnærmelsen er oppfylt, slik at vi kan beregne K(jfi for ulike valg avn og p med utgangspunkt i formel 9.10. Den følgende tabellen angir noen mulige prøveplaner. (Slå opp i tabell E.2 med X — np og sjekk tallene.) Det beste valget av de foreslåtte er å ta en stikkprøve med n = 110 bolter og godta partiet hvis vi finner c = 2 eller færre defekte blant disse.
Prøvest ørrelse n Kritisk verdi c
Æ (0.01) 71(0.06)
50 1 0.91 0.42
50 2
0.99 0.42
100 2 0.92 0.06
100 3 0.98 0.15
110 2 0.90 0.04
120 2 0.87 0.03
Det finnes en mengde tabellverk og grafiske løsningsmetoder (nomogrammer) som kan hjelpe oss til å finne en passende prøveplan. Du kan fa god hjelp i Norsk Standard NS 5800: Prosedyrer for stikkprøvetaking og tabeller for attributtkontroll. Tabell 9.2 viser anbefalt stikkprøvestørrelse n og tilhørende kritisk verdi c for såkalt normal kontroll med kontrollnivå II. Med andre kontrollnivåer eller andre AQZ-prosenter må standarden konsulteres. Tabell 9.2 skulle likevel gi deg en pekepinn om hvilke stikkprøvestørrelser det er snakk om. Anta at du mottar et vareparti pa 1000 enheter. Du kan akseptere at 2.5 % av enhetene er defekte. Da sier tabellen at du skal ta en stikkprøve på 80 enheter, og akseptere partiet hvis du finner fem eller færre defekte blant disse.
9.3.
319
AKSEPTANSKONTROLL
Varepartiets størrelse X under 25 26-50 51-90 91-151 151-280 281-500 501-1200 1201-3200 3201-10000 10000-35000 35001-150000 over 150000
Stikkprøvens størrelse n 5 8 13 20 32 50 80 125 200 315 500 800
Kritisk verdi c for valgt kvalitetsnivå (AQL%) 0.10 1.0 2.5 10.0 1 0 i l 2 l T 3 0 l l 1 5 l T 2 7 l i 3 10 l 2 14 5 1 7 21 3 0 5 10 T T 14 7 l T 21 1 10 T 14 2 T T
Tabell 9.2: Anbefalt stikkprøvestørrelse n og kritisk verdi c for attributtmetoden. Varepartiet godtas hvis vi observerer c eller færre defekte blant de n. Pil betyr at større/mindre stikkprøve er nødvendig.
9.3.3
Akseptanskontroll basert på målinger
Når kvaliteten males kvantitativt langs en maleskala, benytter vi toleransegrenser som uttrykker kundens krav. Generelt sett finnes det både en nedre toleransegrense T^ og en øvre toleransegrense Tu. Mellom disse finnes det en kverdi 3/ som vi ønsker at enhetene skal ha. For enhet nummer i registrerer vi måleverdien Xi. Enheten er OK hvis dens måleverdi befinner seg mellom de to toleransegrensene, og defekt ellers. Denne type kontroll kalles variabelmetoden. Vi kontrollerer n enheter og får måledataene Xi. X?,.... Xn. De fleste testmetoder forutsetter at X-ene er uavhengige og normalfordelte med forventning p og standard avvik rr. Siden parameterne vanligvis er ukjente, baserer vi oss på estimert gjennom snitt X og standardavvik S. Estimeringen gjøres på vanlig mate. Med utgangspunkt i karakteristikken K(p) er det mulig å regne seg fram til en fornuftig stikkprøvestørrelse n og en beslutningsregel som sier hvilke verdier av X og S som skal lede til forkasting (se kommentar på side 320). Det er imidlertid ganske arbeidsomt, og tidligere utført av andre kloke hoder. Istedenfor å utlede kompliserte regler skal vi bli litt kjent med tankene i den internasjonale standarden ISO 3951: Sampling procedures and charts for inspection by variables. Det er naturlig å forkaste varepartiet dersom det observerte gjennomsnittet 7 er utenfor toleransegrensene. Hvis gjennomsnittet er mellom toleransegrensene, vil stør relsen på det observerte standardavviket s avgjøre om varepartiet skal aksepteres eller ei. se figur 9.11. En enkel beslutningsregel lyder:
Aksepter vareparti hvis:
T^ + k ■ s < x < T{ — k ■ s.
(9.11)
der k kalles testens kritiske verdi. Dersom standardavviket er spesielt stort, anbefales det å være enda litt strengere og avvike noe fra lineariteten i regelen ovenfor. Dette prinsippet er illustrert i figur 9.16. For å benytte en slik figur må vi først velge AQLprosent og deretter sjekke om punktet (s.T) havner inne i det akseptable området eller ei. Den nevnte ISO-standarden refererer til en mengde slike figurer som passer i ulike situasjoner. ISO-standarden forteller hvilken stikkprøvestørrelse vi bør velge, avhengig av stør relsen pa varepartiet og vare nøyaktighetskrav. Vanligvis gjennomføres normal kontroll
320
KAPITTEL 9. STATISTISK KVALITETSSTYRING
Figur 9.16: Beslutningsregel ved kontroll basert på x og s med såkalt kontrollnivå II. Tabell 9.3 viser anbefalt stikkprøvestørrelse n og tilhørende kritisk verdi k for denne typen kontroll. Med andre kontrollnivåer, større varepartier eller andre AQZ-prosent må ISO-standarden konsulteres. Tabell 9.3 skulle likevel gi deg en pekepinn om hvilke stikkprøvestørrelser det er snakk om. Selv om varepartiet er uendelig stort, anbefales ikke mer enn 200 enheter i stikkprøven. Eksempel 273 La oss returnere til No Car i eksempel 271 og se på bil fabrikkens mot
tak av 2000 bolter. Bedriften regner en bolt som OK hvis dens diameter Xl er mellom
Tl = 20.5 mm og Ty — 20.9 mm. Bedriften aksepterer en feilandel på AQL = 1 %. Siden varepartiets størrelse er N — 2000 skal stikkprøvens størrelse være n = 50 ifølge tabell 9.3. Den samme tabellen sier at vi skal benytte den kritiske verdien k = 1.93. Bedriften velger ut 50 tilfeldige bolter og kontrollmåler dem. Gjennomsnittet av målin gene ble x = 20.54 mm, og standardavviket ble s = 0.04 mm. Forkastingsgrensene i ligning 9.11 kan da regnes ut som nedenfor. Siden den første betingelsen ikke er oppfylt, kan vi ikke akseptere varepartiet! TL+k-s
=
20.5 + 1.93-0.04 = 20.58 fx
Tu-k-s
=
20.9 - 1.93 -0.04 = 20.82 >x
Ved å sammenligne eksempel 273 med eksempel 271 ser vi at nødvendig stikk prøvestørrelse ble mer enn halvert da vi gikk over til å foreta målinger (fra 110 til 50). Det samme bildet får vi også ved å sammenligne tabell 9.2 og 9.3 med hverandre. Når hver enhet bare karakteriseres som defekt eller OK - uten at vi sier hvor nær toleransegrensen vi befinner oss - da mister vi verdifull informasjon. Hvis det er mulig å foreta målinger, bør du sterkt vurdere det! Kommentar 274 Legg merke til at sannsynligheten p for at en enhet er defekt, kan beregnes slik:
P=l~ P(Tl < X, < Tu) = 1 + G(~ — -M) - G(— ' aa G er standardnormalfordelingens kumulative fordelingsfunksjon. Gjennom denne lignin gen er det mulig å regne ut hvilke p-verdier som svarer til de to fettprosentene AQL og LQ. Da kan vi omforme karakteristikken K(p) i figur 9.1 f til en kurve som går langs p-aksen. Denne karakteristikken far samme prinsipielle form som karakteristikken til venstre i figur 9.6.
321
9.4. BRUK AV DATAMASKINEN Varepartiets størrelse V under 15 16-25 26-50 51-90 91-151 151-280 281-400 401-500 501-1200 1201-3200 3201-10000
Stikkprøvens størrelse n 3 4 5 7 10 15 20 25 35 50 75
Kritisk verdi k for valgt kvalitetsnivå (AQL%) 10.0 1.0 2.5 0.10 1.12 0.57 l 1.17 0.62 1.45 l 1.53 1.24 0.68 l 1.62 1.33 0.76 l 1.72 1.41 0.83 l 2.42 1.79 1.47 0.89 2.47 1.82 1.51 0.92 1.53 0.94 2.50 1.85 2.54 1.89 1.57 0.97 1.00 2.60 1.93 1.61 1.03 2.66 1.98 1.65
Tabell 9.3: Anbefalt stikkprøvestørrelse n og kritisk verdi k for variabelmetoden. Pil betyr at større stikkprøve er nødvendig.
Hvis det bare er spesifisert en toleransegrense, kan vi se bort fra den andre. Hvis vi bare er opptatt av den nedre grensen TY, kan vi sette den øvre grensen lik Tu = oo. Fra ligning 9.11 og figur 9.16 følger det. enkelt sagt, at vi skal akseptere varepartiet hvis Tl 3- k • s < x. Hvis vi bare har en øvre grense Tu, følger det på samme måte at vi aksepterer varepartiet hvis x < Tu — k ■ s.
9.4
Bruk av datamaskinen
Mange statistikkprogrammer har standardiserte funksjoner som lager kontrolldiagram mer. Prosesstyringsverktøy som benyttes i industrien, har mange av de samme funk sjonene innebygd.
9.4.1
Excel
• Kontrolldiagram: Regn ut kontrollgrensene fra formlene i boka, og lag fire kolon ner i et regneark: en med kvalitetsindikatoren, en for nedre kontrollgrense, en med midtlinjen, og den siste med øvre kontrollgrense. Deretter markerer du hele celleomradet (gjerne med noen ekstra rader) og lager et vanlig linjediagram. velg Sett inn ► Diagram ► Linjediagram. Etter hvert som du far nye stikkprøver, fyller du bare ut nye rader, og diagrammet oppdateres automatisk. Hvis du vil lage et glidende gjennomsnitt, kan du bruke standardfunksjonen Verktøy ► Dataanalyse ► Glidende gjennomsnitt. • Kontroll av forutsetninger: For å undersøke om dataene er normalfordelte. kan du tegne et histogram, velg Verktøy ► Dataanalyse ► Histogram. (Les også avsnitt 5.7.3.) Den beste måten å undersøke om dataene er uavhengige på, er å tegne et vanlig linjediagram over alle enkeltobservasjonene og se om kurven spretter opp og ned helt tilfeldig.
9.4.2
Minitab
• Kontrolldiagram: Alle diagrammene som er nevnt i denne boka, lages ved a velge Stat ► Control Charts. Det finnes også funksjoner for å undersøke om dataene
322
KAPITTEL 9.
STATISTISK KVALITETSSTYRING
er uavhengige og normalfordelte. Velg henholdsvis Stat ► Quality Tools ► Run Chart og Stat ► Basic Statistics ► Normality Test.
• Kapabilitet: Velg Stat ► Quality Tools ► Capability Sixpack (normal). Da far du en utskrift av samme type som i figur 9.13.
9.5
Oppsummering
Når du har lest dette kapitlet, bør du • forstå at enhver prosess er utsatt for tilfeldige variasjoner • vite at prosessens variasjoner kan overvåkes med kontrolldiagrammer
• kunne kontrollere forutsetningene om uavhengighet og normalfordeling • kunne lage og bruke Shewhart-diagram, s-diagram og p-diagram
• kunne bruke datamaskinen til å lage kontrolldiagrammer • kunne beregne Shewhart-diagrammets karakteristikk og tid til alarm • kunne beregne kapabilitetsindeks og forstå hva tallverdien betyr
• kunne foreta akseptanskontroll etter attributtmetoden
9.6
Oppgaver
1. Et bryggeri foretar kontrollmalinger av ølvolumet i sine halvliters ølflasker. Hvert 15. minutt tas det ut fem tilfeldige ølflasker der volumet måles. Resultatene etter tre timer er vist i den følgende tabellen. Lag et Shewhart-diagram for volumet. Tegn inn gruppenes gjennomsnittsverdier i diagrammet. Kontroller at forutsetningene er tilfredsstilt, og kommenter resultatet. Tabell: Maling av volum i ølflasker
Stikkprøve nummer 1 2 3 4 5 6 7 8 9 10 11 12
1 0,502 0,497 0,509 0,489 0,502 0,491 0,480 0,491 0,484 0,473 0,507 0,528
2 0,510 0,512 0,503 0,499 0,479 0,491 0,512 0,509 0,501 0,526 0,532 0,490
Måling nummer 3 0,508 0,469 0,507 0,497 0,518 0,508 0,529 0,526 0,495 0,514 0,470 0,515
4 0,529 0,515 0,516 0,490 0,517 0,516 0,497 0,536 0,452 0,510 0,490 0,464
5 0,523 0,473 0,487 0,483 0,483 0,500 0,501 0,507 0,502 0,511 0,490 0,486
Gjennom snitt 0,514 0,493 0,504 0,492 0,500 0,501 0,504 0,514 0,487 0,507 0,498 0,497
Standard avvik 0,0112 0,0216 0,0107 0,0064 0,0185 0,0107 0,0184 0,0173 0,0210 0,0199 0,0232 0,0254
Varians
0,00012 0,00047 0,00011 0,00004 0,00034 0,00011 0,00034 0,00030 0,00044 0,00040 0,00054 0,00064
2. En mølle produserer mel som pakkes i melposer å 2 kg. Ved slutten av hver time tas det ut fem tilfeldige melposer som kont roll veies. Resultatene etter et døgns malinger er vist i den følgende tabellen. • Hvilke kontrolldiagrammer er det aktuelt a lage? Er forutsetningene om uavhengighet og normalfordeling tilfredsstilt? • Lag et Shewhart-diagram for a kontrollere vekten av posene. Bruk alle dataene i tabellen for a beregne kontrollgrensene. Tegn inn alle stikkprøvenes gjennomsnittsvekt i kontrolldiagramrnet. Kommenter resultatet.
9.6. OPPGAVER
323
• Lag et s-diagram for a kontrollere variasjonen i vekten. Bruk de samme dataene, og kommenter resultatet. Tabell: Malt vekt av melposer
Stikkprøve nummer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
1 2,008 2,002 1.977 2,007 1,988 2.068 2,029 1,952 2.012 2,052 1,965 1,911 1.981 2,081 1,986 2,116 1,963 2,097 2,305 2,105 2,082 2.057 2.143 2,109
Måling nummer 3 2,033 2,017 2,126 2,024 2,032 2,119 2,063 2.009 2.057 2,044 1,974 1,979 2.111 2,056 1,901 2,119 2,252 2.365 2,216 2,179 2,071 2,003 1,985 2,068
2 1,990 1,977 2,087 2,048 1,980 1,922 2,062 2.007 1,926 2.044 2,038 1,957 1,958 2,013 1,995 2,043 2,187 2,233 2,113 2,211 2.413 1.903 2,028 2.264
4 2,090 1,993 2,037 1,942 1.964 2,009 2,025 1.903 1.989 2.013 1,948 2,000 1,989 1,949 1,953 2,182 2,184 1.966 1.943 2,053 2.045 2,138 2,206 2,063
Gjennom snitt 2,027 2,001 2,033 1,999 1,989 2,031 2,032 1,976 2.000 2,013 1,981 1,968 2,024 2,011 1,955 2,151 2,140 2,120 2,148 2,150 2,155 2,033 2,086 2,114
5 2,015 2,014 1,940 1,973 1,979 2,035 1.984 2.008 2,018 1,912 1,979 1,990 2,078 1,956 1.942 2,295 2,113 1,941 2,161 2,202 2,164 2,063 2,066 2,064
Standard avvik 0,0384 0,0163 0,0765 0,0418 0,0256 0,0732 0,0323 0.0475 0,0484 0,0586 0,0341 0,0353 0.0667 0,0588 0,0375 0,0945 0,1105 0,1797 0,1350 0,0687 0,1507 0,0869 0,0889 0,0862
Varians
0,00147 0.00027 0,00585 0,00175 0,00065 0.00535 0,00104 0,00225 0.00234 0.00343 0,00116 0.00125 0,00445 0,00346 0,00141 0.00893 0,01221 0,03230 0,01824 0,00472 0,02272 0,00756 0,00791 0,00743
3. En pizzafabrikk foretar kontrollmålinger av pizzaenes diameter. Etter hver tus ende produserte pizza tas det ut seks tilfeldige pizzaer som kontrollmåles. • Lag et kombinert x-.s diagram for pizzaenes diameter. Kommenter resul tatet. • For de samme stikkprøvene måles også pizzaenes vekt. Hvordan kunne vi overvåke vekt og diameter samtidig? Tabell: Målt diameter (cm) av pizzaer Stikkprøve nummer 1 2 3 4 5 6 7 8 9 10
1 29,35 29.83 30,76 30,46 28,99 30,33 28,83 30,31 29,84 30,34
2 29,86 29,18 28,92 30,23 29,89 29,90 29,78 28,99 29,58 30,21
Måling nummer 4 3 29.52 29.53 30,21 30,01 29,90 29,81 30,41 29,64 30,94 29.81 30,53 30,20 30,80 29,52 30,15 30,61 30,68 30,78 30,36 30,31
5 30,34 30,02 29.81 29,89 30,39 28,82 29,91 29,25 30.39 29,47
6 30,63 30,19 30,28 29,55 31,05 30,74 30,83 30,09 30,40 29,48
Gjennom snitt 29.870 29,906 29,913 30,031 30,180 30,087 29.944 29,900 30,278 30,028
Standard avvik 0,5111 0.3813 0,6103 0,3902 0,7779 0,6838 0,7701 0,6336 0.4701 0,4314
Varians
0.26118 0,14539 0,37253 0,15226 0.60514 0,46760 0,59301 0,40147 0,22100 0,18612
4. En leketøyfabrikk produserer lakkerte lekebiler i metall. Fabrikken foretar stikkprøvekontroller for å sikre at lakken har god kvalitet. Hver dag tas det ut 250 tilfeldige lekebiler som klassifiseres som OK eller defekte. Resultatene etter to uker er vist nedenfor. • Lag et p-diagram eller np-diagram for a kontrollere andel/antall defekte. Bruk alle dataene i tabellen for å beregne kontrollgrensene, og tegn inn observasjonene i diagrammet. Er prosessen stabil?
• Er antall defekte i en stikkprøve tilnærmet normalfordelt? • Hvor stor er sannsynligheten for at p-diagrammet vil gi falsk alarm? Tabell: Kvalitativ kontroll av lekebiler
Dag nr. Antall defekte
1 3
2 3
3 1
4 3
5 4
6 6
7 4
8 6
9 4
10 4
11 5
12 2
13 3
14 1
KAPITTEL 9.
324
STATISTISK KVALITETSSTYRING
5. Ølflaskene i oppgave 1 kjøpes inn av en butikkjede som krever at volumet skal ligge mellom grensene 0.48 og 0.52 liter. Beregn bryggeriets kapabilitetsindeks. Er kvaliteten god nok?
6. Melposene i oppgave 2 er bestilt av en husmorforening som krever at vekten skal være mellom grensene 1.8 og 2.2 kg. Beregn produksjonens kapabilitetsindeks. Er kvaliteten god nok? 7. En bedrift kjøper inn 30 000 lyspærer. De krever at defektandelen skal være liten, og planlegger å gjennomføre akseptanskontroll. De vil ta et tilfeldig utvalg pa 300 enheter, og godta partiet dersom det er sju eller færre defekte. Beregn og skisser metodens karakteristikk. Diskuter testen i forhold til konsument risiko og produsentrisiko.
8. En bedrift importerer 100 000 ballonger fra en leverandør som ikke kan doku mentere sin kvalitet. Bedriften kan akseptere inntil 2.5 % defekte i ballongene, som skal selges videre til lettlurte barn. • Hvor stor stikkprøve bør akseptanskontrollen baseres på?
• Bedriften velger å ha 400 enheter i stikkprøven, og bestemmer seg for å godta partiet hvis det er 17 eller færre defekte. Beregn sannsynligheten for at bedriften kommer til å akseptere et vareparti med 5 % defekte. • Bedriften synes at konsument risikoen i det forrige delspørsmålet er for høy. Hvordan kan stikkprøveopplegget endres slik at konsumentrisikoen blir min dre? 9. En elektriker kjøper inn 1000 skjøteledninger. Han kan akseptere at inntil 1 % av ledningene ikke tilfredsstiller kravet om at den elektriske motstanden skal være mellom 7.45 og 7.70 ohm. For å kontrollere varepartiet foretar han akseptanskon troll ved å velge ut 35 tilfeldige ledninger. Måleresultatene er vist i den følgende tabellen.
• Hvor mange kontrollmålinger er utenfor det tillatte intervallet? Hva betyr det? • Elektrikeren vil bruke beslutningsregelen i ligning 9.11 med hjelp av tabell 9.3. Skal varepartiet forkastes eller godtas? Tabell: Akseptanskontroll av skjøteledninger. Målt motstand (ohm)
7,60 7,55 7,62 7,56 7,53
7,53 7,52 7,47 7,58 7,57
7,58 7,60 7,57 7,49 7,53
7,54 7,49 7,57 7,45 7,55
7,59 7,68 7,50 7,61 7,58
7,50 7,51 7,54 7,49 7,55
7,47 7,47 7,53 7,63 7,55
Kapittel 10
Simulering 10.1 10.2 10.3 10.4 10.5 10.6
Simulering Simulering Simulering Simulering Simulering Simulering
av tilfeldig tall av en tilfeldig variabel med datamaskinen av flere tilfeldige variabler av sammensatte funksjoner av integral *
Side Side Side Side Side Side
326 327 329 331 335 339
I noen situasjoner er det mulig å utføre forsøk for a observere verdien til en sto kastisk variabel, men vanligvis er det for kostbart, for tidkrevende eller umulig å utføre tilstrekkelig mange forsøk. Det er her simulering kommer inn i bildet. Vi kan bruke datamaskinen til å utføre mange liks om-forsøk. Vi kan simulere varigheten av stort prosjekt hvis vi kjenner sannsynlighetsfordelingen til varigheten av de enkelte del prosjektene og vet hvordan de ulike delprosjektene følger etter hverandre i tid. Vi kan simulere påliteligheten til et teknologisk system hvis vi kjenner sannsynlighets fordelingen til komponentenes levetider, og vet hvilke komponenter som må virke for at systemet skal virke.
Det er ikke nødvendig at datamaskinen beskriver det fysiske forløpet i slike forsøk. Det er tilstrekkelig at den etterligner de stokastiske variablene som er involvert. For at simulering skal fungere, er det i hovedsak tre krav som må være oppfylt: 1. Vi må være i stand til å dele opp problemet i mindre delproblemer. Delproblernene bør helst være uavhengige av hverandre.
2. Vi ma kjenne sannsynlighetsfordelingen til stokastiske variabler som beskriver delproblemene.
3. Datamaskinen må være i stand til a generere tilfeldige tall.
I resten av kapitlet skal vi se på de tre temaene ovenfor i omvendt rekkefølge: Først skal vi se hvordan datamaskinen lager tilfeldige tall. Deretter skal vi lære å simulere stokastiske variabler fra en kjent sannsynlighetsfordeling. Til slutt skal vi se hvordan vi kan simulere oppførselen til sammensatte problemer av typen prosjekt varighet, pålite lighet osv. Etter at du har lest dette kapitlet, skal du være i stand til å foreta enkle simuleringer med datamaskinen. Simulering er utrolig nyttig, og du vil garantert ikke angre pa at du investerer noen timer pa å lære deg de nødvendige ferdighetene. 325
KAPITTEL 10.
326
Virkelige forsøk
SIMULERING
Simulering
eller
Figur 10.1: Det er enklere å la datamaskinen simulere enn å utføre forsøket selv.
10.1
Simulering av tilfeldige tall
Det finnes ingenting i en datamaskin som er tilfeldig. Nar datamaskinen genererer et tilfeldig tall, foretar den en beregning som gir et tallsvar som ser tilfeldig ut. I daglig talen omtaler vi tallene som tilfeldige, selv om de egentlig bare er pseudo-tilfeldige. Det finnes ulike formler som brukes for å generere tilfeldige tall. Vanligst er rekursive formler der vi beregner neste tall med utgangspunkt i forrige tall, slik: ui
=
/(u0)
Uk+l
=
f(Uk)
For at beregningen skal komme i gang, trenger datamaskinen start verdien uq. Alle de andre verdiene u1,u.2,... blir bestemt av denne start verdien, som derfor kalles beregningens frø (engelsk: random number seed). De fleste simuleringsprogrammer gir oss muligheten til a spesifisere en start verdi. Hvis vi ikke spesifiserer en startverdi, bruker datamaskinen sin interne dato og tid som startverdi. Når vi bruker samme startverdi to ganger, far vi identisk like sekvenser av tilfeldige tall! Når vi bruker et anerkjent dataprogram, kan vi gå ut fra at programmet innehold er en god generator. Vi trenger ikke bruke energi på a kontrollere programmerernes arbeid, eller å finne opp en egen generator. Vi skal likevel nevne de viktigste kravene til en generator som lager tilfeldige u-tall i intervallet [0.1): • Tallene skal være uavhengige av hverandre. Det betyr at det ikke må være en sammenheng mellom naboverdier, eller noen systematisk trend, eller noe annet synlig mønster. En kurve over tallene, presentert i rekkefølge, skal se ut som en kurve som spretter helt tilfeldig opp og ned. • Tallverdiene skal være noenlunde jevnt fordelt over intervallet. Det betyr at den empiriske fordelingsfunksjonen F[/(u) (definert pa side 216) skal ligne pa den rettlinjede, uniforme fordelingsfunksjonen F(u) = u. Når antall tilfeldige tall blir stort, krever vi derfor at Fu(u) —> u.
Tilfeldige tall som tilfredsstiller kravene ovenfor, sies å være generert fra den uni forme sannsynlighetsfordelingen. I resten av kapitlet skal vi se hvordan vi kan omgjøre slike tilfeldige tall til tilfeldige observasjoner av en stokastisk variabel X. Men aller først - la oss se et eksempel på en slumptallsgenerator. Eksempel 275 Lag 100 pseudotilfeldige desimaltall mellom 0 og 1.
Løsning: Det finnes uendelig mange mulige slumptallsgeneratorer. En "hjemme laget’1 generator presenteres her: Uk+i = Desimaldelen av [31415.92653 x u^]
10.2.
SIMULERING AV EN STOKASTISK VARIABEL
27
Kumulativ fordelingsfunksjon til 100 pseudo-tilfeldige tall
0,0
0,2
0,4
0,6
0,8
1,0
Tall verdi (u)
Figur 10.2: Noen hjemmelagde tilfeldige tall og deres empiriske fordelingsfunksjon
Startverdien må være et. desimaltall. Vi velger startverdien uq = 0.03971. Da finner vi:
ui
=
Desimaldelen av [31415.92653 x 0.03971 = 0.52644
U2
=
Desimaldelen av [31415.92653 x 0.52644] = 0.60036
u,3
=
Desimaldelen av [31415.92653 x 0.60036 = 0.86565
«4
=
Desimaldelen av [31415.92653 x 0.86565] = 0.19680
Jeg har fått Excel til å fortsette beregningene. Et plott av de 100 tallene og deres empiriske fordelingsfunksjon er vist i figur 10.2. De to kravene ovenfor ser ut til å være rimelig godt tilfredsstilt, .siden kurven over de tilfeldige tallene spretter opp og ned "helt tilfeldig’', og siden F(u) ligner pa en rett linje. Kommentar: Hvis vi genererer mange tall, vil vi etter en stund få et tall som, er identisk likt et av de andre tallene som vi har generert tidligere. Da vil alle tall som, genereres etterpå, også ha vært generert før. Vi sier at generatoren lager en syklus av tall. For at generatoren skal være god, er det viktig at sykluslengden er så stor at vi ikke opplever en slik gjentakelse i løpet av vår simulering. I eksemplet ovenfor er den teoretisk maksimale sykluslengden lik 10J, siden vi bare har tatt med fem, desi maler. I praksis blir imidlertid sykluslengden betydelig kortere, og avhenger både av slumptallsgeneratoren og av det frøet vi har valgt.
10.2
Simulering av en stokastisk variabel
I en simulering genererer vi en tallverdi for variabelen X. Dette gjøres pa en slik måte at vi kan oppfatte tallverdien som resultatet av et hypotetisk forsøk. Hvis vi genererer r verdier for variabelen X, sier vi at vi utfører r replikasjoner. Det svarer til a gjenta det hypotetiske forsøket r ganger. Det er verdt a utdype begrepet "hypotetisk forsøk". Dersom det er mulig å utføre virkelige forsøk, er fortolkningen åpenbar. Dersom det ikke er mulig a utføre virke lige forsøk, må vi bruke fantasien litt og forestille oss et forsøksopplegg: Hvis X er varigheten av et bestemt delprosjekt, kan vi innbille oss at det finnes flere lignende delprosjekter, eller at det samme delprosjektet kan utføres om igjen flere ganger, slik at vi kan registrere de ulike varighetene. Hvis X er levetiden til en bestemt nordmann, kan vi forestille oss at han lever livet sitt om igjen flere ganger, slik at vi far registrert de ulike levetidene. Vi ønsker å generere en tallverdi for en stokastisk variabel X med fordelingsfunksjon F(x). Aller først må vi sa vidt innom begrepet invers fordelingsfunksjon F-1(u). Figur
328
KAPITTEL 10. SIMULERING
Figur 10.3: Invers fordelingsfunksjon i det kontinuerlige og diskrete tilfellet.
10.3 illustrerer pa en enkel mate hva den inverse funksjonen er: Vi starter vi med en u mellom 0 og 1 og finner den x-verdien som svarer til u-verdien. Denne x-verdien er den inverse av u. Hvis variabelen er kontinuerlig, vil den inverse funksjonen F-1(u) være den verdien som løser ligningen u = F (x). Hvis variabelen er diskret, må vi finne den minste x-verdien som tilfredsstiller ligningen u < F(x). Eksempel 276 Anta at levetiden X til en lyspære er eksponentialfordelt. Da er fordel ingsfunksjonen
F(x) = 1 — e~Xx.
x > 0
La oss sette u = F (x), og løse denne ligningen slik at vi finner x uttrykt som en funksjon av u. Dette kalles den inverse fordelingsfunksjonen x = F-1(u). For ekspo nentialfordelingen finner vi F-1(u) = — — ln(l — u), Å
0 < u < 1
Når vi kjenner den inverse funksjonen, kan vi generere tilfeldige observasjoner for den stokastiske variabelen. Dette forklares i den følgende regelen, som er simuleringsfagets viktigste teoretiske basis. Logikken bak simuleringsteoremet er enklere enn man skulle tro, og illustrert i figur 10.4. Følgende regel begrunnes matematisk på side 375. Regel 277 (simuleringsteorem) Datamaskinen kan generere observasjoner for en
hver variabel X med kjent invers fordeling, slik • Maskmen genererer r uavhengige, tilfeldige tall Ui,U2,... , ur mellom 0 og 1. • Maskinen beregner r nye tall, xi, x-2,... , xr ved formelen Xi = F-1(u^). • Da vil tallene X\,X2,... ,xr være uavhengige liksom-observasjoner av X. Eksempel 278 Vi antar at levetiden X til en lyspære er eksponentialfordelt med para meter p = 1/X = 1500 timer. Generer fire tilfeldige levetider for en slik lyspære. Løsning: Vi kjenner den inverse fordelingsfunksjonen F-1(u) = — ylnfl — u) fra eksempel 276. Simuleringsteoremet ovenfor sier oss at Xi = F~1(ui) er tilfeldige, uavhengige observasjoner av en eksponentialfordelt variabel. Vi benytter de tilfeldige tallene Ui fra eksempel 275, og regner ut de tilsvarende Xi-verdiene. Vi kan tenke pa x-verdiene som resultatet av fire hypotetiske forsøk hvor vi observerte levetiden til en reparerbar lyspære. Vi har med andre ord fått datamaskinen til å simulere fire gjentatte forsøk for oss. Resultatet er vist i tabell 10.1 (der x-ene er oppgitt i timer).
10.3.
329
SIMULERING MED DATAMASKINEN
Et tilfeldig tall mellom 0 og 1.
Gir oss en tilfeldig tallverdi av variabelen X som har fordelingsfunksjon F(x). Figur 10.4: Simulering basert på invers fordelingsfunksjon
Replikasjon nr. 1 2 3 4
Tilfeldige tall i [0, 1 0.52644 0.60036 0.86565 0.19680
Tilfeldige — 1500 • ln(l — — 1500 • ln(l — — 1500 • ln(l —1500 • ln(l —
verdier for X 0.52644) = 1121 1376 0.60036) = 0.86565) = 3011 329 0.19680) =
Tabell 10.1: Simuleringsteoremet forteller oss at vi kan regne tilfeldige tall mellom 0 og 1 om til tilfeldige observasjoner av X. ved hjelp av den inverse fordelingsfunksjonen.
Dessverre er det sjelden mulig å skrive den inverse funksjonen F-1 som et enkelt formeluttrykk. Da kan vi ikke bruke simuleringsteoremet direkte, men det finnes måter a trikse seg ut av dette problemet pa. De fleste dataprogrammer finner en tilnærmet verdi for den inverse funksjonen ved å foreta iterative beregninger. For normalfordelin gen finnes det en enda smartere mulighet, som beskrives i oppgave 16. Før vi forlater simuleringsteorien, skal det nevnes at vi kan generere observasjoner av en variabel X uten å kjenne dens inverse fordeling. Det er tilstrekkelig å kjenne formen på sannsynlighetstettheten f (x) over verdimengden [a. b]. Denne simuleringsmåten kalles acceptance sampling på engelsk, fordi vi først genererer observasjoner og deretter sjekker om vi kan akseptere dem. Vi skal ikke beskrive denne teorien, men logikken er enkel og blir forklart i oppgave 17.
10.3
Simulering med datamaskinen
I fortsettelsen skal vi se hvordan vi kan bruke Excel og Minitab til å generere tilfeldige tall. Hvis du bruker et annet program, vil det antakelig fungere pa noenlunde samme mate. De fleste programmer genererer tilfeldige tall basert pa den inverse kumulative funksjonen F-1. Hvis den inverse funksjonen er ukjent, foretas iterative beregninger for å finne en tilnærmet riktig verdi. Alle sirnuleringsprogrammer ber deg om å oppgi parameterne til den fordelingen du ønsker a generere tall fra. Vær nøye med å kontrollere at du oppgir riktige parametere. Dette er særlig viktig i forbindelse med eksponentialfordelingen. der noen programmer ber orn raten Å, mens andre programmer ber om forventningen p = 1/Å. Du bør vanligvis overlate til datamaskinen a velge startverdi for sl umpt alis genera toren. Hvis du oppgir startverdi selv, må du huske å endre denne hver gang du skal generere en ny, uavhengig tallserie. Før du forlater dette avsnittet, bør du lære deg å generere tilfeldige tall på din datamaskin.
330
KAPITTEL 10.
10.3.1
SIMULERING
Excel
• For de vanligste sannsynlighetsfordelingene finnes det en egen kommando for a generere tilfeldige tall. Velg Verktøy ► Dataanalyse ► Generering av tilfeldig tall. Da far du opp vinduet som er vist i figur 10.5 og blir bedt om a velge fordeling og fylle inn de nødvendige parameterne.
• For de litt mindre vanlige fordelingene må vi ga veien om den inverse fordelings funksjonen. Excel har forhåndsberegnet inverse funksjoner for bl.a. kjikvadratfordelingen, student t-fordeling, Fishers F-fordeling og gammafordelingen (der eksponentialfordelingen er et spesialtilfelle). Vi genererer tilfeldige tall fra en av disse fordelingene slik: Generer først tilfeldige tall mellom 0 og 1 i kolonne A ved hjelp av kommandoen Verktøy ► Dataanalyse ► Generering av tilfeldig tall ► Uniform. I kolonne B plasserer vi den ønskede inverse funksjonen (Velg: Sett inn ► Funksjon ► Statistisk ► INVFORDELINGSNAVN. • I tillegg har Excel en funksjon som heter TILFELDIG(), som gir et tilfeldig tall mellom 0 og 1. Ulempen med denne funksjonen er at det regnes ut en ny tilfeldig tallverdi hver gang regnearket oppdateres. For de fleste av våre anvendelser er det derfor bedre og enklere å lage tilfeldige tall etter metoden beskrevet i det første punktet ovenfor.
10.3.2
Minitab
• Velg Calc ► Random Data ► Fordelingsnavn. Du må angi hvor mange observasjoner du ønsker (antall rows), hvor de tilfeldige tallene skal plasseres (columns), og spesifisere fordelingens parametere.
10.3.3
Noen eksempler
Resten av eksemplene i kapitlet baserer seg på bruk av datamaskinen. Forsøk derfor å lære deg a bruke ditt dataprogram før du leser videre. Eksempel 279 Generer 20 observasjoner fra standardnormalfordelingen. Minitab: Velg Calc ► Random Data ► Normal og angi at du ønsker 20 rows, hvilken kolonne de tilfeldige tallene skal plasseres i (columns), og spesifiser fordelingens parametere.
Excel: Siden dette er en av de vanligste sannsynlighetsfordelingene, finnes det en egen kommando for å generere tilfeldige tall. Vi velger Verktøy ► Dataanalyse ► Generering av tilfeldig tall og fyller inn den dialogboksen som. åpnes: Vi sier at vi skal ha 1 variabel (betyr at tallene plasseres i samme kolonne) og 20 tilfeldige tall for denne variabelen. Deretter velger vi Normalfordeling og angir median = 0 og standardavvik 1 (median og gjennomsnitt er samme sak for normalfordelingen). Vi velger å ikke oppgi et tilfeldig starttall. Til slutt sier vi hvor de tilfeldige tallene skal plasseres i regnearket. Resultatet av udr dialog, og de 20 tilfeldige tallene, er vist i figur 10.5.
Eksempel 280 Husker du trykkeriet fra eksempel 97, der den diskrete variabelen X var antall henvendelser til trykkeriet en tilfeldig dag. Generer 20 tilfeldige verdier av X.
Minitab: Skriv inn sannsynlighetsfordelingen i to kolonner: x-verdier i kolonne Cl og sannsynligheter P(X = x) i kolonne C2. Velg Calc ► Random Data ► Discrete.
10.4.
SIMULERING AV FLERE STOKASTISKE VARIABLER
331
Figur 10.5: Slik genererer du tilfeldige tall fra normalfordelingen i Excel.
og angi at du vil ha 20 rader med tall plassert i kolonne C3. Angi Values in Cl og Probabilities in C2. Excel: Først må vi angi sannsynlighetsfordelingen et sted i regnearket. Vi velger a plassere sannsynlighetsfordelingen i kolonnene A og B. Når den jobben er gjort, velger vi Verktøy ► Dataanalyse ► Generering av tilfeldig tall på samme måte som i forrige eksempel. Alen nå velger vi Diskret fordeling og oppgir cellereferansen til området der sannsynlighetsfordelingen er plassert. Etter a ha krysset av OK far vi resultatet som er vist i figur 10.6. der de tilfeldige tallene er vist i kolonne D.
Eksempel 281 Vi antar at levetiden X til en lyspære er eksponentialfordelt med. for ventet levetid [i = 1/Å = 1500 timer. Generer 1000 verdier x i for denne levetiden.
Minitab: Velg Calc ► Random Data ► Exponential. og fyll inn opplysningene. Excel: Vi må, gå veien om. den inverse funksjonen. Først genererer vi en kolonne med tilfeldige tall mellom 0 og 1, ved a velge Verktøy ► Dataanalyse ► Generering av tilfeldig tall (vi angir at vi skal ha 1 variabel, med 1000 tall, fra. uniform fordel ing). Deretter må vi benytte eksponentialfordelingens inverse funksjon, som. vi kjenner fra eksempel 276. Eksponentialfordelingens inverse funksjonen kalles i Excel for GAMMAINV(u;l:p) og kan plasseres i en tabellcelle og kopieres til alle de andre aktuelle cellene. Et utsnitt av resultatet, er vist i figur 10.7.
10.4
Simulering av flere stokastiske variabler
I de fleste praktiske situasjoner er vi interessert i flere stokastiske variabler samtidig. Variablene Å'i. X^, .... X% kan være varigheten av åtte delprosjekter i et stort in dustriprosjekt. Vi ønsker å generere en kolonne med observasjoner for hver variabel. Noen simulerte observasjoner er vist i figur 10.8. Varighetene i samme rad skal tolkes som observerte varigheter knyttet til ett og samme hypotetiske hovedprosjekt. De ulike radene er statistisk uavhengige av hverandre. Nar vi foretar r replikasjoner, betyr det at tabellen skal fylles ut med r rader.
KAPITTEL 10. SIMULERING
332
A
1 2 3 4 5 6 7
X
0 1 2
8
9 10 11 12 13 14 15 16 17 18 19 20 21
B
SANNSYNLIGHETSFORDELING
4 5 6 7 Sum
P(X=x) 0,09 0,20 0,26 0,18 0,11 0,08 0,05 0,03 1,00
Generering av tilfeldig tall
TILFELDIGE TALL
Antall variabler; Antall tilfeldige tall:
Fordeling:
hiskret
Parametre - -------
Lrmdataområde for verdi og sannsynlighet:
Tilfeldig starttall: Utdataalternativer------
å
Figur 10.6: Slik genererer du tilfeldige tall fra en egendefinert diskret fordeling i Excel.
Replikasjon Tilfeldig tall mellom 0 og 1 Tilfeldige levetider nummer for lyspære. -£)2 = 10,
-x)(yi -y) = 16
i—1
i=l
i=l
2. Bestem estimater for de ukjente parameterne a og 0 som inngår i modellen. Tegn estimert regresjonslinje i samme koordinatsystem som i punkt 1. 3. Gi en praktisk tolkning av 0. Er det mulig å gi en tilsvarende praktisk tolkning av a? Anta at modellen også kan brukes neste år. Hva blir forventet tid neste år? 4. Lag et 95 % konfidensintervall for 0. Oppgave 33 (UiOslo, ST001, Våren 1998)
For å undersøke sammenhengen mellom materialtettheten og bøyeevnen (seigheten) til en viss type plast, ble bøyeevnen bestemt for 9 pressede plaststaver med ulik materialtetthet. Resultatet av forsøket var:
tetthet Xi bøyeevne Yi
1.13 8.91
1.15 10.21
1.17 9.64
1.19 11.27
1.21 11.45
1.23 13.61
1.25 13.17
1.27 14.57
1.29 15.04
Følgende beregninger er allerede utført:
x = 1.21, Y = 11.9856. £^i(y;-y)2 = 38.9628.
ELiCg - E2 = 0T24 EL(^-E(^-y) = o.94
1. Spesifiser de antagelsene man vanligvis gjør i en lineær regresjonsmodell.
2. Tegn et spedningsplott av dataene. Anta en lineær regresjonsmodell. og finn esti mater for skjæringspunktet a og stigningstallet 0 fra dataene. Tegn den estimerte regresjonslinjen inn i spredningsplottet.
3. Finn et 90 % konfidensintervall for 0 basert på datamaterialet. Oppgave 34 (HiHedmark, ØA222, Høsten 1995)
Tabellen nedenfor viser utslipp til luft av karbondioksid (CO2) fra energibruk, målt i millioner tonn karbon (kilde: Statistisk arbok 1994).
362
TILLEGG A. EKSAMENSOPPGAVER År
År etter 1970
OECD 2427 2522 2756 2648 2793
Verden 4380 4811 5528 5802 6256
1 5 10 15 18
1971 1975 1980 1985 1988
Vi vil prøve å framstille COg-utslipp (V) som funksjon av tid (x) ved en enkel lineær regresjonsmodell, og bruker Excels regresjonsverkt øy med kolonne Verden som V-dataområde og kolonne År etter 1970 som x-dataomrade. En utskrift fra denne regresjonsanalysen er vist til slutt i oppgaven. 1. Finn ligningen for regresjonslinjen y = o + (3x.
2. Hva vil du anslå verdens utslipp i år 2005 til å være ved å bruke denne modellen?
3. Bruk Excel-utskriften nedenfor til å drøfte hvor godt modellen for enkel lineær regresjon passer. 4. Vi kan også sette opp en lineær regresjonsmodell for OECD-landenes utslipp som funksjon av tiden. Bruk minste kvadraters metode til å beregne ligningen for regresjonslinjen i dette tilfellet. Regresjonsstatistikk Multippel R 0,9918 R-kvadrat 0,9836 Justert R-kvadrat 0,9781 Standardfeil 111,8 Observasjoner 5
Koeffisienter Standardfeil 4302,0 93,1 107,5 8,0
Skjæringspunkt Stigningstall
t-Stat 46,2 13,4
P-verdi 0,00002 0,00089
Variansanalyse
tg Regresjon Residualer Totalt
i 3 4
SK 2250599 37501 2288099
GK 2250599 12500
F-verdi 180,044689
P-verdi 0,00089492
Oppgave 35 (HiHarstad, Met 3, Våren 1998)
En italiensk kjede som selger Pizza og Lasagne, har etablert seg i nærheten av store universiteter i USA. Kjeden består av ti restauranter, og sammenhengen mellom antall tusen studenter (x) per universitet og årlig salg (j/) oppgitt i 1000 dollar, er gitt i tabellen nedenfor: Antall studenter (x) Årlig salg (Y)
2 58
6 105
8 88
8 118
12 117
16 137
20 157
20 169
22 149
26 202
Det oppgis også at 13
13
13
^2 xiVi = 21 040,
^2 = 2 528’
52 = 184 730
2=1
2=1
2=1
1. Plott dataene i et spredningsdiagram.
2. Mener du at det er forsvarlig å anta at det er en lineær sammenheng mellom x og t/? Utfor nødvendige beregningen 3. Finn den estimerte regresjonslinja. 4. Anta at kjeden ønsker å etablere seg ved et universitet med 18 000 studenter, hvilket årlig salg bør kjeden da forvente?
363 Oppgave 36 (HiHedmark, MA132, Våren 1996)
En videregående skole har fatt internett-tilknytning. Datalærerne har registrert dårlig ere prøveresultater etter dette, og har en mistanke om at dette skyldes at elevene bruker mye mer tid på internett enn de burde gjøre. 13 elever velges derfor tilfeldig ut. og man registrerer hvor mye tid disse bruker per uke på internett. Tiden malt i minutter står i X-linjen nedenfor:
Elev nr X Y
1
2
3
4
5
6
7
8
9
10
11
12
13
120 10
45 6
60 3
270 19
0 4
180 20
150 10
45 3
90 3
120 15
180 15
240 18
0 4
1. Tegn et boksplott for X-verdiene i tabellen ovenfor.
2. Regn ut gjennomsnittlig tid x pa internett per uke, for utvalget som består av de 13 elevene. Regn også ut standardawiket s til det samme utvalget. Vis framgangsmåten ved betegningene. 3. La p være forventet tid per uke brukt pa internett for en vilkårlig elev ved skolen. Finn et 90 % konfidensintervall for p. Hvilke antakelser må du gjøre? Skolen har også fått et problem med lagringskapasiteten til nettverksserveren. og man tror det er slik at de elevene som bruker mest tid på internett, laster ned flest filer og bruker mest diskplass på serveren. Diskplass brukt av hver elev (målt i antall megabyte) er gjengitt i V-linjen i tabellen ovenfor.
4. Lag et spredningsdiagram hvor du avsetter tid brukt pa nettet langs x-aksen og diskplass langs ?/-aksen. 5. Bruk minste kvadraters metode til å estimere regresjonslinjen y = a + Øx. Føl gende størrelser er oppgitt: — y)2 = 530 og — x)(z/y — y) = 6105. 6. Kan man si at det er en lineær sammenheng mellom X og Y. Begrunn svaret. Oppgave 37 (HiBergen, FOA170, Høsten 1998)
I en undersøkelse ønsker man a vurdere om det er noen sammenheng mellom årsin ntekt og matvareforbruk hos tobarnsfamilier med barn i førskolealder. Nedenfor har man tabulert årsinntekt (x) og ukentlig matvareforbruk (V) i kroner for seks småbarns familier. Vi antar at V-ene er uavhengige og normalfordelte med forventning a + Øx og varians rr 2 .
Årsinntekt (x,) Forbruk (YØ
253 000 980
367 000 1210
395 000 1190
466 000 1270
590 000 1320
732 000 1290
Disse dataene gir dessuten:
ELiCd -^)2 = 1-4633 • 1011. iXiQ/i - y)2 = 75 400.
ELiCd -T)(?/; - T) = 8.533 ■ 107 ~ (« + 3xz))2 = 25 643
1. Finn den empiriske korrelasjonskoeffisienten mellom x og Y, og forklar hva re sultatet betyr.
2. Bestem koeffisientene for den estimerte regresjonslinjen S + Øx.
3. Test hypotesene Hq : 0 = 0 mot H\ : 0 > 0. Benytt signifikansnivå 5 %. Hva kan man konkludere om sammenhengen mellom årsinntekt og forbruk?
364
TILLEGG A. EKSAMENSOPPGAVER
Oppgave 38 (HiHedmark, MA132, Våren 1997)
Denne oppgaven handler om jobbmuligheter. En undersøkelse ble gjort for studenter fra to forskjellige studieretninger A og B. Man ønsket å estimere hvor lang tid det tar fra studentene har avsluttet studiet til de har fått arbeid. Tallene i tabellen nedenfor viser hvor mange måneder det tok a få seg jobb for noen tilfeldig utvalgte studenter. Negative tall betyr at vedkommende student allerede hadde fatt jobb før han/hun var ferdig med studiet, f.eks. betyr tallet —3.3 i tabellen at en student hadde fått arbeid 3.3 måneder før studieslutt. Vi lar /j,a og være forventet antall måneder det tar å komme i arbeid for studenter fra henholdsvis studieretning A og B. Videre lar vi rr4 og (Tg være standardawikene for de to studieretningene. A: B:
1,4 -3,3
-0,7
2,7
2,8
-0,5
3,5
2,9
3,6
1,9
6,3
3,3
-0,4
5,5
1,6
1,1
0,6
4,3
2,8
0,2
-1,7
-0,5
0,6
2,6
1,9
-0,6
1. Estimer de fire parameterne p4, p,B, rrj4 og aB.
2. Finn et 90 % konfidensintervall for differansen /j,a — nB. Angi hvilke forutsetning er du gjør. Tyder resultatet på at det er noen forskjell mellom de to studieretnin gene? Oppgave 39 (UiOslo, ST001, Våren 1998)
Vennene Akk og Ve sitter igjen på kafé og krangler om hvem som har den beste mobiltelefonen. De har begge malt tiden (i timer) de kan snakke i telefonene sine før batteriene må lades på nytt: Akk: Ve:
5.9 5.3
5.5 6.8 5.6 5.1
6.4 7.0 6.3 5.8
6.6 7.7 5.7 7.2
6.9
6.2
Noen beskrivende mål for observasjonene er gitt nedenfor.
Variable Akk Ve
N 9 7
Me an 6,556 5,857
Median 6,600 5,700
StDev 0,650 0,704
SE Mean 0,217 0,266
Minimum 5,500 5,100
Maximum 7,700 7,200
Anta at målingene kommer fra normalfordelinger med samme varians a2. Spesifiser eventuelt andre antagelser du må gjøre underveis.
1. Foreslå en estimator for a2. Finn estimatet fra observasjonene.
2. Formuler nullhypotese og alternativ for å undersøke om taletiden for Akks telefon er lenger enn taletiden for Ves telefon. 3. Velg testobservator og gjennomfør testen på nivå 0.05. 4. Hva blir konklusjonen på testen i punkt 2 dersom toleransegrensen for type I-feil blir senket?
5. Hvis observasjonene ikke kan antas å være normalfordelte, kan man bruke MannWhitney-Wilcoxon-testen til a teste problemstillingen i punkt 2. Beregn verdien av testobservatoren IF. og finn p-verdien til denne TF-verdien.
365 Oppgave 40 (HiHarstad, Met 3, Høsten 1997)
En større bedrift vil undersøke blant sine funksjonærer om det er noen interesse for å gå over til fleksitid. Et tilfeldig utvalg på 200 funksjonærer ble spurt. Resultatene er gitt nedenfor. Vil du hevde at holdningen til fleksitid er avhengig av kjønn? Utfør hypotesetest på 2.5 % signifikansnivå.
Positiv til fleksitid Negativ til fleksitid Sum
Menn 50 30 80
Kvinner 90 30 120
Sum 140 60 200
Oppgave 41 (HiHarstad, Met 3, Våren 1998)
Under overskriften “Studenter i Volda drikker mest” ble en undersøkelse angående studenters drikkevaner publisert i Dagbladet 22.4.98. Undersøkelsen ble utført av NordTrøndelagsforskning. Anta at vi på landsbasis har følgende situasjon blant studenter:
Aldri beruset 15 %
Beruset ca én gang per måned 35%
Beruset flere ganger i måneden 50%
Etter at studentpuben bed HiH kom i drift hevdes det at studentene ved EliH drikker mer enn sine kollegaer på landsbasis. For a undersøke dette nærmere spørres 800 studenter ved HiH og 80 av disse svarer at de aldri er beruset. 160 svarer at de er beruset ca én gang per måned mens de resterende svarer at de er beruset flere ganger i måneden. Tyder disse tallene på at studentene i Harstad har et annet drikkemønster enn på landsbasis? Velg a = 0.05 og utfør en passende hypotesetest. Oppgave 42 (HiHedmark, ØA222, Høsten 1996)
I Aftenposten 18.11.96 kan man i innledningen til en artikkel lese at “Flere kommuner på Østlandet har de siste årene hatt en større netto utflytting enn selv de mest utsatte deler av Nord-Norge. Nå vil Vagå snu utviklingen." I artikkelen hevdes det videre at det først og fremst er jentene som flytter fra hjembygda. En undersøkelse for en del av Hedmark fylke omfattet 1700 ungdommer. Den viser at i en periode flyttet 343 av 912 jenter fra hjembygda. I samme periode flyttet 233 av 788 gutter fra hjembygda, som vist i tabellen nedenfor. Jente Gutt Antall
Flytter 343 233
Blir
Antall 912 788 1700
1. Formuler hypoteser for å teste om det forskjell pa andelen av jenter og gutter som flytter fra hjembygda. Angi hvilke forutsetninger du må gjøre for a teste hypotesene.
2. Utfør testen på signifikansnivå 0.05. Kommenter resultatet.
366
TILLEGG A. EKSAMENSOPPGAVER
Tillegg B
Ekstra bevis Dette vedlegget inneholder bevis og begrunnelser for noen av reglene i boka. Flere av bevisene presenteres i form av oppgaver, og krever derfor en del av leseren. Hvis du er glad i matematikk, kan du sikkert finne noen utfordringer her. Svært fa - om noen av bevisene i dette vedlegget kan regnes som pensumstoff i et innføringskurs i statistikk.
B.l
Bevis til kapittel 3
Bevis for regel 53
Lag et venndiagram slik: Tegn først inn en mengde A som dekker en ganske stor del av utfallsrommet. Del deretter opp hele utfallsrommet i n — 10 disjunkte delmengder som kalles B±. Bq. ... , B^q. Skraver mengdene A Pl B4 og A Pl By. Forstår du at vi kan skrive A = (A P BA) U (A P B2) U • • • U (A P Biq)? Siden B-mengdene er disjunkte, vil mengdene APB, være disjunkte. Da følger det av addisjonsregel 40 at P(A) = P( A A Bi) + P(AA1B2) + • • • + P(APBio). Ved å sette inn at P(AA B2) = P(B2) ■ P(A , BJ. som multiplikasjonsregel 51 forteller, er beviset ferdig.
Bevis for regel 84
Tenk deg en urne med n kuler, der en er rød. mens resten er hvite. Vi foretar k trekninger uten tilbakelegging. Vis at den røde kulen trekkes ut med sannsynligheten /iwn-i
Pfrød kule trekkes ut) = ——-—©
Cn-l,k-l _
Cn,k
Vis at den røde kulen trekkes i trekning nummer i med sannsynligheten
P(rød kule i rte trekning) =
Pn— 1 ,k— 1
1
Pn,k
n
Siden vi like godt kunne ha fargelagt en armen kule, må det bety at alle kuler har samme sannsynlighet for å bli trukket ut. 367
368
TILLEGG B. EKSTRA BEVIS
B.2
Bevis til kapittel 4
Bevis for regel 104, ligning 4.3
Vi ser på en diskret variabel X med verdimengde Vx = {^1,^2......... xn}. Da er a + bE(x)
=
a+b
=
a + bx\P(X = xi) + bx2P(X = æ2) + • • • + bxnP(X = xn)
xtP(X = xi)
Tilsvarende finner vi følgende uttrykk og ser at de to er like hverandre:
E(a + bX) = y^(q + bXi)p(X = xi) = (a + bx\) ■ P(JX — .1’1) T • ■ • + (a + bxn^ ■ P(X — xn)
= a [B(V — a?i) + • • • + P(X — rn)] + bxiP(X = 2*1)
+ • • • + bxnP(X — xn)
= a + bxi P(X — arj + bx2P(X — x2) + • • • + bxnP(X = xn)
Bevis for regel 114
La oss definere Z — X + V, og anta at variablene er diskrete. Vis at definisjonen av forventningen til en diskret variabel betyr følgende: znP{Z = zn) = S
E(X + Y) = E(Z) =
(xz + yj)P(xj,yj)
alle x-, alle yj
alle zn
Vi har lov til å bytte om på rekkefølgen til leddene i en sum. Vis at da er
E(x + v)=
x* 52 alle xt
52
alle yj
52
yj
alle yj
p(x^y^
alle x.;
Pa side 122 i punkt 2 definerte vi den marginale sannsynligheten P(X = xj = Såile y p^xi^UjY Tilsvarende definerte vi også P(Y = y3). Vis at dette medfører at
= ■?.) + £ %P
K
e~x = lim (1 — — )n n^oo
n
La X ~bin(n. pfi og husk at p = Å/n. Da gjelder: PfiX — x)
La oss betrakte de fire faktorene hver for seg og se hva som skjer nar n —> oo. Første faktor er uforandret. Andre faktor går mot e-A i henhold til definisjonen ovenfor. Tredje faktor er produktet av mange brøker n/n. fin — l)/n,... . fin — x+T)/n, som alle gar mot 1: dermed går også den tredje faktoren mot 1. Fjerde faktor går mot l~x = 1. Dermed har vi vist at når n —> oo, så blir P(X — x) æ |ye_A. Variabelen X er altså tilnærmet poissonfordelt (med parameter Åt = Å ■ 1 = A). Begrunnelse for definisjon 142
Vi skal vise at funksjonen f tilfredsstiller de to kravene vi stilte: At arealet under /-kurven er lik 1 og at variansen er lik er2. Vi skal begrense oss til tilfellet hvor p = 0 og a — 1. La oss definere integralet K =
e~~ dx. Arealet under /-kurven vil være
lik 1 dersom vi kan vise at A'2 = 2tf, noe vi klarer:
Vi innfører polarkoordinater: x = r cos 6 og y = r sin 0, som gjør at dx dy = r dr dd. z>2tt poo 2 poo 2 pZtt K2 — l / e~~ rdrdØ = / re-~ dr ■ / dØ = ■ ■ • = 1 ■ 2% = 2tt
■Jo
Jo
Jo
Jo
Vi har altså vist at f (x ) tilfredsstiller arealkravet . Siden f (x) er symmetrisk om verdien x = p = 0. er det opplagt at vi vil fa “balansepunktet" E(X) = p. For å vise at variansen er lik n2 = 1, må vi beregne uttrykket nedenfor ved delvis integrasjon
Var (A) = E(A2) - E(X)2
- dx — 02
TILLEGG B. EKSTRA BEVIS
372 Begrunnelse for definisjon 157
Vi starter med én frihetsgrad, dvs. at Y — X2, der X er standardnormalfordelt. Da er FY(y) = P(Y Var(Z) = 1.
Begrunnelse for definisjon 161
Fisherfordelingens sannsynlighetsfordeling kan utledes direkte fra kjikvadratfordelin gen. La Wi være kjikvadratfordelt med n — 1 frihetsgrader, og H'2 være kjikvadrat fordelt med m — 1 frihetsgrader, slik: (n - 1) •
H’2 =
(m — 1) • Sy
Hvis populasjonsvariansene er like. dvs. cr2x = cr2-. får vi
Wfo-l) = HY/fm-l) Sy som vår fisher for delte variabel. Siden vi kjenner fordelingene til Hfi og W2, kan vi ved noen matematiske triks regne oss fram til den eksakte fordelingen til F. Matematikken er imidlertid såpass vanskelig at vi dropper beviset her.
B.4. BEVIS TIL KAPITTEL 6
373
Begrunnelse for ligning 5.8 på side 169
La X ~Normal(p Y,ax) °g Y ~Normal(py, =
Bayes lov: P(S | F) =
= 0.50
= 0 63
>91
7. pm = P(trekkes minst en gang, med tilbakelegging) = 1 — (yy)5
j"1)/(T) = ~
pu = P(trekkes ut. uten tilbakelegging) = (*)
Best a trekke uten tilbakelegging siden pu > pm 8. P(A vinner) = P(A) = -y.
P(B vinner gitt at A ikke vinner) = P(B
A) = yry.
Vi kjenner ogsa P(A) = —og P(B A) = 0. Lov orn total sannsynlighet: P(B) = P(B | A) • P(A) + P(B | A) • P(A) =
• V =
+
Siden P(A) = P(B) har de lik vinnersjanse og ingen grunn til a krangle. 9. Fordelingsfunksjonen F(x) = P(X < x) er gitt i tabellen: x P(X < x)
0 0.05
1 0.20
2 0.50
3 0.75
4 0.90
5 1.00
E(-V) = ]F) x • P(X = x) = 0 ■ 0.05 + 1 ■ 0.15 4----- + 5 • 0.10 = 2.6
Var(X) = £.r2P(V = x) - E(X)2 = 8.5 - 2.62 = 1.74
P(null feil) = P(X1 = 0 n X2 = 0) = PpG = 0) • P(X2 = 0) = 0.0025
P(to feil) = P(Xi = 0 n X2 = 2) + P(Xi = 1 Pl X2 = 1) + P{X± = 2 Pl X2 = 1) = 0.05 • 0.3 + 0.15 ■ 0.15 + 0.3 • 0.05 = 0.0525 10. P(X = x) er henholdsvis 0.10. 0.60. 0.30 for x-verdiene 1. 2. 3 (summér rader).
P(Y = y) er henholdsvis 0.30. 0.50. 0.20 for .//-verdiene 0. 2. 4 (summér kolonner). Mellomregning: E(Å') — 2. 2, E(Y) = 1.8. Var(X) = 0.36. Var(Y) = 1.96 og
E(X -Y) = £Xy- P(x. r/) = 3.98. Cov(X. Y) = E(X ■ Y) - E(X) ■ E(Y) = 3.98 - 2.2 • 1.8 = 0.02
X og Y ikke er uavhengige. I så fall hadde Cov(X.Y) vært lik null. Var(Z) = Var(X)+ Var(Y) + 2Cov(V. Y) ?= 0.36 + 1.96 + 2 ■ 0.02 = 2.36
11. Uavhengighet: P(X = 5. Y = 1) = P(X = 5) • P(Y = 1) = 0.1 • 0.6 = 0.06. Vi får
X \ y 5 10 15 20 Sum
1 0.06 0.12 0.24 0.18 0.60
2 0.03 0.06 0.12 0.09 0.30
3 0.01 0.02 0.04 0.03 0.10
Sum 0.10 0.20 0.40 0.30 1.00
Cov(X. Y) = E(X ■ Y) - E(X) ■ E(Y) = 5 ■ 1 ■ 0.06 + 5 • 2 • 0.03 + • • • = 0
Det er ingen samvariasjon mellom X og Y (de er uavhengige => ukorrelerte).
12.
P(bom pa de tre første) = 0.23 = 0.008. P(tre bom pa rad) = 13 • 0.23 = 0.104 X er binomisk: uavhengige forsøk, to mulig utfall, samme sannsynlighet p = 0.2.
P(ingen bom) = P(X = 0) = (1 - 0.2)15 = 0.035. P(X < 2) = 0.398 E(X) — np = 15 • 0.2 = 3.0. mens SD(X) = ^/np(l - p) = ^15 • 0.2 • 0.8 = 1. 55 B=bom. £=landslagsklasse. P(£ Pi B) = P(E) ■ P(B
L) = 0.10 • 0.12 = 0.012
392
TILLEGG D. FASIT
13. Binomisk fordi: uavhengige forsøk, to mulig utfall, samme sannsynlighet p = 0.2.
X er antall intervju. P(X > 1) = 1 - P(X = 0) = 1 - 0.815 = 0.965 P(X > 4) = 1 - P(X < 4) = 1 - 0.836 = 0.164
P(2 < X < 4) = P(X < 4) - P(X < 1) = 0.836 - 0.167 = 0.669. E(X) = np = 15 • 0.2 = 3.0, Var(X) = np(l - p) = 2.4 Y er antall intervju av tre forsøk for annen person: P(Y > 1) = 1 — 0.753 = 0.578
14. (1) 0.26, (2) 0.615 og 0.865, (3) uavhengighet? 0.0055 og 0.859, (4) 3.85 15. (1) 1/10000, (2) Geometrisk, 0.0000971, (3) 10000, 83.33, (4) 3439, (5) 3439, 28.66, (6) 486, 4.05 16. Siden alle intervallene er like brede, får vi samme bilde enten vi tegner histogram eller søylediagram. Et histogram tegnes som beskrevet på side 25. Klassemidtpunkt kalles rrii og antall i hver klasse kalles f[. Ligning 2.4 gir x = 102.1 m. Ligning 2.5 gir s = 15.8 m.
Gruppert median finnes som i eksempel 21, lik 103.4 m
Antall i intervallet [94,114) er
• 78 +
• 98 + ^ ■ 84 = 178. 4, dvs. andel 44.6 %
X ~Normal(114,ll). P(94 < X < 114) = Gf114^-104) - G(^^) = 0.8186 - 0.1814 = 0.637
Y er antall av ti med hopp i intervallet [100,110). Y er binomisk med p = 0.35 P(Y = 4) = (14°)0.3540.656 = 0.238 17. A — “komponent A virker”, mens B — “komponent B virker”.
Begge virker: P(A G B) = P(A) • P(B) = 0.98 ■ 0.99 = 0.9702 Minst én: P(A U B) = P(A) + P(B) - P(A G B) = 0.98 + 0.99 - 0.9702 = 0.9998
P(akkurat én) = 1 - P(A G B) - P(A G B) = 1 - 0.02 • 0.01 - 0.9702 = 0.0296
18. (1) Å2 > Ai, (2) 0.135 og 0.762, (3) 0.151, (4) Regn ut P(X = k\ X + Y = n), (5) 0.171 og 2 19. P(252 < X < 280) = G(280~266) - G(252~266) = G(0.88) - G(-0.88) = 0.618
Gjennomsnittet X er normalfordelt med p = 266 og a = 16/%/d = 8.
P(252 < X < 280) = G(280~266) - G(252"266) = G(1.75) - G(-1.75) = 0.920 P(alle fire av normal varighet) = P(normal)4 = 0.6184 = 0.146
P(en fødsel for tidlig) = P(X < 252) = GC252K266) = G(-0.88) = 0.191
P(minst én av fire for tidlig) = 1 — P(ingen for tidlig) = 1 — (1 — 0.191)4 = 0.572
/'(normal | ikke for tidlig) =
= ASm = °-764
20. (1) 0.0668, 0.3413, (2) 0.6826, (3) Normal(720000, 120000), 0.0668, (4) 0.4776 21. Estimert andel p = 24/60 = 0.4, estimert antall AI = N ■ p = 6000 • 0.4 = 2400
La X være antall pirater i utvalget. X ~hypergeom TV = 6000, AI = pN, n — 60
Var(X) = np(l —p)^2^ s^k at Var(p) =Var(X/n) = p^~p^ • yGy- Dermed: SD(p) = ,
- -
• vGif = \/AF ■
\/Bt = 0 0629, SD(.W) = 377
393 Nye estimater: p= M . ig + rø . X + 2292 . X = 0.222, AI = 1332 Vnrtnt — (3\2 0..333 0.667 3000-30 , / 1 \2 0.2 0.8 1000-15 , /2\2 0.0667-0.9333 2000-15 _ VcUov 30 3000-1 1.5 1000-1 JV6' ’ 15 2000-1 —
0.00258 slik at SD(p) = VO.00258 = 0.051 og SD(AF) = 306
22. Les om proporsjonal utvelging på side 191. Pi = H = 0-333, p2 =
p = Tæ ’
= 0.220, p3 = ff = 0.375
+ ToU ' -P2 + So ’ -P3 = 0.255, mens AI = N - p — 51 000
— td£,2 Var(J9J l200/
0.333-0.667 , f 150 ^2 36 1 '200/
0.22-0.78 , ( 32 ^2 300 + ‘200/
0.375 0.625 nnnni^K 64 — U.UUU400
SD(p) = V0.000465 = 0.02156 og SD(M) = 200000 ■ 0.02156 = 4312
23. F(2.5 < X < 3.5) =
- G(^^) = 0.4207 - 0.0139 = 0.407
F(X < 4.0) = G(^^) = G(^^) = G(0.8) = 0.7881
P(X < 3.5) = G(^) = G(J^) = G(—0.63) = 0.2643
Antallet av ti som består eksamen kalles V, og er binomisk med p = 0.7881. P(y = 5) = QO.78815 • 0.21195 = 0.033
Lar nå Y være antallet av fem som består eksamen. Binomisk med p = 0.7. Hvis den dårligste skal stå, må alle stå. Svaret blir derfor P(Y = 5) = 0.75 = 0.168 Utvalget gir gjennomsnitt x — 3.676, median = 3.7 og st andar davvik s = 1.267 90 % konfidensintervall: x ± t0.05^7= = 3.676 ± 1.782 •
dvs. [3.05, 4.30]
Tester Hq : p = 3.6 mot Hi : p > 3.6. Siden 90 % konfidensintervallet inneholder verdien 3.6 kan vi ikke utelukke denne verdien. Vi kan altså ikke forkaste Hq pa 5 % nivå.
24. Et 95 % konfidensintervall for p er gitt ved T±to.o25^ = 1.9 ±2.08-
= 1.9 ±0.1375 dvs. [1.76, 2.04]
Et 95 % konfidensintervall for a2 er gitt ved
[v±f ■ V±r] = [t±F- ±±] = [0-0568, 0.1963]
Ved å ta kvadratroten finner vi intervallet for a lik [0.238.0.443] 25. X er forventningsrett siden E(X} = p. Les mer på side 184. Signifikansnivå, p-verdi, forkastingsområde osv. forklares i avsnitt 6.4.
Skal teste Hq : p < 8320 mot Hi : p > 8320. Anta at standardavviket er kjent, lik s, siden utvalget er så stort. Utfører Z-test: Forkaster nullhypotesen hvis Z — (X — 8320) /(s/x/300) er større enn zo.025 = 1-96
Med observerte verdier for X og s, blir z =
^nT/Qm
~ 2- 25. Forkast HqI
p-verdien er lik P(Z > 2.25) = 1 — G(2.25) = 0.0122. 95 % konfidensintervall: x ± 20.025^7= = [8336.8. 8563.2]
Fortolkning av intervallet: Se figurene 6.3 og 6.10
26. p = x = 1.043 gram og ct = s — 0.109. SE(X) = S/V40 = 0.017
90 % konfidensintervall x ± to.05^7 er
[1-021.1.065]
Siden intervallet ikke inneholder verdien 1.0, er maskinen ulovlig innstilt. Styrkefunksjonen Ffoppdage ulovlig innstilling, gitt p = 1.02) = 0.323
394
TILLEGG D. FASIT
p-verdien er lik P(X > 1.043 | p = 1.0) = 0.0062 £(hi) = |(p + p) = p og E(p2) = TiL + TiT = L- Begge forventningsrette.
Var(p1) = (|)2 ( 0.5. Forkaster Hq hvis z > 1.645 Beregner z = 1.70 som i eksempel 208. Forkast
Hq\
La X være antallet av 11 som er for prosjektet. Anta X binomisk med p = 0.5 p-verdien er lik P(X > 8) = 0.1134. Denne verdien er for høy til forkasting.
30. Prøv selv! 31. Prøv selv! 32. Tegn spredningsplott etter mønster av figur 7.7.
Tiden har økt fra 41.2 til 44.8 pa seks ar. Gjennomsnittlig økning 0.6 min/år. 3 = ELi fø - “4/p - W] / [Zføifø * - ^)2] = 16/28 = 0.57
a = y — ffx = 42.6 — 0.57 • 41 = 19.2 Regresjonslinjen blir dermed y = a ± /3x = 19.2 ± 0.57 ■ x (tegn inn!) 0 er forventet okning i tidsforbruk hver år.
a er forventet tidsforbruk som nyfødt (slik ekstrapolering er farlig) Forventet tid neste år: y = 19.2 ± 0.57 • 45 = 44.9 min
Regel 219 gir et 95 % intervall for (3. Vi antar at rr = 0.6 er kjent, slik at vi kan bruke 20.025 = 1-96 isteden for to.025 i regelen. Vi regner ut SE(d) = 0.6/a/28 =
0.113 i henhold til ligning 7.7. Intervallet blir (3 ± 1.96-SE(d) = 0.57 ±0.22. dvs. [0.35.0.79] 33. (2) 3 = 39.17, a = -35.41, (3) [32.406. 45.934]
395
34. a = 4302. 3 = 107.5 Prognose for utslipp i år 2005: y = o + Øx = 4302 + 107.5 • 35 = 8065
Modellen forklarer r2 = 98 % av variasjonen. Residualplottene se OK ut. Sammenhengen ser lineær ut. Modellen ser ut til å være god.
Modellen for OECD blir: y = 2440 + 19.3a?
35. Tegn spredningsdiagram etter mønster av figur 7.7. Finner først gjennomsnittene x = 14 og y - 130. Vi skal utnytte at E(æ? — x)2 = E
—
= 2528 — 10 • 142 = 568
E(.G - p)2 = E y2 - ny2 = 184 730 - 10 • 1302 = 15 730
EGd—
— y) = Y^xiyi ~ nxy = 21040 —10 ■ 14 • 130 = 2840
Dette gir korrelasjon 2840
v/568v/15730
= 0.95
som er så høy at det absolutt er forsvarlig a finne regresjonslinjen! 3 = 2840/568 = 5, a = y — Øx = 130 — 5 • 14 = 60. linje y = 60 + 5.r
Med 18 000 studenter kan man forvente salget y = 60 + 5 • 18 = 150 kS.
36. Prøv selv! 37. Prøv selv! 38. yA = 2.137. yB = 0.904. a 4 = 2.41 og aB = 1.81. 90 % konfidensintervall for yA — yB er lik [—0.25.2.71] ifølge regel 240.
Kan ikke utelukke at yA = yB siden null er med i intervallet ovenfor.
39. Regel 239 foreslår estimator for u2 lik S2P = Formulerer Ho : pAkk = pv„ mot
8-o.65oM6-o.7oF = 0 454
: pAkk > pVe.
Giermomfør testen i henhold til regel 240. med T — °
'
.
'
•
717454^/1/9+1/7
= 2. 06
Forkaster Hq siden T > to.o-5 = 1-761 (med 16-2 frihetsgrader) Hvis toleransegrensen senkes til a — 0.025, kan vi ikke forkaste Hq.
Verdien til H’ = 94 (eventuelt 42), p-verdien er lik F(IT > 94) = 0.036 40. Utfører en kjikvadrattest som beskrevet i avsnitt 8.5. Nullhypotesen er at hold ning til fleksitid er uavhengig av kjønn. Beregner Q — 3.57 etter ligning 8.9 (som i hesteeksempel). Kritisk verdi med (2-l)(2-l)=l frihetsgrad og a — 0.025 er lik 5.02. Siden Q < 5.02 kan vi ikke forkaste nullhypotesen, dvs. vi kan ikke konkludere at kjønnene har ulik oppfatning.
41. Se pa eksempel 260 og prøv selv. 42. Utfører en kjikvadrattest som beskrevet i avsnitt 8.5. Nullhypotesen er at flytteatferd er uavhengig av kjønn. Beregner Q = 12.20 etter ligning 8.9 (som i hes teeksempel). Kritisk verdi med (2-l)(2-l) = l frihetsgrad og q = 0.05 er lik 3.84. Siden Q > 3.84 kan vi forkaste nullhypotesen, dvs. vi kan konkludere med at kjønnene har ulik flytteatferd.
396
TILLEGG D. FASIT
Tillegg E
Statistiske tabeller Pa de neste sidene følger de viktigste statistiske tabellene, som viser • kumulativ binomisk fordeling • kumulativ poissonfordeling • kumulat iv st andar dnormalfor deling • kvantilene til t-fordelingen • kvantilene til kjikvadratfordelingen
397
TILLEGG E. STATISTISKE TABELLER
398
Kumulativ binomisk sannsynlighet
E.l
Tabellen viser P(X < k) for forskjellige valg av k og parameterne n og p.
n=2 n=3
n=4
n=5
n=6
n=7
n=8
n=9
n=10
k 0 1 0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9
0,01 .980 1,000 ,970 1,000 1,000 ,961 ,999 1,000 1,000 ,951 ,999 1,000 1,000 1,000 ,941 ,999 1,000 1,000 1.000 1,000 ,932 ,998 1,000 1,000 1,000 1,000 1,000 ,923 ,997 1,000 1,000 1,000 1,000 1,000 1,000 ,914 ,997 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,904 ,996 1,000 1,000 1,000 1,000 1.000 1,000 1.000 1,000
0,05 ,903 ,998 ,857 ,993 1,000 ,815 ,986 1,000 1,000 ,774 ,977 ,999 1,000 1,000 ,735 ,967 ,998 1,000 1,000 1,000 ,698 ,956 ,996 1.000 1,000 1,000 1,000 ,663 ,943 ,994 1,000 1,000 1,000 1,000 1,000 ,630 ,929 ,992 ,999 1,000 1,000 1,000 1,000 1,000 ,599 ,914 ,988 ,999 1,000 1,000 1,000 1,000 1,000 1.000
0,1 .810 ,990 ,729 ,972 ,999 ,656 ,948 ,996 1,000 ,590 ,919 ,991 1,000 1,000 ,531 ,886 ,984 ,999 1,000 1,000 ,478 ,850 ,974 ,997 1,000 1,000 1,000 ,430 ,813 ,962 ,995 1,000 1,000 1,000 1,000 ,387 ,775 ,947 .992 .999 1,000 1,000 1,000 1,000 ,349 ,736 ,930 ,987 ,998 1,000 1,000 1.000 1,000 1,000
0,2 .640 .960 .512 .896 ,992 ,410 ,819 ,973 ,998 ,328 ,737 ,942 .993 1,000 ,262 ,655 ,901 ,983 ,998 1,000 ,210 ,577 ,852 ,967 ,995 1,000 1,000 ,168 ,503 ,797 ,944 ,990 ,999 1,000 1,000 ,134 ,436 ,738 ,914 ,980 ,997 1,000 1,000 1,000 ,107 ,376 ,678 ,879 ,967 ,994 ,999 1,000 1,000 1,000
0,3 .490 ,910 ,343 ,784 ,973 ,240 ,652 ,916 .992 ,168 ,528 ,837 ,969 ,998 ,118 ,420 ,744 ,930 ,989 ,999 ,082 ,329 ,647 ,874 ,971 ,996 1,000 ,058 ,255 ,552 ,806 ,942 ,989 ,999 1,000 ,040 ,196 ,463 ,730 ,901 ,975 ,996 1,000 1,000 ,028 ,149 ,383 ,650 ,850 ,953 ,989 ,998 1,000 1,000
Sannsynlighet 0,4 0,5 ,360 ,250 ,840 ,750 ,216 ,125 ,648 ,500 ,936 ,875 ,130 ,063 ,475 ,313 ,821 ,688 ,974 ,938 ,078 ,031 ,337 ,188 ,683 .500 ,913 ,813 ,990 ,969 ,047 ,016 ,233 ,109 ,544 ,344 ,821 ,656 ,959 ,891 ,984 ,996 ,028 ,008 ,159 ,063 ,227 ,420 ,710 ,500 ,904 ,773 ,981 ,938 ,992 ,998 ,017 ,004 .106 ,035 ,315 ,145 ,594 ,363 ,637 .826 ,950 ,855 ,991 ,965 ,999 ,996 ,002 ,010 ,071 ,020 ,232 ,090 ,254 ,483 ,500 .733 ,901 ,746 ,975 ,910 ,996 ,980 1,000 ,998 ,006 ,001 ,046 ,011 .167 ,055 ,382 ,172 ,377 ,633 ,834 ,623 ,945 .828 ,988 ,945 ,998 ,989 1,000 ,999
p
0,6 ,160 ,640 ,064 ,352 ,784 ,026 ,179 .525 ,870 ,010 ,087 ,317 ,663 ,922 ,004 ,041 ,179 ,456 ,767 .953 ,002 ,019 ,096 ,290 ,580 ,841 ,972 ,001 ,009 ,050 ,174 .406 ,685 ,894 ,983 ,000 ,004 ,025 ,099 ,267 ,517 ,768 ,929 ,990 ,000 ,002 ,012 ,055 .166 ,367 ,618 ,833 ,954 ,994
Verdien P(X