164 33 119MB
Norwegian Pages 385 Year 1997
Fred Wenstøp
Statistikk og dataanalyse 4. utgave
NBR P EPO TE!BL /O TEKI POSTBOKS 278
Tano Aschehoug
8601 MO
Det må ikke kopieres fra denne bok i strid med åndsverkloven eller avtaler om kopiering inngått med KOPINOR, interesseorgan for rettighetsinnhavere til åndsverk. Kopiering i strid med lov eller avtale kan medføre erstatningsansvar og inndragning, og kan straffes med bøter eller
fengsel.
© Fred Wenstøp og Tano Aschehoug 1997 Omslag: Inger Lise Engebretsen Sats: PDC Grafisk Produksjon Trykk og innbinding: PDC Grafisk Produksjon a.s, Aurskog, 1997 4. utgave ISBN 82-518-3621-2
Innhold Forord...........................................................................................................
7
DEL 1 Metode........................................................................................... 13 1 Oversikt.................................................................................................. 15 2 Beskrivelse av en stikkprøve ............................................................... 27 3 A generalisere fra en stikkprøve ......................................................... 43 4 Statistisk metode................................................................................... 59 5 Sannsynlighetsregning.......................................................................... 89 6 Sannsynlighetsfordelinger .................................................................. 115 7 Hypoteseprøving................................................................................... 133 8 Ikke-parametriske tester ...................................................................... 151 o
DEL 2 Parametrisk statistikk ............................................................... 173 9 Normalfordelingen................. 175 10 Inferens om gjennomsnitt.................................................................... 213 11 Kategoriske variabler og normaltilnærmelsen................................... 241
DEL 3 Samvariasjon............................... 265 12 Lineær regresjon og korrelasjon ......................................................... 267 13 Kurvefremskriving............................................................................... 313 DEL 4 Avrunding................................... 335 14 Valg av metode..................................................................................... 337 15 Videre studium av statistikk................................................................ 343
DEL 5 Appendiks................................. Appendiks 1 Referanser .......................................................................... Appendiks 2 Datafiler.............................................................................. Appendiks 3 Symboler ............................................................................ Appendiks 4 Tabeller ..............................................................................
347 349 351 361 365
Stikkord
384
Forord Denne læreboken er laget med tanke på et to-vekttalls grunnkurs i statistikk for studenter innenfor det 2-årige økonomisk/administrative studiet, og den tilfreds stiller Kirke-, utdannings- og forskningsdepartementets krav til innhold. Boken utmerker seg med:
En gjennomført bruk av eksempler og oppgaver med data fra virkeligheten, både for inspirasjon og motivasjon. Eksemplene demonstrerer at statistikk er et nyttig verktøy til å kaste lys over problemstillinger fra virkeligheten. Oppgavene gir øvelse i reell bruk av statistikk. Vekt på praktisk dataanalyse. Dataene i eksemplene og oppgavene er til gjengelige som regnearkfiler på en diskett i arbeidsheftet. Det vises hvordan de fleste beregninger kan gjøres direkte i Excel. Vekt på forståelse med beskjeden bruk av matematikk. Teorien forklares gjen nom eksempler med appell til intuisjon, demonstrasjon av grunnleggende prin sipper gjennom simulering, og matematisk utledning når det er enkelt og natur lig. Vekt på ikke-parametriske metoder. Slike metoder er lett forståelige og dessuten mer hensiktsmessige når man har få data slik tilfellet ofte er i økonomisk/administrative sammenhenger. De mer konvensjonelle metodene er selvfølgelig også fullt dekket. Jeg har lagt vekt på å bruke et direkte språk uten unødvendig vanskelige ord, og med utførlige begrunnelser på de viktigste og vanskeligste punktene. Boken skulle derfor også egne seg for selvstudier både for studenter og for praktikere som ønsker å benytte statistiske metoder. Det kreves ingen spesielle forkunnskaper i matema tikk, selv om det selvsagt er en fordel om man i noen grad er vant med matematisk symbolbruk. Som en parallell til boken er det utviklet et eget program, Statark, som er basert på regnearket Microsoft Excel. Statark har et «vindu» for hvert av bokens kapitler der man kan utføre alle beregningene som er omtalt i kapitlet. Programmet er inklu dert i et separat arbeidshefte som viser hvordan oppgavene i boken kan løses ved hjelp av Statark og det generelle statistikkprogrammet Minitab. Læreboken kan benyttes uavhengig av Statark.
7
Faglige mål Jeg har hatt fire faglige mål for øye under utarbeidelse av boken:
Innsikt i statistikk sont metode De fleste som lærer statistikk for første gang, finner statistisk tankegang fremmed. Studenter er likevel ofte i stand til å benytte riktige teknikker på riktig måte innen for en snever ramme, men straks problemstillingen blir mer åpen, blir de lett hjelpe løse. Jeg har derfor lagt vekt på hele tiden å benytte eksempler fra virkeligheten, slik at problemstillingene kan diskuteres på en reell måte. Det legges også vekt på å begrunne de metoder og teknikker som benyttes. Monte Carlo simulering er vel egnet til dette i en del sammenhenger. Andre ganger er det effektivt å appellere til sunn fornuft. I en viss grad suppleres dette med konvensjonelle, formelle utledninger, men erfaringsmessig har studenter som er uvante med matematisk symbol bruk mindre utbytte av dette. Ved å legge vekt på det intuitive, håper jeg at boken også vil gi varige kunnskaper om metode som er til nytte selv etter at de spesielle teknikkene er glemt.
Praktisk bruk av statistikk Det finnes et stort antall ulike statistiske teknikker. Boken tar for seg de viktigste elementære teknikker begrenset til to variabler. Siden anvendelsesområdet er øko nomi og administrasjon der man ofte har begrenset antall observasjoner, er det også tatt med et utvalg ikke-parametriske metoder. I tillegg er det et eget kapittel om kurvefremskriving med behandling av den klassiske tidsrekkemodell med sesongog konjunktursykler. I dag bruker man i praksis programvare til å utføre statistiske beregninger. Boken er derfor orientert mot dette, og gir stadig råd om hvordan vi best kan innrette oss for å få utført ulike beregninger. Det er imidlertid først i arbeidsheftet at dette gjøres konkret, med bruk av Statark og Minitab. Innsikt i tilfeldig variasjon som fenomen Tilfeldigheter gjør seg gjeldende overalt. Vi samler inn data for å forstå våre om givelser og for få bedre grunnlag når vi tar beslutninger, men økonomiske og tek niske grenser gjør at vi sjelden får tak i fullstendige og feilfrie data. Som oftest er dataene forkludret av tilfeldigheter. Personer uten erfaring med hvordan tilfeldig heter arter seg, blir ofte villedet av det. Jeg har derfor sett det som et viktig pedago gisk mål å gjøre leseren familiær med tilfeldig variasjon. Boken inneholder derfor mange eksempler på Monte Carlo simulering. Disse er alle foretatt med program varen Statark, og er nærmere beskrevet i arbeidsheftet. Leseren har derfor mulighet til selv å utføre samme typen simuleringer. Bokens illustrasjoner blir som øyeblikksbilder fra en film som kan levendegjøres ved hjelp av programvaren. Spesielt effektivt er det hvis læreren gjør dette i klassen.
8
Kommunikasjon av data Det er viktig å kunne kommunisere data effektivt, og ingen metode er mer effektiv enn bruk av grafikk. Denne boken har gjennomført bruk av grafiske framstillinger hele veien. De er alle laget i Excel på grunnlag av datfilene som finnes på disketten i arbeidsheftet, og kan lett reproduseres. På den måten kan brukeren få god øvelse i både å lage og lese grafiske fremstillinger.
Pedagogikk Gjennomført bruk av data fra virkeligheten virker motiverende og stimulerende, og gjør at vi unngår det falske inntrykk av at statistikk er noe upraktisk som bare kan anvendes på begrensete, konstruerte situasjoner. Alle datasett foreligger dessuten på Statarkdisketten. De kan også leses av Minitab. Virkeligheten er langt mer kom pleks enn det vi kan konstruere selv. Virkelige data gir derfor rikere anledning til å diskutere praktisk bruk av statistisk metode. Statistikk faller gjeme vanskelig. Jeg har derfor bestrebet meg på å gjøre inn gangsterskelen til boken så lav som mulig, slik at leseren ikke faller av fra be gynnelsen av. Som et gjennomført prinsipp behandles enkle ting før vanskelige. Spesielt introduseres ordningsobservatorene før vi i det hele tatt går løs på sannsynlighetsregningen. Her er det tilstrekkelig å appellere til intuisjonen for å forstå hva som foregår. Hensikten er å introdusere begrepet konfidensintervall mens stu dentene har selvtilliten i behold. Ikke-parametriske metoder er også lettere å forstå enn metoder som bygger på normalfordelingen. Derfor behandles disse tidlig. Statistisk teori er i prinsippet et godt sammentømret hele. For at leseren skal få forståelse for dette, er det ønskelig å gå relativt detaljert til verks. Det ville likevel sprenge grensene for en bok som dette hvis dette skulle gjennomføres overalt. Jeg har derfor valgt å gjøre det der det er mest instruktivt, men til gjengjeld bare ta med det essensielle andre steder. Oppgavene i boken tjener to formål. De skal både illustrere statistiske prinsipper i seg selv, og vise viktige anvendelser innen fagområdet. Jeg har derfor inkludert både allmenne problemstillinger som alle studenter uten videre kan forholde seg til, og mer rendyrkede bedriftsøkonomiske problemstillinger. Selv om man i dag stort sett foretar beregninger med programvare, er det viktig at man ihvertfall én gang foretar beregninger mer eller mindre for hånd slik at man ikke føler seg fremmed gjort. I hvert kapittel er det derfor også inkludert en øvelsesoppgave som inneholder de viktigste regnetekniske aspektene. Denne oppgaven er løst bakerst i oppgaveavsnittet i kapitlet. I fremstillingen av statistikk kan man enten anlegge et prosessorientert eller et populasjonsorientert perspektiv. I et prosessorientert perspektiv tenker man seg at data genereres av såkalte stokastiske prosesser. Det leder til begreper som stokastisk variabel og forventningsverdi. I et populasjonsorientert perspektiv tenker man seg at data fremkommer ved tilfeldige utvalg fra populasjoner. Da er det naturlig å snakke om populasjonsgjennomsnitt istedenfor forventningsverdi. Hvilket per spektiv som er mest hensiktsmessig, avhenger av hva det skal brukes til. De fleste
9
lærebøker legger mest vekt på det prosessorienterte perspektivet fordi det er mest generelt. Til gjengjeld er det abstrakt, og faller ofte vanskelig for praktisk orienterte studenter. Denne boken har et rendyrket populasjonsperspektiv fordi det er det mest konkrete. Til sist i boken er det likevel vist overgangen til et prosessorientert perspektiv for å forberede til videre studier av statistikk. Et av studentenes hovedproblem, er å finne ut hvilken metode som bør anvendes når. Dataenes målenivå er et viktig kriterium for dette valget. Dette er behandlet først og sist i boken, etter at hver enkelt metode er gjennomgått separat.
Statark Statark er laget for regnearket Microsoft Excel og forutsetter bruk av Windows. Arbeidsheftet gir nærmere opplysning om bruk av programmet. Statark er spesialkonstruert til boken. Den er et supplement til generell statistisk programvare som for eksempel Minitab. Statark har følgende funksjoner:
- En avansert lommekalkulator som utfører beregninger man vanligvis ikke fin ner i kommersiell statistisk programvare. Eksempler er gjennomsnitt og stan dardavvik til grupperte data, Mester for ett og to utvalg der kun utvalgenes gjen nomsnitt og standardavvik er kjent, tester for én og to andeler ved hjelp av normaltilnærmelsen, Fishers eksakte test, og den klassiske multiplikative tidsrekkemodell. - Statistisk analyseverktøy for de metoder som boken behandler. Dette er konfidensintervall ved hjelp av ordningsobservatorene, fortegnstesten, Wilcoxons tegnrangtest, Mann-Whitneytestene, Mester for ett og to utvalg, korrelasjon og regresjon med to variabler, og kji-kvadrat-testen. - Operasjonalisering av læreboken. Siden Statarks vinduer er direkte knyttet til kapitlene i læreboken, kan den brukes til å levendegjøre boken. Alle datasettene som læreboken omtaler finnes på disketten som Statark-lesbare filer. Alle be regninger som er gjort i boken, kan derfor lett repliseres ved hjelp av program met. Den kan dessuten fungere som et redskap ved repetisjon fordi vinduene sammenfatter og systematiserer kapitlene. - Monte Carlo simulering. Statark inneholder en rekke ferdigkonstruerte vinduer for Monte Carlo simulering, slik at man for eksempel kan studere sentralgrenseteoremet, de store talls lov, pilotundersøkelser samt binomiske og lineære pro sesser. - Presentasjon av data. Statark inneholder ferdige oppsett for grafiske fremstillinger for rask produksjon av grafikk. I tillegg kan regnearkets egne grafikk muligheter benyttes fritt. Selv om Statark dekker de regnebehov man har i dette pensumet, oppfordres lese ren også til å ta i bruk annen, generell statistisk programvare. Det vil åpne øynene for videre anvendelser i statistikk, og gir dessuten mer fleksible muligheter til å operere med flere alternative variabler. Dagens handlingsføre data-analytiker bør 10
lett og uanstrengt kunne veksle mellom ulike typer programvare og til enhver tid bruke det som er mest formålstjenlig. Kilder til inspirasjon Den opprinnelige inspirasjon til denne boken var Nemeyi m.fl. (Holden Day 1977): Statistics from Scratch, som viste at det gikk an å skrive en menneskelig statistikkbok uten å inngå kompromisser med faglig holdbarhet. Jeg har også hatt stor glede av inspirasjon og bidrag fra kolleger ved Handels høyskolen BI og andre institusjoner. Samtaler med dem har i høy grad bidratt til å gi boken dens endelige form. Øyvind Bøhren, Tron Foss, Ole Fugleberg og Pål Aakre har lest gjennom deler av manuskriptet og kommet med verdifulle forslag til endringer. Ingar Holme har lest gjennom manuskriptet til annen utgave, og forhindret flere mistak. Kjell Henden har lest gjennom hele manuskriptet og gitt gode råd om endringer i den foreliggende fjerde utgave. En takk til dere alle! De feil som måtte være tilbake, har selvfølgelig jeg ansvaret for.
Bekkestua, mai 1997 Fred Wenstøp
DEL 1
Metode 1 2 3 4 5 6 7 8
Oversikt Beskrivelse av en stikkprøve A generalisere fra en stikkprøve Statistisk metode Sannsynlighetsregning Sannsynlighetsfordelinger Hypoteseprøving Ikke-parametriske tester o
Her går vi gjennom de viktigste grunnprinsippene i statistikk. Vi gjør det på enklest mulige måte, så tekniske komplikasjoner ikke skal komme i veien for de rene, metodiske idéene. I denne delen bruker vi derfor ikke-parametriske teknikker. Vi starter med å bli kjent med tilfeldig variasjon som fenomen. Det gjør vi for å oppøve intuisjonen slik at vi lettere skal kunne skille mellom lov og tilfeldighet i praksis. Da kan intuisjon og beregninger gjensidig supplere hverandre når pro blemstillingene blir mer uoversiktlige. Du lærer også å presentere data ved hjelp av nøkkeltall som median, variasjonsbredde og skjevhet. Deretter tar vi for oss stikkprøveutvalg og statistisk inferens med konfidensintervall. Du lærer hvor viktig det er at utvalg er tilfeldige, og hvordan du i praksis kan sørge for det. Du vil se at det er en utfordring å lage gode spørreskjemaer. Vi går også gjennom grunnprinsippene i sannsynlighetsregning og utleder Bayes formel. Sannsynlighetsfordelinger er sentrale i statistikk. Vi utleder blant annet binomialfordelingen og den hypergeometriske fordeling. Hypoteseprøving er den viktigste statistiske metoden. Ved hjelp av et tilfeldig utvalg kan du med enkle teknikker for eksempel finne ut om kvinnelige og mann lige studenter i alminnelighet tjener like mye. Ulike tester har ulik styrke, styrkebegrepet er derfor viktig. Intuitive tester som er spesielt nyttige ved få data som fortegnstesten, Wilcoxons tegnrangtest, Mann-Whitneytesten og Fishers eksakte test blir gjennomgått.
14
1 Oversikt 1.1 1.2 1.3 1.4 1.5
Hva er statistikk? Tellinger og målinger Tilfeldig variasjon Simulering av tilfeldig variasjon Sammendrag
1.1 Hva er statistikk? Observasjon: På motstående side ser du 20 bilder. De har alle det til felles at de viser en mor som holder sitt lille barn på annen. Hva er det som ellers er felles for de fleste av bildene? Før du leser videre, tenk over spørsmålet og gjør deg opp en mening. Skriv ned svaret. Problemstillinger vi tar opp i statistikk har ofte sitt ut gangspunkt i observasjoner vi gjør, og der vi stiller spørsmål om det vi har registrert skyldes tilfeldigheter eller ikke. I dette tilfellet har du sikkert lagt merke til at et flertall av kvinnene holder ungen på venstre arm (hvor mange?). Vi stiller spørs målet: Er dette en tilfeldighet eller står vi overfor en lovmessighet som går ut på at dette er et generelt fenomen? Vi skal senere i boken vise at det siste må være til fellet. Hva kan så grunnen være til at de fleste mødrene foretrekker venstre arm? Sann synligvis er forklaringen din at de er høyrehendte og har den naturlige armen fri til å arbeide med. Dette er også hva høyrehendte mødre fortalte dr. Lee Salk da han spurte dem om hvorfor de holdt barnet på venstre arm. Hvis du ikke tror på denne påstanden fra mødrene, hvordan kan du sjekke det? (Tenk litt på dette!) Dr. Salk undesøkte det ved å observere kjevhendte mødre. Holdt de barnet på høyre arm? Nei, det viste seg at 78 % av dem han observerte også holdt barnet på venstre arm! Hvis du virkelig er interessert i dette, kan du iaktta flere mødre og notere på hvilken arm de holder barna sine. Hvis også du finner at de fleste kjevhendte og høyrehendte holder barnet på venstre arm, kan du da si at dette er alminnelig?
Agenda: I statistikk leter vi etter alminnelige fenomener som kan være vanskelige å oppdage på grunn av tilfeldigheter
15
Hvis dette er alminnelig, melder det seg straks et nytt spørsmål. Hvis årsaken ikke er at mødrene er høyrehendte, hva kan da være årsaken? Prøv å skrive ned et svar på dette spørsmålet. La oss vende tilbake til det første spørsmålet og se nærmere på det: Hvis du observerer noen mødre og flesteparten av dem foretrekker å holde barnet på venstre arm, kan du da generalisere og si at dette gjelder mødre generelt? I statistikk er svaret «kanskje» og kommer an på - hvor mange mødre som ble observert - hvordan de ble valgt ut - hvor stor del av dem som foretrakk venstre arm
Dr. Salk observerte 255 høyrehendte mødre i de fire første dagene etter nedkomsten og 212 av dem - eller 83 % - holdt barnet på venstre ann,Han observerte 32 kjev hendte mødre og av dem var det 25 - eller 78 % - som foretrakk venstre arm. Følger det av dette at minste 50 % av alle kjevhendte mødre holder barnet på venstre arm? Minst 70 %? Hvilken prosent? Er andelen større for høyrehendte enn kjevhendte?
Tabell 1-1 Dr. Salks observasjoner av hvilken arm mødre velger Venstre arm
Høyre arm
Totalt
Høyrehendte Kjevhendte
212 25
43 7
255 32
Totalt
237
50
287
Mødre/bamet på:
Hvis dr. Salks observasjoner er det vi kaller et tilfeldig utvalg, kan disse spørs målene delvis besvares ved metoder som er beskrevet i kapitlene 8 og 10. Noen av svarene lyder slik: Vi kan si med 99,65 % sikkerhet - tilsvarende en sannsynlighet på 0,996 5 - at mer enn 50 % av alle kjevhendte mødre holder barnet på venstre arm. Med en sikkerhet på 95 % vil vi kunne si at andelen av alle venstrehendte mødre som har barnet på venstre arm ligger et sted mellom 63 % og 91 %. Vi er enda sikrere (0,999 999 999 999 999 999 999 999 999 82) på at minst halvparten av høyrehendte mødre bruker venstre arm. Dette er eksempler på hvordan vi kan for mulere oss, men for at utsagnene skal bli meningsfulle, må vi først presisere hva som menes med sannsynlighet og sikkerhet. Dette skal vi blant annet ta opp i kapit tel 3 og 7. Når det gjelder spørsmålet om det er noen forskjell på andelen av venstre- og høyrehendte mødre som holder barnet på venstre arm, vil vi bare kunne være 40 % sikre på det. Dette skulle tyde på at det ikke er noen god forklaring å si at moren holder barnet på venstre arm fordi hun er høyrehendt. Har du en bedre forklaring? Hvis observasjonene ikke er et tilfeldig utvalg, er de nevnte sannsynlighetene ikke riktige og du er nødt til å ta i betraktning mulige skjevheter i observasjonene. Kunne det tenkes at de mødre dr. Salk observerte hadde en helt spesiell tendens til å holde barnet på venstre arm, på grunn av spesielle forhold ved observasjonene? Før
16
du trekker en slutning, er det nødvendig å gjennomgå alt tilgjengelig materiale for å belyse situasjonen. Dr. Salk besøkte bl.a. flere kunstgallerier og så på Madonna-ogbarn-bilder. En ting alle mødre har felles, er at de ikke ønsker at barnets klær skal ta fyr. Det finnes svært brannfarlige barneklær i handelen. I USA gir handelsdepartementet støtte til undersøkelser som tar sikte på å finne fram til nattøy som er så brannfarlig at det bør forbys. Slike undersøkelser er bl.a. foretatt i Maryland, der man brukte følgende metode: En tekstilprøve på 3 X 10 cm ble hengt opp i et lite kammer. En tent bunsenbrenner ble så skjøvet inn under tøybiten i nøyaktig 3 sekunder, før den ble fjernet igjen. Noen av resultatene er vist i tabellene nedenfor. Når et klesplagg tar fyr, vil flammene følge sømmene. Derfor ble en del av tes tene gjort med tøybiter med en langsgående søm på midten. Hvor brannfarlig tøyet er, ser ut til å avhenge av hvilken kombinasjon av sømtråd og tekstiltype som bru kes. Tre typer nye, «brannsikre» tekstiler ble undersøkt: bomullsflanell, acetat/ polyester (80 % acetat) og polyesterbatist. Fire typer sømtråd ble undersøkt: bom ull, tråd med spunnet kjerne, polyester og flammesikker polyester (F.S.). Hver tekstiltype ble prøvd sammen med alle trådtyper. Dette blir i alt 3 X 4 = 12 kombi nasjoner. Elver kombinasjon ble testet 15 ganger, slik at det i alt ble satt fyr på 12 X 15 = 180 tekstilprøver. (Hva er hensikten med gjentagelsene?) Spørsmålet man så stiller er: Hvilke av prøvene når flammene høyest opp på? Resultatet av eksperimentet er interessant: Tabell 1-2 Antall undersøkelser av hver tekstil/trådtype-kombinasjon Trådtype
Tekstil Polyester Acetat Bomull
Bomull
Kjerne
Polyester
F.S.
15 15 15
15 15 15
15 15 15
15 15 15
Noen ganger slukket flammen med en gang eller veldig raskt, andre ganger brant den en stund og i noen få tilfeller brant tøyet helt opp. I dette eksperimentet nådde flammen aldri helt opp når tråden var av polyester eller flammesikker polyester. Derimot nådde den helt opp i 14 av 15 tilfeller når stoffet var av polyesterbatist og tråden av bomull og i alle 15 forsøkene med acetatpolyester sydd med bomull. I tillegg brant også en prøve med acetatpolyester sydd med kjemespunnet tråd helt opp.
Tabell 1-3 Antall tekstilprøver som brant helt opp Trådtype Tekstil
Polyester Acetat Bomull
Bomull
Kjerne
Polyester
F.S.
14 15 0
0 1 0
0 0 0
0 0 0
17
Lærdommen som kan høstes ser ut til å være: Hvis du har en polyesterbasert tekstil, sy den ikke med bomullstråd! Det ser også ut til å være en viss risiko hvis acetat/ polyester er sydd med kjemespunnet tråd (kjernen er spunnet av polyester med bomull utenpå). Dermed er det ikke sagt at de andre kombinasjonene er brannsikre! Vi har jo bare undersøkt hvor mange av 15 prøver som brant helt opp, men det er vel ikke særlig festlig med plagg som brenner delvis opp heller? Tror du vi kan generalisere fra disse observasjonene? Hvis 14 av 15 tøybiter av polyesterbatist med bomullssøm brant helt opp og ingen gjorde det når sømmen var av polyestertråd, er det da sikkert at bomullstråd gjør batist mer brannfarlig enn polyestertråd? En av acetat-tøybitene, sydd med kjemespunnet tråd, brant helt opp, mens ingen brant opp når tråden var av polyester. Er kjemespunnet tråd her farli gere enn polyester? Ved hjelp av metodene i kapittel 8 og 11 skal vi vise at vi ikke kan trekke noen konklusjon. Vi kan ikke en gang være 5(L% sikre på at en kombi nasjon er mer brannfarlig enn en annen.
1.2 Tellinger og målinger Naturligvis forteller ikke antall prøver som brant helt opp hele historien. Det ble også målt nøyaktig hvor langt opp påtøybiten flammene nådde. Noen av målingene er vist i graf 1.1. Polyester tråd
Kjemespunnet tråd
Graf 1-1: Hvor langt oppover tøybiten flammene nådde
Det ser ut som om acetat med søm av kjemespunnet tråd har en tendens til å bære ilden lenger enn når tråden er av polyester. Kan dette oppfattes som alminnelig eller skjedde det bare tilfeldigvis i disse forsøkene? Tilfeldigheter kan tas med i betraktningen på flere måter. Noen av dem er be skrevet i kapitlene 8 og 12. Uansett hvilken analysemetode du bruker, vil du kon kludere med at her er det ikke snakk om tilfeldigheter. Kjemespunnet sømtråd på acetat har faktisk en tendens til å bære flammer lenger enn polyester. Den samme slags problemstilling kan oppstå i mange ulike sammenhenger. En ting vi er opptatt av, er likestilling på arbeidsmarkedet mellom kjønnene. Blant annet er det mange rapporter som går ut på at menn tjener mer enn kvinner foi samme type arbeid. Men gjelder det innen alle områder? Grat 1-2 visei data fia Bis 18
KVINNER
MENN
Graf 1-2: Datafil Regnskap: Årslønn i 1996 i 1000 kr for nyutdannete diplomøkonomer med spesialisering i regnskap og skatt
Kvinner
140
160
180
200
220
240
260
Menn
Graf 1-3: Datafil Reiseliv: Årslønn i 1996 i 1000 kr for nyutdannete diplomøkonomer med spesialisering i reiseliv
arbeidsmarkedsundersøkelse av avgangskullet fra diplomstudiet i 1996. Figuren antyder at gutter som har spesialisert seg i regnskap og skatt kanskje tjener litt mer enn jenter, men er dette nok til å trekke en bastant konklusjon eller kan det skyldes tilfeldigheter? Analyse ved metoder i kapitlene 8 og 11 sier at denne forskjellen godt kan tilskrives tilfeldigheter. I graf 1-3 som gjelder reiseliv er imidlertid for skjellen tydeligere, og metodene våre vil vise at den faktisk er overbevisende. Da er det interessant å vite årsaken, og i så fall trenger vi opplysninger om hvorvidt det er systematiske torskjeller på arbeidsoppgavene til menn og kvinner, om det er syste matiske forskjeller i alder, osv. Hvis slike faktorer ikke kan forklare forskjellen, må vi konkludere med at den faktisk skyldes diskriminering. Som du ser er det nødvendig å ha et godt kjennskap til det området som studeres tor å kunne finne årsaken til observerte forskjeller på en fornuftig måte. Hva er da grunnen til at både høyrehendte og kjevhendte mødre ser ut til å fore trekke å holde barnet på venstre arm? Dr. Salk hevder at lyden av hjerteslag virker beroligende på barnet og at moren instinktivt merker dette når barnet blir født. For å kunne trekke denne slutningen er det selvsagt ikke nok å observere at både høyreog kjevhendte mødre foretrekker å holde bamet på venstre side. Hvordan ville du nå teste teorien? Fenk på dette før du leser videre.
19
Det første problemet må være å finne ut hvordan man kan måle hvor godt et spedbarn har det. Dr. Salk antok at siden barnets primære oppgave er å vokse, vil vektforandringen kunne være et rimelig uttrykk for dette. Jo bedre barnet har det, jo mer legger det på seg. Dr. Salk veide 112 barn ved fødselen og igjen fire dager etter fødselen. Barna hadde ikke kontakt med morens hjerteslag unntatt hver 4. time når de ble stelt og fikk melk. Han beregnet så vektøkningen ved subtraksjon. I tillegg veide han 100 andre barn ved fødselen og fire dager etterpå - under nøyaktig de samme betingelser, bortsett fra at en båndopptaker ved krybben spilte opptak av et menneskes hjerteslag hele døgnet. Hvis lyden av hjerteslag har noen virkning, skulle denne gruppen oppnå større vektøkning enn den andre. Siden barnets fød selsvekt også sikkert har innflytelse på vektøkningen, inndelte han dem i lette, middels og tunge barn, og fikk derved 3 separate studiegrupper. Resultatene er vist i graf 1-4.
Graf 1-4: Dr. Salks observasjoner av vektøkningen til spedbarn som hører lyden av hjerteslag døgnet rundt (hjerteslaggruppen) sammenlignet med en kontrollgruppe (Datafil: Salk).
20
Selvsagt var det noen av barna i kontrollgruppen som la på seg mer enn barna i hjertegruppen, men tilsynelatende var det en tendens til at barna i hjertegruppen la mest på seg. Det første vi derfor må gjøre er å finne ut om dette mønstret kan tilskrives tilfeldigheter. Dette blir gjort i kapitlene 8 og 10. Der finner vi at vektøkningen mellom gruppene er mer systematisk enn hva man kunne for vente som resultat av tilfeldighet (sannsynlighetene for tilfeldighet er henholdsvis 0,000 011 7, 0,000 021 og 0,000 085). Dette tyder på at spedbarn som hører hjerte slagene til en voksen person har lettere for å legge på seg enn andre spedbarn.
1.3 Tilfeldig variasjon Et lite innblikk i hva tilfeldig variasjon er vil gi en bedre forståelse av det hele. Det mest kjente klassiske eksemplet er bruk av terningkast. La oss kaste en terning 10 ganger og notere resultatet, og så 10 ganger til:
10 terningkast
10 terningkast
x
x
X
X
x
x
X
X
X
x
X
X
x
X
x
3
4
5
6
1
2
3
1
2
x
x
X
X
X
4
5
6
De to seriene er forskjellige. Dette kaller vi tilfeldig variasjon da det ikke er noen konkret grunn til at resultatene er ulike. Det kan selvsagt være at hvis vi ga oss tid til å studere hvordan terningene ble plukket opp fra bordet og de nøyaktige håndbevegelser som ledet til ter ningkastet, så ville vi til en viss grad være i stand til å forutsi resultatet av kastet og innslaget av tilfeldig variasjon ville bli mindre. Dette viser at vi stort sett kan velge selv hva vi vil kalle tilfeldigheter. Er det umulig, upraktisk eller for kostbart å studere ting i detalj, forklarer vi rett og slett det som skjer ved å si at det skjer tilfeldig. Dette betyr ikke nødvendigvis at vi tror på genuine tilfeldigheter, slik mange kvantemekanikere gjør, vi bare velger en enkel og rasjonell forklaringsmåte i mangel av noe bedre. Dette kan vi kalle en default forklaring. Ordet er lånt fra dataverdenen der default verdier er forhåndsspesifiserte verdier som man får om man ikke spesifikt ber om noe annet.
Konvensjon: Variasjon som det ikke er interessante eller observerbare årsaker til, kaller vi tilfeldigheter
21
Kortspill er et annet område der vi er vant til tilfeldigheter. Egentlig er jo de kort du får utdelt nøyaktig bestemt av hvordan kortene ble blandet, men denne prosessen velger vi å kalle tilfeldig fordi vi vanligvis ikke har innsyn i den. De kortene du faktisk får tildelt, sier vi derfor er forårsaket av tilfeldig variasjon. Tilfeldigheter kan imidlertid spille større eller mindre rolle. I bridgetumeringer er det i dag vanlig å la en datamaskin tildele kortene helt tilfeldig. Dette har ført til at spillerne gjen nomgående har begynt å få skjevere fordeling mellom fargene nå enn før - og derfor mer interessante kort. Man mente først at datamaskinene ikke tildelte kor tene helt tilfeldig. Nå er det imidlertid akseptert at manuell blanding av kort har en tendens til å føre til jevnere fargefordeling enn det en skulle vente ved rene til feldigheter. Det henger sammen med at kortene før blanding ofte har mange kort av samme farge på rad som resultat av forrige spill. Manuell blanding er langt fra perfekt slik at vi finner igjen dette trekket også etter blandingen. Når så kortene fordeles rundt til spillerne, blir også de enkelte fargene nokså jevnt fordelt. Prøv i stedet å gi de 13 første kort til syd, de 13 neste til vest, osv. så skal du se! Med statistiske metoder er det faktisk mulig å avgjøre om kortblandingen skjer manuelt eller maskinelt ved å skjelne mellom hvilke resultater som kan forårsakes av hen holdsvis delvise tilfeldigheter og rene tilfeldigheter, men til det trengs det observa sjoner av ganske mange kortutdelinger. Terningkast og kortspill er klassiske områder der tilfeldigheter får utfolde seg. I virkeligheten er alle livets områder preget av tilfeldigheter, det synes bare ikke alltid så godt. Tilfeldigheter tilslører ofte allmenne forhold eller lovmessigheter som vi ville kunne ha nytte av å kjenne til.
Statistikk dreier seg om hvordan vi kan skjelne mellom tilfeldigheter og lov messigheter.
Et av de første eksemplene på dette har vi fra slutten av 1800-tallet da engelsk mannen William Jaggers betalte seks assistenter for å observere rouletthjulene i Monte Carlo hver dag i en måned. Han fant da ut at enkelte tall kom opp litt oftere enn andre på grunn av små imperfeksjoner ved hjulene. Han spilte så på disse tal lene og vant 1,5 millioner franc i løpet av en fire dagers periode, en ganske stor sum på den tiden! Dessverre blir roulette-hjulene jevnlig kontrollert nå for tiden, så sjansene for å gjenta bedriften er liten.
1.4 Simulering av tilfeldig variasjon For å kunne verdsette statistikk, må du oppøve et intuitivt blikk for hvordan resulta tene av tilfeldig variasjon manifesterer seg i ulike sammenhenger. En personlig datamaskin, heretter kalt PC, er et velegnet hjelpemiddel. Det er vanskelig å si om det er PC-ene som har ført til regnearkenes popularitet eller omvendt, men faktum 22
er at regneark i dag er i utstrakt bruk i økonomi, regnskap, administrasjon, dataana lyse og utredningsvirksomhet. De representerer en del av den hverdag mange stu denter i bedriftsøkonomi befinner seg i, eller snart vil møte. Det er derfor nærlig gende å benytte regneark som hjelpemiddel i en lærebok i statistikk. Foruten vanlig tallbehandling, kan vi også etterligne eller simulere tilfeldige prosesser som pågår i den virkelige verden. På denne måten kan vi studere hvordan de arter seg på en langt raskere og billigere måte enn ved å gjøre virkelige observasjoner eller eks perimenter. Statark Statark er en regnearkbasert programvare som er spesielt utviklet for denne boken. Programmet forutsetter at du for eksempel har regnearket Excel. Det er organisert med en sentral fil som henter inn dataene som skal studeres, og som åpner ulike vinduer. Vinduene er knyttet til de ulike kapitlene i denne boken og illustrerer teorien på ulike måter. Alle såkalte skjermer i denne boken er laget ved hjelp av Statark. Programmet er inkludert i arbeidsheftet som i detalj viser hvordan du selv kan utføre ulike simuleringer eller beregningene som omtales i boken. Det er ikke nok å lære å benytte de spesielle mulighetene som Statark tilbyr deg. Du bør også kunne benytte deg av de generelle hjelpemidlene et regneark gir. Dette vil vi jevnlig komme tilbake til. Det tilbys mange ulike kommersielle regneark. Imidlertid er alle typer regneark relativt like, så kjenner du ett, kjenner du mer eller mindre alle.
Oslo Børs 22.04.96: Avkastninger hittil i året for Industri, handel og finans Veidekke Tandberg data
Skiens Aktiemølle Simrad A Scana Industrier
Rieber & Sønn B Petroleum Geo
Nydalens Compagnie Norsk Hydro
Merkantildata Kverneland
Helicopter Service Goodtech
Elkem DNLB Avantor
Aker A
Skjerm 1-1: Datafil Oslo-Bor. «Avkastninger hittil i år» pr. 22/4-96for selskap innen industri, handel og finans på Oslo Børs. Ikke alle selskapsnavn er vist.
23
Statark 1-2, Wenstøp: Kapittel 1
Simulering av tilfeldig variasjon OSLO-BORS 1:(A) STIKKPRØVE VERDI NAVN 16,09 Unitor 9,59 Alcatel STK Scana Industrie 49,21 -7,48 Arendals Fosse 5,73 Petroleum Geo 34,47 Fiba -1,96 Helicopter Serv -2,39 Dyno Industrier 32,48 Fesil 3,41 Blom 0 Moelven Indust 12,07 Adressavisen -7,48 Arendals Fosse -10,2 Hunsfos 37,17 Goodtech 7,92 Rieber & Sønn
IHF 2:(B) VERDI NAVN 23,78 Elkem 4,45 Orkla A 4,45 Orkla A 41,67 Sagatex 8,92 Saga Petroleun 0,52 Gresvig 19,67 Kverneland 0 Moelven Indust 8,92 Saga Petroleun -7,44 Raufoss 8,79 Hafslund Nycor 13,1 Nydalens Comj 19,67 Kverneland Steen&Strøm ir 12,76 47,9 Aker A 12,07 Adressavisen DATASETT:
3:(C) VERDI NAVN 37,17 Goodtech 7,8 Avantor Skiens Aktiemø 11,36 -9,09 SE labels
4:(D) VERDI NAVN Maritime Group 80,49 22,63 Nera 12,07 Adressavisen 65,28 Simrad A
II
Skjerm 1-2: Avkastning i fire tilfeldig sammensatte aksjeporteføljer, to med 16 aksjer og to medfire aksjer
I skjerm 1-1 ser du en Statark-produsert grafisk fremstilling av «avkastninger hittil i år» pr. 22/4-96 for selskap innen industri, handel og finans på Oslo Børs. Avkast ning beregnes på grunnlag av utbytte og verdistigning. Tallene er hentet fra Aften posten. Som du ser, varierer avkastningene en hel del over de ulike selskap. Hvis du hadde aksjer på dette tidspunkt, ville åpenbart avkastningen din variere i henhold til hvordan porteføljen din var sammensatt.
Vindu 1-2 i Statark er laget slik at vi kan sette sammen fire tilfeldige porteføljer, to med 4 aksjer og to med 16 ved å trekke selskaper tilfeldig fra datafilen. Tallene du ser i vinduet er børsavkastninger i de ulike selskapene. At trekningene er tilfeldige, betyr at alle selskap har lik sjanse til å bli trukket ved hver trekning. Et selskap kan altså trekkes flere ganger. Dette kaller vi trekninger med tilbakelegning. I skjerm 1-2 og skjerm 1-3 ser du vinduet etter at trekningene har funnet sted. I arbeidsheftet kan du se hvordan du kan gjøre dette selv. Hva kan vi lære? Når du ser på resultatene av de tilfeldige utvalgene, slår det deg at det er en forskjell i karakter mellom utvalgene som består av fire tall og dem som består av 16? En helhetsbetraktning indikerer at de små utvalgene er mer tilfeldige - mer variable enn de store. Der blir helhetsinntrykket stort sett det samme hver gang. Dette skulle tyde på at større porteføljer er mer robuste med hensyn til variabilitet i avkastning enn små. Har vi mange nok tilfeldigheter, blir hovedinntrykket mindre tilfeldig! 24
Statark 1-2, Wenstøp: Kapittel 1
Simulering av tilfeldig variasjon OSLO-BORS 1:(A) STIKKPRØVE VERDI NAVN 0 Porsgrunn Pors Skiens Aktiemø 11,36 24,32 Tandberg 66,67 DNO -2,33 Industriinvestor 32,48 Fesil 12,07 Adressavisen 0 Moelven Indust 23,78 Elkem -10,2 Hunsfos Bjølvefossen 0 23,78 Elkem Skiens Aktiemø 11,36 16,09 Unitor 10,86 Norske skog B 8,44 Hafslund Nycor
DATASETT:
IHF
2:(B)
3;(C)
4:(D)
VERDI VERDI NAVN VERDI NAVN NAVN Tomra Systems 22,73 Micro software 2,33 47,9 Aker A 15,02 -10,2 Kværner A 47,9 Hunsfos Aker A 16,55 10,41 DNLB 16,09 Norsk Vekst Unitor 47,9 19,67 Aker A 34,47 Kverneland Fiba Kongsberggrup 17,43 58,76 Tandberg data -1,96 Helicopter Serv 0,52 Gresvig 4,45 Orkla A 65,28 Simrad A -50 Stentofon Olav Thon Eien 14,29 -7,48 Arendals Fosse 12,07 Adressavisen Dyno Industrier -2,39 12,07 Adressavisen
Skjerm 1-3: En ny trekning av fire tilfeldige aksjeporteføljer gir andre resultater enn i skjerm 1-2
1.5 Sammendrag Statistisk analyse er å undersøke om observerte forskjeller (som f.eks. andelen av høyre- og kjevhendte mødre som holder barnet på venstre arm) er større enn det som kan oppstå ved tilfeldig variasjon. Hva som skal til før en observert forskjell er uvanlig stor, kan enten finnes ved hjelp av Monte Carlo-simulering eller ved hjelp av sannsynlighetsteori som vi kommer til i kapittel 6. Som oftest når vi trenger sannsynligheter for å si noe om hvor påfallende - eller signifikante — observerte forskjeller er, benytter vi ingen av disse metodene. Vi slår rett og slett opp i ferdige tabeller og finner sannsynlighetene der. Når tabellene ikke er omfattende nok, bru ker vi enkle beregningsmetoder som gir tilnærmete resultater. Som du har sett, oppstår den samme typen problemstillinger på mange ulike områder. Vi kan godt si at statistikk handler om det å være mor, om brennbarhet og om lønner. Statistikk kan handle om ulike former for prevensjonsmidler, hvor på litelige de er og hvilke skadevirkninger de kan ha, hvem som ikke vil bruke dem og hvorfor de ikke vil. Statistikk er om materialstyrker, produkters holdbarhet, forbrukeradferd og om hvilke kunder som ikke betaler. Statistikk er om energiforbruk, prognoser og om meningsmålinger. En mulig (nokså flatterende) definisjon av statistikk er «kunsten og vitenskapen om å lære av erfaring». I en innføringsbok som denne må vi selvsagt begrense oss når det gjelder de emner vi tar fatt på. Vi skal hovedsaklig ta for oss noen enklere metoder som blir brukt for å skjelne mellom alminnelige forskjeller og forskjeller
25
som bare skyldes tilfeldig variasjon. Vi skal gjennomgå hvilken tankegang som ligger bak metoden og hvordan vi skal bruke den riktige tabellen eller tilnærmingsformelen. Alle metoder blir illustrert med tall fra virkeligheten. Det vil alltid være en utfordring å trekke de riktige praktiske konklusjoner etter at den statistiske kon klusjonen er klar. Dette krever, som du har sett, god innsikt i saksforholdene. Dette skal vi komme tilbake til så ofte som mulig gjennom eksempler fra det økonomiskadministrative fagområdet. Lov og tilfeldighet Erling Sverdrup har skrevet en norsk klassiker som har blitt brukt som lærebok ved Universitetet i Oslo i en årrekke. Bokens tittel er Lov og tilfeldighet. A skille mel lom lovmessigheter og tilfeldighetens spill er nettopp statistikkens hovedoppgave. o
26
2 Beskrivelse av en stikkprøve 2.1 2.2 2.3 2.4 2.5
Tilfeldige variabler Ordningsobservatorene Bruk av ordningsobservatorer til å sammenfatte data Sammendrag Oppgaver
2.1 Tilfeldige variabler 13 tilfeldige jenter og 15 tilfeldige gutter fra et kull av 250 siviløkonomstudenterpå BI ble ved kursets begynnelse spurt om hvilken karakter de trodde de ville komme til å få i statistikk. Her er jentesvarene: Datafil: Karakter, Jentekarakterene 2,0
3,0
2,7
2,8
2,4
2,7
3,0
2,0
2,8
2,4
2,8
3,0
3,5
Vi kan tenke oss at disse tallene har fremkommet ved å gjenta den samme type observasjon av en tilfeldig varierende størrelse x. Ovenfor gjorde vi 13 gjentatte observasjoner av x. Resultatene kan vi symbolisere med: *1 x2 x3 x4 x5 x6 X7 x8 x9 x10 xn x12 x13
V = 2,0 er altså første observasjon. Ved å bruke symbolet i kan vi si atxz er observa sjon nr. z. I vårt eksempel er x5 = 2,4. Ofte bruker vi bokstaven n til å angi antall gjentatte observasjoner, eller stikkprøvens størrelse. I vårt eksempel er n = 13.
Konvensjon: xz er observasjon nr. i av den tilfeldige variabel x Antall observasjoner i en stikkprøve kalles n
27
2.2 Ordningsobservatorene I observasjonsprotokollen skriver vi ned stikkprøveverdiene i den rekkefølge de ble observert. En slik oppramsing av tall er imidlertid uoversiktlig. Skal vi danne oss et inntrykk av stikkprøven, må tallene tilrettelegges på en eller annen måte. Den enkleste form for tilrettelegging, er å ordne tallene fra det laveste til det høyeste: Datafil: Karakter, Jentekarakterene ordnet 2,0
2,0
2,4
2,4
2,7
2,8
2,7
2,8
3,0
2,8
3,0
3,0
3,5
De ordnete verdiene symboliseres ved:
x( l) *x(2) x(3) • • • *(13) for n = 13. For eksempel erx(13) = 3,5. Disse kalles ordningsobservatorer. For eksempel erx(13) den trettende ordningsobservator. Den verdien som er i midten når alle verdiene er ordnet, kalles stikkprøvens median. I vårt eksempel er medianen X(7) = 2,8. Den symboliseres med x. Dette leses «x-tilda» eller mer folkelig som «x-krøll». I en stikkprøve på 3 observasjoner, er x(2) medianen. For n = 5 er x(3) medianen med to verdier over og to under. Når n er et partall, lar vi medianen simpelthen være midtpunktet mellom de to midterste tallene.
Definisjon av ordningsobservatorer: Ordningsobservatorene ordner observasjonene i stigende rekkefølge
Definisjon av median: Medianen x er den midterste av de ordnete verdier Medianen er et mål for dataenes beliggenhet
Plott av en stikkprøve Man kan få en ganske god oversikt over en liten stikkprøve ved å merke av verdiene påentallinje, gjemepåetmillimeterpapir. De 13 karakterforventningene til jentene ser slik ut:
•
•
••
•
•
।----------------- 1--------------------- 1------------------- 1--------------------- 1
।
•
1
3,5
4
1,5
2
2,5
3
Forventet karakter i statistikk
Graf 2-1: Plott av datafil Karakter, forventet karakter hos 13 tilfeldige jenter
28
Husk å få med måleenheten, som er karakter i dette tilfellet, ellers kan det være vanskelig å forstå hva plottet egentlig viser. Plottet i graf 2-1 er laget som et xydiagram eller aksegraf med den innebygde grafikken i et tekstbehandlingsprogram, men det er selvfølgelig lett å lage for hånd også. En aksegraf har måleskalaer både på den horisontale og den vertikale aksen. Da er alle data x-y par og avbildes som punkter i grafen. Datamatrisen bak graf 2-1 ser slik ut: x
2
2
2,4
2,4
2,7
2,7
2,8
2,8
2,8
3
3
3
3,5
V1212121231231
Har vi mange like verdier i datasettet, begynner det etter hvert å bli uhensiktsmessig å stable dem oppå hverandre. Da er det bedre å tegne symboler med høyde propor sjonal med antall observasjoner. I graf 2-2 ser du en oversikt over antall fakturaer utskrevet i januar 1986 som en funksjon av tiden det tok fra levering til fakturaen ble sendt. Dataene gjelder et norsk oljeselskap. Som kjent fører sen fakturering til tap av både renter og likviditet. Når det er snakk om ca. 20 000 fakturaer i måneden med et gjennomsnittsbeløp på 14 000 kroner, begynner faktureringsrutinene å bli av stor betydning. Du ser ikke alle dataene i grafen. Den største forsinkelsen var faktisk på 92 dager.
Forsinket betaling 4000 3500 . 25n) = X(„/4) = nedre kvartil = X(0 75„) = X(3,2/4) = øvre kvartil
31
Prosentiler benyttes som oftest i forbindelse med store tallmengder som blir be traktet som populasjoner. For eksempel betyr det å ha en IQ over den 98. prosentil at man befinner seg blant de to prosent mest intelligente. Når vi omtaler prosentiler i en mindre stikkprøve, er det lett å rote seg opp i tekniske vanskeligheter hvis man for eksempel ønsker seg den 20. prosentil i en stikkprøve hvor n = 33. Dette skulle jo bli X(o,2«) = x(6.6) som ikke finnes. Bør du her foreta interpolasjon? Vi vil ikke bekymre oss om slike problemer her, men la %(7) være en god nok tilnærmelse. Vi multipliserer n med prosentilen og runder av til nærmeste hele tall og bruker den tilsvarende ordningsobservatoren. I eksemplet var resultatetet den syvende ordningsobservator. Det er flere forskjellige måter å indikere hvor atspredt - eller variabelt - et sett med observasjoner er. Vi har allerede nevnt variasjonsbredden. Et alternativ er en avkortet variasjonsbredde. Kutt for eksempel ut 1 % awde laveste og 1 % av de høyeste verdiene og ta variasjonsbredden til dem som er igjen. Hva er vitsen med denne avkortningen? Ved tilfeldige stikkprøver vil de høyeste og de laveste verdiene være svært upålitelige ved at de varierer mye fra stikkprøve til stikkprøve. Et nokså vanlig avkortet spredningsmål er den interkvartile varia sjonsbredden:
Definisjon av interkvartil variasjonsbredde: Interkvartil variasjonsbredde = X(o,75«) — X(0;25»)
Dette er variasjonsbredden til de verdiene som er igjen når nedre og øvre kvartil er kuttet ut - m.a.o. variasjonsbredden til de midterste 50 % av observasjonene. Visuell sammenlikning Svært ofte er det snakk om å sammenlikne to stikkprøver. Ikke bare er vi interessert i hvor store lønningene våre er, men vi vil også gjeme se dem i forhold til hva andre tjener. Dette kan gjøres på mange måter. Parallellplottet er spesielt enkelt, og har allerede blitt brukt i graf 1-2, 1-3 og og 1-4. I en arbeidsmarkedsundersøkelse i 1966 for diplomkandidater, rapporterte nx = 42 nyutdannete jenter og n2 — 7 gutter som hadde spesialisering i reiseliv, om begynnerlønner slik de er vist i tabell 2-1.
32
Tabell 2-1 Datafil Reiseliv, rådata (1000 kr per år) Kvinner
140,4 170 180 190 200 217
145 170 180 190 200 222
150 170 180 190 200 225
150,3 170 180 200 200 240
165 174,06 184,5 200 200 240
167 175 185 200 210 252
168 180 190 200 215 270
200
200
210
210
235
240
Menn 180
Kvinner
140
160
180
200
220
240
260
Menn
Graf 2-3: Datafil Reiseliv: parallellplott (1 000 kr pr år)
Parallellplottet henleder ikke oppmerksomheten så mye på det hver gruppe tjener som på hvordan gruppene står i forhold til hverandre. Vi ser at mennene tenderer til å tjene mer enn kvinnene, men også at det er ganske stor spredning.
Nume risk sant tn en likn ing Det er otte praktisk å kunne uttrykke hvor like eller hvor ulike to stikkprøver er ved hjelp av et enkelt tall. Det er mange måter å gjøre det på. Bare fantasien setter grenser. Noen viser seg imidlertid å være mer hensiktsmessige enn andre. Du vil lære flere måter i denne boken. En spesielt enkel måte er differansen mellom medianene.
Definisjon av mediandifferanse: Mediandifferanse = x1 — x2 Et mål for differansen mellom beliggenhetene til to stikkprøver
33
Av rådataene i datafil Reiseliv ser vi at xj = 190 og x2 = 210. Differansen mellom medianene er 20 og gir en idé om forskjellen på lønnsnivåene. Dette betyr at media nen til mennenes lønn overstiger kvinnenes med 20 000 kroner og ikke nødvendig vis at hver mann tjener kr 20 000 mer enn hver kvinne. Selvom20 000 kanskje er en betydelig forskjell, er det ikke godt å si om den er et tydelig tegn på en under liggende tendens, eller ikke. Det kommer an på hvor mye verdiene i de to stikk prøvene varierer. Hvis hver eneste mann tjente kr 20 000 mer enn hver eneste kvinne, er forskjellen tydelig og vitner om kjønnsdiskriminering. Forskjellen be høver imidlertid ikke være tydelig hvis lønnene i de to stikkprøvene varierer mye. Da kan en stor medianforskjell lett oppstå ved tilfeldigheter. Når vi er i tvil om en forskjell er tydelig og således ikke tilfeldig, kan vi regne på det ved hjelp av statistiske metoder. Finner vi tydelige forskjeller da, kaller vi dem signifikante. Til dette trenger vi imidlertid bedre mål lb ^forskjell enn mediandifferansen. Et slikt mål qy Mann-Whitneyobservatoren. Den observerer hvor mange ganger verdiene i den ene stikkprøven er større enn verdiene i den andre. Det vil si at alle tallene i den ene stikkprøven sammenlignes med alle tallene i den andre. Du ser sikkert at dette er en langt mer detaljert og derfor informativ sammenligning enn den enkle mediandifferansen. Den mest oversiktlige måten å beregne Mann-Whitneyobservatoren på er å sette opp en fullstendig tabell.
Definisjon av Mann-Whitneyobservatorene: MW} = antall ganger verdier i stikkprøve 1 er større enn verdier i stikkprøve 2. MW2 = antall ganger verdier i stikkprøve 2 er større enn verdier i stikkprøve 1. Likheter telles som en halv. MW{ + MW2 = n} X n2 Observatørene er et mål for hvor tydelig verdiene til én stikkprøve er større enn verdiene til en annen.
I tabell 2-2 er mennenes lønn listet loddrett og kvinnenes vannrett. Øverst til vens tre er det skrevet K > M. Det betyr at vi registrerer hver gang en kvinnelønn er størne enn en mannslønn. Da setter vi et ettall i skjæringspunktet mellom angjel dende mannskolonne og kvinneråd. Er det likhet, setter vi 0,5; ellers null. Vi kunne selvsagt gjort det omvendt. Det viktigste er å holde orden på hva man gjør. Hvis du nå summerer alle tallene inne i tabellen, får du 77,5. Det betyr at kvinner tjente mer enn menn 77,5 ganger. I alt er det 42 X 7 = 294 sammenligninger. Derfor tjente menn mer enn kvinner 294 — 77,5 = 216,5 ganger. Disse to tallene kalles MannWhitneytallene. De viser to sider av samme sak.
34
Tabell 2-2 Datafil Reiseliv: beregning av Mann-Whitneytallene K>M
180
200
200
210
210
235
240
140 145 150 150 165 167 168 170 170 170 170 174 175 180 180 180 180 180 185 185 190 190 190 190 200 200 200 200 200 200 200 200 200 210 215 217 222 225 240 240 252 270
0 0 0 0 0 0 0 0 0 0 0 0 0 0,5 0,5 0,5 0,5 0,5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 1 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 0,5 1 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,5 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,5 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,5 0,5 1 1
Du vil tå mye bruk for å beregne Mann-Whitneytall. Det finnes selvsagt snarere måter enn å sette opp hele tabellen ovenfor, men den er det tryggeste. Det er ikke nødvendig å ordne stikkprøvene først slik jeg har gjort, men det er lettere å oppdage feil på den måten. Arbeidsheftet viser deg hvordan du kan beregne MannWhitneytall med regneark (kapittel 2).
35
Hvorfor telle en halv ved likhet? Hvis du er 32 år og jeg er 32 år, betyr ikke det at vi er nøyaktig like gamle. Det beste vi kan gjøre i de tilfeller der vi ikke kjenner den nøyaktige verdien, er å anta at i halvparten av tilfellene er de i den ene gruppen eldre enn dem i den andre. Dette er selvsagt ikke helt pålitelig, men vi kan ihvertfall ikke ta feil mer enn i halvparten av gangene. Beregning av observatorverdier Mange typer programvare beregner de viktigste ikke-parametriske observatorverdiene for én stikkprøve. Regnearket Excel har for eksempel funksjonene Median og Percentile som returnerer det du ønsker. Andre regneark har tilsvarende funksjo ner. Du kan også bruke Statarks vindu 1-3 til dette. I skjerm 2-1 ser du en utskrift av vindu 3 der datafilen Reiseliv er lest inn. Du ser at observatorverdiene er beregnet for hvert datasett separat. Mediandifferansen og MannAVhitneytallene sammen ligner to datasett. De beregnes derfor ikke her. Statark 1-3, Wenstøp: Kapittel 2
Deskriptiv statistikk ______________DATAFIL:________
Reiseliv___________
Ikke-parametriske observatører Kvinner Minimum : Maksimum : Median : Variasjonsbredde : Skjevhet: Antall:
Menn
140,4 270 190 129,6 1,61 42
180 240 210 60 1 7
Skjerm 2-1: Datafil Reiseliv, deskriptiv statistikk med Statark, vindu 1-3.
Grafikk med regneark PC-ene ble opprinnelig populære på grunn av regnearkene. Et av regnearkenes mest iøynefallende trekk er deres evne til å produsere grafikk. Man kan gi nyttige opplysninger om datasett ved hjelp av median, variasjonsbredde og skjevhet, men ingenting slår det intuitive totalinntrykk man får ved en grafisk fremstilling. Gra fikkens eneste ulempe er at den ikke kan gjøres beregninger med, slik som med tall. Alle regnearktyper har innebygget gratikkmuligheter som gjør det meget raskt og enkelt å lage en grafisk fremstilling av data som ligger i regnearket. Stort sett finner vi også de samme typer grafer å velge mellom. De samme mulighetene er nå også innebygget i tekstbehandlingsprogram, slik at man kan arbeide direkte med grafik ken i dokumentet man skriver. Den store valgfriheten når det gjelder grafikk gjør det imidlertid viktig å være oppmerksom på de fundamentale forskjellene mellom graftypene og nåi de boi brukes. 36
2.4 Sammendrag Dette kapitlet har dreid som om hvordan man kan beskrive en stikkprøve på en mer oversiktlig måte enn som en tabell med tall, og dessuten hvordan man kan beskrive forskjellen på to stikkprøver. Dette kan gjøres numerisk ved hjelp av såkalte obser vatører, eller visuelt ved hjelp av grafikk. Til det siste er særlig plott og parallellplott hensiktsmessige.
Konvensjon: x, er observasjon nr. i av den tilfeldige variabel x Antall observasjoner i en stikkprøve kalles n
Beskrivelse av én stikkprøve: Mål for beliggenhet: Ordningsobservatorene x^ Medianen x = den midterste av de ordnete verdier (når antall observasjoner er et partall, er medianen midtpunktet mellom de to midterste verdier)
Mål for variabilitet: Variasjonsbredde = xmax — xmin Interkvartil variasjonsbredde = X(0,75„) — *(o,25W)
Mål for skjevhet:
Skjevhet —
max
min
37
Forskjell mellom to stikkprøver: Mål for forskjellen på beliggenheten til to stikkprøver: Mediandifferanse =
— x2
Mål for hvor tydelig verdiene til én stikkprøve er større enn verdiene til en annen: Mann- Whitneyobservatørene: MW{ = antall ganger verdier i stikkprøve 1 er større enn verdier i stikkprøve 2 MW2 = antall ganger verdier i stikkprøve 2 er større enn verdier i stikkprøve 1 Likheter telles som en halv. + MW2 = nxX n2
2.5 Oppgaver Øvelse: Observatorverdier (Svar etter oppgave 2-4) I en klasse med økonomistudenter på heltid i Oslo ble det høsten 1990 tatt en stikk prøve på pulser til 11 gutter og 8 jenter. Stikkprøven besto av dem i klassen som var født i januar. Deres puls (antall pulsslag i ett minutt) ble registrert. Resultatet er vist i tabell 2-3:
Tabell 2-3 Datafil Puls, rådata Gutter
50
61
65
60
57
66
80
56
Jenter
60
66
80
70
68
64
80
70
65
60
60
a)
Beregn minimum, maksimum, median, variasjonsbredde og skjevhet lor begge stikkprøvene.
b)
Tyder resultatene på systematiske forskjeller mellom gutter og jenter med hen syn til puls?
Oppgave 2-1 Internasjonale markeder G.A. Barnett publiserte i 1979 en artikkel som fokuserte på gjennomsnittlig av kastning og risiko i verdens aksjemarkeder i tidsrommet 1970-79. Risiko ble målt ved et statistisk mål som kalles standardavvik og som vi kommer til i del II. En investor vil gjeme ha så høy avkastning på sin investering som mulig, og samtidig så lav risiko som mulig. Dataene fra ni land er vist i tabell 2-4 (G.A. Barnett: «The Best Portefolios are International», Euromoney, April 1979.): 38
Tabell 2-4 Datafil Barnett, rådata Gjennomsnittlig avkastning (%)
Land
5,2 7,3 7,6 7,6 10,0* 13,3 13,9 15,9 16,5
Australia USA England Canada Frankrike Japan Nederland Sveits Vest-Tyskland
a)
Risiko (%)
3,4 L5 3,8 2,1/3,1> 2,4 u3,1 *~ 3,0 L 2,9 i—
Beregn medianen, variasjonsbredden og skjevheten til avkastningene.
b) Lag et aksediagram med avkastning på y-aksen og risiko på x-aksen. Ser du tendenser til sammenheng mellom x- og y-verdiene? c)
Var det bedre å investere i Frankrike enn i England? Hva var best av Frankrike og Canada? Forklar!
Oppgave 2-2 Ni tilfeldige statistikkarakterer Dette er et tilteldig utvalg (stikkprøve) av karakterer i data-analyse ved en eksa men: Tabell 2-5 Datafil 9karakt, rådata 3,4
3,5
2,0
2,9
3,5
3,5
1,5
2,6
3,3
Noter n, x6, og X(2). Ordne tallene og lag et plott. Finn median, variasjonsbredde, skjevhet og x(6).
Oppgave 2-3 Bruktbilpriser på Volvo Hvis du ønsker å kjøpe en brukt Volvo, kan du blant annet velge om du vil gå til en Volvotorhandler eller til en som forhandler mange forskjellige merker. En merketorhandler som Volvo oppfattes ofte som tryggere fordi man antar at å selge kvali tet er viktig også når det gjelder bruktbiler fordi det er hans eget merke. Men ten derer prisen til å være høyere'? Det er ikke lett å få salgsprisen på en og samme bil hos to ulike forhandlere. I stedet søkte to Bl-studenter i 1982 å belyse spørsmålet \ed å innhente priser på Volvo 244 DL 1978-modell. De innhentet priser på 15 tilfeldige biler hos merketorhandlere og 15 tilfeldige biler hos andre forhandlere. Dataene er vist i tabell 2-6:
39
Tabell 2-6 Datafil Volvo, rådata Merkeforhandlere (NOK)
52100 45100 57600 51700 43100 54900 62600 62500 55000 49000 57100 48100 60100 55100 58600
a)
Andre forhandlere (NOK) 54600 49000 58500 58500 56000 39800 66000 48900 55100 47100 47000 53500 _ 54600 57100 49500
Beregn medianen for hver av stikkprøvene. Sammenlign dem. Hva er tenden sen i dataene?
b) Lag et parallellplott for hånd. Hvilken tendens ser du? Hva tror du er den vik tigste årsaken til variasjonen i dataene innenfor hver forhandlertype? c)
Beregn Mann-Whitneytallene. Hvilken tendens viser de? Tror du man kan trekke bastante konklusjoner på grunnlag av disse dataene om hvor det typisk var billigst å kjøpe brukt Volvo-78?
Oppgave 2-4 Nytte av ulike fag BI foretok høsten 1985 en profilundersøkelse blant tidligere studenter. 703 spørre skjemaer ble sendt ut til et tilfeldig utvalg fra Bl-foreningens register på ca. 2000 navn. 301 skjemaer ble returnert i mer eller mindre utfylt stand. Et av spørsmålene gikk ut på å kartlegge nytten av de ulike fagområder på BI. Spørsmålet var: «Venn ligst ranger hvor stor nytte du har hatt i ditt arbeid etter studietiden av de enkelte fagområder som er nevnt nedenfor.» Svarene fordelte seg som vist i tabell 2-7:
40
Tabell 2-7 Datafil Nytte, rådata FAG
STOR
Ledelse og org. Info- og data Materialadm. Offentlig adm. Fremmedspråk Markedsføring Finans Statistikk Samfunnsøkonomi Juridiske fag Regnskap
a)
NOE
125 68 20 4 98 99 134 46 30 74 224
170.146» 65 29 96 134 148 172 * 117 186 114
LITE
INGEN
43 73 109 70 36 72 47 106 121 67 14
7 14 85 64 17 34 8 27 32 17 3
Finn mediansvaret for hvert av fagene.
b) Omtrent halvparten av de spurte ga svar. Noen tidligere studenter har et posi tivt forhold til studiet. Andre har kanskje vært tapere og mentalt lagt studieti den bak seg. Hvilken av disse to kategoriene tror du har vært mest tilbøyelig til å returnere skjemaet i utfylt stand? I hvilken retning vil dette ha påvirket data ene ovenfor i forhold til et representativt utvalg? c) Beregn Mann-Whitneytallene for en sammenligning av Info- og data og stati stikk. I hvilken retning peker MW-tallene? Lag også et strekdiagram med de to svarfordelingene.
Svar på øvelse a)
Observatorverdier
Tabell 2-8 Datafil Puls, beskrivelse av de to stikkprøvene Puls Minimum Maksimum Median Skjevhet Antall
Gutter
Jenter
50 80 60 2,00 11
60 80 69 1,22 8
b) Observatorverdiene i seg selv kan ikke si noe om dette er systematiske for skjeller, fordi vi ikke vet hvor stor den tilfeldige variasjonen er. Det er i prinsip pet ikke umulig at de to populasjonene er like, og at tilfeldigheter har gjort at tor eksempel stikkprøvemedianen er høyere for jentene. I kapittel 3 skal vi regne på sannsynligheten for dette, med utgangspunkt i rådataene.
41
o
3 A generalisere fra en stikkprøve 3.1 3.2 3.3 3.4 3.5 3.6
Stikkprøver fra en populasjon Simulering av tilfeldig utvelging Konfidensintervall Konstruksjon av konfidensintervall i praksis Sammendrag Oppgaver
3.1 Stikkprøver fra en populasjon Når politiet ønsker å finne ut hvor stor andel av bilførerne som til enhver tid bruker bilbelte, nytter det ikke å holde øye med hver eneste bilfører hele tiden. I stedet tas det stikkprøve. På vilkårlig sted og til en vilkårlig tid observeres et på forhånd bestemt antall tilfeldige forbikjørende. Ut fra en slik fremgangsmåte hadde Stortin get fått sikre nok opplysninger om alle bilførere til å vite at andelen pr. 1.10.79 var under 75 %. Dette var en del av beslutningsgrunnlaget da Stortinget innførte gebyr. Når meningsmålingsinstituttene anslår velgertilslutningen til de forskjellige po litiske partiene, baserer de seg på intervjuer av noen hundre velgere. Dette er selv følgelig billigere og raskere, men også mindre pålitelig, enn å intervjue alle. Når revisorer reviderer regnskaper, nøyer de seg ofte med å gå gjennom bare et utvalg fra bilagsmaterialet. Ser dette ut til å stemme, stemmer nok resten også — eller hva?
43
Det skulle nå være klart hvorfor vi refererer til et observasjonssett som en stikk prøve eller et utvalg. Som oftest er vi ikke interessert i disse tallene i seg selv, men i hva de kan fortelle om den større populasjonen eller universet de representerer.
3.2 Simulering av tilfeldig utvelging Når man skal lære statistikk, er det nyttig å kunne studere tilfeldig utvelging ved å ta stikkprøver fra populasjoner ved skrivebordet istedenfor ute i virkeligheten. I tabell 3-1 ser du en populasjon som er skaffet til veie for anledningen. Den består av 500 tall som angir aldrene til de 500 kvinnene i en bestemt amerikansk bygd i 1980. Se godt på diagrammet. Det er ikke hver dag en statistiker får anledning til å se en virkelig populasjon! Han må nesten alltid nøye seg med utvalg. I første utgave av denne boken ble det foreslått å klippe populasjonen opp i 500 lapper, hver med et tall på. Disse skulle så legges i en urne som man så kunne ta tilfeldige utvalg fra med bind for øynene. Dette er en utmerket metode. Den eneste svakheten er at den er tidkrevende. I dag er det mer naturlig å gjøre denne prosessen elektronisk for eksempel ved hjelp av regneark. I kapittel 3 i arbeidsheftet ser du hvordan du kan gjøre dette selv. Føler du deg fremmedgjort, kan du hele tiden tenke på en urne med lapper oppi.
Tabell 3-1 Datafil 500aldre, en populasjon av aldrene til de 500 kvinnene i en bygd 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3
44
3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5
5 5 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8
8 8 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 11 11 11 11 11 11 11
11 11 11 11 11 11 12 12 12 12 12 12 12 12 13 13 13 13 14 14 14 14 14 14 15
15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 17 17 17 17
17 20 17 20 17 21 17 21 17 21 18 21 18 21 18 21 18 21 18 21 18 22 18 22 18 22 18 22 18 22 18 22 19 22 19 22 19 22 19 22 20 22 20 23 20 23 20 23 20 23
24 24 24 24 24 24 25 25 25 25 25 25 25 25 25 25 26 26 26 26 26 26 27 27 27
27 27 27 27 27 27 28 28 28 28 28 28 29 29 29 29 30 30 30 30 30 30 30 31 31
31 31 31 31 31 31 31 32 32 32 32 32 32 32 33 33 33 34 34 34 35 35 35 36 36
36 36 36 36 36 37 37 37 37 37 37 37 37 37 37 37 38 38 38 38 39 39 40 40 40
41 41 41 42 42 42 43 43 43 43 43 43 43 44 44 44 45 45 45 45 45 45 45 45 45
45 45 45 45 46 46 46 46 46 46 47 47 47 47 47 47 47 48 48 48 48 49 49 49 49
49 49 50 50 50 50 50 50 51 51 51 51 51 51 51 51 51 52 52 52 52 52 53 53 53
53 53 53 53 53 53 53 54 54 54 54 54 55 55 55 55 55 55 55 55 56 56 56 56 56
57 57 57 57 57 57 57 57 57 57 57 58 58 58 58 58 58 58 59 59 59 60 60 60 60
60 60 60 61 61 61 61 61 61 62 62 62 62 62 62 63 63 63 64 64 65 65 66 66 66
66 66 67 67 67 68 68 68 68 69 69 69 69 69 69 69 69 69 70 70 71 71 72 73 73
73 73 73 73 74 74 75 75 75 75 75 76 76 77 78 79 80 80 80 81 81 81 82 87 88
Hvilke slutninger kan trekkes på grunnlag av én observasjon? La oss tenke oss at du gjerne vil finne medianen /x i en populasjon. Det er imidlertid ikke mulig å få rede på alle verdiene i populasjonen, du må nøye deg med be grensete stikkprøver. Hva kan du da si om medianen ved å observere én tilfeldig verdi fra populasjonen? Tenk deg at du skal trekke en tilfeldig alder fra populasjo nen av bygdekvinnealdre. Vil alderen være lik medianen? Vil den være mindre eller større? Du kan enkelt trekke et tilfeldig tall fra et navngitt område i et regneark. La oss si at området «ALDRE» består av 500 tall i første kolonne i regnearket. Excel-funksjonen = INDEX (ALDRE;500*RAND();l) gir en tilfeldig alder fra området hver gang du trykker på F9-knappen. Min første tilfeldige alder var 28 år. Det er mindre enn medianen som er 31 år. Jeg trakk i alt 48 tilfeldige aldre. Jeg fikk to aldre lik medianen, mens 27 var lavere og 19 høyere. Prøv selv! Se arbeidsheftet! Basert på mine og dine erfaringer, hvor sannsynlig tror du det er at du neste gang vil trekke populasjonsmedianen? Hva er sannsynligheten for at verdien er høyere, og for at den er lavere? Jeg gjetter på at du stort sett bommer på populasjonsmedia nen, og at verdien er for høy omtrent halvparten av gangene og for lav omtrent halvparten av gangene.
Hva kan du finne ut av to observasjoner? Konfidensintervall Man lærer altså lite om /x ved å observere verdien til ett tilfeldig tall. Verdien er temmelig sikkert ikke lik /x, og den kan like gjeme være lavere som høyere. Kan vi få noe særlig mer informasjon ut av to trekninger hvis vi ser dem under ett? Hvis vi observerer to tilfeldige verdier, er kanskje én for høy og én for lav. Dette er jo ikke så galt, for i så fall ligger populasjonsmedianen et sted i intervallet mellom verdiene. La oss se om dette virker. Slik gikk det i mine trekninger:
1. 2. 3. 4.
trekning: trekning: trekning: trekning:
4 12 14 7
7 14 39 49
Det tørste tallparet er 4 og 7. Begge er lavere enn /x, og intervallet bommer. Det tredje tallparet er 14 og 39. Der ligger /x = 31 år imellom. Et intervall der vi tror en ukjent parameter ligger, kalles konfidensintervall fordi vi har tillit eller kontidens til at parameteren ligger der. Betegnelsen kommer fra det latinske confidere, som betyr å stole på. Hvor stor er egentlig graden av konfidens? Det kan vi få en idé om ved å simulere mange trekninger av to tall i en hypotetisk situasjon der vi faktisk kjenner /x slik at
45
vi kan se hvor mange ganger konfidensintervallet treffer. Jeg gjorde 24 trekninger, og intervallet inneholdt jd åtte ganger. Det er jo ikke dårlig. La oss se mer på dette ved å resonnere istedenfor å simulere!
3.3 Konfidensintervall La oss prøve å trekke noen konklusjoner på grunnlag av det vi diskuterte i forrige avsnitt: Når én tilfeldig verdi x fra en populasjon observeres, er den verdien temmelig sikkert ikke lik populasjonsmedianen. Vi har heller ikke noen idé om den er høyere eller lavere, eller om den er ganske nær eller langt ifra. Altså: En stikkprøve på én verdi er nokså verdiløs. Hva med en stikkprøve på to verdier? Ovenfor gjorde j^g eksperimentet 24 gan ger. Det blir 24 repetisjoner av et eksperiment som går ut på å se om 31 år ligger mellom to tilfeldige observasjoner av x. Dette tilfellet skrives slik: x(1) < 31 år < X(2)
Vi er sikre på at svarene av og til blir JA og av og til NEI. Med andre ord er det en viss sjanse for å treffe og en viss sjanse for å bomme, men vi kan faktisk si en del mer om dette. Hvis du ser på resultatene fra mange eksperimenter med n = 2, vil du se at omtrent halvparten av resultatene er JA og halvparten NEI. I det lange løp vil eksperimentet gi JA ca. 50 % av gangene. Simuler selv med regneark om du er skeptisk! Se i arbeidsheftet. Dette betyr at vi på grunnlag av ett slikt eksperiment med n = 2 trekninger med en viss tillit - eller konfidens som statistikeme kaller det - kan si at populasjons medianen ligger mellom verdiene. Konklusjon: Hvis vi ønsker å tå vite omtrent hvor stor medianen i en populasjon er, kan vi gjøre to tilfeldige trekninger fra popu lasjonen og si at den ligger mellom disse. Sjansen for at dette stemmer er 50 %.
Definisjon av konfidensintervall: Et konfidensintervall er et intervall som med en viss sannsynlighet eller kon fidens inneholder en ukjent parameter
Empirisk estimering av konfidenssannsynligheten Ved å foreta mange simuleringer med n = 2, kan vi komme frem til at utsagnet x(i) — M — x(2)
har en grad av konfidens på 50 %. Det er i så fall et empirisk resultat.
46
Teoretisk beregning av konfidenssannsynligheten Vi kan også beregne dette teoretisk, noe som selvfølgelig er mer tilfredsstillende. Tenk påXj ogx2 i den rekkefølgen de trekkes. Hvis begge er over jfi, bommer konfidensintervallet. Siden vi vet at halvparten av tallene i populasjonen er over jfi, er det opplagt at den første verdien som trekkes, xb vil være over halvparten av gangene. Halvparten av stikkprøvene på n = 2 verdier vil således ha sin første verdi over populasjonsmedianen. Av denne halvparten, hvor mange vil også ha den andre verdien, x2, over? Siden det å ta en tilfeldig stikkprøve med en tilfeldig tallgenerator innebærer at samme tall kan trekkes om igjen, er det like opplagt at også x2 har en sjanse på 50 % for å være høyere enn populasjonsmedianen, uansett hvaX} var. Av en rekke stikkprøver vil altså halvparten ha Xj over, og halvparten av disse igjen ogsåx2 over. Dette blir en fjerdedel. Vi bommer altså en fjerdedel av gangene ved at begge verdiene blir for høye, men det blir også bom hvis både Xj og x2 er under populasjonsmedianen. Ved hjelp av samme resonnement ser vi at dette også vil hende en fjerdedel av gangene. Når vi kombinerer disse resultatene ser vi at utsagnet «/I ligger mellom Xj ogx2» vil være feilaktig halvparten (1/4 + 1/4 = 1/2) av de gangene vi tar en stikkprøve med n = 2 observasjoner. Da vil vi også ha rett halvparten av gangene. Konfidens sannsynligheten vil med andre ord være 1 — 1/2 = 1/2.
Konfidensintervall for medianen basert på: Ordningsobservatorene xæ og xæ n = 2 observasjoner, X] og x2 Feilsannsynlighet = 1/4 + 1/4 = 1/2 Konfidenssannsynlighet = 1 — 1/2 = 1/2
Jo flere data, jo høyere konfidens Få beslutningstakere vil være særlig fornøyd med en sannsynlighet på 50 % for korrekt informasjon angående beliggenheten av en populasjonsmedian. Finnes det noen måter der vi ved hjelp av stikkprøver kan si med mer enn 50 % sikkerhet hvor stor den er? Det er nærliggende å gjøre stikkprøvene større, altså å øke n slik at antallet verdier blir større enn 2. La oss tenke oss at du trekker tre aldre xb x2 og x3, og spør hva sjansen nå er for at populasjonsmedianen ligger mellom den minste og den største verdien du trakk. Du kunne gjøre mange slike eksperimenter med trekninger av tre verdier hver gang. I det lange løp ville du tmne at omtrent tre fjerdedeler av eksperimentene ville gi korrekt svar, og en fjerdedel ville gi galt svar. Dette kan vi også vise teoretisk uten å utføre eksperimentene: Tenk deg tusenvis av gjentakelser av eksperimentet med å trekke en tilfeldig stikkprøve xb x2 og x3, 47
hvor du hver gang noterer om jd = 31 år ligger mellom X(p ogx(1) (treff) eller ikke (bom). Halvparten av gangene ville Xj være over /x. I halvparten av disse tilfellene igjen, vil ogsåx2 være over. Hvis de to første verdiene var over, hva er da sannsyn ligheten for at også den tredje verdien, x3, skal bli over? Den må stadig være 1/2 siden tallene kan trekkes på nytt. Men da må alle tre verdiene være over i halvparten av en fjerdedel av tilfellene:
P(x} >/xogx2> jxogx3> jx) = — X —
Det er opplagt at sannsynligheten må være den samme for at alle tre verdiene ligger under /x. Konfidensintervallet som går fra laveste til høyeste verdi, bommer bare på /z i disse to tilfellene. Feilsannsynligheten blir derfor 1/8 + 1/8 = 1/4 og konfidenssannsynligheten 3/4.
Konfidensintervall for medianen basert på: Ordningsobservatorene X(p og x(1) n — 3 observasjoner, xb x2 og x3 Feilsannsynlighet = 1/8 + 1/8 = 1/4 = 0,25 Konfidenssannsynlighet = 1 — 1/4 = 3/4 = 0,75
Før du nå går videre, bør du legge boken til side og prøve å finne ut hvilken feilsann synlighet og hvilket konfidensnivå du opererer med hvis du sier at g ligger mellom den høyeste og den laveste verdi i en stikkprøve på /zre observasjoner. Du ser at jo større stikkprøven er, jo større er konfidenssannsynligheten, dvs. sannsynligheten for at /x blir innfanget mellom den høyeste og den laveste verdien. Ved å følge resonnementet videre, ser vi at vi har de generelle formlene:
Konfidensintervall for medianen basert på ordningsobservatorene X(p og x(I) n observasjoner, xb x2 ... xn 2 = 1 Formel 3-1: Feilsannsynlighet = 2« 2W — i Konfidenssannsynlighet = 1 —
Ved å sette ulike verdier av n inn i formlene, kan vi beregne sannsynlighetene i form av en tabell. Den finner du i første kolonne i tabell 3a bak i boken. 48
Praktiske anvendelser av feilsannsynlighet og konfidensnivå Det er på tide å ta en pause for å se hva alt dette skal være godt for. I praktiske situasjoner ser vi ofte på en stikkprøve for å finne ut noe om medianen i en popula sjon vi ikke kjenner. I noen tilfeller blir stikkprøven skaffet til veie ved tilfeldige trekninger, omtrent slik vi har gjort tidligere. For å finne medianutgiftene til matva rer pr. uke for husstandene i et avgrenset område, uten å gå til det skritt å intervjue alle sammen, vil et markedsforskningsinstitutt gjeme bruke et kart og en num merert liste over alle husstandene. Hvis det totalt er 483 husstander i området, og det er bestemt å benytte 40 av dem i undersøkelsen, kunne man legge lapper som er nummerert fra 1 til 483 i en urne og trekke ut 40 tilfeldige husstander og intervjue hovedpersonene i disse. Utgiftene til de 40 er nå en tilfeldig stikkprøve fra den aktuelle populasjon. A legge lapper i en urne er nå litt gammeldags. I stedet bruker man gjeme en elektronisk tallgenerator slik du blant annet finner i regneark. Mange datasett som bmkes i forskning er ikke et resultat av tilfeldige stikk prøver, men blir likevel bmkt som om de var det. En lærer som på en prøve har gitt karakterer til klassen sin, kan forsøksvis gå ut i fra at disse karakterene er en til feldig stikkprøve av de som ville vært gitt til alle elever i hele landet, dersom alle hadde fått samme prøven. Han antar at klassen er et representativt utvalg fra hele elevmassen, og går så i gang med å estimere populasjonsmedianen. For eksempel har en klasse med økonomistudenter i Trondheim fått følgende karakterer i stati stikk: o
Tabell 3-2 Datafil Trondheim, 11 tilfeldige statistikk-karakterer, utsnitt av rådata 3,1
1,5*
1,2-
2,0,
1,7*
1,3 >
2,1,
1,8 t
1,8.
1,6.
2,4
I alt var omtrent 2000 studenter oppe til denne eksamen. Hvis Trondheimskarakterene kan sees på som en representativ stikkprøve (det skal vi undersøke senere!), kan vi lage et konfidensintervall for mediankarakteren til alle 2000 med en kon fidenssannsynlighet som beregnes ved hjelp av formel 3-1:
Konfidensintervall = [1,2 ; 3,1] Konfidenssannsynlighet = 1 — (1/2)10 I *= * *0,99902 ***** Vi kan med andre ord si med minst 99,9 % sikkerhet at mediankarakteren i popula sjonen ligger et sted mellom 1,2 og 3,1 hvis altså vår forutsetning om at stikkprøven er representativ er riktig. Dessverre må det innrømmes at selv om sikkerheten er stor, er informasjonen ikke særlig presis, men det kommer vi tilbake til i neste avsnitt.
49
Å være på den sikre siden Et lite teknisk poeng: Da vi beregnet feilsannsynlighetene, sa vi at hvis halve populasj onen ligger over, så er sannsynligheten 1/2 for at en tilfeldig x ligger over populasjonsmedianen. Det tekniske poenget er atP (x > /x) ikke behøver å være nøyak tig 1/2, men kan være mindre hvis noen populasjonsverdier er nøyaktig lik /x, fordi færre enn halvparten da vil være absolutt høyere. I vår populasjon av bygdekvinne nes aldre var 248 aldre under medianen på 31 år, 9 var lik medianen og 243 var over. Dette er imidlertid ikke noe problem, fordi det betyr at ved å bruke formel 3-1, vil den virkelige konfidenssannsynligheten være minst så stor. Vi er med andre ord på den sikre siden, noe som er en vanlig måte å innrette seg på i statistikk. Trangere konfidensintervall i bytte mot lavere konfidenssannsynlighet Ovenfor fant vi at vi med 99,9 % sannsynlighet kan si at-mediankarakteren i stati stikk i populasjonen som Trondheimsdataene var hentet fra, lå mellom 1,2 og 3,1. Dette visste vi i grunnen fra før. Slik informasjon er for omtrentlig til å være nyttig. Vi behøver derfor trangere konfidensintervall. Når vi har store stikkprøver, kan vi godt unnvære den luksus å ha et konfidensnivå som er nær 100 % og til gjengjeld få grensene for konfidensintervallet nærmere hverandre. I tabell 3-3 er målinger av pulsen hos 14 tilfeldige studenter (målt i slag pr. mi nutt):
Tabell 3-3: 14 tilfeldige pulser målt hos studenter 59
63
91
73
76
74
87
83
80
91
76
99
78
76
76
76
78
80
83
87
91
91
99
Den ordnete stikkprøven: 59
63
73
74
76
Når n = 14, viser formel 3-1 at konfidenssannsynligheten for [xmin; xmflX]-intervallet er lik 0,999 8 8. Men intervallet er meget vidt, fra 5 9 til 99 slag pr. minutt! Hva med å bruke [x(2), x(2)]-intervallet isteden? Dette gir i hvert fall et trangere intervall på [63 ; 91] slag pr. minutt. Vidden har dermed blitt redusert fra 41 til 28 slag pr. minutt. Se graf 3-1. Sannsynligheten for at [x(2); x(2)] skal inneholde medianen, kan beregnes. Den er 0,998 17 - ikke dårlig det heller.
50
—I-------------------- 1--------------------- 1--------------------- 1
50
60
70
80
90
100
pulsslag pr. minutt
Graf 3-1: To ulike konfidensintervallfor populasjonsmedianen
Det kan vises at sannsynligheten for at [%(2)*(2)] skal fange inn populasjonsmedia nen kan beregnes for enhver verdi av n ved hjelp av formelen: 1 — 2 (1 + n) (1/2)"
Enda trangere grenser Det er ingen grunn til å stoppe her. Intervallet [x(2) *(2)] har også lett for å bli for vidt, og for høye verdier av n er konfidenssannsynligheten mer enn tilstrekkelig. Vi kan gjøre intervallet enda trangere ved å benytte [x(3) ; x(3)] som er intervallet fra tredje laveste til tredje høyeste verdi i stikkprøven. Hvis n er stor, kan det være ønskelig å gjøre intervallet enda trangere ved å bruke [x(4) ; xl4)] eller kanskje [xfi) = P (x(c) < fi) Tosidig feilsannsynlighet = 2a — P (x(c) > fi eller x(c) < yx) Tosidig konfidensnivå = 1 — 2a = P(x(c) fi x(c)) Ensidig konfidensnivå = 1 — a Tosidig konfidensintervall = [x(c); x(c)] Venstregrenseintervall = [x(c); Høyregrenseintervall = (—æ ; x^]
53
Statark 1, Vindu 4 Vindu 1-4 i Statark beregner alle tre typer konfidensintervall på grunnlag av stikkprøveverdiene du har hentet inn. Trondheimsdataene inneholder også karakterer fra Oslo til sammenligning. I skjerm 3-1 ser du tre ulike 95 % konfidensintervall for medianene i populasjonene dataene er hentet fra: - Du er 95 %sikker på at 1,3 og 2,4 ligger på hver side av medianen. - Du er 95 %sikker på at 2,1 er over medianen. - Du er 95 %sikker på at 1,5 er under medianen. Statark 1-4, Wenstøp: Kapittel 3
Konfidensintervall med ordningsobservatorene Datafil:
TRONDHEIM
95 % KONFIDENSINTERVALL FOR MEDIANEN Stikkprøve: Antall:
Intervalltype Tosidig Høyregrense Venstregrense
OSLOutv. 19
TRONDHEIM 11
Kritisk verdi c 2 3 3
Nedre grense [1,3 < [ 1,5
Øvre grense 2,4 2,1
] ] >
Kritisk verdi c 5 3 3
Nedre grense [1,8 < [1,7
Øvre grense 3 6
] ] >
Skjerm 3-1: Tre typer 95 % konfidensintervall for medianene i populasjonene som henholdsvis Trondheims- og Oslokarakterene er hentet fra. Statark 1-4, Wenstøp: Kapittel 3
Konfidensintervall med ordningsobservatorene Datafil:
TRONDHEIM
90% KONFIDENSINTERVALL FOR MEDIANEN Stikkprøve: Antall:
Intervalltype Tosidig Høyregrense Venstregrense
OSLOutv. 19
TRONDHEIM 11 Kritisk verdi c 3 3 3
[ < [
Nedre grense 1,5
1,5
Øvre grense 2,1 ] 2,1 ] >
Kritisk verdi c 6 3 3
Nedre grense
[
31 år) = 243/500. Litt sleivete kan vi si at vi betrakter sannsynligheten for en undermengde som undermengdens andel av totalmengden eller populasjonen. Denne definisjonen kan kritiseres for å være uvitenskapelig, men for oss er den hensiktsmessig både fordi den er lett å forstå og fordi den gjør det lett å utlede regnereglene for sannsynlighet. Det blir nøyaktig de samme som for andeler.
Sannsynligheten for unionen av to mengder: Formel 5-2: P (A U B) = P (A) + P (B) - P (A A B) gjelder generelt P (A U B) = P (A) + P (B) hvis A og B er disjunkte
I en populasjon av mennesker er f.eks. P {gravid U mann) — P {gravid) + P {mann) fordi P {gravid A mann) = 0. 93
Det er egentlig nokså restriktivt å definere sannsynligheten for A som A’s andel av E, Fr (A). Hva hvis populasjonen E for eksempel består av alle børsnoteringer på Norsk Hydros aksjer, historiske og fremtidige? Hva er da N (E)? Hvis A er alle noteringer over 650, hva er da Fr (A)? Det finnes opplagt en rekke tilfeller der hverken N (E) eller N (A) vil være defi nert på en fornuftig måte slik at vår definisjon av sannsynlighet kan brukes. Likevel er det nyttig å tenke på sannsynlighet som andel av populasjonen fordi det blir så lett å forstå hvordan begrepet da kan håndteres.
Sannsynlighet som relativ hyppighet i det lange løp Det er en måte å definere sannsynlighet på som er mye brukt i statistisk litteratur. Den baserer seg på noe som kan iakttas eksperimentelt: Man gjentar et forsøk gang etter gang og ser på de oppsamlete resultatene. Du kan for eksempel kaste en mynt gjentatte ganger og etter hver gang beregne den relative hyppigheten - eller an delen - av «krone». Hva vil du da se? Jeg har gjort dette 200 ganger. Resultatet av de 15 første kastene ser du i skjenn 5-1. Jeg har ikke kastet en mynt 200 ganger i virkeligheten, men nøyd meg med å simulere kastene ved hjelp av Statark.
Statark 1-7, Wenstøp: Kapittel 6
Binomiske forsøk
Antall binomiske forsøk: n= _________________ _________ P(vellykket forsøk): p=
200 0,5________
Ant. Andel nr. JAer JA
De store talls lov
NEI JA JA
18 19 20
11 12 13
Skjerm 5-1: Statark 1-7: Resultatet av 200 simulerte myntkast. Tabellen viser de 20 første, grafen viser fortløpende andel av JA-er.
94
1,00 1,00 1,00 1,00 0,80 0,83 0,86 0,75 0,67 0,70 0,64 0,67 0,69 0,71 0,73 0,69 0,65 0,61 0,63 0,65
Du kan lett simulere myntkast selv ved hjelp av Statark eller på annen måte. Ser du et påfallende trekk ved grafen i skjerm 5-1? Til å begynne med svinger kroneandelene ganske mye, men svingningene blir ganske snart dempet og andelen ser ut til å stabilisere seg på et nivå i nærheten av 0,5.1 tilfelle du skulle tro dette mønsteret skyldes tilfeldigheter (man skal jo være skeptisk), har jeg simulert to kastserier til. Resultat av dem ser du i graf 5 -1 og 5-2. De viser nøyaktig det samme mønster selv om svingningene til å begynne med er annerledes. Det beror på tilfeldigheter. Det vi nå ser er en manifestasjon av de store talls lov. Den sier at hvis en rekke identiske forsøk gjøres, vil andelen av et bestemt utfall etter hvert nærme seg en bestemt verdi - en grense. Denne loven er imidlertid ingen naturlov, men et rent matematisk resultat!
De store talls lov
Graf 5-1: Simulering av 200 nye myntkast
95
De store talls lov
Av grafene ser vi tydelig at den relative hyppigheten i det lange løp ser ut til å nærme seg en stabil verdi - en grense. Grensen er kanskje ikke nøyaktig 0,50, men i nærheten. Praktisk erfaring tyder på at hvis en mynt blir kastet tusener av ganger, vil den relative hyppigheten av f.eks. «krone» etter hvert ta seg fullstendig ut som en rett horisontal linje når den tegnes i et diagram. Endringene i Fr (krone) blir til slutt så små at de ikke er synlige, og for alle praktiske formål kan den da oppfattes som en konstant. Denne konstanten kalles sannsynligheten for «krone» for denne mynten (eller tallgeneratoren):
Alternativ definisjon av sannsynlighet: Grensen for en andel, når antall forsøk går mot uendelig:
P (krøwe) = lim Fr (krone) 11 -A 00
Sannsynligheten er altså den grensen den relative hyppigheten nærmer seg mot når antall kast n går mot uendelig. Naturligvis går det ikke an å gjøre uendelig mange kast i virkeligheten. Begrepet er en abstraksjon, en modell av virkeligheten som er brukbar fordi den samsvarer med vår mer begrensete erfaringsbakgrunn. Vi tenker oss altså en grense for Fr (krone) når antall kast går mot uendelig og kaller denne grensen for P (krone). En tilnærmet verdi for denne grensen kan vi finne ved å 96
beregne Fr (krone) for et meget stort antall kast. Denne behøver ikke nødvendigvis være nøyaktig 0,5, fordi mynten godt kan tenkes å være beheftet med asymme triske egenskaper som gjør at en av sidene favoriseres, om enn bare lite grann. Hvorfor stabiliserer egentlig den relative hyppigheten seg rundt en grenseverdi slik vi ser det i graf 5-2? En spøkefull forklaring er at mynten «husker» hva den tidligere har vist og at den ved en eller annen mekanisme sørger for en viss balanse i det lange løp. Det er imidlertid ikke nødvendig å ty til slike tvilsomme resonnementer. Årsaken ligger i at vi hele tiden dividerer med antall kast n for å beregne den relative hyppigheten. Når n er svært stor, vil en serie på f.eks. ti «mynt» bidra lite til å endre på Fr (krone) i motsetning til hvis den opptrer tidlig i forsøksrekken. Hvilke regneregler får vi for sannsynlighet når vi definerer den som grensever dien til Fr (A)? Akkurat de samme som før. Tenk deg et eksperiment der vi kaster to mynter. For den første har vi P (K,) = p{ og for den andre P (K2) = p2 (K står for «krone»). Eksperimentet gjentas n ganger. Fr (Kj U K2) representerer den andel av kastene der den ene mynten viser K eller den andre gjør det. K, U K2 kan sees på som en undermengde av populasjonen av resultatene fra de n kastene. Da vet vi at Fr (Kj U K2) = Fr (KØ + Fr (K2) — Fr (Kt Cl K2). Hvis n er svært stor, vil andelene være nær de tilsvarende sannsynlighetene og det kan vises at o
P (Kj U K2) = P (K0 + P (K2) - P (Kj n K2) De store talls lov er loven om at alt jevner seg ut i det lange løp. Kjøper du stadig lodd i pengelotteriet vil du i det lange løp få din rettmessige andel av vinnerloda. Spiller du bridge elle poker ofte nok, vil du i det lange løp få like mange gode V ørt som dine medspillere. Tenk deg at du til å begynne med har flaks. Når du ved hveis slutt skal gjøre opp regnskapet, vil denne begynnerflaksen måtte sees i forhold til alt annet som har skjedd, og da vil dens bidrag være minimal. Dette er ren matema tikk. Det er ikke snakk om noen skjebne som sørger for rettferdig fordeling av flaks og uflaks, men det ser det ut til at folk tror! Når ruletthjulet har stoppet på svart en del ganger på rad, begynner spillerne ofte å satse høyere på rødt fordi de jo «vet» at rødt og sort vil komme opp like mange ganger i det lange løp. Men det er galt! Dreies hjulet 10 000 ganger, er sannsyn ligheten omtrent null for at den skal stoppe på svart nøyaktig 5000 ganger. Gjør den det 5050 ganger, er Fr (svart) = 0,505, og det er dette tallet de store talls lov sier noe om. En av de mest dramatiske begivenheter i roulette fant sted i Monte Carlo 18. au gust 1913. Ved et av bordene begynte svart å komme igjen gang etter gang. Etter 10 svart på rad, var bordet omringet av opphissede folk som satset stort på rødt i håp om at de store talls lov ville belønne dem. Etter 15 svart på rad var det nesten panikk blant folk som ville frem til bordet for å vedde store summer på rødt. Etter 20 svart satset folk sine siste sjetonger på rødt i håp om få noe tilbake av alt de hadde tapt. Den minneverdige runden endte etter 26 svart på rad. Da hadde kasinoet vunnet millioner franc. Man har regnet ut at noe slikt vil forekomme ca. hvert 100 år, og dette skjedde i Monte Carlos 68. år.
97
Noe tilsvarende skjedde i Chicago i november 1949. Atten fødsler på rad resul terte i gutter på et av byens sykehus. Den 10. november skrev Chicago Daily News at legene og pleierne på sykehuset nå ventet seg en serie jenter! I virkeligheten ble 18 av de neste 24 barna gutter. Noen få år senere skrev Chicago Tribune om fru Drabik som hadde fått seks barn som alle var jenter. Da hun ble gravid for syvende gang «var oddsene mot at hun igjen skulle få en jente astronomiske» og praktisk talt hele Chicago veddet 10 mot 1 på at den neste ungen skulle bli gutt. Det ble en jente. I Norge underholdes vi kontinuerlig av avisene med statistikk som viser hvor ofte de ulike Lotto-kulene med tall fra 1 til 35 har blitt trukket i det siste. Tanken er at tall som har dukket opp relativt sjelden nå «står for tur» og derfor bør satses på. Enkelte firmaer greier faktisk å få folk til å betale for «prognoser» basert på slik statistikk for hvilke kuler som vil bli trakket i neste trekning! Disse eksemplene er ikke å spøke med. De røper en utbredt og inngrodd misfor ståelse om hva det vil si at ting jevner seg ut i det lange løp. Det er viktig for deg som statistikkstudent at du har en korrekt forståelse av dette! Subjektiv sannsynlighet Subjektiv sannsynlighet er et tallmessig uttrykk for i hvilken grad du tror et eller annet. En varm ettermiddag kan du, for eksempel, plutselig få en følelse av at de mørke skyene som har samlet seg over deg, har bestemt seg for å begynne å regne. Tallmessig sett kan du si at du mener sjansene for regn er som 3 til 1, dvs. sannsyn ligheten er 75 % eller 0,75. En annen kan mene at det er like stor sjanse for regn som for ikke regn. Hans sannsynlighet for regn er 50 % eller 0,5. En tredje kan være helt sikker på at det vil begynne å regne. Hennes sannsynlighet er 1,0. Subjektive sannsynligheter er viktige i den økonomisk-administrative hverdag hvor vi ofte må ta beslutninger under usikkerhet, men der situasjonene som regel er unike slik at vi ikke kjenner de relative hyppigheter i det lange løp. Det finnes imidlertid en systematisk, men enkel måte å måle en persons subjektive sannsyn lighet på. La oss si du ønsker å måle Lines sannsynlighet for at det begynner å regne i løpet av dagen. Du tilbyr da Line et valg mellom to alternative spill, A og B:
A: Line får kr 500 ved midnatt hvis det har regnet i løpet av dagen B: Line får kr .500 ved midnatt hvis en terning som kastes viser seks øyne Foretrekker hun A, vet vi at Lines sannsynlighet for regn er større enn 1 /6. Vi kan nå endre B slik at hun får 500 kr hvis terningen viser fem eller seks øyne. Velger hun nåB, ligger Lines sannsynlighet for regn et sted mellom 1/6 og 2/6. Trikset er altså å kalibrere subjektive sannsynligheter mot objektive. Holder ikke en terning, kan vi brake en generator av tilfeldige tall. Et problem med subjektive sannsynligheter, er at mennesker ikke er særlig gode til å operere intuitivt med dem slik at det svarer til regnereglene, men det betyr ikke at de ikke er nyttige i beslutningssammenhenger. Vi må bare lære å skjerpe oss.
98
Utfallsrom Hvis vi tar stikkprøver fra mengden av personer i Norge, er det gjeme spesielle ting vi er interessert i å observere, slik som f.eks. kjønn, alder og inntekt. Her kan vi igjen operere med mer eller mindre grove kategorier. En grov oppdeling av inn tekten er å dele den inn i lav (mindre enn 100 000), middels (100 000 -200 000) og høy (over 200 000). Aldre kan deles inn i ung (under 40) og gammel (40 og over). Utfallet av en observasjon vil da kunne være:
Mann, lav, ung M, lav, gammel K, middels, ung
I alt er det 2X3X2=12 mulige utfall. Disse danner utfallsrommet E: E = {M, lav, ung; M, middels, ung; . . .; K, høy, gammel}
Hadde vi bare vært interessert i kjønnet, er E = {M, K}. Alt etter hva vi interesserer oss for, og hvilken oppdeling vi foretar, vil utfallsrommet bli forskjellig. Uansett vil utfallsrommet være en liste med disjunkte undermengder av den bakenforlig gende populasjonen som her var Norges befolkning. Aksiomatisk definisjon av sannsynlighet Matematikere foretrekker å definere sannsynlighet helt abstrakt som en «ikke-negativ additiv mengdefunksjon med totalt mål 1». Fremgangsmåten er omtrent som dette: Man har gitt en mengde med undermengder og tilordner hver undermengde et tall mellom 0 og 1 som kalles mengdens sannsynlighet. Sannsynligheten sym boliseres med P (A) for den mengden som heter A. Tallene skal tilordnes slik at f(AUB) = P(A) + P(B)
gjelder for ethvert par av disjunkte undermengder A og B. Samtidig må vi ha P(E) = 1. Når dette er oppfylt, følger de andre regnereglene, slik at du får en sannsynlighetsalgebra som kan utvikles videre til matematisk sannsynlighetsteori nok til å fylle flere bind.
Valg av definisjon Vi har nå gjennomgått flere måter å definere sannsynlighetsbegrepet på, og spørs målet blir hvilken av dem vi skal bruke. Egentlig spiller det lite rolle om vi benytter den aksiomatiske definisjonen, eller om vi sier at P (A) = Fr (A) når A er en undermengde av populasjonen E, eller om vi betrakter P (A) som gjennomsnittlig andel i det lange løp - eller om vi tar utgangspunkt i subjektive sannsynligheter. Poenget er at i alle fire tilfellene kan vi kombinere sannsynligheter og beregne
99
sannsynligheten for unioner og snitt ved hjelp av de samme regneregler som gjelder for andeler, samt multiplikasjonsregelen som vi kommer til i neste avsnitt. Tenk på sannsynlighet som gjennomsnitt i det lange løp eller som andel av en populasjon, ettersom det passer.
Sannsynlighet som areal Sannsynlighetsbegrepet har lett for å virke abstrakt, og når man mangler bakkekon takt, kan man lett tenke galt. En praktisk måte å konkretisere sannsynligheter på, er å representere dem med arealer. Under visse forutsetninger gjelder de samme reg neregler for arealer som for sannsynligheter. Det som skal til, er å tenke seg alle elementene i totalmengden T spredt jevnt utover. Vi kan tenke oss at totalmengden er en populasjon, der vi velger ut et tilfeldig element. Sannsynligheten for å velge et eller annet element i populasjonen er pr. definisjon 1,00. Følgelig sier vi at arealet av T er 1,00. Sannsynligheten for å velge et element i en undermengde er da undermengdens areal. På denne måten kan vi visuelt «se» regneregelen for sannsynligheten for en union mellom to mengder. Hvis snittet har areal 0,05, må unionen ha areal 0,55. Se figur 5-7.
100
5.4 Betinget sannsynlighet Begrepet betinget sannsynlighet er viktig, men kan virke komplisert. Det er lettest å tenke på det i forbindelse med hendelser som foregår etter hverandre i tid. I for bindelse med straffesaker begår folk først enten lovbrudd eller ikke, deretter blir de enten dømt eller frifunnet. Sannsynlighetstrær er et utmerket hjelpemiddel til å representere sekvensielle hendelser. Tenk deg at T er mengden av alle som har blitt tiltalt i norsk rett. Tenk deg videre at 75 % av dem som blir tiltalt er skyldige. Da er sannsynligheten for at en tilfeldig valgt tiltalt er skyldig lik 0,75. Se figur 5-8. Mengdemessig er mengden av de skyldige (S) 75 % av totalarealet av de tiltalte T. Tiltalt
0,75
0,25
Skyldig
Uskyldig
Figur 5-8: Sannsynlighetstre
Du får nå vite at sannsynligheten for at en skyldig (S) blir dømt (D) er lik 0,70. Dette er en sannsynlighet som er betinget av at vedkommende er skyldig. Vi skriver dette:
P(D | S) = 0,70 Den loddrette streken leses «gitt». Sannsynligheten for at en tiltalt blir dømt gitt at han er skyldig, er altså 0,70. Hvor mange er er både skyldige og dømte? Det må være 70 % av de 75 % som er skyldige. Med symboler:
P(DnS) = P(D I S) X P(S) = 0,75 X 0,7 = 0,525 La oss dele på P (S) på begge sider av likhetstegnet i ligningen ovenfor. Da får vi definisjonen på betinget sannsynlighet, et uttrykk du alltid kan bruke, samme hva D og S står for:
Definisjon av betinget sannsynlighet Formel 5-3: P (D | S) = P (D Pl S) / P (S)
Du får også oppgitt at sannsynligheten for at en som er uskyldig blir dømt, er 0,10:
P(D | S’) = 0,10
101
Vis at P (D P S’) = 0,025 på tilsvarende måte! Dette bør jo helst bli en liten sannsynlighet, siden rettsvesenet prøver å unngå at mennesker kommer i katego rien «dømt, men uskyldig». Alle opplysningene vi har fått og de beregningene vi har gjort, kan enkelt repre senteres i et sannsynlighetstre. Se figur 5-9.
T
0,25
0,75
D
D’
D
0,525 d n s
0,225 D’ n s
0,025 d n S’
D'
0,225 D’ n S’
Figur 5-9: Sannsynlighetstre med endepunktssannsynligheter
Legg merke til at summen av endepunktssannsynlighetene i figur 5-9 er 1,00. Hva er sannsynligheten for at person blir dømt, P (D)? Det skjer i to av endepunktene. Siden en person bare kan havne i ett av endepunktene i én og samme rettsak, er endepunktene gjensidig utelukkende, og vi har: P(D) = P(D n S) + P(D A S’) = 0,525 + 0,025 = 0,55
P (D) kalles en ubetinget sannsynlighet, det er ikke knyttet noen betingelse om hvorvidt han er skyldig eller ikke. Når vi nå har funnet alle endepunktssannsynlighetene ved hjelp av sannsynlighetstreet, kan vi oppsummere resultatene våre i en oversiktlig tabell som vist i 5-2. Av tabellen ser vi atP(D) = 0,55; P(D’) = 0,45; P(S) = 0,75; P (S’) = 0,25. Disse sannsynlighetene er alle ubetingete. — Du kunne med en viss rett innvende at de igjen er betinget av at vedkommende er tiltalt. Spørmålet er hvilken totalmengde vi tar utgangspunkt i. Hadde vi tatt utgangspunkt i mengden av personer i sam funnet, ville disse sannsynlighetene vært annerledes. I vårt eksempel har vi valgt å ta utgangspunkt i totalmengden T lik mengden av dem som er tiltalt. I forhold til denne totalmengden er sannsynlighetene ubetingete.
102
Tabell 5-2 Resultatoversikt T
D
D’
S S’
0,525 0,025
0,225 0,225
0,75 0,25
0,55
0,45
1,00
Bayes formel I prosessen ovenfor resonnerte vi oss frem til en fundamental regneregel som defi nerer betinget sannsynlighet:
P(DPS) = P(D | S) X P(S) Denne regneregelen er som sagt alltid riktig, samme hva D og S står for. Som i all matematikk, kan du selvsagt bytte ut symbolene med andre symboler, bare du pas ser på å gjøre det over alt. La oss for eksempel kalle D for S og omvendt. Da får vi:
P(S n D) = P(S I D) X P(D)
Dette er like riktig som det forrige. Av og til har du bruk for det ene, av og til det andre. La oss dele på P(D) på begge sider av likhetstegnet, erstatte P(D Pl SjmedP (D | S) X P (S) fra ligningen ovenfor, samt sette inn uttrykket for P (D) som vi har funnet tidligere. Da får vi Bayes formel:
Bayes formel: Formel 5-4: P (S I D)
P(s n d) P(D)
________P(D | S)P(S)________ P(D|S)P(S)+P(D|S’)P(S’)
Vi ser at denne formelen gjør det mulig å snu på rekkefølgen til begivenhetene! Hvis vi vet at en person er dømt, og lurer på om han virkelig er skyldig, kan vi nå regne ut sannsynligheten. Dette er en praktisk situasjon som dukker opp ganske otte. Du tår vite at noe er hendt, og lurer på hva som kan være årsaken. Da er Bayes formel aktuell. Før vi beregner P (S | D) la oss rekapitulere: Til å begynne med fikk vi tre opplys ninger: P (S) = 0,75 P(D S) = 0,70 P(D S’) = 0,10
og derfor og derfor og derfor
P(S’) = 0,25 P(D’ S) = 0,30 P(D’ S’) = 0,90
Ut i fra dette har vi ved enkle regneregler skaffet oss fullstendig oversikt over alle sannsynligheter vi måtte ønske, slik det er vist i tabell 5-2. Fra Bayes formel finner vi nå: 103
P(S I D) = 0,525/0,55 = 0,9545
Dette virker nokså betryggende rettssikkerhetsmessig sett. Bayes formel er oppkalt etter den engelske presten Thomas Bayes (1702-1761) som benyttet den til å prøve å beregne sannsynligheten for at Gud eksisterer. Tan kegangen var at man kanskje kan anslå sannsynligheten forvisse observasjoner gitt at Gud eksisterer: P (Observasjoner | Gud eksisterer). Med formelen kan man så snu rundt på dette og beregne P (Gud eksisterer | Observasjoner). Poenget med formelen er altså at den kan bruke P (D | S) til å beregne P (S | D). Dette er spesielt nyttig når vi ønsker å si noe om fortiden basert på kjennskap til nåtiden og årsaks sammenheng. Vi vet hvor sannsynlig det er at en skyldig blir dømt (årsakssammen heng). Vi vet at en person er dømt (nåtid). Da kan vi beregne sannsynligheten for at han er skyldig (fortid). Mange studenter finner det vanskelig å anvende Bayes formel i praksis. Da kan det være lettere å regne ved hjelp av sannsynlighetstrær istedenfor. Figur 5-10 er figur 5-9, men med endret rekkefølge på dømming og skyld. Lag treet på følgende måte:
Tegn 5-9 om igjen, men med omvendt rekkefølge på dømming og skyld
1.
2. Behold endepunktsannsynlighetene, men pass på at de kommer på riktig sted (du må flytte på noen av dem) 3. Påfør de ubetingete sannsynlighetene for D og D1 (du fant dem ved å legge sammen endepunktssannsynlighetene med henholdsvis D og D’ i figur 5-9)
0,45
D
D'
0,9545
0,0455
0,5
0,5
S
S'
S
S'
0,525 d n s
0,025 d n S’
0,225 D’ n s
0,225 D’ n S’
Figur 5-10: Invertert tre for beregning av Bayesianske sannsynligheter
104
Beregn de betingete sannsynlighetene ved å dividere P (S | D) = 0,525/0,55 = 0,9545; P (S | D’) = 0,45/0,225 = 0,5
4.
Vi ser altså også i figur 5-10 at sannsynligheten for å være skyldig gitt at man er dømt, er 0,9545. Dette er bra. Mer skummelt er det at sannsynligheten for å være skyldig gitt at man er frikjent, viser seg å være 0,5!
5.5 Uavhengighet La oss fortsette eksemplet fra forrige avsnitt. Du vet at 75 % av de tiltalte er skyl dige og at 55 % av de tiltalte blir dømt skyldige. Tenk deg imidlertid nå at retts praksis er helt vilkårlig, slik at sannsynligheten for å bli dømt er den samme enten man er skyldig eller ikke. Da er det å bli dømt uavhengig av skyldsspørsmålet. Vi vet altså: = 0,75 = 0,55 = F(D | S’)
P(S) P(D) P(D | S)
La oss skaffe oss en full oversikt på samme måte som forrige gang. Det innebærer å beregne endepunktssannsynlighetene. La oss resonnere: Siden de dømte skal ut gjøre 55 % av totalen og like stor andel av de skyldige som av de uskyldige, må de utgjøre 55 % av de skyldige og 55 % av de uskyldige. Med andre ord må vi ha at: P(D|S) = P(D | S’) = P(D) = 0,55
Endepunktssannsynlighetene blir:
f(Dns) P(D’ n S) P(D n s’) P(D’ n s’)
= = = =
P(D|S)XP(S) = 0,55 X 0,75 = 0,4125 F(D' |S)XP(S) = 0,45 X 0,75 = 0,3375 P(D | S’) X P(S’) = 0,55 X 0,25 = 0,1375 P(D’ | S’) X P(S’) = 0,45 X 0,25 = 0,1125
Resultatene er oppsummert i tabell 5-3. Legg merke til at sannsynlighetstabellen nå er en multiplikasjonstabell. Hvis du ser etter, vil du se at sannsynlighetene inne i tabellen er produktet av sannsynlighetene i margen! Av det følger at også S er uavhengig av D. Tabell 5-3 Multiplikasjonstabell for uavhengige begivenheter T
D
D’
S S’
0.4125 0,1375
0,3375 0,1125
0,75 0,25
0,55
0,45
1,00
105
La oss så gå mer formelt til verks:
Definisjon av statistisk uavhengighet: B er uavhengig sn A hvis: Formel 5-5:
P (B | A) = P (B)
På samme måte er A uavhengig av B hvis P (A | B) = P (A). Vi husker at ifølge definisjonen på betinget sannsynlighet er (formel 5-3):
P (B | A) = P (B n A) / P (A)
Ved å multiplisere på begge sider med P (A), får vi: P (B A A) = P (B | A) X P (A)
Hvis B er uavhengig av A, kan vi erstatte P (B | A) med P (B), og vi får:
Den spesielle multiplikasjonsregel: Hvis A og B er uavhengige, gjelder: Formel 5-6:
P (B D A) = P (B) X P (A)
Ved å dividere på begge sider av likhetstegnet med P (B) i 5-6, får vi videre: P (A) = P (B n A) / P (B) = P (A | B)
Med andre ord: Hvis B er uavhengig av A, er også A uavhengig av B. Derfor har vi kunnet bruke uttrykket «A og B er uavhengige» (av hverandre) i den spesielle multiplikasjonsregelen. Ikke bland sammen uavhengighet med disjunkthet! Hvis det å være mann er uav hengig av det å stå til eksamen, betyr ikke dette at menn ikke kan bestå eksamen eller at P (M fl B) = 0. Tvert imot! Det betyr at menn har samme sannsynlighet som kvinner for å bestå, og at P (M n B) = P (M) X P (B)
106
5.6 Sammendrag Hensikten med dette kapitlet er å presentere noen grunnregler for sannsynlighetsregning slik at det er mulig å løse enkle oppgaver og forstå sentrale sannsynlighetsfordelinger samt statistisk inferens. Hovedformålet med statistikk er jo på grunnlag av resultater fra en stikkprøveundersøkelse å kunne si noe om populasjonen som prøven var hentet fra, gjeme med konfidensnivåer heftet til utsagnet. Vi har ikke gått gjennom mye sannsynlighetsregning, men nok til å kunne forstå det som kom mer. Idérammen i kapitlet er en mengde E med N elementer og undermengder av denne mengden. Fra dette har vi utledet noen grunnleggende formler:
Uformell definisjon av sannsynlighet: La A være en undermengde av populasjonen E. Hvis vi trekker tilfeldig ett element fra E, er sannsynligheten for at dette elementet skal være et medlem av A:
P(A) = Fr(A) =
jV(A)
W(E)
Sannsynligheten for unionen av to-mengder: P (A U B) = P (A) + P (B) — P (A Cl B) gjelder generelt P (A U B) = P (A) + P (B) hvis A og B er disjunkte
Definisjon av betinget sannsynlighet P (D I S) = P (D n S) / P (S)
Bayes formel P(S | D) =
p(s n d) P(D)
_______ P(D|S)P(S)________ P(D|S)P(S) + P(D|S’)P(S’)
107
Sannsynlighetsregning i forbindelse med konkrete problemstillinger faller ofte vanskelig, og det er nyttig å bruke spesielle fremgangsmåter for å strukturere tan kene: - Skal du løse rene oppgaver med snitt og union, tenk på sannsynlighet som areal. - Foretar du tilfeldige trekninger fra en populasjon, tenk på sannsynlighet som areal. - Observerer du stokastiske prosesser slik som terningkast, hvor det samme eks periment gjentas gang etter gang, tenk på sannsynlighet som relativ hyppighet i det lange løp. - Har du med betingete sannsynligheter å gjøre, bruk sannsynlighetstrær. - Ønsker du å snu på rekkefølgen mellom hendelser, bruk Bayes formel. Dette kan gjøres indirekte gjennom å «snu» sannsynlighetstregt hvis du foretrekker den metoden.
5.7 Oppgaver Øvelse Sannsynlighetsregning (Svar etter oppgave 5-7) En fabrikk lager trykte kretser på kort som styrer programmene i vaskemaskiner. Sannsynligheten for at et kort er defekt er 10 %. Hvis kortet monteres direkte i vaskemaskinen, må det tas ut og bearbeides hvis det viser seg å være defekt. Kortet er imidlertid testet først. Testen vil med en sannsynlighet på 80 % avsløre at kortet er defekt, hvis så er tilfelle (dette kalles testens sensitivitet). Den har også en sann synlighet på 95 % for å indikere at et korrekt kort er korrekt (dette kalles testens spesifisitet).
1)
Hva er sannsynligheten for at testen slår ut på et tilfeldig kort?
2) Hva er sannsynligheten for at et kort er defekt hvis testen slår ut? Hva er sann synligheten for at et kort er i orden hvis testen slår ut? Hva er sannsynligheten for at et kort er defekt hvis testen ikke slår ut? Hva er sannsynligheten for at et kort er i orden hvis testen ikke slår ut? 3) Hvorfor er svarene under 2 interessante?
108
Oppgave 5-1 Dødelighetstabell Tabellen nedenfor er hentet fra S. H. Preston et al.: Causes ofDeath:Life Tablesfor Natural Populations, Seminar Press, New York 1972. Den viser historiske tall for hyppigheten av dødsfall i ulike alderskategorier pr. 100 000 menn i USA Aldersgruppe
Dødshyppighet pr. 100 000 menn
0-1 1-S 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 55-60 . 60-65 65-70 70-75 75-80 80 +
2 060 352 229 246 772 1 061 955 1 054 1 411 2 111 3 306' 4 7.89,p 7 085 fe
9 617 11 828 13 836 14216 25 072
Kumulativ dødshyppighet 100 000 97 940 97 588 97 359 97 113 96 341 95 280 94 325 93 271 91 860 89 749 v86 443- ■ 81 654 A 74 569 64 952 53 124 39 288 25 072
(Ettårsdagen er siste dag i det første intervallet, S årsdagen siste dag i intervall nr. 2, osv.)
En nyfødt gutt trekkes tilfeldig. La følgende begivenheter være definert:
A: B: C: D: a)
Han dør det første leveåret Han dør etter fylte 50 år * Han dør i perioden 50-55 P Han dør i perioden 55-60 f
Finn P (A)
b) FinnP(C) c)
Finn P (C U D)
Uttrykk med ord hva du har funnet!
d) Finn P (C Pl D)'/
Uttrykk med ord hva du har funnet!
e)
FinnP(BnC)/,
Uttrykk med ord hva du har funnet!
f)
FinnP(B)
g) Finn P (C | B)
Uttrykk med ord hva du har funnet!
h) Finn P (D | B)
Uttrykk med ord hva du har funnet! 109
Oppgave 5-2 Riktig eller galt?
a)
Mulige utfall når vi kaster en ærlig mynt to ganger er: ingen «krone», en «krone» og to «krone». Disse tre utfallene har alle en sannsynlighet på 1/3.
b) Hvis en ærlig mynt har vært kastet 5 ganger med «krone» som utfall i alle 5 kast, er sannsynligheten for å få «mynt» i det 6. kast større enn 1/2.
c)
Det er mulig at for to hendelser, der P (A) = 0,5 og P (B) = 0,7, kan vi ha at P (A U B) = 1,2.
d) F (A | B) er alltid mindre enn P (B).
e)
Disjunkte hendelser er aldri uavhengige.
f)
Hvis P (A) = F (A | B), er A og B disjunkte.
Oppgave 5-3 Justering ved politiske meningsmålinger Ved en eksamen i statistikk ved BI i 1985 ble det gitt en oppgave om bruk av glattingsteknikk ved offentliggjøring av politiske meningsmålinger. Bjøm Balstad har i den forbindelse skrevet til Bl at Gallup/NOI aldri bruker «glatting», men jus terer mot forrige valg. Sitat: «Det er ikke korrekt at statistikkens feilmarginer hefter med full tyngde ved de politiske barometre. For vi presenterer ikke direkte tallene fra spørsmålet om hva man vil stemme på i morgen, men går omveien om svarene på hva man stemte på sist. Her kjenner vi fasiten (valgresultatet) og kan følgelig korrigere vårt utvalg slik at det blir perfekt på dette kriterium. Fra dette perfekte utgangspunkt registrerer vi så velgernes overganger partiene imellom, og har der med redusert utvalgsfeilene.» La oss se på en mulig fremgangsmåte. Innføring av symboler:
La N(A85) være det antall blant de intervjuede som sier de vil stemme på Arbeider partiet (Ap) ved stortingsvalget 1985. N (A’85 ) er det antall som ikke vil stemme Ap. La Fr (A85) være stikkprøveandelen som sier de vil stemme Ap i 1985, osv . La Fr (A85 | A81) være andelen av dem som sier de stemte Ap i 1981 som sier de også vil stemme Ap i 1985, osv. La F (A85) og F (A85 | A81) stå for de tilsvarende populasjonsandelene, osv.
Tenk deg at en intervjuundersøkelse blant n = 1400 stemmeberettigete har gitt følgende resultat: N
A’85
^81 A’gl
512 • 48»
20 , 820
Sum
560
840
110
Sum
532 868 1400
a)
Les ut av tabellen eller beregn: 7V(A85) Fr (A85) Fr (A’85) Fr (Ass U A8i) Fr (A85 A A81) Fr (^85 I A8i) Fr (A85 I A’81) Fr(A81)
b) Tyder dataene på at hva man stemmer på i 1985 er uavhengig av hva man stemte på i 1981? Forklar!
Ved stortingsvalget i 1981 fikk Ap 37,1 % av stemmene: P (A81) = 0,371 c)
Fr (A81) og P (A8]) er ikke like. Hvordan vil du forklare forskjellen og hva står her symbolene Fr og P for?
Vi multipliserer tallene i A81-raden ovenfor med 0,371/0,38 og tallene i A’81-raden med 0,629/0,62 og får (tilnærmet): N
As
A’s5
Sum
Ai A’si
500 48
20 832
520 880
Sum
548
852
1400
d) Sammenhold denne datajusteringen med sitatet fra Bjøm Balstad ovenfor og forklar hva vi her gjort og hvorfor. Beregn Fr (A85) ut fra denne tabellen. Sammenlikn med den tilsvarende beregning under punkt a) og kommenter. e)
Vis, eller gi et intuitivt resonnement for at følgende ligning alltid er riktig: P (^8s) = P (^85 I ^81) P (^81) + P (A85 I A’81) P (A’81)
f)
Du kjenner ikke P(A85 | A81) eller P(A851 A81’), men du har beregnet estimater for disse tallene i punkt a). Bruk dette til å estimere P (A85). Sammenlikn svaret med beregningen under d). Sammenhold det du har gjort med sitatet fra Bal stad og forklar med ord hva som har skjedd.
Oppgave 5-4 Om å kjøpe lodd først 1 en urne ligger N lodd, hvorav ett er vinnerloddet. A og B skal trekke ett lodd hver, men krangler om hvem som skal trekke først. Begge mener at den som trekker først har størst sjanse for å trekke vinnerloddet fordi hvis han virkelig gjør det, har jo nr. 2 ingen sjanse i det hele tatt. Tenk deg at A trekker først. a)
Hva er sannsynligheten for at A trekker vinnerloddet?
b) Hva er sannsynligheten for at B trekker vinnerloddet hvis A ikke gjør det? c)
Hva er sannsynligheten for at B trekker vinnerloddet? Har A og B noen grunn til å krangle? 111
Oppgave 5-5 Farskapssak I en farskapssak er det godt gjort at både A og B kan være barnefaren fordi begge har hatt samleie én gang med moren i angjeldende periode. Sannsynligheten er imidlertid størst for at det er A, fordi han var den første. Du skal beregne sannsyn ligheten for at A hhv. B er barnefaren når sannsynligheten for at et tilfeldig valgt samleie fører til graviditet er 1/20. B kan ikke befrukte kvinnen hvis A allerede har gjort det. Benytt følgende symboler: A: A befrukter kvinnen B: B befrukter kvinnen G: Kvinnen blir gravid
Spørsmålene a), b), c) og d) skal løses under forutsetning av at det ennå ikke erkjent at kvinnen har blitt gravid. Finn: a) P (A’) b) P (B | A’) c) P (B) d) P (G) e) P (B | G) f)
Svar på spørsmålet i teksten ovenfor.
Oppgave 5-6 HIV-risiko Det er vel alminnelig anerkjent at for å redusere risikoen for å bli smittet av HIV, bør man holde seg til én sexualpartner. Men hvor mye hjelper det? Tenk deg at du velger din partner tilfeldig fra en populasjon der én promille (0,001) er smittet. Sannsynligheten for smitteoverføring i ett samleie er 0,002. (Disse tallene tilsvarer omtrentlig en norsk virkelighet.)
a)
Hva er sannsynligheten for å bli smittet gjennom to samleier, ett med en til feldig person, og ett med en annen?
b) Hva er sannsynligheten for å bli smittet gjennom to samleier med én og samme person? Oppgave 5-7Eliza-testen Eliza-testen er en vanlig test for HIV. Den har en sensitivitet på 99 % (sannsyn lighet for å indikere HIV hos en smittet person) og en spesifisitet på 98 % (sannsyn lighet for ikke å indikere HIV hos en som ikke er smittet). Én promille av be folkningen er smittet. Anta at du er en person med gjennomsnittlig risiko, og at du har blitt testet med indikasjon på HIV. Hva er sannsynligheten for at du virkelig er smittet?
112
Svar på øvelse sannsynlighetsregning Vi definerer: T: testen indikerer at kortet er defekt D: Kortet er defekt Vi har fått oppgitt: P (D) = 0,1 P (T | D) = 0,8 P (T | D’) = 0,05
1) Vi beregner: P (T) = P (T | D) P (D) + P (T | D’) P (D’) = 0,08 + 0,045 = 0,125
2) Bayes formel: P (D | T) = P (T | D) P (D) / P (T) = 0,8 X 0,1 / 0,125 = 0,64 Da må vi også ha: P (D’ | T) = 1 - P (D | T) = 0,36 Bayes formel: P (D | T’) = P (T’ | D) P (D) / P (T’) = 0,2 X 0,1 / 0,875 = 0,023
Da må vi også ha: P (D’ | T’) = 1 - P (D | T’) = 0,977 3) Fabrikken må bestemme seg for hva de skal gjøre med kortene, om de skal bearbeide dem først, montere dem først, eller teste dem, og hva de i så fall bør gjøre avhengige av utfallet av testen. Her må kostnader kombineres med sann synligheter for hvilken tilstand kortene er i. Siden sannsynlighetene endres av testen, må vi beregne disse ved hjelp av Bayes formel.
113
6 Sannsynlighetsfordelinger 6.1 6.2 6.3 6.4 6.5
Kombinatorikk Binomialfordelingen Den hypergeometriske fordeling Sammendrag Oppgaver
6.1 Kombinatorikk Statistiske undersøkelser går ofte ut på å foreta stikkprøver fra populasjoner. Vi trenger metoder som gjør at vi kan beregne sannsynligheten for ulike resultater. Dette er læren om kombinasjoner, eller kombinatorikk. Først en beroligende melding til deg som synes sannsynlighetsregning er kom plisert: Dette avsnittet har ikke noe å gjøre med sannsynlighet i det hele tatt og det kan faktisk forstås selv om du ikke har lest noe av boken hittil. Det betyr ikke nødvendigvis at avsnittet er lett. Tenk deg at du har en urne med N = 5 elementer:
O
O
0
0
0
Du trekker ut n = 2 elementer i blinde. Hvor mange ulike resultater kan du få? Vel dette spørsmålet er flertydig. Først må vi avklare hvordan utvalget tas, om vi for eksempel legger tilbake elementene igjen etterhvert som vi trekker dem. I så fall sies utvalget å være med tilbakelegning. Deretter må vi bestemme oss for hva som skal til for at to utvalg er ulike, dvs. om rekkefølgen elementene trekkes i skal spille noen rolle. Velger vi å registrere rekkefølgen elementene trekkes i, kalles utvalget ordnet.
115
Ordnet utvalg med tilbakelegning Vi trekker n = 2 elementer fra en populasjon på N = 5. Det første elementet som trekkes kan være ett av fem. Det kan det andre også, fordi vi la tilbake det første. For hver mulighet vi har i første trekning, har vi 5 i andre. I de to trekningene har vi derfor til sammen 5X5 muligheter. Her er de:
Tabell 6-1 Alle de mulige 5X5 kombinasjoner ved ordnet utvalg med tilbakelegningpå n = 2 fra en urne med N = 5 elementer
oo oo oo oo oo
oo oo oo oo oo
oo oo oo oo oo
oo oo oo oo oo
oo oo oo oo oo
Generaliserer vi, ser vi at antall muligheter er antall elementer ganget med seg selv like mange ganger som antall trekninger:
Ordnet utvalg med tilbakelegning: Antall mulige kombinasjoner når n elementer trekkes fra en populasjon på N elementer: Formel 6-1:
Antall kombinasjoner = Nn
Eksempel'. Hvor mange muligheter har du når du fyller ut én rekke i en tippeku pong? Du har N = 3 elementer; H LJ og B. Fra disse skal du velge n = 12 elementer. Du kan selvsagt velge det samme tegnet flere ganger, så vi har tilbakelegning. Den første du velger er tippetegnet for kamp nr. 1, den andre for kamp nr. 2, osv. Da spiller rekkefølgen en rolle, og utvalget er ordnet. Svaret blir:
Nn = 312 = 531 441
116
Ordnet utvalg uten tilbakelegning Nå kan du ikke trekke det samme elementet to ganger. Du har stadig fem mulig heter første gang, men nå har du bare fire muligheter annen gang for da er det bare fire elementer igjen. Hadde du trukket en tredje gang, ville det bare vært tre mulig heter da. Her er alle mulighetene når du trekker to -ganger:
Tabell 6-2 Alle de mulige 524 kombinasjoner ved ordnet utvalg uten tilbakelegning på n = 2 fra en urne med N = 5 elementer
oo oo oo øo
oo oo oo oo
oo oo oo 00
oo oo oo øo
oø 00 00 oø
Hvis vi generaliserer, ser vi at vi skal gange n tall med hverandre, et tall for hver trekning. Det første tallet skal være N, det neste N — 1, deretter N — 2, osv.:
Ordnet utvalg uten tilbakelegning: Antall mulige kombinasjoner når n elementer trekkes fra en populasjon på N elementer: Formel 6-2:
PnN = N X (N — 1) X (N — 2)... i alt n ledd
Funksjonen PnN vil du blant annet kunne finne på lommekalkulatorer. I Excel bru ker du funksjonen PERMUT (A;h). Eksempel'. Du får 5 glass med vin og skal si hvilket glass som inneholder den dyreste og hvilket som inneholder den nest dyreste vinen. Du kan ikke si at ett og samme glass inneholder både den dyreste og den nest dyreste vinen. Altså har du ikke tilbakelegning. I hvilken rekkefølge du rangerer de to du velger ut, er imidlertid viktig. Altså er utvalget ordnet. Svaret blir: Pf = PERMUT (5;2) = 20.
117
Permutasjoner Hvor mange mulige resultater kan du få hvis du tar et ordnet utvalg uten tilbakeleg ning på n = 5 fra en populasjon på N = 5? Da skal vi starte med 5 og ha fem ledd med: Pf = 5 X 4 X 3 X 2 X 1 = 120 Hva er egentlig dette? Tenk deg at oppgaven din ovenfor egentlig var å rangere fem viner etter pris. Da kunne du ta vinglassene ett for ett, og plassere dem i prisrekkefølge. Det finnes altså like mange rekkefølger som utvalg. En rekkefølge kaller vi en permutasjon. Hvis vi generaliserer, ser vi at n elementer kan ordnes som vist i formel 6-3:
Antall permutasjoner: Antall mulige rekkefølger n elementer kan ordnes i: Formel 6-3:
n\ = PnN = n X (n — 1) X (n — 2) X (w — 3) X ... X 1
Det uttrykket er så viktig at det har fått et eget symbol og navn, n! uttales «-fakultet. Uordnet utvalg uten tilbakelegning Hvis vi slutter å interessere oss for hvilken rekkefølge elementene trekkes i, koker alle ordnete utvalg som har de samme elementene, men i ulik rekkefølge, sammen til ett utvalg. Med andre ord vil de to ordnete mulighetene og være bare énuordnetmulighet. To elementer kan plasseres i 2! =2X1 = 2 rekkefølger. Altså må vi dividere det totale antall ordnete muligheter på 2! for å få antall uordnete muligheter.
0 0 øo
Tabell 6-3 Alle de mulige 5 X 4/2 kombinasjoner ved uordnet utvalg på n = 2 uten tilbakelegning fra en urne med N = 5 elementer
OO
118
oo oo
oo oo oo
oo o© o© o©
La oss igjen generalisere: n elementer kan ordnes i n\ rekkefølger. Vi må derfor dividere antall ordnete muligheter med n\ for å få antall uordnete muligheter:
Uordnete trekninger uten tilbakelegning: Antall mulige kombinasjoner når n elementer trekkes fra en populasjon på N elementer:
Formel 6-4: 7VX (2V~ 1) X (TV—2) X .. .X (TV—rø + 1) n X (n1) X (n - 2) X ...X2 X 1 N\ (N — /?)! X h !
Parentesen (er en vanlig skrivemåte. Den leses «N over w» og kalles en binomisk koeffisient. 1 Excel bruker du funksjonen COMBIN (TV;/?) o
Et par nyttige observasjoner: A velge ut n elementer fra N er det samme som å bestemme hvilke N — n som skal ligge igjen. Altså må vi ha: N N — n) Siden det er 1 måte å velge ut /V elementer blant Npå, må det derfor også være 1 måte å velge ut ingen elementer blant TV på (0! er definert som lik 1): /TV\
tN\
W
\0 /
Antal I måter å velge ut ett element fra N på, er selvsagt lik N. La oss sjekke om dette stemmer med formelen: N\ (A- 1) X 1!
AX (A — 1) X (A- 2) X ..2 X 1 (A — 1) X (A — 2) X . ,X2 X 1 X 1
Eksempel'. Pengespillet Lotto går ut på at man krysser av 7 tall i en rekke på 34 tall. Det er om å gjøre å treffe så mange som mulig av de 7 tallene som senere blir trukket ut som vinnertall. På hvor mange måter kan man velge ut 7 tall blant 34? Du kan ikke krysse av samme tall to ganger. Altså er det ikke tilbakelegning. Hvilken rek kefølge du krysser av tallene i, er irrelevant. Når kryssene står der, kan ingen se hvilket som ble satt først. Utvalget er uordnet. Svaret er derfor: 34\ 7 )
34 X 33 X 32 X 31 X 30 X 29 X 28 7X6X5X4X3X2X1
= 5 379 616
119
Dette er flere muligheter enn folk flest kan forestille seg og omtrent ti ganger flere enn i tipping! Du bør kunne beregne disse kombinasjonene for relativt små tall selv. Du kan kontrollere resultatene dine med tabell 1 bak i boken der Ngår opp til 44 og n opp til 10.
San n synligh ets regn ing Nå skal vi trekke sannsynlighetsregning inn i bildet. Vi har gjennomgått tre typer utvalg og laget formler for antall mulige resultater. Hvis disse utvalgene er rent tilfeldige, kan vi med symmetri-resonnementer lett overbevise oss om at alle de mulige resultatene må være like sannsynlige. Tror du ikke det, kan du eksperimen tere litt og se om det virker rimelig. Når alle utvalgene er like sannsynlige, kan vi som før tenke oss at de er spredt ut i et mengdediagram og beregne sannsynligheten for å havne i spesielle undermengder som interesserer oss.
Sannsynlighet som antall gunstige på antall mulige: Anta at det totalt er m like sannsynlige mulige utvalg. Av disse er det g (for gunstig) i den undermengden som interesserer oss. Da er sannsynligheten for et gunstig utvalg:
Formel 6-5: P (gunstig utvalg) = g/m
Eksempel'. Vi får n = 5 barn. Barna kan være av N = 2 typer, Pike eller Gutt. Vi har tilbakelegning fordi vi kan få samme kjønn om igjen. Vi observerer rekkefølgen til barna. Utvalget er altså ordnet. Vi antar at hver gang er Gutt og Pike like sannsynlig (rent tilfeldig utvalg). Hva er sannsynligheten for nøyaktig tre Piker? Vi kan få Nn = 25 = 32 mulige utfall. Her er de:
Tabell 6-4 Antall mulige ordnete resultater med 5 barnefødsler, med en undermengde bestående av tre piker og to gutter
PPPPP PPPPG PPPGP PPPGG PPGGP PPGPG PPGPP PPGGG 120
PGPPP PGPPG PGPGP PGGPP PGPGG PGGPG PGGGP PGGGG
GPGPP GPPPG GPPGP GPPGG GPPPP GPGPG GPGGP GPGGG
GGPPP GGPPG GGPGP GGPGG GGGPP GGGPG GGGGP GGGGG
Som du ser er arealet med nøyaktig tre piker 10/32. Sannsynligheten for å få tre jenter hvis du planlegger fem barn er altså 0,313. Fremgangsmåten med å skrive opp alle mulige utfall og så telle opp dem vi er interessert i, er oversiktlig og sikker, men umulig hvis antall kombinasjoner er stort. Da trenger vi formler. Ser du en annen måte å finne ut at 10 av de 32 utfallene gir tre jenter? Vi har N = 5 fødsler. På hvor mange måter kan vi velge ut de n — 3 fødslene som skal gi jenter? Dette er et uordnet utvalg uten tilbakelegning. Svaret må derfor bli:
Uordnet utvalg med tilbakelegning Dette er den fjerde og siste av de fire utvalgstypene og den eneste vi ikke skal lage noen formel for. Grunnen er at i dette tilfellet er ikke alle kombinasjoner like sann synlige, selv om utvalget er rent tilfeldig. La oss igjen se på eksemplet med barne fødsler. I et uordnet utvalg registrerer vi bare hvor mange ganger vi trekker de ulike elementene, ikke hvilken rekkefølge de kommer i. Vi har derfor følgende mulige utfall:
Tabell 6-5 De mulige uordnete resultater ved 5 barnefødsler 1: 2: 3: 4: 5: 6:
0 gutter og 5 piker 1 gutt og 4 piker 2 gutter og 3 piker 3 gutter og 2 piker 4 gutter og 1 pike 5 gutter og 0 piker
Sannsynlighet Sannsynlighet Sannsynlighet Sannsynlighet Sannsynlighet Sannsynlighet
= = = = = =
1/32 5/32 10/32 10/32 5/32 1/32
Du kan forsikre deg om at sannsynlighetene er riktige ved å telle opp undermengdene i det ordnete utfallsrommet i tabell 6-4, eller ved å beregne følgende størrelser: 5\ /5\ 0/ \lj
/5\ \2/
/5\ U/
/5\ W
/5\ \5 /
1 virkeligheten er det litt mer sannsynlig å få gutt (0,51) enn jente. Da er ikke frem gangsmåten i dette avsnittet med å se på like sannsynlige utfall tilstrekkelig. Vi må bygge videre på det vi har lært her. Det bringer oss over til den viktige binomialfordelingen.
6.2 Binomialfordelingen Ordet binomial kommer fra gresk bi nomen - to navn, og henspiller på at vi studerer prosesser der hele tiden kun én av to ting kan skje. Betrakt populasjonen av stem meberettigete i Norge. Den er på omtrent 2,8 millioner personer. La oss si at 30 % av dem stemmer på Høyre (H) og 70 % på andre partier (A).
121
Hvis vi tilfeldig trekker ut en person fra denne populasjonen, vil P (H) = 0,30 og P (A) = 0,70. Populasjonen er så stor at selv om vi trekker ut en tilfeldig person til, vil sannsynligheten for at vedkommende stemmer Høyre, for alle praktiske formål, fremdeles være 0,30, uansett hva den første personen stemmer på. Vi har altså tilnærmet uavhengighet mellom utfallet av første og annen trekning fordi popula sjonen kan regnes som «uendelig» stor i forhold til det antallet vi trekker - den blir ikke forandret ved at noen trekkes ut. Dette ser du klart hvis du tar tallene ovenfor bokstavelig. Da er det 0,3 X 2,8 mill = 840 000 høyrevelgere. Hvis den første du trekker er en høyrevelger, er det 839 999 igjen, og sannsynligheten for at også den neste er en høyrevelger er 839 999/2 799 999 = 0,299 999 8 som for alle praktiske formål er lik 0,30. Vi regner således med uavhengighet og kan multiplisere sannsynligheter: P (første P (første P (første P (første
H, annen H) H, annen A) A, annen H) A, annen A)
= = = =
0,3 0,3 0,7 0,7
X X X X
0,3 0,7 0,3 0,7
= = = =
0,09 0,21 0,21 0,49
Dette kan vi oppsummere med P (begge H) = 0,09 P(énH, énA) = 0,21 + 0,21 = 0,42 P (begge A) = 0,49
for en tilfeldig stikkprøve på to velgere. Oppstilt i tabell ser det slik ut: Tabell 6-6 Sannsynligheten for antall høyrevelgere i et tilfeldig utvalg på n = 2 nårp = P (H) = 0,3 hver gang Antall H Sannsynlighet P
0
1
2
0,49
0,42
0,09
X = 1,00
Istedenfor tabellen kan vi lage en formel for n = 2 ogp = 0,3.
Binomiske sannsynligheter: Sannsynligheten for nøyaktig a høyrevelgere i et tilfeldig utvalg på n = 2 når p = P (H) = 0,3 hver gang
Formel 6-6:
P(a) =
/2\
\a /
X 0,3fl X 0,72 ~a
a står for antall H, a = 0, 1 eller 2. Sjekk denne formelen ved å sette inn verdier! Legg merke til at 2 — a står for antall A. Du skal snart få forklaring på formelen. 122
Hvis du trekker ut tre velgere tilfeldig, slik at n = 3 og antall H i stikkprøven representeres med a, vil antall A i stikkprøven være n — a eller 3 — a. Sannsynlighetene for de forskjellige resultatene er gitt ved formel 6-7:
Binomiske sannsynligheter: Sannsynligheten for nøyaktig a høyrevelgere i et tilfeldig utvalg på n = 3 når p = P (H) = 0,3 hver gang
Formel 6-7:
P(d) = Q X 0,3“ X 0,73 “ a
For eksempel vil da sannsynligheten for at akkurat én av de tre stemmer Høyre {a = 1) være: P(l) = (?) XO,3’ XOJ3!1 = 3 X0,3 X 0,49 = 0,441
Tabellen over sannsynligheter ser nå slik ut:
Tabell 6-7 Sannsynligheten for antall høyrevelgere i et tilfeldig utvalg på n = 3 når p = P (H) — 0,3 hver gang Antall H Sannsynlighet P
0
1
2
3
0,343
0,441
0,189
0,027
X = 1,00
Forklaring på formel 6-7 Formel 6-7 kan forklares ved hjelp av tabell 6-8 (eksempelvis betyr AHH «først en som stemmer på et annet parti, dernest to som stemmer Høyre»):
Tabell 6-8 De mulige ordnete utfall og deres sannsynligheter når et tilfeldig utvalg på n = 3 trekkes og p = P (H) — 0,3 hver gang P (AAA) = P (AAH) = P (AHA) = P (AHH) = P (HAA) = P (HAH) = P (HHA) = P (HHH) =
0,7 X 0,7 X 0,7 = 0,73 = 0,7 X 0,7 X 0,3 = 0,72 X 0,3 = 0,7 X 0,3 X 0,7 = 0,72 X 0,3 = 0,7 X 0,3 X 0,3 = 0,7 X 0,32 = 0,3 X 0,7 X 0,7 = 0,72 X 0,3 = 0,3 X 0,7 X 0,3 = 0,7 X 0,32 = 0,3 X 0,3 X 0,7 = 0,7 X 0,32 = 0,3 X 0,3 X 0,3 = 0,33 =
0,343 0,147 • 0,1470,063 0,1470,063 0,063 0,027 X = 1,00
123
Vi ser at P (IH og 2A) = P (AAH)+P (AHA)+P (HAA) = 0,147 + 0,147 + 0,147 = 3 X 0,147 = 0,441 slik vi fant ovenfor. Det viktige her er 3-tallet. Det tilsvarer l/3 \j-leddet i formel 6-6 og representerer antall måter vi blant de n = 3 trekningene kan velge ut den ene trekningen som skal gi H som resultat. Hvis vi i stedet hadde trukket ut n = 8 stemmeberettigete, finner vi ved hjelp av samme resonnement at sannsynligheten for å finne to H-er er P(a = 2) = Q XO,32XO,78“2 Å få nøyaktig denne rekkefølgen: AHAAAHAA har elt sannsynlighet på 0,32 X
0,76 og det må ganges med de ($ j måter å velge ut de to plassene blant de åtte der de
to H-ene skal stå. Øvelse-. Anta at 30 % av alle stemmeberettigete vil stemme Høyre. Vis at en tilfeldig stikkprøve på n = 4 har en sannsynlighet på 0,075 6 for å inneholde nøyak tig tre H-er. Fyll ut tabellen: Antall H Sannsynlighet P
0
1
2
3
4
0,0756
Den regneregelen du bruker for å få 0,3a 0,7" ~ a er egentlig multiplikasjonsregelen for uavhengige hendelser. Du antar at sannsynligheten for hva f.eks. den Ijerde velgeren som blir intervjuet vil stemme på, er uavhengig av hva de tre foregående
har svart. Faktoren Qj er rett og slett antall disjunkte utfall hvis sannsynligheter kan legges sammen for å finne den søkte sannsynlighet. Utfallene AHA og HAA for eksempel, er disjunkte - de utelukker hverandre, men begge inneholder én H og to A-er. Alt det vi har illustrert ved å ta for oss høyrevelgere og andre, gjelder selvsagt i alle tilfeller der vi har n uavhengige forsøk med kun to utfall. Her brukte vi H og A, men mer generelt snakker vi gjeme om vellykkete og mislykkete utfall, eller JA og NEI-utfall. Du kan jo selv velge hva som passer best her. Ved en løpende kvalitets kontroll vil for eksempel en vare som holder mål representere et JA. I motsatt fall er det et NEI.
124
Binomialfordelingen Vi har en stor populasjon der en andelp er vellykkete og resten 1 — p er mislykkete. Vi tar en tilfeldig stikkprøve på n. Da vil sannsynligheten for at stikkprøven inne holder a vellykkete og n — a mislykkete kunne beregnes med formel 6-8:
Binomialfordelingen: Sannsynligheten for å få nøyaktig a vellykkete utfall i en serie på n identiske og uavhengige forsøk der sannsynligheten for at et tilfeldig forsøk skal bli vellykket er p
(TIa \I pa (1 — p)n ~ a Selv om formel 6-8 kan se komplisert ut, er den faktisk meget lett å forstå. pa er sannsynligheten for a vellykkete, og (1 — pY~a sannsynligheten for at resten er mislykkete. pa (1 — pY ~ a er sannsynligheten for en helt bestemt serie på a vel lykkete og resten mislykkete, for eksempel de a første vellykkete og resten mis lykkete. Den binomiske koeffisienten gir rett og slett hvor mange slike serier som finnes! Eksempel: Hvis 10 % av en stor populasj on er arbeidsløs, hva er sannsynligheten for å finne nøyaktig 3 arbeidsløse i en stikkprøve på 6? Løsning', n = 6 p = 0,1 P(a = 3) = Qo,13O,93 = 0,01458
Kumulative sannsynligheter Tenk deg at 20 % av alle kandidater i hele landet vil bestå en ferdighetstest:
p = 0,2 og 1 - p = 0,8.
Sannsynligheten for at nøyaktig
av 6 tilfeldig utvalgte vil bestå er:
P(a) = f6^0,2a0,86-a
Sannsynligheten for at 4 består er derfor: P(a) = (^0,240,82 = 0,0154 \4/
125
Ved å sette inn ulike verdier av a i formelen, kan vi lage en sannsynlighetstabell som vist i tabell 6-9. Der har vi også beregnet sannsynlighetene for «minst» og «høyst» a\
Tabell 6-9 En sannsynlighetsfordeling: Punktsannsynligheter og kumulative sannsynligheter for en binomiskprosess med p = 0,2 og n = 6 a POO P (høyst a) P (minst a)
0
1
2
3
4
5
6
0,262 0,262 1
0,393 0,655 0,738
0,246 0,901 0,345
0,082 0,983 0,099
0,015 0,998 0,017
0,002 1 0,002
0,000 1 0
Den første raden er sannsynligheter for at nøyaktig a vil bestå, beregnet med for melen ovenfor. Disse kaller vi punktsannsynligheter. Ut fra dette kan vi beregne sannsynligheten for at for eksempel høyst to vil bestå. «Høyst to» betyr to eller færre. Altså:
P (høyst 2) = P(0) + P(l) + F (2) = 0,262 + 0,393 + 0,246 = 0,901 Hva er så sannsynligheten for at minst 4 vil bestå? Minst 4 betyr 4 eller flere, dvs. 4, 5 eller 6. Derfor:
P (minst 4) = P (4) + P (5) + P (6) = 0,015 + 0,02 + 0,000 = 0,017
Disse sannsynlighetene kalles kumulative sannsynligheter. Kumulativt betyr «oppsamlet». Hvis vi holder oss ute i en av endene av fordelingen, kan de også kalles halesannsynligheter. Man skiller mellom høyrehaler og venstrehaler. P (høyst 2) er en venstrehalesannsynlighet, og P (minst 4) det motsatte. Beregning av binomiske sannsynligheter Du finner en tabell over binomialfordelingen bak i boken (tabell 2), men slike tabel ler kan ikke vise alt. Det er lettere å bruke regnearkformler. Følgende Excel-funksjon beregner P (2) hvis n = 6 og p = 0,2: BINOMDIST (2;6;0,2;0) Erstatter du den siste nullen i Excel-fnnksjonen med et ettall, får du P (høyst n) istedenfor. Statark vindu 1-7 beregner også binomiske sannsynligheter, og gir deg grafer over fordelingen. Her kan du regne ut binomiske sannsynligheter for alle verdier av p og n du ønsker. Du får automatisk ut to tabeller, en som beregner sannsynligheten for nøyaktig a vellykkede og en høyst a vellykkede. Graf 6-1 viser en graf produsert med Statark.
126
Binomiske Sannsynligheter
Antall vellykkede forsøk
Graf 6-1: Binomialfordelingen forn = 30 og p = 0,2
6.3 Den hypergeometriske fordeling Den hypergeometriske fordeling er aktuell når du foretar et utvalg fra en popula sjon med N elementer av to ulike typer, for eksempel Riktige og Gale, og vil be regne sannsynligheten for hvor mange riktige du får. Det best kjente tilfellet er kanskje Lotto. Tenk deg at du har kjøpt en Lottokupong og skal fylle ut en rekke. En kupong består av 34 tall. Du skal gjette på hvilke 7 av disse 34 tallene som vil bli trukket ut som såkalte vinnertall. Du skal med andre ord krysse av n = 7 av de N = 34 tallene i kupongen, i håp om at du treffer de A = 7 vinnertallene. Hvor store sjanser har du? Dette spørsmålet er faktisk ganske enkelt med de kunnskapene du allerede har fra kombinatorikken. Når du velger 7 tall for avkrysning, foretar du et uordnet utvalg uten tilbakelegging. Det er uordnet fordi ingen bryr seg om hvilket tall du krysser av først, som nummer to, osv. Det er ikke tilbakelegging fordi du ikke kan krysse av samme tall to ganger. Da vet du at antall mulige måter å velge ut de n = 7 tallene blant de N = 34 er: m =
/7V\ Z34\ = \n/ \ 7/
= COMBIN(34;7 = 5 379 616
Bare én av dem kan være riktig. Antall gunstige utvalg er altså g = 1. Sannsyn ligheten for å få syv rette er dermedg/ni = 1/5379616 = 0,00000018589. Dette er et ganske lite tall. Kanskje vi skal være litt mindre ambisiøse og heller regne ut sannsynligheten for å få 6 riktige tall. Du krysser stadig av n = 7 tall, slik at antall mulige måter å velge disse tallene på er uforandret, men flere av disse vil nå være gunstige for å få 6 127
riktige. Du må velge dine a = 6 riktige blant Lottos i alt ^4 = 7 riktige tall. Det kan gjøres på:
'4 a
7 6
= 7 måter.
Samtidig må det siste tallet ditt velges blant Lottos 27 gale tall. Det kan gjøres på:
= 27 måter Sannsynligheten for å få 6 rette blir dermed:
7 X 27 5379616
= 0,00003513262
Hermed har vi resonnert oss frem til den hypergeometriske fordelingen.
Den hypergeometriske sannsynlighetsfordeling: n elementer trekkes uordnet og uten tilbakelegning fra en populasjon med N elementer hvorav A er Riktige og resten Gale. Sannsynligheten for å få nøy aktig a Riktige i utvalget er:
Formel 6-9:
P{a) =
= HYPGEOMDIST(a;n;4;2V)
Formel 6-9 er i alminnelighet krevende å regne med. Vi har derfor lagt til den tilsvarende Excel-funksjonen som uten videre vil gi deg svaret, hvis du først greier å finne ut hva a, n, A og N skal være. Imidlertid kan man lett bli litt forvirret av å prøve på det, og én grunn er at det som regel finnes to naturlige måter å gå frem på som begge er riktige. La oss se litt mer på dette. Tenk deg at du krysser av 9 tall på en Lottokupong og vil beregne sannsyn ligheten for å få 6 rette. Da har du:
-
Populasjonens størrelse, kupongtallene: N — 34 Antall riktige elementer, Lotto vinnertallene: 4 = 7 Utvalgets størrelse, antallet du krysset av: n = 9 Det antall riktige i utvalget, som du vil beregne sannsynligheten for: a = 6
128
I virkeligheten skjer jo imidlertid trekningene av de riktige Lottotallene etter at du har sendt inn dine 9 kryss. Det er derfor vel så naturlig å si at: - Polulasjonens størrelse, Lottotallene: N = 34 Antall riktige elementer, dine avkryssede tall: A = 9 Utvalgets størrelse, antall Lottotall som blir trukket: n = 7 Det antall riktige i utvalget, som du vil beregne sannsynligheten for: a = 6
Hvis du regner ut de to sannsynlighetene, vil du heldigvis finne at de gir samme svar. Det spiller altså ingen rolle hva du ser på som henholdsvis utvalget og de riktige, men du må være konsekvent. En måte å sjekke konsekvens på er å forsikre deg om at de horisontale summene av tallene i telleren alltid skal være like de tilsvarende posisjonene i nevneren. I den første formelen ser du at 7 + 27 = 34 og at 6 + 3 = 9, i den andre ser du at 9 + 25 = 34 og at 6 + 1 = 7. Hvis ikke dette stemmer, har du gjort noe galt.
6.4 Sammendrag Det finnes fire typer utvalg. Antall mulige kombinasjoner er vist i tabell 6-10.
Tabell 6-10 Antall mulige kombinasjoner i de fire typer utvalg der n elementer trekkes fra en populasjon på N elementer Type utvalg
Med tilbakelegning
Uten tilbakelegning
Ordnet
Nn
PnN = N X (N - 1) X (N - 2) ... i alt n ledd Excel: PERMUT (7V;«)
Uordnet
Uinteressant
c" = H = N\n) (N~n)'.Xnl Excel: COMBIN (N;n)
Uordnete utvalg med tilbakelegning har ikke like sannsynlige resultater, og antallet er derfor uinteressant. Ordnete utvalg uten tilbakelegning er uten sammenligning den viktigste og vanligste fonn for utvalg. 129
En sannsynlighetsfordeling er en liste eller funksjon med sannsynligheter for de mulige resultater av en bestemt type observasjon. Vi skiller mellompunktsannsynligheter (sannsynlighet for nøyaktig lik) og kumulative sannsynligheter (sannsyn lighet for minst lik). Summen av punktsannsynlighetene i en sannsynlighetsfor deling er 1,00. Binomialfordelingem. Sannsynligheten for å få nøyaktig a vellykkete utfall i en serie på n identiske og uavhengige forsøk der sannsynligheten for at et tilfeldig forsøk skal bli vellykket er p\
P{a) =
pa(\-p)n~a = BINOMDIST (u;w;p;0)
Den hypergeometriske sannsynlighetsfordeling: n elementer trekkes uordnet og uten tilbakelegning fra en populasjon med N elementer hvorav A er Riktige og resten Gale. Sannsynligheten for å få nøyaktig a Riktige i utvalget er:
(A\ /N-A\ I z\ I I P(a) = —----- n~ Cl ' = HYPGEOMDIST(u;M;V) /7V\
\n /
6.5 Oppgaver Øvelse Urneoppgave (Svar etter oppgave 6-3) I en urne er det 10 nummererte kuler, hvorav 6 er blå og 4 er røde. a)
Du trekker 3 kuler med tilbakelegging. Hva er sannsynligheten for at du først trekker nr. 6, så nr. 8 og så nr. 2?
b)
Du trekker 3 kuler uten tilbakelegging. Hva er sannsynligheten for at du først trekker nr. 6, så nr. 8 og så nr. 2?
c)
Du trekker 3 kuler uten tilbakelegging. Hva er sannsynligheten for at du trek ker nr. 6, nr. 8 og nr. 2?
d)
Du trekker 3 kuler uten tilbakelegging. Hva er sannsynligheten for at du trek ker nøyaktig to blå?
e)
Du trekker 3 kuler med tilbakelegging. Hva er sannsynligheten for at du trek ker nøyaktig to blå?
Oppgave 6-1 Hjernegymnastikk Det er 7 personer i en heis på vei oppover med 7 etasjer igjen. Hver person velger tilfeldig og uavhengig av de andre hvor han vil gå ut. Beregn sannsynligheten for at de går ut i hver sin etasje. (Finner du oppgaven vanskelig, start med å tenke på to personer og to etasjer!)
130
Oppgave 6-2 V5 Pengespillet rikstoto V5 går ut på å tippe riktige vinnere i 5 på forhånd bestemte trav eller galoppløp. De fem løpene er markert med hver sin søyle som er delt inn i 15 nummererte ruter. Et nummer i hver rute tilsvarer en bestemt hest i programmet. Vinner(e) markeres med x i de respektive løp. Se V-5 kupongen nedenfor.
Hill I Hill HHHI I I I I I I I I I I I I !!■ Fyll ut alle røqe felt.
Systemet velger reservehester for hester som er strøket.
V5 avd 1 l l! I 5 f i ?
V5 avd
2
V5 avd 3
I ? ? ? M ? ?
12
3
4
6
7
j
5
9 10 ijl 12
9 10 fl 12
9 10 11 12
13 14 15 Alle
13 14 15 Alle
13 14 15 A?le
V5 avd 4
V5 avd 5 i * H
12
5
j
3 7
4
8
5
I
7
Beløp pr. rekke |
| 10 1# 12
13 14 15 Alle
1^3 14 15 Alle
5 10 20 50 100
Ukedag lt|A fl 0N fo FR LØ SØ
Bane |
0
D
j
K ST F
BT L Bl M LI L2 L3 14 . e* '*• Markér ett belop, én ukedag og én bane.
♦
9 10 1|1 12
2
®
Antall I rekker
Beløp pr.rekke
I |
Innsats
1 -JK
bongen gjelder ikke som kvittering. ® Denne Kvittering trykkes på egen bong som må tas vare på.
Se baksiden for mer informasjon, gtrålfors 21 2B/ID27/5O877
Anta du fyller ut en kupong med ett tilfeldig kryss for hvert løp. (»
a)
Hva er sannsynligheten for å tippe 5 vinnere? 5
b) Hva er sannsynligheten for å få 4 vinnere?
Anta at hvert av de tre første løpene fylles ut tilfeldig med 2 kryss, og hvert av de to siste løpene fylles ut tilfeldig med Vacryss.
c)
0
Hva er sannsynligheten for å tippe 5 vinnere?
d) Hva er sannsynligheten for å tippe 4 vinnere? 74
e)
*
Ovenfor fylte du ut i alt 20 kryss. Har du større sannsynlighet for å tippe 5 vinnere dersom du isteden fyller ut 4 kryss tilfeldig for hvert løp? Begrunn svaret.
Oppgave 6-3 Lotto Spillet er så enkelt at alle som kan telle kan være med. Kunnskaper og spekulasjo ner gir ingen fordeler-her gjelder det kun å være heldig. Tallspillet Lotto foregår med utgangspunkt i en kupong som består av 10 tallrekker. Hver rekke består av 34 tall. Den som deltar i spillet, krysser av syv tall i hver av de rekkene vedkommende ønsker å fylle ut. Ved trekningen kommer man frem til de syv vinnertallene i den aktuelle spilleomgangen. Det blir fem premieklasser. De som har alle syv tallene riktige, får 1. premie og den høyeste gevinsten, seks riktige gir 2. premie osv. helt
131
ned til tre riktige tall som gir 5. premie. I denne oppgaven skal du blant annet foreta visse sammenligninger mellom Lotto og den tradisjonelle fotballtippingen. Under sistnevnte kan du gå ut i fra at i hver av de 12 kampene er hvert av de 3 utfallene Hjemmeseier, Uavgjort og Borteseier like sannsynlig. a)
Anta at du fyller ut en rekke tilfeldig på en tippekupong. Hva er sannsynlig heten for å få 12 riktige?
b) Anta at du fyller ut en rekke tilfeldig i Lotto (velger 7 av de 34 tall). Hva er sannsynlighetene for å få henholdsvis 7, 6, 5, 4 og 3 rette? c) I Lotto kan du på samme kupong også «gardere» ved for eksempel å krysse av for 8 tall av de 34. Vis at du får den samme sannsynligheten for 7 rette, enten regner utvalget for de 8 kryssede, eller de 7 vinnertallene. d) Du kan gardere med 8, 9, 10,11 eller 12 kryss. Dette koster henholdsvis 8,36, 120, 330 og 792 kroner. Vis hvordan disse prisene fremkommer. e)
I tillegg til de 7 vinnertallene, trekkes det også to tilleggstall. Du har krysset av ved 10 tall. Hva er sannsynligheten for å få nøyaktig 6 vinnertall, og ett til leggstall?
f)
I Vikinglotto er det 6 vinnertall av i alt 40. En rekke består av 6 kryss. Hva er sannsynligheten for 6 rette?
Svar på øvelse Urneoppgave I en urne er det 10 nummererte kuler, hvorav 6 er blå og 4 er røde.
a) Ordnet utvalg med tilbakelegging. N = 10, n = 3. Ett gunstig utfall. Svar: \/Nn = 1/103 = 1/1000. b) Ordnet utvalg uten tilbakelegging. N = 10, n = 3. Ett gunstig utfall. Svar: \/PNn = 1/10 X 9 X 8 = 1/720.
c) Uordnet utvalg uten tilbakelegging. N — 10, n = 3. Ett gunstig utfall. Svar: \/CNn = 7! X 31/10! = 1/120.
d) Hypergeometrisk: N — 10, n = 3, A = 6, tz = 2,
// \2 / x \(A 1) P(2) =
e)
/10\ \3 /
= 15X4/120 = 0,5 =
Binomisk, n = 3,p = 0,6, a = 2
P(2) = (?)0,62(l - 0,6)3"2 = 3 X 0,36 X 0,4 = 0,432
132
7 Hypoteseprøving 7.1 7.2 7.3 7.4 7.5 7.6
Test av en hypotetisk verdi for populasjonsmedianen mot en stikkprøve Testers styrke Direkte hypoteseprøving Ensidig hypoteseprøving Sammendrag Oppgaver
7.1 Test av en hypotetisk verdi for populasjonsmedianen mot en stikkprøve Eksempel: Har det funnet sted en temperaturendring i Norge siden århundreskiftet? Meteorologisk institutt overvåker temperaturen i Norge blant annet ved å registrere årlig gjennomsnittstemperatur, x, midlet over 10 målestasjoner rundt om i landet. Datafilen Klima inneholder x fra 1871 til 1993. Medianen til x i 60-årsperioden fra 1871 til 1930 var 3,7 °C. Temperaturene, x, fra årene 1977 til 1993 er vist i tabell 7-1 og graf 7-1. o
Tabell 7-1 Arsgjennomsnittstemperaturer i Norge 1977-1993 °C
Ant. ganger
2,3
2,9
3,1
3,2
3,5
3,6
3,9
4,2
4,4
4,6
5,5
5,6
6
1212111221111
°C
Graf 7-1: Plott av temperaturene i tabell 7-1
La oss betrakte disse 17 observasjonene som tilfeldige trekninger fra en populasjon med temperaturer. Kan medianen i denne populasjonen være lik 3,7 °C? Dette er den hypotesen vi skal teste. Vi kaller den nullhypotesen fordi den be nekter det vi egentlig er ute etter, nemlig å konkludere med at temperatumivået har
133
endret seg siden århundreskiftet. Vi ønsker imidlertid ikke å komme med alar merende meldinger om at klimaet har endret seg, hvis så ikke er tilfelle. Derfor vil vi spesifisere en øvre grense for sannsynligheten for å forkaste nullhypotesen hvis den er riktig. Dette kaller vi signifikansnivået. La oss velge den lik 5 %. Nullhypotese Alternativ Signifikansnivå
Ho: /I = 3,7 °C Hfg 4 3,7 °C 2a = 5 %
Et 95 % konfidensintervall for populasjonsmedianen med /? = 17, går i følge tabell 3b fra den 5. laveste til den 5. høyeste verdi i stikkprøven. [x(5); x(5)] går fra 3,2 til 4,4 °C. Dette intervallet inneholder 3,7 °C, altså beholder vi nullhypotesen. Hadde intervallet bommet på 3,7 °C, ville vi ha forkastet nullhypotesen og sagt at den alternative hypotesen er riktig og at klimaet dermed hadde endret seg. Legg merke til følgende viktige trekk ved denne enkle metoden: - Siden konfidensintervallet med sannsynlighet 95 % vil inneholde den virkelige medianen, er sannsynligheten for å bomme 5 %. Hvis nullhypotesen er riktig, vil sannsynligheten for å komme i skade for å forkaste den derfor kun være 5 %. Med andre ord er signifikansnivåets krav ivaretatt. Vi har kontroll på sannsyn ligheten for å komme med alarmerende, men feilaktige påstander. - 1 vårt eksempel forkastet vi ikke nullhypotesen. Det betyr imidlertid ikke at vi tror den er riktig. Populasjonsmedianen kan jo ligge hvor som helst i konfidens intervallet. Derfor er vi mer forsiktige, og sier at vi beholder nullhypotesen som en mulighet. - Hadde vi derimot forkastet nullhypotesen, ville vi tatt sjansen og sagt at den var gal. Vi tar da en kalkulert risiko svarende til signifikansnivået som vi altså selv bestemmer. - Vi utførte i eksemplet en tosidig test. Det kommer av at alternativet var tosidig og derfor også konfidensintervallet. I samsvar med dette kalte vi signifikansni vået for 2a. Vi kan også utføre ensidige tester. Det kommer vi til i avsnitt 7.4. Terminologi I statistisk hypoteseprøving tar vi alltid utgangspunkt i en nullhypotese som be nekter det vi egentlig er ute etter. Nullhypotesen vil som oftest dreie seg om at det ikke har skjedd noen endring, eller at det ikke er forskjell mellom to populasjoner eller lignende. Det er dette aspektet av innholdsløshet som har gjort den fortjent til navnet. Signifikansnivået kalles av og til også feilsannsynlighet og symboliseres med 2a (i tosidige tester). Vil man tenke positivt, kan man snakke om konfidensnivå og sannsynligheten for å ha rett som symboliseres med 1 — 2a. Vi skal imidlertid være forsiktige med disse uttrykksformene, fordi signifikansnivået egentlig er en be tinget sannsynlighet, nemlig sannsynligheten for å forkaste nullhypotesen gitt at den er riktig. Dette kan vi lett glemme hvis vi uttrykker oss mer folkelig.
134
Hvis en stikkprøve får oss til å forkaste hypotesen med et konfidensnivå på 99 %,. sier vi at «stikkprøven er signifikant på 1 %-nivået» i forhold til nullhypotesen, eller «nullhypotesen forkastes på 1 %-nivået». Et spesielt forhold ved denne terminologien er at et lavt signifikansnivå innebærer sterk signifikans. A forkaste på 0,1 %-nivået er meget signifikant, mens et 25 % signifikansnivå ikke er særlig overbevisende eller signifikant. Når nullhypotesen ikke blir forkastet, er det mange som sier: «Nullhypotesen aksepteres.» Dette kan imidlertid være villedende fordi vi påstår ikke at nullhypo tesen er sann, bare at den kan være sann. Vi har nemlig ikke greid å bevise at den er gal. Når nullhypotesen ikke kan forkastes, bør vi derfor si: «Nullhypotesen kan ikke forkastes på 2a-nivået (f.eks. 10 %, 5 % eller 1 %)» eller «Jeg beholder null hypotesen». Måten nullhypotesen behandles på i statistikk minner om prinsippet fra retts saker om at en anklaget er uskyldig inntil det motsatte er bevist. Som vi vet kan det medføre at en som alle «vet» er skyldig likevel blir frikjent av mangel på bevis. Grunnen er at vi betrakter det som verre at en uskyldig blir dømt enn at en skyldig går fri. På samme måte beholdes en nullhypotese inntil vi har bevis nok til å for kaste den, fordi vi betrakter det som verre å forkaste en riktig nullhypotese enn å beholde en som er gal. Hvis vi derfor beholder nullhypotesen, betyr ikke det nød vendigvis at vi tror den er sann, men bare at bevisene imot den ikke er sterke nok. o
De enkelte trinn i tosidig hypoteseprøving med ordningsobservatorene Trinn
Aktivitet
Symbolsk
Eksempel
1
Formuler hypotesene
2 3 4
Ho: M = Mo Hk m V Mo 2a X],X2, ...,x„
Velg signifikansnivået Skaff til veie dataene Lag et 1 — 2a konfidensintervall l-Y(e) ; *(c)] for m Konklusjon: Forkast Ho hvis /z0 ikke er i konfidensintervallet Behold Ho hvis ju0 er i konfidensintervallet
Ho: m = 3,7 °C Hj: m * 3,7 °C 2a = 5 % n — 17 temperaturer
5
[3,2 ; 4,4] Behold Ho
7.2 Testers styrke Hensikten med dette avsnittet er å forstå styrkebegrepet. Senere skal vi se hvordan styrken til en test kan beregnes i spesielle situasjoner. Mediantemperaturen i tidsrommet 1871 til 1931 var altså 3,7 °C. Da vi brukte de 17 temperaturene fra årene 1977 til 1993 som en tilfeldig stikkprøve for å teste om de kunne være hentet fra en populasjon med median lik 3,7 °C, fikk vi et 95 % konfidensintervall [x(5) ; x(5)] som gikk fra 3,2 til 4,4 °C. I følge tabell 3a er den
135
reelle konfidenssannsynligheten 0,951, altså svært nær 0,95. Siden intervallet inne holdt ju0 = 3,7 °C, måtte nullhypotesen beholdes, og vi kunne ikke påstå at mediantemperaturen i populasjonen som Været trekker sine temperaturer fra, har forandret seg. Med denne testen har vi altså kontroll over sannsynligheten for å ta feil (5 %), det vil si å påstå at medianen har endret seg hvis det ikke er tilfelle. Dette vil vi kalle feil av type I. Hvor god er egentlig denne testen til å oppdage en reell temperaturendring? Det er jo også feil å ikke forkaste en nullhypotese som er gal, selv om dette kanskje mer er en unnlatelsessynd. En slik feil vil vi kalle feil av type II.
Definisjoner: Feil av type I: A forkaste en nullhypotese som er riktig Feil av type II: A beholde en nullhypotese som er gal En tests styrke: Sannsynligheten for å forkaste en nullhypotese gitt at den er gal o
o
Jo bedre en test er til å oppdage at nullhypotesen er gal, jo sterkere er den. Det er opplagt at styrken blant annet må avhenge av hvor gal nullhypotesen er. Det hadde vært fint å kunne beregne styrken til tester, men det er ikke alltid enkelt fordi vi faktisk må kjenne hele populasjonen for å få det til. Siden vi ikke kjenner den sanne populasjonen i vårt eksempel, skal vi istedenfor bruke det vi har, nemlig våre 123 observasjoner, og illustrere testens styrkefunksjon gjennom å simulere hypoteseprøving ved å trekke stikkprøver fra denne tenkte populasjonen. Simulering av hypoteseprøving Vi skal teste Ho: f = mot alternativet Hp p, A /70 på 5 %-nivået ved hjelp av n = 17 tilfeldige observasjoner. Vi vet at Ho skal forkastes hvis konfidensintervallet [x(5) ; x(5 j bommer på /70. Jeg har trukket 100 tilfeldige stikkprøver, hver på n = 17 observasjoner fra populasjonen av 123 temperaturer (datafil Klima). (Egentlig vet vi at den sanne media nen i denne populasjonen er 3,9 °C.) Hver gang har jeg beregnet 95 %-konfidensintervallet [%(5) Arbeidsheftet viser hvordan du kan gjøre dette selv. Resultatet er vist i Graf 7-2. Her ser du at fire konfidensintervall har bommet på 3,9 °C. I disse 4 % av tilfellene ville vi altså ha forkastet den korrekte nullhypotesen Ho: pc = 3,9 °C. Dette stem mer bra med at sannsynligheten for feil av type I teoretisk sett er 5 %. Vi har altså forkastet Ho én gang mindre enn det vi skulle forvente i følge teorien, og det kan lett forklares med tilfeldigheter.
136
Årlig gjennomsnitt (grader Celsius)
100 tilfeldige 95% konfidensintervall for mediantemperaturen
Graf 7-2: Simulering av hypoteseprøving. 100 95 % konfidensintervall /x(5); x^5f, hvert basert på n = 17 tilfeldige observasjoner trukket fra datafil Klima.
Men hva med feil av type II? Vi kan ikke begå feil av type II når nullhypotesen er riktig. Vi må derfor velge en gal nullhypotese, for eksempel: Ho: fi = 3,8 °C. Hvis du nå teller etter, vil du se at fem av intervallene bommer på 3,8 °C. Vi har med andre ord foreløpig fått følgende estimater. Sannsynlighet for feil av type I: Teststyrke:
P (forkaste Ho: p = 3,9 °C p = 3,9 °C) = 4 % P (forkaste Ho: p = 3,8 °C p = 3,9 °C) = 5 %
Ideelt sett burde teststyrken være høy slik at vi har en god sjanse for å oppdage at nullhypotesen er gal, så dette var ikke særlig imponerende. Kanskje den er større hvis nullhypotesen er galere, for eksempel 0,2 grader for kald? Da må du telle hvor mange av intervallene som har bommer på 3,7 grader. Det er åtte ganger. Teststyr ken ser altså ut til å øke når nullhypotesen blir galere! I Graf 7-3 er konfidensintervallene i Graf 7-2 systematisert slik at et estimat for styrkefunksjonen kommer frem. Du ser at teststyrken ikke er voldsomt imponerende; det er først når null hypotesen er bortimot en hel grad for lav at du begynner å bli rimelig sikker på å forkaste den! Det kommer av at temperaturene i populasjonen er svært variable. Graf 7-3 viser også teststyrken for nullhypoteser høyere enn 3,9 grader. Du ser at teststyrken er aller lavest for en nullhypotese på 4,0 °C, men at den så stiger for holdsvis raskt. Dette beror på tilfeldigheter ved stikkprøvene.
137
Estimat for testens styrkefunksjon
Graf 7-3: Estimat for teststyrken som funksjon av hvor gal nullhypotesen er, basert på de 100 tilfeldige stikkprøvene i Graf 7-2. En nullhypotese på 3,9 °C er korrekt.
Denne simuleringen illustrerer ved hjelp av en populasjon av gamle observasjoner hva slags teststyrke det kan være snakk om hvis vi anvender en test basert på 17 nye observasjoner. Vi skal senere se hvordan vi kan beregne styrkefunksjonen når vi har en teoretisk sannsynlighetsfordeling for populasjonen.
7.3 Direkte hypoteseprøving Noen ganger ønsker vi å finne ut omtrent hvor stor populasjonsmedianen er, og lager derfor et konfidensintervall. Andre ganger vil vi bare undersøke om den kan sies å være lik en forhåndsspesifisert hypotetisk verdi, /z0. Hva populasjonsmedia nen verdi egentlig er når vi forkaster nullhypotesen, er vi ikke nødvendigvis inter essert i. I den situasjonen er det mulig å utføre hypoteseprøvingen på en raskere måte enn ved først å finne konfidensintervallet. Se igjen på eksemplet med temperaturendring. Vi hadde: Nullhypotese Alternativ Signifikansnivå Antall observasjoner
Ho: p = 3,7 °C Hp p A 3,7 °C 2o = 5 % n = 17
Av tabell 3a fant vi: c = 5. Derfor skulle vi beholde Ho hvis 3,7 °C er i intervallet l*(5) ;*(5)1-
138
Dette avsnittet dreier seg kun om følgende enkle poeng: For å utføre testen er det ikke nødvendig å gå igjennom stikkprøvematerialet og finne x(5) ogv,5i. Sidene = 5 er det nok å telle hvor mange x-er som er lavere enn ju,0. Hvis det er færre enn c — 5, vet du at jd0 ikke kan ligge i konfidensintervallet som jo starter påx(5), og du kan forkaste hypotesen. Hvis denne tellingen ikke fører til at hypotesen forkastes, må du også telle hvor mange observasjoner som er høyere enn /70 og eventuelt forkaste Ho hvis det antallet er mindre enn c. I motsatt fall beholdes Ho.
°c Graf 7-4: De 17 observerte temperaturene. Ho: p = 3,7 °C må beholdes på 5 %-nivået
I eksemplet vårt ser du at det er åtte verdier under 3,7 °C og ni over, altså må hypotesen beholdes. Atte er ikke mindre enn fem. Se graf 7-4. Hvis imidlertid nullhypotesen for eksempel hadde vært: Ho: p = 3,0 °C, ser vi at kun tre observa sjoner ligger til venstre for dette, slik at den nullhypotesen måtte forkastes. Det er derfor unødvendig å ordne dataene først og så finne konfidensintervallet. Denne fremgangsmåten er altså noe raskere enn den første vi gjennomgikk, og gir alltid samme resultat. Den er særlig rask i de tilfellene hypotesen blir forkastet, for da slipper vi å telle så langt. Nedenfor er de enkelte trinn gjengitt. o
Generell metode ved direkte hypoteseprøving Du skal etter hvert lære mange ulike tester der direkte hypoteseprøving er den na turlige metode. Derfor bør du venne deg til en systematisk fremgangsmåte som du alltid kan bruke: Direkte hypoteseprøving 1 Velg testmetode 2 Formuler nullhypotesen 3 Formuler alternativet 4 Bestem signifikansnivået 5 Finn kritisk verdi og forkastningsområdet 6 Beregn testobservatorverdien ved hjelp av dataene 7 Formuler konklusjonen: Hvis testobservatorverdien ligger i forkastningsområdet, forkast Ho til for del for Hp Hvis testobservatorverdien ligger utenfor forkastningsområdet, behold
139
Testobservatoren er den verdien du beregner på grunnlag av observasjonene for å belyse nullhypotesens holdbarhet. Forkastningsområdet er det området som tes tobservatoren må falle i for at du skal forkaste nullhypotesen. For de fleste tester er forkastningsområdet alle verdier som er mindre enn kritisk verdi.
Eksempel 1: temperaturøkning Med temperatureksemplet vårt får vi følgende protokoll: Ordningsobservatorene Testmetode: populasjonsmedian = 3,7 ° Nullhypotese: populasjonsmedian A 3,7 ° Alternativ: 2a= 5 % Signifikansnivå: Kritisk verdi med n = 17: c = 5 (tabell 3b) 0,1,2,3 og 4 (eller"[0; 4]) Forkastningsområdet: Antall verdier mindre enn 3,7 ° = 8 6 Testobservatorverdi: Antall verdier større enn 3,7 ° = 9 Testobservator = mzA(8; 9) = 8 Siden testobservatorverdien ikke ligger i for 7 Konklusjon: kastningsområdet, beholdes Ho. Vi kan altså ikke påstå at det har skjedd noen endring.
1 2 3 4 5
Eksempel 2: Kampen om hylleplass i supermarkedet I oppgave 4-4 omtalte vi en undersøkelse for å belyse hvilken innvirkning hyllehøyden til frokostblandinger har på salget. 24 supermarkeder ble valgt ut og inndelt i 12 par der butikkene innen hvert par var så like som mulig. I hvert par ble det trukket lodd om i hvilken butikk Com Flakes skulle plasseres i øyehøyde (A) eller over eller under øyehøyde (B). Salget ble så registrert over en periode. Resultatet var i antall enheter: Tabell 7-2: Datafil Cornflak, salg av frokostblandinger som funksjon av hyllehøyde i 13 par supermarkeder. A: salg, øyehøyde, B: salg, annen høyde, x = A-B 1
2
3
4
5
6
7
8
9
10
11
12
13
A B
111 71
150 121
130 133
154 126
67 93
112 49
84 109
123 96
71 27
62 58
38 36
51 37
77 69
x
40
29
-3
28
26
63
-25
27
44
4
2
14
8
Par
140
Observasjonene våre er altså differansene x. Med vår vanlige fremgangsmåte:
Ordningsobservatorene Testmetode: populasjonsmedian = 0 Nullhypotese: populasjonsmedian A 0 Alternativ: Signifikansnivå: 2a = 5 % Kritisk verdi med n = 13: c = 3 (tabell 3b) Forkastningsområdet: [0; 2] 6 Testobservatorverdi: Antall negative verdier = 3 Antall positive verdier =10 Testobservator = min (3; 10) = 3 7 Konklusjon: Siden testobservatorverdien ikke ligger i for kastningsområdet, beholdes nullhypotesen.
1 2 3 4 5
På 5 % signifikansnivået kan vi altså ikke påstå at hyllehøyden har effekt på salget i denne tosidige testen.
7.4 Ensidig hypoteseprøving Det tosidige alternativet: populasjonsmedian A 0 i hyllehøyde-eksemplet ovenfor er egentlig litt urimelig fordi vi jo har en teori på forhånd om at det er salgsfrem mende å plassere varene i øyehøyde. Et mer naturlig alternativ er derfor: popula sjonsmedian > 0, som betyr at vi tenderer til å få positive differenser når vi gjør slike eksperimenter. (Det samme gjelder temperatur-eksemplet hvis vi ønsker å finne støtte for teorien om global oppvarming). Da utfører vi en ensidig test isteden for. La jjb være medianen i populasjonen av differanser x:
Nullhypotese Alternativ Signifikansnivå
Ho: A = 0 Hp pc > 0 a — 5%
x = Salg i øyehøyde-salg i annen høyde Graf 7-5: Datafil Cornflak: plott av de 13 salgsdifferansene
Legg merke til at vi har skrevet signifikansnivået som a i denne ensidige testen, istedenfor som 2o tidligere. Begrunnelsen er denne: I den tosidige testen utførte vi hypoteseprøvingen slik at den maksimale sannsynligheten for at konfidensinter vallet skulle bomme på pc0 = 0 er 2a = 5 %. Det er fordi konfidensintervallet kan
141
bomme både ved å havne til venstre og til høyre for ju,0- Når Ho er riktig, er sannsyn ligheten lik 2,5 % for hver av mulighetene. Havner det til høyre, tyder det på at øyehøyde hjelper. Havner det til venstre, skulle det tyde på at salget faktisk blir mindre hvis varene står i øyehøyde. En slik konklusjon interesserer oss imidlertid ikke. I en ensidig test velger vi derfor å beholde nullhypotesen selv om så skulle skje. Dette betyr at vi kan overføre hele risikoen vår til høyre side. Den eneste type I feilen vi da kan gjøre er feilaktig å tro at øyehøyde hjelper. Følgelig: Ordningsobservatorene Testmetode: populasjonsmedian = 0 Nullhypotese: populasjonsmedian > 0 Alternativ: ø = 5% Signifikansnivå: Kritisk verdi med n = 13: c = 4 (tabell 3b) [0; 3] negative verdier Forkastningsområdet: Antall negative verdier = 3 6 Testobservatorverdi: Siden testobservatorverdien ligger i forkast 7 Konklusjon: ningsområdet, forkastes nullhypotesen. Øye høyde hjelper!
1 2 3 4 5
Grunnen til at testobservatoren nå er antall negative verdier, er at vi har konstruert testen slik at vi forkaster Ho for små verdier av testobservatoren. Et lite antall nega tive verdier tyder på at vårt alternativ er riktig, og er derfor det vi skal velge som testobservator. Hva er det egentlig som har skjedd? Hvordan kan vi komme til to forskjellige resultater med det samme signifikansnivået^ Svaret er ganske enkelt at vi tillegger oss mer informasjon når vi på forhånd utelukker et av alternativene. Dermed blir det lettere å forkaste nullhypotesen til fordel for det alternativet vi tror på. Ensidig hypoteseprøving og konfidensintervall Vi forklarte i utgangspunktet hypoteseprøving ved hjelp av konfidensintervall og så at vi ved direkte hypoteseprøving enkelt kunne avgjøre om intervallet bommet eller ikke på /I0- Se på graf 7-3.1 den tosidige testen lager vi et tosidig intervall. Det går fra den 3. laveste til den 3. høyeste verdi, og inneholder ju,0 = 0. På tilsvarende måte hører ensidige intervall til ensidige tester. For testen ovenfor lager vi et ensi dig venstregrenseintervall. Det går fra den 4. minste verdi og oppover, og bommer derfor på ju,0 = 0, helt i overensstemmelse med testresultatet.
Et godt råd I praksis kan man lett bli forvirret når man prøver å finne ut om man skal lage venstre- eller høyregrenseintervall, eller om testobservatoren skal være antall ver dier til høyre eller til venstre for Ensidig hypoteseprøving og ensidige konfi densintervall er i prinsippet enkle å forstå, men det er lett å gå surr når man fortaper 142
seg i tekniske detaljer. Den eneste måten å være sikker på å unngå å snu alt på hodet, er å holde orden på hva du gjør fra begynnelse til slutt. Istedenfor å slavisk følge en prosedyre, må du forstå det du gjør. Det er faktisk ikke vanskelig. Det sikreste du kan gjøre er å inspisere dataene først i relasjon til problemstillingen, slik at du ikke ender opp med noe åpenbart ufornuftig. Med andre ord: Glem regler, bruk sunn fornuft! (Men det finnes altså regler. Disse kan man bruke til å kontrollere den sunne fornuften med fra tid til annen. Noen er vist i sammendraget og andre skal vi komme tilbake til i neste kapittel når vi omtaler fortegnstesten.) Statistikklærere opplever dessverre gang på gang at en del studenter mister sin sunne fornuft når de har lært en del statistikk (men ikke nok!). 1500 studenter gitt følgende oppgave: «Hjelper det å stønne når man server i tennis?» I Wimbledontumeringen 1983 servet John McEnroe 333 ganger. Av disse var 237 ledsaget av kraftige stønn. 61 av stønnservene gav ess (utagbar for motspiller). Av de resterende 96 servene resulterte 35 i ess. Hjelper stønn på sannsynligheten for ess? I kapittel 13 skal du lære metoder for å besvare denne typen spørsmål. Uansett metode er det lett å se at man umulig kan konkludere med at stønn hjelper! Essandelen er jo størst for de stille servene i vår stikkprøve! Vi kan derfor umiddelbart og uten regning se at vi må beholde en nullhypotese om at stønn ikke har noen virkning på sannsynligheten for ess når alternativet i en ensidig test er at det hjelper å stønne. 75 av 1500 studenter så dette. De andre regnet og regnet og mange konkluderte med at det hjelper å stønne!
7.5 Sammendrag Hypoteseprøving er den mest anvendte av alle statistiske metoder. Nullhypotesen er gjeme en konservativ hypotese som du egentlig ønsker å forkaste, men ikke før du er overbevist om at den må være gal. Du behandler derfor ikke nullhypotesen og alternativet på samme måte. Du fastsetter signifikansnivået som den maksimale sannsynlighet for å forkaste en nullhypotese gitt at den er riktig (Feil av type I: dømme en uskyldig). Til gjengjeld har du liten kontroll over sannsynligheten for å ikke forkaste nullhypotesen hvis den er gal (Feil av type II: frikjenne en skyldig).
Definisjoner: Feil av type I: Feil av type II: En tests styrke: Styrkefunksj onen:
Å forkaste en nullhypotese som er riktig A beholde en nullhypotese som er gal Sannsynligheten for å forkaste en nullhypotese gitt at den er gal Teststyrken som en funksjon av hvor gal nullhypote sen er o
143
Fremgangsmåte ved direkte hypoteseprøving: Direkte hypoteseprøving 1 Velg testmetode 2 Formuler nullhypotesen 3 Formuler alternativet 4 Bestem signifikansnivået 5 Finn kritisk verdi og forkastningsområdet 6 Beregn testobservatorverdien ved hjelp av dataene 7 Formuler konklusjonen: Hvis testobservatorverdien ligger i forkastningsområdet, forkast Ho til for del for Hp Hvis testobservatorverdien ligger utenfor forkastningsområdet, behold
Du kan teste mot et tosidig eller et ensidig alternativ. Testen blir sterkere mot et ensidig alternativ fordi du da bare kan bomme på den ene siden, men da utelukker du samtidig muligheten for å oppdage at det motsatte alternativet er riktig. Alle tabellene i boken er laget for følgende konvensjon:
Konvensjon Tosidig test: Ensidig test:
Signifikansnivået settes lik 2 a Signifikansnivået settes lik a
For et signifikansnivå på for eksempel 5 % blir derved a = 2,5 % i en tosidig test og a = 5 % i en ensidig.
144
Vi har gjennomgått én spesiell test som kan oppsummeres slik: 1 Testmetode
2 3 4 5 6
Nullhypotese Alternativ Signifikansnivå Kritisk verdi Testobservator
7 Konklusjon
Test på en hypotetisk populasjonsmedian ved hjelp av ordn ingsobservatorene
H°: 4 = ko H1:/z^o a
Antall x-er til venstre for /z0
forkastes Ho til fordel
Selv om vi i teorien har utelukket det, vil det i praksis kunne skje at en x-verdi blir nøyaktig lik ju,0- Tell da dette som en halv til venstre og en halv til høyre. Noen viktige poenger Du skal ikke se på dataene før du bestemmer deg for om alternativet skal være tosidig eller ensidig, og i så fall hvilken side. Alternativet skal være bestemt av hvilken teori du har på forhånd, det vil si hva du ønsker å påvise. I ensidige tester behøver du ikke foreta beregninger hvis dataene åpenbart peker i motsatt retning av det valgte alternativet. Nullhypotesen vil måtte beholdes. Det kan være nyttig å skille mellom tydelig og betydelig avvik fra nullhypotesen. Forkaster vi en nullhypotese, betyr det at dataene avviker tydelig fra nullhypote sen. At noe er signifikant, betyr altså at det er tydelig, ihvertfall når vi får regnet på det. Dette behøver likevel ikke bety at avviket er betydelig. Har vi mange nok data, vil hypoteseprøving avsløre ethvert lite avvik fra en hypotetisk median. At noe er signifikant behøver derfor ikke bety at det også er interessant.
145
7.6 Oppgaver Øvelse Boligmarkedet (Svar etter oppgave 7-3) Boligmarkedet er stadig i bevegelse. Meglere og takstfolk strever hardt for å gi riktige prognoser for boligenes kjøpesum, som er den pris kjøperen faktisk betaler for boligen. Tabell 7-3 viser omsetningen i Oslo-området av eneboliger i 1990 hos en av våre større eiendomsmeglere, Gunnar Krogsveen ASM er boligens areal i m2. M er meglernes prisvurdering, V er verditaksten, og A kjøpesummen; alle i 1000 kr. I kolonnen lengst til høyre har vi beregnet differansen mellom hvor mye takstfolkene bommet med, | V — K | og hvor mye megleren bommet med, M — K |. Differansene d er beregnet i forhold til kjøpesummen og multiplisert med 100. Positive tall indikerer at megleren har truffet best. Gunnar Krogsveen har i radiointervjuer med styrke uttrykt at meglerne kan dette best. Finner du støtte for den påstanden? Test på 5 %-nivået. Tabell 7-3 Fra datafil Enebolig. Verdsetting av 44 tilfeldige eneboliger for salg. Kolonnen d viser hvor mye dyktigere megleren er enn takstmannen til å forutsi den faktiske kjøpesummen, d = (\ V — K \ — \ M — K \)/(K/100). De eneboliger der d — 0 er fjernet fra tabellen. A
M
Areal m2
Megler 100 kr
110 146 150 155 200 124 155 210 212 224 150 145 210 210 440 158 265 127 220 157 260 140
1000 1400 935 1250 1690 1100 1750 1480 1825 1350 1350 1400 2000 1850 3000 1340 1750 1300 1885 1300 1900 1000
146
V
K
d
V. takst Kjøpesum Megler1000 kr 1000 kr dyktighet
1050 1450 1050 1350 1850 1050 1590 1500 1900 1620 1370 1420 1840 1840 3800 1480 1800 1280 1900 1550 1950 1170
965 1420 875 1200 1525 895 1410 1350 1730 1500 1365 1300 1650 1650 2700 1350 1450 1250 2200 1047 1700 1000
5,18 0,70 13,14 8,33 10,49 -5,59 -11,35 1,48 4,34 -2,00 -0,73 1,54 -9,70 -0,61 29,63 8,89 3,45 -1,60 -0,68 23,88 2,94 17,00
A
M
Areal m2
Megler 1000 kr
280 178 140 130 240 145 225 167 169 215 260 165 185 220 156 191 127 192 133 146 145 143
1500 1650 825 1100 1510 1425 2250 1600 1310 1380 1700 2700 1300 1850 1700 1350 950 1275 1200 1550 1300 1300
V
K
d
V.takst Kjøpesum Megler1000 kr 1000 kr dyktighet 1350 1620 870 880 1450 1350 2100 1800 1350 1540 1750 2600 1350 1800 1800 1370 1000 1400 1170 1750 1250 1360
1300 1350 825 950 1260 1180 1910 1400 1500 1290 1550 2635 1310 1675 1550 1275 1000 1225 1000 1380 1370 1130
-11,54 -2,22 5,45 -8,42 -4,76 -6,36 -7,85 14,29 -2,67 12,40 3,23 -1,14 2,29 -2,99 6,45 1,57 -5,00 10,20 -3,00 14,49 3,65 5,31
Oppgave 7-1 Riktig lufttrykk i dekket? I oppgave 3-3 så vi målinger ved 50 tilfeldige valgte bensinstasjoner av det virke lige trykket i dekk som var fylt opp inntil bensinstasjonens måler viste 28 psi (data fil Dekktryk). Er en hypotese om at populasjonsmedianen er lik 28 psi holdbar på 5 %-nivået? Oppgave 7-2 Riktig karakternivå? Karaktergiving, -nivå og rettferdighet er et stadig tilbakevendende diskusjonstema. Statistiske begreper og metoder kan imidlertid bidra til å gjøre problemstillingene klarere. De fleste universitets- og høyskolestudier i landet bruker en karakterskala som går fra 1,0 til 6,0 med strykkarakter fra 4,1 til 6,0. En vanlig veiledende norm er at mediankarakteren i populasjonen skal være 2,5. Karakterene varierer blant en gruppe studenter fordi studenter er ulike. Fra et makroskopisk perspektiv (sensors) betraktes denne normale variasjonen som tilfeldig variasjon som skriver seg fra det tilfeldige utvalg av studenter som akkurat nå er oppe til eksamen. Fra et mikrosko pisk perspektiv (en students) skyldes ulike prestasjoner ulik individuell dyktighet. Det generelle karakternivået påvirkes av forhold som studentene ikke er herre over, som for eksempel hvor god læreren er, hvor streng sensuren er og hvor vans kelige oppgavene er. Vi skal bruke statistiske metoder til å skille mellom tilfeldig variasjon i dyktighet og eventuell skjevhet i nivået. Her er de 18 karakterene som ble gitt i et intematkurs i økonomi/finans på BE ■ 2,4 x.
3,8 x.
a)
3,8v
2,9-'
1,7 .
2,1 u
2,8 v
3,1 u
3,7 u
3,0 v
2,0 v
3,3 -
2,9 v
2,2 v
1,9 „
3,1 *
2,4 v
2,0 v
Kan disse karakterene være tilfeldige trekninger fra en populasjon av karak terer med median lik 2,5? Utfør en tosidig test på 5 %-nivået.
b) En mye Større gruppe studenter hadde ordinær, ukentlig undervisning. Medi ankarakteren der var 3,14. Kan intematkarakterene være tilfeldige trekninger fra en populasjon av karakterer med median lik 3,1? Test påstanden på 5 %nivået mot et alternativ om at mediankarakteren på intematkurs er bedre enn 3,1.
147
Oppgave 7-3 Optimistiske eller pessimistiske studenter? Studentene på postskolens trinn III ble våren 1986 ved statistikkursets start spurt anonymt om hvilken karakter de trodde de ville komme til å få. Nedenfor ser du hva de trodde og hvordan det gikk: Tabell 7-4 Datafil Postskolen, rådata Kjønn
Forventning
Alder
K M M M K M M K K K K K M M M K
2,75 3,00 3,50 3,00 3,00 2,75 3,25 3,00 2,00 3,00 3,00 2,50 2,75 3,00 2,00 3,00
42 35 34 35 22 36 25 28 33 33 35 37 34 34 36 25
Resultat 4,00 2,50 3,00 3,00 2,00 2,75 1,75 3,00 1,50 2,75 3,00 3,00 4,00 3,00 2,50 2,00
Kjønn
Forventning
Alder
Resultat
M M K K M K K M M K M M M M M K
3,00 2,75 2,75 3,00 3,50 3,75 2?75 2,75 2,50 2,50 2,50 2,00 2,50 2,25 1,25 2,00
30 34 23 26 32 34 30 28 35 33 28 24 30 22 32 33
3,00 1,75 3,50 3,75 2,75 2,00 2,00 2,00 2,25 1,75 3,00 1,25 4,00 2,25 1,75 2,50
-
“ -
Det er mange interessante spørsmål om statistisk signifikans man kunne stille seg når man ser denne typen data. For eksempel (vi har optimisme når forventet karak ter minus faktisk resultat er negativ):
1. 2. 3. 4. 5. 6.
Er menn og kvinner like optimistiske? Er menn og kvinner like flinke? Er forventningene skjeve i forhold til faktisk resultat? Er det sammenheng mellom forventet og faktisk karakter? Er det sammenheng mellom faktisk karakter og alder? Er det sammenheng mellom optimisme og alder?
Ett av disse spørsmålene kan du svare på ved hjelp av det du har lært hittil. De andre skal du lære å svare på etter hvert. Fasiten forteller deg når. Svar på det spørsmålet du kan svare på!
148
Svar på øvelse Boligmarkedet Siden påstanden som skal undersøkes er om meglerne er bedre enn takstfolkene, er det rimelig å bruke en ensidig test. Hvis meglerne og takstfolkene er like treffsikre, er medianen i populasjonen til c/-ene lik null. Hvis meglerne er best, er den større enn null.
Ordningsobservatorene Testmetode: populasjonsmedian = 0 Nullhypotese: populasjonsmedian > 0 Alternativ: a= 5% Signifikansnivå: Kritisk verdi med n = 44: c = 17 (tabell 3b) Forkastningsområdet: 0,1,2,...,16 Antall negative verdier = 19 6 Testobservatorverdi: Siden testobservatorverdien ikke ligger i for 7 Konklusjon: kastningsområdet, må vi beholde nullhypote sen. Vi kan ikke påstå at meglerne er bedre enn takstfolkene.
1 2 3 4 5
149
8 Ikke-parametriske tester 8.1 8.2 8.3 8.4 8.5 8.6 8.7
Parvise sammenligninger i motsetning til to uavhengige stikkprøver Fortegnstesten Wilcoxons tegnrangtest Mann-Whitneys test Fishers test Sammendrag Oppgaver
Testene i dette kapitlet kalles ikke-parametriske fordi de ikke tester noen særskilt parameter i en matematisk funksjon som beskriver en populasjon. Vi skal se på parametriske tester i del II av boken. Ikke-parametriske tester egner seg særlig godt når vi har små stikkprøver, for eksempel færre enn 30 observasjoner. Det er ofte tilfelle innenfor det bedriftsøkonomiske fagområdet. Med mange observasjoner kan vi ofte forutsette at stikkprøvegjennomsnittet er såkalt normalfordelt, og der ved dra nytte av normalfordelingen og avledete fordelinger. Ikke-parametriske tes ter baseres ofte på ordinale data, for eksempel ved at observasjonene rangeres. Noen ganger har vi kun ordinale data, slik som når vi har undersøkt hvor mange som er «helt», «noe» eller «litt» enige i en påstand. Da er ikke-parametriske tester helt naturlige. Andre ganger har vi foretatt presise målinger. En typisk ikke-parametrisk test vil likevel bare benytte seg av hvordan målingene er rangert i forhold til hverandre, og kaster dermed bort en del informasjon. På tross av dette, vil disse testene overraskende nok ha ca. 95 % av styrken til parametriske tester. Når forut setningene for de parametriske testene ikke er oppfylt, er ikke-parametriske tester utmerkete og sterke alternativ.
8.1 Parvise sammenligninger i motsetning til to uavhengige stikkprøver I kapittel 7 testet vi hypotetiske verdier av en populasjonsmedian mot verdiene til en stikkprøve fra populasjonen. I de tilfeller vi hadde parvise observasjoner, be regnet vi først differansene innen hvert par, slik som i hyllehøyde-eksemplet. Da tikk vi én stikkprøve bestående av differanser som vi så kunne behandle på vanlig måte. Vi er mange ganger i en situasjon der vi ønsker å finne ut om en behandling har noen virkning eller om ulike forhold har noen betydning, uten at vi har anledning til 151
å gjøre parvise observasjoner. Vi så noen eksempler på dette i kapittel 1. Du husker sikkert eksemplene med brennbarheten til 15 acetat-tekstilprøver med polyestersøm i forhold til 15 tilsvarende prøver med kjemespunnet søm; årslønn for jenter og gutter som er nybakte diplomøkonomer; vektøkningen hos nyfødte barn som hørte hjerteslag ved krybben i forhold til barn som ikke gjorde det. I disse tilfellene har vi ikke parvise observasjoner, men to uavhengige stikkprøver. Da trenger vi andre metoder, slik vi så vidt var inne på i kapittel 2 da vi brukte Mann-Whitneys observa tører til å beskrive hvor forskjellige to uavhengige stikkprøver er. Det finnes også sterkere tester for parvise sammenligninger. Det er viktig å holde disse metodene fra hverandre. La oss derfor innlede med et konstruert eksempel. Eksempel: slankekur 10 personer har deltatt i et slankeprogram. Tabell 8-1 viser vekten før og etter.
Tabell 8-1 Resultatet av et slankeprogram for 10 tilfeldige deltakere Person nr.
1
2
3
4
5
6
7
8
9
10
Vekt før Vekt etter
120 108
83 75
78 75
90 92
91 85
70 73
75 70
115 105
88 81
65 64
Forbedring
12
8
3
-2
6
-3
5
10
9
1
Det naturlige her er å ta utgangspunkt i forbedringstallene i tabell 8-1 og teste mot et alternativ om at medianen i populasjonen disse tallene er hentet fra er større enn null. Da hjelper kuren for de fleste. Denne testen kan vi utføre som en test på en populasjonmedian ved hjelp av ordningsobservatorene, slik vi gjorde i kapittel 7. Da telte vi opp hvor mange verdier som falt til venstre for jd0. Siden /z0 i dette tilfellet er null, behøvde vi bare telle opp antall negative verdier for å finne testob servatorverdien. Derfor kalles også testen i dette spesielle tilfellet fortegnstesten. Fortegnstesten kan altså anvendes i en situasjon der vi har parvise sammenlig ninger, slik at den naturlige nullhypotesen går ut på at populasjonsmedianen til differansene er null. Det kjedelige med fortegnstesten, er at den utnytter dataene dårlig og derfor ofte er en svak test. Det er opplagt at vi ville bruke dataene bedre om vi også kunne ta hensyn til størrelsene til forbedringene og ikke bare fortegnet. Wilcoxons tegn-
-5
0
5
10
15
Vektforbedring i kg
Graf 8-1: Datagrunnlag for fortegnstesten og Wilcoxons tegnrangtest. Vektforbedringer til 10 personer. Data fra tabell 8-1.
152
rangtest gjør nettopp det, og er derfor ofte å foretrekke. Begge disse testene er altså tester for parvise sammenligninger og bruker dataene slik de er vist i graf 8-1. La oss nå tenke oss at eksperimentet med slankekuren var utført på en mer klø nete måte, slik at dataene i tabell 8-1 representerer Vekt før-tallene til 10 personer, og Vekt etter-tallene til 10 andre personer. Da har vi ikke lenger noe grunnlag for å utføre parvise sammenligninger. Tallene kunne jo nå like godt stått i andre rekke følger. I dette tilfellet har vi to uavhengige stikkprøver. Se tabell 8-2. Mann-Whitneytesten er konstruert for slike situasjoner og bruker dataene slik de er vist i graf 8-2.
Tabell 8-2 Resultatet av et slankeprogram. Vekten til 10 deltakere før programmet, og til 10 andre etter programmet. (Tallene er like dem i tabell 8-1.) 1
2
3
4
5
6
7
8
9
10
Vekt før
120
83
78
90
91
70
75
115
88
65
Person nr.
11
12
13
14
15
16
17
18
19
20
Vekt etter
108
75
75
92
85
73
70
105
81
64
Person nr.
Vekt før
60
70
80
90
100
110
120
Vekt etter
Graf 8-2: Datagrunnlag for Mann-Whitneytesten. Vekten til 10 personer før kuren og 10 andre personer etter kuren. Data fra tabell 8-1.
Når vi sammenligner graf 8-1 med graf 8-2, er det åpenbart at virkningen av slanke kuren er mye tydeligere i graf 8-1 enn i graf 8-2. Det lønner seg derfor som regel å bruke parvise observasjoner så sant det er mulig. Hvis det ikke er mulig, må vi nøye oss med uavhengige stikkprøver.
8.2 Fortegnstesten Fortegnstesten brukes særlig for å undersøke om en behandling hjelper, når vi har parvise sammenligninger. Data-, n observasjoner av en variabel x. Vi er bare interessert i fortegnene til x-ene. De kan derfor stamme fra parvise ordinale sammenligninger, der vi kun ser hvilken enhet innen hvert par som er størst eller tyngst eller lignende. Ved likhet gir vi x verdien 0, som telles som en halv pluss og en halv minus.
153
Testmetode
Fortegnstesten
Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi Testobservator
n observasjoner av fortegnet til en variabel x Ho: 4 = 0 Hp/z A 0 Hp/iXO H1:/z>0 2a a a Finn c i tabell 3b Tell plussene og Antall plusser Antall minuser minusene. Finn det minste av disse tallene. (Nuller telles som en halv pluss og en halv minus)
Konklusjon
Hvis testobservators verdi er ekte mindre enn c, forkastes Ho til fordel for H], ellers beholdes Ho
Eksempel 1: Slankekur 1. Testmetode: Fortegnstesten 10 vektforbedringer (kg) i tabell 8-1 2. Data 3. Nullhypotese: /z = 0 /z > 0 4. Alternativ: 5. Signifikansnivå: a= 5% 6. Kritisk verdi med n = 10: c = 2 (tabell 3b) 7. Forkastningsområdet: [0; 1] 8. Testobservators verdi: Antall negative verdier = 2 9. Konklusjon: Siden testobservatorverdien ikke ligger i forkastningsområdet, beholdes nullhypotesen. Vi kan på 5 %-nivået ikke påstå at kuren hjel per (men det var ikke langt fra!). Legg merke til at nullhypotesen sier at medianen i populasjonen av forbedringer er null. Det betyr at man like gjeme legger på seg som man tar av. Når man ser dataene i graf 8-1, er det ganske tydelig at det må være galt. Det kommer av at fortegnstesten ikke ser at mange av forbedringene er store, den ser bare at åtte har blitt lettere og to tyngre. Det er ikke tydelig nok på 5 % signifikansnivået og kan forklares med til feldigheter.
154
Eksempel 2: Kampen om hylleplass i supermarkedet Dette er omtrent identisk med det vi gjorde i kapittel 7: 1. Testmetode: 2. Data 3. Nullhypotese: 4. Alternativ: 5. Signifikansnivå: 6. Kritisk verdi med n = 13: 7. Forkastningsområdet: 8. Testobservators verdi: 9. Konklusjon:
Fortegnstesten 13 salgsdifferanser (datafil Comflak) jz = 0 /a > 0 o = 5% c = 4 (tabell 3b) 0, 1,2 og 3 eller [0; 3] Antall negative verdier = 3 Siden testobservatorverdien ligger i forkast ningsområdet, forkastes nullhypotesen. Øye høyde hjelper på salget av frokostblandinger!
Fortegnstesten og binomialfordelingen Hvis nullhypotesen er riktig i fortegnstesten, venter vi oss omtrent like mange posi tive som negative differanser. Sannsynligheten for en negativ differanse er derfor 0,5 (vi ser bort fra muligheten for null). Det betyr at antall negative differanser i stikkprøven må følge binomialfordelingen medp = 0,5! Den er vist i graf 8-3 for n = 13 som i hyllehøyde-eksemplet.
Graf 8-3: Hyllehøyde-eksemplet: Sannsynlighetsfordelingen til antall negative differanser under nullhypotesen, med skravert forkastningsområde.
155
Når den alternative hypotesen er /I > 0, forkaster vi nullhypotesen hvis det faktiske antall negative verdier er tilstrekkelig lite. Du ser i graf 8-3 at når forkastningsom rådet er 0, 1, 2 og 3, er sannsynligheten for at det skal skje 0,0001 + 0,0016 + 0,0095 + 0,0349 = 0,0461. Dette er litt mindre enn signifikansnivået som er 0,05. Med andre ord, hvis forkastningsområdet er 0,1, 2 og 3, er sannsynligheten for feil av type I lik 0,0461. Hadde vi tatt med 4 i forkastningsområdet, ville sannsyn ligheten for feil av type I blitt større enn signifikansnivået, så det går ikke. Den kritiske verdien c for forkastningsområdet fant vi i tabell 3b, bak i boken. Denne tabellen bygger på binomialfordelingen. Du kan også finne kritiske verdier ved hjelp av binomialfunksjonen i Excel. For ensidige tester:
c = CRITB1NOM (/?; 0,5; a) For eksempel er CRITBINOM (13; 0,5; 0,05) = 4
-
Signifikanssannsynlighet I vår hyllehøydetest fikk vi 3 negative verdier. Jo færre negative verdier, jo mer altemativ-vennlig er resultatet. Hvis nullhypotesen er riktig, er sannsynligheten for 3 eller færre negative verdier 0,0461. Denne sannsynligheten kaller vi signifikans sannsynligheten, som er et begrep vi skal få mye bruk for senere.
Definisjon av signifikanssannsynlighet: Signifikanssannsynligheten er sannsynligheten for å få et minst like altema tiv-vennlig resultat som det vi faktisk fikk, gitt at nullhypotesen er riktig.
Det sier seg selv at hvis signifikanssannsynligheten er mindre enn signifikansni vået, skal vi forkaste nullhypotesen. Er den større, skal vi beholde nullhypotesen. Istedenfor å sjekke om testobservator er i forkastningsområdet, kan vi altså sjekke om signifikanssannsynligheten er mindre enn signifikansnivået. Hvis vi hadde ob servert 4 negative verdier, ville signifikanssannsynligheten vært 0,0461 + 0,0873 (se graf 8-3) som er større enn signifikansnivået, og nullhypotesen skulle beholdes.
8.3 Wilcoxons tegnrangtest Wilcoxons tegnrangtest brukes på samme måte som fortegnstesten, særlig for å undersøke om en behandling hjelper når vi har parvise sammenligninger. Den er vanligvis sterkere enn fortegnstesten. Dataene er som regel differanser innen par, slik som i fortegnstesten. Mens vi med fortegnstesten bare konstaterer om en differanse er positiv eller negativ, ran gerer vi her differansene etter størrelse. Dermed tar vi vare på mer informasjon.
156
Testmetode
Wilcoxons tegnrangtest
Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi Testobservator
n observasjoner av en variabel x (f.eks. differanser) Ho: R = 0 Hp/zCO Hp /ju>0 2a a a Finn c i tabell 8b min (T+; T~) T+ TRangérx-ene etter absolutt verdi. Gi minste x rang nr. 1, osv. Like x -er deler samme rang slik at rangsummen blir uforandret. Hvis for eksempel de to minste er like, får de rang 1,5 hver, osv. T+ er summen av rangene til de positive x-ene, T— til de negative. T— + T+ = n (n + 1 )/2
Konklusjon
Hvis testobservators verdi er ekte mindre enn c, forkastes Ho til fordel for H[, ellers beholdes Ho
Denne testen kan kreve en del regning, og programvare kan da være nyttig. Statarks vindu 1-7 og Minitab er greie alternativ. Statark tar utgangspunkt i de opprinnelige før- og etter-tallene og beregner først differansene. Se arbeidsheftet for nærmere beskrivelse.
Eksempel 1: Slankekur
Tabell 8-3 Data fra tabell 8-1. Forbedringstallene er grunnlaget for Wilcoxons tegnrangtest. Rangeringen er gjort i henhold til absoluttverdien til forbedringene. Person nr.
1
2
3
4
5
6
7
8
9
10
Vekt før Vekt etter
120 108
83 75
78 75
90 92
91 85
70 73
75 70
115 105
88 81
65 64
Forbedring
12
8
3
-2
6
-3
5
10
9
1
Rang
10
7
3,5
2
6
3,5
5
9
8
1
1. Testmetode: 2. Data 3. Nullhypotese: 4. Alternativ: 5. Signifikansnivå: 6. Kritisk verdi med n = 10: 7. Forkastningsområdet: 8. Testobservators verdi: 9. Konklusjon:
Wilcoxons tegnrangtest 10 vektforbedringer (kg) i tabell 8-3 fu = 0 f>0 o = 5% c = 11 (tabell 8b) 0, 1,2, ..., 10 eller [0, 10] T— = 2 + 3,5 = 5,5 Siden testobservatorverdien ligger i forkast ningsområdet, forkastes nullhypotesen. Vi kan på 5 %-nivået påstå at kuren hjelper! 157
Vi ser altså at vi denne gangen forkastet nullhypotesen. Det gjorde vi ikke med fortegnstesten. Det er fordi de to personene som hadde lagt på seg, hadde bare lagt på seg litt, mens de fleste som hadde tatt av, hadde mistet mye vekt. Dette regi strerer ikke fortegnstesten. Testobservatoren T— beregnes ved 2 + 3,5 = 5,5. T+ = 10 + 7 + 3,5 + 6 + 5 + 9 + 8 + 1 = 49,5. T- + T+ = 55 = 10 X 11/2. Hvis nullhypotesen hadde vært sann, hadde vi ventet at de to rangsummene skulle blitt omtrent like. Nå ble T~ signifikant liten, og derfor tror vi på alternativet og for kaster nullhypotesen. Wilcoxons tegnrangtest bruker altså tabell 8b, som er annerledes enn tabell 3b som er beregnet ved hjelp av binomialfordelingen. I tegnrangtesten tar man like ledes utgangspunkt i at nullhypotesen er riktig, og beregner sannsynlighetsfordelingene for T- og T+. Disse kan utledes ved hjelp av kombinatorikk, men dette er likevel såvidt komplisert at vi velger å nøye oss med tabellen. Når stikkprøvene blir så store at tabellen ikke strekker til, kan vi bruke tilnærmingsformelen nedenfor tabellen.
Eksempel 2: Kampen om hylleplass i supermarkedet
Tabell 8-4: Datafil Cornflak, salg av frokostblandinger som funksjon av hvllehøyde i 13 par supermarkeder. A: salg, øyehøyde, B: salg, annen høyde, x = A-B 1
2
3
4
5
6
7
8
9
10
11
12
13
A B
111 71
150 121
130 133
154 126
67 93
112 49
84 109
123 96
71 27
62 58
38 36
51 37
77 69
x
40
29
-3
28
-26
63
-25
27
44
4
2
14
8
R
11
10
2
9
7
13
6
8
12
3
1
5
4
Par
1. Testmetode: 2. Data 3. Nullhypotese: 4. Alternativ: 5. Signifikansnivå: 6. Kritisk verdi med n = 13: 7. Forkastningsområdet: 8. Testobservators verdi: 9. Konklusjon:
158
Wilcoxons tegnrangtest 13 salgsdifferanser (datafil Cornflak) fi = 0 p>0 o = 5% c = 21 (tabell 8b) [0; 20] T- = 2 + 7 + 6= 15 Siden testobservatorverdien ligger i forkast ningsområdet, forkastes nullhypotesen. Øye høyde hjelper på salget av frokostblandinger!
8.4 Mann-Whitneys test Datæ. To uavhengige stikkprøver, nx observasjoner avx, og /?2 observasjoner avx2. Målenivået til X] og x2 er minst på ordinalt nivå. Dette er en test på om de to populasjonene som stikkprøvene er hentet fra, er identiske. Testen er imidlertid mest følsom for forskjell i beliggenhet, og brukes derfor ofte til å teste om medianene til de to populasjonene er like. Testmetode
Mann-Whitneys test
Data
To uavhengige stikkprøver: n{ observasjoner avjq og «2 observasjoner avx2 H°: Ml = M2 Hp mi M2 Hp Mi < M2 Hp Mi > M2 2a a a Finn c i tabell 4b min (MWX; MW5) MWX MW2 MWX = antall ganger verdier i stikkprøve 1 er større enn verdier i stikkprøve 2 MW2 = antall ganger verdier i stikkprøve 2 er større enn verdier i stikkprøve 1. Tikheter telles med en halv hver vei. MWX + MW, = nx X n2
Nullhypotese Alternativ Signifikansnivå Kritisk verdi Testobservator
Konklusjon
Hvis testobservators verdi er ekte mindre enn c, forkastes Ho til fordel for Hp ellers beholdes Ho
Eksempel 1: Slankekur Dataene er i tabell 8-2 og viser vekten til 10 personer før kuren, xb og vekten til 10 andre personer etter kuren, x2. Se på graf 8-2! Plottet viser en svak tendens til at folk er lettere etter kuren, men det er ikke spesielt tydelig. Vi bør derfor ikke vente at en statistisk test skal forkaste nullhypotesen om ingen forskjell på medianene i førpopulasjonen og etter-populasjonen. La oss likevel beregne Mann-Whitneyobservatorene. Da skal alle før-vekter sammenlignes med alle etter-vekter slik det er gjort i tabell 8-5.
Tabell 8-5 Beregning av Mann- Whitneytallene; sammenligning av de 10 førvektene med de 10 etter-vektene Vekt før > Vekt etter
108
75
75
92
85
73
70
105
81
64
120 83 78 90 91 70 75 115 88 65
1 0 0 0 0 0 0 1 0 0
1 1 1 1 1 0 0.5 1 1 0
1 1 1 1 1 0 0.5 1 0 0
1 0 0 0 0 0 0 1 1 0
1 0 0 1 1 0 0 1 1 0
1 1 1 1 1 0 1 1 1 0
1 1 1 1 1 0,5 1 1 0 0
1 0 0 0 0 0 0 1 1 0
1 1 0 1 1 0 0 1 1 0
1 1 1 1 1 1 1 1 1 1
159
I tabell 8-5 har vi notert et ettall hver gang en før-vekt er større enn en etter-vekt, og 0,5 ved likhet. Summen av tallene i tabellen er derfor MW{ = 58,5. Da må MW2 = 100 — 58,5 = 41,5. Tabellen er laget i Statarks vindu 1-8 som også beregner MannWhitneytallene. Vi ser altså at MW2 er minst; det er altså mer sjelden vi finner høye vekter etter kuren eller omvendt. Spørsmålet er om dette er nok til å være signifi kant. Det finner vi ut ved å bruke tabell 4b, som igjen er laget ved hjelp av kombinatorikk under forutsetning av at nullhypotesen er riktig.
1. Testmetode: 2. Data
3. Nullhypotese: 4. Alternativ: 5. Signifikansnivå: 6. Kritisk verdi med n} = n2= 10: 7. Forkastningsområdet: 8. Testobservators verdi: 9. Konklusjon:
Mann-Whitneys test 10 førkur-vekterx], og 10 etterkur-vek ter x2 Kuren har ingen virkning: jd-j = /x2 Folk veier mest før kuren: juq > /z2 a=5% c = 28 (tabell 4b) 0, 1,2, ...,27 eller [0; 27] 4/1^2 = 41,5 Siden testobservatorverdien ikke ligger i forkastningsområdet, beholdes null hypotesen. Vi kan ikke påstå at kuren hjelper.
Denne konklusjonen hadde vi ventet oss etter å ha sett graf 8-2.
Eksempel 2: Kvinne- og manns-lønninger I kapittel 2 studerte vi datafil Reiseliv som viser årslønnen til nA = 42 nyutdannete kvinnelige diplomøkonomer og n2 = 7 mannlige med spesialisering i reiseliv. Parallellplottet i graf 2-3 antyder at menn tjener mer enn kvinner. Er denne torskjellen signifikant, eller kan den skyldes tilfeldig variasjon? Vi beregnet også Mann-Whitneytallene i kapittel 2.1 alt er det nx X n2 = 294 sammenligninger. Blir de to MannWhitneytallene omtrent like store (ca. 147), tyder det på at nullhypotesen om ingen forskjell er riktig. Er det derimot stor forskjell på tallene, tyder det på at den må være gal. I tabell 2-2 fant vi at i stikkprøvene tjener menn mer enn kvinner 216,5 ganger, og kvinner mer enn menn 77,5 ganger: 1. Testmetode: 2. Data 3. Nullhypotese: 4. Alternativ:
Mann-Whitneys test 42 kvinnelønner xb 7 mannslønner x2 Ingen kjønnsforskjell: juq = Jz2 Menn tjener gjennomgående mer: Mi < M2
5. Signifikansnivå: 6. Kritisk verdi nx = 42; n2 = 7: 7. Forkastningsområdet: 8. Testobservators verdi:
160
o = 5% c = 89 (tabell 4b, tilnærmingsformel) 0, 1,2,..., 88 eller [0; 88] MWX = 77,5
9. Konklusjon:
Siden testobservatorverdien ligger i for kastningsområdet, forkastes nullhypo tesen. Menn tjener gjennomgående mer.
Statark har et vindu som holder rede på det meste i forbindelse med MW-testen. Det beregner MFf-tallene (noe som ellers er tidkrevende), de tilnærmede verdiene til c, og holder orden på handlingsreglene. Se skjenn 8-1.
Statark 1-9, Wenstøp: Kapittel 8
Mann-Whitneytesten for forskjell i beliggenhet Datafil:
Reiseliv y = Kvinner x = Menn 0
MANN-WHITNEYtallene: Antall ganger y er større enn x: Antall ganger x er større enn y:
n1 = n2=
42 7
1
MW1 = MW2=
77,5 216,5
Handlingsregel Ho: De to stikkprøvene x og y er hentet fra samme populasjon H1: p 1 Forkast Ho hvis: MW1 -1,0) Tabell 5a Slå opp på za = 1,00 Vi finner 0,1587 Svar: 1 - 0,1587 = 0,8413 Vi har benyttet både symmetri og at hele arealet er 1,0
Excel Minitab = NORMSDIST (1) Kommando: cdf 1.0 Svar: 0,841345 Svar: 0,8413 Her har vi benyttet oss av symmetrien
Vi fantatP(z > —1,0) = 0,8413. Hva hvis vi hadde spurt om sannsynligheten for at z er større enn eller lik —1,0? Svaret hadde blitt det samme, fordi fordelingen er kontinuerlig! En vertikal linje over punktet —1,0 har ingen tykkelse teoretisk sett, og bidrar derfor ikke til noe areal. Det spiller altså ingen rolle om vi spør om sann synligheten for «mindre enn» eller «mindre enn eller lik», svaret blir det samme. Vi kan derfor velge om vi vil ta med likhetstegnet eller ikke når vi skriver ulikheter.
195
Det kan være nyttig å ha en fast praksis så vi vil skrive «større enn», men «mindre enn eller lik». Grunnen til dette er at «mindre enn eller lik» betyr «ikke større enn» slik at det er logisk å skrive: P(z> -1,0) = 1 -P(z< -1,0)
Dette er selvsagt bare riktig hvis z er en kontinuerlig variabel, slik at alle verdier på tallinjen i prinsippet er mulige. Det er ikke riktig hvis z er en diskret variabel, en variabel hvis mulige verdier kan listes opp på rekke og rad. I praksis vil vi likevel ofte anta at det gjelder som en god tilnærmelse, i hvert fall så lenge antall mulige verdier er stort. z-verdien til en sannsynlighet Man kan også snu de spørsmålene vi har stilt på hodeUVi kan spørre hvilken verdi za må ha for at P (z > za) skal være lik en eller annen spesifisert sannsynlighet a. Hvis for eksempel a = 0,05, ser vi i tabell 5a etter litt leting at za ~ 1,645 (ved å interpolere den siste desimalen). Tabell 5b er konstruert for å unngå å bruke tid på å lete i tabell 5a. Den gir za for ofte brukte verdier av a. For eksempel ser du at for a — 0,01 er za = 2,33. I Excel kan du bruke funksjonen NORMSINV av 1 — a: NORMSINV (1 - 0,01) = 2,326 1 Minitab gir du kommandoen InvCDF 0.99 og får samme svar.
9.7 Normalfordelinger fra virkeligheten En mengde forskjellige variabler som representerer data fra virkeligheten, har for delinger som likner på den klokkeformete normalfordelingen. Dette ser man hvis man lager et strekdiagram eller et histogram av verdiene. Naturligvis vil gjennom snittet og standardavviket til virkelige data i alminnelighet ikke være 0 og 1 slik som for normalfordelingen. Se for eksempel på rekrutthøydene i graf 9-2. Histogrammet antyder en normalfordeling, men gjennomsnitt og standardavvik er hen holdsvis 179,5 cm og 6,44 cm. IQ-målinger har gjeme et gjennomsnitt på 100 og et standardavvik på 10. Statistikere har laget en egen uttrykksmåte for dette:
Konvensjon: Beskrivelse av en normalfordelt variabel: Hvis x er normalfordelt med gjennomsnitt /i og standardavvik a, sier vi: «x er normal /z, a2» og skriver x ~ N (/x, a2)
196
IQ er altså normal (100,102). Tabellen over standard-normalfordelingens sannsyn ligheter (tabell 5) kan benyttes til å finne sannsynligheter for enhver x som er nor mal /ul, o2. Det eneste vi behøver å gjøre er å standardisere x ved hjelp av formel 9-13. Det enkle prinsippet er muliggjort av to teoretiske forhold. For det første er det alltid slik at z vil ha gjennomsnitt 0 og standardavvik 1 når parametrene til x er /x og a. Dernest har normalfordelingen den spesielle egenskap at den er invariant overfor en lineær transformasjon. Dette betyr at hvis x er normalfordelt, vil z også være det når de forholder seg til hverandre som i formelen nedenfor.
Setning om den standardiserte variabel: Hvis x er normal (/z, cr2), er z normal (0, 1) når x — /x z = --------a
Fremgangsmåte ved beregning av sannsynligheter Anta at populasjonen av IQ-er er tilnærmet normal (100, 102). Hva er sannsyn ligheten for at en tilfeldig valgt person skal ha en IQ over 110? Vi skal altså finne P(x> 110). Dette er det samme som å spørre om hva sannsynligheten er for at en IQ skal overstige gjennomsnittet på /ul, = 100 med minst ett standardavvik på cr = 10. Det er igjen det samme som sannsynligheten for at den standardiserte variabelen z skal overstige 0 med ett standardisert standardavvik som er 1. Matematisk uttrykkes dette slik:
= 0,1587 Ifølge tabell 5a er P (z > 1) = 0,1587. I praksis må du i tillegg til høyrehaler kunne beregne alle slags sannsynligheter. Dette gjør du på følgende enkle måte: Standardiser x-verdiene slik at de blir zverdier ogfortsett med z-verdiene slik du gjorde i forrige avsnitt. Eksempel Lav være høyden til en rekrutt i 1979. Tenk deg atx er normal (179,5; 5,842) slik at /z = 179,5 cm og cr — 5,84 cm. Finn sannsynligheten for at en tilfeldig valgt rekrutt er høyere enn 185 cm. Svar: 185 cm standardisert erz = (185 — 179,5)/5,84 = 0,94 standardenheter. Derfor: P (x > 185,0) = P (z > 0,94) = 0,1736 197
Finn sannsynligheten for at rekrutten er mindre enn 171,2 cm. Svar: 171,2 stan dardisert er z = (171,2 - 179,5)/5,84 = —1,42. Derfor: Derfor: P(x < 171,2) = P (z < —1,42). Pga. symmetri er dette lik P (z > 1,42) = 0,0778
Finn sannsynligheten for at rekrutten er mellom 171,2 cm og 177,3 cm høy. De to x-verdiene standardisert blir: (171,2 - 179,5)/5,84 = -1,42 og (177,3 - 179,5)/ 5,84) = -0,38. Derfor: P (171,2 0,38) - P (z > 1,42) = 0,3520 - 0,0778 = 0,2742. Tegn figur for å overbe vise deg om at triksingen vår er korrekt. Finn sannsynligheten for at en rekrutt er over 2,26 meter! Standardisert: z = (226 - 179,5)/5,84 = 8,00. P (x > 226) = P(z> 8,00) = 0,000 000 000 000 000 62. Dette er imidlertid å strekke metoden langt. Tross alt er normalfordelingen en teoretisk modell og spesielt ved ekstreme verdier er det grunn til å ta modellen med en klype salt. Hva er f.eks. sannsynligheten fofat en rekrutt skal ha negativ høyde? 0 cm standardisert er (0 — 179,5)/5,84 = —30,74.P(x< 0 cm) = P(z< -30,74). Verdien 30,74 finner vi ikke i tabell 5a, men P (z < —20) skrives med 88 nuller etter komma og vår søkte sannsynlighet er meget mindre. Dette er dog galt, for en person med høyde under 0 cm vil nok bli dimittert umiddelbart.
9.8 Sentralgrenseteoremet Sentralgrenseteoremet er det viktigste teoretiske fundamentet for anvendt parametrisk statistikk. Det lyder slik:
Sentralgrenseteoremet: Tar vi stikkprøver på n observasjoner hver fra en stor populasjon av x-er med gjennomsnitt /x og standardavvik ax og beregner x, vil x-ene være tilnærmet normal fordelt med: Px = P Formel 9-18:
n Dermed blir z tilnærmet standard normalfordelt:
Formel 9-19:
z = —-----—
V7T
198
Legg merke til at vi ikke forutsetter at populasjonen til x-ene er normalfordelt. Tilnærmelsen er bedre jo større n er og jo mer normalfordelt moderpopulasjonen er. (Noen forfattere krever at n >30, men dette er ikke tilstrekkelig hvis moderpopula sjonen er svært skjev.) Er moderpopulasjonen fullstendig normalfordelt, vil x være fullstendig normalfordelt uansett hvor liten n er. Det er viktig at du forstår hva dette innebærer, spesielt hva det betyr at et gjen nomsnitt er normalfordelt. Vi skal derfor gjøre noen simuleringer. I praktiske an vendelser av statistikk har du jo som regel kun én stikkprøve å arbeide med, men for å forstå hvilke egenskaper en stikkprøve har, kan vi eksperimentere med å trekke gjentatte stikkprøver og se hvordan gjennomsnittene deres fordeler seg.
Simulering av fordelingen til gjennomsnitt Betrakt datafil Oslo-Bor som en populasjon av avkastninger på Oslo Børs 22.04.96. Avkastningene varierer. Velg et tilfeldig selskap, og så et annet. Du ser at x-ene varierer. Gjennomsnittsavkastningen i populasjonen av avkastninger er /z = 18,18 %. Populasjonsstandardavviket er 35,26 %. Et histogram av populasjonen er vist i graf 9-11. Det er tydelig at populasjonen av avkastninger ikke er normalfordelt. Vi ser blant annet en tydelig skjevhet med lang høyrehale. Ett selskap med avkastning 240 % er attpåtil ikke vist i histogrammet. Jeg har nå trukket 500 stikkprøver fra populasjo nen, hver på 77 = 4 observasjoner, og beregnet gjennomsnittet hver gang. Deretter
Oslo Bors 22.04.96 Histogram
Graf 9-11: Datafil Oslo-Bor. Histogram av avkastningene 01.01.96-22.04.96for selskapene innen industri, handel og finans.
199
Antall
Spredning og stikkprøvestørrelse 500 trekninger av stikkprøver på henholdsvis 4 og 10 selskap fra Oslo Børs 22.04.96
Graf 9-12: Fordelingen til 500 gjennomsnitt av stikkprøver på n = 4 selskap (hvite søyler) og 500 gjennomsnitt med n = 10 selskap (sorte søyler)
har jeg gjort det samme med stikkprøver på n = 10. Jeg brukte Statark II, vindu 2. Arbeidsheftet viser hvordan. Resultatet er vist i graf 9-12. Ved å sammenligne med graf 9-11 ser vi tydelig at variasjonen er mindre i graf 9-12, og at gjennomsnittene til stikkprøvene på n = 10 varierer mindre enn dem med n — 4. Vi ser også at gjennomsnittene er mer normalfordelte enn moderpopulasjonen, selv om en del av skjevheten tydeligvis er i behold når n = 4. Det vi egentlig holder på med, er å gå over fra å studere en populasjon til å studere en annen. Vi har startet med en populasjon av avkastninger x som har gjennomsnitt p og standardavvik ax. Så begynner vi å ta stikkprøver på 4 og 4 fra populasjonen (hver gang legger vi tilbake tallet vi har trukket). Hver stikkprøve gir oss en x-verdi. Vi forestiller oss nå en populasjon av alle de stikkprøvegjennomsnitt vi kunne ha fått hvis vi fortsatte å trekke stikkprøver på 4 i det uendelige. Simuleringsresultatet i graf 9-12 antyder at denne populasjonen har mindre standardavvik og er mer nor malfordelt enn moderpopulasjonen, slik vi venter i henhold til sentralgrenseteore met. Dette er enda tydeligere når n = 10. Vi kan imidlertid sjekke dette mer nøyaktig ved å trekke større stikkprøver sam tidig som vi standardiserer gjennomsnittene. Da kan vi sammenligne resultatene direkte med standard normalfordelingen. Jeg har brukt Statarks vindu II-4 til å trekke først 200 enkle avkastninger (n = 1), deretter 200 stikkprøver med n = 16, og så 200 stikkprøver med n = 49. For hver stikkprøve har jeg beregnet gjennom snittet og deretter standardisert det i henhold til sentralgrenseteoremet: 200
For n = 1:
z =
x — pt °x
For n = 16:
z =
X — pu cr.x
(—3 0,2) PlzZ> 0,9) P(Z'>3,0) P(z'>3,1) P(zZ> 0,0)
6) 7) 8) 9)
P(z7> P(z7> P(z7 > P(z7>
1,44) L96) L64) 1,645)
Oppgave 9-7 Assorterte sannsynligheter Finn:
1) 2) 3) 4) 5) 6)
P(1 3,63 °C. I følge testen skulle jeg forkaste Ho hvis:
Hvis g virkelig er lik /x0 , er sannsynligheten for dette 5 %. Det er altJeg vet. Siden du vet at g = 3,85 °C, kan du regne ut den virkelige sannsynligheten for at dette skal skje. Det er testens styrke: Testens styrke = P (forkaste Ho | sannheten) =
For å kunne regne ut sannsynligheten videre, må vi standardisere x ved å trekke fra g og dele på a/ V7T. Det må vi gjøre på begge sider av ulikhetstegnet. Dermed blir x til z. (Husk at det er g og ikke g0 som er det sanne populasjonsgjennomsnittet!) Dermed får vi:
218
Formel 10-3:
Testens styrke = P (forkaste Ho | sannheten) =
Formel 10-3 gir altså teststyrken for en høyresidig test. Formelen viser tydelig hvordan styrken vokser når p vokser i fra p0.
Med våre tall finner vi: P (forkaste Ho: x = 3,63 °C | x = 3,85 °C) =
+ l,64s\
P(z> -1,120 + 1,645) = P(z> 0,525) = 0,30
Sannsynlighet for å forkaste nullhypotesen
z-testens styrkefunksjon
Graf 10-2: Styrken til z-testen som funksjon av hvor gal nullhypotesen er, basert på en stikkprøve på 17 observasjoner med et standardavvik på 0,81 °C. En nullhypotese på 3,85 °C er korrekt.
219
Legg merke til at vi beregner styrken uten å kikke på stikkprøven. Styrken er den prinsipielle evnen testen har til å avsløre en gal nullhypotese. Det var altså i ut gangspunktet 30 % sannsynlighet for at jeg skulle komme til å forkaste min gale nullhypotese. Siden jeg faktisk gjorde det, har jeg derfor vært litt heldig. Vi kan naturligvis også sette inn andre verdier for /jl0 i formel 10-3, og beregne styrken for andre gale nullhypoteser. Dette gir styrkefunksjonen til testen som vist i graf 10-1. Hvis du sammenligner denne grafen med graf 7-3, vil du se at styrken stiger mye fortere mot 1,00 i graf 10-1. z-testen er altså betraktelig sterkere enn testen basert på ordningsobservatorene, vel og merke hvis forutsetningene er opp fylt. Legg merke til at styrken er lik a = 0,05 når nullhypotesen er sann, dvs lik sannsynligheten for feil av type I.
10.2 Generell metode når a er ukjent: Studentfordelingen I praksis er a nesten alltid ukjent. Hvis vi erstatter crmed s, er z-metoden i forrige avsnitt tilnærmet riktig hvis n er stor. Problemet er at v i motsetning til a er under kastet tilfeldig variasjon. Hver gang vi trekker en ny stikkprøve, vil vi jo få en ny verdi for a. Det betyr at normalfordelingen gir litt for trange konfidensintervall. Det
Studentfordelingen med forskjellige antall frihetsgrader
Graf 10-3: Studentfordelingen med v — 200, 10 og 5 frihetsgrader. Med 200 frihetsgrader er den nesten identisk med normalfordelingen.
220
vi trenger er en fordeling som er videre jo mindre n er, slik at vi tar variabiliteten til v med i beregningen. W. S. Gosset løste dette problemet i 1908. Han var statistiker i det irske bryggeriet Guinness som ikke pleide publisere sine forskningsresultater. Gosset overtalte imidlertid Guinness til å la oppdagelsen publiseres under pseudo nymet Student. Beregningene hans har senere blitt kjent som studentfordelingen. Den er meget lik normalfordelingen når n begynner å nærme seg 100. Se graf 10-2. For oss blir dette meget enkelt. Alt du behøver å gjøre, er å erstatte z i de tidligere formlene med t som du henter fra tabell 6 over studentfordelingen. For øvrig er beregningene like.
Konfidensintervall for populasjonsgjennomsnittet ved hjelp av studentfordelingen:
Formel 10-4:
/i = x ± ta X —— yn
Konfidensnivået er 1 — 2ct. ta er a-fraktilen under studentfordelingen med v = n — 1 frihetsgrader (tabell 6)
Når du slår opp i tabell 6, må vi altså oppgi hvor mange såkalte frihetsgrader v du har. Du brukte opp en frihetsgrad da du beregnet s.
Eksempel: Klima Forrige gang da vi beregnet konfidensintervall for populasjonsgjennomsnittet ved hjelp av våre 17 observasjoner, benyttet vi oss av at vi visste at populasjonsstandardavviket var 0,81 °C. Slike ting vet vi vanligvis ikke, og må derfor benytte stikkprøvestandardavviket istedet. Her var v = 1,04 °C. Et 95 % konfidensintervall for gjennomsnittet i populasjonen ved hjelp av studentfordelingen er derfor i følge formel 10-4: v 1 04 g = x ± ta X — = 3,97 ± 2,12 X —= 3,97 ± 0,54 vn f 17 Vi tant ta = 2,12 i tabell 6b på linjen for v = 16 frihetsgrader. Konfidensintervallet går altså denne gang fra 3,43 °C til 4,51 °C. Med normalfordelingen gikk det fra 3,58 °C til 4,36 °C. Den økte vidden skyldes ikke bare at ta er større enn za, men også at det var spesielt stor variasjon i temperaturene de siste 17 årene.
221
Hypoteseprøving blir også tilsvarende som med normalfordelingen:
Testmetode
Z-testen for ett gjennomsnitt
Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi
n observasjoner av en variabel x Ho: M = Mo ll:/x ta
Forkast Ho hvis/C-^
Forkast Ho hvis t > +ta
Eksempel: Klima I følge datafil Klima har gjennomsnittstemperaturen i perioden 1883 til 1930 vært 3,63 °C. Kan våre 17 nylige temperaturer tenkes å skrive seg fra en populasjon med et slikt gjennomsnitt, eller må vi anta at populasjonsgjennomsnittet har steget i tråd med hypotesen om global oppvarming? (I stikkprøven var gjennomsnitt og stan dardavvik henholdsvis 3,97 °C og 0,81 °C.)
1 Testmetode: 2 Data 97 °C 3 4 5 6 7
Nullhypotese: Alternativ: Signifikansnivå: Kritisk verdi: Testobservators verdi:
Z-testen for ett gjennomsnitt 17 temperaturer med v = 3,97 °C og 5 = 1,04 °C /ju = /x0 = 3,63 /z > 3,63 a= 5% ta = 1,75 (tabell 6b, v = 16)
3,97 - 3,63 = 1,35 1,04 Fa
231
10.5 Sammendrag Dette kapitlet handler om tester og konfidensintervall for populasjonsgjennomsnitt basert på brak av normaltilnærmelsen.
Signifikanssannsynlighet og testing Signifikanssannsynligheten er sannsynligheten for å observere noe minst like eks tremt i forhold til nullhypotesen som det vi faktisk har observert. I en ensidig test er signifikanssannsynligheten arealet under fordelingen til testobservatoren utenfor den faktisk observerte verdi. T en tosidig test er den det dobbelte. Nullhypotesen skal forkastes hvis signifikanssannsynligheten er mindre enn signifikansnivået. Du forteller mer om testen ved å oppgi signifikanssannsynligheten enn om du bare oppgir signifikansnivået og forteller om Ho ble forkastet eller ikke. Konvensjon Du velger alltid først konfidensnivå. Dette er din egen grense for sannsynligheten for å ta feil. Deretter finner du a slik at du kan slå opp i tabellen. Ved tosidige tester og konfidensintervall finnes a, ved å sette konfidensnivået lik 1 — 2a, ved ensidig het lik 1 — 2a. Studentfordelingen Studentfordelingen benyttes når du ikke kjenner populasjonsstandardavviket, noe man i praksis vanligvis ikke gjør. Selv om du i teorien likevel kan brake normalfor delingen når stikkprøvene er store, er det praktisk å alltid holde seg til studentfor delingen. Når antall frihetsgrader er stort, vil den jo være omtrent identisk med normalfordelingen, som det fremgår av tabellene.
Ett gjennomsnitt Data: n målinger av en variabel x, beregning av x og 5. Konfidensintervall for /x: /jl = x ± taX Testobservator: t =
(formel 10-4)
•v - Mo s n
Konfidensnivået er 1 — 2a. ta er o-fraktilen under studentfordelingenmed v — n — 1 frihetsgrader (tabell 6).
To gjennomsnitt Data: observasjoner avxj fra en populasjon, og n2 avx2 fra en annen populasjon. De to stikkprøvene må være uavhengige slik at de observasjoner man gjør i den ene stikkprøven ikke påvirker observasjonene i den andre. Vi beregner x2, 5] og s2. 232
S1
s2
Konfidensintervall for /x1 — /z2: /zj — /z2 — X] — x2 ± ta X A------ 1------
t
Testobservator for Ho: /Z| = /z2:
Xj — x2
Konfidensnivået er 1 — 2a. Za er a-fraktilen under studentfordelingen der v be regnes ved hjelp av formel 10-3:
(1 + W)2 2 $2
’
«1 — 1
n2 — 1
Flere gjennomsnitt Hvis vi har flere enn to uavhengige stikkprøver, bør vi ikke teste alle par for å se om det er signifikante forskjeller mellom populasjonsgjennomsnittene. Istedenfor ut fører vi enveis variansanalyse (ANOVA) for å teste nullhypotesen om at alle popu lasjonsgjennomsnittene er like mot alternativet om at minst ett er ulikt de andre. ANOVA utføres blant annet av Excel og gir verdien til testobservatoren F samt signifikanssannsynligheten. Nullhypotesen forkastes som vanlig hvis signifikans sannsynligheten er mindre enn signifikansnivået.
Teststyrke En tests styrke er sannsynligheten for å forkaste en gal nullhypotese. Denne kan du beregne hvis du kjenner populasjonsstandardawiket cr, og kan anta at x er normal fordelt. Hvis du har n observasjoner av x, og: Ho: p = /z0, Hp /z > /z0, signifikans nivå = a, kan testens styrke beregnes slik:
pl x~^
(formel 10-3)
Her er p det virkelige gjennomsnittet i populasjonen. Legg merke til at når null hypotesen er riktig, er teststyrken lik a.
233
10.6 Oppgaver Øvelse Spesialisering og lønn for mannlige siviløkonomer (Løsning etter oppgave 10-3) Tabell 10-4 Fra datafil Sivil96: Årslønn i 1000 kr. for nybakte mannlige siviløkonomer høsten 1996, etter spesialiseringsretning. Retning
BU
Fin
IBL
MF
RSØ
SFØ
Logist.
BU = bedriftsutvikling Fin = Finans IBL = Internasjonal bedriftsledelse MF = Markedsføring RSØ = Regnskap, skatt, økonomistyring SFØ = samfunnsøkonomi
190 200 217 225 230 230 230 230 230 230 240 240 250 250 270 288 300 700
220 222 222 223,2 223,2 224 225 225 225 225 230 230 230 240 250 270 300 300 331 480
210 225 225 230 230 240 320
180 181,06 190 228 228 228 230 230 230 230 230 231 234 235 240 240 240 250 250 294 330
210 216 220 223 223 223,2 223,2 223,2 224 225 225 225 230 232 235 240 240 250
210 223,2 225 225 235
210 220 225 230 235 250 250 250 250 252
Tot.
Ta utgangspunkt i tabell 10-4 og svar på spørsmålene nedenfor. For å teste at du forstår fremgangsmåtene, bør du analysere dataene i et regneark uten å bruke pro gramvare som Minitab eller Statark. Dermed må du selv skrive inn de nødvendige formlene, men uten å kaste bort tid på håndregning. a)
Lag et 95 % konfidensintervall for gjennomsnittslønnen i hver av de syv popu lasjonene. Fremstill intervallene grafisk og kommenter!
b) Sammenlign lønnsnivået i finans og regnskap. Er lønnsnivået i finans signifi kant høyere enn i regnskap på 5 %-nivået?
c)
Bruk en analogi til formel 10-3 og estimer sannsynligheten for at testen under b) ville oppdage en reell forskjell i gjennomsnittslønn på 20 000 kr.
d) Spiller det noen rolle for lønnen hvilken spesialiseringsretning du velger?
e)
234
Ta stilling til om forutsetningene for testen under d) er oppfylt.
Oppgave 10-1 Konfidensintervall med ordningsobservatorer eller Students t? I oppgave 3.3 lagde du konfidensintervall ved hjelp av ordningsobservatorene for medianen i populasjonen av lufttrykk i dekk der bensinstasjonenes måler viser 28 psi. Nå skal du lage tilsvarende intervall for populasjonsgjennomsnittet. Sammenlikn intervallene. Hvilket er trangest? Anta du finner at intervallene basert på nor malfordelingen tenderer til å være trangest. Betyr det at dette er den beste metoden? Forklar! Oppgave 10-2 Dr. Salks vektøkninger Dr. Salks teori var at mødre ubevisst holder ungen på venstre arm for at ungen bedre skal høre hjerteslagene hennes og derved bli roligere. For å teste teorien delte han ungene på en fødselsklinikk inn i tre vektklasser. I hver klasse ble etter loddtrek ning halvparten av barna lagt i et rom med en båndopptaker som spilte hjerteslag. Barnas vektøkning etter fire dager ble målt. Et plott av resultatene er vist i graf 1-3. For barn med middels fødselsvekt var: Hjerteslag: n = 45 Ikke hjerteslag: n = 45
s2 = 3598,41g2 s2 = 4277,27g2
x = 37,33g v= -16,67g
Lag et 95 % konfidensintervall for populasjonsgjennomsnittet i hver av kategori ene. Merk deg at selv om intervallene overlapper hverandre, kan vi ikke konkludere med at populasjonsgjennomsnittene ikke er signifikant forskjellige og samtidig ha en test med sannsynlighet på maksimalt 5 % for å ta feil. Til det trengs det en spesiell test som du skal utføre! Oppgave 10-3 Lønnforskjell mellom diplom- og siviløkonomer I Bis arbeidsmarkedsstatistikk 1996 ble det blant annet registrert begynnerlønnen til henholdsvis diplom- og siviløkonomer. Lønnsstatistikk
1996(1000 kr.)
Antall
Gjennomsnitt
Stikkprøvestandardavvik
Kvinner
Siviløkonomer Diplomøkonomer
54 119
224 195
20 35
Menn
Siviløkonomer Diplomøkonomer
99 134
243 214
59 63
Vi vet av tidligere analyser at det er systematiske forskjeller mellom kvinner og menn, mens valg av spesialisering ikke synes å spille noen særlig rolle. Derfor kan det være fornuftig å skille mellom kvinner og menn i denne analysen.
a) Kommenter det du ser i tabellen.
b) Lag 95 % konfidensintervall for populasjonsgjennomsnittene i de fire kate goriene.
235
c) Vi venter at siviløkonomene skal tjene mer fordi de har ett års lengre studietid. Test dette separat for hvert kjønn.
d) Lag 95 % konfidensintervall for hvor mye mer siviløkonomer tjener for hvert kjønn.
e) Tjener kvinnelige siviløkonomer signifikant mer enn mannlige diplomøkono mer på 5 %-nivået? Løsning til øvelsesoppgave Nedenfor ser du en tabell der endel nøkkeltall for de ulike gruppene er beregnet ved hjelp av Excel: Siv.øk./Menn n = COUNT Skjevhet AVERAGE 5 = STDEV ta = TINV (0,05; n - 1) ta X s/^Tn Høy Lav
BU 18 11,75 263,89 112,14 2,11
Fin 20 33,67 254,77 61,89 2,09
IBL 7 4,50 240,00 36,40 2,45
ME 21 2,00 234,72 32,62 2,09
55,77 319,66 208,12
28,97 283,74 225,80
33,66 273,66 206,34
14,85 249,56 219,87
RSØ 18 1,76 227,09 9,46 2,H 4,70 231,79 222,39
SFØ 5 0,67 223,64 8,93 2,78
Logist. 10 0,29 237,20 15,33 2,69
11,09 234,73 212,55
13,02 250,22 224,18
a) Et 95 % konfidensintervall for gjennomsnittslønnen i en av de syv populasjo nene forutsetter beregning av gjennomsnitt, 5 og ta. Slingringsmonnet er i følge formel 10-4 ta X s/''Tn. Du ser en grafisk fremstilling av konfidensintervallene i graf 10-4. Konfidensintervallenes vidde avhenger både av variabiliteten i dataene og antall observasjoner. Det er bemerkelsesverdig hvor trangt det er i regnskap. Vi ser at konfidensintervallene i stor grad overlapper hverandre, men vi kan likevel ikke trekke noen bastante konklusjoner av dette uten parvise sammenligninger, eller variansanalayse.
b) Her kan du lett regne ut de viktigste formlene i regneark. Testmetode: Data: Nullhypotese: Alternativ: Signifikansnivå: Antall frihetsgrader: Kritisk verdi: Testobservator: Konklusjon:
236
Mesten for — /l2 20 fmanslønner = 254,77, 5j = 61,89 18 regnskapslønner x2, %2 = 227,09, s2 = 9,46 Ingen kjønnsforskjell: /jl{ = /jl2 De tjener mer i finans: > p2 a= 5% n = 19 i følge formel 10-7 ta = 1,73 i følge tabell 6 b t = 27,68/14,02 = 1,97 i følge formel 10-7 Nullhypotesen forkastes siden t > ta Forskjellen er signifikant.
95% konfidensintervali for mannlige siviløkonomers gjennomsnittslønn
Graf 10-4: Fra datafil Sivil96. Gjennomsnittslønn etter spesialisering.
c)
Ifølge formel 10-3 beregnes teststyrken slik:
Telleren i den andre parentesen gir uttrykk for hvor gal nullhypotesen er. Den vil være negativ når alternativet er riktig. Nevneren er standardavviket til tes tobservatoren. Den estimerte vi til 14,02 da vi utførte testen ovenfor. Dessuten må vi bruke /-fordelingen med 19 frihetsgrader slik vi gjorde ovenfor. Da får vi:
Teststyrken =P(t> -20/14,02 + 1,73) = P(t> -1,43 + 1,73) = P(t > 0,30) = 0.384, med andre ord ikke en overvettes styrke.
237
d) For å finne ut om det spiller noen rolle for lønnen hvilken spesialiseringsret ning man velger, må vi uføre enveis variansanalyse. Nedenfor er resultatet av mine beregninger i Excel, på samme måte som i tabell 10-2: Jeg finner SST = 99*VARP (alle dataene) = 338645 og: Siv.øk./Menn
BU
Fin
IBL
MF
RSØ
SFØ
Log
nJ
18
20
7
21
18
5
10
n = 99
s
263,9
254,8
240,0
234,7
227,1
223,6
237,2
SSE =
E Cp “ f)2
213786
72786
7950
21278
1520
319
2116
319755 SSB =
iij (xj — V)2
8043
2890
53
1355
4415
1826
308
18890
Beregningene for F-testen utføres i Excel ved menyvalget Verktøy, data-analyse, Anova, enveis (Tools, Data-analysis, Anova, Single factor), og gir som resultat: ANOVA
Kilde til variasjon Mellom grupper Innen grupper
SS 18 890 319 755
df 6 92
Totalt
338 645
98
Testmetode Data
Nullhypotese Alternativ
Signifikansnivå Kritisk verdi
MS 3148 3476
F 0,91
P-verdi 0,49
F crit 2,20
F-testen for flere gjennomsnitt 99 observasjoner av begynnerlønn for mann lige siviløkonomer med 7 ulike spesialiserings retninger (datafil Sivil96) Ho: /ij = /z2 = F3 = ••• = F? Minst ett av gjennomsnittene er forskjellig fra de andre a = 0,05 (ensidig test) Fa = 2,20 SSB
Testobservator n—k Konklusjon
Ho beholdes fordi F < Fa
Vi ser også at signifikanssannsynligheten (F-verdi) er altfor høy, slik at resul tatet på ingen måte er signifikant. Vi har tvert imot fått omtrent det resultatet vi ventet oss hvis nullhypotesen er riktig. Dette betyr at også guttene kan slappe av og velge spesialsering etter interesse, uten å tenke på fremtidig lønn!
238
e)
Forutsetningene for testen under d) er at dataene er trukket fra normalfordelte populasjoner, at stikkprøvene er tilfeldige trekninger fra populasjonene, og at variansene til populasjonene må være like. En indikasjon på manglende nor malitet, er de tildels betydelige skjevheter som er beregnet på grunnlag av stikkprøvene. Lønner ser ut til å være fordelt med lang høyrehale, og altså er ikke det første kravet særlig godt oppfylt. Stikkprøvene er heller neppe til feldige, når vi vet at bare litt over halvparten har svart på spørreskjemaet. På den annen side rammer vel eventuelle skjevheter de ulike retningene på samme måte, slik at dette ikke skulle gi grunn til bekymring når vi sammenligner ret ningene. Det er verre med variansene. Det er nokså klart at regnskap har mind re varians enn de andre (samfunnsøkonomi har så få respondenter at dette er mer usikkert). Dermed er validiteten til F-testen tvilsom. Likevel er resultatet så langt fra forkastning at vi likevel våger å holde fast på konklusjonen.
239
11 Kategoriske variabler og normaltilnærmelsen 11.1 11.2 11.3 11.4 11.5
En andel To andeler Kontingenstabeller Sammendrag Oppgaver
11.1 Én andel p er sannsynligheten for JA når vi utfører et eksperiment som enten gir JA eller NEI som resultat. Du kan tenke påp som andelen av JA i en populasjon som bare består av JA-er og NEI-er. Problemet dreier seg om å estimerep på grunnlag av en tilfeldig stikkprøve på n observasjoner fra populasjonen. Hvis for eksempel a = 25 av en tilfeldig stikk prøve på n = 32 kjevhendte mødre holder barnet på venstre arm, tyder dette da på at majoriteten i populasjonen av kjevhendte mødre holder barnet på venstre arm, dvs. at p > 0,5? 1 kapittel 6 hadde vi det motsatte problemet. Vi visste hva p var og skulle finne sannsynligheten for å få a JA-er blant n observasjoner. Da gjelder binomialforde lingen. Den fordelingen er imidlertid ganske komplisert å bruke til statistisk in ferens, men se på graf 8-3 igjen! Den viser binomialfordelingen brukt i forbindelse med fortegnstesten. Se hvordan den ligner på normalfordelingen. Dette er ikke overraskende, for ifølge sentralgrenseteoremet er jo en sum av mange tilfeldigheter normalfordelt. Det skal vi benytte oss av i dette kapitlet.
Nornialfordelingstilnærmelsen Vi benytter oss igjen av blindvariabelen x fra avsnitt 9-1 og 9-2. La x = 1 hvis moren holder barnet på høyre arm (JA), og x = 0 hvis hun holder den på venstre (NEI). I et tilfeldig utvalg på n = 32 mødre er da Xx antall mødre som holdt barnet på høyre arm. Med andre ord har vi:
Xx = a
x _ a x - ------- = — n n
= p 241
p er gjennomsnittsverdien til x-ene i populasjonen og må være lik populasj onsandelen p. På denne måten har vi fått redusert problemet til estimering eller testing av et populasj onsgjennomsnitt. Vi vet på grunn av sentralgrenseteoremet at fordelingen til x er tilnærmet normalfordelt når bare n er stor nok. Vi kan derfor foreta hypotese prøving og lage konfidensintervall som vi gjorde i kapittel 10. Siden dette er et spesialtilfelle, kan vi i tillegg benytte oss av at variansen til blindvariabelen er cr2 = p (1 - p\ slik vi tidligere har vist. Vi kan derfor lage en standardisert variabel på vanlig måte:
Normaltilnærmelsen for en dikotom variabel: a vellykkete ut av n forsøk der sannsynligheten erp før at et tilfeldig forsøk er vellykket, z er standard normalfordelt:
Formel 11-1:
z =
cr
—
a ------ P ,-----------v p (1 - p) \Pn
—
a ------ p n 1 p(l -p) N n
Dette gir muligheten til å utføre hypoteseprøving og å beregne konfidensintervall akkurat som vi gjorde i kapittel 10.
Hypoteseprøving
Testmetode
z-testen for én andel
Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi
n observasjoner av en dikotom variabel x, a er vellykkete Ho: p = p(l Hfp >p0 Hpp p0 Hpp za
242
=Po (1 ~Po) t n
Forkast Ho hvis z < ~za
Forkast Ho hvis z > + za
Eksempel: Salks kjevhendte mødre Testmetode: Data: Nullhypotese: Alternativ: Signifikansnivå: Kritisk verdi:
Testobservator:
z-testen for én andel Av x? = 32 kjevhendte mødre holdt a = 25 ungen på venstre arm P (ungen på venstre arm) = p = 0,5 p > 0,5 a= 5% za = 1,645 ifølge tabell 5 b 25 32
0,5 X (1 - 0,5)
= 3,18
32
Konklusjon:
Nullhypotesen forkastes siden z > za Kjevhendte mødre favoriserer venstre arm
Det kan altså ikke skyldes tilfeldigheter at så mange som 25 av de 32 mødrene holdt ungen på venstre arm. Signifikanssannsynligheten er faktisk så liten som 0,00074 ifølge tabell 5 a. Det er overbevisende!
Konfidensintervall for p Hvis du skal lage et konfidensintervall forp, har du ingen verdi forp du kan sette inn i uttrykket for variansen a2 = p (1 — p) i formelen til z. I stedet må du da sette inn et estimat ved å erstatte populasjonsandelen p med stikkprøveandelen a/n. I reali teten bruker vi akkurat samme fremgangsmåte som i forrige kapittel med konfi densintervall for ett gjennomsnitt:
Tosidig 1 — la konfidensintervall for p ved hjelp av normaltilnærmelsen:
Formel 11-2:
Legg merke til at vi bruker normalfordelingstabellen, altså ikke Studenttabellen som vi normalt skal gjøre når vi har estimert variansen.
243
Eksempel: Salks venstrehendte mødre Med n = 32 og a = 25 og med 1 - 2a = 95 % gir formel 11-2:
7 25 \ --- X I-------25 A 32 \ 32 / n = — ± 1,96 \ —----- ------------ = 0,781 ± 0,143 r 32 1 32 ~25
Statark 2, vindu 6 utfører automatisk denne regningen for oss med alle tre mulige konfidensintervall og tester mot alle tre alternativer. Se arbeidsheftet! Som du ser, går det tosidige 95 % konfidensintervallet for p fra 0,076 til 0,362. Vi er altså 95 % sikre på at i populasjonen av kjevhendte mødre er det en andel på mellom 92,4 % og 64,8 % som bærer ungen på venstre arm.
Konfidensintervallets vidde som funksjon av p og n Tenk deg en klasse med bare gutter! Populasjonen er ensartet. Den har liten varians. Dette er reflektert i variansen til blindvariabelen som er:
ir2 = p (1 - p)
Konfidensintervallets vidde som funksjon av a/n og n
Graf 11-1: Vidden til et 95 % konfidensintervall for p som funksjon av stikkprøvens størrelse n, og estimatet for hvor variabel populasjonen er, a/n.
244
Hvis p er 0 eller 1, er variansen 0. Da er populasjonen helt homogen. Alle er like. Den mest variable populasjon har vi når halvparten er gutter og halvparten er jenter. Da er a2 = 0,25, og større kan den ikke bli. Ifølge formel 11-2 avhenger konfidensintervallets vidde både av stikkprøvens størrelse og hvor variabel populasjonen er, estimert ved a/n. Dette er vist i graf 11-1. En lignende graf kan du produsere selv i Statark 11-6. Se arbeidsheftet.
Politiske meningsmålinger Politiske meningsmålinger av hvilket parti folk vil stemme på, publiseres månedlig av flere institutter og er gjeme basert på ca. 1200 intervjuer hver gang. Du har sikkert sett teksten under barometrene. Der står det at de statistiske feilmarginer kan være av størrelsesorden opp til 3 % for stemmeandeler opp til 50 %, 2 % for andeler på 10-20 % og ned mot 1 % for lavere stemmeandeler. Dette finner du igjen i graf 11-1. (I virkeligheten er feilmarginene noe mindre enn vår teori tilsier hvis resultatene av meningsmålingen veies mot forrige stortingsvalg.)
Stikkprøvens størrelse Du skal foreta en spørreundersøkelse med to svaralternativ, JA og NEI, og lurer på hvor stor undersøkelse du skal planlegge. Det kommer an på hvor sikker du ønsker at konklusjonen skal være (konfidensnivå 1 — 2cv), hvor presist resultatet skal være (konfidensintervallets vidde 2L), og hvor variabel populasjonen er: p (1 — /?). Alt dette inngår i formel 11-2 hvis du erstatter a/n medp:
t
n
Hvis vi løser dette med hensyn på n, får vi:
Stikkprøvens størrelse: Ønsket konfidensintervallvidde = 2L Konfidensnivå = 1 — 2a: Formel 11-3:
n
za2 X p X (1 -p) L2
Problemet med formel 11-3 er selvfølgelig at du ikke vet hvor storp er. For å være på den sikre siden, kan du sette inn det mest pessimistiske anslaget:p = 0,5. Hvis du i tillegg ønsker et 95 % konfidensintervall, er za — 1,96 ~ 2,00. Dermed har vi den enkle formelen: n = l/£2. MedE = 0,1 blir/? = 100. MedE = 0,05 blir/? = 400, osv. Presisjon blir fort kostbart!
245
Blindvariabler, andeler og binomisk fordelte variabler Begrepene blindvariabler, andeler og binomisk fordelte variabler henger sammen og er likevel forskjellige. Derfor er det lett å bli forvirret. Nøkkelen er å forstå hva vi velger som observator. La oss først definere et grunn eksperiment. Ett tall trekkes fra en populasjon med ettall og nuller der andelen av ettall erp. Resultatet av et grunneksperiment er derfor enten 1 eller 0. Dette er de mulige verdiene til en blindvariabel. Gjentas grunneksperimentet mange ganger, får vi et inntrykk av hvor mye verdiene til blindvariabelen varierer. Erp nær null, får vi stort sett nuller, og derfor liten variasjon. Erp nær 1, får vi stort sett ettall, og likeledes liten variasjon. Variansen til blindvariabelen som observator er/? (1 — p). Gjentas grunneksperimentet n ganger, og vi beregner andelen av ettall, a/n, får vi et tall mellom 1 og 0. Dette kaller vi en stikkprøve på n. Tar vi en stikkprøve på n mange ganger, får vi en serie med andeler, for eksempel 0,2; 0,33; 0,1; 0,5;.. osv.. Vi får størst variasjon hvisp er nær 0,5. Variansen til andelen a/n som observator er: p (1 — pfn. Hvis vi i en stikkprøve på n velger å telle antall ettall a, istedenfor å beregne andelen, vil resultatet bli et tall mellom 0 og n. Gjør vi dette mange ganger for å få et inntrykk av hvor mye resultatet varierer, får vi en serie med tall: 5; 2; 10; 7;.. osv. a er en binomisk fordelt variabel og dens varians er: np (1 — p).
11.2 To andeler I avsnitt 8.5 gikk vi gjennom Fishers test for forskjell mellom to andeler, der vi benyttet den hypergeometriske fordelingen. Her skal vi presentere en alternativ metode som bygger på normaltilnærmelsen og som kan benyttes ved store stikk prøver når den hypergeometriske fordelingen blir nokså umulig å regne på. Nor maltilnærmelsen gir dessuten konfidensintervall for differansen. Datagrunnlaget er den samme 2 X 2-tabell som vi brukte i Fishertesten:
Tabell 11-1 Datagrunnlaget for normaltilnærmelsen til to andeler JA NEI
246
Stikkprøve 1
Stikkprøve 2
ai bi
b2
A B
«i
«2
N
a2
Vi har i forrige avsnitt sett at en andel a/n kan betraktes som et gjennomsnitt slik at vi kan anvende sentralgrenseteoremet. I forrige kapittel så vi at variansen til en differanse mellom to uavhengige stikkprøvegjennomsnitt er summen av varian sene til hvert gjennomsnitt. Dette kan vi direkte overføre til to andeler. Fra formel 10-7 kan vi utlede:
z-observatoren for differanse mellom to andeler: z er tilnærmet standard normalfordelt: a2
Formel 11-4:
rp
z P\
(1 ~P1)
«1
t A \P\ P2) n2______________ + Z>2 (1
~ Pl)
«2
Formel 11-4 kan vi bruke både til å foreta hypoteseprøving og å lage konfidensinter vall. Vi må imidlertid foreta noen justeringer på grunn av det vanlige problemet med at de ukjente parametrene inngår i standardavviket. Ved hypoteseprøving vil nullhypotesen gå ut på at de to populasjonsandelene er like. Da erstatter vi bådepx og p2 med felles-estimatet A/N. Ved konfidensintervall erstatter vi dem med hen holdsvis aAlnx og a2/n2.
1 — la tosidig konfidensintervall for px — p2: Formel 11-5:
P\~P2 = — «1
247
Hypoteseprøving Testmetode
z-testen for differanse mellom to andeler
Data
Stikkprøve 1: ax JA-er i nx trekninger fra populasjon 1 Stikkprøve 2: a2 JA-er i «2 trekninger fra populasjon 2 Se tabell 11-1 H0:a = P2 HfA >P2 HfA + p2 Hf^i +za
Forkast Ho hvis z < ~za
Forkast Ho hvis | z | > za
Igjen er det viktig at du verdsetter den enkle, elegante og naturlige formen til testobservatoren! Skal vi finne ut om det er forskjell på to populasjonsandeler, er det selvsagt relevant å se på differansen mellom stikkprøveandelene, men det er like selvsagt at denne differansen må sees i forhold til hvilke tilfeldige utslag vi kan vente oss. Derfor må vi dividere med estimatet for standardavviket til differansen under forutsetning om at nullhypotesen er riktig. Eksempel: Røyker jenter mer enn gutter? I kapittel 8 presenterte vi følgende data fra en spørreundersøkelse blant siviløko nomstudenter:
Tabell 11-2 Røyking og kjønn hos 185 tilfeldige siviløkonomstudenter Stikkprøve 1 jenter
Stikkprøve 2 gutter
Røyker? JA
«i 17
«2
Røyker? NEI
b\
Z?2
49
98
«i 66
119
21
«2
A 38 B 147
N 185
Er røykeandelen hos jenter signifikant høyere enn den hos gutter?
248
z-testen for differanse mellom to andeler Se tabell 11-2 H0:Pi =P2 HfA >/x a = 0,05 za = 1,645 17 21
Testmetode Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi
Testobservator 1
38 / _ 38 \ 185 \ 185 )
38 / _ 38 \ 185 \ 185 )
66
119
1
= i..
Konklusjon
Ho kan ikke forkastes fordi z < za. Ifølge tabell 5 a er signifikanssannsynligheten lik 0,095.
I oppgave 8-9 ble du bedt om å utføre Fishertesten på de samme dataene. Da ble signifikanssannsynligheten lik 0,135 som er den korrekte verdien. 0,095 er bare en tilnærmelse, og altså ikke en særlig god sådan i dette tilfellet (selv om konklusjonen på testen blir den samme), z-testen for differanse mellom to andeler er en test som anvendes meget ofte i praksis, men det er all grunn til å være forsiktig og heller anvende Fishers eksakte test når det er mulig! Et 95 % konfidensintervall for/?! — p2 blir ifølge formel 11-5:
P\ ~ Pi
17 66
21 119
± 1,96 \
17 66 \
9-— 1- + 66 / 66
21 119 \
6-— i 119 ) 119
= 0,081 ± 0,126
Du vil sikkert også denne gang ha bemerket at det ikke er lett å regne riktig med disse kompliserte formlene. Statark II, vindu 8 foretar all regningen for deg samti dig som det holder orden. Se arbeidsheftet.
11.3 Kontingenstabeller Kontingent er et annet ord for andel. Uttrykket brukes når vi sorterer observasjoner i kategorier. Hittil har vi bare operert med to kategorier: «JA» og «NEI». Det er ofte aktuelt med mer enn to kategorier i våre fagområder. Derfor er det av stor praktisk verdi også å kunne analysere tabeller som er større enn 2X2 ved hjelp av statistiske metoder. 249
2 X 2-tabeller La oss igjen se på eksemplet i avsnitt 11.3 der vi undersøkte om det var signifikant forskjell på andelene av gutter og jenter som røykte. Det var 66 jenter og 119 gutter i stikkprøven, til sammen 185. Av dem var det 38 som røykte. Disse fordelte seg med 17 og 21 på henholdsvis jenter og gutter. Hvordan ville du vente at røykerne skulle fordele seg, hvis røyke-andelene i populasjonene som stikkprøvene var hentet fra er like? Da burde selvsagt de 38 røykerne fordele seg proporsjonalt med andelene av jenter og gutter i stikkprøven. Med andre ord ville vi vente å observere A X njN = 38 X 66/185 = 13,6jenter som røyker. Siden vi observerte 21, ligger altså jentene noe i overkant. På denne måten kan vi lage en tabell over hva vi ville vente oss hvis nullhypotesen om ingen forskjell var riktig:
Tabell 11-3 Observerte data sammenlignet med det vi forventet hvis jenter og gutter har like stor røyketilbøyelighet Observert (O) Jenter Gutter
Røyker? JA
Røyker? NEI
a1
a2
17
21
b\
b2
49
98
«1
«2
66
119
Forventet (E) Jenter Gutter
Sum
A X njN 13,6
A X n2/N 24,4
A 38
52,4
94,6
B 147
«1
66
«2
119
N 185
Hvis du nå husker tilbake til kapittel 5, har vi rett og slett laget en multiplikasjons tabell for de forventede tallene. En multiplikasjonstabell er knyttet til begrepet uav hengighet. Røyking er nå antatt å være uavhengig av kjønn, og omvendt. Null hypotesen vår ompx = p2 er altså en hypotese om at det ikke er noen sammenheng mellom kjønn og røyking. Vi vet vi kan teste Ho både ved hjelp av Fishers eksakte test og normaltilnærmel sen for to andeler. Finnes det noen annen metode som også kan benyttes ved tabel ler som er større enn 2X2? Jo større forskjell det er på forventede og observerte tall, jo dårligere ligger nullhypotesen an. Kvadrerer vi disse forskjellene og deler på det forventede antall, får vi en tabell med relative kvadratavvik. Se tabell 11-4. Tabell 11-4 Relative kvadratavvik beregnet på grunnlag av tabell 11-3. --------------------------------Jenter E JA NEI
250
0,875 0,226
Gutter 0,485 0,125
Det er opplagt at jo større summen av kvadratawikene i tabell 11-4 er, jo dårligere ligger nullhypotesen an. Summen kalles for^2 (kji-kvadrat). Vi får en sum på 1,711. For å vite hvor stor summen må være for at vi skal forkaste nullhypotesen om ingen sammenheng, må vi imidlertid kjenne dens fordeling under nullhypotesen.
Kji-kvadratfordelingen Kji-kvadratfordelingen bygger direkte på normalfordelingen og forutsetter at normaltilnærmelsen kan benyttes. Vanligvis vil det være tilfelle hvis de forventede antall er større enn ti. Noen sier fem. Er ikke det tilfelle, kan du øke antallene ved å slå sammen kategorier.
For en 2 X 2-tabell er x2 kji-kvadratfordelt med v = 1 frihetsgrad. At det kun er 1 frihetsgrad, kommer av at når tallene på randen i en 2 X 2-tabeller er gitt, kan du bare fritt bestemme ett av de fire tallene inni tabellen. De andre tre vil da samtidig være gitt. For en r X Vtabell er x2 kji-kvadratfordelt med v = (r — 1) X (k — 1) frihetsgrader, r står for antall rader og k for antall kolonner. Gjennomsnittet til x2 er nog standardavviket VTp. Dessuten ser du av graf 11-2 at fordelingen nærmer seg normalfordelingen når antall frihetsgrader vokser. Kritisk verdi y/2a kan du finne med Excelfunksjonen CHIDIST (a; r) eller tabell 7 bak i boken.
KJI-KVADRA TFORDELINGEN ny=4
ny-8 ny- 16
Graf 11-2: Kji-kvadratfordelingen.
251
Hypoteseprøving Testmetode
kji-kvadrattesten for uavhengighet mellom to kategoriske variabler
Data
En r X Å'-tabell. Rute (z,j) inneholder antall observasjoner som samtidig har kategori i for variabel 1, og kategori j for variabel 2. Ho: De to variablene er uavhengige Hp De to variablene er på en aller annen måte avhengige a X2a i tabell 7 med v = (r - 1) X (Æ — 1) frihetsgrader
Nullhypotese Alternativ Signifikansnivå Kritisk verdi Testobservator Konklusjon
Forkast Ho hvis x1 > x\
Eksempel 1: Kjønn og røyking (2 X 2-tabell) I vårt eksempel fant vi y2 = 1,654 med v = 1 frihetsgrad. Ifølge tabell er x2a = 3,841 med a = 5 %. Vår x2-verdi er altså ikke stor nok og nullhypotesen beholdes. Da vi gjorde den tilsvarende analysen med normaltilnærmelsen for differanse mellom to andeler i avsnitt 11.2, fant vi z = 1,286 og siden vi hadde en tosidig test på 5 % -nivået, var za lik 1,96. Kvadratet av 1,286 og 1,96 er henholdsvis 1,654 og 3,841! Det betyr at ved 2 X 2-tabeller er kji-kvadrattesten og testen som bygger på normaltilnærmelsen for differanse mellom to andeler identiske! Hvis z er standard normalfordelt, er z2 kji-kvadratfordelt med 1 frihetsgrad. Siden vi kvadrerer når vi beregner kji-kvadratobservatoren, bruker vi bare høyrehalen. De 2,5 prosentene i hver hale under normalfordelingen blir samlet til en 5 % høyrehale under kji-kvadratfordelingen. Bruker du z med a = 0,025, skal du bruke y2 med a = 0,05. Det fine med kji-kvadrattesten er at den også kan brukes for større tabeller enn 2X2.
Eksempel 2: (r X k-tabell) I mange praktiske situasjoner er det ønskelig å kunne teste når vi har flere enn to kategorier. La oss igjen se på Bis arbeidsmarkedsundersøkelse. Respondentene ble blant annet spurt om hvilken spesialiseringsretning de hadde og hva som var hovedarbeidsområdet i den nye jobben. Et interessant spørsmål er om det er sam menheng mellom valg av spesialisering og arbeidsområde. For å tilfredsstille kjikvadrattestens bruk av normaltilnærmingen, må det være et rimelig antall forven tede svar i hver rute i tabellen. Vi har derfor gruppert retningene og områdene i kategorier som vist i tabell 11-5.
252
Tabell 11-5 Fra Bis arbeidsmarkedsundersøkelse. Spesialisering i studiet og hovedarbeidsområde i den første jobben etter siviløkonomstudiet. Spesialisering:
Organisasjon og ledelse
Finans og sam funnsøkonomi
Observasj oner(O) 7 0 1 20 3 3 1 10 3 6
Arbeidsområde
Finans og øk. analyse Markedsføringsfag Ledelse Regnskap og revisjon Salg
Regnskap, skatt og øk. styring
Markeds føringsfag
7 8 7 6 10
3 0 1 24 1
Tabellen tyder på at det faktisk er sammenheng mellom spesialisering og arbeids område. Se for eksempel hvordan omtrent alle med spesialisering i regnskap jobber på det området. Er disse forskjellene signifikante, eller kan det tenkes at dette ut valget tilfeldigvis fordelte seg noe ujevnt og at det i virkeligheten ikke er noen sammenheng? Det er det samme som å si at arbeidsområdet er uavhengig av spesia lisering. La dette være vår nullhypotese. Alternativet er at det ikke er uavhengighet, men hva slags avhengighet det er, vil kji-kvadrattesten ikke kunne si noe om. Hvis nullhypotesen er riktig, ville svarene fordele seg forholdsmessig på spesia lisering og arbeidsområde. Med forholdsmessig fordeling mener vi at antall svar i hver rute er proporsjonal med radsummen og kolonnesummen for den ruten. Det er akkurat det samme som vi gjorde med 2 X 2-tabeller. Se i arbeidsheftet for hen siktsmessige måter å utføre beregningene på. Du kommer for eksempel langt med et blankt regneark. Tabell 11-6 viser de svar vi forventet ifølge nullhypotesen. Vi ventet for eksempel at 17 X 30/121 = 4,2 av dem med spesialisering i markeds føringsfag skulle arbeide innenfor finans og økonomisk analyse hvis det ikke er noen sammenheng. I virkeligheten var det ingen! Tabell 11-6 Spesialisering i studiet og hovedarbeidsområde i den første jobben etter siviløkonomstudiet. Forventet svarfordeling i henhold til nullhypotesen om ingen sammenheng. Forventet (E)
0& L
F& SØ
MF
R, S, ØS
Sum
Finans og øk. analyse Markedsføringsfag Ledelse Regnskap og revisjon Salg
5,3 9,1 4,4 12,9 6,3
3,4 5,8 2,8 8,1 4,0
4,2 7,2 3,5 10,2 5,0
4,1 7,0 3,4 9,8 4,8
17 29 14 41 20
Sum
38
24
30
29
121
253
Vi må nå se på avvikene mellom hva vi har observert og hva vi forventet ifølge nullhypotesen. Det er vist i tabell 11-7. Tabell 11-7 Spesialisering i studiet og hovedarbeidsområde i den første jobben etter siviløkonomstudiet. Avviksanalyse og beregning av kjikvadratobservatoren. O&L
F& SØ
MF
R, S, ØS
Sum
Finans og øk. analyse Markedsføringsfag Ledelse Regnskap og revisjon Salg
0,52 0,13 1,54 3,67 2,20
3,90 3,93 0,02 0,43 0,24
4,21 22,82 0,06 8,26 0,22
0,28 6,95 1,65 20,44 3,00
8,92 33,83 3,28 32,81 5,66
Sum
8,07
8,51
,35,58
32,33
84,50
Avvik (0 - E)2/E
Summen av de relative avvikene er 84,50. Dette er verdien til kji-kvadratobservatoren. Vi ser at de to retningene markedsføring og regnskap bidrar spesielt mye til total avviket. Antall frihetsgrader i kji-kvadratfordelingen er 3 X 4 = 12. Ifølge tabellen er den kritiske verdien y2a = 21,06 for a = 5 %. Resultatet er altså signifikant langt utover enhver rimelig tvil: Den ujevne fordelingen er ikke tilfeldig. De tre tabellene ovenfor er hentet fra Statark som produserer dem automatisk som en del av kji-kvadratanalysen. Se arbeidsheftet. Beregning av yjf n^r v> 30 Kji-kvadrattabellen går til v = 30. Når rer større bruker vi normaltilnærmelsen for å finne ^2a. Vi vet at:
Formel 11-6:
z
W - v) s/ 2u
er tilnærmet standard normalfordelt. Følgelig kan den kritiske verdien beregnes slik:
Formel 11-7:
254
yf = v + z(pF2v
11.4 Sammendrag Dette kapitlet dreier seg om hvordan vi kan bruke normaltilnærmelsen i forbindelse med kategoriske variabler. Forutsetningen er at vi har mange observasjoner. Det er ikke lett å vite hvor god en tilnærmelse er. Vi vet at i en del tilfeller er de ganske dårlige. Hvis det er mulig, bør du derfor bruke eksakte metoder i stedet. I denne boken har vi særlig lagt vekt på Fishers eksakte test for 2 X 2-tabeller istedenfor normaltilnærmelsen til to andeler. En andel Har du gjort n eksperimenter med en dikotom variabel der a har vist seg vellykkete, og du lurer på hva populasjonsandelenp av vellykkete er (dette er det samme som sannsynligheten for at et tilfeldig eksperiment er vellykket), kan du lage konfidens intervall for p slik:
(formel 11-2) og teste nullhypotesen om at/? = pQ ved hjelp av den normalfordelte observatoren:
a ------ Po n Po(l ~/?o)
n
To andeler En 2 X 2-tabell fremkommer når du har observasjonsenheter med to dikotome kjennetegn, for eksempel kjønn og røykestatus. Det spiller ingen rolle hvordan du organiserer tabellen med hensyn til kolonner og rader, men vår konvensjon er å la det som mest naturlig fremtrer som stikkprøver danne kolonner (det er mer naturlig å ta stikkprøver av henholdsvis jenter og gutter og så spørre om de røyker, enn å ta stikkprøver av røykere og ikke-røykere og så spørre om kjønn). Uansett er det å teste om to populasjonsandeler er like, det samme som å teste om det er sammen heng mellom de to kjennetegnene. Dataene organiseres slik:
JA NEI
Stikkprøve 1
Stikkprøve 2
«i
«2
«i
«2
A B V
255
Du lager konfidensintervall for differansen mellom de to populasj onsandelene med formelen: ^2 / j _
a\ /i (2 j
(22
1
ni
\
W]
P\ - Pl =----------- “ ± U n2 1 «i
/?i
^2 \
H----- ------------ -— ------------------------«2
(formel 11-5)
og tester en nullhypotese om ingen forskjell på de to populasjonsandelene med den standard normalfordelte observatoren:
Dette er også en test på sammenheng mellom de to kjennetegnene. Hvis mulig bør du istedenfor bruke Fishers eksakte test. Kontingenstabeller Hvis du har observasjonsenheter med to kjennetegn der det ene faller i k forskjel lige kategorier (spesialiseringsretning) og det andre i r forskjellige kategorier (ar beidsområde), kan du organisere observasjonene i en r X Å-kontingenstabelL Du kan bruke kji-kvadrattesten til å teste om det er en eller annen form for sammen heng mellom kjennetegnene. Testen er ekvivalent med z-testen for en 2 X 2-tabell. Kall det observerte antall i en rute for O. Beregn de forventede antall i hver rute (E) under nullhypotesen om ingen sammenheng ved å multiplisere kolonnesum med radsum og dividere på det totale antall observasjoner. Test observatoren kjikvadrat er summen av de relative kvadratavvik: y2 —
X
(O ~ L E y
Dette er alltid en ensidig test. Nullhypotesen skal forkastes hvis x~ > x2aVær oppmerksom på at testen bygger på normaltilnærmelsen og derfor krever relativt mange observasjoner. Ifølge en vanlig tommelfingerregel bør de forven tede antall i hver rute være større enn 5, men denne regelen bør tas med en klype salt.
256
11.5 Oppgaver Øvelse Verdisyn (Svar etter oppgave 11-12) a)
Økonomistudenter blir fra tid til annen beskyldt for å ha et nokså pragmatisk verdisyn hvis de kan tjene penger på det. For å eventuelt prøve å avkrefte slike myter, ble det i 1996 arrangert en undersøkelse blant BI-studenter. Hensikten var å sammenligne holdningene til studentene med det som ifølge Norsk sam funnsvitenskapelige datatjeneste (NSD) gjelder for hele befolkningen. 1401 studenter ble tilfeldig trukket ut. Av dem ga 749 gyldige svar. Gjennomsnitts alderen til dem som svarte var 23,3 år. Et av spørsmålene var: «Hender det at du unngår å betale for kollektivtrafikk?» 534 svarte aldri eller nesten aldri. INSDs undersøkelse i hele befolkningen svarte 84,1 % slik. Er økonomistudentenes holdning til dette spørsmålet signifikant forskjellig på 1 %-nivået fra den som gjelder i hele befolkningen? Lag også et 99 % konfidensintervall for populasjonsandelen av økonomistudenter som vil svare aldri eller nesten aldri. Er det andre mulige forklaringer til det du finner, enn at økonomistudenter har slap pere moral enn befolkningen?
b) Norsk Monitor er en serie store intervju-undersøkelser gjennomført annen hvert år siden høsten 1986 av Markeds- og mediainstituttet. Den sjette fant sted høsten 1995. Respondentene ble blant annet spurt om å beholde feil veksel er en handling som kan godtas. Svarene fordelt på partitilhørighet er vist i tabell 11-8.
Tabell 11-8 Norsk Monitor, verdiholdning og partipreferanse. «Kan det godtas å beholde feil veksel?» RV
SV
A
V
KF
SP
H
FP
Sum
Kan godtas Kan ikke godtas
14 18
74 97
244 599
30 87
12 136
55 150
107 303
93 159
629 1549
Sum
32
171
843
117
148
205
410
252
2178
Er det signifikant forskjell på 1 %-nivået mellom Arbeiderpartiet og Høyre i dette spørsmålet? Lag også et 99 % konfidensintervall for differansen mellom populasjonsandelene. Er det signifikante forskjeller mellom partiene på 1 %nivået hvis du ser alle partiene under ett?
Oppgave 11-1 Skattesnyteri og studentmoral I Bis holdningsundersøkelse som ble omtalt i punkt a) i øvelsen ovenfor, ble det også spurt om respondenten ville snyte på skatten hvis mulig. 15,2 % av økonomistudentene som ble intervjuet svarte «alltid» eller «nesten alltid» mot 8,5 % i be folkningen som helhet. Er studentene signifikant forskjellig fra befolkningen på 1 % -nivået? Lag også et 99 % konfidensintervall for snyteandelen i studentpopulasjonen.
257
Oppgave 11-2 Jobbskulking ogpartimoral I Norsk Monitors holdningsundersøkelse som ble omtalt i punkt b) i øvelsen oven for ble det også spurt om det er godtakbart å skulke jobben. Svarene fordelte seg slik: RV
SV
A
V
KF
SP
H
FP
Sum
Kan godtas Kan ikke godtas
17 15
75 96
261 582
35 82
36 112
59 146
98 312
76 176
658 1520
Sum
32
171
843
117
148
205
410
252
2178
Skulke jobben
a)
Er det signifikant forskjell på Eløyre og Arbeiderpartiet på 1 %-nivået? Lag også et 99 % konfidensintervall for differansen mellom populasjonsandelene av dem som kan godta skulking.
b) Er det signifikante forskjell på partiene på 1 %-nivået når du ser alle under ett? c)
Er det signifikant forskjell på partiene når du ser bort fra SV og RV?
Oppgave 11-3 Kjønn og røyking Røyker kvinnelige siviløkonomstudenter mer enn mannlige? Besvar spørsmålet på 5 %-nivået ved hjelp av dataene i innledningen til avsnitt 8-5 og tabell 8-7. Denne oppgaven har også blitt gitt som oppgave 8-9. Oppgave 11-4 Behandlingsopplegg for narkomane Løs oppgave 8-10 ved hjelp av normaltilnærmelsen!
Oppgave 11-5 Dr. Salks høyrehendte mødre Dr. Salk observerte 255 høyrehendte mødre. Av dem holdt 212 barnet på venstre arm. Er dette forenlig med en hypotese om at det er tilfeldig hvilken arm hun holder ungen på? Test tosidig på 5 %-nivået og antyd også tilnærmet hvor stor signifikans sannsynligheten er! Lag også et 95 % konfidensintervall forp! Oppgave 11-6 Fusket Mendel? Gregor Mendels statistiske modell for hvordan gener bringer egenskaper fra en generasjon til den neste er en av de viktigste og mest elegante vitenskapelige teo rier. Et av Mendels opprinnelige eksperimenter dreide seg om selvbestøvning av hybride gule erteplanter. Teorien sa at avkommet med sannsynlighet 0,25 ville ha grønne erter og med sannsynlighet 0,75 gule. Mendel rapporterte disse empiriske resultater fra selvbestøvning av 8023 gule erteplanter:
Ertefarge til avkom Gule Grønne 258
Antall 6021 2002
Test Mendels teori på 5 %-nivået.
a)
b) Anta at Mendels teori er riktig. En fjerdedel av 8023 er 2005,75. Finn sannsyn ligheten for at han ved et slikt eksperiment med 8023 erteplanter skulle få mel lom 2002,0 og 2009,5 grønne erteplanter. Bruk normaltilnærmelsen.
Det har blitt hevdet at Mendel fusket med resultatene for å få dem til å passe med teorien. I et annet eksperiment hadde Mendel nemlig beregnet den teore tiske sannsynligheten galt og likevel fått empiriske resultater i overensstem melse med sin gale sannsynlighet. Vurder utsagnet «Mendels resultater er for gode til å være sanne» i lys av dine beregninger under b).
c)
Oppgave 11-7 Hjerteinfarkt og sunne vaner En av de vitenskapelige hypoteser som skulle testes i Osloundersøkelsen, var hvor vidt røykevaneomlegging og kostomlegging kunne redusere risikoen for å få frem tidig hjertesykdom. Av de i alt 604 i behandlingsgruppen fikk 19 hjerteinfarkt i løpet av en oppfølgingsperiode på syv år. I samme periode fikk 36 i kontrollgrup pen på i alt 628 hjerteinfarkt. Er det signifikant sammenheng på 5 %-nivået mellom hvilken gruppe de tilhører og sannsynligheten for hjerteinfarkt? Beregn signifikanssannsynligheten. Lag også et tosidig 9S % konfidensintervall for differansen mellom sannsynligheten for å få hjerteinfarkt i behandlingspopulasjonen og i kontrollpopulasjonen. Hva er din konklusjon angående den vitenskapelige hypotesen? Gi en fullsten dig formulering med egne ord. Oppgave 11-8 Hjelper det å stønne når man server i tennis? Dr. Dennis Lendrum ved Nottingham University i England observerte hvordan John McEnroe vant Wimbledontumeringen i 1983. Spesielt var han interessert i å finne ut om de kraftige stønnene som enkelte tennisspillere tidvis presterer når de server er til hjelp. Her er observasjonene (Ess er server som umiddelbart gir poeng): Stønn
Stille
Ess Feil Annet
61 32 144
35 8 53
Sum
237
96
a)
Er det signifikant forskjell på feilsannsynligheten når han stønner og når han er stille'? Utfør testen på 5 %-nivået og beregn signifikanssannsynligheten. Bruk normaltilnærmelsen.
b) Hjelper stønn på sannsynligheten for ess? Besvar spørsmålet på 5 %-nivået. c)
Spiller det i det hele tatt noen rolle hvorvidt han stønner eller ikke? Analysér på 1 %-nivået! 259
Oppgave 11-9 Er klasser forskjellige? Studenter er med rette opptatt av eksamen. Er det helt og holdent opp til studenten selv hvor godt hun gjør det, eller spiller ytre forhold som hvor god læreren er og hvor fruktbar klasseånden er en viss rolle? Et år ble det undervist i statistikk i 7 parallelle klasser i Oslo. Strykprosentene var på grunn av tilfeldig variasjon selvfølgelig ikke like. Var ulikhetene for store til at det kunne være forklaringen, eller må det være andre årsaker? Det skal du avgjøre ved hjelp av en hensiktsmessig test. Tabellen gir antall (ikke prosenter). Klasse
A
B
C
D
E
F
G
Stryk Bestått
15 49
28 48
21 44
23 52
43 72
12 43
26 37
Oppgave 11-10 Alkohol og trafikkulykker Av 2 100 bilførere i USA som ble drept i trafikkulykker, ble 700 funnet å være uten skyld i ulykken. Av de 700 hadde 140 alkohol i blodet. Av de 1400 skyldige hadde 700 alkohol i blodet. Er det signifikant sammenheng mellom alkohol og skyld på 1 %-nivået?
Oppgave 11-11 Downs syndrom og morens alder Har mødre på 35 år eller over lettere for å få mongoloide barn enn de som er yngre? Definer: p} = P (mongoloid barn moren under 35) p^—P (mongoloid barn moren 35 eller over)
Test nullhypotesen på 1 %-nivået. Her er dataene fra alle fødsler i staten Michigan fra 1950 til 1964, som vi vil betrakte som en tilfeldig stikkprøve fra en større popula sjon.
Mongoloide Normale Sum Andel mongoloide
260
Moren 3= 35 år
Moren < 35 år
Sum
1 114 298 172 299 286 0,003722
1 312 2 526 371 2 527 683 0,000519
2 426 2 824 543 2 826 969 0,000858
Oppgave 11-12 Holdning til piggdekk Statens vegvesen holder seg kontinuerlig informert om folks holdning til kjøp av vinterdekk med og uten pigger, blant annet ved å spørre om hva de vil kjøpe neste gang. Meningsmålingsinstituttet Opinion har intervjuet ca. 600 mennesker hvert år fra 1992 til 1996. Svarene fordelte seg ifølge Aftenposten slik: Vil kjøpe
1992
1993
1994
1995
1996
Piggdekk Piggfritt Kjøper ikke bildekk Ikke sikker
21 55 1 23
31 % 36% 1 % 32 %
43 % 32% 1 % 24%
41 % 34% 0% 26%
38 % 47% 1 % 14%
% % % %
Har det funnet sted holdningsendringer som er signifikante på 5 %-nivået? Svar på øvelse Verdisyn a)
Et 99 % konfidensintervall for populasjonsandelen som svarer «aldri» eller «nesten aldri» finner vi med formel 11-2:
a P = ~ n
534
0,713 ±0,043
749 Hypoteseprøving: Testmetode: Data: Nullhypotese: Alternativ: Signifikansnivå: Kritisk verdi:
Testobservator:
z-testen for én andel n = 749, a = 534 p = 0,841 p A 0,5 a= 1 % za = 2,58 ifølge tabell 5 b 534 --------- 0,841 749 z— ==^=- = -9,58 0,841 X (1 - 0,841)
749 Konklusjon:
Nullhypotesen forkastes siden | z | > za Dette er meget sterk signifikans!
261
Det er åpenbart at respondentene skiller seg kraftig ut fra befolkningen som helhet i dette spørsmålet. Det behøver imidlertid ikke bety at det er økonomistudenter det er noe spesielt med. Siden vi vet at gjennomsnittsalderen til res pondentene bare er 23,3 år, kan forklaringen like gjeme være at de er yngre enn befolkningen som helhet. Statark har et eget vindu som tar seg av alle beregninger i forbindelse med normaltilnærmelsen for én andel. Vinduet er vist i skjerm 11-1.
Statark 11-6, Wenstøp: Kapittel 11
Konfidensintervall og tester for p DATA i Data inn j
"
a
74Q /
co/i 004
k
a/n
J 99 % - KONFIDENSINTERVALL
±
zaV(a/n)(1-a/n)/n
Nivå j
nedre grense
øvre grense
za
p=
0,7130
±
0,0426
0,6704
0,7555
2,5758
H.grense p=
0,7130
+
0,0385
0,0000
0,7514
2,3263
V.grense p=
0,7130
-
0,0385
0,6745
1,0000
2,3263
Tosidig
1 % -nivå; HYPOTESEPRØVING ''
Ho j
Ho: po = ,841 H1:p*po H1:ppo
z=(a/n-po)/[Vpo(1-po)/n]=
Izl z z
> < ta
Forkast Ho hvis t < -ta
Forkast Ho hvis t > +ta
289
En helt spesiell nullhypotese er: Ho: (3 = 0. Hvis denne hypotesen er riktig, ser modellen y = a + (3x + e slik ut: y= a+ e Hva innebærer dette? Det betyr aty er uavhengig av x. Samme hva x er, vil y-ene ligge spredt rundt en horisontal linje y = a. Nullhypotesen Ho: f3 = 0 er altså en hypotese om ingen samvariasjon mellom x ogy. Dette er derfor en særdeles viktig og hyppig brukt test. Testobservatoren blir i dette tilfellet særdeles enkel:
Test på lineær sammenheng: Testobservatoren under nullhypotesen om ingen lineær samvariasjon mel
lom y og x:H0:/?=/30
Formel 12-21:
t = b!sb
Eksempel 1: Videregående skoler i Oslo: r-testen om ingen lineær sammenheng mel Testmetode lom x og y Datafil Skoler: 16 observasjonspar (x, y) av po Data engsum ved inntak og resultat på skolen Nullhypotese Ho: (3 = 0 Hi:/3>0 Alternativ o=5% Signifikansnivå Ifølge tabell 6b med v = n — 2 = 14, er ta = 1,76 Kritisk verdi t = b/sb = 5,15/0,927 = 5,55 Testobservator Ho forkastes fordi t > +ta. Resultatet er meget Konklusjon signifikant, og selvfølgelig ikke spesielt over raskende. Det er en klar sammenheng mellom opptak og resultat. Eksempel 2: f som mål for finansiell risiko Datafilen Mnd avk inneholder i tillegg til historiske avkastninger for Norsk Hydro og Hafslund Nycomed også avkastninger for Oslo Børs totalindeks. En forsiktig aksje-investor vil prøve å diversifisere så mye som mulig, og prøve å finne aksjer som ikke samvarierer for mye med børsen. Hvis et selskaps avkastninger samvarierer mye med børsen, bidrar de lite til å fjeme totalusikkerhet. Finansanalyti kere har derfor laget et mål for usikkerhet med utgangspunkt i hvordan selskapets avkastning samvarierer med børsens. Se på graf 12-14. Det er tydelig at avkast ningene samvarierer, og at Hydroaksjene har markert større utslag enn Børsen.
290
Norsk Hydros beta
Oslo Børs totalindeks, månedlig avkastning i prosent
Graf 12-14: Datafil Mnd.avk. Samvariasjon mellom avkastningen på Norsk Hydros aksjer og avkastningen på Oslo Børs indeks gir et mål for risiko.
Lineær regresjonsanalyse med x = børsavkastning og v = Hydros avkastning gir a = 0,00639, b = 1,078 og sb = 0,075. Hydro har altså en såkalt betarisiko som er noe større enn 1,0. Det kan være interessant å teste om denne verdien er signifikant forskjellig fra 1,0. Da må vi beregne verdien av testobservatoren:
b~ . t = ------ — = 0,078 /0,075 = 1,05 Dette er ikke en signifikant verdi på noe rimelig nivå, og en nullhypotese om at Hydros beta er 1,0 må derfor beholdes. Ser vi istedenfor på Hafslund Nycomed, vil vi finne en beta lik 0,93 som altså er mindre enn 1,0. Målt med beta har derfor Hafslund Nycomed mindre risiko enn Hydro, til tross for at vi tidligere har sett at Hafslunds avkastninger har større stan dardavvik enn Hydros. Forklaringen er at Hafslund av og til har hatt avkastninger lite relatert til Børsens tendens, og derfor også ville bidra til å minke risikoen i en portefølje.
291
12.5 Regresjonsanalyse med data fra virkeligheten Datafil Kreft inneholder fra et historisk synspunkt unike data fra 1966 om sammen hengen mellom røyking og lungekreft. Se på graf 12-15.
Sigarettrøyking og lungekreft 28 - -
Dødsfall pr. 100 000 innbygger
26 24 22 -
20 18 -
16 -
14 T 12 10 I1200
2200
3200
4200
Sigaretter pr. person
Graf 12-15: Sammenhengen mellom årlig sigarettsalg og dødsfall på grunn av lungekreft i amerikanske stater i 1966
Fører røyking til økt sannsynlighet for lungekreft? Slik problemstillingen er for mulert, antas røyking (x) å føre til lungekreft (y), og ikke omvendt. Da er det natur lig å benytte regresjonsanalyse. En lineær regresjonsmodell som tar utgangspunkt i datafilen Kreft vil se slik ut:
Uavhengig variabel: Avhengig variabel: Regresj onsmodel 1: Data:
x = årlig sigarettsalg pr. innbygger (tusen sigaretter) y = antall dødsfall pr. 100 000 innb, pga lungekreft y = a + [3x + e e ~ A (0, cre2) Datafilen Kreft med 43 (x, y)-par
Det er nå en smal sak å ta frem det analyseverktøy vi måtte ha og beregne a, b, se og sb og hva vi ellers måtte ønske. Da kan vi teste Ho: /3 — 0, eller lage konfidensinter vall for /3. Vi kan også predikere hva endringen i antall dødsfall vil bli hvis sigarettsalget endres, osv. Skjerm 14.6 viser vindu 4 med kreftdataene analysert.
292
Tabell 12-7 Lineær regresjonsanalyse av datafil Kreft ved hjelp av Statark Data
Kreft
gj-sn.
std.avv.
Uavhengig variabel x Avhengig variabel y Ant.observasjonspar n =
Sigaretter Dødsfall 43
2479 19,76
557,53 4,00
2a = Forkast Ho
5%
Beregninger
Stigningsforhold: b = sfisj = Skjæring med j-akse: a = y — bx = Kvadratavvik = X (e2) = Stand.avviket til e: se = f X (e2/(« — 2)) =
2,899
Stand.avviket til b: sb = sj^l(x — x f =
0,001
0,005 7,360 344,517
Hypoteseprøving
H(): 3 = 0 t = (b- py/sb = Konfidensintervall for /3: /3 = b ± ta*sb —
0 6,237 0,005
0,0016
Konfidens- og prediksjonsintervall
xo = Konfidensintervall for linjen i x0: Prediksjonsintervall for v i x0: Konfidensnivå =
5000 32,38 32,38 95 %
4,18 7,19 2,02
Det er en sterkt signifikant sammenheng mellom x ogy (t = 6,2). I en stat med et sigarettsalg pr. innbygger som er tusen sigaretter større enn i en annen stat, venter vi 5 dødsfall merpr. 100 000 innbygger pr. år på grunn av lungekreft (b = 0,005). I en stat med sigarettsalg på 5000, ventes med 95 % sannsynlighet mellom 25 og 39 dødsfall pr. år på grunn av lungekreft, osv. Men vent! Hvis alt dette skal bli riktig, må vi forutsette at det virkelig ligger en lineær prosess bak observasjonene våre. Alt vi har gjort hittil i kapitlet, har jo byg get på at vi visste at dataene våre faktisk skrev seg fra en lineær prosess med normal fordelte avvik fra en rett linje i x-y-planet. Her er vi ved et komplisert vitenskapsteoretisk punkt. Vi kan selvfølgelig utelukke, både i dette tilfellet og i de fleste problemstillinger innen det økonomisk/administrative området, at vi faktisk har å gjøre med naturlige lineære prosesser. De hører hjemme i en idealverden. Det betyr likevel ikke at regresjonsanalyse er unyttig. Mange virkelige fenomener er tilnær met lineære hvis vi holder oss innenfor et begrenset variasjonsområde for x ogy. Du må derfor alltid passe på å undersøke om forutsetningen for en lineær modell kan antas å være tilstede i rimelig grad.
293
Modellkontroll Den enkleste og mest effektive form for modellkontroll er å lage en graf av dataene og inspisere dem visuelt. Se etter følgende: Viser dataene påfallende mønstre som er mer innviklet enn en rett linje? I så fall bør du ikke bruke lineær regresjonsanalyse. Det kan imidlertid tenkes at data ene kan transformeres slik at en lineær regresjonsmodell likevel passer. Det skal vi komme tilbake til. 2. Er avvikene fra en tenkt rett linje noenlunde like store, slik at se ser ut til å være uavhengig av x? I motsatt fall bør du ikke bruke lineær regresjonsanalyse. 3. Er avvikene uavhengige av hverandre? Hvis serier med punkter ligger snart på den ene siden, snart på den andre, har vi avhengighet. Da vil konfidens- og prediksjonsintervall kunne gi dårlige resultater.
1.
Det spiller ingen rolle om v ikke ser ut til å stige eller synke med x. Vi kan godt ha en lineær regresjonsmodell med = 0. Den er ikke særlig spennende, men er like fullt et spesialtilfelle av den generelle modellen. Det finnes også avanserte statistiske metoder for modellkontroll, men vi vil ikke ta dem opp i denne boken. Visuell inspeksjon er i alle fall det første og viktigste skritt, men det krever øvelse å få blikket tilstrekkelig skjerpet. La oss se på noen eksempler. Røyking og lungekreft (Datafil Kreft) Plottet av rådataene er vist i graf 12-15. Med regresjonsbriller ser det nokså tilfor latelig ut, men det kan se ut som om økningen i y avtar når vi kommer over 3000 sigaretter pr. år. Vi bør derfor være forsiktige med for eksempel å lage prediksjonstall i dette området. De kan lett bli for høye.
«Global» oppvarming (datafil Klima) Utviklingen av gjennomsnittstemperaturen i Norge fra 1872 til 1992 er vist i graf 12-16. Det kan se ut til å være en underliggende oppadgående trend som godt kan være lineær. Det er også tydelige fluktuasjoner rundt en slik tenkt linje, for eksem pel i 1930-årene da det var en varm periode. Dermed er kravet til uavhengighet mellom feilleddene i regresjonsmodellen ikke oppfylt, og kortsiktige prognoser kan lett bli gale. Opplagsendring og pressestøtte (datafil Presse) Plottet av rådataene er vist i graf 12-5. Her er for få punkter til å positivt kunne si at en lineær regresjonsmodell ser brukbar ut. På den annen side er det heller ikke noe som taler i mot det. At punktene ligger svært spredt, har ingen ting med saken å gjøre. Det betyr bare at se er stor.
294
Lufttemperatur, årlig gjennomsnitt over 10 steder i Norge
År
Graf 12-16: Datafil Klima: Utviklingen av gjennomsnittstemperaturen i Norge
Konsumprisindeksens utvikling (datafil Pris-ind) Graf 12-17 viser utviklingen av konsumprisindeksen i Norge fra 1940 til 1996. For løpet trem til ca 1985 viser et ganske klart eksponensielt forløp. Deretter har vi en periode med svakere vekst, men i et lengre perspektiv vil av teoretiske grunner trolig mønstret se eksponensielt ut igjen. Eksponensielt voksende kurver er nokså vanlige i vårt fagområde. Setter du et beløp i banken til fast rente, vil innestående beløp stige eksponensielt på grunn av rentesrente effekten. Enhver prosess der stigningen er proporsjonal med nivået, vil ha et eksponensielt forløp. Den mest kjente er prisnivået. Med en konstant infla sjonsrate stiger prisene eksponensielt fordi inflasjonen alltid virker på dagens pris nivå. Det er med andre ord spesiell grunn til å være på utkikk etter eksponensielle prosesser når noe ser ut til å stige (eller synke) med en fart som tilsvarer nivået. Det gjøres først med en visuell modellkontroll. Det er selvsagt meningsløst å anvende lineær regresjonsanalyse på indeksen i grat 12-17. Erstatt y-tallene med In (y) og utfør regresjonsanalyse på disse dataene istedenfor! Logaritmefunksjonen er den motsatte (inverse) av eksponensialfunksjonen. Hvis v stiger eksponensielt, vil In (y) stige lineært. Graf 12-17 viser In (y) på en egen y-akse. Dataene ser nå ut til å ligge langs en rett linje, men avvikene fra linjen er åpenbart ikke uavhengige! Konfidensintervall fory som bygger på lineær regresjonsanalyse kan derfor bli misvisende selv om en rett linje i seg selv er en god modell.
295
Konsumprisindeksens utvikling i Norge
År!9-
Graf 12-17: Datafil Pris-ind. Utviklingen av prisindeksen i Norge (Kilde: Statistisk Sentralbyrå)
Norsk Hydros beta (Datafil Mnd-avk) Graf 12-14 viser sammenhengen mellom Hydros månedlige avkastninger og bør sens. Her ser den lineære modellen ved første øyekast ut til å passe godt. Ser du nærmere etter, kan det kanskje være en tendens til at avvikene fra regresjonslinjen blir større ved større avkastninger. Den lineære regresjonsmodell forutsetter jo at se er konstant. Dermed vil lineær regresjonsanalyse for eksempel kunne gi for trange prediksjonsintervall for Hydros avkastning når Børsens avkastning er høy.
Videregående skolers resultat som funksjon av opptak (datafil Skoler) Graf 12-6 viser hvordan denne sammenhengen var for de videregående skoler i Oslo i 1996. Det kan se ut til at resultatet vokser eksponensielt med opptaket slik som for prisindeksen. Vi skal imidlertid være forsiktig med å overtilpasse modellen vår. Med så få data kan det vi synes vi ser lett bero på tilfeldigheter. Hvis vi derimot kan få støtte i teoretiske betraktninger slik vi gjorde for prisindeksen, er det en annen sak. Da har vi et argument som ligger utenfor dataene, og risikoen for å lage en modell som blir gal på grunn av tilfeldigheter ved dataene, blir mindre. Dette kalles overtilpasning. La oss prøve et resonnement: v er gjennomsnittspoengene elevene hadde ved opptak. Dette er rimeligvis gjennomsnittet i en normalfordelt populasjon. Hvis du skyver en normalfordeling bortover .v-aksen (dvs. øker gjen nomsnittet), vil arealet som ligger til høyre for en gitt grense (andelen som kommer
296
til å få 4 eller bedre) øke tilnærmet eksponensielt innenfor et intervall på x-linjen. Dette kan være forklaringen på det vi ser, og i så fall er det relevant å foreta en logaritmisk transformasjon av y-dataene før vi foretar regresjonsanalyse. Graf 12-18 viser dataene etter en slik transformasjon. Vi ser at sammenhengen nå er mye mer lineær. En annen sak er det at denne transformasjonen ikke endrer vesentlig på de kommentarer vi allerede har kommet med når det gjelder de enkelte skolene, men forskjellen på Persbråten og Lambertseter er i hvert fall mye mindre spektaku lær! Videregående skolers resultater som funksjon av poeng ved opptak 4,6
4,4
0)
? 3,8 E
S 3,6 o o.
3,2
3 35
36
37
38
39
40
41
42
43
44
Gjennomsnittspoeng fra ungdomsskolen
Graf 12-18: Datafil skoler. Sammenhengen mellom logaritmen til skolens resultat og poeng ved opptak er tilnærmet lineær.
Årsakssammenhenger og statistisk samvariasjon I lungekrefteksemplet lagde vi en regresjonsmodell der vi forklarte v = antall døds fall pr. 100 000 innbygger på grunn av lungekreft i en amerikansk stat, ved hjelp av v = antall solgte sigaretter pr. innbygger i staten. Vi fant at den statistiske samvaria sjonen var signitikant (t — 6). Hva betyr dette? Har vi funnet at sigarettrøking øker sannsynligheten for lungekreft? Her må vi også være forsiktige. Det er nemlig flere årsakstormer som kan føre til statistisk samvariasjon. Har vi statistisk signifikant samvariasjon mellom x og v, kan dette komme av at: 1 2
x påvirker y: y påvirker x:
«Røyking øker sannsynligheten for lungekreft» «Folk som er disponert for lungekreft får trang til å røyke» 297
3
4
«I stater med store byer får folk lungekreft av forurenset luft og det oppj agete storbylivet gir trang til å røyke» Gjensidig påvirkning: En kombinasjon av 1 og 2
En tredje variabel påvirker x og y:
Siden signifikant statistisk samvariasjon ikke kan forklares med tilfeldigheter, må det finnes en annen forklaring. Dataene våre gjør det imidlertid ikke mulig å skille mellom defire forklaringsformene ovenfor. Det har ingen som helst betydning at vi valgte å kalle røyking for uavhengig variabel og kreft for avhengig variabel. Slike valg forandrer ikke virkeligheten. For å kunne ta stilling til hvilken forklaring som er mest rimelig, må vi ha holdepunkter utenfor dataene, for eksempel fra medisin. Sannsynligvis er det bedre medisinske holdepunkter for 1. enn 2. forklaring. For å eventuelt å kunne avlive 3. forklaring, må vi i tilleggdia informasjon om urbaniseringsgrad i de ulike statene. Vi måtte så utføre en såkalt multippel regresjonsana lyse med to forklaringsvariabler. Da ville vi kunne holde urbaniseringsgraden kon stant, mens vi undersøker om det stadig er signifikant sammenheng mellom x og v. Det ville være en naturlig videreføring av denne boken. Vær derfor påpasselig med å skille klart mellom statistisk signifikans og årsaksforklaring. Statistisk signifikans kan påvises med enkle statistiske metoder. År saksforklaringer er mye vanskeligere og krever bakgrunnskjennskap til fenomenet som studeres. o
12.6 Sammendrag I dette kapitlet gjør vi parvise observasjoner av to variabler x og y. Stikkprøvene består av n x, y-par som danner to datasett, ett med x-er og ett med y-er som er forbundet parvis. Kapitlet dreier seg om lineær samvariasjon mellom de to variablene. Kjernen i våre beskrivelser av lineær samvariasjon er kryssproduktsummen. Kapitlet er rikt på formler, og vi vil benytte dette sammendraget blant annet til en systematisk oppstilling av dem. Det finnes mange varianter av disse formlene. Vi har i kapitlet konsentrert oss om de mest direkte og intuitive utgavene av formlene. Beregninger vil i praksis nesten alltid foregå med programvare, men for å unngå fremmedgjø ring er det viktig å forstå formlene. De er så elegante og intuitive at selv personer som vanligvis ikke har noe godt forhold til matematikk, kan forstå innholdet av dem hvis de gir seg en sjanse! Det er nyttig. Vi tar hele tiden et praktisk utgangspunkt. Vi starter med empiriske data, og det er dem vi regner på. Derfor gjelder de sentrale formlene stikkprøver og ikke popu lasjoner.
298
Formler Først beregner vi gjennomsnitt'.
X = ------n
y = ------n
Deretter variansen og standardavvik:
Kovariansen måler grad av lineær samvariasjon. Den er positiv når x og v stiger og synker i takt, og negativ hvis den ene stiger når den andre synker.
Den lineære korrelasjonskoeffisienten beregnes på grunnlag av kovariansen. Den er uten benevning, og har alltid verdier mellom — 1 og +1. Den er lik +1 ved perfekt positiv lineær korrelasjon. Da ligger dataene på en rett linje fra nedre venstre hjørne til øvre venstre hjørne. Den er ulik — 1 hvis linjen går fra øvre venstre til nedre høyre hjørne. Den er nær null når det er liten lineær korrelasjon.
Vv
r ~ ——
Ved studium av porteføljerisiko er variansen til en veiet sum av to tilfeldige vari abler interessant. Hvis a og b er faste tall (konstanter) og vi hver gang vi observerer et x, y-par beregner en ny variabel:
z = ax + by
299
der a og b er faste tall (konstanter) er variansen til z:
sz2 = a2s2 + b2ys2 + Zabs„, -^y a
Den lineære regresjonsmodell postulerer en teoretisk populasjon av x, y-par som ligger langs en rett linje bortsett fra tilfeldige, normalfordelte vertikale avvik e:
y = a + /3x + e
e ~ N (0, cfy
Vi bruker dataene våre til å estimere parametrene i regresjonsmodellen ved hjelp av følgende formler:
b = —ysx
a = y — bx '
Z (f ~f)2 “ b2 £ (x - x)2 s2 = ------------------------------------n—Z
Formelapparatet så langt er direkte utledet fra prinsippet om minste kvadraters metode, og dreier seg ikke om annet enn å legge en rett linje best mulig til rette oppe i en punktsverm. Når vi skal gå videre og foreta statistisk inferens, må vi blant annet kjenne sannsynlighetsfordelingen til b, dvs vite hvor pålitelig b er som estimat for /3:
t er studentfordelt med v = n — Z frihetsgrader
Hypoteseprøving Den vanligste bruk av hypoteseprøving er å teste om det er en signifikant lineær samvariasjon mellom x og y. Da er nullhypotesen:
Ho:
300
= 0
t = b/sb beregnes, og nullhypotesen forkastes etter vanlige regler hvis t avviker mye fra null. Det går også an å teste om /3 er lik en hvilken som helst verdi /30. Da ser testobservatoren slik ut:
t = (b ~ Po)/
Hvis du spesielt vil teste om det i det hele tatt er lineær samvariasjon, er dette samtidig en test på om korrelasjonskoeffisienten er null. I noen tilfeller har vi kun beregnet korrelasjonskoeffisienten, og ønsker å teste om den er signifikant for skjellig fra null. Da er det greit å vite at følgende formel alltid gjelder:
Formel 12-22:
t — — = 1 - r2
n—2
Prediksjon Vi kan lageprediksjonsintervall for en ny observasjon av y når vi vet at x har ver dien x0. Intervallet vil med sannsynlighet 1 — 2a romme y0.
Fo = a + bxo± tase< 1 + — +
Z (* ~ *)2
Metodiske prinsipper Regresjons- og korrelasjonsanalyse forutsetter at det faktisk finnes en underlig gende lineær prosess som har laget dataene. Det kan bare være tilnærmelsesvis riktig når vi har med virkelige data fra det økonomisk/administrative fagområdet å gjøre. For å ikke komme helt på viddene, må du derfor utføre modellkontroll ved å studere de observerte x, y-punktene grafisk. Du må sjekke at utviklingen er noen lunde lineær, at avvikene er noenlunde normalfordelte og uavhengige av hverand re, og at avvikene ikke vokser eller avtar i størrelse. I denne kontrollen kan du prinsipielt aldri fastslå at det virkelig ligger en lineær prosess bak. Poenget er å godtgjøre at en slik antagelse ikke åpenbart er gal.
301
Hvis samvariasjonen mellomx ogy åpenbart er krum istedenfor lineær, kan dette rettes på ved passende transformasjoner, men det er en stor fordel å ha en teoretisk begrunnelse for en slik operasjon. I praksis utføres korrelasjons- og regresjonsanalyse ved hjelp av programvare. Her henvises du til arbeidsheftet.
12.7 Oppgaver Øvelse: Karakterforventning og resultat (Svar etter oppgave 12-11) Nedenfor ser du et utdrag fra datafil Postskole som viser hvilken karakter (x) gut tene i klassen trodde de kom til å få i statistikk da undervisningen startet, og hvilken karakter de faktisk fikk ved kursets slutt (y). HensikteriTned denne øvelsen er at du skal få grasrotinnsikt ved å gjøre de nødvendige beregningen for «hånd», det vil si med for eksempel kalkulator eller regneark, men uten å bruke spesialisert program vare.
a)
Beregn korrelasjonskoeffisienten.
b) Estimer regresjonslinjen. c)
Er det en signifikant sammenheng mellom y og x på 5 %-nivået?
d) Hvilken karakter er du 95 % sikker på at en student vil få som tror han kommer til å få 2,5 når kurset starter? - Hva venter du at han får han hvis han tror han kommer til å få 4,0?
Tabell 12-8 Utdragfra datafil Postskol. Karakterforventning (x) og faktisk karakter (y ) hos gutter X
y X
y
3,00 2,50
3,50 3,00
3,00 3,00
2,75 2,75
3,25 1,75
2,75 4,00
3,00 3,00
2,00 2,50
3,00 3,00
2,75 1,75
3,50 2,75
2,75 2,00
2,50 2,25
2,50 3,00
2,00 1,25
2,50 4,00
2,25 2,25
1,25 1,75
Oppgave 12-1 Videregående skoler i Oslo Et gjennomgående eksempel i dette kapitlet har vært å analysere sammenhengen mellom gjennomsnittspoengsum (x) ved opptak fra ungdomsskolen og andel som oppnår 4 eller bedre ved skolen (y). Dataene er i tabell 12-3 (datafil Skoler). Du skal blant annet sjekke at beregningene våre er korrekte. a)
Beregn gjennomsnitt og standardavvik til x ogy, og deres kovarians.
b) Beregn a, b og
c)
302
i den lineære regresjonsmodell.
Lag et 99 % konfidensintervall for b
d) Er det en signifikant lineær sammenheng på 1 %-nivået?
e)
Lag et 99 % prediksjonsintervall for resultatet til en skole med gjennomsnittsinntak på 40 poeng
f)
Gjenta beregningene fra a) til e) med In (y) istedenfor y. Transformer konfi densintervallet under e) tilbake til den opprinnelige målestokken fory.
Oppgave 12-2 Begynnerlønn og alder for kvinnelige diplomøkonomer Det er en vanlig oppfatning at lønn avhenger av alder. Stemmer det for nyutdannete kvinnelig diplomøkonomer? Bis arbeidsmarkedsundersøkelse 1966 har gjort 117 observasjoner av lønn (y) og alder (x) (Datafil KvDLonn).
a)
Fremstill dataene grafisk. Ser en lineær regresjonsmodell ut til å være anvend bar?
b) Beregn korrelasjonskoeffisienten. Hva er dine kommentarer? c) Hvor mye stiger begynnerlønnen i gjennomsnitt pr. års alder?
d) Er det en signifikant lineær sammenheng mellom lønn og alder på 5 %-nivået? Oppgave 12-3 Optimalporteføljesammensetning Investorer er alltid på utkikk etter aksjer som er negativt korrelert slik at de kan redusere usikkerheten i porteføljen. Et slikt eksempel er den Norske Amerika-Linje (x) og Bjølsen Valsemølle (y) som i en periode har hatt negativ kovarians i av kastningene. Vi har estimert varians og kovarians basert på historiske, ukentlige avkastninger:
x = 0,45 %
= 44,97 %2
sx = 6,71 %
y = 1,83 %
s2y = 23,59 %2 sxy = -3,59%
sy = 4,86%
Tenk deg at du skal investere 20 000 kroner og ønsker minst mulig usikkerhet i avkastningen om en uke. Usikkerhet uttrykker du ved standardavviket. Hvordan vil du da fordele de 20 000 kronene på de to verdipapirene? Det er tre måter å løse oppgaven på. Matematisk kan du løse den ved å derivere uttrykket for standardavviket med hensyn på for eksempel andelen du setter i NAL. Så setter du den deriverte lik null og finner den optimale andel. En mer folkelig fremgangsmåte er å prøve seg frem med ulike fordelinger av de 20 000 og hver gang beregne standardavviket til porteføljen. Mer elegant er det å benytte regneark der du lager en tabell med ulike fordelinger, og kopierer formelen for standard avviket i en kolonne parallelt med tabellen. Da får du en tabell over standardawikene, og kan umiddelbart se hvilken fordeling som gir den minste. 303
Oppgave 12-4 Vekstfond og utbyttefond I USA har man lenge hatt investeringsfond med ulike profiler, slik at det finnes solide data til å analysere ulikheter mellom forskjellige fondstyper. Vekstfond kon sentrerer seg om aksjer som kan gi stor kursgevinst. Utbyttefond prøver å sikre eierne et stort årlig utbytte ved å kjøpe porteføljer med obligasjoner og aksjer som gir høy årlig dividende (utbytte). En aksjes prosentvise avkastning er summen av årets dividende og årets kursgevinst dividert med kursen ved årets begynnelse. Ved utbytteaksjer dominerer dividenden. Ved vekstaksjer dominerer kursstigningen fordi overskuddet gjeme pløyes tilbake til selskapet. Det ser i praksis ut til at vek staksjer er mer risikofylte enn utbytteaksjer som gjeme har en lavere, men mer stabil avkastning. La oss analysere om dette stemmer ved hjelp av en konkret stikk prøve fra det amerikanske marked.
x = gjennomsnittlig avkastning for 20 utbyttefond y = gjennomsnittlig avkastning for 20 vekstfond 19-
71
72
73
74
75
76
77
78
79
80
x y
14,0 33,6
8,83 10,0
-11,4 -32,0
-13,7 -30,1
26,4 47,1
26,5 28,7
1,9 9,25
2,0 16,4
8,9 44,4
10,7 44,0
a) Lag et plott av dataene i et x-y-diagram. Ser en lineær modell ut til å passe?
b) Beregn a og b i den lineære regresjonsmodellen. Gi en fortolkning av a og /3. Tegn den estimerte linje inn i diagrammet. c) Test Ho: (3 = 0 mot Hp /3 > 0 på 5 %-nivået. Tolk resultatet.
d) Test Ho: (3 = 0 mot Hp /3 > 1 på 5 %-nivået. Tolk resultatet. Oppgave 12-5 Mobiltelefoner Nedenfor finner du data for antall mobiltelefon- og søkerabonnement i Norge fra 1980 til 1995 (1000 eks.) ifølge Statistisk Årbok 1996. Prøv å lag en prognose for år 2000 med en rimelig fornuftig modell for utviklingen. Diskuter hvor fornuftig den modellen du har valgt egentlig er. 1980
1981
1982
1983
1984
1985
1986
1987
23
33
41
52
65
88
106
136
1988
1989
1990
1991
1992
1993
1994
1995
163
181
203
234
283
368
588
981
304
Oppgave 12-6 Reduseres hjerteinfarktraten i Oslo? Dagsrevyen den 25.03.81 refererte data fra Oslo-undersøkelsen. Disse ble utlagt som en klar trend i retning av redusert hjerteinfarktrate. Her er dataene: X
1973
1974
1975
1976
1977
1978
1979
y
961
905
863
902
871
894
817
y representerer antall menn som fikk diagnosen akutt hjerteinfarkt ved de indreme disinske avdelinger ved Ullevål og Aker sykehus i Oslo i årene 1973-79. Ønsker du å løse oppgaven uten å bruke programvare, er følgende opplysninger nyttige:
x
y
76
887,57
Y(x-x)2 28
XCv-v)2
X(x-x)u-j)
11803,71
-446
a)
Plott dataene i et x-y diagram. Vurder om lineær regresjonsanalyse kan an vendes her.
b)
Beregn a og b i den lineære regresjons!inje og skriv opp likningen for linjen.
c)
Skriv opp den lineære regresjonsmodellen og forklar hva de enkelte leddene betyr
d) Estimer feilvariansen cr2e e)
Lag et 95 % konfidensintervall for /3
f)
Lag en prognose fory i 1981 samt et 95 % prediksjonsintervall.
g) Ta en begrunnet stilling til følgende påstand: «Hjerteinfarkttilbøyeligheten for menn i Oslo viser for tiden en klart avtagende tendens». Diskuter blant annet mulige teilkilder som finnes og den betydning de har for din endelige konklu sjon. Oppgave 12-7 Hjelperpressestøtteordningen? Hensikten med pressestøtteordningen er å lette de økonomiske vilkår for de kon kurranseutsatte avisene. Støttens omfang til de enkelte aviser blir fastsatt etter nær mere bestemte regler. Vi skal i denne oppgaven ta for oss en eventuell sammenheng mellom opplagsøkning og pressestøtte, et tema som blir behandlet i Økonomisk Rapport 4-82. «Hovedregelen i dag er at alle aviser med opplag under 10 000 og alle nr. 2 aviser med opplag under 80 000 er støtteberettiget. Mens tilskuddet tid ligere ble beregnet på grunnlag av avisens totale papirforbruk, baserer man seg i dag på den andel av papiret som går med til trykking av redaksjonelle artikler. Dette kommer deitor de annonsefattige avisene til gode. Fra 1978 ble detfor øvrig innført en spesialordning for nr. 2 avisene i de største byene, slik at disse får en noe høyere
305
støttesats enn «øvrige nr. 2 aviser med tilsvarende papirforbruk. Grunnen til dette er at disse avisene har spesielle økonomiske problemer».
Tabell 12-9 Datafil Presse Navn
Arbeiderbladet Nationen Rogaland avis Vårt Land Arbeider-Avisa Bergens Arbeiderblad Fremtiden Norges Handels- og Sjøfartstidende Morgenavisen Dagen Dagningen Nordlands Framtid Østlendingen etc. Vestfold Arbeiderblad Demokraten Morgenbladet Lofotposten Samhold/Velgeren Sørlandet Porsgrunns Dagblad Fremover Varden Telemark Arbeiderblad Romsdals folkeblad Halden Arbeiderblad
x
y
-8,7 4,7 0,6 20,6 -6 -22,8 18
1184 1024 877 734 1065 1185 761
-7,1 -9,6 -1,3 12,1 11,4 14,9 -8 18,3 -10,4 -2,1 -3,8 20,4 -16,9 12,7 13,1 16 -0,9 3,8
766 894 744 722 564 314 803 677 611 450 750 682 685 408 176 162 631 427
a)
691,84
2,76
.
1
y
a
x
M
x er samlet pressestøtte i perioden 1977-1981 dividert på opplaget i 1980. y er pro sentvis opplagsøkning over perioden 1976-1980. Beregninger gir:
1 767 309
v (y - y )2
V (x — x) (y — y)
3686
-43 146
Plott observasjonene i et x-v-diagram og ta stilling til om en lineær regresjonsmodell kan brukes.
b) Skriv opp den lineære regresjonsmodellen og forklar hva symbolene står tor.
c)
306
Estimer a og (3 og tegn den estimerte linjen inn i diagrammet.
d) Test hypotesen om at /3 = 0 på 5 %-nivået. e)
Ta stilling til følgende påstander: Pressestøtten bidrar til å øke opplagstallene. Pressestøtten bidrar til å senke opplagstallene. - Formuler din egen konklusjon.
Oppgave 12-8 Risiko og avkastning for norske aksjer Vi ønsker å undersøke sammenhengen mellom risiko og avkastning for norske aksjer. Generelt har spørsmålet om en slik sammenheng fått økende oppmerksom het rundt omkring i verden i de senere år. Undersøkelser som er foretatt i England og USA viser en klar og positiv sammenheng mellom risiko og avkastning for aksjer. Vi skal undersøke om dette også gjelder for selskap ved Oslo Børs. Tabell 12-11 viser gjennomsnittlig avkastning og standardavviket til avkastningene i pe rioden februar 1983 til februar 1996 for 18 tilfeldig valgte selskap. Definer:
x = standardavviket av avkastningen over perioden 1972-1982 y = gjennomsnittlig avkastning over perioden 1972-1982. Tabell 12-11 Datafil Avk—Risk: Gjennomsnittlig månedlig avkastning og risiko målt ved standardavviket for 18 tilfeldig valgte norske aksjeselskap i perioden 1983 til 1996 Selskap / Mnd. avkastning
Elkem A/S Norsk Hydro a.s. Dyno Industrier A.S Hafslund Nycomed AS A-aksjer Bjølvefossen a.s Rena Kartonfabrik A/S Kværner A/S Orkla A.S A/S Arendals Fossekompani Det Norske Luftfartselskap A/S Skiens Aktiemølle Rieber & Søn a/s Unitor AS Awilco AS A-aksjer Nomadic Shipping AS Den norske Amerikalinje A/S Skipsaksjeselskapet Eidsiva Aktieselskabet Bonheur
a)
Gj. snitt
Std.avvik
0,017 0,015 0,017 0,027 0,027 0,039 0,022 0,025 0,023 0,030 0,035 0,028 0,021 0,024 0,015 0,006 0,022 0,045
0,164 0,097 0,094 0,099 0,198 0,377 0,099 0,100 0,090 0,162 0,213 0,099 0,126 0,144 0,175 0,149 0,167 0,222
Plott x mot y.
b) Vurder om en lineær regresjonsmodell er passende.
307
c)
Estimer koeffisientene o og
i den linære regresjonsmodellen.
d) Gi en tolkning av begge koeffisientene. e)
Test Ho: /? = 0 mot [3 + 0. Velg nivå 0,05. Hvilke slutninger kan du trekke?
f)
Mener du forutsetningene er oppfylte for å utføre testen ovenfor? Forklar!
g) Foreta analysen også uten Rena Kartonfabrik. Kommentar? Oppgave 12-9 Kvinner tar igjen menn på 100-meteren i år 2054! I en notis i Verdens Gang 09.08.84 stod det at en biokjemiker fra New Zealand og en lege fra Australia har analysert kvinnenes fremgang i forhold til menn på friid rettsbanen. De tror at menn og kvinner vil løpe like fort på 100-meteren i år 2054, på 200-meteren i 2066, på 400-meteren i 2020, på 800-meteren i 2021, på 1500-meteren i 2000 og på 3000-meteren i 2003. Som statistiker, hvilken analysemetode er det naturlig å tenke seg ligger bak disse prognosene og hva har du som fagperson å si om slike anvendelser? Oppgave 12-10 (3 som mål for finansiell risiko I avsnitt 12-4 estimerte vi risikoen knyttet til Norsk Hydros aksjer ved parameteren beta. Gjør det samme for Hafslund Nycomed. Dataene finner du i filen MntLavk. Vurder om en lineær modell for samvariasjonen med børsindeksens avkastning er passende, og test nullhypotesen om at beta = 1,0 på 5 %-nivået. Oppgave 12-11 Vannforsyningen i Oslo - Modellkontroll I oppgave 9-2 estimerte vi sannsynligheten for på nytt å få et like tørt år som i 1996, som var det tørreste på 104 år. Grunnlagsdataene er i datafil Tilsig. For å løse opp gaven, måtte vi gjøre følgende antagelser:
a)
Det er ingen langsiktig trend tilstede
b) Vanntilsiget ett år er uavhengig av vanntilsiget i foregående år
Du skal sjekke om disse to forutsetningene er rimelige. I b) kan dette gjøres ved å lage to datasett. Det ene datasettet, y, er de opprinnelige tilsigsdataene 26, 20, 29, 25,..., 23, 30,11. Det andre, x, lager du ved å forskyve alle tallene ett år fremover. Dermed får vi n — 1 (x, y)-par: (26, 20), (20, 29), (29, 25), ..., (23, 30), (30, 11). Korrelasjonen mellom v ogy når de er laget på denne måten, kalles autokorrelasjon. Svar på øvelse: Karakterforventning og resultat Når vi regner for hånd, må vi først utføre en del grunnberegninger. Disse er vist i tabellen nedenfor. Tabellen viser imidlertid bare to desimaler, mens jeg i viikeligheten har brukt adskillig flere. Svarene mine vil derfor etter hvert avvike noe fra
308
dem du vil få om du fortsetter beregningene med bare to desimaler. I praksis er det selvfølgelig kjedelig å utføre disse beregningene for hånd. Et alminnelig regnearksom jeg må innrømme jeg har brukt - hjelper betraktelig, om du da ikke bruker Statark eller spesiell statistisk programvare. Mal for grunnleggende håndregning i regresjonsanalyse: y
y-y
(y-y)2
2,50 3,00 3,00 2,75 1,75 4,00 3,00 2,50 3,00 1,75 2,75 2,00 2,25 3,00 1,25 4,00 2,25 1,75
-0,08 0,42 0,42 0,17 -0,83 1,42 0,42 -0,08 0,42 -0,83 0,17 -0,58 -0,33 0,42 -1,33 1,42 -0,33 -0,83
0,01 0,17 0,17 0,03 0,69 2,01 0,17 0,01 0,17 0,69 0,03 0,34 0,11 0,17 1,78 2,01 0,11 0,69
46,50
0,00
Xy
X — X
(x — x)2
(x - x) (y -y)
3,00 3,50 3,00 2,75 3,25 2,75 3,00 2,00 3,00 2,75 3,50 2,75 2,50 2,50 2,00 2,50 2,25 1,25
0,32 0,82 0,32 0,07 0,57 0,07 0,32 -0,68 0,32 0,07 0,82 0,07 -0,18 -0,18 -0,68 -0,18 -0,43 -1,43
0,10 0,67 0,10 0,00 0,32 0,00 0,10 0,46 0,10 0,00 0,67 0,00 0,03 0,03 0,46 0,03 0,19 2,05
-0,03 0,34 0,13 0,01 -0,47 0,10 0,13 0,06 0,13 -0,06 0,14 -0,04 0,06 -0,08 0,91 -0,26 0,14 1,19
9,38
48,25
0,00
5,35
2,42
v (x - x)2
Xx
Z Cv - y )2
Z U " x) (y - y)
X
For å gjøre ferdig tabellen, må du først beregne gjennomsnittene:
y = Xy/n = 46,50/18 = 2,58
x = Xx/n = 48,25/18 = 2,68 Deretter kan du lage resten av tabellen, og så beregne standardavvikene og svv:
£ (y - y )2 ■'r = ---------- ;---- = 9,38/17 = 0,55 n— 1 V (x-x)2 s2x = ---- ^3^---- = 5,35/17 = 0,31
= V(X55 = 0,74
= a/0,31 = 0,56
V (x - x) (y - y) Sxy = ------------------------ = 2,42/17 = 0,14 n— 1
309
Nå er vi klare til å ta formelapparatet i bruk for å svare på spørsmålene:
a)
Korrelasjon: r = sxyl sxsy = 0,14 / (0,74 X 0,56) = 0,34
b) Regresjon: b = sxyl s2x = 0,14 / 0,31 = 0,452
a = y - bx = 2,58 - 0,452 X 2,68 = 1,373
c)
For å foreta hypoteseprøving, må vi først beregne standardavviket til b. Det krever en serie operasjoner: T (k -y)2 - b1 y (x - x)2
s2
9,38 - 0,4522 X 5,35 16
n—2 a/0,518
= 0,518
= 0,720
Sb =
= o,3ii
Deretter kan vi foreta hypoteseprøvingen. Det er rimelig å utelukke muligheten for at guttene systematisk tror omvendt av hva de burde. Vi utfører den derfor ensidig:
Testmetode Data
Nullhypotese Alternativ Signifikansnivå Kritisk verdi Testobservator Konklusjon
Atesten om ingen lineær sammenheng mellom Aogr 18 observasjonspar (x, y) av karakterforventning og resultat Ho: = 0 Hi:/3>0 a= 5% Ifølge tabell 6b med v = n — 2 = 16, er N = 1,75 t = b / sb = 0,452/0,311 = 1,452 Ho beholdes fordi t < +ta. Vi har ikke kunnet på vise en positiv lineær sammenheng mellom ka rakterforventning og faktisk karakter hos guttene på postskolen.
(Denne analysen bør selvsagt innledes med et grafisk studium av sammenhen gen mellom x ogy. Lager du et aksediagram over dette, vil du se at det ikke er noe mønster tilstede som er mer innviklet enn en rett linje. En lineær regre sjonsmodell er derfor ikke åpenbart dårlig.)
310
d) Et 95 % prediksjonsintervall for y med x0 = 2,5 finnes ved hjelp av formel 12-20: fa ~ Vo = « + ^0 ± kiSe
n
T (x - x)2
= 1,373 + 0,425 X 2,5 ± 2,12 X 0,720 X A 1 + — + \ 18
5,35
= 2,50 ± 1,57
Helt tilsvarende finner vi forx0 = 4,0: y = 3,18 ± 1,79 Vi ser at intervallene er vide, og derfor ikke særlig mye verdt til prognoseformål. Dette stemmer med at vi heller ikke har en signifikant sammenheng.
311
13 Kurvefremskriving 13.1 13.2 13.3 13.4 13.5
Om kurvefremskriving og prognosering Om tidsrekkeanalyse Tidsrekkemodeller: Den klassiske modell Sammendrag Oppgaver
Vestby opp, Bærum ned Statistisk Sentralbyrå har fremlagt prognoser for befolkningsutviklingen i Akershus i årene frem til år 2000. Her går det blant annet frem at Vestby vil fordoble sitt innbyggertall og at Bæ rum vil «miste» 5000 innbyggere. - Lettsindig, sier ordfører Kjell Erik Heibek i Vestby om en slik statistisk beregning. Ordfører Gunnar
Gravdahl har, med bakgrunn i kommunens egne beregninger, ingen tro på at folketallet vil bli redusert. En rekke andre politikere uttrykker også skepsis til disse prognosene. - Tallene er ikke ment som noe man absolutt skal tro på, sier førstekonsulent Jens Kristian Borgan i Statistisk Sentralbyrå.
Aftenpostens aftennummer, 18. mars 1980
13.1 Om kurvefremskriving og prognosering Folk som lager prognoser blir ofte utskjelt - som oftest fordi prognoser viser seg å være gale. Men hvorfor er prognoser gale? Selvsagt fordi man aldri kan vite hva fremtiden vil bringe, men også fordi prognosøren - om vi kan bruke et slikt ord sjelden har muligheter til å kartlegge alle forhold som kan være relevant for å komme frem til en «riktig» prognose. Ofte nøyer han seg med å analysere de histo riske verdiene til den størrelsen han skal prognosere for så å benytte en eller annen form for kurvefremskriving. Dette betyr ikke at virkningen av andre faktorer be traktes som irrelevante, men bare at de er for kompliserte eller tidkrevende å ta med i beregningen. 313
Det er derfor av avgjørende betydning at brukerne av prognoser - politikere og personer i offentlig og privat virksomhet - kjenner til de premisser som ligger til grunn for prognosetallene. Da Borgan i Statistisk sentralbyrå omsider slapp til på side 2 i Aftenposten, fikk han forklart at det som var gjort, var å samle inn historiske data over innflytning og utflytning, dødelighet og fruktbarhet i kommunene. Ved å forlenge de observerte tendenser frem til år 2000 kan han så beregne prognosetall. Dette betyr ikke at prognosøren tror at han derved har funnet den faktiske folke mengden i år 2000. Han er (eller bør være) fullstendig klar over at andre faktorer som tilgjengelige arealer for bolig- og industriutbygging, kommunens økonomi samt de politiske avgjørelser i kommunen frem til år 2000 spiller en viktig rolle. Slike ting har imidlertid kommunens folk bedre oversikt over enn ham selv, og de bør kunne kompensere for dette når de bruker prognosetallene . Eksempel: Trafikkulykker
Graf 13-1: Antall personer drept i veitrafikkiilykker 1986—1995 (Kilde: Statistisk årbok 1996) med tilpasset regresjonslinje for utviklingen
Graf 13-1 viser utviklingen av antall drepte i veitrafikkulykker per år i Norge. Til disse dataene kan det være naturlig å tilpasse en rettlinjet trendy = a + (3x ved hjelp av minste kvadraters metode, slik vi gjorde det i forrige kapittel. Vi finner a = 34003, b — -16,9. (a er linjens skjæring medy-aksen når x = 0, dvs. i år 0.) For lenger vi denne linjen frem til år 2005, får vi et prognosetall y2oo5 = æl- Dette tallets troverdighet må sees i sammenheng med hvordan det har blitt til, da det er resultatet av en ren, passiv trendfremskriving og forutsetter blant annet at det trafikksikringsarbeid som har pågått i perioden 1986-1995 fortsetter. Forlenger vi linjen videre til år 2015-dvs. lenger ut på glattisen-finner vi y2015 = 34003 - 16,9 X 100 = —68. Dvs. minus 68 mennesker vil bli drept i trafikkulykker! Moralen er?
314
Noe mer informativt enn kun å gi et prognosetall for 1980, er det å hefte et prediksjonsintervall til prognosen: ^2005
=
101 — slingringsmonn
Her kan formlene fra kapittel 12 brukes direkte. På den måten får vi innkalkulert hvor variable de historiske tallene har vært i forhold til den rette linjen. Jo mer ustabile de er, jo større blir prediksjonsintervallet. Prediksjonsintervallet er og blir en teoretisk konstruksjon: Hvis det virkelig er slik at vår samlede virksomhet innen trafikksikringsarbeidet samt trafikkvolumet gjør at antall ulykker faktisk følger en y = a + fx der a og /3 er ukjente konstanter og x årstallet og skjebnen legger til et tilfeldig normalfordelt tall e for egen regning, da er prediksjonsintervallet riktig. Siden dette selvsagt ikke stemmer i praksis, må prediksjonsintervall oppfattes kun som veiledende for den faktiske usikkerhet.
Former for prognosering Den måten vi lagde prognosetall på ovenfor er et eksempel på tidsrekkeanalyse som vi skal behandle i neste avsnitt. Tidsrekkeanalyse dreier seg om bearbeidelse av tall og er i sinn og skinn et barn av statistisk metode og tankegang. Analyse av historisk tallmateriale er en ting, en praktisk, jordnær utøvelse av sunn dømmekraft og ekspertise noe annet. Det siste er minst like viktig som det første, men mye vanskeligere å sette i system. Den såkalte Delfi-metoden benytter for eksempel et panel av eksperter til å uttale seg om fremtiden. Sannsynligvis er det mest fruktbart å kombinere metodene. Eksperter på saks området kan bearbeide eller modifisere prognosetall som er fremkommet ved tids rekkeanalyse. Dette betyr at det er nødvendigfor eksperten å forstå premissenefor tidsrekkeanalyse.
13.2 Om tidsrekkeanalyse Tidsrekkeanalyse dreier seg om å finne mønstre i historiske tallmateriale. En tids rekke er simpelthen en rekke med historiske verdier til en variabel. Antall drepte i trafikkulykker 1986-1995 er en tidsrekke. Årlig vanntilsig til drikkevannsreservoarene i Oslo de siste 104 år er en tidsrekke. Vi skal bruke følgende symboler:
Symboler i tidsrekkeanalyse Tidspunkt: t Tidsrekkens verdi i tidspunkt t: yt Prognosetall for verdien i tidspunkt f. yt Prognosefeil: et = yt — yt
315
Med referanse til trafikkulykke-eksemplet i graf 13-1, er y1986 = 45 2 og v2oo5 = 101. Når vi lager prognoser for fremtidige verdier og benytter tidsrekkeverdier helt opp til i dag som datagrunnlag, er det som regel unødvendig å skrive når progno sene ble laget. Vi nøyer oss med å si hvilket tidspunkt de gjelder for. Mønster i tidsrekker Øyet er en god konkurrent til matematiske analysemetoder når det gjelder å finne mønstre i tidsrekker. Det mønster vi for eksempel mente å kunne se i dataene over drepte trafikkulykker i graf 13-1, var simpelthen en rettlinjet avtagende tendens, eller en konstant negativ trend. Se igjen på grafene 12-1 og 12-2, samt 12-15 og 12-16. Se også på grafene 13-2 til 13-5. Studer grafene og prøv å formulere for deg selv eventuelle trekk du kan se som du kan tenke deg kunne forlenges inn i fremti den.
CATEPILLAR TRAKTOR OG INLAND STEEL
Graf 13-2: Historisk inntektsutvikling for to amerikanske industrigiganter. Kilde: G. Foster, 1986, Financial Statement Analysis, Prentice-Hall
316
1996,01
Kraftforsyning
År, mnd
Graf 13-3: Månedligproduksjonsindeks for kraftforsyningen i Norge. Kilde: Statistisk Årbok 1996.
Jordbruk
Graf 13-4: Prisindeks for norske jordbruksprodukter. Kilde: Statistisk Arbok 1996.
317
Antall innbyggere
Folkemengdens bevegelse
o
Graf 13-5: Innbyggertallet i Norge. Kilde: Statistisk Arb ok 1996
Vurdering av tidsrekkene Hvis du har gjort deg opp din mening om eventuelle mønstre i tidsrekkene skal jeg komme med min vurdering. - Graf 12-1 og 12-2: Avkastninger på børsen. Graf 12-1 viser en tidsrekke som hopper opp og ned på en uberegnelig måte. En statistisk analyse vil trolig vise at sprangene nedover ofte er større enn oppover, men hovedinntrykket er mangel på mønster, og derfor uforutsigbarhet. Graf 12-1 viser verdiutviklingen som føl ger av graf 12-1. Disse tidsrekkene driver på en uforutsigbar måte, bortsett fra at vi kan øyne langsiktige trender. Et slikt mangel på mønster kalles random walk. — Graf12-15: Temperaturutviklingen i Norge. Denne tidsrekken minner om børsavkastningene. Vi kan øyne en langsiktig trend, men for øvrig ser det svært tilfeldig ut. Forskjellen er at vi her har varme og kalde perioder. Temperaturen ett år ser med andre ord til i en viss grad å være avhengig av de foregående år. Dette kaller vi korrelasjon mellom naboverdier, eller antokorrelasjon. - Graf 12-16: Konsumprisindeksen. Mønsteret til konsumprisindeksen ser til å begynne med tydelig eksponensielt ut, men med en avtagende rate etter 1980. Vi vet at en prosess som stiger med en konstant årlig rate vil ha et eksponensielt forløp. Imidlertid er avvikene fra linjen ikke uavhengige. Ligger dataene først på undersiden av en tilpasset eksponensialkurve ett år, vil den med stor sannsyn lighet også gjøre det neste år. Det kommer selvfølgelig av at mekanismen er slik at ny pris alltid tar utgangspunkt i gammel pris. At avvikene ikke er uavhengige, vil kunne skape problemer ved en eventuell regresjonsanalyse.
318
Graf 13-2: Caterpillar Tractor og Inland Steel'. Det er ikke hver dag man ser tidsrekker som strekker seg tilbake til 1920-årene for fortjenesten til industribe drifter. Inntektene er i faste 1986-kroner. Inland Steel er den 4. største stålprodusent i USA og i en bransje som i stor grad påvirkes av konjunkturvariasjoner. Mønsteret i tidsrekken er preget av dette. Jeg ser moderate konjunkturbølger av uregelmessig varighet, men gjeme av størrelsesorden 8 år. Slike bølger ble be skrevet allerede i 1860 av den franske lege Clement Juglar og kalles derfor gjeme Juglar-bølgene. De antas å være knyttet til oppbygging av lager, men i hvilken grad de «virkelig finnes», er stadig kontroversielt. Selv om tidsrekken selvfølgelig også er påvirket av tilfeldig variasjon, kan ikke tilfeldig variasjon forklare at vi ser årrekker med oppgang og årrekker med nedgang. Inntrykket av Juglar-bølgene bekreftes av Caterpillar Tractors tidsrekke. Den har sterkere svingninger som stort sett er i samme fase som Inland Steel. Caterpillar Tractor er verdens største produsent av maskiner til å flytte jord. Det er påfallende med den dramatiske nedgangen for begge tidsrekker i åttiårene. Verdiene er også lave i 1930. Husk at inntektene er i faste kroner. Dette kan være et tegn på en såkalt Kondratjeff-bølge. De ble beskrevet av den russiske økonomen Nikolai Kondratjeff i 1930 som viste at i de 150 årene fra 1700 til 1940 var det mulig å skille ut tre perioder med langsom, men betydelig oppgang etterfulgt av like lang nedgang. Den nest siste nedgangsperioden endte i 1940, og den siste i nitti-årene. Det er mye som taler for at vi ved slutten av det nittende århundre er i starten på en oppgangsperiode til en ny Kondratjeff-bølge. Graf 13-3: Kraftforsyningen i Norge. Det dominerende trekket er her sesongva riasjoner. Det har sine naturlige grunner. I tillegg ser det også ut til å være under liggende konjunkturaktige variasjoner pluss en oppadgående trend. Graf 13-4: Prisindeks for jordbruksprodukter. Her er det også sesongvariasjo ner, men ikke så tydelig som ved kraftproduksjon. Tidsrekken er også preget av plutselige og store nivåendringer som ser ut til å holde seg. Hvis disse skyldes politiske grep, er de selvsagt vanskelige å forutsi med så enkle metoder som mønstergjenkjennelse. Graf 13-5: Folkemengdens bevegelse. Her ser en lineær modell, eller en svak eksponensiell vekst ut til å være en god beskrivelse. I praksis foretar man selv sagt fremskrivinger av slike kurver ved å benytte mer detaljert viten om alders sammensetning, fruktbarhet og andre demografiske data. Klassifikasjon av mønstertyper for økonomiske tidsrekker I denne uforbindtlige, subjektive analysen av tidsrekker har vi lagt vekt på følgende typer mønstre:
1.
Trend, jevn stigning eller nedgang som tar seg ut som rett linje i diagrammet. Stigningskoeffisienten kan også tenkes å undergå en jevn forandring slik at linjen blir krum.
319
2. Sesongvariasjoner, regelmessige svingninger som gjentar seg for hver periode (år, uke, døgn), konstante eller proporsjonale med det generelle nivået. 3. Konjunkturvariasjoner fluktuerende avvik i en mer langsiktig trendbevegelse. 4. Korrelasjon mellom naboverdier, positiv eller negativ etter som naboverdier ser ut til å holde seg på samme eller hver sin side av det mer generelle nivå. 5. Random walk, tilfeldige sprang fra dagens nivå. Frembringer «drift».
Grunnen til at disse mønstertypene blir ansett som spesielt viktige når det gjelder økonomiske tidsrekker, er at det er relativt lett å forestille seg at de kan ha en natur lig årsak. Selv om vi ikke behøver å kjenne detaljene, vet vi jo at det finnes mekanis mer i økonomisk-sosiale systemer som kan forårsake slike mønstre. En positiv trend henger sammen med generell utvikling, teknologiske fremskritt, produksjon av kapitalvarer osv. Sesongvariasjoner er opplagte. Konjunktursvingninger kjen ner man riktignok ikke fullt ut årsaken til, men deres eksistens synes etter hvert uomtvistelig, og en del plausible forklaringer finnes. Når det gjelder korrelasjon mellom naboverdier er forklaringene vanligvis mer spesielle, slik som kjøpevaner, stabile værtyper etc. Er dette et tydelig trekk ved en tidsrekke, er det ingen grunn til å utelate det ved prognostisering. Det finnes også andre mønstertyper, men de er gjeme enda mindre «naturlige» og temmelig matematiske i sin definisjon, så vi vil ikke omtale dem her. De blir i første rekke aktuelle hvis man benytter ferdige programpakker i prognosearbeidet. Fremgangsmåten ved tidsrekkeanalyse I praksis prøver man å gå frem omtrent slik: Analyse'. Først analyseres tidsrekken for å finne frem til hvilke mønstertyper som gjør seg gjeldende. Dette foregår dels visuelt, slik vi har gjort det, dels støttet av programvare som beregner en del mer håndfaste opplysninger. 2. Modellvalg'. Dernest velger man den tidsrekkemodellen man vil arbeide med. Har du for eksempel funnet at det meste du kan oppspore av mønster, er en lineær trend som i graf 13-1, vil den lineære regresjonsmodellen være et pas sende valg av modell. 3. Modelltilpasning'. Nå skal modellen tilpasses dataene ved at parametrene i modellen estimeres. En nokså vanlig metode er å estimere dem slik at summen av kvadratavvikene mellom de tilpassete verdieney, og observasjoneney, minimeres, med andre ord minste kvadraters metode. Parametrene i den lineære regresjonsmodell er a og (3 og disse estimeres da ved a og b som vi gjorde det i forrige kapittel. 4. Residualanalyse'. Til slutt bør den tilpassete modellen granskes for å se om den virker brukbar. Det skjer ved å beregne avvikene et = yt — yt for hver av de observerte v-verdiene. Disse avvikene representerer det vi ikke har greid å for klare ved hjelp av modellen. De kalles residualene, dvs. det som har blitt igjen. Hvis vi nå ser på residualene som en tidsrekke, kan vi undersøke om det er noe
1.
320
mønster i den. Finner vi et mønster, betyr det gjeme at modellen kan forbedres idet den ikke har greid å ta hånd om alt som på forhånd fantes av mønster. I så fall bør vi vurdere å velge en ny modell, eller en mer komplisert utgave av den første. 5. Prognosering'. Er det ikke noe mønster igjen i residualene, tillater vi oss å lage prognosetall for fremtidige verdier ved å fremskrive forløpet av de mønstre vi har funnet.
Et grunnleggende metodeproblem I praksis vil det alltid være et problem at man tror man ser mønstre som i virkelig heten bare har oppstått ved tilfeldigheter eller som kun er kortvarige, forbigående fenomener. Skal man forlenge mønstre inn i fremtiden, må man ha tro på at de er noenlunde stabile. Det kan derfor være fornuftig å først se på den første halvdelen av dataene. Etter å ha tilpasset en modell, kan du så se om den også passer for den andre halvparten av dataene. Gjør den det, øker tilliten til at man har med stabile mønstre å gjøre. En slik fremgangsmåte forutsetter at du har mange observasjoner.
13.3 Tidsrekkemodeller: Den klassiske modell Det finnes et utall tidsrekkemodeller. Disse tilbys gjeme i fonn av programpakker. Vi skal her konsentrere oss om den klassiske, multiplikative modell som er en av de mest anvendte i analyse av økonomiske tidsrekker.
Den klassiske multiplikative modell yt = Ttstctit Tt = a + fit
Tidsrekkeverdiene y fremkommer her som et produkt av fire faktorer, en trendkomponent T som følger en rettlinjet bevegelse, en sesongindeks S, en konjunkturindeks C og et tilfeldig feilledd I med gjennomsnittsverdi lik 1. Den klassiske multiplikative modell bør tas i betraktning når de nevnte mønstertyper synes å være til stede. At leddene multipliseres, betyr bl.a. at sesongutslagene er proporsjonale med nivået. Tidsrekkene i grafene 13-3 og 13-4 er naturlige kandidater for anvendelse av den klassiske modell (for enkelhets skyld sløyfer vi ordet «multiplikativ»).
321
Modelltilpasning Modelltilpasningen avy = TCSI foregår i følgende trinn:
Tilpasning av den klassiske modell til data:
1. Isolering av TC-komponenten ved hjelp av glidende gjennomsnitt 2. Estimering av trenden T ved minste kvadraters metode 3. Beregning av sesongindeksene S ved gjennomsnitt over 57-tallene 4. Isolering av C-indeksene ved C = TC / T 5. Beregning av /-indeksene ved / = y / TCS
Vi skal vise hvordan modelltilpasningen foregår veckhjelp av et eksempel der vi anvender Statark, vindu III-5. Vi viser Statarks grafer, mens tabellene er omorgani sert til et mer hensiktsmessig format. Se på tidsrekken i graf 13-3, kraftforsyningen i Norge. Her er det tydelige se songvariasjoner som øker med det generelle nivået. Den klassiske multiplikative modell ser ut til å være et lovende valg. Dataene er disse: Tabell 13-1 Datafil Kraft96. Kraftforsyningen i Norge. Indeks: 1995 = 100. Rådata y. y
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
1991 1992 1993 1994 1995 1996
117,4 104,7 111,9 118,3 117,0 130,8
123,0 108,6 112,9 120,6 115,5 128,3
107,7 107,2 108,8 97,3 110,0 106,9
93,8 101,5 93,3 82,0 98,6 83,7
86,9 83,6 79,3 78,0 84,1 80,6
72,2 77,9 79,9 81,9 79,7
58,8 71,0 70,3 66,4 76,2
67,1 80,9 76,9 74,5 81,0
77,2 89,0 91,9 83,8 86,7
84,3 100,6 101,9 94,4 98,7
93,0 108,6 117,6 100,8 122,1
100,2 107,5 120,7 105,5 130,3
Trinn 1: Isolering av TC ved hjelp av glidende gjennomsnitt Tidsrekkemodellen er v = TSCI. Vi vet forutsetningsvis at sesongindeksene Sgjentar seg for hvert år, dvs. Sjan 1991 = 5jan 1992 = ... osv. I alt er det derfor 12 ulike S-indekser. Legger vi sammen observasjonsverdiene f.o.m. januar 1991 t.o.m. de sember 1991 har vi tatt med innflytelsen av hver av de 12 S-ene én gang. Legger vi sammen alle tallene f.o.m. februar 1991 t.o.m. januar 1991, har vi også fått med hver av S-ene én gang. Fortsetter vi slik ved hver gang å sløyfe den eldste måned og ta med en ny, vil effekten av sesongvariasjonene i stor grad nøytraliseres. Hvis vi i tillegg deler hver sum på 12 vil også effekten av de tilfeldige avvik / minke be traktelig fordi gjennomsnitt har, som vi vet, mindre tilfeldig variasjon enn de opp rinnelige verdiene. Dette kalles å ta 12. ordens glidende gjennomsnitt, ettersom vi «glir» fremover i tallmaterialet og hver gang beregner gjennomsnittet av 12 ver dier. Hadde vi hatt kvartalsvise observasjoner, ville vi selvsagt ha beregnet et 4. ordens glidende gjennomsnitt. 322
Det første tallet som fremkommer av en slik prosess er:
(117,4 + 123,0 + 107,7 + ... + 100,2)/12 = 90,13 Det neste er:
(123,0 + 107,7 + 93,8 + ... + 104,7) / 12 = 89,07 osv. Det midterste tidspunktet blant de 12 første tallene er mellom juni og juli 1991. For å rette på dette upraktiske forhold, tar vi nå et glidende gjennomsnitt av 2. orden på disse tallene igjen, og får derved et sentrert 12. ordens glidende gjennomsnitt. Det første tallet blir derved (90,13 + 89,60)/2 = 89,60. Resten er vist i tabell 13-2 og i graf 13-6.
Tabell 13-2: Resultatet av å isolere trend / konjunktur-komponenten ved hjelp av et sentrert 12. ordens glidende gjennomsnitt. TC
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
1991 1992 1993 1994 1995 1996
89,2 95,3 96,3 94,6
90,3 95,1 96,0 95,3
91,3 95,0 95,6 95,7
92,5 95,2 94,9 96,0
93,8 95,6 93,9 97,0
94,8 96,6 92,6 99,0
89,6 95,4 97,4 91,9 100,6
88,5 95,9 98,0 91,6 101,7
87,9 96,1 97,8 92,0 102,1
88,2 95,8 96,9 93,2 101,3
88,3 95,3 96,3 94,1 100,6
88,4 95,2 96,4 94,3
Kraftforsyningsindeks 1995 = 100
Graf 13-6: Datafil Kraft96. De opprinnelige forsyningsindeksene er vist som punkter, og TC-tallene som en sammenhengende kurve. TC-tallene er hentet fra tabell 13-2.
323
Trinn 2: Estimering av trenden T ved minste kvadraters metode I TC-komponenten står T for trenden som i følge modellen er rettlinjet. Konjunkturindeksene C må da bære ansvaret for alt som avviker fra en rett linje i TC-tidsrekken. Egentlig er dette å tøye begrepet konjunktur for langt, da de langsomme uregelmessige svingningene i TC-verdiene kan skyldes mye annet enn det vi van ligvis forbinder med konjunkturvariasjoner, som vel i første rekke skulle påvirke etterspørselen etter kraft. Tilbudet (produksjonen) er påvirket av tilsiget som ikke er underlagt konjunkturvariasjoner slik vi vanligvis oppfatter ordet. Prisfastsettel ser spiller også en vesentlig rolle. I tillegg er det en mulighet for at vi faktisk intro duserer «falske» konjunkturbevegelser når vi tar glidende gjennomsnitt. Et enkelt, stort avvik vil jo forplante seg 6 perioder i begge retninger. Det kan også ligge igjen rester av sesongbevegelser. Betegnelsen konjunkturindeks brukes derfor på en spe siell, teknisk måte i denne sammenhengen, som avviker noe fra den gjengse be tydningen. En grei, objektiv måte å isolere Tpå, er å legge en rett linje gjennom TC-verdiene ved minste kvadraters metode. Vi Emner: b — 0,156 (stigning pr. måned) a = 89,776 (7”s verdi januar 1991)
Kraftforsyningsindeks med
Graf 13-7: Resultatet av å bruke minste kvadraters metode for å isolere trenden. Den rettlinjete trenden er inntegnet i tillegg til TC-tallene
324
Linjens likning er således: T = 89,776 + 0,156 t
der t = 0 i januar 1991 og øker 1 enhet for hver måned, dvs. t teller antall måneder som er gått siden januar 1991. Linjen er tegnet inn i graf 15.15.
Trinn 3: Beregning av sesongindeksene S ved gjennomsnitt over SI-tallene Av rC-tallene ser vi at sesongutslagene er eliminert samtidig som de irregulære avvik har skrumpet betraktelig inn. En beklagelig bieffekt er at vi ikke har noen FC-verdier for de 6 månedene i begge ender.
Kraftforsyning Sesongindekser
Graf 13-8: Den heltrukne linjen viser sesongindeksene S nederst i tabell 13-3. Den gjentar seg med samme forløp for hvert år. Punktene viser SI-tallene.
Hvis vi skal lage prognoser, er det ikke nok å fjerne sesongvariasjonene i de eksisterende dataene. Vi må også beregne sesongindeksene, slik at vi kan skaffe sesongvariasjonene tilbake igjen i prognosetallene. Dividerer vi v-verdiene på TCverdiene vi har funnet, skal vi ifølge modellen fa tilbake S/-verdiene:
325
Tabell 13-3 Beregning av SI = y / TC og deretter sesongindeksene S ved gjennomsnitt over SI-tallene SI
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
0,76 0,84 0,78 0,81 0,80
0,88 0,93 0,94 0,91 0,85
0,96 1,05 1,05 1,01 0,97
1,05 1,14 1,22 1,07 1,21
1,13 1,13 1,25 1,12
0,80
0,90
1,01
1,14
1,16
1991 1992 1993 1994 1995 1996
1,17 1,17 1,23 1,24
1,20 1,19 1,26 1,21
1,17 1,14 1,02 1,15
1,10 0,98 0,86 1,03
0,89 0,83 0,83 0,87
0,82 0,83 0,88 0,81
0,66 0,74 0,72 0,72 0,76
S
1,20
1,21
1,12
0,99
0,85 ,
0,83
0,72
Hver kolonne i tabell 13-3 inneholder estimater av sesongindeksene for en og samme måned. Variasjonene innen hver måned skyldes feilleddet I. De endelige estimatene for sesongindeksene er derfor gjennomsnittsindeksen for hver måned som er beregnet på den nederste linjen. Når historiske data publiseres, er de ofte på forhånd sesongkorrigert. Dette opp når man ved å dividere y-verdiene i en tidsrekke med de tilhørende sesongindekser. Da Ijemes sesongvariasjonene slik at vi bedre kan se eventuelle underliggende bevegelser. Merk deg at ved sesongkorreksjon beholdes feilleddene i tidsrekken fordi y/5 = TCI.
Trinn 4: Isolering av C-indeksene ved C — TC / T Konjunkturindeksene C finner vi nå enkelt ved å dividere TC-verdiene med Tverdiene. Disse finner vi ved å sette inn suksessive verdier av t i uttrykket 99,26 + 0,0811. Resultatet er vist i tabell:
Tabell 13-4 Konjunkturindeksene C
c
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
1991 1992 1993 1994 1995 1996
0,97 1,02 1,01 0,97
0,98 1,02 1,01 0,98
0,99 1,01 1,00 0,98
1,00 1,01 0,99 0,98
1,02 1,02 0,98 0,99
1,03 1,02 0,96 1,01
0,99 1,03 1,03 0,95 1,02
0,97 1,03 1,04 0,95 1,03
0,97 1,03 1,03 0,95 1,04
0,97 1,03 1,02 0,96 1,03
0,97 1,02 1,01 0,97 1,02
0,97 1,02 1,01 0,97
Modelltilpasningen er nå i realiteten ferdig. Vi har estimert sesongindeksene S for hver måned, trenden Tog konjunkturindeksene C. For å skille våre estimater fra de hypotetiske, «virkelige» modellverdiene, vil vi bruke «hatter» over symbolene. Den tilpassete, eller estimerte, modell er da:
Formel 13-1:
326
yt = TtStCt
Tt — a + bt
Kraftforsyning Sesongindeks og Konjunkturindeks
CDlOb-CO-rTCM CO ■'t CO
Måned nummer
Graf 13-9: Konjunkturindeksene C fra tabell 13-4 er vist som en stiplet linje sammen med sesongindeksene (heltrukket linje) og SI-tallene som punkter.
Graf 13-10: Den tilpassete modellen i formel 13-1 er vist som heltrukket linje. Punktene er de opprinnelige observasjonene. Forskjellen tilskrives feilleddene I.
327
Her er a — 89,78 når t = 0 i januar 19791, b = 0,156. T^kan således beregnes for et hvilket som helst tidspunkt t ved å sette den inn i formelen. Sesongindeksene vi har funnet tidligere: Mnd
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
S
1,20
1,21
1,12
0,99
0,85
0,83
0,72
0,80
0,90
1,01
1,14
1,16
Konjunkturindeksene Char vi funnet kun for et begrenset tidsrom, fra juli 1991 til november 1995. Graf 13-10 viser den tilpassete modellen. Vi må imidlertid også sjekke hvor god modellen egentlig er. Det gjør vi ved å studere feilleddene I.
Trinn 5: Beregning av I-indeksene ved I — y / TCS
Tabeii 13-5 De estimerte feilleddene I beregnet ved y / TCS I
Jan
Feb
Mar
1991 1992 1993 1994 1995 1996
0,98 0,98 1,02 1,03
0,99 0,98 1,03 1,00
1,05 1,02 0,91 1,03
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
1,11 0,99 0,87 1,04
1,04 0,97 0,97 1,01
0,98 0,99 1,06 0,96
0,91 1,03 1,00 1,00 1,05
0,95 1,06 0,98 1,02 1,00
0,98 1,03 1,04 1,01 0,94
0,95 1,04 1,04 1,00 0,97
0,92 1,00 1,07 0,94 1,07
0,98 0,97 1,08 0,97
Kraftforsyningsindeks og irregulære avvik fra modellen
Graf 13-11: Feilleddene I (heltrukket linje) sammen med de opprinnelige observasjonene y. Feilleddene ser ut til å være uten mønster.
328
Residualanalyse Vi ser at residualene i graf 13-11 virker nokså fri for mønster. Verdiene hopper opp og ned på en uberegnelig måte som er svært forskjellig fra de jevne konjunkturbe vegelsene, enda utslagene er av samme størrelsesorden. Et erfarent øye vil likevel spore en tendens til positiv korrelasjon; er man først på en side av streken, vil man ofte være der i neste periode også. Dette kan kanskje tas vare på i en mer raffinert modell. Beregninger viser at gjennomsnittsverdien til /-ene i tabell 13-5 er 1,00, mens standardavviket er 0,047. Det kan være nyttig å ha en idé om hvor store prognosefeil vi omtrent kan vente oss. Hvis vi kan anta at /-ene er normalfordelte omkring 1 og uavhengige, kan vi benytte z-tabellen til å finne sannsynligheter. Den grafiske fremstillingen av /-ene gir inntrykk av at dette ikke virker helt urimelig. I det minste har vi mange små og få store avvik. Dette betyr at omtrent 95 % av avvikene vil holde seg innenfor ±2s = ±0,094 fra ESC-linjen. Muligens vil du synes at denne residualanalysen har en lavere standard når det gjelder presisjonsnivå enn det du hittil har vært vant til i denne boken. Det er helt riktig. Den klassiske multiplikative modell er såpass innviklet fra et statistisk syns punkt, og usikkerheten med hensyn til hvor godt modellen i fremtiden vil passe til virkeligheten er så dominerende, at det er liten grunn til å tilstrebe mer enn et grovt anslag av mønsteret i de historiske feilledd.
Ku rvefretnskri ving Vi er nå klare til å benytte den tilpassete modellen til det vi har laget den for, nemlig å beregne prognosetall. Dette er i prinsippet meget enkelt. Det er bare å forlenge trendlinjen og multiplisere med de aktuelle sesongindekser samt konjunkturindek sene. Men hva med konjunkturindeksene? Se igjen på graf 13-9. Ville du påtatt deg å forlenge konjunkturene inn i fremtiden? Det er opplagt at i dette tilfellet kommer vi ikke utenom å ta med andre betraktninger enn kun de historiske verdier. Tidsrekkeanalyse er ikke nok. De som eventuelt skal bruke prognosetallene må kobles inn med vurderinger av den fremtidige konjunkturutvikling. Noe vi imidlertid kan gjøre på egen hånd, er å lage prognosetall for gitte scenarioer, tenkte situasjons typer. La oss først velge en tidshorisont for prognosene. Når vi kun har data for 5,5 år, er det liten vits i å se alt for langt fremover. La oss prøve med nye 2 år. I vårt historiske materiale i tabell 13-4 har konjunkturbunnen vært på 95 % og toppen på 104 % av en normaltilstand. Dette kan vi, i mangel av noe bedre, ta som utgangspunkt for scenarioene som vi velger så enkle som mulig:
«Optimistisk» scenario: Copt = 104 % (konstant lik 106 %) «Realistisk» scenario: Creai = 100 % «Pessimistisk» scenario: Cpess = 95 % Beregningen av prognosetall kan nå ta til. For det realistiske scenarioet får vi for juni 1996 som er det første tallet vi ikke har data for: ±65
= t65S65C65 = (89,77 + 0,156 x 65) x 0,83 x 1,00 = 83,4 329
Vi har satt t = 65 fordi juni 1996 ligger 65 måneder etter januar 1991 hvor t = 0 i henhold til regresjonslinjen. For det optimistiske scenariet vil tallet bli 1,04 ganger høyere, og for det pessimistiske 0,95 ganger så høyt. Prognosetallene er vist for 1996 i tabell 13-6, og for de neste to år i graf 13-12.
Tabell 13-6 De opprinnelige dataene med prognosetall som bygger på det realistiske scenario for månedene juni til desember 1996. V
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
1991 1992 1993 1994 1995 1996
117,4 104,7 111,9 118,3 117 130,8
123 108,6 112,9 120,6 115,5 128,3
107,7 107,2 108,8 97,3 110 106,9
93,8 101,5 93,3 82 98,6 83,7
86,9 83,6 79,3 78 84,1 80,6
72,2 77,9 79,9 81,9 79,7 83,4
58,8 71 70,3 66,4 76,2 72,1
67,1 80,9 76,9 74,5 81 80,1
77,2 89 91,9 83,8 86,7 90,4
84,3 100,6 101,9 94,4 98,7 101,4
93 108,6 117,6 100,8 122,1 114,8
100,2 107,5 120,7 105,5 130,3 116,8
Graf 13-12: Kurvefremskriving over to år i henhold til det realistiske scenario med C — 100 %. De observerte verdiene er vist som punkter.
Vurdering av prognosefeilenes størrelsesorden Når vi nå har laget prognosetall for 2 år fremover, kan det være nyttig å ha en viss idé om hvor store feilmarginene er. Hvor store avvik fra prognosetallene kan vi vente oss? Vi opererer i denne sam menhengen med tre feilkilder:
330
1.
2.
3.
Tilfeldige avvik I i forhold til den «sanne» TSC-kurven. Disse har vi en bra oversikt over idet de estimerte Z-ene hadde et standardavvik på 0,047. Feilene vil derfor holde seg mellom 109 % og 91 % av ZSC-verdiene i anslagsvis 95 % av tilfellene, hvis de er uavhengige. Modelltilpasningsfeik. De estimerte parametrene T, S og C kan avvike fra de korrekte. En viss idé om usikkerheten angående T kan vi få ved å analysere minste kvadraters tilpasning av den rette T-linjen til TC-kurven. Usikkerheten angående S fremgår ved å studere variasjonen i de individuelle månedsindeksene i tabellen. Den største usikkerheten knytter seg imidlertid til konjunk turindeksene C som vi ikke en gang har våget å forlenge inn i fremtiden i form av en matematisk funksjon. I stedet stipulerte vi en øvre og nedre grense på 104 % og 95 % basert på skjønnsmessig vurdering av diagrammet over C. Feil modellvalg'. Selv om observasjonene våre fra 1991 til 1996 tyder på at en klassisk, multiplikativ modell er realistisk, er det jo ikke sikkert at det vil fort sette å være slik i fremtiden. Riktignok har vi gode argumenter for å benytte hovedformen TCSI fordi trenden har sammenheng med velstandsutviklingen. Sesongindeksene skyldes hovedsakelig årstidene, og konjunktursvingninger ser ut til å være noe vi må leve med. I modellvalget ligger også innbakt en forutsetning om at parametrene, dvs. trendens nøyaktige stigning og sesongindeksens størrelse er konstanter og derfor uforanderlige innenfor vår prognosehorisont. Det samme gjelder konjunkturutviklingen, men siden vi ikke har esti mert noen parametre her, forsvinner problemstillingen i dette tilfellet. Når vi ikke tar noen sjanse, gjør vi heller ingen feil.
13.4 Sammendrag Prognosering er vanskelig og krever hjelp av all den informasjon og ekspertise som er tilgjengelig på området. Et av hjelpemidlene i prognosering er tidsrekkeanalyse. Dette er en kvantitativ metode som hovedsakelig benytter seg av den informasjon som ligger i historiske verdier av tidsrekken. I tillegg kan man dra nytte av annen informasjon som for eksempel om det er naturlig å vente sesongvariasjoner og i så tall hvor mange tidsperioder det er i hver sesongsyklus. Tidsrekkeanalyse dreier seg om å finne mønstre i de observerte verdier. Man benytter kvantitative teknikker for å sile vekk tilfeldige avvik slik at eventuelle mønstre kommer tydeligere frem. Dette skjer ved en eller annen form for gjennom snittsberegning, for eksempel glidende gjennomsnitt. Minst like viktig som kvanti tativ analyse er visuell analyse. Det er utrolig hva man kan se av mønstre med det blotte øye. Idiotsikkert er det også når du sammenholder med hvor lett det er å utføre imponerende kvantitativ analyse på falske premisser. De vanligste mønstertypene i økonomiske tidsrekker er lineær og eksponensiell trend, sesongvaria sjoner, konjunkturvariasjoner og korrelasjon mellom naboverdier sett i forhold til det generelle nivået.
331
Når du har funnet hvilke mønstertyper som gjør seg gjeldende, må du velge en tidsrekkemodell som du vet har iboende de samme mønstertyper. En tidsrekkemodell er en arbeidshypotese om en matematisk prosess som frembringer tidsrekke verdiene. Det finnes mange tidsrekkemodeller. Alle tidsrekkemodeller er karak terisert ved parametre. Når du har valgt tidsrekkemodelltype, tilpasses denne til de observerte verdier ved å estimere parametrene. Ofte skjer dette ved minste kvadra ters metode. Vi har lagt spesiell vekt på den klassiske, multiplikative modell, både fordi den er forholdsvis enkel, mye benyttet og fordi den ofte passer spesielt godt til økono miske tidsrekker. V = TtStCtIt Tt — ot + /3t Her ery tidsrekkeverdiene, T en lineær trend, k sesongindeks, C konjunkturindeks og I irregulært avvik. Estimeringen foregår på følgende måte:
1. 2. 3. 4. 5.
Isolering av TC-komponenten ved hjelp av glidende gjennomsnitt Estimering av trenden T ved minste kvadraters metode Beregning av sesongindeksene S ved gjennomsnitt over S7-tallene Isolering av C-indeksene ved C = TC / T Beregning av /-indeksene ved I — y / TCS
Det er alltid viktig å foreta en residualanalyse før man sier seg tilfreds med en modell. Residualene er det som den tilpassete modellen ikke har greid å forklare i de historiske observasjonene. Poenget er at det ikke bør være noe mønster igjen i residualene når du ser på dem som en tidsrekke. I så fall burde jo også det mønsteret ha vært forklart ved en modell. Er resultatet av residualanalysen tilfredsstillende, er du klar til å beregne prognosetall. Det skjer rett og slett ved åfremskrive de møn strene du har funnet. Dette vil ofte være et stort problem hvis konjunkturindeksene spiller en dominerende rolle. Et fornuftig alternativ er da å lage prognoser for ulike konjunkturscenarioer. På den måten kommer forutsetningene for prognosetallene bedre frem, og du står mindre laglig til for hogg når de viser seg å være gale. Det finnes tre feilkilder for prognosetall som under uheldige omstendigheter kan forsterke hverandre: irregulære avvik, modelltilpasningsfeil og modellvalgsfeil. I en viss grad kan en statistisk analyse av tilfeldig variasjon gi en pekepinn om stør relsesordenen til de to første feiltypene. Når det gjelder valg av modell, er infor masjon om tidsrekkens natur fra andre kilder enn de historiske data nyttig. Ved praktisk prognosering er det bortimot nødvendig å benytte datamaskin, gjeme med kommersielle tidsrekkeanalyseprogrampakker som det finnes mange av. Husk imidlertid på at det kun er ønsketenkning å tro at man kan putte historiske observasjoner inn i en datamaskin og få ferdige prognosetall ut. Prosessen må fo regå interaktivt, særlig ved valget av modell. Til slutt må vi igjen minne om at prognosetall ved tidsrekkeanalyse stort sett må sees på som et ledd i en mer omfattende prognoseringsprosess. Det finnes nesten 332
alltid mye betydningsfull informasjon av mer kvalitativ art som det er vanskelig å få med i kvantitativ analyse.
13.5 Oppgaver Øvelsesoppgave Bruk datafilen Kraft96 og utfør selv den samme analysen som vi har gjort i gjennomgangseksemplet i kapitlet. Analysen kan gjøres for hånd, med et regneark, eller for eksempel med et program som Statark. Arbeidsheftet viser hvordan Minitab og Statark kan benyttes til dette formålet.
Oppgave 1 Kraftforsyning i syttiårene Tabell 13-7 viser tall helt tilsvarende dem vi har arbeidet med i kapitlet, men for perioden 1975 til 1979. Tilpass en klassisk, multiplikativ modell, og sammenlign sesongindeksene og trenden med det vi har funnet for perioden 1991 til 1996. Hvilke kommentarer har du? Lag også prognoser for to år fremover. Tabell 13-7 Datafil E-Kraft. Historiske verdier for kraftforsyningen i Norge. Indeks: 1975 = 100. Kilde: Statistisk sentralbyrå. Indeks
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
1974 1975 1976 1977 1978 1979
111 117 124 120 123 141
113 118 126 115 129 135
110 108 123 106 120 124
98 108 108 97 110 112
91 87 92 85 91 101
85 83 88 81 85 96
77 72 76 65 77
81 80 87 68 82
93 93 101 83 95
108 103 103 95 105
114 115 111 116 126
113 118 117 116 141
Oppgave 2 Prisindeks for jordbruksprodukter Graf 13-4 og tabell 13-8 viser hvordan prisindeksen for jordbruksprodukter har utviklet seg i tidsrommet 1991 til 1996. Analyser dataene og ta stilling til om en klassisk modell ser brukbar ut. Tilpass modellen, og lag prognoser for to år frem over. Analyser også residualene og ta stilling til om de har et tilfredsstillende møns ter. Hvilke kommentarer har du om modellen i lys av at indeksene er laget i forhold til 1985 som er satt lik 100? Tabell 13-8 Prisindeks for jordbruksprodukter. 1985 = 100. Kilde: Statistisk årbok 1996 Indeks
Jan
Feb
Mar
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Des
1991 1992 1993 1994 1995
119 116 112 115 110
121 117 112 115 110
121 118 113 115 111
121 118 113 116 110
122 118 113 117 112
123 123 114 122 116
121 121 116 115 111
118 118 115 113 108
119 118 114 112 107
119 118 113 110 105
121 120 115 112 106
121 120 116 113 108
333
DEL 4 Avrunding 14 Valg av metode 15 Videre studium av statistikk
335
14 Valg av metode 14.1 Målenivå 14.2 Metodevalg
14.1 Målenivå Du har nå vært igjennom en rekke ulike statistiske metoder. Det er naturlig hvis du nå føler at du mangler oversikt og synes det er vanskelig å velge riktig metode til enhver tid. Det skal vi rette på i dette kapitlet. Utgangspunktet for valg av metode er de data du har. Du har sikkert lagt merke til at vi noen ganger har data i form av tellinger, andre ganger i form av rangeringer, men som regel i form av målinger. Dette kaller vi gjeme dataenes målenivå og har blitt gjennomgått i avsnitt 4.7. Målenivået er helt essensielt for valg av metode. Målenivået henger sammen med hvordan vi registrerer observasjonene på en skala i fonn av tall. Det er viktig at dette gjøres slik at de matematiske operasjoner vi etterpå ønsker å utføre, har mening i forhold til den måten observasjonene ble regi strert på. Målenivået begrenser derfor utvalget av statistiske metoder som kan an vendes. Eksempel Tenk deg at du har laget et spørreskjema der respondentene svarer om de er «helt uenig», «nokså uenig», «verken enig eller uenig», «nokså enig» eller «helt enig» i en påstand. Deretter går du rundt og intervjuer 100 mennesker. For å registrere svarene på en datamaskin, koder du de fem alternativene henholdsvis som A, B, C, D, E. Du kan nå selvsagt telle opp hvor mange svar du har fått av hver sort. La oss si resultatet er: Nominalskala:
Kode
A
B
C
D
E
Tellinger:
Antall
2
8
40
32
18
Nå kan du bruke statistiske metoder til for eksempel å beregne et konfidensintervall for E-andelen i populasjonen. Antall E-er er binomialfordelt. Siden vi har så mange
337
observasjoner, kan vi bruke normaltilnærmelsen til beregningen. Ved hjelp av me toden i kapittel 11.1 finner vi med n = 100 og a = 18 et 95 % konfidensintervall:
pE = 0,18 ± 0,075 Slik kunne vi gjøre for hver av kodene. Synes du dette var interessant? Vel - vi har jo egentlig mer informasjon. Det er liten grunn til å begrense oss til det laveste målenivået som tellinger utgjør, når observasjonene faktisk er ordnet. Vi vet jo atE representerer en større grad av enighet enn D, D større enn C osv. Da er det mer naturlig å rangere observasjonene: Ordinalskala:
Rang
1
2
3
4
5
Antall
2
8
40
32
18
Nå kan vi for eksempel lage et konfidensintervall for medianresponsen ved hjelp av ordningsobservatorene. Metoden i kapittel 3.3 gir for et 95 % konfidensintervall c = 40. Det vil si at konfidensintervallet for medianresponsen i populasjonen går fra 3 til 4 eller fra «verken enig eller uenig» til «nokså enig». Nå har vi brukt den metoden som er naturlig i forhold til det målenivået dataene ligger på, nemlig som ordnete eller rangerte observasjoner. Det er imidlertid fristende å beregne stikkprøvegjennomsnittet og så lage et kon fidensintervall for gjennomsnittssvaret i populasjonen ved hjelp av Students t. Da må dataene oppfattes som målinger. Intervallskala:
Verdi
1
2
3
4
5
Antall
2
8
40
32
18
Stikkprøvens gjennomsnitt og standardavvik er henholdsvis 3,56 og 0,95. Et tosi dig 95 % konfidensintervall for p basert på /-metoden i kapittel 10.3 blir:
M = 3,56 ± 0,19 Dette er jo ganske presist, men er det meningsfylt? Elva betyr en konfidensintervallvidde på 0,38? Egentlig har du observasjoner som kun er ordnet i forhold til hverandre. Du vet nemlig at «nokså enig» er mindre enig enn «helt enig», osv. Vi kaller dette observasjoner på en ordinalskala. Når du begynner å legge sammen observasjonene for å beregne gjennomsnitt, antar du i tillegg automatisk at av standen mellom «helt enig» og «nokså enig» er like stor som mellom «nokså enig» og «verken enig eller uenig», osv. rett og slett fordi du har tatt deg den frihet å sette disse «verdiene» på svarene. Dette ville i så fall være en intervallskala. Du kan likevel ikke være sikker på at dette er rimelig uten at du først har forsikret deg om at det faktisk er like stor psykologisk avstand mellom svaralternativene. Dessverre syndes det mye mot dette i praksis.
338
Nominal- eller kategoriskala Dette er det laveste målenivået. Vi registrerer kun hvilken kategori en observasjon faller i. For eksempel kan vi registrere hvorvidt en kunde er mann eller kvinne. Variabelen er da «kjønn», med to mulige «verdier» eller kategorier «mann» og «kvinne». Kategoriene står ikke i et ordnet forhold til hverandre. Vi kan vanskelig si at mann er mer enn en kvinne eller omvendt. Ordet «nominal» kommer av «navn». Vi har rett og slett kun navngitte kategorier. Selvfølgelig kan vi ha flere enn to kategorier. En annen variabel kan ha å gjøre med hvilken vare kunden kjø per: «varesort». Hver vare er da en kategori. Vi kaller observasjoner knyttet til nominalskalaer for «tellinger», fordi vi i prak sis må begrense oss til å telle opp hvor mange observasjoner som faller i hver kategori, - eller kategorikombinasjon, hvis vi har flere variabler. Med en variabel er som regel interessen vår knyttet til andelene til de ulike kate gorier. Med to kategorier bruker vi binomialfordelingen eller normaltilnærmelsen til en andel ved mange observasjoner. Med to variabler er vi ofte interessert i om det er sammenheng mellom dem; tenderer menn til å kjøpe en spesiell vare i forhold til kvinner? For 2 X 2-tabeller bruker vi Fishers eksakte test eller normaltilnærmelsen til to andeler hvis vi har mange data. For større tabeller bruker vi kji-kvadratfordelingen. Ordinalskala Ordinalskala er på det nest laveste målenivået. Variablenes «verdier» er i utgangs punktet stadig kategorier, men kategoriene er ordnet i forhold til hverandre. Det mest typiske eksemplet i våre fag er spørreskjemaer som nevnt i eksemplet over. Det at kategoriene er ordnet - «helt enig» er mer enn «nokså enig» betyr at vi kan rangere svarene. For eksempel: helt enig = 5, nokså enig = 4, verken enig eller uenig = 3, nokså uenig = 2, helt uenig = 1. Her gjelder det å passe på at disse tallene bare er ranger og ikke nødvendigvis verdier som vi kan regne med. Da må vi i så fall ha en intervallskala, som er neste nivå. Med observasjoner på ordinalskala, kan vi bruke medianen som observator. Ved én stikkprøve kan vi bruke ordningsobservatorene. Med utgangspunkt i parvise observasjoner bruker vi Wilcoxons tegnrangtest på differansene, og trenger egent lig bare å vite hvilken plass differansene kommer på når de ordnes, ikke hvor store de egentlig er. Ved to uavhengige stikkprøver bruker vi Mann-Whitneytesten.
Intervall- og forholdstallskala Intervallskalaer er på det nest høyeste målenivået. Her er observasjonene målinger i tonn av tall som kan plottes inn på en skala slik at avstanden mellom tallene har mening. Slike skalaer har en konstant måleenhet som gjør at vi kan beregne av standen mellom to vilkårlige punkter. Forholdet mellom to avstander vil være uav hengig av valg av måleenhet og nullpunkt. Det betyr at de fire regningsartene addi sjon, subtraksjon, multiplikasjon og divisjon kan utføres på en meningsfull måte på avstander mellom to punkter på skalaen. 339
Det mest vanlige eksempel på en intervallskala som ikke samtidig er en forholdstallskala, er temperaturskalaen. Vi observerer kvikksølvsøylen og noterer gradtallet der søylen ender. Det er like stor avstand mellom 5 og 10 grader som mellom 10 og 15 grader. Det gjelder enten vi måler i Fahrenheit eller Celsiusgrader, men lengden på søylen i seg selv har ingen mening. Den er ikke dobbelt så lang ved ti grader som ved fem, like lite som det er meningsfylt å si at det er dobbelt så varmt ved ti grader som ved fem. Det er dette som skiller en intervallskala fra en forholdstallskala som representerer det høyeste målenivået. Her har vi i tillegg et na turlig nullpunkt, slik at alle fire regningsartene kan anvendes ikke bare på inter valler, men også direkte på målingene. Meter, kilogram og kroner er eksempler på måleenheter for forholdstallsskalaer. For våre formål er det ikke nødvendig å skille mellom intervall- og forholdstalls skalaer. De resterende statistiske tester i dette pensumet - de som er knyttet til normalfordelingen og studentfordelingen - kan anvendes for begge skalaer. I statistiske anvendelser vil du ofte finne at responser på spørreskjemaer med ordnete rubrikker av typen «helt enig», «nokså enig» osv. blir benyttet som om det var målinger på en intervallskala. Det finnes metoder for å konstruere skalaene slik at rubrikkene faktisk får psykologisk like store avstander slik at dette rettferdig gjøres. I praksis hopper man som regel over dette. Dette kan gi misvisende resulta ter hvis den psykologiske avstanden mellom punktene er langt fra konstant. Hold et øye med dette og vær kritisk! Frivillig reduksjon av tnålenivå Selv om dataene foreligger på et høyt målenivå, kan man utmerket godt bruke metoder som kun forutsetter et lavere nivå. I prinsippet kaster man da bort infor masjon om dataene som burde kunne bli benyttet, men av og til kan det være direkte nyttig. Har du en stikkprøve med målinger (intervall eller forholdstall) og ønsker å teste på den sentrale tendens (gjennomsnitt eller median), er det naturlig å bruke /-testen. Da utnytter du målingene til det fulle, men du kan også bruke Wilcoxons tegn rangtest, eller ordningsobservatorene. Da utnytter du kun den innbyrdes rangerin gen av observasjonene du opererer på en ordinalskala. Til gjengjeld slipper du å bekymre deg for om gjennomsnittet er normalfordelt. Den bekymringen er størst ved få data. Wilcoxons tegnrangtest er dessuten ganske sterk, så du taper som regel lite på å velge den istedenfor. Har du to uavhengige stikkprøver med målinger, og ønsker å sammenligne po pulasjonenes beliggenhet, er det naturlig å benytte t-testen. Du kan også benytte Mann-Whitneytesten. Da registrerer du kun om et tall er større enn et annet, men ikke hvor mye større. Du opererer i realiteten på et ordinalt nivå, og slipper igjen å bekymre deg for om differansen til gjennomsnittene er normalfordelt. Mann-Whit neytesten er en relativt sterk test, og som regel å foretrekke fremfor Z-testen ved få data.
340
I lineær korrelasjonsanalyse undersøker vi om det er signifikant lineær sammen heng mellom to variabler. Egentlig er dette svært begrensende. Ofte vil det kunne være mer interessant å undersøke om det er en eller annen form for monoton sam menheng, men ikke nødvendigvis lineær. Med «monoton» menes at den ene stiger når den andre stiger, eller at den ene synker når den andre stiger, men ikke nødven digvis like fort hele tiden slik som når sammenhengen er lineær. Dette kan vi fak tisk få til på en meget enkel måte. Vi erstatter de opprinnelige x-målingene med sine ranger, og likeledes y-målingene med sine ranger. Deretter fortsetter vi på vanlig måte med lineær korrelasjonsanalyse, men på rangene istedenfor. Dette går bra så lenge vi har store stikkprøver (n > 30). Dette betyr at vi erstatter Pearsons korrelasjonskoeffisient - som er den vi har gjennomgått i kapittel 12.2 - med Spearmans. Eksempel: Pearsons og Spearmans korrelasjonskoeffisient y
8
64
27
1
216
729
512
125
343
x
2
4
6
8
10
12
14
16
18
Her tenderer y til å stige når x stiger, men sammenhengen er ikke overbevisende lineær. En lineær modell vil derfor neppe være god. Vi får en korrelasjonskoeffisi ent på 0,58 hvis vi regner den ut, men den er ikke signifikant forskjellig fra null. Det ser vi gjennom en test som gir en t = 1,86 mot en ta — 2,36 i en tosidig test på 5 %-nivået. Vi må altså beholde en hypotese om at p er null. Hvis vi imidlertid erstatter verdiene med deres ranger, får vi: 2 x
4
3
169857
123456789
Her er korrelasjonskoeffisienten lik 0,68. En test på om p = 0 er en test på om det er en lineær sammenheng mellom rangene. Den gir t — 2,48 som viser at vi må for kaste nullhypotesen i en tosidig test på 5 %-nivået. Altså er rangene lineært positivt korrelert, og vi har funnet aty stiger monotont med x i populasjonen. Siden vi nå har gitt avkall på de opprinnelige målingene, kan vi imidlertid ikke bruke dette resulta tet til for eksempel å lage prognoser for nyey-verdier basert på nye x-verdier. Alt vi kan si er at hvis en x-verdi er høyere enn en annen x-verdi, venter vi også aty-en til den siste x-verdien skal være høyere enny-en til den første. Vi trenger relativt store stikkprøver for at normaltilnærmelsen skal være bruk bar. Det er jo den vi indirekte benytter når vi tester på om korrelasjonskoeffisienten er null. Eksemplet ovenfor har egentlig for få data. Ved mindre stikkprøver finnes det imidlertid en spesiell tabell. Den forutsetter til gjengjeld at vi opererer med ranger, og da kalles gjeme korrelasjonskoeffisienten for Spearmans korrelasjons koeffisient. Tabellen er ikke tatt med i denne boken. Vår tradisjonelle lineære korrelasjonskoettisient kalles ofte Pearsons korrelasjonskoeffisient. De er definert likt, 341
men siden Spearman forutsetter at vi har med ranger å gjøre, finnes det en beregningsmessig enklere formel som har gitt koeffisienten sitt eget navn.
14.2 Metodevalg Når du skal bestemme deg for valg av statistisk metode, bør du vite hvilket målenivå dataene ligger på. Dessuten må du vite hvor mange variabler eller stikkprøver du har, og om det er parvise observasjoner. Med det utgangspunktet kan følgende tabell være nyttig: Målenivå
Nominal eller kategorisk
Ordinal eller ordnet
Intervall eller forholdstall
En stikkprøve
Binomisk p (6.2) En andel: Normaltilnærmelsen (H.l)
Ordningsobservatorene (3.3 og 7)
Students t (10.3)
To parvise stikkprøver
To uavhengige stikkprøver
Fortegnstesten (8.2) Students t for én Wilcoxons tegnrangtest stikkprøve på differansene (10.3) (8.3) Fishers test (8.5) Normaltilnærmelsen (H.2) Kji-kvadrat (11.3)
Mann-Whitneytesten (8.4)
Variansanalyse (10.5)
Flere uavhengige stikkprøver Målfor samvariasjon
Students t (10.4)
Spearmans rangordens korrelasjon (16.1)
Lineær regresjon og korrelasjon (12)
Du kan alltid benytte metoder beregnet på et lavere målenivå enn dataene dine er på, men ikke omvendt. Wilcoxons tegnrangtest vil for eksempel nesten alltid be nyttes med rådata på intervallnivå, men kan i prinsippet brukes direkte på ordnete forskjeller. Du kan bare bruke z- eller /-observatoren hvis stikkprøvene er store nok til at normaltilnærmelsen er tilfredsstillende. Er den ikke det, må du bruke metoder laget for lavere målenivå.
342
15 Videre studium av statistikk
1 denne boken har vi gjort statistikk så konkret som mulig. Vi har snakket om statis tisk inferens i forbindelse med stikkprøver fra populasjoner. Populasjoner har vi tenkt på som en samling tall skrevet på lapper i en urne. Det å ta en stikkprøve har vært det samme som å stikke hånden ned i urnen med bind for øynene og trekke ut et antall lapper. Stikkprøven vår er tallene som står på de lappene vi har trukket. Denne tankemessige enkle modellen har fungert bra i de fleste tilfeller, men ble litt anstrengt når vi snakket om terningkast eller aksjekurser. Da måtte vi tenke på urnen som noe som inneholdt resultatet av alle fremtidige terningkast eller alle fremtidige aksjekurser. Vi kalte dette for abstrakte populasjoner. Det finnes imidlertid en mer generell måte å beskrive det å ta stikkprøver på. Dette vil du sannsynligvis møte hvis du tar videregående kurs i statistikk eller i andre sammenhenger der statistikk brukes. Derfor er det greit å være forberedt slik at du ser sammenhengen mellom terminologien her og det du kan møte andre ste der. Det sentrale begrep er en stokastisk variabel. Stokastisk variabel
Uformell definisjon av stokastisk variabel En stokastisk variabel er en variabel som får ulike verdier der tilfeldigheter bestemmer verdiene.
Mer formelt sier man at en stokastisk variabel er en funksjon fra alle mulige utfall av et eksperiment til den reelle tallinje. Mer forståelig er det kanskje hvis du tenker på en stokastisk variabel som et symbol for den verdi du vil komme til å observere før du faktisk gjør eksperimentet. En stokastisk variabel beskrives gjennom sannsynlighetsfordelingen for de ulike verdier den kan ta. Dette svarer til å beskrive en populasjon gjennom andelene av de ulike tall i populasjonen.
343
Terminologi og symboler 1 en populasjon snakker vi om gjennomsnitt p., standardavvik crog varians cf. For en stokastisk variabel snakker vi omforventningsverdi E(X), standardavvik SD (X) og varians VAR (X). Innholdet er i realiteten det samme, men symbolene er forskjel lige. La oss repetere formlene for noen nøkkelparametre i en populasjon med gjen tatte verdier. Hyppigheten en verdi xz forekommer med kalles Az. Det totale antall verdier er N. Fra kapittel 9:
hfN er andelen av x-er med verdi xz i populasjonen. Dermed er sannsynligheten for å observere en x med verdi xz i en tilfeldig trekning selvfølgelig lik hfN. For en stokastisk variabel X, derp (xz) er symbol for sannsynligheten for å observere ver dien x, har vi derfor helt tilsvarende formler:
ew
= v
xtp (x
VAR(X =
V
Eksempel 1: Ett terningkast Eksperiment: Kast en terning. Den stokastiske variabel X symboliserer det antall øyne vi kommer til å observere. Resultatet av eksperimentet kan være X= 1, X = 2, etc. Vi kan lage en sannsynlighetsfordeling for denne stokastiske variabelen: P(X=x) = 1/63x = 1,2, 3,4, 5, 6
Dette betyr at sannsynligheten er lik 1/6 for at den stokastiske variabelen skal få en hvilken som helst av de mulige verdier. Dette er den uniforme fordeling. Vi finner: E (X) = 1 X 1/6 + 2 X 1/6 + ... + 6 X 1/6 = 3,5
VAR (X) = ((1 - 3,5)2 + (2 - 3,5)2 + ... + (6 - 3,5)2)/6 = 2,9 Nøyaktig det samme ville vi selvfølgelig få om vi brukte de populasjonsorienterte formlene. Da består populasjonen av verdiene 1, 2, 3, 4, 5 og 6.
344
Eksempel 2:12 terningkast Eksperiment: Kast en terning 12 ganger og observer Å" = antall ganger vi får 6 øyne. Sannsynlighetsfordelingen til denne stokastiske variabelen følger binomialforde lingen. Vi kan skrive:
Her kan vi sette inn ulike verdier av x (mellom 0 og 12) inn i formelen og derved beregne sannsynligheten for at den stokastiske variabelen skal få akkurat den ver dien. I dette tilfellet kan vi vise at:
/i = E (X) = np = 12 X 1/6 = 2 cr = VAR (X) = np (1 - p) = 10/6
Eksempel 3: Meningsmåling Eksperiment: Intervju folk om hvor mye de er villig til å betale for å redusere luft forurensningene med 5 % der de bor. Den stokastiske variabelen X representerer det svaret en tilfeldig person gir. Variabelen har en sannsynlighetsfordeling som svarer til fordelingen av betalingsvilligheter i populasjonen. Hvis x er betalings villighet pr. år, kan vi for eksempel tenke oss at vi kan beskrive populasjonen på følgende måte: Andel
10%
20%
50 %
10%
10%
x
0
500
1000
1500
2000
Med en stokastisk variabel kan vi bygge en modell for eksperimentet slik: P(X = .Y)
0,1
0,2
0,5
0,1
0,1
X
0
500
1000
1500
2000
345
Samvariasjon I studier av samvariasjon har vi ofte to variabler x og y som observeres over tid. Aksjekurser er et typisk eksempel. De utvikler seg etter hvert, og det er lite naturlig å tenke på dem som trekninger fra en allerede eksisterende abstrakt populasjon. Et prosessorientert perspektiv passer bedre, der x og v er gjentatte realisasjoner av to stokastiske variabler X og Y. Formlene for gjennomsnitt og varians vil da se an nerledes ut, selv om beregningene vil være de samme. I et populasjonsorientert perspektiv hadde vi for en veiet sum av to variabler:
z = ax + by pz = apx + b/jy cr = u2crt + brr2 + Zabo? Z
X
y
-yy
I et prosessorientert perspektiv kan vi bruke de samme formlene, men vi kan også skrive:
Z = aX+bY
E (Z) = aE (A) + bE (F) VAR (Z) = a2VAR (A) + b2VAR (F) + 2^COF(A, Y)
COV står her for kovarians og beregnes på tilsvarende måte som tidligere. Som du ser er alt dette i grunnen kjent. Det er hovedsakelig snakk om å skifte perspektiv. Istedenfor trekninger fra konkrete populasjoner, snakker vi om gjen tatte eksperimenter. Det svarer til et mer dynamisk, prosessorientert perspektiv og fører med seg ny terminologi og nye symboler, mens matematikken stadig er den samme.
346
DEL 5 Appendiks Appendiks Appendiks Appendiks Appendiks
1: 2: 3: 4:
Referanseliste Statarks datafiler med kildehenvisninger Spesielle symboler brukt i boken Tabeller
Appendiks 1 Referanser Referanser til kildene for datafilene er gitt under den enkelte datafil i appendiks 2. 1 Nemenyi, Dixon, White & Hedstrøm: Statistics from Scratch, Holden Day, Inc. 1977. 2 Lee Salk: «The Role of the Heartbeat in the Relation Between Mother and Infant», Scientific American, May 1973.
3 Erling Sverdrup: Lov og tilfeldighet, Bind 1, Universitetsforlaget 1964. 4 Gary Smith: StatisticalReasoning, Allyn and Bacon, Inc. London 1985.
5 Farmand nr. 31 d. 01.08.81. 6 Personlig kommunikasjon, Pål Jacobsen, Markeds- og mediainstituttet, Oslo.
7 Føllesdal, Walløe, Elster: Argumentasjonsteori, språk og vitenskapsfilosofi, Universitetsforlaget, Oslo 1984. 8 Veitrafikkulykker 1976 og 1977. Statistisk sentralbyrå.
9 R. Frank & W. Massey: «Shelf Position and Space Effects on Sales», Journal ofMarketing Research, Februar 1970, pp. 59-66. 10 Louis Bachelier, «Theory of Speculation» in P. Cootnered., The Random Character of Stock Market Prices, M.I.T. Press, Cambridge, Mass. 1964.
11 Paul Samuelsen, «Proof that Properly Anticipated Prices Fluctuate p Randomly», Industrial Management Review, Spring 1965, pp. 41—49.
12 P. Jennergren & P. Korsvold, «Price Formation in the Norwegian and Swedish Stock Markets- Some Random Walk tests. Swedish Journal ofEconomics, 76, 171-185. 13 0. Bøhren & D. Michalsen: Analyse av usikre investeringen, BI 1985. 14 Ingar Holme, Personlig kommunikasjon, medisinsk-statistiske institutt, Oslo.
Livsforsikringsselskapenes
349
Appendiks 2 Datafiler Appendikset viser hvor i boken dataene i de ulike datafilene er listet. De datafiler som ikke er listet noe annet sted, er listet nedenfor. Datafilene er også tilgjengelige elektronisk i Excel-format på datadisketten som følger med arbeidsheftet.
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30.
Datafil 500aldre: Datafil 500graldr: Datafil 9karakt: Datafil Avk_Risk: Datafil Barnett: Datafil Cornflak: Datafil Dekktryk: Datafil E-Kraft: Datafil Ekteskap: Datafil Enebolig: Datafil IKEA: Datafil Klima: Datafil Kraft96: Datafil Kreft: Datafil Lønn-85: Datafil Mnd- avk: Datafil Nytte: Datafil Oslo-Bor: Datafil Postskolen: Datafil Presse: Datafil Pris_ind Datafil Puls: Datafil Regnskap: Datafil Reiseliv: Datafil Rekrutt: Datafil Sivil96: Datafil Skoler: Datafil Tilsig: Datafil Tot_ind: Datafil Volvo:
Tabell 3-1 Tabell 9-1 Tabell 2-5 Tabell 12-11 Tabell 2-4 Tabell 4-7 Tabell 3-7 Tabell 13-7 Se nedenfor Tabell 7-3 Se nedenfor Se nedenfor Tabell 13-1 Se nedenfor Tabell 4-2 Se nedenfor Tabell 2-7 Se nedenfor Tabell 7-4 Tabell 12-10 Se nedenfor Tabell 2-3 Tabell 3-5 Tabell 2-1 Tabell 9-2 Tabell 10-4 (menn), Tabell 8-12 (kvinner) Tabell 12-3 Tabell 9-5 Se nedenfor Tabell 2-6
351
Datafil Ekteskap: Alderen til tidligere gifte kvinner som har giftet seg påny i 1976 og i 1911. Kilde: Statistisk Sentralbyrå
352
ALDER
1976
1911
ALDER
1976
1911
År 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
Antall 2 4 14 48 72 99 126 143 145 169 187 179 134 149 112 121 84 83 82 70 49 51 46 38 39 44 48 32 31 43 34
Antall 0 0 2 3 6 11 15 12 13 23 30 23 35 29 44 41 25 29 27 30 33 27 21 23 19 17 22 20 19 8 16
År 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
Antall 23 34 28 23 23 23 22 17 16 18 12 6 12 7 11 3 7 5 6 6 2 0 2 4 2 0 3 1 0 0 2
Antall 10 6 4 18 5 5 7 5 1 2 5 1 2 2 0 5 2 1 1 0 0 0 1 0 0 0 0 0 1 0 0
"
Datafil IKEA, priser på ulike varer i Sverige og i Norge (NOK). Kilde: Økonomisk Rapport 16-85 Vareslag
Boastad sofa Solliden sofa Lund sofa Gøteb.sofa Pohlen sofa Mahlung sofa Sultan madrass Pohlen sofa Bollmora sofa Poem hvilestol EM stol Bore stol General bord Ingo bord Espri vogn
Sverige
Norge
Vareslag
4800 2875 995 3750 1990 6995 874 990 1990 895 98 795 475 358 595
5415 3360 1295 4300 2590 7395 1165 1550 1935 1095 116 997 552 426 748
Micky speil Alg speil Gute kommode Lack bord Spel lampe Lack bord Korpi bord Ikea fasett Ikea kvadrat Kjellermaling Buster gulv Elsborg rye Hamadan teppe Kinesisk teppe Global lampe
Sverige
Norge
98 99 675 129 99 375 495 12825 12656 79 79 179 1190 3170 278
128 98 795 149 129 375 578 14086 14035 88 105 197 1190 3370 296
Datafil Klima: Årlig gjennomsnittstemperatur i Norge 1971 til 1993, målt på 10 ulike målestasjoner. Kilde: Meteorologisk Institutt.
År
°C
År
°C
År
°C
År
°C
1871 1872 1873 1874 1875 1876 1877 1878 1879 1880 1881 1882 1883 1884 1885 1886 1887 1888 1889 1890 1891 1892 1893 1894 1895 1896 1897 1898 1899 1900 1901
3,1 4,8 4,7 4,3 3,5 3,1 2,5 4 3 3,5 2 4,1 4,4 4,2 2,9 3,4 3,7 2,2 4,3 4,4 3,8 2,5 2,7 4,6 3,2 4,1 3,9 3,8 2,9 2,6 4
1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 1926 1927 1928 1929 1930 1931 1932
2,4 3,7 3,2 3,8 4 3,8 3,9 3 4,3 4,3 3,4 4,1 4,5 2,3 3,7 2,7 4 3 4,9 4,2 3,5 3,2 4 4 3,7 3,5 3,7 3,7 5,1 3,6 4,5
1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963
4,5 5,6 4,3 4,5 4,8 5,6 4,3 3,1 2,8 2,8 4,9 4,5 4,4 4,5 3,6 4,5 5 4,6 3,9 3,3 5,2 4,2 3 3,2 4,2 3,3 5 4,1 4,8 3,2 3,6
1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993
4,2 3,2 2,6 4,3 3,2 3,6 3,4 3,8 4,8 4,1 5,2 4,7 3,7 3,6 3,2 3,2 3,9 2,9 4,2 4,4 4,6 2,9 3,5 3,1 4,4 5,5 5,6 2,3 6 4,2
353
Datafil Kreft: Dødsfall pr. 100 000 innbygger på grunn av lungekreft, og årlig sigarettsalg pr. person i amerikanske stater. Kilde: The American Cancer Research Institute, 1966
Stat
Døde
Salg
Stat
Døde
Salg
Ala Ariz Ark Cal Conn Del DC Fla Ida Ill Ind Iowa Kans Ky La Main Md Mass Mich Minn Miss Mo
17,05 19,80 15,98 22,07 22,83 24,55 27,27 23,57 13,58 22,80 20,30 16,59 16,84 17,71 25,45 20,94 26,48 22,04 22,72 14,20 16,60 20,98
1820 2582 1824 2860 3110 3360 4046 2827 2010 2791 2618 2212 2184 2344 2158 2892 2591 2692 2496 2206 1608 2756
Mont Nebr Nev NJ NMex NY NDak Ohio Okla Pa RI SC SDak Tenn Tex Utah Vt Wash WVa Wis Wyo
19,50 16,70 23,03 25,95 14,59 25,02 12,12 21,89 19,45 22,11 23,68 17,45 14,11 17,60 20,74 12,01 21,22 20,34 20,55 15,53 15,92
2375 2332 4240 2864 2116 2914 1996 2638 2344 2378 2918 1806 2094 2008 2257 1400 2589 2117 2125 2286 2804
354
Datafil MndMvk: Månedlig avkastning (%) for Oslo Børs totalindeks, Norsk Hydro AS og Hafslund Nycomed A. Kilde: Bent Arne Ødegaard, BI År,mnd
Børs
Hydro
Hafslund Nycomed
År,mnd
Børs
Hydro
Hafslund Nycomed
1983,02 1983,03 1983,04 1983,05 1983,06 1983,07 1983,08 1983,09 1983,10 1983,11 1983,12 1984,01 1984,02 1984,03 1984,04 1984,05 1984,06 1984,07 1984,08 1984,09 1984,10 1984,11 1984,12 1985,01 1985,02 1985,03 1985,04 1985,05 1985,06 1985,07 1985,08 1985,09 1985,10 1985,11 1985,12 1986,01 1986,02 1986,03 1986,04 1986,05 1986,06 1986,07 1986,08 1986,09 1986,10 1986,11 1986,12 1987,01 1987,02
8,71 7,24 15,87 -0,73 0,43 9,40 0,69 3,30 -1,13 0,86 7,58 13,70 -0,48 8,09 7,59 -2,18 -13,52 3,63 5,88 -3,10 5,61 -3,91 3,15 13,91 -3,35 -3,82 5,76 3,84 -4,43 4,42 0,91 3,23 7,75 3,01 -2,56 -4,85 -3,54 -2,77 —4,01 2,46 5,40 -6,03 7,62 -0,56 1,16 1,87 -4,94 2,18 2,70
5,95 5,26 30,83 1,66 12,99 17,24 6,47 -1,47 -8,60 1,23 1,01 16,00 0,86 -1,03 14,85 2,85 -13,48 -7,36 18,88 -1,26 -1,27 -15,32 -6,67 8,16 0,00 -1,89 14,90 -4,78 -9,59 9,09 -0,93 7,94 30,74 -0,33 -2,33 -6,80 -4,01 1,52 -1,87 26,00 6,67 -22,02 18,32 -6,45 1,03 1,71 -3,69 -2,44 10,71
-2,72 19,55 23,64 11,86 -3,41 -0,39 -5,12 6,54 6,94 1,15 22,64 -0,31 -1,23 11,88 4,75 -14,51 -12,70 17,09 1,86 -0,91 24,62 0,49 1,97 46,99 -10,66 -8,26 13,20 7,07 -7,00 17,20 12,29 2,94 5,98 0,78 3,23 -6,11 -8,73 -9,57 -6,15 -2,46 2,13 -9,58 4,15 4,65 -2,54 12,80 -4,42 11,47 8,30
1989,08 1989,09 1989,10 1989,11 1989,12 1990,01 1990,02 1990,03 1990,04 1990,05 1990,06 1990,07 1990,08 1990,09 1990,10 1990,11 1990,12 1991,01 1991,02 1991,03 1991,04 1991,05 1991,06 1991,07 1991,08 1991,09 1991,10 1991,11 1991,12 1992,01 1992,02 1992,03 1992,04 1992,05 1992,06 1992,07 1992,08 1992,09 1992,10 1992,11 1992,12 1993,01 1993,02 1993,03 1993,04 1993,05 1993,06 1993,07 1993,08
4,28 2,35 -12,22 2,53 8,63 7,72 7,02 3,08 -5,08 8,16 -4,50 7,38 -8,45 -10,60 -5,68 -4,27 -6,39 -7,04 11,88 3,70 -2,71 6,92 -2,75 2,78 1,90 -5,66 -5,22 -15,21 4,55 8,06 -7,74 3,08 4,21 1,85 -10,65 -4,93 -16,77 3,45 6,61 2,06 3,67 2,70 4,80 11,10 7,26 -0,59 2,75 9,01 7,49
4,65 -5,40 -5,70 8,19 10,20 6,27 10,67 2,28 -3,97 8,44 -5,60 10,31 5,61 0,88 -10,75 -3,69 -8,16 -10,00 12,65 3,56 -1,46 12,64 -8,29 -1,06 5,11 -5,37 -10,27 -21,39 4,98 7,30 -6,46 13,09 13,50 2,31 -12,15 -5,47 -7,82 3,32 -5,36 11,32 2,71 4,95 2,20 4,31 3,24 5,23 -2,49 9,35 4,15
-1,90 -6,45 -4,14 -0,72 -2,17 22,59 -0,91 -0,61 -0,61 6,94 -1,16 0,59 -3,51 -15,15 2,14 0,00 4,90 -1,33 13,85 5,04 3,39 10,79 -2,99 8,72 8,02 -2,84 6,52 -5,06 4,89 13,56 -6,72 -1,20 -1,62 9,15 -9,70 4,03 -9,68 -5,71 4,92 1,08 -1,07 3,25 -5,24 8,49 0,68 -13,38 -5,56 -5,88 15,63 Forts.
355
År,mnd
Børs
Hydro
Hafslund Nycomed
År,mnd
Børs
Hydro
Hafslund Nycomed
1987,03 1987,04 1987,05 1987,06 1987,07 1987,08 1987,09 1987,10 1987,11 1987,12 1988,01 1988,02 1988,03 1988,04 1988,05 1988,06 1988,07 1988,08 1988,09 1988,10 1988,11 1988,12 1989,01 1989,02 1989,03 1989,04 1989,05 1989,06 1989,07
4,01 5,40 0,57 1,70 10,41 8,90 5,65 -27,42 -17,75 -1,19 3,13 6,14 7,58 0,27 -4,24 4,99 1,66 -7,97 3,40 3,11 4,40 11,40 17,45 2,51 9,02 6,33 4,11 -1,51 3,42
10,32 10,23 9,51 4,96 13,95 6,22 -1,56 -27,58 -25,48 3,31 11,39 11,82 11,71 7,93 -4,31 15,16 2,31 -7,00 3,88 -5,14 4,93 10,80 21,19 4,55 12,71 5,49 -6,32 3,37 -10,68
9,33 7,01 5,41 6,27 27,18 24,50 -2,02 -35,54 -6,41 18,49 6,36 5,22 8,47 6,67 11,96 6,92
1993,09 1993,10 1993,11 1993,12 1994,01 1994,02 1994,03 1994,04 1994,05 1994,06 1994,07 1994,08 1994,09 1994,10 1994,11 1994,12 1995,01 1995,02 1995,03 1995,04 1995,05 1995,06 1995,07 1995,08 1995,09 1995,10 1995,11 1995,12 1996,01 1996,02
-4,62 12,69 -6,10 6,34 11,79 -0,02 -6,44 -1,09 0,55 -5,40 7,68 -0,74 -7,93 1,93 3,16 5,23 -0,59 -2,46 -4,68 8,69 2,64 3,51 2,28 0,57 2,20 -4,29 2,17 1,73 1,92 1,18
-2,49 12,24 -4,09 1,18 19,91 3,13 -12,12 6,25 -0,76 -7,40 16,90 2,15 -4,78 5,82 -1,71 2,70 - -0,75 -7,20 -5,92 9,98 3,25 0,39 4,45 0,56 -0,74 -7,98 4,64 2,50 0,75 1,31
-0,77 6,61 -20,07 10,96 13,99 5,42 -8,90 -9,77 -1,33 5,26 5,00 2,38 -13,18 5,80 9,70 11,54 0,00 -10,34 -3,85 10,00 0,99 8,21 5,17 0,98 9,09 5,95 -5,62 -1,49 11,18 -1,09
356
-3,69
-11,30 10,53 21,60 8,27 11,11 8,13 -12,14 9,21 -1,05 -13,76 1,77 10,10
Datafil Oslo-Bor: Oslo Børs 22.04.96: Avkastninger hittil i året for Industri, handel og finans og for Små og mellomstore bedrifter. Kilde: Aftenposten 22.04.96, OBIA/S Industri, handel, finans
Adressavisen Aker A Aker B Alcatel STK Arendals Fossekompani Avantor Bjølvefossen Blom Braathens SAFE DNLB DNO Dyno Industrier Ekomes Elkem Elkjøp Norge Fesil Fiba Goodtech Gresvig Hafslund Nycomed A Hafslund Nycomed B Helicopter Service Hunsfos Industriinvestor Kongsberggruppen Kverneland Kværner A Kværner B Maritime Group Merkantildata Micro software Moelven Industrier Nera Norsk Hydro Norsk Vekst Norske skog A Norske skog B Nydalens Compagnie Olav Thon Eiendom Orkla A Orkla B Petroleum Geo Porsgrunn Porseleen Raufoss Rieber & Sønn A Rieber & Sønn B Saga Petroleum A Saga Petroleum B
12,07 47,9 46,75 9,59 -7,48 7,8 0 3,41 -4,73 16,55 66,67 -2,39 27,07 23,78 -24,53 32,48 34,47 37,17 0,52 8,79 8,44 -1,96 -10,2 -2,33 17,43 19,67 15,02 16,59 80,49 -10 2,33 0 22,63 12,97 10,41 10,75 10,86 13,1 14,29 4,45 2,66 5,73 0 -7,44 7,92 4,69 7,69 8,92
Sagatex Scana Industrier Schibsted SE labels Selmer Simrad A Simrad B Simrad optronics Sinus industrier Skiens Aktiemølle Steen & Strøm invest Stentofon Tandberg Tandberg data Tomra Systems C .Tybring-Gj edde Unitor Veidekke Små og mellomstore bedrifter Adelsten A Adelsten B Alphatron industrier ARK Atlantic Container Line Axis Biochemicals Brøvig Offshore Bøhler-gruppen Fosen Trafikk-lag Fountain Oil Hard.Sunnh.DS Hitec HÅG Industribygningen Jøtul Kenor Kongsberg automotive Kristiansand dyrepark Legra Maritime investfund Multisoft Namsos Trafikkselskap Oslo reinsurance Rica Hotell Ringcom Santech SensoNor Spectec Stavanger aftenblad TTS Technology Voss Veksel
41,67 49,21 3,51 -9,09 10,53 65,28 67,61 0 240 11,36 12,76 -50 24,32 58,76 22,73 17,14 16,09 17,6
60 50,4 287,88 13,59 -5,06 1,63 0 13,68 7,41 -10,71 13,98 -16,25 31,16 26,67 -7,14 12,3 -16,1 12,5 112 -1,49 102,59 -25 -5,5 6,98 33,82 16,36 17,65 117,85 -8 35 0,34
357
Datafil PrisMnd: Månedlig konsumprisindeks i januar (1979 = 100). Kilde: Statistisk Sentralbyrå
År 19-
Indeks
År 19-
Indeks
År 19-
Indeks
40 50 60 70 75 80
13,1 19,6 31,9 48 71 104
85 86 87 88 89 90
166,3 176,2 192,9 206,4 217,1 226,3
91 92 93 94 95 96
235,4 241,1 247,2 250,4 257 260
Datafil TotDnd: Månedlig avkasting på Oslo Børs Totalindeks februar 1983 til februar 1996. Kilde: Bent Arne Ødegaard, BI. E = endring.
År.Mnd
Avk.
Ind.
E
83.2 8,71 7,24 3 4 15,87 5 -0,73 0,43 6 7 9,40 0,69 8 3,30 9 10 -1,13 11 0,86 12 7,58 84.1 13,70 2 -0,48 3 8,09 4 7,59 5 -2,18 6 -13,52 7 3,63 5,88 8 9 -3,10 10 5,61 11 -3,91 12 3,15 13,91 85.1 2 -3,35 -3,82 3 4 5,76 3,84 5 4.43 6 7 4,42 8 0,91 3,23 9 7,75 10 11 3,01 12 -2,56 86.1 -4,85 2 -3,54 -2,77 3 4 -4,01
109 117 135 134 135 147 148 153 151 153 164 187 186 201 216 212 183 190 201 195 205 197 204 232 224 216 228 237 226 236 239 246 265 273 266 253 244 238 228
6 8 18 -1 1 13 1 5 -2 1 12 23 -1 15 15 -5 -29 7 11 -6 11 -8 6 28 -8 -9 12 9 -10 10 2 8 19 8 -7 -13 -9 -7 -10
År. Mnd
Avk.
Ind.
E
1,70 286 10,41 7 8,90 8 5,65 9 10 -27,42 11 -17,75 12 -1,19 3,13 88.1 2 6,14 7,58 3 4 0,27 -4,24 5 4,99 6 7 1,66 8 -7,97 3,40 9 10 3,H 11 4,40 12 11,40 17,45 89.1 2 2,51 9,02 3 4 6,33 5 4,11 6 -1,51 3,42 7 8 4,28 2,35 9 10 -12,22 2,53 11 8,63 12 7,72 90.1 7,02 2 3,08 3 4 -5,08 8,16 5 6 -4,50 7 7,38 8 -8,45
5 315 343 363 263 217 214 221 234 252 253 242 254 258 238 246 253 264 295 346 355 387 411 428 422 436 455 465 409 419 455 490 525 541 513 555 530 569 521
10 30 28 19 -99
-3 7 14 18 1 -11 12 4 -21 8 8 11 30 51 9 32 24 17 -6 14 19 11 -57 10 36 35 34 16 -27 42 -25 39 -48
År.Mnd
-5,22 11 12 92.1 23 4 5 6 7 8 9 10 11 12 93.1 2 3 4 5 6 7 8 9 10 11 12 94.1 2 3 4 5 6 7 8 9 10 11 12
Avk.
Ind.
E
402 -15,21 4,55 8,06 -7,74 3,08 4,21 1,85 -10,65 -4,93 -16,77 3,45 6,61 2,06 3,67 2,70 4,80 11,10 7,26 -0,59 2,75 9,01 7,49 -4,62 12,69 -6,10 6,34 11,79 -0,02 -6,44 -1,09 0,55 -5,40 7,68 -0,74 -7,93 1,93 3,16 5,23
-22 341 357 386 356 367 382 389 348 331 275 285 303 310 321 330 346 384 412 409 421 458 493 470 530 497 529 591 591 553 547 550 520 560 556 512 522 538 567
-61 16 29 -30 11 15 7 -41 -17 -55 9 19 6 11 9 16 38 28 -2 11 38 34 -23 60 -32 32 62 0 -38 -6 3 -30 40 —4 -44 10 16 28
Forts.
358
År.Mnd
Avk.
Ind.
E
5 6 7 8 9 10 11 12 87.1 2 3 4 5
2,46 5,40 -6,03 7,62 -0,56 1,16 1,87 -4,94 2,18 2,70 4,01 5,40 0,57
234 246 231 249 248 251 255 243 248 255 265 279 281
6 13 -15 18 -1 3 5 -13 5 7 10 14 2
År.Mnd
Avk.
Ind.
E
År.Mnd
Avk.
Ind.
E
9 -10,60 10 -5,68 11 -4,27 12 -6,39 -7,04 91.1 2 11,88 3 3,70 4 -2,71 5 6,92 6 -2,75 7 2,78 8 1,90 9 -5,66
466 440 421 394 366 410 425 413 442 430 442 450 425
-55 -26 -19 -27 -28 43 15 -12 29 -12 12 8 -25
95.1 2 3 4 5 6 7 8 9 10 11 12 96.1 2
-0,59 -2,46 -4,68 8,69 2,64 3,51 2,28 0,57 2,20 -4,29 2,17 1,73 1,92 1,18
563 549 524 569 584 605 618 622 636 608 622 632 644 652
-3 -14 -26 45 15 20 14 4 14 -27 13 11 12 8
359
Appendiks 3 Spesielle symboler brukt i boken A’
Komplement. Mengden av de elementer som er i S, men ikke i A.
A Pl B
Snitt. Mengden av de elementer som er felles for mengdene A og B.
AU B
Union. Mengden av de elementer som er i minst en av de to mengdene A og B.
a
(Gresk bokstav, alfa.} Sannsynlighet for å ta feil ved ensidig konfidensintervall og hypoteseprøving. 2o betyr at den er tosidig. Ved bruk av normal- eller student-fordelingen fremkommer a som en halesannsynlighet.
b
Stigningskoeffisienten til regresjonslinjen i stikkprøven.
[3
(Gresk bokstav, beta.} Stigningskoeffisienten til regresjons linjen i populasjonen
C
Konjunkturindeks i den klassiske multiplikative modell.
c
Kritisk verdi i forbindelse med ordningsobservatorer.
e
Tilfeldig avvik for en verdi i stikkprøven fra linjen Y= a + bX.
e
(Gresk bokstav, epsilon.} Tilfeldig avvik for en verdi i popu lasjonen fra linjen Y = a + f3X.
G
o
Fr (A)
Andelsen av As elementer i E. Fr (A) = A(A) . v
7
7V(E)
H, Ho
Nullhypotese. Arbeidshypotesen under hypoteseprøving som man ikke forkaster før bevismaterialet mot den er over veldende.
H], Ha
Alternativet til Ho. A forkaste Ho er å erklære Hj for sann.
o
I
Irregulært avvik i den klassiske multiplikative modell.
L
Konfidensintervallets vidde = 2 ganger slingringsmonnet.
361
/z
(Gresk bokstav, my.) Populasjonsgjennomsnittet. /zv, /z_, /z_
_ , etc. benyttes for å vise hvilken populasjon gjen
nomsnittet gjelder for. Er indeksen sløyfet, er /z populasjonen av x-er. /x
n, N N (A)
Populasjonsmedianen.
Antall verdier i henholdsvis stikkprøven og populasjonen. Antall elementer i A. Kombinasjoner. Antall måter n elementer kan velges ut blant A på, uordnet og uten tilbaketegning.
C‘^=
(N\ = \n/
pN
nl(N~N)l
Kombinasjoner, ordnet og uten tilbakelegging.
pN = (N- 1) (A — 2) ... (A — « + 1) v
(Gresk bokstav, ny.) Antall frihetsgrader i kji-kvadrat- og student-fordelingen.
P
Signifikanssannsynligheten. Sannsynligheten under hypo teseprøving for en minst like ekstrem verdi som den obser verte.
p
Sannsynligheten for et vellykket utfall (JA) ved binomiske forsøk. Med andre ord: JA-andelen i populasjonen.
P
Sannsynlighet.
P (A | B)
362
Betinget sannsynlighet. Sannsynligheten for at vi er i A når vi vet at vi er i B.
r
korrelasjonskoeffisienten i en stikkprøve
p
(Gresk bokstav, ro.) Korrelasjonskoeffisienten i populasjo nen.
S
Sesongindeks i den klassiske multiplikative modell.
a
Standardavviket til N tall.
5
Stikkprøveestimat for populasjonsstandardavviket.
■s = \ —~— X (x — x)2 \ n— 1
X
(Gresk, stor boktav, sigmci.) Sum. Xx betyr at alle x-verdiene skal summeres. Av sammenhengen vil det fremgå hvilke det dreier seg om. Kan det være tvil, benyttes indeks i. For X] = 1, x2 = 3, x3 = 10, x4 = 5 er 4
Xx =
y
Xi =
1 + 3 + 10 + 5 = 19
i= 1
4 £
= 3 + 10 + 5 = 18,
X,
i=2
3
V xz- = 1 + 3 + 10 = 14, etc. i= i
T
Trendverdi i den klassiske multiplikative modell.
t
Student-fordelt variabel
ta
o-fraktilen under Student-fordelingen.
(x, y)
Observasjonspar. To samtidige eller sammenhørende ver dier.
x
Observasjonsverdi. xz er den z-te observasjonen i en stikk prøve. X(i) ogx(,) er den z-te minste og den z-te største verdi i stikkprøven.
x
Gjennomsnittsverdien i en stikkprøve. n
x
Medianen i en stikkprøve. Den midterste verdien i stikkprø ven når verdiene er ordnet og n er et oddetall. Er n er partall er medianen x gjenomsnittet av de to midterste verdiene.
X2
kji-kvadrat (y er gresk bokstav, kji.) Observatorverdi i kjikvadrattesten. 363
y
Tilpasset verdi, beregnet på grunnlag av observasjonene.
z
Standard normalfordelt variabel. X — /Ju z — --------(J
364
za
u-frakt i len under normalfordelingen.
0
Den tomme mengde. N(0) — 0
!
Fakultet. n! = n(n — 1) (rø — 2) ... 1. Eks.: 5! = 5- 4- 3- 2- l = 120.
Appendiks 4 Tabeller Tabell 1 De binomiske koeffisienter ( "). a n
0
1
2
4
3
5
6
7
8
9
10
n
0 1 2 3 4
1 1 1 1 1
1 2 3 4
1 3 6
1 4
1
5 6 7 8 9
1 1 1 1 1
5 6 7 8 9
10 15 21 28 36
10 20 35 56 84
5 15 35 70 126
1 6 21 56 126
1 7 28 84
1 8 36
1 9
1
10 11 12 13 14
1 1 1 1 1
10 11 12 13 14
45 55 66 78 91
120 165 220 286 364
210 330 495 715 1001
252 462 792 1287 2002
210 462 924 1716 3003
120 330 792 1716 3432
45 165 495 1287 3003
10 55 220 715 2002
1 11 66 286 1001
10 11 12 13 14
15 16 17 18 19
1 1 1 1 1
15 16 17 18 19
105 120 136 153 171
455 560 680 816 969
1365 1820 2380 3060 3876
3003 4368 6188 8568 11628
5005 8008 12376 18564 27132
6435 11440 19448 31824 50388
6435 12870 24310 43758 75582
5005 11440 24310 48620 92378
3003 8008 19448 43758 92378
15 16 17 18 19
20 21 22 23 24
1 1 1 1 1
20 21 22 23 24
190 210 231 253 276
1140 1330 1540 1771 2024
4845 5985 7315 8855 10626
15504 20349 26334 33649 42504
38760 54264 74613 100947 134596
77520 116280 170544 245157 346104
125970 203490 319770 490314 735471
167960 293930 497420 817190 1307504
184756 352716 646646 1144066 1961256
20 21 22 23 24
25 26 27 28 29
1 1 1 1 1
25 26 27 28 29
300 325 351 378 406
2300 2600 2925 3276 3654
12650 14950 17550 20475 23751
53130 65780 80730 98280 118775
177100 230230 296010 376740 475020
480700 657800 888030 1184040 1560780
1081575 1562275 2220075 3108105 4292145
2042975 3124550 4686825 6906900 10015005
3268760 5311735 8436285 13123110 20030010
25 26 27 28 29
30 31 32 33 34
1 1 1 1 1
30 31 32 33 34
435 465 496 528 561
4060 4495 4960 5456 5984
27405 31465 35960 40920 46376
142506 169911 201376 237336 278256
593775 736281 906192 1107568 1344904
2035800 2629575 3365856 4272048 5379616
5852925 7888725 10518300 12884156 18156204
14307150 20160075 28048800 38567100 52451256
30045015 44352165 64512240 92561040 131128140
30 31 32 33 34
35 36 37 38 39
1 1 1 1 1
35 36 37 38 39
595 630 666 703 741
6545 7140 7770 8436 9139
52360 58905 66045 73815 82251
342632 376992 435897 501942 575757
1623160 1947792 2324784 2760681 3262623
6724520 8347680 10295472 12620256 15380937
40 41 42 43 44
1 1 1 1 1
40 41 42 43 44
780 820 861 903 946
9880 10660 11480 12341 13244
91390 101270 111930 123410 135751
a
0
1
2
0 1 2 3 4
•
3
4
tusen (avrundet til nærmeste tusentall).
658* 749* 851* 962* 1086*
5
3838* 4496* 5246* 6096* 7059* 6
18644* 22482* 26978* 32224* 38321* 7
5 6 7 8 9
23356* 30260* 38608* 48903* 61524*
70607 * 94143* 124404* 163012* 211915*
183579* 254187* 348330* 472734* 635745*
35 36 37 38 39
76905* 95548* 118030* 145009* 177233*
273439* 350344* 445892 * 563922* 708930*
847660* 1121099* 1471443* 1917335* 2481257*
40 41 42 43 44
8
9
10
365
Tabell 2, side 1 Binomiske sannsynligheter. P(a) — (
— p)n a
n
a
.05
.10
.15
.20
.25
P .30
.35
.40
.45
.50
.60
a
1
0
.9500
.9000
.8500
.8000
.7500
.7000
.6500
.6000
.5500
.5000
.4000
0
1
.0500
.1000
.1500
.2000
.2500
.3000
.3500
.4000
.4500
.5000
.6000
1
0
.9025
.8100
.7225
.6400
.5625
.4900
.4225
.3600
.3025
.2500
.1600
0
1 2
.0950 .0025
.1800 .0100
.2550 .0225
.3200 .0400
.3750 .0625
.4200 .0900
.4550 .1225
.4880 .1600
.4950 .2025
.5000 .2500
.4800 .3600
1 2
0
.8574
.7290
.6141
.5120
.4219
.3430
.2746
.2160
.1664
.1250
.0640
0
1 2 3
.1354 .0071 .0001
.2430 .0270 .0010
.3251 .0574 .0034
.3840 .0960 .0080
.4219 .1406 .0156
.4410 .1890 .0270
.4436 .2389 .0429
.4320 .2880 .0640
.4084 .3341 .0911
.3750 .3750 .1250
.2880 .4320 .2160
1 2 3
0
.8145
.6561
.5220
.4096
.3164
.2401
.1785
.1296
.0915
.0625
.0256
0
1 2 3 4
.1715 .0135 .0005 .0000
.2916 .0486 .0036 .0001
.3685 .0975 .0115 .0005
.4096 .1536 .0256 .0016
.4129 .2109 .0469 .0039
.4116 .2646 .0756 .0081
.3845 .3105 .1115 .0150
.3456 .3456 .1536 .0256
.2995 .3675 .2005 .0410
.2300 .3750 .2500 .0625
.1536 .3456 .3456 .1296
1 2 3 4
0
.7738
.5905
.4437
.3277
.2373
.1681
.1160
.0778
.0503
.0313
.0102
0
1 2 3 4 5
.2036 .0214 .0011 .0000 .0000
.3281 .0729 .0081 .0004 .0000
.3915 .1382 .0244 .0022 .0001
.4096 .2048 .0512 .0064 .0003
.3955 .2637 .0879 .0146 .0010
.3602 .3087 .1323 .0283 .0024
.3124 .3364 .1811 .0488 .0053
.2592 .3456 .2304 .0768 .0102
.2059 .3369 .2757 .1128 .0185
.1563 .3125 .3125 .1562 .0312
.0768 .2304 .3456 .2592 .0778
1 2 3 4 5
0
.7351
.5314
.3771
.2621
.1780
.1176
.0754
.0467
.0277
.0156
.0041
0
1 2 3 4 5
.2321 .0305 .0021 .0001 .0000
.3543 .0984 .0146 .0012 .0001
.3993 .1762 .0415 .0055 .0004
.3932 .2458 .0819 .0154 .0015
.3560 .2966 .1318 .0330 .0044
.3025 .3241 .1852 .0595 .0102
.2437 .3280 .2355 .0951 .0205
.1866 .3110. .2765 .1382 .0369
.1359 .2780 .3032 .1861 .0609
.0938 .2344 .3125 .2344 .0937
.0369 .1382 .2765 .3110 .1866
1 2 3 4 5
6
.0000
.0000
.0000
.0001
.0002
.0007
.0018
.0041
.0083
.0156
.0467
6
0
.6983
.4783
.3206
.2097
.1335
.0824
.0490
.0280
.0152
.0078
.0016
0
1 2 3 4 5
.2573 .0406 .0036 .0002 .0000
.3720 .1240 .0230 .0026 .0002
.3960 .2097 .0617 .0109 .0012
.3670 .2753 .1147 .0287 .0043
.3115 .3115 .1730 .0577 .0115
.2471 .3177 .2269 .0972 .0250
.1848 .2985 .2679 .1442 .0466
.1306 .2613 .2903 .1935 .0774
.0872 .2140 .2918 .2388 .1172
.0547 .1641 .2734 .2734 .1641
.0172 .0774 .1935 .2903 .2613
1 2 3 4 5
6 7
.0000 .0000
.0000 .0000
.0001 .0000
.0004 .0000
.0013 .0001
.0036 .0002
.0084 .0006
.0172 .0016
.0320 .0037
.0547 .0078
6 7
.05
.10
.15
.20
.25
.30
.35
.40
.45
.50
.1306 .0280 .60
2
3
4
5
6
7
|
p
Forts.
366
Tabell 2, side 2 Binomiske sannsynligheter, fortsettelse. P(rz) = (" )/?"(! — p)n~a
n
a
.05
.10
.15
.20
.25
P .30
.35
.40
.45
.50
.60
a
8
0
.6634
.4305
.2725
.1678
.1001
.0576
.0319
.0168
.0084
.0039
.0007
0
1 2 3 4 5
.2793 .0515 .0054 .0004 .0000
.3826 .1488 .0331 .0046 .0004
.3847 .2376 .0839 .0185 .0026
.3355 .2936 .1468 .0459 .0092
.2760 .3115 .2076 .0865 .0231
.1977 .2965 .2541 .1361 .0467
.1373 .2587 .2786 .1875 .0808
.0896 .2090 .2787 .2322 .1239
.0548 .1569 .2568 .2627 .1719
.0313 .1094 .2188 .2734 .2188
.0079 .0413 .1239 .2322 .2787
1 2 3 4 5
6 7 8
.0000 .0000 .0000
.0000. .0000 .0000
.0002 .0000 .0000
.0011 .0001 .0000
.0038 .0004 .0000
.0100 .0012 .0001
.0217 .0033 .0002
.0413 .0079 .0007
.0703 .0164 .0017
.1094 .0312 .0039
.2090 .0896 .0168
6 7 8
0
.6302
.3874
.2316
.1342
.0751
.0404
.0207
.0101
.0046
.0020
.0003
0
1 2 3 4 5
.2985 .0629 .0077 .0006 .0000
.3874 .1722 .0446 .0074 .0008
.3679 .2597 .1069 .0283 .0050
.3020 .3020 .1762 .0661 .0165
.2253 .3003 .2336 .1168 .0389
.1556 .2668 .2668 .1715 .0735
.1004 .2162 .2716 .2194 .1181
.0605 .1612 .2508 .2508 .1672
.0339 .1110 .2119 .2600 .2128
.0176 .0703 .1641 .2461 .2461
.0035 .0212 .0743 .1672 .2508
1 2 3 4 5
6 7 8 9
.0000 .0000 .0000 .0000
.0001 .0000 .0000 .0000
.0006 .0000 .0000 .0000
.0028 .0003 .0000 .0000
.0087 .0012 .0001 .0000
.0210 .0039 .0004 .0000
.0424 .0098 .0013 .0001
.0743 .0212 .0035 .0003
.1160 .0407 .0083 .0008
.1641 .0703 .0176 .0020
.2508 .1612 .0605 .0101
6 7 8 9
0
.5987
.3487
.1969
.1074
.0563
.0282
.0135
.0060
.0025
.0010
.0001
0
1 2 3 4 5
.3151 .0746 .0105 .0010 .0001
.3874 .1937 .0574 .0112 .0015
.3474 .2759 .1298 .0401 .0085
.2684 .3020 .2013 .0881 .0264
.1877 .2816 .2503 .1460 .0584
.1211 .2335 .2668 .2001 .1029
.0725 .1757 .2522 .2377 .1536
.0403 .1209 .2150 .2508 .2007
.0207 .0763 .1665 .2384 .2340
.0098 .0439 .1172 .2051 .2461
.0016 .0106 .0425 .1115 .2007
1 2 3 4 5
6 7 8 9 10
.0000 .0000 .0000 .0000 .0000
.0001 .0000 .0000 .0000 .0000
.0012 .0001 .0000 .0000 .0000
.0055 .0008 .0001 .0000 .0000
.0162 .0031 .0004 .0000 .0000
.0368 .0090 .0014 .0001 .0000
.0689 .0212 .0043 .0005 .0000
.1115 .0425 .0106 .0016 .0001
.1596 .0746 .0229 .0042 .0003
.2051 .1172 .0439 .0098 .0010
.2508 .2150 .1209 .0403 .0060
6 7 8 9 10
0
.5688
.3138
.1673
.0859
.0422
.0198
.0088
.0036
.0014
.0005
.0000
0
1 2 3 4 5
.3293 .0867 .0137 .0014 .0001
.3835 .2131 .0710 .0158 .0025
.3248 .2866 .1517 .0536 .0132
.2362 .2953 .2215 .1107 .0388
.1549 .2581 .2581 .1721 .0803
.0932 .1998 .2568 .2201 .1321
.0518 .1395 .2254 .2428 .1830
.0266 .0887 .1774 .2365 .2207
.0125 .0513 .1259 .2060 .2360
.0054 .0269 .0806 .1611 .2256
.0007 .0052 .0234 .0701 .1471
1 2 3 4 5
6 7 8 9 10 11
.0000 .0000 .0000 .0000 .0000 .0*000
.0003 .0000 .0000 .0000 .0000 .0000
.0023 .0003 .0000 .0000 .0000 .0000
.0097 .0017 .0002 .0000 .0000 .0000
.0268 .0064 .0011 .0001 .0000 .0000
.0566 .0173 .0037 .0005 .0000 .0000
.0985 .0379 .0102 .0018 .0002 .0000
.1471 .0701 .0234 .0052 .0007 .0000
.1931 .1128 .0462 .0126 .0021 .0002
.2256 .1611 .0806 .0269 .0054 .0005
.2207 .2365 .1774 .0887 .0266 .0036
6 7 8 9 10 11
.05
.10
.15
.20
.25
.30
.35
.40
.45
.50
.60
9
10
11
Forts.
367
Tabell 2, side 3 Binomiske sannsynligheter, fortsettelse
P(a) = ( " )p“(\ - p)"~ “
n
a
.05
.10
.15
.20
.25
.30
.35
.40
.45
.50
.60
a
12
0
.5404
.2824
.1422
.0687
.0317
.0138
.0057
.0022
.0008
.0002
.0000
0
1 2 3 4 5
.3413 .0988 .0173 .0021 .0002
.3766 .2301 .0852 .0213 .0038
.3012 .2924 .1720 .0683 .0193
.2062 .2835 .2362 .1329 .0532
.1267 .2323 .2581 .1936 .1032
.0712 .1678 .2397 .2311 .1585
.0368 .1088 .1954 .2367 .2039
.0174 .0639 .1419 .2128 .2270
.0075 .0339 .0923 .1700 .2225
.0029 .0161 .0537 .1208 .1934
.0003 .0025 .0125 .0420 .1009
1 2 3 4 5
6 7 8 9 10
.0000 .0000 .0000 .0000 .0000
.0005 .0000 .0000 .0000 .0000
.0040 .0006 .0001 .0000 .0000
.0155 .0033 .0005 .0001 .0000
.0401 .0115 .0024 .0004 .0000
.0792 .0291 .0078 .0015 .0002
.1281 .0591 .0199 .0048 .0008-
.1766 .1009 .0420 .0125 .0025
.2124 .1489 .0762 .0277 .0068
.2256 .1934 .1208 .0537 .0161
.1766 .2270 .2128 .1419 .0639
6 7 8 9 10
11 12
.0000 .0000
.0000 .0000
.0000 .0000
.0000 .0000
.0000 .0000
.0000 .0000
.0001 .0000
.0003 .0000
.0010 .0001
.0029 .0002
.0174 .0022
11 12
0
.4633
.2059
.0874
.0352
.0134
.0047
.0016
.0005
.0001
.0000
.0000
0
1 2 3 4 5
.3658 .1348 .0307 .0049 .0006
.3432 .2669 .1285 .0428 .0105
.2312 .2856 .2184 .1156 .0449
.1319 .2309 .2501 .1876 .1032
.0668 .1559 .2252 .2252 .1651
.0305 .0916 .1700 .2186 .2061
.0126 .0476 .1110 .1792 .2123
.0047 .0219 .0634 .1268 .1859
.0016 .0090 .0318 .0780 .1404
.0005 .0032 .0139 .0417 .0916
.0000 .0003 .0016 .0074 .0245
1 2 3 4 5
6 7 8 9 10
.0000 .0000 .0000 .0000 .0000
.0019 .0003 .0000 .0000 .0000
.0132 .0030 .0005 .0001 .0000
.0430 .0138 .0035 .0007 .0001
.0917 .0393 .0131 .0034 .0007
.1472 .0811 .0348 .0116 .0030
.1906 .1319 .0710 .0298 .0096
.2066 .1771 .1181 .0612 .0245
.1914 .2013 .1647 .1048 .0515
.1527 .1964 .1964 .1527 .0916
.0612 .1181 .1771 .2066 .1859
6 7 8 9 10
11 12 13 14 15
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0001 .0000 .0000 .0000 .0000
.0006 .0001 .0000 .0000 .0000
.0024 .0004 .0001 .0000 .0000
.0074 .0016 .0003 .0000 .0000
.0191 .0052 .0010 .0001 .0000
.0417 .0139 .0032 .0005 .0000
.1268 .0634 .0219 .0047 .0005
11 12 13 14 15
0
.3585
.1216
.0388
.0115
.0032
.0008
.0002
.0000
.0000
.0000
.0000
0
1 2 3 4 5
.3774 .1887 .0596 .0133 .0022
.2702 .2852 .1901 .0898 .0319
.1368 .2293 .2428 .1821 .1028
.0576 .1369 .2054 .2182 .1746
.0211 .0669 .1339 .1897 .2023
.0068 .0278 .0716 .1304 .1789
.0020 .0100 .0323 .0738 .1272
.0005 .0031 .0123 .0350 .0746
.0001 .0008 .0040 .0139 .0365
.0000 .0002 .0011 .0046 .0148
.0000 .0000 .0000 .0003 .0013
1 2 3 4 5
6 7 8 9 10
.0003 .0000 .0000 .0000 .0000
.0089 .0020 .0004 .0001 .0000
.0454 .0160 .0046 .0011 .0002
.1091 .0545 .0222 .0074 .0020
.1686 .1124 .0609 .0271 .0099
.1916 .1643 .1144 .0654 .0308
.1712 .1844 .1614 .1158 .0686
.1244 .1659 .1797 .1597 .1171
.0746 .1221 .1623 .1771 .1593
.0370 .0739 .1201 .1602 .1762
.0049 .0146 .0355 .0710 .1171
6 7 8 9 10
11 12 13 14 15
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0005 .0001 .0000 .0000 .0000
.0030 .0008 .0002 .0000 .0000
.0120 .0039 .0010 .0002 .0000
.0336 .0136 .0045 .0012 .0003
.0710 .0355 .0146 .0049 .0013
.1185 .0727 .0366 .0150 .0049
.1602 .1201 .0739 .0370 .0148
.1597 .1797 .1659 .1244 .0746
11 12 13 14 15
16 17 18 19 20
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0000 .0000 .0000 .0000 .0000
.0003 .0000 .0000 .0000 .0000
.0013 .0002 .0000 .0000 .0000
.0046 .0011 .0002 .0000 .0000
.0350 .0123 .0031 .0005 .0000
16 17 18 19 20
.05
.10
.15
.20
.25
.30 p
.35
.40
.45
.50
.60
15
20
368
■
Tabell 3a Ordningsobservatorer: Konfidenssannsynligheter. Et konfidensintervall for populasjonsmedianen fra x min til
*(2) til
X
x(2)
max
* (4) til x(4)
* (3) til X(3>
*(5) til x (5)
* (6) til x (6)
* (7) til x (7)
* (8) til x (8)
*0) til x (9)
*(10) til x (10)
*(11) til xdD
*(12) til x(12)
har følgende konfidenssannsynl ighet:
n 2 3 4 5
.5000 .7500 .8750 .9375
.3750 .6250
6 7 8 9 10
.9688 .9844 .9922 .9961 .9980
.7813 .8750 .9297 .9609 .9785
.3125 .5468 .7110 .8203 .8906
.2734 .4922 .6563
.2461
11 12 13 14 15
.9990 .9995 .99976 .99988 .999939
.9883 .9937 .9966 .9982 .99902
.9346' .9614 .9775 .9871 .9921
.7734 .8540 .9077 .9426 .9648
.4512 .6123 .7332 .8204 .8815
.2256 .4190 .5761 .6982
.2095 .3928
16 17 18 19 20
.999969 .999985 .9999923 .9999962 .9999981
.99948 .99973 .99986 .999924 .999960
.9958 .9977 .9987 .99927 .99960
.9787 .9873 .9925 .9956 .9974
.9232 .9510 .9691 .9808 .9882
.7899 .8565 .9037 .9364 .9586
.5455 .6677 .7621 .8329 .8847
.1964 .3709 .5193 .6407 .7385
.1855 .3254 .4965
.1762
25
.999999934
.9999983
.9999786
.99983
.9990
.9955
.9839
.9524
.8814
.7474
.5330
.4355
c
1
10
11
12
2
3
4
5
6
7
8
9
c forteller hvilket konfidensintervall som brukes: (x(c), x(c)) n er antall verdier i stikkprøven.
370
Tabell 3b Ordningsobservatorer: Konfidensintervall for populasjonsmedianen. Nødvendig verdi av c for å få et konfidensnivå på minst 1 - 2a €0^ når konfidensintervallet er (x(c) X(d)1—2a
.999
.998
.99
.98
.95
n 2 3 4 5 6 7 8 9 10
.90
.50
1
1 2
1
1 1 1
1 1 1 1
1 1 1 2 2
1 1 2 2 2
2 3 3 3 4
2 2 2 3 3
2 3 3 3 4
3 3 4 4 4
4 5 5 6 6
3 4 . 4 5 5
4 5 . 5 5 6
5 5 . 6 6 6
7 7 8 8 9
11 12 13 14 15
1 1 1 1 2
1 1 1 2 2
1 2 2 2 3
16 17 18 19 20
2 2 ■ 2 3 3
2 2 3 3 3
3 3 3 4 4
21 22 23 24 25
3 4 4 4 5
4 4 4 5 5
5 5 6 6 6
5 6 6 6 7
6 6 7 7 8
7 7 8 8 8
9 9 10 10 11
26 27 28 29 30
5 5 6 6 6
5 6 6 6 7
7 7 7 8 7
7 8 8 8 9
8 8 9 9 10
9 9 10 10 11
11 12 12 13 13
31 32 33 34 35
7 7 7 8 8
7 8 8 8 8
8 9 9 10 10
9 10 10 10 11
10 10 11 11 12
11 11 12 12 13
14 14 15 15 16
36 37 38 39 40
8 9 9 10 10
9 9 10 10 10
10 11 11 12 12
11 12 12 12 13
12 13 13 13 14
13 14 14 14 15
16 16 17 17 18
41 42 43 44 ' 45
10 11 11 11 12
11 11 12 12 13
12 13 13 14 14
13 14 14 14 15
14 15 15 16' 16
15 16 16 1717
18 19 19 20 21
46 47 48 49 50____
12 12 13 13 14
13 13 14 14 14
14 15 15 16 16
15 16 16 16 17
16 17 17 18 18 /
17 18 18 19 19
21 21 22 22 23
1,645 0,05
0,67 0,25
-
For r over 50. bruk tilnærmelsen: c = (X
3,29 0.000E
3,09 0,001
2,58 0,005
y(« + l)-Za
2,33 0,01
-V n -) 1,96 0,025
371
Forts. r"CD CD
CXI D CD O
x—
co — - co co cn or — CO
OT CN CO
COCNCNOTCNCN
00
C& 00
CD
CD CO vr LD CD CN
CN 00 D CD
00
T-X--D CD 00 00
co co
CO
CN Cxi O)
^M-vtcrwæow v-^cDr^ooooæco
CD
cd D
cd
00 ■r- 00 CO r- co O r- ID o co oo od cd
LO^rcO'—
r^co
r-J OT OO N CO cn co cn ott oo oo ot ot
O
o C' co co lo
CN LØ
o
CN O 00 D LD D 00 o-)
o
O co 00 CN D CN (J) CD CD D- 00 CD CD CD
00 T--CO o C ) CD o
8
CD O)
D CN p*» CD
cd cn cd co d d- oo cd oo oo cd cd co co
1
:
Tabell 4a, side Mann—Whitney-metoden Konfidenssannsynligheter.
l
Konfidensintervall for differansen mellom to populasjonsmedianer er laget på grunnlag av den ordnete mengden av alle p = n xrz2-differanser mellom de n x og n 2 verdiene i de to stikkprøvene. Kolonneoverskriftene forteller hvilke to av de p = n n 2 differansene som
CD
CN O ID O)
Nt O cn O co co cn N; in 093 .091 .088 .087 .086 .085 .085 .081 1.4 .097 .092 .089 .086 .084 .082 .080 .077 .075 '.073 .072 .071 .071 .067 1.5 .085 .080 .077 .074 .072 .070 .068 .065 .063 .061 .060 .059 .059 .055 1.6 .074 .070 066 .064 .062 .060 .057 .055 .052 .051 .050 .049 .048 .045 1.7 .066 .061 .057 .055 .053 .051 .049 .046 .043 .042 .041 .040 .040 .036 1.8 .058 .053 .050 .047 .045 .043 .041 .038 .036 .035 .034 .033 .032 .029 1.9 .051 .046 .043 .040 .038 .037 .034 .032 .030 .028 .027 .027 .026 .023 2.0 .045 .040 .037 .034 .033 .031 .029 .027 .024 .023 .022 .022 .021 .018 2.1 .040 .035 .032 .029 .028 .026 .024 .022 .020 .019 .018 .017 .017 .014 2.2 .035 .031 .027 .025 .023 .022 .020 .018 .016 .015 .014 .014 .013 .011 2.3 2.4 .031 .027 ' .024 .022 .020 .019 .017 .015 .013 .012 .011 .011 .011 .008 .027 .023 .020 .018 .017 .016 .014 .012 .011 .010 .009 .009 .008 .006 2.5 .024 .020 .018 .016 .014 .013 .012 .010 .009 .008 .007 .007 .006 .005 2.6 .021 .018 .015 .014 .012 .011 .010 .008 .007 .006 .006 .005 .005 .003 2.7 .019 .016 .013 .012 .010 .009 .008 .007 .006 .005 .004 .004 .004 .003 2.8 ta .017 .014 .011 .010 .009 .008 .007 .005 .004 .004 .003 .003 .003 .002 2.9 .015 .012 .010 .009 .007 .007 .006 .004 .004 .003 .003 .002 .002 .001 3.0 .013 .011 .009 .007 .006 .006 .005 .004 .003 .002 .002 .002 .002 .968* 3.1 .012 .009 .008 .006 .005 .005 .004 .003 .002 .002 .002 .001 .001 .687* 3.2 .011 .008 .007 .005 .005 .004 .003 .002 .002 .001 .001 .001 .001 .484* 3.3 .010 .007 .006 .005 .004 .003 .003 .002 .001 .001 .962* .849* .770* .337* 3.4 .009 .006 .005 .004 .003 .003 .002 .002 .001 .883 * .738 * .644 * .579 * .233 * 3.5 .008 .006 .004 .003 .003 .002 .002 .001 .894* .686 * .566 * .488 * .434 * .159 * 3.6 .007 .005 .004 .003 .002 .002 .002 .001 .709 * .533 * .432 * .368 * .324 * .108 * 3.7 .006 .004 .003 .003 .002 .002 .001 .872 * .561 * .413* .330* .277 * .242 * .072 * 3.8 .006 .004 .003 .002 .002 .001 .001 .711 * .444 * .320 * .251 * .208 * .179 * .048 * 3.9 .005 .004 .003 .002 .002 .001 .881 * .580* .352 * .248 * .191 * .156 * .133 * .032 * 4.0 .005 .003 .002 .002 .001 .001 .736 * .473 * .278 * .192 * .145 * . 117 * .098 * .021** 4.1 .004 .003 .002 .001 .001 .914 * .616 * .386 * .220* .148* .110* .087 * .072 * .013 * 4.2 .004 .003 .002 .001 .995 * .781 * .516 * .316 * .174 * .114 * .083 * .065 * .053 * .009 * 4.3 .004 .002 .002 .001 .860* .668 * .433 * .258* .138 * .088 * .063 * .048 * .039 * .005 * 4.4 .003 .002 .001 .001 .744 * .572 * .363 * .212 * .109 * .068 * .048 * .036 * .029 * .003 * 4.5 .003 .002 .001 .878 * .645 * .490* .305 * .173 * .087 * .053 * .036 * .027 * .021 * .002 * 4.6 .003 .002 .001 .771 * .560* .421 * .257 * .142 * .069 * .041 * .027 * .020 * .015 * .001 * 4.7 .002 .002 .983 * .678 * .487 * .362 * .217 * .117 * .055 * .031 * .020* .015 * .011 * .001 * 4.8 .002 .001 .877 * .597 * .424 * .312 * . 183 * .096 * .043 * .024 * .015 * .011 * .008 * .000 * 4.9 .002 .001.783 * .526 * .369 * .269 *. 155 * .079 * .034 * .019 * .012 * .008 * .006 * .000* 5.0 .001 .757* .453 * .287 * .190* . 131 * .068 * .031 * .011 * .005 * .003 * .002 * .001 * .000 * 5.5 .923 * .482 * .271 * .162 * .101 * .066 * .031 * .012 * .004 * .001 * .001 * .000* .000 * .000* 6.0 .643 *.316 *.167 *.094 *.056 *.034 *.015 *.005 *.001 *.000 *.000 *.000 *.000 *.000* 6.5 .458 *.212 *.106 *.056 *.032 *.019 *.007 *.002 *.000 *.000 *.000 *.000 *.000 *.000* 7.0 .246 * .102 * .046 * .022 * .011 * .006 * .002 * .000 * .000 * .000* .000* .000* .000* .000 * I 8.0
"Tallet til venstre er multiplisert med 1 000.
380
9
Tabell 6b Student-fordelingen: Kritiske verdier ta.
Tabellen gir ta, slik at a = P(t>ta) når t er Student-fordelt med v frihetsgrader. a 2a 1 —2a
.05 .10 .90
.025 .05 .95
.01 .02 .98
.005 .01 .99
.0005 .001 .999
1 2 3 4 5
6.31 2.92 2.35 2.13 2.01
12.71 4.30 3.18 2.78 2.57
31.82 6.96 4.54 3.75 3.36
63.66 9.92 5.84 4.60 4.03
636.6 31.60 12.92 8.61 6.87
6 7 8 9 10
1.94 1.89 1.86 1.83 1.81
2.45 2.36 2.31 2.26 2.23
3.14 3.00 2.90 2.82 2.76
3.71 3.50 3.36 3.25 3.17
5.96 5.41 5.04 4.78 4.59
11 12 13 14 15
1.80 1.78 1.77 1.76 1.75
2.20 2.18 2.16 2.14 2.13
2.72 2.68 2.65 2.62 2.60
3.11 3.05 3.01 2.98 2.95
4.44 4.32 4.22 4.14 4.07
16 17 18 19 20
1.75 1.74 1.73 1.73 1.72
2.12 2.11 2.10 2.09 2.09
2.58 2.57 2.55 2.54 2.53
2.92 2.90 2.88 2.86 2.85
4.02 3.97 3.92 3.88 3.85
21 22 23 24 25
1.72 1.72 1.71 1.71 1.71
2.08 2.07 2.07 2.06 2.06
2.52 2.51 2.50 2.49 2.48
2.83 2.82 2.81 2.80 2.79
3.82 3.79 3.77 3.74 3.72
26 27 28 29 30
1.71 1.70 1.70 1.70 1.70
2.06 2.05 2.05 2.05 2.04
2.48 2.47 2.47 2.46 2.46
2.78 2.77 2.76 2.76 2.75
3.71 3.69 3.67 3.66 3.65
40 60 120
1.68 1.67 1.66
2.02 2.00 1.98
2.42 2.39 2.36
2.70 2.66 2.62
3.55 3.46 3.37
OO
1.64
1.96
2.33
2.58
3.29
381
Tabell 7b Kji-kvadratfordelingen
Tabellen gir slik at a=P(A2>T2a) når x er kji-kvadratfordelt med v frihetsgrader.
a V
.20
.10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.030 12.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250
2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256
.05
3.841 5.991 7.815 — 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773
.025
.01
5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.647 41.923 43.194 44.461 45.722 46.979
6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892
Tatt fra Tabell IV hos Fisher and Yates, statistiske tabeller for biologisk, medisinsk og landbruksvitenskapelig forskning, utgitt av Longman Group Ltd., London (tidligere utgitt av Oliver & Boyd, Edinburgh) og etter tillatelse fra forfatterne og utgiverne.
382
Tabell 8b Wilcoxons tegnrangtest Direkte hypoteseprøving: Forkast en nullhypotese om differansemedian = 0 hvis testobservatoren er mindre enn c i tabellen. Ved tosidig test: 2a = signifikansnivå. Ved ensidig test: a = sig nifikansnivå. 0,1
a
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
0,05
1 2 1 4 2 6 4 8 6 11 ) 8 14 11 17 14 21 > 17 26 21 30 25 36 30 41 35 47 40 54 46 60 52 68 59 75 66 83 73 92 81 101 90 110 98 120 107 130 117 141 127 152 137 163 148 175 159 188 171 201 183 214 195 228 208 242 222 256 235 271 250 287 264 303 279 319 295 336 311 353 327 371 344 389 361 408 379 4 27 397 446 415 466 434
0,02
0,01
2 3 5 7 10 13 16 20 24 28 33 38 43 49 56 62 69 77 85 93 102 111 120 130 141 151 162 174 186 198 211 224 238 252 267 281 297 313 329 345 362 380 398
2 3 5 7 10 13 16 19 23 28 32 37 43 49 55 61 68 76 84 92 100 109 118 128 138 149 160 171 183 195 208 221 234 248 262 277 292 307 323 339 356 373
Ved store stikkprøver: C ~
Q
n(n + 1) 4
0,005 2,58
. 1 n(n + 1) (2n + 1)
Z,:t\
24
0,01 2,33
0,025 1,96
0,05 1,645 383
Stikkord A abstrakte populasjoner andel 91,246 ANOVA 229 aspirin 166 autokorrelasjon 318 avkastning 267
343
B Barnett, G.A. 38 Bayes formel 103 Bayes, T. 104 Bayesianske sannsynligheter 104 betarisiko 291 betinget sannsynlighet 101 betydelig forskjell 34 binominalfordeling 121, 125, 155, 345 binomisk fordelte variabler 246 binomiske sannsynligheter 126 Bis arbeidsmarkedsundersøkelse 1996 172, 228, 235,253 Bis holdningsundersøkelse 257 blindvariabel 178, 180, 183, 246 boligmarkedet 146 Bøhren, 0. 11
D Datafil 500aldre 44 Datafil 9karakt 39 Datafil Avk_Risk 307 Datafil Barnett 39 Datafil Comflak 86, 140 Datafil Dekktryk 57 Datafil Faktura 29 Datafil IKEA 76 Datafil karakter 27 Datafil Klima 294 Datafil Kraft96 322 Datafil Kreft 292, 294 Datafil KvD_Lonn 303 Datafil Lønn-85 74 Datafil Mnd_avk. 267-268, 270
384
Datafil Nytte 41 Datafil Presse 272, 294, 306 Datafil Pris_ind 295 Datafil Puls 38, 56 Datafil Regnskap 56 Datafil Reiseliv 33, 160, 227 Datafil Rekrutt L84-185 Datafil Salk 20 Datafil Sivil96 172, 228, 234 Datafil Skoler 274 Datafil Tilsig 208 Datafil Tot_ind. 190, 191 Datafil Trondheim 49 Datafil Volvo 40 Delfi-metoden 315 deskriptiv statistikk 31 differanse mellom to andeler 247 dikotome variabler 163 direkte hypoteseprøving 138-139 disjunkte mengder 90 disjunkthet 106 dobbelt blindtest 79, 165 Dr. Salks observasjoner 16 E effisient marked 190 eksponensielt forløp 295,318 Eliza-testen 112 ensidig feilsannsynlighet 53 ensidig konfidensnivå 53 ensidig test 144 enveis variansanalyse 228 Ett gjennomsnitt 216
F fakultet 118 farskapssak 112 feil av type I 136 feil av type II 136 feil modellvalg 331 feilledd 328 feilsannsynlighet 134
finansiell risiko 290 Fisher, R. A. 162 Fishers test 162, 164 flere gjennomsnitt - variansanalyse 228 Fontex 165 forholdstallskala 81,339 fortegnstesten 154 forventningsverdi 344 frafallsskjevhet 63 frihetsgrader 221 Foss, T. 11 F-testen 230 F-testen for flere gjennomsnitt 231 Fugleberg, O. 11
G Gauss, K. F. 187 gjennomsnitt 175 gjentatte verdier 177 glidende gjennomsnitt 322-323 Gosset, W.S. 221 grupperte data 177,180 H halesannsynligheter 126 Fienden, K. 11 histogram 72 HIV-risiko 112 Holme, I. 11 hovedundersøkelsens størrelse 70 hypergeometrisk fordeling 127-128, 167 hypoteseprøving med ordningsobservatorer 135 høyregrenseintervall 53 I ikke-parametriske tester 151 interkvartil variasjonsbredde 32 intervallskala 81,338-339 invertert tre 104 J Jennergren 190 Juglar, C. 319 Juglar-bølgene 319 K kategoriskala 339 kji-kvadratfordeling 251 kji-kvadrattesten 252
klassisk modell 321 klassisk multiplikativ modell 321 klyngeutvalg 64 kombinasjoner 116-117, 119 komplementærmengde 89 Kondratjeff, N. 319 Kondratjeff-bølge 319 konfidensintervall 46, 55, 226, 243, 247 konfidensintervall for populasjonsgjennomsnitt 214,221 konfidensintervall for beta 286 konfidensintervall for alfa 286 konfidensintervall for differansen mellom to medianer 161 konfidensintervall for populasjonsmedian 55 konfidensintervall for regresjonslinje 286 konfidensnivå 51 konfidenssannsynlighet 47,51 konjunkturbølger 319 konjunkturindeks 321,326 konjunkturvariasjoner 320 kontrollgrupper 78 korrelasjon 277 korrelasjon mellom naboverdier 320 korrelasjonskoeffisient 277,301 Korsvold, P. 190 kovarians 277 kritisk verdi 156 kumulative sannsynligheter 126 kurvefremskriving 313, 329 kvalitetskontroll 203 kvoteutvalg 64 L langsiktig trend 318 lineær regresjonsmodell 283 lineær samvariasjon 277 Lotto 119,127,131 lungekreft 293
M Mann-Whitneyobservatorene 34 Mann-Whitneys test 159 McEnroe, J. 171,259 median 28 mediandifferanse 33 Mendel, G. 258 mengdelære 89 minste kvadraters metode 283-284 modellkontroll 294
385
modelltilpasning 322 modelltilpasningsfeil 331 multiplikasjonsregel 106 multiplikasjonstabell 105 multippel regresjonsanalyse mønster i tidsrekker 316 målenivå 337
punktsannsynligheter
298
N narkomane 171 Nemeyi 11 nominalskala 80, 337, 339 normal fordeling 186, 194 normalfordelt variabel 196 normaltilnærmelse for en dikotom variabel 242 Norsk Monitor 257 nullhypotese 133-134
O observator 31 objektivitet 69 ordinalskala 80,338-339 ordnet utvalg med tilbakelegning 116 ordnet utvalg uten tilbakelegning 117 ordningsobservatorene 28, 55, 145 Oslo B&K 85 Oslo-beh 85 Oslo-undersøkelsen 84,259 overtilpasning 296 P parallellplott 33 parametrisk statistikk 187 parvise sammenligninger 151 permutasjoner 118 Persons korrelasjonskoeffisient 341 pilotundersøkelse 70 placeboeffekt 165 plott 28 politiske meningsmålinger 245 populasjon 43, 344 populasj onsgjennomsnitt 178 prediksjonsintervall 286 prognosefeil 315 prognosering 313 prognosetall 315 prosentiler 31 punktestimat 52
386
126
R random walk 190, 318, 320 randomisering 79 rang 338 reduksjon av målenivå 340 regresjonsanalyse 285 rekkefølge 118 relativ hyppighet 94 reliabilitet 59 residualanalyse 320,329 residualer 320 responsfeil 63 rikstoto 131 røyking 171 S Salk, L. 15 samvariasjon 290 sannsynlighet 93, 96, 99, 120 sannsynlighetsfordeling 126,344 sannsynlighetsregning 120 sannsynlighetstre 101 scenario 329 sekvensiell stikkprøveuttaking 70 sentralgrenseteorem 198,203 sesongindeks S 321, 325-326 sesongvariasjoner 320 Shewharts kvalitetskontroll-diagram 203 signifikansnivå 134 signifikanssannsynlighet 156,217 skjevhet 31 snitt 90 Spearmans korrelasjonskoeffisient 341 spørreskjema 65 standard normalfordeling 186 standardavvik 180 standardavviket til en differanse mellom to gjennomsnitt 223 standardisert variabel 183-185,197 standard-normalfordeling 194 Statark 23 statistikk 22 statistisk uavhengighet 106 stikkprøve 43, 71 stikkprøvegjennomsnitt 178 stikkprøvekovarians 277 stikkprøvens størrelse 245 stikkprøvestandardavvik 181
stokastisk variabel 343-344 strekdiagram 29 studentfordeling 220 subjektiv sannsynlighet 98 sum av to tilfeldige variabler 267, 278 sum av to uavhengige variabler 269 Sverdrup, E. 26 T tellinger 337-338 test basert på ordningsobservatorer 145 test på lineær sammenheng 290 test på om korrelasjonskoeffisienten er null 301 teststyrke 136 tidshorisont 329 tidsrekkemodell 320 tilfeldig feilledd 321 tilfeldig stikkprøve 59 tilfeldig variasjon 21 tilfeldigheter 21 tippekupong 116 to andeler 247 to ganger to-tabeller 250 to gjennomsnitt 223 t-observatoren for differanse mellom to gjennomsnitt 224 tom mengde 90 tosidig feilsannsynlighet 53 tosidig konfidensintervall 53 tosidig konfidensnivå 53 tosidig test 144 trafikkulykker 262 trend 319,324 trendkomponent 321 triangelfordeling 189 t-testen for differanse mellom to gjennomsnitt 224 t-testen for ett gjennomsnitt 222 t-testen for stigningskoeffisienten i regresjonsanalyse 289 tydelig forskjell 34
uordnet utvalg med tilbakelegning uordnet utvalg uten tilbakelegning usikkerhet 267 utfall srom 99 utvalgsskjevhet 60, 63
119, 121 118
V validitet 59 varians 180 variasjonsbredde 30 venstregrenseintervall 53 verdi-indekser 267 verdisyn 257 videregående skoler 273 Vikinglotto 132 visuell inspeksjon 294
W Welsh formler 224 Wilcoxons tegnrangtest
157
Z z-testen for differanse mellom to andeler z-testen for ett gjennomsnitt 217 z-testens styrke 218
248
Å Aakre, P. 11 årsakssammenhenger
297
U uavhengige stikkprøver 151 uavhengighet 105-106 ubetinget sannsynlighet 102 undermengde 89 uniform fordeling 188, 344 union 93,90
387