Statistikk og dataanalyse [5 ed.]
 8251837553 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Fred Wenstøp

Statistikk og dataanalyse 5. utgave

NBR-DEPOTBIBLIO TEKET POSTBOKS 278-8601 MO

Tano Aschehoug

Det må ikke kopieres fra denne bok i strid med åndsverkloven eller avtaler om kopiering inngått med KOPINOR, interesseorgan for rettighetsinnhavere til åndsverk. Kopiering i strid med lov eller avtale kan medføre erstatningsansvar og inndragning, og kan straffes med bøter eller fengsel.

© Fred Wenstøp og Tano Aschehoug 1997 Omslag: Inger Lise Engebretsen Grafisk produksjon: PDC Tangen 5. utgave ISBN 82-518-3755-3

Innhold Forord...........................................................................................................

7

DEL 1 Metode........................................................................................... 13 1 Oversikt.................................................................................................. 15 2 Beskrivelse av en stikkprøve ............................................................... 27 3 A generalisere fra en stikkprøve .......................................................... 43 4 Statistisk metode................................................................................... 59 5 Sannsynlighetsregning.......................................................................... 89 6 Sannsynlighetsfordelinger ................................................................... 115 7 Hypoteseprøving ................................................................................... 133 8 Ikke-parametriske tester ...................................................................... 151 o

DEL 2 Parametrisk statistikk ............................................................... 9 Normalfordelingen................................................................................ 10 Inferens om gjennomsnitt..................................................................... 11 Kategoriske variabler og normaltilnærmelsen...................................

173 175 213 241

DEL 3 Samvariasjon................................................................................ 265 12 Lineær regresjon og korrelasjon .......................................................... 267 13 Kurvefremskriving................................................................................ 313

DEL 4 Avrunding..................................................................................... 335 14 Valg av metode..................................................................................... 337 15 Videre studium av statistikk................................................................. 343

DEL 5 Appendiks..................................................................................... Appendiks 1 Referanser ........................................................................... Appendiks 2 Datafiler............................................................................... Appendiks 3 Symboler ............................................................................. Appendiks 4 Tabeller ...............................................................................

347 349 351 361 365

Stikkord ........................................................................................................ 384

7

Forord Denne læreboken er laget med tanke på et to-vekttalls grunnkurs i statistikk for studenter innenfor det 2-årige økonomisk/administrative studiet, og den tilfreds­ stiller Kirke-, utdannings- og forskningsdepartementets krav til innhold. Boken utmerker seg med: - En gjennomført bruk av eksempler og oppgaver med data fra virkeligheten, både for inspirasjon og motivasjon. Eksemplene demonstrerer at statistikk er et nyttig verktøy til å kaste lys over problemstillinger fra virkeligheten. Oppgavene gir øvelse i reell bruk av statistikk. - Vekt på praktisk dataanalyse. Dataene i eksemplene og oppgavene er til­ gjengelige som regnearkfiler på en diskett i arbeidsheftet. Det vises hvordan de fleste beregninger kan gjøres direkte i Excel. - Vekt på forståelse med beskjeden bruk av matematikk. Teorien forklares gjen­ nom eksempler med appell til intuisjon, demonstrasjon av grunnleggende prin­ sipper gjennom simulering, og matematisk utledning når det er enkelt og natur­ lig- Vekt på ikke-parametriske metoder. Slike metoder er lett forståelige og dessuten mer hensiktsmessige når man har få data slik tilfellet ofte er i økonomisk/ad­ ministrative sammenhenger. De mer konvensjonelle metodene er selvfølgelig også fullt dekket. Jeg har lagt vekt på å bruke et direkte språk uten unødvendig vanskelige ord, og med utførlige begrunnelser på de viktigste og vanskeligste punktene. Boken skulle derfor også egne seg for selvstudier både for studenter og for praktikere som ønsker å benytte statistiske metoder. Det kreves ingen spesielle forkunnskaper i matema­ tikk, selv om det selvsagt er en fordel om man i noen grad er vant med matematisk symbolbruk. Som en parallell til boken er det utviklet et eget program, Statark, som er basert på regnearket Microsoft Excel. Statark har et «vindu» for hvert av bokens kapitler der man kan utføre alle beregningene som er omtalt i kapitlet. Programmet er inklu­ dert i et separat arbeidshefte som viser hvordan oppgavene i boken kan løses ved hjelp av Statark og det generelle statistikkprogrammet Minitab. Læreboken kan benyttes uavhengig av Statark.

8

Forord

Faglige mål Jeg har hatt fire faglige mål for øye under utarbeidelse av boken:

Innsikt i statistikk som metode De fleste som lærer statistikk for første gang, finner statistisk tankegang fremmed. Studenter er likevel ofte i stand til å benytte riktige teknikker på riktig måte innen­ for en snever ramme, men straks problemstillingen blir mer åpen, blir de lett hjelpe­ løse. Jeg har derfor lagt vekt på hele tiden å benytte eksempler fra virkeligheten, slik at problemstillingene kan diskuteres på en reell måte. Det legges også vekt på å begrunne de metoder og teknikker som benyttes. Monte Carlo simulering er vel­ egnet til dette i en del sammenhenger. Andre ganger er det effektivt å appellere til sunn fornuft. I en viss grad suppleres dette med konvensjonelle, formelle utledninger, men erfaringsmessig har studenter som er uvante med matematisk symbol­ bruk mindre utbytte av dette. Ved å legge vekt på det intuitive, håper jeg at boken også vil gi varige kunnskaper om metode som er til nytte selv etter at de spesielle teknikkene er glemt. Praktisk bruk av statistikk Det finnes et stort antall ulike statistiske teknikker. Boken tar for seg de viktigste elementære teknikker begrenset til to variabler. Siden anvendelsesområdet er øko­ nomi og administrasjon der man ofte har begrenset antall observasjoner, er det også tatt med et utvalg ikke-parametriske metoder. I tillegg er det et eget kapittel om kurvefremskriving med behandling av den klassiske tidsrekkemodell med sesongog konjunktursykler. I dag bruker man i praksis programvare til å utføre statistiske beregninger. Boken er derfor orientert mot dette, og gir stadig råd om hvordan vi best kan innrette oss for å få utført ulike beregninger. Det er imidlertid først i arbeidsheftet at dette gjøres konkret, med bruk av Statark og Minitab.

Innsikt i tilfeldig variasjon som fenomen Tilfeldigheter gjør seg gjeldende overalt. Vi samler inn data for å forstå våre om­ givelser og for få bedre grunnlag når vi tar beslutninger, men økonomiske og tek­ niske grenser gjør at vi sjelden får tak i fullstendige og feilfrie data. Som oftest er dataene forkludret av tilfeldigheter. Personer uten erfaring med hvordan tilfeldig­ heter arter seg, blir ofte villedet av det. Jeg har derfor sett det som et viktig pedago­ gisk mål å gjøre leseren familiær med tilfeldig variasjon. Boken inneholder dertor mange eksempler på Monte Carlo simulering. Disse er alle foretatt med program­ varen Statark, og er nærmere beskrevet i arbeidsheftet. Leseren har derfor mulighet til selv å utføre samme typen simuleringer. Bokens illustrasjoner blir som øyeblikksbi 1 der fra en film som kan levendegjøres ved hjelp av programvaren. Spesielt effektivt er det hvis læreren gjør dette i klassen.

Forord

9

Kommunikasjon av data Det er viktig å kunne kommunisere data effektivt, og ingen metode er mer effektiv enn bruk av grafikk. Denne boken har gjennomført bruk av grafiske framstillinger hele veien. De er alle laget i Excel på grunnlag av datfilene som finnes på disketten i arbeidsheftet, og kan lett reproduseres. På den måten kan brukeren få god øvelse i både å lage og lese grafiske fremstillinger.

Pedagogikk Gjennomført bruk av data fra virkeligheten virker motiverende og stimulerende, og gjør at vi unngår det falske inntrykk av at statistikk er noe upraktisk som bare kan anvendes på begrensete, konstruerte situasjoner. Alle datasett foreligger dessuten på Statarkdisketten. De kan også leses avMinitab. Virkeligheten er langt mer kom­ pleks enn det vi kan konstruere selv. Virkelige data gir derfor rikere anledning til å diskutere praktisk bruk av statistisk metode. Statistikk faller gjeme vanskelig. Jeg har derfor bestrebet meg på å gjøre inn­ gangsterskelen til boken så lav som mulig, slik at leseren ikke faller av fra be­ gynnelsen av. Som et gjennomført prinsipp behandles enkle ting før vanskelige. Spesielt introduseres ordningsobservatorene før vi i det hele tatt går løs på sannsynlighetsregningen. Her er det tilstrekkelig å appellere til intuisjonen for å forstå hva som foregår. Hensikten er å introdusere begrepet konfidensintervall mens stu­ dentene har selvtilliten i behold. Ikke-parametriske metoder er også lettere å forstå enn metoder som bygger på normalfordelingen. Derfor behandles disse tidlig. Statistisk teori er i prinsippet et godt sammentømret hele. For at leseren skal få forståelse for dette, er det ønskelig å gå relativt detaljert til verks. Det ville likevel sprenge grensene for en bok som dette hvis dette skulle gjennomføres overalt. Jeg har derfor valgt å gjøre det der det er mest instruktivt, men til gjengjeld bare ta med det essensielle andre steder. Oppgavene i boken tjener to formål. De skal både illustrere statistiske prinsipper i seg selv, og vise viktige anvendelser innen fagområdet. Jeg har derfor inkludert både allmenne problemstillinger som alle studenter uten videre kan forholde seg til, og mer rendyrkede bedriftsøkonomiske problemstillinger. Selv om man i dag stort sett foretar beregninger med programvare, er det viktig at man ihvertfall én gang foretar beregninger mer eller mindre for hånd slik at man ikke føler seg fremmed­ gjort. I hvert kapittel er det derfor også inkludert en øvelsesoppgave som inneholder de viktigste regnetekniske aspektene. Denne oppgaven er løst bakerst i oppgaveavsnittet i kapitlet. I fremstillingen av statistikk kan man enten anlegge et prosessorientert eller et populasjonsorientert perspektiv. I et prosessorientert perspektiv tenker man seg at data genereres av såkalte stokastiske prosesser. Det leder til begreper som stokastisk variabel og forventningsverdi. I et populasjonsorientert perspektiv tenker man seg at data fremkommer ved tilfeldige utvalg fra populasjoner. Da er det naturlig å snakke om populasjonsgjennomsnitt istedenfor forventningsverdi. Hvilket per­ spektiv som er mest hensiktsmessig, avhenger av hva det skal brukes til. De fleste

10

Forord

lærebøker legger mest vekt på det prosessorienterte perspektivet fordi det er mest generelt. Til gjengjeld er det abstrakt, og faller ofte vanskelig for praktisk orienterte studenter. Denne boken har et rendyrket populasjonsperspektiv fordi det er det mest konkrete. Til sist i boken er det likevel vist overgangen til et prosessorientert perspektiv for å forberede til videre studier av statistikk. Et av studentenes hovedproblem, er å finne ut hvilken metode som bør anvendes når. Dataenes målenivå er et viktig kriterium for dette valget. Dette er behandlet først og sist i boken, etter at hver enkelt metode er gjennomgått separat.

Statark Statark er laget for regnearket Microsoft Excel og forutsetter bruk av Windows. Arbeidsheftet gir nærmere opplysning om bruk av programmet. Statark er spesialkonstruert til boken. Den er et supplement til generell statistisk programvare som for eksempel Minitab. Statark har følgende funksjoner: - En avansert lommekalkulator som utfører beregninger man vanligvis ikke fin­ ner i kommersiell statistisk programvare. Eksempler er gjennomsnitt og stan­ dardavvik til grupperte data, /-tester for ett og to utvalg der kun utvalgenes gjen­ nomsnitt og standardavvik er kjent, tester for én og to andeler ved hjelp av normaltilnærmelsen, Fishers eksakte test, og den klassiske multiplikative tidsrekkemodell. - Statistisk analyseverktøy for de metoder som boken behandler. Dette er konfidensintervall ved hjelp av ordningsobservatorene, fortegnstesten, Wilcoxons tegnrangtest, Mann-Whitneytestene, /-tester for ett og to utvalg, korrelasjon og regresjon med to variabler, og kji-kvadrat-testen. - Operasjonalisering av læreboken. Siden Statarks vinduer er direkte knyttet til kapitlene i læreboken, kan den brukes til å levendegjøre boken. Alle datasettene som læreboken omtaler finnes på disketten som Statark-lesbare filer. Alle be­ regninger som er gjort i boken, kan derfor lett repliseres ved hjelp av program­ met. Den kan dessuten fungere som et redskap ved repetisjon fordi vinduene sammenfatter og systematiserer kapitlene. - Monte Carlo simulering. Statark inneholder en rekke ferdigkonstruerte vinduer for Monte Carlo simulering, slik at man for eksempel kan studere sentralgrenseteoremet, de store talls lov, pilotundersøkelser samt binomiske og lineære pro­ sesser. - Presentasjon av data. Statark inneholder ferdige oppsett for grafiske fremstillinger for rask produksjon av grafikk. I tillegg kan regnearkets egne grafikkmuligheter benyttes fritt.

Selv om Statark dekker de regnebehov man har i dette pensumet, oppfordres lese­ ren også til å ta i bruk annen, generell statistisk programvare. Det vil åpne øynene for videre anvendelser i statistikk, og gir dessuten mer fleksible muligheter til å operere med flere alternative variabler. Dagens handlingsføre data-analytiker bør

Forord

11

lett og uanstrengt kunne veksle mellom ulike typer programvare og til enhver tid bruke det som er mest formålstjenlig.

Kilder til inspirasjon Den opprinnelige inspirasjon til denne boken var Nemeyi m.fl. (Holden Day 1977): Statistics from Scratch, som viste at det gikk an å skrive en menneskelig statistikkbok uten å inngå kompromisser med faglig holdbarhet. Jeg har også hatt stor glede av inspirasjon og bidrag fra kolleger ved Handels­ høyskolen BI og andre institusjoner. Samtaler med dem har i høy grad bidratt til å gi boken dens endelige form. Øyvind Bøhren, Tron Foss, Ole Fugleberg og Pål Aakre har lest gjennom deler av manuskriptet og kommet med verdifulle forslag til end­ ringen Ingar Holme har lest gjennom manuskriptet til annen utgave, og forhindret flere mistak. Kjell Henden har lest gjennom hele manuskriptet og gitt gode råd om endringer i den foreliggende fjerde utgave. En takk til dere alle! De feil som måtte være tilbake, har selvfølgelig jeg ansvaret for. Bekkestua, mai 1997

Fred Wenstøp

Forord til 5. utgave Statistikk er et nyttig verktøy hvis man forstår de grunnleggende begrepene og kan finne frem til en egnet analysemetode for en gitt problemstilling. Mens også tid­ ligere utgaver har lagt betydelig vekt på begrepsforståelse, er denne utgaven for­ bedret på dette området gjennom et mer omfattende stikkordregister som inklu­ derer alle brukte Excel-funksjoner med norsk oversettelse, kapittelhenvisning øverst på alle sider, samt en nøkkel for metodevalg sist i boken. En del feil i forrige utgave er også rettet opp. Bekkestua, mai 1998

Fred Wenstøp

DEL 1

Metode 1 2 3 4 5 6 7 8

Oversikt Beskrivelse av en stikkprøve A generalisere fra en stikkprøve Statistisk metode Sannsynlighetsregning Sannsynlighetsfordelinger Hypoteseprøving Ikke-parametriske tester o

14

Del

1 Metode

Her går vi gjennom de viktigste grunnprinsippene i statistikk. Vi gjør det på enklest mulige måte, så tekniske komplikasjoner ikke skal komme i veien for de rene, metodiske idéene. I denne delen bruker vi derfor ikke-parametriske teknikker. Vi starter med å bli kjent med tilfeldig variasjon som fenomen. Det gjør vi for å oppøve intuisjonen slik at vi lettere skal kunne skille mellom lov og tilfeldighet i praksis. Da kan intuisjon og beregninger gjensidig supplere hverandre når pro­ blemstillingene blir mer uoversiktlige. Du lærer også å presentere data ved hjelp av nøkkeltall som median, variasjonsbredde og skjevhet. Deretter tar vi for oss stikkprøveutvalg og statistisk inferens med konfidensintervall. Du lærer hvor viktig det er at utvalg er tilfeldige, og hvordan du i praksis kan sørge for det. Du vil se at det er en utfordring å lage gode spørreskjemaer. Vi går også gjennom grunnprinsippene i sannsynlighetsregning og utleder Bayes formel. Sannsynlighetsfordelinger er sentrale i statistikk. Vi utleder blant annet binomialfordelingen og den hypergeometriske fordeling. Hypoteseprøving er den viktigste statistiske metoden. Ved hjelp av et tilfeldig utvalg kan du med enkle teknikker for eksempel finne ut om kvinnelige og mann­ lige studenter i alminnelighet tjener like mye. Ulike tester har ulik styrke, styrkebegrepet er derfor viktig. Intuitive tester som er spesielt nyttige ved få data som fortegnstesten, Wilcoxons tegnrangtest, Mann-Whitneytesten og Fishers eksakte test blir gjennomgått.

15

1 Oversikt 1.1 1.2 1.3 1.4 1.5

Hva er statistikk? Tellinger og målinger Tilfeldig variasjon Simulering av tilfeldig variasjon Sammendrag

1.1 Hva er statistikk? Observasjon: På forsiden av boken ser du 9 bilder. De har alle det til felles at de viser en mor som holder sitt lille barn på armen. Hva er det som ellers er felles for de fleste av bildene? Før du leser videre, tenk over spørsmålet og gjør deg opp en mening. Skriv ned svaret. Problemstillinger vi tar opp i statistikk har ofte sitt ut­ gangspunkt i observasjoner vi gjør, og der vi stiller spørsmål om det vi har registrert skyldes tilfeldigheter eller ikke. I dette tilfellet har du sikkert lagt merke til at et flertall av kvinnene holder ungen på venstre arm (hvor mange?). Vi stiller spørs­ målet: Er dette en tilfeldighet eller står vi overfor en lovmessighet som går ut på at dette er et generelt fenomen? Vi skal senere i boken vise at det siste må være til­ fellet. Hva kan så grunnen være til at de fleste mødrene foretrekker venstre arm? Sann­ synligvis er forklaringen din at de er høyrehendte og har den naturlige armen fri til å arbeide med. Dette er også hva høyrehendte mødre fortalte dr. Lee Salk da han spurte dem om hvorfor de holdt barnet på venstre arm. Hvis du ikke tror på denne påstanden fra mødrene, hvordan kan du sjekke det? (Tenk litt på dette!) Dr. Salk undersøkte det ved å observere kjevhendte mødre. Holdt de barnet på høyre arm? Nei, det viste seg at 78 % av dem han observerte også holdt barnet på venstre arm! Hvis du virkelig er interessert i dette, kan du iaktta flere mødre og notere på hvilken arm de holder barna sine. Hvis også du finner at de fleste kjevhendte og høyrehendte holder barnet på venstre arm, kan du da si at dette er alminnelig?

Agenda I statistikk leter vi etter alminnelige fenomener som kan være vanskelige å oppdage på grunn av tilfeldigheter

16

Del 1 Metode

Hvis dette er alminnelig, melder det seg straks et nytt spørsmål. Hvis årsaken ikke er at mødrene er høyrehendte, hva kan da være årsaken? Prøv å skrive ned et svar på dette spørsmålet. La oss vende tilbake til det første spørsmålet og se nærmere på det: Hvis du observerer noen mødre og flesteparten av dem foretrekker å holde barnet på venstre arm, kan du da generalisere og si at dette gjelder mødre generelt? I statistikk er svaret «kanskje» og kommer an på

- hvor mange mødre som ble observert - hvordan de ble valgt ut - hvor stor del av dem som foretrakk venstre arm Dr. Salk observerte 255 høyrehendte mødre i de fire første dagene etter nedkomsten og 212 av dem - eller 83 % - holdt barnet på venstre arm. Han observerte 32 kjevhendte mødre og av dem var det 25 - eller 78 % - som foretrakk venstre arm. Følger det av dette at minste 50 % av alle kjevhendte mødre holder barnet på venstre arm? Minst 70 %? Hvilken prosent? Er andelen større for høyrehendte enn kjevhendte? Tabell 1-1 Dr. Salks observasjoner av hvilken arm mødre velger Venstre arm

Høyre arm

Totalt

Høyrehendte Kjevhendte

212 25

43 7

255 32

Totalt

237

50

287

Mødre/bamet på:

Hvis dr. Salks observasjoner er det vi kaller et tilfeldig utvalg, kan disse spørs­ målene delvis besvares ved metoder som er beskrevet i kapitlene 8 og 10. Noen av svarene lyder slik: Vi kan si med 99,65 % sikkerhet - tilsvarende en sannsynlighet på 0,996 5 - at mer enn 50 % av alle kjevhendte mødre holder bamet på venstre arm. Med en sikkerhet på 95 % vil vi kunne si at andelen av alle venstrehendte mødre som har bamet på venstre arm ligger et sted mellom 63 % og 91 %. Vi er enda sikrere (0,999 999 999 999 999 999 999 999 999 82) på at minst halvparten av høyrehendte mødre bruker venstre arm. Dette er eksempler på hvordan vi kan for­ mulere oss, men for at utsagnene skal bli meningsfulle, må vi først presisere hva som menes med sannsynlighet og sikkerhet. Dette skal vi blant annet ta opp i kapit­ tel 3 og 7. Når det gjelder spørsmålet om det er noen forskjell på andelen av venstre- og høyrehendte mødre som holder bamet på venstre arm, vil vi bare kunne være 40 % sikre på det. Dette skulle tyde på at det ikke er noen god forklaring å si at moren holder bamet på venstre arm fordi hun er høyrehendt. Har du en bedre forklaring? Hvis observasjonene ikke er et tilfeldig utvalg, er de nevnte sannsynlighetene ikke riktige og du er nødt til å ta i betraktning mulige skjevheter i observasjonene. Kunne det tenkes at de mødre dr. Salk observerte hadde en helt spesiell tendens til å holde bamet på venstre arm, på grunn av spesielle forhold ved observasjonene? Før

17

1 Oversikt

du trekker en slutning, er det nødvendig å gjennomgå alt tilgjengelig materiale for å belyse situasjonen. Dr. Salk besøkte bl.a. flere kunstgallerier og såpåMadonna-ogbam-bilder. En ting alle mødre har felles, er at de ikke ønsker at barnets klær skal ta fyr. Det finnes svært brannfarlige barneklær i handelen. I USA gir handelsdepartementet støtte til undersøkelser som tar sikte på å finne fram til nattøy som er så brannfarlig at det bør forbys. Slike undersøkelser er bl.a. foretatt i Maryland, der man brukte følgende metode: En tekstilprøve på 3 X 10 cm ble hengt opp i et lite kammer. En tent bunsenbrenner ble så skjøvet inn under tøybiten i nøyaktig 3 sekunder, før den ble fjernet igjen. Noen av resultatene er vist i tabellene nedenfor. Når et klesplagg tar fyr, vil flammene følge sømmene. Derfor ble en del av tes­ tene gjort med tøybiter med en langsgående søm på midten. Hvor brannfarlig tøyet er, ser ut til å avhenge av hvilken kombinasjon av søm tråd og tekstiltype som bru­ kes. Tre typer nye, «brannsikre» tekstiler ble undersøkt: bomullsflanell, acetat/ polyester (80 % acetat) og polyesterbatist. Fire typer sømtråd ble undersøkt: bom­ ull, tråd med spunnet kjerne, polyester og flammesikker polyester (F.S.). Hver tekstiltype ble prøvd sammen med alle trådtyper. Dette blir i alt 3 X 4 = 12 kombi­ nasjoner. Hver kombinasjon ble testet 15 ganger, slik at det i alt ble satt fyr på 12 X 15 = 180 tekstilprøver. (Hva er hensikten med gjentagelsene?) Spørsmålet man så stiller er: Hvilke av prøvene når flammene høyest opp på? Resultatet av eksperimentet er interessant:

Tabell 1-2 Antall undersøkelser av hver tekstil/trådtype-kombinasjon Trådtype

Tekstil

Polyester Acetat Bomull

Bomull

Kjerne

Polyester

F.S.

15 15 15

15 15 15

15 15 15

15 15 15

Noen ganger slukket flammen med en gang eller veldig raskt, andre ganger brant den en stund og i noen få tilfeller brant tøyet helt opp. I dette eksperimentet nådde flammen aldri helt opp når tråden var av polyester eller flammesikker polyester. Derimot nådde den helt opp i 14 av 15 tilfeller når stoffet var av polyesterbatist og tråden av bomull og i alle 15 forsøkene med acetatpolyester sydd med bomull. I tillegg brant også en prøve med acetatpolyester sydd med kjemespunnet tråd helt opp.

Tabell 1-3 Antall tekstilprøver som brant helt opp Trådtype

Tekstil Polyester Acetat Bomull

Bomull

14 15 0

Kjerne

0 1 0

Polyester

0 0 0

F.S.

0 0 0

r

18

Del 1 Metode

Lærdommen som kan høstes ser ut til å være: Hvis du har en polyesterbasert tekstil, sy den ikke med bomullstråd! Det ser også ut til å være en viss risiko hvis acetat/ polyester er sydd med kjemespunnet tråd (kjernen er spunnet av polyester med bomull utenpå). Dermed er det ikke sagt at de andre kombinasjonene er brannsikre! Vi har jo bare undersøkt hvor mange av 15 prøver som brant helt opp, men det er vel ikke særlig festlig med plagg som brenner delvis opp heller? Tror du vi kan generalisere fra disse observasjonene? Hvis 14 av 15 tøybiter av polyesterbatist med bomullssøm brant helt opp og ingen gjorde det når sømmen var av polyestertråd, er det da sikkert at bomullstråd gjør batist mer brannfarlig enn polyestertråd? En av acetat-tøybitene, sydd med kjemespunnet tråd, brant helt opp, mens ingen brant opp når tråden var av polyester. Er kjemespunnet tråd her farli­ gere enn polyester? Ved hjelp av metodene i kapittel 8 og 11 skal vi vise at vi ikke kan trekke noen konklusjon. Vi kan ikke en gang være 50 % sikre på at en kombi­ nasjon er mer brannfarlig enn en annen.

1.2 Tellinger og målinger Naturligvis forteller ikke antall prøver som brant helt opp hele historien. Det ble også målt nøyaktig hvor langt opp på tøybiten flammene nådde. Noen av målingene er vist i graf 1.1. Polyester tråd

0

2

4

6

8

10

Kjemespunnet tråd

Graf 1-1: Hvor langt oppover tøybiten flammene nådde

Det ser ut som om acetat med søm av kjemespunnet tråd har en tendens til å bære ilden lenger enn når tråden er av polyester. Kan dette oppfattes som alminnelig eller skjedde det bare tilfeldigvis i disse forsøkene? Tilfeldigheter kan tas med i betraktningen på flere måter. Noen av dem er be­ skrevet i kapitlene 8 og 12. Uansett hvilken analysemetode du bruker, vil du kon­ kludere med at her er det ikke snakk om tilfeldigheter. Kjemespunnet sømtråd på acetat har faktisk en tendens til å bære flammer lenger enn polyester. Den samme slags problemstilling kan oppstå i mange ulike sammenhenger. En ting vi er opptatt av, er likestilling på arbeidsmarkedet mellom kjønnene. Blant annet er det mange rapporter som går ut på at menn tjener mer enn kvinner for samme type arbeid. Men gjelder det innen alle områder? Graf 1-2 viser data fra Bis

1 Oversikt

19

KVINNER

MENN Graf 1-2: Datafil Regnskap: Årslønn i 1996 i 1000 kr for nyutdannete diplomøkonomer med spesialisering i regnskap og skatt

Kvinner

140

160

180

200

220

240

260

Menn

Graf 1-3: Datafil Reiseliv: Årslønn i 1996 i 1000 kr for nyutdannete diplomøkonomer med spesialisering i reiseliv

arbeidsmarkedsundersøkelse av avgangskullet fra diplomstudiet i 1996. Figuren antyder at gutter som har spesialisert seg i regnskap og skatt kanskje tjener litt mer enn jenter, men er dette nok til å trekke en bastant konklusjon eller kan det skyldes tilfeldigheter? Analyse ved metoder i kapitlene 8 og 11 sier at denne forskjellen godt kan tilskrives tilfeldigheter. I graf 1-3 som gjelder reiseliv er imidlertid for­ skjellen tydeligere, og metodene våre vil vise at den faktisk er overbevisende. Da er det interessant å vite årsaken, og i så fall trenger vi opplysninger om hvorvidt det er systematiske forskjeller på arbeidsoppgavene til menn og kvinner, om det er syste­ matiske forskjeller i alder, osv. Hvis slike faktorer ikke kan forklare forskjellen, må vi konkludere med at den faktisk skyldes diskriminering. Som du ser er det nødvendig å ha et godt kjennskap til det området som studeres for å kunne finne årsaken til observerte forskjeller på en fornuftig måte. Hva er da grunnen til at både høyrehendte og kjevhendte mødre ser ut til å fore­ trekke å holde barnet på venstre arm? Dr. Salk hevder at lyden av hjerteslag virker beroligende på barnet og at moren instinktivt merker dette når barnet blir født. For å kunne trekke denne slutningen er det selvsagt ikke nok å observere at både høyreog kjevhendte mødre foretrekker å holde barnet på venstre side. Hvordan ville du nå teste teorien? Tenk på dette før du leser videre.

20

Del

1 Metode

Det første problemet må være å finne ut hvordan man kan måle hvor godt et spedbarn har det. Dr. Salk antok at siden barnets primære oppgave er å vokse, vil vektforandringen kunne være et rimelig uttrykk for dette. Jo bedre bamet har det, jo mer legger det på seg. Dr. Salk veide 112 barn ved fødselen og igjen fire dager etter fødselen. Barna hadde ikke kontakt med morens hjerteslag unntatt hver 4. time når de ble stelt og fikk melk. Han beregnet så vektøkningen ved subtraksjon. I tillegg veide han 100 andre barn ved fødselen og fire dager etterpå - under nøyaktig de samme betingelser, bortsett fra at en båndopptaker ved krybben spilte opptak av et menneskes hjerteslag hele døgnet. Hvis lyden av hjerteslag har noen virkning, skulle denne gruppen oppnå større vektøkning enn den andre. Siden barnets fød­ selsvekt også sikkert har innflytelse på vektøkningen, inndelte han dem i lette, middels og tunge bam, og fikk derved 3 separate studiegrupper. Resultatene er vist i graf 1-4.

M) •

5 -250

o > -300 Median +70

Median -15

Median +40

Median -10

Median +10

Median -40

Graf 1-4: Dr. Salks observasjoner av vektøkningen til spedbarn som hører lyden av hjerteslag døgnet rundt (hjerteslaggruppen) sammenlignet med en kontrollgruppe (Datafil: Salk).

21

1 Oversikt

Selvsagt var det noen av barna i kontrollgruppen som la på seg mer enn barna i hjertegruppen, men tilsynelatende var det en tendens til at barna i hjertegruppen la mest på seg. Det første vi derfor må gjøre er å finne ut om dette mønstret kan tilskrives tilfeldigheter. Dette blir gjort i kapitlene 8 og 10. Der fmner vi at vektøkningen mellom gruppene er mer systematisk enn hva man kunne for­ vente som resultat av tilfeldighet (sannsynlighetene for tilfeldighet er henholdsvis 0,000 011 7, 0,000 021 og 0,000 085). Dette tyder på at spedbarn som hører hjerte­ slagene til en voksen person har lettere for å legge på seg enn andre spedbarn.

1.3 Tilfeldig variasjon Et lite innblikk i hva tilfeldig variasjon er vil gi en bedre forståelse av det hele. Det mest kjente klassiske eksemplet er bruk av terningkast. La oss kaste en terning 10 ganger og notere resultatet, og så 10 ganger til:

10 terningkast x x x x X x x

X

X

1

2

3

4

5

10 terningkast X

X

x

x

x

x

X

x

X

X

X

6

1

2

3

4

5

6

De to seriene er forskjellige. Dette kaller vi tilfeldig variasjon da det ikke er noen konkret grunn til at resultatene er ulike. Det kan selvsagt være at hvis vi ga oss tid til å studere hvordan terningene ble plukket opp fra bordet og de nøyaktige håndbevegelser som ledet til terningkastet, så ville vi til en viss grad være i stand til å forutsi resultatet av kastet og innslaget av tilfeldig variasjon ville bli mindre. Dette viser at vi stort sett kan velge selv hva vi vil kalle tilfeldigheter. Er det umulig, upraktisk eller for kostbart å studere ting i detalj, forklarer vi rett og slett det som skjer ved å si at det skjer tilfeldig. Dette betyr ikke nødvendigvis at vi tror på genuine tilfeldigheter, slik mange kvantemekanikere gjør, vi bare velger en enkel og rasjonell forklaringsmåte i mangel av noe bedre. Dette kan vi kalle en default forklaring. Ordet er lånt fra dataverdenen der default verdier er forhåndsspesifiserte verdier som man får om man ikke spesi­ fikt ber om noe annet.

Konvensjon Variasjon som det ikke er interessante eller observerbare årsaker til, kaller vi tilfeldigheter

r

22

Del

1 Metode

Kortspill er et annet område der vi er vant til tilfeldigheter. Egentlig er jo de kort du får utdelt nøyaktig bestemt av hvordan kortene ble blandet, men denne prosessen velger vi å kalle tilfeldig fordi vi vanligvis ikke har innsyn i den. De kortene du faktisk får tildelt, sier vi derfor er forårsaket av tilfeldig variasjon. Tilfeldigheter kan imidlertid spille større eller mindre rolle. I bridgetumeringer er det i dag vanlig å la en datamaskin tildele kortene helt tilfeldig. Dette har ført til at spillerne gjen­ nomgående har begynt å få skjevere fordeling mellom fargene nå enn før - og derfor mer interessante kort. Man mente først at datamaskinene ikke tildelte kor­ tene helt tilfeldig. Nå er det imidlertid akseptert at manuell blanding av kort har en tendens til å føre til jevnere fargefordeling enn det en skulle vente ved rene til­ feldigheter. Det henger sammen med at kortene før blanding ofte har mange kort av samme farge på rad som resultat av forrige spill. Manuell blanding er langt fra perfekt slik at vi finner igjen dette trekket også etter blandingen. Når så kortene fordeles rundt til spillerne, blir også de enkelte fargene nokså jevnt fordelt. Prøv i stedet å gi de 13 første kort til syd, de 13 neste til vest, osv. så skal du se! Med statistiske metoder er det faktisk mulig å avgjøre om kortblandingen skjer manuelt eller maskinelt ved å skjelne mellom hvilke resultater som kan forårsakes av hen­ holdsvis delvise tilfeldigheter og rene tilfeldigheter, men til det trengs det observa­ sjoner av ganske mange kortutdelinger. Terningkast og kortspill er klassiske områder der tilfeldigheter får utfolde seg. I virkeligheten er alle livets områder preget av tilfeldigheter, det synes bare ikke alltid så godt. Tilfeldigheter tilslører ofte allmenne forhold eller lovmessigheter som vi ville kunne ha nytte av å kjenne til.

Statistikk Statistikk dreier seg om hvordan vi kan skjelne mellom tilfeldigheter og lov­ messigheter.

Et av de første eksemplene på dette har vi fra slutten av 1800-tallet da engelsk­ mannen William Jaggers betalte seks assistenter for å observere rouletthjulene i Monte Carlo hver dag i en måned. Han fant da ut at enkelte tall kom opp litt oftere enn andre på grunn av små imperfeksjoner ved hjulene. Han spilte så på disse tal­ lene og vant 1,5 millioner franc i løpet av en fire dagers periode, en ganske stor sum på den tiden! Dessverre blir roulette-hjulene jevnlig kontrollert nå for tiden, så sjansene for å gjenta bedriften er liten.

1.4 Simulering av tilfeldig variasjon For å kunne verdsette statistikk, må du oppøve et intuitivt blikk for hvordan resulta­ tene av tilfeldig variasjon manifesterer seg i ulike sammenhenger. En personlig datamaskin, heretter kalt PC, er et velegnet hjelpemiddel. Det er vanskelig å si om det er PC-ene som har ført til regnearkenes popularitet eller omvendt, men faktum

1 Oversikt

23

er at regneark i dag er i utstrakt bruk i økonomi, regnskap, administrasjon, dataana­ lyse og utredningsvirksomhet. De representerer en del av den hverdag mange stu­ denter i bedriftsøkonomi befinner seg i, eller snart vil møte. Det er derfor nærlig­ gende å benytte regneark som hjelpemiddel i en lærebok i statistikk. Foruten vanlig tallbehandling, kan vi også etterligne eller simulere tilfeldige prosesser som pågår i den virkelige verden. På denne måten kan vi studere hvordan de arter seg på en langt raskere og billigere måte enn ved å gjøre virkelige observasjoner eller eks­ perimenter.

Statark Statark er en regnearkbasert programvare som er spesielt utviklet for denne boken. Programmet forutsetter at du har regnearket Excel. Det er organisert med en sentral fil som henter inn dataene som skal studeres, og som åpner ulike vinduer. Vinduene er knyttet til de ulike kapitlene i denne boken og illustrerer teorien på ulike måter. Alle såkalte skjermer i denne boken er laget ved hjelp av Statark. Programmet er inkludert i arbeidsheftet som i detalj viser hvordan du selv kan utføre ulike simu­ leringer eller beregninger som omtales i boken. Det er ikke nok å lære å benytte de spesielle mulighetene som Statark tilbyr deg. Du bør også kunne benytte deg av de generelle hjelpemidlene et regneark gir. Dette vil vi jevnlig komme tilbake til. Det tilbys mange ulike kommersielle regneark. Imidlertid er alle typer regneark relativt like, så kjenner du ett, kjenner du mer eller mindre alle.

Oslo Børs 22.04.96: Avkastninger hittil i året for Industri, handel og finans Veidekke Tandberg data

Skiens Aktiemølle Simrad A

Scana Industrier

Rieber & Sønn B Petroleum Geo Nydalens Compagnie Norsk Hydro j

Merkantildata Kverneland

Helicopter Service

Goodtech j Elkem

DNLB Avantor

Aker A _

-60

Skjerm 1-1: Datafil Oslo-Bor.«Avkastninger hittil i år» pr. 22/4-96for selskap innen industri, handel og finans på Oslo Børs. Ikke alle selskapsnavn er vist.

24

Del 1 Metode

Statark 1-2, Wenstøp: Kapittel 1

Simulering av tilfeldig variasjon DATASETT:

OSLO-BORS STIKKPRØVE

1:(A)

NAVN VERDI Unitor 16,09 9,59 Alcatel STK Scana Industrie 49,21 -7,48 Arendals Fosse 5,73 Petroleum Geo 34,47 Fiba -1,96 Helicopter Serv -2,39 Dyno Industrier 32,48 Fesil 3,41 Blom 0 Moelven Indust 12,07 Adressavisen -7,48 Arendals Fosse -10,2 Hunsfos 37,17 Goodtech 7,92 Rieber & Sønn

NAVN Elkem Orkla A Orkla A Sagatex Saga Petroleun Gresvig Kverneland Moelven Indust Saga Petroleun Raufoss Hafslund Nycor Nydalens Comf Kverneland Steen&Strøm ir Aker A Adressavisen

IHF 2:(B) VERDI 23,78 4,45 4,45 41,67

3:(C)

TILFELDIG VARIASJON

0,52 j 19,67 l 0 j

8,92 -7,44 8,79 13,1

4:(D)

NAVN VERDI NAVN VERDI Goodtech 37,17 Maritime Group 80,49 Avantor 7,8 Nera 22,63 Skiens Aktieme 11,36 Adressavisen 12,07 SE labels_______ -9,09|Simrad A_______ 65,28

å | | 1

iu 4

0 $

0" $

©3 ---------- ♦— (treff) eller ikke (bom). Halvparten av gangene ville Xj være over Jz. I halvparten av disse tilfellene igjen, vil ogsåx2 være over. Hvis de to første verdiene var over, hva er da sannsyn­ ligheten for at også den tredje verdien, x3, skal bli over? Den må stadig være 1/2

48

Del 1 Metode

siden tallene kan trekkes på nytt. Men da må alle tre verdiene være over i halvparten av en fjerdedel av tilfellene:

n/ P(X] >

~ 1 1 1 Ogx2 > M Ogx3 > /zj = y X y x — =

Det er opplagt at sannsynligheten må være den samme for at alle tre verdiene ligger under /z. Konfidensintervallet som går fra laveste til høyeste verdi, bommer bare på /z i disse to tilfellene. Feilsannsynligheten blir derfor 1/8 + 1/8 = 1/4 og konfidens­ sannsynligheten 3/4.

Konfidensintervall for medianen basert på: Ordningsobservatorene x(1j og x( 1} n = 3 observasjoner, xb x2 og x3 Feilsannsynlighet = 1/8 + 1/8 = 1/4 = 0,25 Konfidenssannsynlighet = 1 — 1/4 = 3/4 = 0,75

Før du nå går videre, bør du legge boken til side og prøve å finne ut hvilken feilsann­ synlighet og hvilket konfidensnivå du opererer med hvis du sier at /z ligger mellom den høyeste og den laveste verdi i en stikkprøve på fire observasjoner. Du ser at jo større stikkprøven er, jo større er konfidenssannsynligheten, dvs. sannsynligheten for at fi blir innfanget mellom den høyeste og den laveste verdien. Ved å følge resonnementet videre, ser vi at vi har de generelle formlene:

Konfidensintervall for medianen basert på ordningsobservatorene X(d og x{1) n observasjoner, xb x2 ••• *n 2 = 1 Formel 3-1: Feilsannsynlighet = —i Konfidenssannsynlighet =

1 2«-t

Ved å sette ulike verdier av n inn i formlene, kan vi beregne sannsynlighetene i form av en tabell. Den finner du i første kolonne i tabell 3a bak i boken.

49

3 Å GENERALISERE FRA EN STIKKPRØVE

Praktiske anvendelser av feilsannsynlighet og konfidensnivå Det er på tide å ta en pause for å se hva alt dette skal være godt for. I praktiske situasjoner ser vi ofte på en stikkprøve for å finne ut noe om medianen i en popula­ sjon vi ikke kjenner. I noen tilfeller blir stikkprøven skaffet til veie ved tilfeldige trekninger, omtrent slik vi har gjort tidligere. For å finne medianutgiftene til matva­ rer pr. uke for husstandene i et avgrenset område, uten å gå til det skritt å intervjue alle sammen, vil et markedsforskningsinstitutt gjeme bruke et kart og en num­ merert liste over alle husstandene. Hvis det totalt er 483 husstander i området, og det er bestemt å benytte 40 av dem i undersøkelsen, kunne man legge lapper som er nummerert fra 1 til 483 i en ume og trekke ut 40 tilfeldige husstander og intervjue hovedpersonene i disse. Utgiftene til de 40 er nå en tilfeldig stikkprøve fra den aktuelle populasjon. A legge lapper i en ume er nå litt gammeldags. I stedet bruker man gjeme en elektronisk tallgenerator slik du blant annet finner i regneark. Mange datasett som brukes i forskning er ikke et resultat av tilfeldige stikk­ prøver, men blir likevel brukt som om de var det. En lærer som på en prøve har gitt karakterer til klassen sin, kan forsøksvis gå ut i fra at disse karakterene er en til­ feldig stikkprøve av de som ville vært gitt til alle elever i hele landet, dersom alle hadde fått samme prøven. Han antar at klassen er et representativt utvalg fra hele elevmassen, og går så i gang med å estimere populasjonsmedianen. For eksempel har en klasse med økonomi studenter i Trondheim fått følgende karakterer i stati­ stikk: o

Tabell 3-2 Datafil Trondheim, 11 tilfeldige statistikk-karakterer, utsnitt av rådata 3,1

1,5

1,2

2,0

1,7

1,3

2,1

1,8

1,8

1,6

2,4

I alt var omtrent 2000 studenter oppe til denne eksamen. Hvis Trondheimskarakterene kan sees på som en representativ stikkprøve (det skal vi undersøke senere!), kan vi lage et konfidensintervall for mediankarakteren til alle 2000 med en konfidenssannsynlighet som beregnes ved hjelp av formel 3-1:

Konfidensintervall = [1,2 ; 3,1] Konfidenssannsynlighet = 1 — (1/2)10 = 0,99902

Vi kan med andre ord si med minst 99,9 % sikkerhet at mediankarakteren i popula­ sjonen ligger et sted mellom 1,2 og 3,1 hvis altså vår forutsetning om at stikkprøven er representativ er riktig. Dessverre må det innrømmes at selv om sikkerheten er stor, er informasjonen ikke særlig presis, men det kommer vi tilbake til i neste avsnitt.

50

Del

1 Metode

A være på den sikre siden Et lite teknisk poeng: Da vi beregnet feilsannsynlighetene, sa vi at hvis halve popu­ lasjonen ligger over, så er sannsynligheten 1/2 for at en tilfeldig x ligger over popu­ lasjonsmedianen. Det tekniske poenget er at P (x > pc) ikke behøver å være nøyak­ tig 1/2, men kan være mindre hvis noen populasjonsverdier er nøyaktig lik pc, fordi færre enn halvparten da vil være absolutt høyere. I vår populasjon av bygdekvinne­ nes aldre var 248 aldre under medianen på 31 år, 9 var lik medianen og 243 var over. Dette er imidlertid ikke noe problem, fordi det betyr at ved å bruke formel 3-1, vil den virkelige konfidenssannsynligheten være minst så stor. Vi er med andre ord på den sikre siden, noe som er en vanlig måte å innrette seg på i statistikk. Trangere konfidensintervall i bytte mot lavere konfidenssannsynlighet Ovenfor fant vi at vi med 99,9 % sannsynlighet kan si at mediankarakteren i stati­ stikk i populasjonen som Trondheimsdataene var hentet fra, lå mellom 1,2 og 3,1. Dette visste vi i grunnen fra før. Slik informasjon er for omtrentlig til å være nyttig. Vi behøver derfor trangere konfidensintervall. Når vi har store stikkprøver, kan vi godt unnvære den luksus å ha et konfidensnivå som er nær 100 % og til gjengjeld få grensene for konfidensintervallet nærmere hverandre. I tabell 3-3 er målinger av pulsen hos 14 tilfeldige studenter (målt i slag pr. mi­ nutt): Tabell 3-3: 14 tilfeldige pulser målt hos studenter 59

63

91

73

76

74

87

83

80

91

76

99

78

76

76

76

78

80

83

87

91

91

99

Den ordnete stikkprøven: 59

63

73

74

76

Når n = 14, viser formel 3-1 at konfidenssannsynligheten for [xmin; xmaJ-intervallet er lik 0,999 88. Men intervallet er meget vidt, fra 59 til 99 slag pr. minutt! Hva med å bruke [x(2j, x(2)]-intervallet isteden? Dette gir i hvert fall et trangere intervall på [63 ; 91] slag pr. minutt. Vidden har dermed blitt redusert fra 41 til 28 slag pr. minutt. Se graf 3-1. Sannsynligheten for at [x(2j; x(2)] skal inneholde medianen, kan beregnes. Den er 0,998 17 - ikke dårlig det heller.

3 Å GENERALISERE FRA EN STIKKPRØVE

I

50

I------------------------------------- 1

60

70

I

I

80

90

51

I 100

pulsslag pr. minutt

Graf 3-1: To ulike konfidensintervallfor populasjonsmedianen

Det kan vises at sannsynligheten for at [x(2j; x(2i] skal fange inn populasjonsmedianen kan beregnes for enhver verdi av n ved hjelp av formelen: 1 — 2 (1 + n) (1/2)" Enda trangere grenser Det er ingen grunn til å stoppe her. Intervallet [x(2); x,2)] har også lett for å bli for vidt, og for høye verdier av n er konfidenssannsynligheten mer enn tilstrekkelig. Vi kan gjøre intervallet enda trangere ved å benytte [xf3); x(3)] som er intervallet fra tredje laveste til tredje høyeste verdi i stikkprøven. Hvis n er stor, kan det være ønskelig å gjøre intervallet enda trangere ved å bruke [x(4) ; x(4)] eller kanskje [xpj ; x(7)], Sannsynligheten for at intervallet inkluderer medianen kan beregnes i hvert enkelt tilfelle og er vist i tabell 3a bak i boken for n opp til 20 og til den 10. ordningsobservator nedenfra og ovenfra. Konfidensnivå Med en tilfeldig stikkprøve på n = 15 observasjoner kan vi velge mellom [x(1); x( 1 *], [x(2) ;x(2)], [x(3) ;x(3)], [x(4) ;x(4)], [x(5) ;x(5)], [x(6) ;x(6)] og [x(7) ;xn)] som konfidens­ intervall for populasjonsmedianen. Hvilket skal vi bruke? Vanlig praksis er å fast­ sette en nedre grense for sannsynligheten for å komme til korrekt konklusjon. Dette kaller vi konfidensnivået. Deretter bruker vi det trangeste intervallet som tilfreds­ stiller dette nivået.

Definisjon av konfidensnivå Konfidensnivået er en valgt nedre grense for konfidenssannsynligheten, ofte lik 95 %

Ofte pleier statistikere å forlange at konfidensnivået skal være 95 %. Tallet er nokså vilkårlig valgt, men har nedfelt seg som yrkesgruppens standard. Konfidensintervallet bommer da på populasjonsmedianen med en maksimal sannsynlighet på 5 %. Dette kaller vi et 95 % konfidensintervall.

52

Del 1 Metode

Når n = 15, betyr dette at intervallet må være [x(4); x(4)], ifølge tabell 3a. Da blir det virkelige konfidensnivået 0,9648, men det neste blir for lavt. Vil man være litt sikrere, kan man velge [x(3j; x(3)], med konfidensnivå på 99 %. Jo trangere konfidensintervallet er, jo større er presisjonen, men jo lavere blir konfidenssannsynligheten eller sikkerheten. Hvis du vil ha både i pose og sekk, det vil si både høy sikkerhet og høy presisjon, er eneste mulighet å øke stikkprøvestørrelsen. Men det koster penger. Som regel er det vanskelig å estimere hvor stor økonomisk betydning sikkerhet og presisjon har. Derfor har 95 % sikkerhet nedfelt seg som en tommelfingerregel innen det økonomisk-administrative fagområdet. I medisin derimot, er kravet til sikkerhet ofte større. Der vil du kunne finne både 99 % og 99,9 % konfidensnivåer. I medisin dreier det seg jo om liv og helse, og man ofrer ikke så lett sikkerhet for å spare penger. Som økonom bør du imidlertid være oppmerksom på disse kryssende målene og prøve å finne en rimelig avveiing mellom dem. Har du ikke gode grunner til noe annet, bruk 95 %!

Stikkprøvemedianen som punktestimat for populasjonsmedianen La oss gå ut fra at du kan skaffe en tilfeldig stikkprøve på n = 9 verdier fra en populasjon med en ukjent median. Du har da valget mellom flere måter å bruke de observerte verdiene til å estimere populasjonsmedianen. Du kan gi som estimat at /z ligger et sted mellom xmin og xmax og ha en sannsyn­ lighet på minst 99,6 % for å ha rett. Du kan si at /z ligger mellom x^ ogx{3) og har da en sannsynlighet på minst 82 % for å ha rett, og kan du si at /z ligger mellom X(4) og x(4) med en sannsynlighet på minst 49 % for å ha rett. Hva med å ta enda et skritt nærmere midten av stikkprøven og si at /z er lik X(5) = x(5) = x som er stikkprøve­ medianen? Hva er sannsynligheten for at dette er riktig? Den vil som regel være null eller nær null. Alt vi kan si er at den er minst null. Stikkprøvemedianen kalles et punktestimat for /z fordi den er et enkelt punkt på tallinjen. Vi hevder at den ukjente populasjonsmedianen er der, men vi vet temme­ lig sikkert at som et utsagn som tas bokstavelig, er det galt. Hva vi håper, er at det er nokså riktig. En ting du kanskje lurer på, er om du nødvendigvis må bruke stikkprøvemedia­ nen hvis du ønsker å lage et punktestimat for /z. Svaret er at det finnes andre mulig­ heter. Du kan for eksempel bruke punktet nøyaktig midtveis mellom xmin og xmax. Vi skal ikke gå nærmere inn på dette, men holde oss til stikkprøvemedianen. Et annet spørsmål: Hva hvis n er et partall? Da finnes det ikke noen midtre obser­ vasjon som kan brukes som punktestimat. Det vi da gjør, er å velge punktet som ligger midt mellom de to midterste observasjonene.

3 Å GENERALISERE FRA EN STIKKPRØVE

53

3.4 Konstruksjon av konfidensintervall i praksis Tabell 3 I tabell 3a valgte du først et konfidensnivå, deretter linjen for den aktuelle verdi av n, og fulgte så linjen bortover inntil du fant en sannsynlighet som var like over konfidensnivået. Hvis dette var i kolonne c, var konfidensintervallet [x(c); x^]. Tabell 3b forenkler denne prosessen. Her går du rett inn på linjen for den aktuelle verdi av n og kolonnen for det aktuelle konfidensnivå. Tabellen viser c som betyr at konfidensintervallet skal gå fra den c-te laveste til den c-te høyeste verdi i stikk­ prøven. Slike konfidensintervall kaller vi tosidige. Notasjonen nederst i tabell 3b vil ikke bli brukt ennå, men dette kan være et passende tidspunkt å forklare symbolene på. a er den greske bokstaven alfa. Vi bruker 2a som symbol for feilsannsynligheten vi er villige til å tåle. Da blir 1 — 2a det konfidensnivået vi forlanger. Hvis for eksempel 1 — 2a = konfidensnivået — 95 %, blir 2a = 5 % = feilsannsynligheten. 2a er således sannsynligheten for at hele konfidensintervallet blir liggende ovenfor eller nedenfor fi. Det er jo i disse to tilfellene vi bommer, a er da sannsynligheten for at hele intervallet ligger ovenfor og også sannsynligheten for at hele blir liggende nedenfor. Av og til ønsker vi kun å bestemme en øvre grense som vi føler oss noenlunde sikre på at populasjonsmedianen ligger under, andre ganger bare en nedre grense. Slike konfidensintervall kaller vi ensidige. Estimerer vi en øvre grense, kan vi bare gjøre én ting feil, nemlig at tallet blir lavere enn /L Skal vi for eksempel angi en øvre grense for bygdekvinnenes medianalder, vil 60 år ikke være galt - det vil derimot 30 år. Feilsannsynligheten kaller vi nå a, og konfidensnivået blir 1 — a.

Konvensjoner Ensidig feilsannsynlighet — a — P (x(c) > fi) = P (x(c) < fi) Tosidig feilsannsynlighet = 2a = P (x(c) > fi eller < fi) Tosidig konfidensnivå = 1 — 2a = P(x(c) < fi < x(c)) Ensidig konfidensnivå = 1 — a Tosidig konfidensintervall = [x(c); x(c)] Venstregrenseintervall = [x(c); æ) Høyregrenseintervall = (—æ;x^c)]

54

Del 1 Metode

Statark 7, Vindu 4 Vindu 1-4 i Statark beregner alle tre typer konfidensintervall på grunnlag av stikkprøveverdiene du har hentet inn. Trondheimsfilen inneholder også karakterer fra Oslo til sammenligning. Her er strykkarakterene erstattet med 6,0. I skjerm 3-1 ser du tre ulike 95 % konfidens­ intervall for medianene i populasjonene dataene er hentet fra: - Du er 95 % sikker på at 1,3 og 2,4 ligger på hver side av medianen. - Du er 95 % sikker på at2,1 er over medianen. - Du er 95 % sikker på at 1,5 er under medianen. Statark 1-4, Wenstøp: Kapittel 3

Konfidensintervall med ordningsobservatorene Datafil:

TRONDHEIM

Stikkprøve: Antall:

95 % KONFIDENSINTERVALL FOR MEDIANEN OSLOutv. TRONDHEIM 19 11

Intervalltype

Tosidig Høyregrense Venstregrense

Kritisk verdi c 2 3 3

Nedre grense [ 1,3 < [ 1,5

Øvre grense 2,4 ] 2,1 ] >

Kritisk verdi c 5 6 6

Nedre grense [ 1,8 < 1 1-9

Øvre grense 3 ] 2,9 ] >

Skjerm 3-1: Tre typer 95 % konfidensintervallfor medianene i populasjonene som henholdsvis Trondheims- og Oslokarakterene er hentetfra. Statark 1-4, Wenstøp: Kapittel 3

Konfidensintervall med ordningsobservatorene Datafil:

TRONDHEIM

Stikkprøve: Antall:

90 % KONFIDENSINTERVALL FOR MEDIANEN OSLOutv. TRONDHEIM 19 11

Intervalltype

Tosidig Høyregrense Venstregrense

Kritisk verdi c 3 3 3

Nedre grense [ 1,5 < [1,5

Øvre grense 2,1 2,1

] ] >

Kritisk verdi c 6 7 7

Nedre grense [1,9 < [ 2,2

Øvre grense 2,9 2,8

] ] >

Skjerm 3-2: Tre typer 90 % konfidensintervall for medianene i populasjonene som henholdsvis Trondheims- og Oslokarakterene er hentet fra.

Skjerm 3-2 viser det samme, men nå er konfidensnivået lavere. Derfor blir noen intervaller litt trangere, men ikke alle, fordi en nedgang i konfidens ikke alltid be­ høver være tilstrekkelig til å skifte c-verdi.

3 Å GENERALISERE FRA EN STIKKPRØVE

55

3.5 Sammendrag Populasjoner, stikkprøver og statistisk inferens En serie tall kan betraktes både som en populasjon og som en stikkprøve, avhengig av hva du holder på med. Ser du på dem som en populasjon, kan du beregne median, skjevhet, fraktiler, og andre parametre du måtte ønske. Disse beskriver populasjonen på en mer oversikt­ lig måte enn ved simpelthen å presentere rådataene. Noe annet er det imidlertid ikke behov for å gjøre, siden tallene jo er populasjonen. Ser du derimot på dem som en stikkprøve, blir tallene langt mer utfordrende. Da tenker du på dem som tilfeldige trekninger fra en større - kanskje uendelig stor samling tall som du kaller populasjonen. Utfordringen består i å si noe om denne store, ukjente samlingen tall ved hjelp av de tallene du har i stikkprøven. Dette er statistisk inferens. Dette kapitlet viser hvordan du kan lage et konfidensintervall for populasjonens median ved hjelp av ordningsobservatorene. Du vil senere lære andre metoder for å lage konfidensintervall og andre former for inferens. Konfidensintervall Et konfidensintervall er et område der du påstår at en populasjonsparameter, for eksempel populasjonsmedianen, ligger. Intervallet konstrueres ved hjelp av stikk­ prøven med en metode som garanterer at sannsynligheten for at det faktisk kommer til å inneholde populasjonsmedianen minst er lik konfidensnivået. Konfidensni­ vået velger du selv. Forutsetningen er at stikkprøven virkelig er en tilfeldig stikk­ prøve fra populasjonen. Konstruksjon av konfidensintervall for populasjonsmedianen ved hjelp av ordn ingsobservatoren e

1. 2.

3. 4.

5.

Du har en tilfeldig stikkprøve på n observasjoner fra den ukjente populasjonen. Bestem deg for konfidensnivået. Eksempel: konfidensnivå = 95 % Bestem deg for om du vil lage et tosidig eller et ensidig konfidensintervall. Finn a ved å sette: 1 — 2ct lik konfidensnivået ved et tosidig intervall 1 — a lik konfidensnivået ved et ensidig intervall Med et konfidensnivå på 95 % blir a lik 2,5 % ved tosidig intervall 5 % ved ensidig intervall. I tabell 3b finner du c ved å slå opp i riktig kolonne i henhold til verdien til 1 — la. Er n større enn 50, bruker du tilnærmingsformelen nederst i tabellen. Hvis konfidensnivået er 95 %, blir 1 — la lik 95 % ved tosidig intervall 90 % ved ensidig intervall

56

6.

Del

1 Metode

Ordne stikkprøven og finn konfidensintervallet. Tosidig: Fra og med den c laveste til og med den c høyeste verdi Venstregrense: Fra og med den c laveste verdi og oppover Høyregrense: Fra og med den c høyeste verdi og nedover.

Legg merke til at c normalt blir større ved et ensidig enn ved et tosidig intervall. Ved små stikkprøvestørrelser kan c forbli uforandret, fordi den må være et helt tall og et sprang blir for stort. På grunn av heltallsproblematikken er det konfidensnivået du velger i praksis lavere enn konfidenssannsynligheten som er det virkelige nivået. Dette kan du finne ved å bruke tabell 3a. Med tabell 3b er du altså på den «sikre siden».

3.6 Oppgaver Øvelse: Tilfeldig utvalg og konfidensintervall (Svar etter oppgave 3-4) Tabell 3-4 Datafil Puls, rådata Gutter Jenter

a)

50 60

61 66

65 80

57 68

60 70

66 64

80 80

65

56 70

60

60

Den ene stikkprøven besto av pulsen til de guttene i en klasse som var født i januar måned. Hvis populasjonen består av alle guttepulsene i klassen, vil du da betrakte stikkprøven som et tilfeldig utvalg fra populasjonen?

b) Ta for deg guttepulsene. Lag tosidige konfidensintervall for populasjonsmedi­ anen med c = 1, 2, 3, 4 og 5 og finn de eksakte konfidenssannsynlighetene.

c)

Lag tosidig og ensidige konfidensintervall for populasjonsmedianen til gutte­ pulsene på 95 %-nivået.

Oppgave 3-1 Lønn for diplomøkonomer med spesialisering i regnskap I Bis arbeidsmarkedsundersøkelse for avgangskullet fra diplomøkonomstudiet 1996 ble årslønn for 30 menn og 19 kvinner med spesialisering i regnskap og skatt som hadde fått jobb pr. 01.10.96 registrert.

Tabell 3-5 Datafil: Regnskap Kvinner

180 210

200 210

200 185

204 209

225 180

250 200

160 205

210 213

145 175

200

182 214 180

192 190 186

220 200 190

230 208 203

230 235 205

150 240 210

180 250 232

210 170 190

215 180 210

Menn

180 220 180

3 Å GENERALISERE FRA EN STIKKPRØVE

a)

57

Lag et 95 % og et 90 % konfidensintervall for populasjonenes medianlønn.

b) Hva er det rimelig å anse som populasjoner i dette tilfellet? Oppgave 3-2 Medianpris på brukt Volvo To studenter innhentet i 1982 15 tilfeldige priser hos merkeforhandlere på brukt Volvo 244 DL 1978-modell. Her er prisene i 1982: Tabell 3-6: Datafil Volvo, priser hos merkeforhandlere 52100 55000

a)

45100 49000

57600 57100

51700 48100

43100 60100

54900 55100

62600 58100

62500

Finn et 95 % konfidensintervall for populasjonsmedianen.

b) Spesifiser hva som er populasjonen. Oppgave 3-3 Lufttrykkmålere på bensinstasjoner Når du fyller luft i bildekkene på bensinstasjoner, har du kanskje lurt på hvor nøy­ aktig trykkmåleren egentlig er. Det er jo vel kjent at slitasjen på dekkene er svært følsom for trykket i dekkene. For å undersøke dette har National Bureau of Stan­ dards i USA foretatt en stikkprøve ved 50 tilfeldig utvalgte bensinstasjoner. Et reservehjul ble fylt opp til måleren viste 28 pund pr. kvadrattomme (psi). Deretter ble det virkelige trykket avlest med et svært nøyaktig instrument. Resultatene var:

Tabell 3-7 Datafil Dekktryk, rådata 25.5 26,0 26,2 27,3 24,7

a)

27,8 26,0 24,2 26,0 25,6

28,5 29,4 28,1 28,4 29,4

25,0 25,2 25,1 26.2 21,3

27,3 35,0 42,5 26,8 32,0

22,0 30,4 27,8 27,9 26.1

27,8 23,6 29,6 30.4 29,7

28,6 26,3 28,8 19,4 28,5

26,5 21,6 28,2 29,3 25,5

30,2 43,7 32,6 31,0 32,3

Lag et 95 % konfidensintervall for populasjonsmedianen. Tyder konfidens­ intervallet på at det er mulig at den kan være lik 28,0 psi?

b) Det er spesielt ille hvis trykket tenderer til å være for lavt. Lag derfor et ensidig konfidensintervall som viser en minsteverdi for populasjonsmedianen som vi er 95 % sikre på! c)

Føler du deg som bilfører fornøyd hvis det er i orden med medianen, eller er det stadig ting ved dataene som virker foruroligende?

Oppgave 3-4 Mange, mange stikkprøver Hvis du tilbrakte livet med å trekke stikkprøver på n = 15, hvor ofte ville du har rett i en påstand om at populasjonsmedianen ligger et sted mellom høyeste og laveste verdi? Hva er konfidenssannsynligheten?

58

Del 1 Metode

Svar på øvelse. Tilfeldig utvalg og konfidensintervall a)

Det viktige spørsmålet her er om det kan være en sammenheng mellom den pulsen man har, og den måneden man er født i. Dette er det vel ingen grunn til å tro. Da kan stikkprøven betraktes som en tilfeldig stikkprøve fra klassen hva angår puls, selv om bare noen av guttene hadde mulighet til å bli valgt ut.

b) Guttepuls-stikkprøven ordnet: 50 56 57 60 60 60 61 65 65 66 80 Den eksakte konfidenssannsynlighet finnes i tabell 3a:

c)

c

Venstre grense

Høyre grense

Konfidens-sannsynlighet

1 2 3 4 5

50 56 57 60 60

80 66 65 65 61

0,9990 0,9883 0,9346 0,7734 0,4512

95 % konfidensintervall (n = 11, c er funnet i tabell 3b): Type Tosidig Venstregrense Høyregrense

Nivå

a

1 - 2a

c

Intervall

1 - 2a = 0,95 1 - a = 0,95 1 - a = 0,95

0,025 0,05 0,05

0,95 0,90 0,90

2 3 3

[56 ; 66] [57 ; oc) , hvis det er populasjonsmedianen du skal estimere. Der­ med er et krav til validitet oppfylt. Usikkerheten skriver seg fra den tilfeldige varia­ sjonen forbundet med det å ta en stikkprøve og har å gjøre med reliabilitet, men størrelsen på usikkerheten er kjent. Hvis du skulle estimere hvor stor andel av norske menn som har skjegg, er det nærliggende å ta en rusletur rundt på gaten og notere hvor mange som har skjegg og hvor mange som ikke har det. Av bekvemmelighetshensyn velger du ikke en mer arbeidskrevende metode som kan sikre at alle norske menn har samme sjanse for å bli observert. I et slikt tilfelle utsetter du deg ikke bare for tilfeldig variasjon, men også for en mulig utvalgsskjevhet. Tenk om du for eksempel befant deg i nærheten av universitetet! Da ville undersøkelsen neppe være gyldig for den opprinnelige problemstillingen, og det ville ikke være lett å rette på det heller fordi vi ikke vet hvor stor feil som er introdusert. Ett av de vanligste tilfellene der utvalgsskjevhet oppstår som følge av bekvemmelighet, er ved bruk av postsendte spørreskjemaer. Man analyserer jo bare de skjemaer som returneres i utfylt stand, men hva slags mennesker returnerer skjemaer? Det samme gjelder til en viss grad telefonrundspørringer. Hvem tar telefonen når den ringer? Dette er viktige problemer som alltid må tas alvorlig ved statistiske undersøkelser, fordi feilene kan bli store. En måte å oppnå tilfeldighet på er å spørre etter den personen som sist hadde fødsels­ dag.

4 Statistisk

metode

61

Nytten av tilfeldige stikkprøver fremfor å prøve å få full oversikt Her er et historisk eksempel fra 2. verdenskrig som viser nytten av tilfeldige stikk­ prøver. På grunn av krigsrasjonering trengte Kontoret for Prisadministrasjon i USA estimater på lagerbeholdningen av dekk hos forhandlerne. De prøvde først å få en fullstendig oversikt (kartlegge hele populasjonen) ved å sende spørreskjemaer til alle forhandlerne i nasjonen, men mange av dem besvarte ikke spørreskjemaet. Kontoret for Prisadministrasjon antok at det var spesielle grunner til at mange ikke svarte slik at de svarene de hadde fått på ingen måte behøvde være representative. De lagde da et lite utvalg og fulgte isteden opp med purringer og personlige besøk inntil de hadde fått svar fra praktisk talt alle i utvalget. Dette lille utvalget viste seg å være mindre kostbart og ha langt bedre gyldighet enn «populasjonsdataene». Hvis de to undersøkelsene hadde blitt gjentatt, ville vi riktignok vente å få samme svar ved «populasjonsundersøkelsen», men kanskje et litt annet ved utvalget på grunn av tilfeldig variasjon. Reliabiliteten til «populasjonsundersøkelsen» er altså større, men det hjelper ikke mye så lenge den ikke er gyldig for det vi er ute etter, nemlig de sanne populasjonsdataene. Noe lignende skjedde i Tyskland. Tyskerne prøvde å lage en fullstendig oversikt over hvor mye de produserte, men rapportene fra de mange fabrikkene var sene og ikke alltid pålitelige. Britiske og amerikanske statistikere prøvde også å estimere den tyske produksjonen, men kunne vanskelig be om rapporter fra de tyske fabrik­ kene. Istedenfor benyttet de serienummeme på erobret utstyr. Dette ble et svært lite utvalg, men det hadde den fordelen at det var tilfeldig. Studier etter krigen har vist at de allierte faktisk hadde både bedre og ferskere estimater for den tyske produk­ sjonen enn tyskerne selv! Stikkprøvens relative størrelse La oss starte med en poengtert artikkel i Farmand som gir en god anledning til å ta opp myten om betydningen av stikkprøvens relative størrelse:

Umulige meningsmålinger Kan ikke Morgenbladet gjøre noe riktig? Meningsmålings-teknikken er ganske visst komplisert, og det er ikke alle forunt å kjenne de teore­ tiske forutsetninger for fornuftig bruk, men det skulle være unødven­ dig å demonstrere sin uformuenhet med slik ostentativ arroganse som Morgenbladets politiske medarbeider gjør i dette tilfelle. Det patetiske ved Morgenbladets/NOIs siste meningsmåling er at poenget ved å kor­ rigere arbeiderpressens misbruk av meningsmålinger, hvorefter Mor­ genbladet gikk i sammen fellen selv.

200 personer ble spurt pr. telefon om sin holdning til atomvåpenfrie soner. Et utvalg på 200 personer er overhodet ikke utsagnskraftig på vegne av befolkningen. Den nors­ ke foregangsmannen for bruk av

den representative metode i statestikken, direktør i Statistisk Sentralbyrå A. N. Kiær, brukte ut­ valg på mellom 5-10%. Senere er man kommet til at 2 %’s utvalg el­ ler enda mindre kan være bruk­

bare, men 200 voksne nordmenn blant 2 millioner er bare 0,1 pro­ mille. En annen sak er at telefonin­ tervjuer er skjeve i utgangspunk­ tet, fordi de utelukker folk uten te­ lefon, om det ellers bygger på en riktig landsomfattende fordeling. Svarene fra de 200 telefonintervjuede om folks holdninger til «atomfrie soner i Norden» av­ slørte ulogiske og irrasjonelle holdninger blant folk. Et flertall (57%) gikk inn for atomvåpenfrie soner i Norden, selv om NATO

62

Del 1 Metode

gikk imot. Samtidig mente 70% av de 200 at en separatavtale med Sovjet ikke er å stole på. Tydeli­ gere kan det ikke vises at denne «meningsmåling» var ubrukelig. Meningsmålinger er kun me­ ningsfulle i spørsmål som folk har satt seg inn i. Spørsmålet om atomvåpenfrie soner er for kom­ plisert til at det umiddelbart er gitt hva folk skal mene. Her er vel år­ saken til at Arbeiderpartiet vil gjøre det til en «sak» i valgkam­ pen. Selvfølgelig er det ingen som vil ha atomkrig i Norge. Det store flertall for atomvåpenfrie soner tyder på at folk ikke har satt seg inn i de mer «tekniske» sider ved spørsmålet, og svarer på grunnlag

av generelle holdninger og in­ stinkter. For meningsmålingsinstituttene skulle konklusjonen være klar: Slutt å stille spørsmål om saker som folk ikke har betin­ gelser for å svare på. Meningsmå­ linger er et instrument som bør brukes meningsfylt, og ikke til å skape forvirring. Bjørn Balstad og hans institutt NOI har en faglig «filosofi», som ikke bidrar til å gjøre slike telefo­ nintervjuer mere efterrettelige. Bjørn Balstad unnlater å bruke en «vet ikke»-gruppe, og presser in­ tervjuobjektene til å innta et standpunkt, uansett hvor løst fun­ dert det er. Mer opplysende ville svarene være om folk innled­ ningsvis ble spurt om de hadde

satt seg inn i problemet. Først da ville det være interessant å høre hva de måtte mene. Tidligere undersøkelser har vist at selv i aktuelle saker som gjaldt spørsmål om Alta-utbyggingen og spørsmål om forhånd­ slagring, var det bare 4-5% av in­ tervjuobjektene som sa at de hadde satt seg grundig inn i hva saken dreide seg om. Slik kjensgjeminger burde såvel Bjørn Bal­ stad som Morgenbladet ta hensyn til. Spar oss for fremtiden for me­ ningsmålinger om hva «det nors­ ke folk mener», når de i virkelig­ heten ikke mener noe som helst, fordi de ikke har satt seg inn i sa­ ken.

Er du enig i at et utvalg på 200 personer «overhodet ikke er utsagnskraftig på vegne av befolkningen»? Det vi foreløpig vet er at det som regel er viktigere at et utvalg er representativt enn at det er stort - validitet er viktigere en reliabilitet. Vi vet også hvordan størrelsen påvirker reliabiliteten, det viser for eksempel tabell 3b der kon­ fidensintervallet blir trangere jo større stikkprøven er. Senere skal du lære å kon­ struere konfidensintervall også for andeler. Derimot er anbefalingen om at stikk­ prøven bør være en viss prosent av populasjonen direkte misvisende. Iforrige ka­ pittel beregnet vi konfidensnivåene under en forutsetning om at populasjonene var ubegrenset store. Det betyr at stikkprøvene var forsvinnende små i forhold til popu­ lasjonen! Hermed har vi avlivet en seiglivet myte om betydningen av stikkprøvens relative størrelse. Den kan godt være null eller nesten null. Det er den absolutte størrelsen n, som bør være stor, og det skal vi komme tilbake til i avsnitt 4.3. Stikkprøver fra prosesser Statistikk blir brukt til å skaffe tilveie informasjon for planlegging. For å drive trafikkplanlegging, må man vite hvor mange som benytter ulike transportmidler, og over hvilke strekninger de benyttes både nå og i fremtiden. Trafikktellinger er nyttige, men ikke lette å jevnføre med veldefinerte populasjoner. Hvis du tar stikk­ prøver fra en produksjonsprosess, hva er da populasjonen? Sannsynligvis tar du stikkprøver for å finne ut om produksjonen går som den skal. Populasjonen må da være artikler som allerede er produsert og de som vil bli produsert i fremtiden. En god del undersøkelser som foretas er, og må være, basert på uklare, hypote­ tiske eller fremtidige populasjoner. I slike tilfeller er det umulig å lage en liste over hele populasjonen for så å ta en tilfeldig stikkprøve. Likevel betraktes ofte stikk­ prøvene som om de skulle vært rent tilfeldige. Noen ganger er dette nyttig og infor­ mativt, andre ganger direkte latterlig. Denne boken er full av stikkprøver fra popu­ lasjoner. Ha et våkent øye med hva som foregår!

4 Statistisk metode

63

Feilkilder Innenfor det økonomisk-administrative fagområdet gjør vi utstrakt bruk av utvalg i forbindelse med meningsmålinger eller opinionsundersøkelser. Vi skal derfor se litt nærmere på de spesielle problemer og utfordringer vi møter her. La oss starte med et historisk eksempel til: Franklin Roosevelt stilte i 1936 til gjenvalg som amerikansk president mot utfordreren Alf Landon fra Kansas. De fleste erfarne politikere mente Roosevelt lett ville bli gjenvalgt, men magasinet Literary Digest vakte stor oppmerksomhet med sin prognose om en overveldende seier til Landon på 57 % mot 43 % for Roosevelt. Prognosen var basert på et utvalg på 2,4 millioner mennesker som er den største meningsmåling som noensinne er foretatt. De hevdet at prognosen var riktig innen­ for et slingringsmonn på 1 %. I tillegg hadde Literary Digest med hell prognosert de fem forrige presidentvalg. Denne gangen tok de imidlertid grundig feil. Roosevelt vant nemlig solid med 68 % mot 32 %! Literary Digest hadde vært meget ambi­ siøse og postlagt spørreskjemaer til 10 millioner mennesker, over en fjerdedel av de stemmeberettigete. I utvalgsundersøkelser er imidlertid validitet viktigere enn rehabilitet. To tusen tilfeldige stemmeberettigete er langt bedre enn 2 millioner som ikke er representative. Literary Digest hadde fått flesteparten av adressene fra USAs telefonkataloger. I dag har de fleste mennesker telefon - folk som nylig har flyttet, som for eksempel innvandrere, er kanskje underrepresentert, men i 1936 var telefon langt fra alminnelig. Det var bare 11 millioner telefoner i USA. De som hadde telefon var overrepresentert av velstående og republikanere og således til­ hengere av republikaneren Landon. For å få et tilfeldig utvalg, skulle Literary’ Di­ gest ha brukt manntallslistene. I stedet fikk de altså en katastrofal utvalgsskjevhet. Literary’ Digest hadde i tillegg det vanlige problemet som oppstår ved bruk av postsendte spørreskjemaer, nemlig at en ikke-representativ andel av dem som har fått spørreskjemaet svarer. De sendte for eksempel spørreskjemaer til en tredjedel av Chicagos stemmeberettigede. Bare 20 % av disse brydde seg imidlertid med å fylle ut spørreskjemaet og returnere det. Landon var favoritt hos omtrent halvparten av dem som svarte, men under valget stemte to tredjedeler i Chicago på Roosevelt. Literary’ Digest hadde derfor åpenbart en frafallsskjevhet som virket i samme ret­ ning som utvalgsskjevheten.

Definisjoner Utvalgsskjevhet'. Man tar utvalget på en måte som er forbundet med hvordan folk svarer. Frafallskjevhet. Sannsynligheten for at en person ikke svarer, er forbundet med hvordan vedkommende ville ha svart. Responsfeil'. Folk svarer ikke sant.

64

Del 1 Metode

Statistikere har funnet at frafallsskjevhet er nokså systematisk: Folk med høy inn­ tekt og folk med lav inntekt har lavere tendens til å svare enn folk med middels inntekt. Årsaken er trolig at de som tjener mye har det for travelt til å svare, mens de som tjener lite ikke interesserer seg særlig for meningsmålinger. Jo lavere responsprosenten er, jo større er faren for frafallsskjevhet. I Kintner: A Primer on the Law ofDeceptive Practises finner vi følgende historie: Produsenten av Ipana tannpasta i USA reklamerte med at en nasjonal meningsmåling viste at dobbelt så mange tannleger bruker Ipana som noe annet merke. Den Føderale Handelskommisjon forbød imidlertid reklamen etter at de fant ut at mindre enn 1 % av de intervjuede tannlegene hadde oppgitt noe merke. Et tredje problem som plager meningsmålere er at folk rett og slett ikke svarer sant. Spørsmålene kan for eksempel være av følsom natur og den som skal svare stoler ikke på at intervjueren ikke vil kikke på svarskjemaet etterpå selv om han er lovet anonymitet. Ofte svarer folk det som høres mest akseptabelt ut. Det mest ekstreme eksemplet på dette, er at det rett etter mordet på president John. F. Ken­ nedy og den påfølgende heltestatus han oppnådde, omtrent var umulig å finne noen som sa de hadde stemt på Richard Nixon i 1960 da han tapte knepent mot Kennedy. Et tilsvarende problem erfarer Norsk Opinionsinstitutt når de i sine politiske me­ ningsmålinger i tillegg til å spørre om hva folk vil stemme i neste valg, også spør om hva de stemte i forrige valg. Hensikten med dette er å justere for utvalgsskjevhet som sky ldes tilfeldig variasjon. De kjenner jo fasiten fra forrige valg og hvis for eksempel 45 % i utvalget sier de stemte på Arbeiderpartiet ved forrige valg mens bare 40 % gjorde det i virkeligheten, vet de at de har en overrepresentasjon på 5 % av tidligere arbeiderpartivelgere i utvalget og kan ta hensyn til det når de lager prognosen. Problemet er imidlertid at utvalgsskjevhetene ofte ser ut til å ligge uten­ for de statistiske feilmarginer. Den rimeligste forklaringen ser ut til å være at folk tenderer til å si de stemte på dem som vant forrige gang. Kvoteutvalg og klyngeutvalg Rene tilfeldige utvalg er svært store, arbeidskrevende og vanskelige å skaffe tilveie. En ting er å trekke tilfeldige navn fra representative datalister, en ganske annen ting er det å faktisk få dem som er uttrukket til å svare. Ved vanlige menings­ målinger viser det seg for eksempel at Kristelig Folkeparti blir systematisk under­ representert. Hva er årsaken til det? Kristelig Folkeparti har en overrepresentasjon av eldre velgere. Disse åpner ikke uten videre døren når en ungdom som gir seg ut for å være intervj uer banker på døren. En måte å omgå dette problemet på, er å sørge for at vi har den samme andelen eller kvoten av eldre mennesker i utvalget som i landet forøvrig. I kvoteutvalg prøver vi altså å la andelen i utvalget av folk med særtrekk som vi tror henger sammen med hvordan de tenderer til å svare, tilsvare andelen i populasjonen. Derfor banker vi på hos tilstrekkelig mange eldre mennes­ ker til vi oppnår dette. Det forutsetter imidlertid at det er alderen og ikke døråpningstilbøyeligheten som er knyttet til stemmegivingstendensen!

4 Statistisk

metode

65

Meningsmålinger har lett for å bli dyre og tidkrevende når man prøver å skaffe rent tilfeldige utvalg, men utvalg behøver ikke være rent tilfeldige hvis de bare er representative. Kvoteutvalg kan derfor kombineres med en form for bekvemmelighetsutvalg der man lar en datamaskin på kvotebasis velge tilfeldig ut noen bykom­ muner og noen landkommuner. Så kan man for eksempel bruke den stedlige tele­ fonkatalogen eller andre navneregistre til å trekke tilfeldige eller kvoterte personer som så intervjuerne oppsøker. På den måten får intervjuerne konsentrert arbeidet geografisk samtidig som representativiteten er ivaretatt. En viktig detalj er at in­ tervjueren bare skal intervjue den som åpner døren hvis vedkommende har det navnet han søker. Døråpnere er ikke nødvendigvis representative for en hushold­ ning!

4.2 Utforming av spørreskjemaer Motivet for en spørreundersøkelse er gjeme å kartlegge folks holdning til et eller annet tema slik som ulike merker eller kvaliteter av et forbruksgode, miljøvern, politiske spørsmål, etc. Det er da viktig at vi formulerer spørsmålene på en slik måte at vi får målt det vi ønsker å måle, det vil si at validiteten blir høy. Formulering av spørsmål Påstanden om at telefonintervjuer er skjeve i utgangspunktet, er nok riktig. Selv om de fleste har telefon, er det ikke tilfeldig hvem i husstanden som tar telefonen. Mer interessant er imidlertid bemerkningen om at folk blir spurt om ting de ikke har greie på og derfor svarer «irrasjonelt». Konklusjonen er fjerne at man bør slutte å spørre folk om slikt. Dette er selvfølgelig ikke en konklusjon vi kan leve med. Mange ganger er det viktig å finne ut hva folk mener eller kommer til å mene hvis de setter seg inn i saken. Det som da skal til er å supplere spørsmålene med infor­ masjon som gjør informerte svar mulig. La oss se litt på hva slags utfordringer vi da møter. Meningsmålingene som gjengis nedenfor ble utført som et samarbeide mel­ lom tre meningsmålingsinstitutter, Norges Markedsdata, Meningsmålingsinstituttet og Gallup/NOI. Betydningen av graden av presisjon

1500 mennesker ble spurt: «Dersom De måtte foreta et valg mellom to livsformer, hva ville De da velge: A) Et liv med begrenset inntekt og få materielle goder. B) Et liv med høy inntekt og mange materielle goder.»

Svarfordelingen var:

A) 27 %

B) 54 %

Vet ikke) 19 %

66

Del 1 Metode

Økonomistudenter reagerer gjeme med forbauselse over at nesten en tredjedel foretekker det «åpenbart» ugunstige A-altemativet. Årsaken er selvsagt at en del av de som svarer legger mer innhold i livsformene enn det som sies eksplisitt. Det ser vi klart når vi bruker en noe mer presis spørreform: o

1500 andre mennesker ble spurt: «Dersom De måtte foreta et valg mellom to livsformer, hva ville De da velge:

A) Et rolig og enkelt liv med begrenset inntekt og få materielle goder. B) Et mer oppjaget liv med høy inntekt og mange materielle goder.» Svarfordelingen var:

A) 79%

B) 17%

Vet ikke) 4%

Nå er svarfordelingen dramatisk endret på tross av at realinnholdet i spørsmålene er uforandret! La oss presisere ytterligere:

1500 nye mennesker ble spurt: «Dersom De måtte foreta et valg mellom to livsformer, hva ville De da velge:

A) Et rolig og enkelt liv med bare nødvendige goder, men samtidig med begrenset inntekt og begrenset adgang til karriere. B) Høy inntekt, mange materielle goder og gode muligheter for karriere; men samtidig med muligheter for stress i arbeid og fritid.» Svarfordelingen var:

A) 69%

B) 20%

Vet ikke) 11%

Her er det vel også rimelig å si at realinnholdet i spørsmålet er det samme som i de to foregående formuleringene. Likevel opplever vi altså igjen en ny svarfordeling. Som statistikere bør vi selvsagt vise litt forsiktighet. Tror du forskjellene kan skyl­ des tilfeldig variasjon? Et av målene med denne boken er å gi deg en intuitiv evne til å besvare den slags spørsmål, så dette er en prøveballong. Du skal senere lære å regne på slike problemstillinger. Da vil du se at disse forskjellene er betydnings­ fulle eller signifikante og derfor ikke lett kan forklares med tilfeldigheter. Da er imidlertid resultatet bekymringsfullt: Formuleringer med samme realinnhold, men med ulikt presisjonsnivå kan gi signifikant forskjellige svartendenser.

Betydningen av en «vet-ikke» kategori Et av poengene i Farmandartikkelen er at det er viktig å la «vet-ikke» være et sva­ ralternativ på linje med de andre. Meningsmålingsinstituttene har også undersøkt betydningen av dette. Her er resultatene.

4 Statistisk

metode

67

1500 mennesker ble spurt: «Er De for eller mot at Norge setter ut fiskeyngel i havet for å sikre bestanden av enkelte fiskeslag?»

Svarfordelingen var:

For) 81%

Mot) 2%

Vet ikke) 17%

Denne problemstillingen var ny for de fleste mennesker, og 81 % støtter noe de synes høres positivt ut. Få er i mot, men 17 % svarte likevel «vet-ikke» selv om dette ikke var eksplisitt tillatt. La oss gjøre det tillatt:

1500 andre mennesker ble spurt: «Er De for eller mot at Norge setter ut fiskeyngel i havet for å sikre bestanden av enkelte fiskeslag, eller har De ikke noe standpunkt i saken?» Svarfordelingen var:

For) 71 %

Mot) 3 %

Vet ikke) 26 %

Vi ser at «For»-prosenten sank betydelig, mens «Mot»-prosenten omtrent er ufor­ andret. Det betyr at det i den første «For»-prosenten skjulte seg anslagsvis 9 % «Vet-ikke’re». Dette fenomenet er sannsynligvis noe av bakgrunnen for den noe agiterte tonen i Farmand-artikkelen: Er folk usikre, støtter de det som på overflaten høres «riktig» ut. Fravær av « Vet-ikke» alternativet gir derfor responsskjevhet.

Betydningen av eksemplifisering Ofte ønsker man å måle folks mening om problemstillinger av uvant størrelses­ orden. I samfunnsplanlegging kan det ofte være snakk om å bruke millioner eller milliarder kroner til et eller annet formål. Få omgås milliarder av kroner til daglig. I slike tilfeller er det nyttig å eksemplifisere med en mer kjent målestokk, men hvor stor rolle spiller valget av eksempel? Også dette har meningsmålingsinstituttene undersøkt:

1500 mennesker ble spurt: «Rundt 20 prosent av prisen på elektrisk kraft til husholdningsbruk er særav­ gift til Staten. Dette gir Staten en inntekt på ca. 1,5 milliarder kroner. Er De for eller mot at denne avgiften fjernes slik at strømmen blir 20 prosent billigere, eller har De ikke noe standpunkt i denne saken?» Svarfordelingen var:

For) 50 %

Mot) 21 %

Vet ikke) 29 %

68

Del

1 Metode

Her er «Vet-ikke»-andelen betydelig. Det kan kanskje avhjelpes ved å eksemplifi­ sere hvor mye 1,5 milliarder kroner er:

Ytterligere 1500 mennesker ble spurt: «Rundt 20 prosent av prisen på elektrisk kraft til husholdningsbruk er særav­ gift til Staten. Dette gir Staten en inntekt på ca. 1,5 milliarder kroner -Det vil si tre ganger det driften av Rikshospitalet koster i hele 1981. Er De for eller mot at denne avgiften fjernes slik at strømmen blir 20 prosent billigere, eller har De ikke noe standpunkt i denne saken?» Svarfordelingen var:

For) 37 %

Mot) 28 %

Vet ikke) 35 %

Som vi kunne vente vil færre nå fjerne avgiften, siden Staten jo kan gjøre god bruk for den. Pussig nok er det nå flere som «Ikke vet». Det kommer kanskje av at flere nå er på vippen mellom «For» og «Mot». La oss se på en eksemplifisering som virker positivt for avgiftsfjemingslyst:

Nye 1500 mennesker ble spurt: «Rundt 20 prosent av prisen på elektrisk kraft til husholdningsbruk er særav­ gift til Staten. Dette gir Staten en inntekt på ca. 1,5 milliarder kroner -det vil si ca. 1,5 prosent av statens totale inntekter. Er De for eller mot at denne avgiften fjernes slik at strømmen blir 20 prosent billigere, eller har De ikke noe standpunkt i denne saken?»

Svarfordelingen var:

For) 53 %

Mot) 22 %

Vet ikke) 25 %

Igjen ser vi at meningene dreier i forventet retning: «1,5 % er en ubetydelig andel. Det kan Staten sikkert unnvære:» Dette eksemplet er også egnet til å vekke bekymring hos meningsmålere. Vi ser at eksempler som rent faktisk gir samme informasjon, fører til klare forskjeller i svartilbøyeligheter. Det gir grunn til å vurdere målinger som er bestilt av en interessepart med sunn skepsis.

4 Statistisk

metode

69

Ideal: Spørsmålsfortnuleringer skal være objektive La oss prøve å lære av de urovekkende erfaringene ovenfor og prøve å formulere noen retningslinjer for hvordan spørsmål i meningsmålinger bør formuleres. I bo­ ken Argumentasjonsteori, språk og vitenskapsfilosofi skriver Dagfinn Føllesdal:

Definisjon av objektivitet En fremstilling (f.eks en avhandling, et fjernsynsprogram, en artikkel) er objektiv hvis og bare hvis de oppfatninger og holdninger den skaper hos mot­ tageren ikke ville forandres dersom man tok med flere opplysninger (data eller hypoteser som understøttes godt av data).

Dette er en definisjon av objektivitet som passer ypperlig for våre formål. Merk deg at objektivitet ikke er knyttet til hvorvidt formuleringer stemmer med fakta (det antar vi at de gjør), men til valget av dem. Det kan nemlig være subjektivt. Dette betyr for eksempel at følgende formuleringer ikke er objektive:

- Korrekt formulering, men med lav presisjonsgrad - Spørsmål uten «Vet-ikke» alternativ - Korrekte, men ubalanserte eksemplifiseringer Istedenfor bør vi etterstrebe høy presisjonsgrad, flere eksemplifiseringer som ba­ lanserer hverandre og selvfølgelig ha med «Vet ikke» som svaralternativ. I motsatt retning trekker selvfølgelig nødvendigheten av korte og konsise formuleringer. Idealer kan sjelden oppnås, men det er viktig å ha dem for øyet.

4.3 Stikkprøvens størrelse o

A samle inn data koster tid, penger og arbeid. Når man driver undersøkelser, vil man gjeme skaffe opplysningene på billigst mulig måte, samtidig som man vil ha all nødvendig informasjon. Hvis du skal lage et konfidensintervall for medianen, kan du spesifisere et konfidensnivå på minst 95 % og samtidig en maksimal lengde på intervallet. Hvis konfidensintervallet er for stort, er informasjonen for omtrent­ lig. Er konfidensnivået for lavt, er det hele for upålitelig. Jo større stikkprøven n er, jo kortere vil et 95 % konfidensintervall være. Hvor stor må n være for at et 95 % konfidensintervall skal bli trangt nok? Som regel får du ikke vite dette før du allerede har en stikkprøve. Da skjer gjeme en av to ting: Enten viser det seg at observasjonene var svært variable i størrelse, og som en følge av det har konfidensintervallet blitt for vidt og mer eller mindre ubrukelig. (Om bare n hadde vært dobbelt så stor!) Eller så arbeider du i måneder for å få en stor nok stikkprøve, og så viser konfidensintervallet seg å bli mye trangere enn det du hadde ventet! Da har du gjort en mengde unødvendig arbeid.

70

Del

1 Metode

Pilotun dersøkelser I de fleste undersøkelser lønner det seg å begynne med en liten pilotundersøkelse, blant annet fordi du da får klarlagt om du har tenkt riktig når det gjelder hele opp­ legget, og særlig hva du egentlig vil ha svar på. Du vil kunne finne ut om målemeto­ den er fornuftig, hvordan det er med mulige skjevheter i observasjonsmaterialet, og hvordan dataene er definert. I tillegg kan pilotundersøkelsen brukes til å antyde hva som kan være en rimelig god stikkprøvestørrelse ved hovedundersøkelsen. La den ønskede vidden til det endelige konfidensintervallet være L og antall observasjoner i pilotundersøkelsen nQ. Innhent pilotdataene og finn vidden £0 til konfidensintervallet i pilotundersøkelsen. Planlegg hovedundersøkelsen med n ob­ servasjoner slik at:

Hovedundersøkelsens størrelse Anslag for hovedundersøkelsens størrelse n basert på vidden Lo til konfidens­ intervallet til en pilotundersøkelse på «0 observasjoner når ønsket vidde på intervallet er L. Konfidensnivået er 95 %.

Formel 4-1:

/ T / ^0 n — n(A----

\2 \

Formelen er basert på et matematisk resultat som går ut på at vidden til konfidens­ intervallet til ju er omvendt proporsjonal med kvadratroten av n. Formelen garan­ terer ikke at intervallet blir så trangt som L, men at det i gjennomsnitt vil være det. Dette er i hvert fall atskillig bedre enn å planlegge uten forhåndsinformasjon i det hele tatt.

Sekvensiell stikkprøveuttaking En modifikasjon av denne planen kalles sekvensiell stikkprøveuttaking. Begynn med «0 verdier i en liten, første stikkprøve. Finn konfidensintervallet. Hvis det er for vidt, tar du en stikkprøve til og beregner konfidensintervallet på nytt ved å slå verdiene fra begge stikkprøvene sammen. Fortsett på denne måten inntil du har fått et konfidensintervall som er trangere enn eller lik L, den foreskrevne maksimale vidde. Da slipper du å kaste bort tid og penger på en altfor stor stikkprøve. Det kan du nemlig risikere med formel 4-1, som du nå skal se. Simulering av pilotundersøkelser Selv om de kan være fornuftig med pilotundersøkelser, bør du regne med visse overraskelser. Vindu 1-5 i Statark er laget for å forberede deg på dem. Her kan du simulere trekninger av pilotundersøkelser fra populasjonen du har lagt inn som datasett 1. Du oppgir selv den konfidensintervallvidden L du ønsker etter hoved­ undersøkelsen. Deretter trekkes 14 tilfeldige tall fra populasjonen din og størrelsen

4 Statistisk

metode

71

på hovedundersøkelsen beregnes ved hjelp av formel 4-1. Jeg har hentet inn datafi­ len med de 50 tilfeldige dekktrykkene, de som egentlig burde være lik 28 psi. Der­ etter har jeg gått til vindu 1-5 og trukket en pilotstikkprøve på n = 14. 95 %-konfidensintervallet til stikkprøven fikk vidde LQ = 3,7 psi. Jeg ønsket meg en vidde etter hovedundersøkelsen på 1,0 psi. Formel 4-1 sier nå at jeg trenger ca. 200 obser­ vasjoner i hovedundersøkelsen. Denne beregningen er imidlertid basert på en stikkprøve, og derfor påvirket av tilfeldig variasjon. Jeg tok derfor en ny stikkprøve på 14 verdier og fikk en 95 % pilotkonfidensintervallvidde på 5,5 psi. Da bør hovedundersøkelsen være på ca. 400 verdier ifølge formel 4-1! Mange studenter reagerer med å si at dette må være galt, men da glemmer de at hele beregningen bygger på en forholdsvis liten, til­ feldig stikkprøve der tilfeldighetene attpåtil multipliseres med kvadratet av Lo/L. Derfor: Ta resultatet av pilotundersøkelser med en klype salt. Hvis populasjonen er variabel og pilotstikkprøven liten, gir de deg kun en pekepinn. Se i arbeidsheftet!

4.4 Håndtering av store stikkprøver Hittil har vi arbeidet utelukkende med små stikkprøver. Hensikten har vært å gjøre det hele så enkelt og oversiktlig som mulig, slik at vi ikke skulle bli overveldet av mengdevis av data, like verdier og annet som forvirrer unødig. Sannheten er imid­ lertid at jo større stikkprøven er, jo mer får vi ut av den. Store stikkprøver gir høye konfidensnivåer og trange konfidensintervaller. Til gjengjeld betyr store stikkprø­ ver atskillig mer arbeid, både ved innsamling av dataene og ved bearbeidelsen av dem. Dette avsnittet tar for seg en del måter å forenkle arbeidet på ved store data­ mengder.

Stikkprøvens størrelse - terminologi I statistikk betyr en «stor stikkprøve» at vi har mange observasjoner av x, slik at n er stor. Stikkprøvens størrelse har altså ingen ting å gjøre med hvor store de observerte x-verdiene er. Tenk deg at du takserer tre direktørvillaer med resultatet 1 930 000 kr, 1 250 000 kr, 2 100 000 kr. Dette er en liten stikkprøve fordi n = 3 er liten, men stikkprøveverdiene er derimot store. Hvis du istedet måler diametrene til ti tusen forkjølelsesvirus, er dette en stor stikkprøve selv om hver eneste virus er mindre enn 0,000 000 000 3 cm. Legg merke til at en stikkprøve består av flere (n) observasjoner. Du har ikke tre stikkprøver av villatakster - i hvert fall ikke hvis du betrakter dem som hentet fra samme populasjon. Du har kun én, og den består av tre verdier. Asymptotisk tilnærmelse av c Når n er større enn 50, kan ikke tabell 3 brukes lenger. Hvordan skal vi da finne et 95 % konfidensintervall for populasjonsmedianen når vi har stikkprøver på 60, 200, eller kanskje 1000 observasjoner?

72

Del

1 Metode

I kapittel 6 skal vi finne ut hvordan konfidensnivåene i tabell 3 ble beregnet. Vi kunne bruke den metoden til å beregne en hel rad med konfidensnivåer og bruke den verdien av c som svarer til et konfidensnivå like over 95 %. Det ville kreve programvare, og heldigvis finnes det en enklere metode - en tilnærmingsformel som fungerer utmerket.

Tilnærmet verdi av c ved store stikkprøver Konfidensintervall — [x(c), x{c)] Formel 4-2:

c = y (h + 1) — faktor • y dn

Avrund c til nærmeste hele tall

Faktorens størrelse avhenger av konfidensnivået. Den har sammenheng med nor­ malfordelingen som vi kommer til mye senere, men for de vanligste konfidensni­ våer kan vi foreløpig benytte denne tabellen: Tabell 4-1 Faktorens størrelse for ulike konfidensnivåer Konfidensnivå Faktor

0,50 0,67

0,80 1,28

0,90 1,64

0,95 1,96

0,98 2,33

0,99 2,58

0,998 3,09

0,999 3,29

Eksempel'. For en stikkprøve på n = 81 og et konfidensnivå på 0,95 er: c = y (n + 1) — faktor •

n

V • 82 - 1,96 • v V81 «41—9 = 32 2



2

Her har vi satt 1,96 • y ~ 1,00

Histogram I kapittel 2 så vi hvordan vi kan beskrive en stikkprøve med x-verdier. Den enkleste måten er å ordne dem etter størrelse. Dernest har vi en rekke muligheter for grafisk fremstilling av rådata slik som for eksempel et plott. Er stikkprøven stor, vil imid­ lertid en ren fremstilling av rådataene lett bli uoversiktlig. Da er det ofte hensikts­ messig å bearbeide dem først. Den mest vanlige form for bearbeiding er a. gruppere dataene ved å sortere dem i klasser. Alle regneark kan uten videre sortere data etter størrelse, men ikke alle kan like lett gruppere resultatene i klasser. Derfor har Sta­ tark et vindu spesielt for dette formålet. Datafilen Klima inneholder blant annet årlig gjennomsnittstemperatur i Oslo i perioden 1871-1993. Det er i alt 123 tall, som ikke er så lett å få oversikt over uten grafikk. Graf 4-1 viser et histogram over dataene der de er inndelt i 11 like brede klasser. Legg merke til at denne grafen overhodet ikke viser rekkefølgen av observasjonene, vi får derfor ikke noe innblikk

4 Statistisk

metode

73

Gjennomsnittstemperaturen i Oslo 1871-1993 Histogram

Graf 4-1: Datafil Klima, histogram over de 123 Oslo-temperaturene

i klima-utviklingen. Derimot får vi en god oversikt over hvordan temperaturene varierer, hva som kan sies å være en normal gjennomsnittstemperatur, osv. Se i arbeidsheftet for detaljer om hvordan grafen er laget. Histogram med ulik klassebredde Statistiske data som publiseres er ofte forhåndsgruppert slik at leseren relativt lett skal kunne danne seg et bilde av hovedtrekkene. Et eksempel er Norsk Økonomforbund som publiserer årlige lønnsstatistikker basert på postsendte spørreskjemaer til hele medlemsmassen. Den var på 750 i 1985. Frafallsprosenten er vanligvis rundt 50 (hvilken fare ser du for frafallsskjevhet?). I tabell 4-2 ser du de bearbeidete dataene fra lønnsstatistikken 1. september 1985. Den andre kolonnen angir klassemidtpunktene i hver lønnsklasse. I første kolonne finner du antall medlemmer i de respektive klassene i henhold til «stikkprøven». Deretter ser du øvre og nedre grense i hver klasse. Den siste kolonnen har jeg laget selv. Den skal vi komme tilbake til.

74

Del

1 Metode

Tabell 4-2 Datafil Lønn-85, Norsk Økonomforbunds lønnsstatistikk Personer Antall

Midtpunkt 1000 Kr.

Nedre grense

Øvre grense

h = A/(0 - N)

11 12 12 18 21 20 19 39 19 27 29 17 32 27 12 32 4 6

60 125 135 145 155 165 175 185 195 205 215 225 240 262,5 287,5 325 375 450

0 120 130 140 150 160 170 180 190 200 210 220 230 250 275 300 350 400

120 130 140 150 160 170 180 190 200 210 220 230 250 275 300 350 400 500

0,09 1,2 1,2 1,8 2,1 2,0 1,9 3,9 1,9 2,7 2,9 1,7 1,6 1,08 0,48 0,64 0,08 0,06

Graf 4-2 viser en direkte grafisk fremstilling av dataene i de to første kolonnene i tabell 4-2 av en type man lett og naturlig kan lage med et regneark.

Graf 4-2: Fortegnet grafisk presentasjon av Datafil Lønn-85

4 Statistisk

metode

75

Hva er galt med graf 4-2? Se en gang til på klassemidtpunktene! De har ikke samme avstand! Da er heller ikke klassene like brede og grafen gir et visuelt sett fortegnet bilde av hvordan lønnene fordeler seg i medlemsmassen. Hadde klassene vært like brede, ville diagrammet selvfølgelig vært utmerket. Det er imidlertid gan­ ske vanlig å operere med ulik klassebredde for å ikke få altfor mange tomme klasser ute i halene. Hva skal vi da gjøre? Løsningen er å lage et histogram ved hjelp av en aksegraf (eller for hånd) der klassebreddene på x-aksen er individuelt tilpasset og arealet av rektanglet over en klasse representerer antallet i klassen. Dette er hen­ sikten med kolonnen lengst til høyre i tabellen. Der har jeg delt klassens antall på klassebredden. Benevningen til tallene h i denne kolonnen blir da antall/klassebredde. h skal være høyden til rektanglet. Rektanglets areal blir da høyde X bredde = antall slik meningen var. På grunnlag av A-tallene og klassebreddene kan du nå lett tegne et riktig histogram for hånd. Man kan også få dette til med regnearkets aksegraf, men det krever en del oppfinnsomhet og strev. Resultatet mitt ser du imidlertid i graf 4-3. Som du ser gir det histogrammet et ganske annerledes og mye riktigere bilde av lønnsfordelingen blant Norsk Økonomforbunds medlemmer.

Norsk Økonomforbunds lønnsstatistikk 1985 Histogram

Graf 4-3: Datafd Lønn-85, histogram

76

Del 1 Metode o

4.5 A redusere variasjon i dataene Statistikk går blant annet ut på å skjelne mellom tendenser og tilfeldigheter. Jo mer tilfeldigheter har påvirket dataene, jo vanskeligere er det å se tendensene. I mange tilfeller kan imidlertid det som ved første øyekast fortoner seg som tilfeldig varia­ sjon ha kjente årsaker, og da kan den ofte reduseres. La oss ta noen eksempler.

IKEA: PRISFORSKJELL I NORGE OG SVERIGE Norsk pris øverst, svensk pris nederst

Graf 4-4: Priser på IKEA-varer i Norge og i Sverige. Datafil IKEA, rådata. (Bare navnet på annenhver vare er vist.)

Parvise sammenligninger Økonomisk Rapport har undersøkt prisforskjellen på IKEA-varer i Oslo og i Gøte­ borg. De trakk ut 30 tilfeldige varer fra 1986-katalogen med ca. 3000 prisede varer og innhentet prisene de to stedene. Graf 4-4 viser rådataene. Som du ser er det betydelig variasjon i prisen på de utvalgte varene, men mesteparten av denne varia­ sjonen kan knapt kalles tilfeldig. Et kjøkken pleier for eksempel koste mer enn et speil. Økonomisk Rapport var ute etter å sammenligne prisnivået i Norge og i Sve­ rige. Det ville være nokså dumt å bruke Mann-Whitneyobservatoren til dette. Som du kanskje husker, sammenligner den alle tallene i den ene stikkprøven med alle tallene i den andre. Da ville vi blant annet sammenligne prisene på norske speil med prisene på svenske kjøkken. Resultatet ville bli en meget liten forskjell mellom de to MW-tallene. Det er selvsagt mye bedre å sammenligne prisene, vare for vare. Dette kaller vi parvise sammenlikninger. I graf 4-5 ser du differansene.

4 Statistisk

metode

77

IKEA: PRISFORSKJELL I NORGE OG SVERIGE Norsk pris - svensk pris

Graf 4-5: Datafil IKEA, prisdifferanser mellom Norge og Sverige. Av plasshensyn er bare annet hvert varenavn skrevet på.

Nå har variasjonen i datamaterialet blitt betraktelig mindre. Det var selvfølgelig også hensikten med å finne prisene på de samme varene de to stedene. Man kunne jo ha innrettet seg så dumt at man tok en tilfeldig stikkprøve i Norge og en ny i Sverige. I så fall ville vi ha mistet muligheten til parvise sammenligninger. Relative prisdifferanser Et 95 % konfidensintervall for medianen til prisdifferansen mellom Norge og Sve­ rige for en vare, går fra 10. minste til 10. største differanse i stikkprøven. Det blir fra 18 kroner til 291 kroner. Du måtte altså regne med å betale mellom 18 og 291 kroner mer for en tilfeldig valgt IKEA vare i Oslo enn i Gøteborg - kanskje ikke av den aller mest relevante informasjon hvis du hadde tenkt å kjøpe en kleshenger? Det er lett å se årsaken til en del av den resterende variasjonen: Dyre varer har større prisdifferanse enn billige varer. Hva kan vi gjøre med det? Vi kan selvfølgelig se på de relative prisdifferansene. De er vist i graf 4-6. Den variabiliteten som nå er tilbake, kan ikke vi forklare så lett. Det kan derfor være hensiktsmessig å tilskrive den tilfeldigheter. Økonomisk Rapport gikk imid­ lertid videre og intervjuet direktør Moe i IKEA i Norge. Da kom det frem at et par av de store prisforskjellene skyldtes tilbudspriser i Gøteborg. Slike spesielle for­ hold kunne vi også ha tatt hensyn til og derved redusert variasjonen ytterligere slik at tendensen til høyere pris i Norge ble enda bedre avdekket, men la oss stoppe nå.

78

Del

1 Metode IKEA: PRISFORSKJELL I NORGE OG SVERIGE (Norsk pris - svensk pris)/svensk pris

Graf 4-6: Datafil IKEA, Relative prisdifferanser i Norge og Sverige

Beregner vi et 95 % konfidensintervall for den relative prisdifferansen, finner vi at den går fra 11 % til 17 %. Dette er det du kan regne med å spare hvis du reiser til Gøteborg og kjøper vilkårlig valgte varer.

4.6 Bruk av kontrollgrupper En klassisk historie om betydningen av kontrollgrupper, er den amerikanske hær som skulle teste verdien av en vitaminpille. En større gruppe frivillige soldater ble etter loddtrekning inndelt tilfeldig i to grupper, der den ene gruppen (behandlings­ gruppen) fikk vitaminpiller mens den andre (kontrollgruppen) fikk narrepiller (placebo). Testen var en dobbelt blindtest, det vil si at verken deltagerne eller noen de hadde kontakt med visste hvem som fikk hva. Selve testen gikk ut på å la soldatene gjennomgå ekstreme påkjenninger over en periode i forbindelse med utmarsjer og lignende, som man regnet med ville føre til en nedgang i soldatenes fysiske form. Da den fysiske form ble sammenlignet før og etter, viste det seg overraskende nok at de aller fleste deltagerne var kommet i bedre og ikke i verre form. Den statistiske undersøkelsen måtte da gå på om forbedringen var signifikant større i behandlings­ gruppen enn i kontrollgruppen. Hadde de ikke hatt en kontrollgruppe, vil de lett kunne ha konkludert feilaktig med at vitaminpillene hjelper! Det er i det hele tatt svært vanlig at man observerer effekter av å delta i et eks­ periment selv om man bare får narremedisin. Denne effekten får selvsagt også de

4 Statistisk

metode

79

som får riktig medisin, og man må derfor undersøke om medisinen har en tilleggs­ effekt til den rent psykologiske. Ved Pfizer-laboratoriet i Sandwich i England ble 400 menn gitt sildenafil mot impotens1. 80 % av dem rapporterte om forbedret seksuell funksjon. Dette lyder overbevisende. Hva med kontrollgruppen som kun fikk narremedisin? Av de 351 menn i kontrollgruppen, rapporterte hele 40 % om forbedring! Hvis ikke sildenafil hadde hatt noen virkning, og hvis vi ikke hadde hatt en kontrollgruppe, ville vi altså ha blitt forledet til å tro at sildenafil hjelper 40 % av pasientene. Nå ser det heldigvis ut til at sildenafil hjelper likevel, fordi behand­ lingsgruppen gjør det så mye bedre enn kontrollgruppen. Det sier seg selv at når vi fordeler forsøksindivider i henholdsvis behandlings- og kontrollgruppe, må dette skje tilfeldig. Vi kaller dette randomisering. Hvis vi for eksempel av kortsiktige etiske hensyn plasserer de mest behandlingstrengende i behandlingsgruppen, har vi samtidig ødelagt eksperimentet fullstendig. Det sier seg også selv at det er viktig med dobbelte blindtester. For det første må deltakerne være uvitende om hvem som er i henholdsvis behandlings- og kontroll­ gruppen, men det er også viktig at alle andre som er i kontakt med deltakerne er det. Innenfor medisin foregår det her mange brudd på reglene, blant annet fordi leger som er opptatt av sine pasienters ve og vel ofte prøver å finne ut om deres klienter får medisin eller ikke likevel. Scientific American1 rapporterer etter en kritisk gjen­ nomgang av et stort antall medisinske tester at omtrent halvparten av dem hadde for dårlig hemmeligholdelse av hvem som var i hvilken gruppe, og at dette medførte en tilsynelatende 30 % bedre behandlingseffekt i de dårlig utførte testene! Alt dette har selvsagt stor betydning innenfor økonomi og administrasjon også. Smakstester der merkenavnene er kjent for testpanelene eller dem som serverer er det ingen grunn til å ta alvorlig.

4.7 Måleskalaer I statistikk henter vi inn data av flere forskjellige typer, og hva slags type data det dreier seg om har vesentlig betydning for hvilke statistiske analysemetoder som kan anvendes. I kapittel 1 så vi for eksempel at vi både talte hvor mange tekstilprøver som brant helt opp, og målte hvor langt oppover prøvene flammene nådde. På samme måte talte vi hvor mange barn som ble båret på henholdsvis høyre og venstre arm, og målte hvor mye de la på seg. I markedsføring og meningsmålingsindustrien er det vanlig å spørre etter folks holdninger, for eksempel ved å spørre om i hvilken grad de er enige eller uenige i en påstand. I alle tilfeller kan vi snakke om at vi observerer en variabel x, men der ulike typer måleskalaer brukes. Nedenfor skal vi gjennomgå de tre viktigste skalatypene, slik at du kan ha det som bakgrunn når vi etter hvert kommer til ulike metoder som er forbundet med ulike målenivå. Nominalskalaen 1 Time, 20. mai 1995 - Scientific American, mai 1995

80

Del 1 Metode

ligger på det laveste nivå, deretter ordinalskalaen og så intervallskalaen. Grunnen til dette, er at intervallskalaer kan brukes ordinalt, og ordinalskalaer kan brukes nominalt, men ikke omvendt.

Nominalskala Her registrerer vi kun hvilken kategori (nomen — navn) en observasjon tilhører. Vi snakker ikke om at én kategori er høyere eller bedre enn en annen; kategorier er i utgangspunktet likestilte. Registreringen foregår rett og slett ved at vi krysser av for hvilken kategori hver observasjonsenhet tilhører. Til slutt kan vi telle opp hvor mange kryss hver kategori har fått. Det er litt misvisende å si at dette i det hele tatt er en skala, men uttrykket har likevel blitt vanlig. Tabell 4-3 Eksempel på nominalvariabler med tilhørende måleskala Variabel x x x x x

= = = =

side ungen ble holdt på oppbrenningsresultat partitilbøyelighet livsformsvalg

Nominal måleskala: kategorier

høyre, venstre helt, ikke helt Ap, FrP, H, RV, Sv, Sp, V rolig, hektisk, vet ikke

Ordinalskala Her kan vi ordne observasjonene etter størrelse, men vi kan ikke si hvor mye større de er enn hverandre. Meningsmålinger er det mest typiske eksemplet på dette. Ta­ bell 4-4 viser eksempel på en fem-punktsskala. Siden det ikke uten videre er opp­ lagt at det er like stor enighetsavstand mellom «helt enig» og «ganske enig» som mellom «ganske enig» og «litt enig», kan vi heller ikke uten videre utføre arit­ metiske operasjoner på resultatene selv om de kodes med tall. Vi kan telle oss frem til mediansvaret, men ikke uten videre på en meningsfull måte beregne gjennom­ snittsverdier. Vi kan imidlertid bruke metoder slik som Mann-Whitneyobservatoren for å sammenligne to stikkprøver siden vi vet at «helt enig» er enigere enn «ganske enig», osv. Tabell 4-4 Eksempler på bruk av ordinalskalaer Variabel x

Ordinalskala: ordnete observasjoner

x — rangering av produkter etter preferanse x = grad av enighet i en påstand

1,2,3,... «helt uenig», «ganske uenig», «litt uenig», «verken enig eller uenig», «litt enig», «ganske enig», eller «helt enig»

4 Statistisk metode

81

Intervallskala Her bruker vi en måleskala som garanterer at intervallene mellom tallene på ska­ laen er like lange. Observasjonene kalles da målinger, og vi kan addere eller sub­ trahere dem om vi ønsker, og for eksempel beregne gjennomsnitt. Tabell 4-5 Eksempler på intervallskalaer hvorav noen også er forholdstallsskalaer Variabel x

Intervallskala: målinger

Forholdstalls-skala?

x x x x

meterskala 1000 kr per år Celsius-skala slag per minutt

Ja Ja Nei Ja

— = — =

brennbarhet lønn temperatur puls

Ofte ser vi at resultater fra meningsmålinger med ordinalskalaer også brukes som om de var på en intervallskala. Man bør imidlertid huske på at dette innebærer en forutsetning om at det er psykologisk like stor avstand mellom punktene på ska­ laen. Tre av skalaene i tabell 4-5 er ikke bare intervallskalaer, men også forholdstallsskalaer. Det betyr at de har et naturlig nullpunkt, og da kan vi også multiplisere og dividere verdier om vi ønsker. Celsius-skalaen har imidlertid ikke et naturlig null­ punkt; det har liten fysisk mening å si at 10 °C er dobbelt så varmt som 5 °C. Ved vanlig statistisk analyse, trenger vi imidlertid ikke sterkere skalaer enn intervall­ skalaer, slik at spørsmålet om vi også har en forholdstalls-skala er uinteressant.

4.8 Sammendrag Merk deg disse reglene hver gang du skal innhente data og benytte deg av statistisk inferens, dvs. når du generaliserer fra stikkprøve til populasjon: Vær skeptisk Spør om resultatene har tilstrekkelig validitet og reliabilitet.

Formuler problemstillingen Få klart for deg hva du egentlig vil finne ut. Spesifiser hvilken variabel du snakker om, og fra hvilken populasjon den er hentet.

Idealet er en rent tilfeldig stikkprøve Hvis det er mulig, skaff deg en rent tilfeldig stikkprøve fra populasjonen. Et av­ gjørende krav for validitet er at det ikke må være noen sammenheng mellom hvilke elementer som trekkes fra populasjonen, og egenskapene til elementene som obser­ veres. I en meningsmåling må ikke utvalget trekkes på en måte som favoriserer visse typer svar. I komparative (sammenlignende) eksperimenter vil dette si å ran-

82

Del 1 Metode

domisere (trekke lodd) når du henviser personer til eksperimentgruppen og til kon­ trollgruppen. Hvis idealet ikke kan innfris, vær først og fremst oppmerksom på mulige skjevheter og prøv å eliminere dem. Still objektive spørsmål ved meningsmåling Meningsmåling er vanskelig. Prøv å still spørsmålene slik at svarene ikke ville endre seg selv om du hadde lagt til mer informasjon, så lenge denne er korrekt. Vær balansert ved valg av eksemplifisering. Husk på «vet-ikke»-altemativet.

Bruk øynene Det første du bør gjøre når du har stikkprøvene dine, er å lage en grafisk fremstilling av tallene. Da ser du hvor «landet ligger» og hva slags resultater du kan vente deg ved en nærmere analyse. Aksepter aldri beregningsresultater som er i strid med det du ser. Da har du regnet galt. Bruk pilotundersøkelser som rettesnor Pilotundersøkelser kan være nyttige, men du må regne med stor unøyaktighet i anslaget for hovedundersøkelsens størrelse. Pilotundersøkelser gir deg imidlertid også nyttig erfaring. Foretar du en meningsmåling, bør du alltid først undersøke om formuleringen av spørsmålene er vellykket.

Forstå metodene Du må vite noe om statistiske metoder, hvordan man analyserer en stikkprøve, og hvordan man går fra dette til å si noe om populasjonen generelt. Dette er «stati­ stikk» i en begrenset betydning av ordet - prosedyrer for å beskrive stikkprøver og generalisere til populasjoner. Det er ikke bare snakk om å kunne en samling for­ skjellige metoder. Du må vite hvilke metoder som bør benyttes i en aktuell pro­ blemstilling. Dette vil være en av dine største utfordringer som student. Den sam­ ling metoder og modeller du skal lære, fortoner seg ofte som uoversiktlig og for­ virrende. Oversikt får du gjennom å forstå, ikke gjennom pugg. En forståelse av måleskaler er her til god hjelp.

Se opp for skjevheter Hvis det viser seg å være umulig eller upraktisk å oppnå en rent tilfeldig stikkprøve, kan det være nyttig og fruktbart, og ikke altfor villedende, å behandle den stikk­ prøven du har som om den var rent tilfeldig. Beslutningen bør baseres på den kjenn­ skap du har til det saksområdet du studerer. Jo større gyldighetsområde du krever for konklusjonen, jo tvilsommere er den Strengt tatt forutsetter konklusjoner basert på statistisk inferens alltid at utvalget er representativt, det vil si uten skjevheter. Konklusjonene dreier seg om egenskaper ved populasjoner. Jo mer omfattende populasjonen er, jo mer interessant er også

4 Statistisk

metode

83

konklusjonen. Samtidig er det mindre sannsynlig at utvalget virkelig er representa­ tivt. Ha den balansegangen for øye. Vær etterrettelig når du skriver rapporten Når du rapporterer resultater og konklusjoner, gjengi hva du gjorde og hva som skjedde. Presenter rådataene, gjeme grafisk, slik at leseren kan gjøre seg opp sin selvstendige oppfatning. Presenter deretter din analyse og resultatene av den. Bruk grafikk. Diskuter skjevheter du er oppmerksom på. Ofte kan du ha begrunnet mis­ tanke om skjevhetenes retning. Redegjør da for om konklusjonene er «på den sikre siden» eller ikke. Reduser ikke-tilfeldig variasjon Når data varierer uten at vi kjenner grunnen, velger vi å kalle variasjonen tilfeldig. Hva vi kaller tilfeldigheter beror altså på kunnskapsnivået vårt, og det har vi jo til en viss grad kontroll over. Prøv alltid å fjerne så mye variasjon som mulig ved hjelp av det du vet. De vanligste metoder er å ta differanser mellom naturlige par og å regne på relative istedenfor absolutte størrelser. Se også etter om merkverdige tall kan skyldes registreringsfeil eller andre helt spesielle forhold. Slike «uteliggere» bør korrigeres eller fjernes fra datamaterialet. Bruk kontrollgruppe I en rekke situasjoner der du skal finne ut om en behandling virker eller ikke, er det sentralt å benytte en kontrollgruppe, ellers har observasjonene dine liten verdi.

4.9 Oppgaver Øvelse: Pilotundersøkelser (Svar etter oppgave 4-5) I et oppdrag for et forsikringselskap er du i ferd med å skaffe en oversikt over erstatningsbeløpene for en ny kategori skadeerstatninger. Oppdraget går ut på å finne et 95 % konfidensintervall for populasjonsmedianen til utbetalingene i ska­ deoppgjør. Konfidensintervallet skal ikke være videre enn kr 2000. Data kan frem­ skaffes ved å analysere og klassifisere tidligere erstatningssaker. Dette er imid­ lertid arbeidskrevende, og for å finne ut hvor stor stikkprøve du må regne med å trenge, har du gjort følgende pilotundersøkelse som her er vist ordnet:

14 500 15 000 18 000 19 000 25 000 27 000 29 000 38 000 38 500 40 000 43 000 44 000 45 000 45 000 50 000 51 500 57 000 78 000 Estimer hovedundersøkelsens størrelse!

Øvelse: Kritisk verdi ved store stikkprøver Du har en stikkprøve på 150 observasjoner, og skal lage konfidensintervall basert på ordningsobservatorene. Hva blir c for tosidig og for ensidig konfidensintervall for medianen med konfidensnivåer på 95 % og 90 %?

84

Del 1 Metode

Oppgave 4-1 Formulering av spørsmål i meningsmåling Norges Markedsdata har i 1978 og 1980 gjennomført en meningsmåling for å kart­ legge folks holdning til krafutbygging. Undersøkelsene ble gjennomført ved per­ sonlige intervjuer blant landsomfattende utvalg av kvinner og menn over 15 år, i alt 1400 personer hver gang. Et av spørsmålene som ble stilt var: «Tenk Dem at eksperter og myndigheter blir enige om at vi skal øke kraftfor­ syningen, - og at man har de tre alternativene på dette kortet å velge mellom. Hvil­ ket av alternativene ville De da selv foretrekke at man satser på?» (Et kort ble vist med de tre alternativene nedenfor). Svarene fordelte seg på følgende måte (kilde: Aftenposten): Ville foretrekke å:

1978

1980

Bygge ut mer vannkraft Bygge varmekraftverk (basert på olje, gass, kull) Bygge kjernekraft (atomkraft) Vet Ikke

56% 34% 7% 3%

71 25 3 1

Totalt

100%

% % % %

100%

Kommenter formuleringen av spørsmålet. Hvilken svakhet har den, og hvilken skjevhet kan det eventuelt føre til? Hva er fordelen med å gjenta nøyaktig samme spørsmålstilling ved en senere anledning. Oppgave 4-2 Oslo-undersøkelsen Dagsrevyen den 26.09.80 omtalte en større undersøkelse ved Ullevål sykehus av den betydning kosthold og røykevaner har for risikoen for hjertesykdommer. Osloundersøkelsen startet i mai 1972. Alle menn i Oslo mellom 40 og 49 år ble invitert til å delta i en kombinert skjermbilde-hjertekarundersøkelse. Ca. 65 % møtte frem. Personer som etter to gangers etterinnkalling hadde forhøyet risiko (målt utfra røy­ kevaner og kolesterolnivået i blodet) ble, etter en villighetserklæring, tilfeldig for­ delt til to grupper ved loddtrekning (randomisering) en behandlingsgruppe B og en kontrollgruppe K. De 604 i B-gruppen fikk både kost og antirøykeråd gjennom hele forsøket, mens de 628 i K-gruppen ikke fikk slike klare råd. Alle fikk imidlertid adekvat medisinsk behandling. Følgende data viser kolesterolendringen for de 15 første personer i hver av gruppene:

4 Statistisk

85

metode

Tabell 4-6 Oslo-undersøkelsen, rådata. Se datafilene Oslo-beh og Oslo-B&K Behandlingsgruppen Kolesterolverdier (mg %)

a)

Person nr.

Før

Etter

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

327 328 338 338 314 298 341 339 321 311 300 296 374 358 354

315 347 332 263 297 302 307 302 307 294 268 314 306 277 296

Kontrollgruppen Kolesterolverdier (mg %)

Diff. 12 -19 6 75 17 -4 34 37 14 17 32 -18 68 81 58

Person nr.

Før

Etter

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

315 301 370 366 323 309 278 344 275 302 280 298 342 346 324

336 282 354 328 285 338 280 328 291 270 274 260 356 374 343

Diff. -21 19 16 38 38 -29 -2 16 -16 32 6 38 -14 -28 -19

Se på behandlingsgruppetallene. Hva er hensikten med å se på før-etter tal­ lene?

b) Lag et 95 % konfidensintervall for populasjonsmedianen til før-etter tallene i behandlingsgruppen. c)

Presiser hvilken populasjon det er snakk om. Her må du tenke på om resulta­ tene har gyldighet for alle Oslomenn, alle middelaldrende Oslomenn eller alle middelaldrende Oslomenn i faresonen. Tror du det er frafallsskjevhet forbun­ det med at bare 65 % møtte frem? Kan «Oslomenn» utvides til «Storbymenn» eller kanskje til «Nordmenn»?

d) Hva er hensikten med kontrollgruppen? Hint: Noe av hensikten med undersø­ kelsen er å finne ut om det hjelper å legge om kosthold og røykevaner.

e)

La oss si at du finner ut at behandlingspopulasjonen gjør det bedre enn kontrollpopulasjonen. Betyr det nødvendigvis at det hjelper å legge om vanene?

Oppgave 4-3 Skandaløse bilreparasjoner En omdiskutert rapport fra Norges Automobilforbund og Gjensidige Skade (Aften­ posten 8. juli 1982) konkluderer med at halvparten av alle biler som gjennomgår kasko-reparasjoner for minst 8000 kroner viser skader ved etterkontroller. Kontrollene har bare omfattet forsikringstakere i Gjensidige skadegruppen. Man har ikke hatt kapasitet til å sjekke samtlige kaskoreparasjoner. Derfor er systemet lagt opp på den måten at et tilfeldig utvalg av de forsikringstakere som har hatt skader i størrelsesorden 8000 kroner eller mer, er blitt plukket ut fra et datasystem. Disse har så fått skriftlig henvendelse fra Gjensidige om å fremstille bilen for etter­ kontroll.

86

Del 1 Metode

Av de totalt 728 kontrollerte bilene viste 364 større og/eller mindre mangler etter reparasjonen. Diskuter og presiser hvilken populasjon du mener resultatet er gyldig for. Hvil­ ken populasjon er det referert til i rapporten? Gjør rede for hva slags frafallsskjevhet som sannsynligvis har gjort seg gjeldende vis-å-vis denne populasjonen. I hvil­ ken retning virker skjevheten? Blir konklusjonen svekket eller styrket av kjenn­ skapet til skjevheten?

Oppgave 4-4 Kampen om hylleplass i supermarkedet Et supermarked har begrenset hylleplass, men hundrevis av vareslag som skal plas­ seres på hyllene. En avgjørelse som må tas er på hvilke hyller ulike vareslag skal plasseres. R. Frank og W. Massey har utført en undersøkelse for å belyse hyllehøydens innvirkning på salget. De valgte ut 26 supermarkeder. 113 av dem plasserte de Com Flakes i øyehøyde (A) og i de 13 andre over eller under øyehøyde (B). Salget ble så registrert over en periode. Resultatet er i antall enheter:

Tabell 4-7 Datafil Cornflak, salg av frokostblandinger som funksjon av hyllehøyde 1

2

3

4

5

6

7

8

9

10

11

12

13

A B

111 71

150 121

130 133

154 126

67 93

112 49

84 109

123 96

71 27

62 58

38 36

51 37

77 69

x

40

29

-3

28

-26

63

-25

27

44

4

2

14

8

Par

a)

Lag et parallellplott av de to stikkprøvene. Føler du deg overbevist om at de kommer fra to ulike populasjoner?

b) Hvilke kilder til variabilitet er det naturlig å tenke på ut fra den informasjonen du hittil har fått.

Egentlig ble det valgt ut 13 par supermarkeder slik at den totale omsetningen til de to supermarkedene innen hvert par var noenlunde lik. I datamaterialet ovenfor er parene gruppert loddrett slik at tallene 111 og 71 tilhører ett par, osv.

a)

Forklar hva hensikten med parene er.

b) Lag et 95 % konfidensintervall for differansemedianen. c)

Mener du konklusjonen din har gyldighet bare for Com Flakes? Generaliser resultatet så langt du mener det er forsvarlig!

4 Statistisk

metode

87

Oppgave 4-5 Inntektsfordeling i USA og i Norge På neste side ser du inntektsfordelingen i USA ($) og i Norge (kr) i 1969. Lag histrogram av hvert av datasettene i samme diagram. Sørg for at arealene under de to histogrammene blir like store slik at de kan sammenlignes. La $1 tilsvare kr 5. Siden klassebreddene ikke er like store, kan ikke Statark hjelpe deg. Du må gjeme bruke regneark til beregningene og så enten tegne for hånd eller ved hjelp av en x-y graf.

USA Klassemidtpunkt

Inntektsklasse

$ 500

$1-1 000

1 500 2 500 3 500

1 000- 2 000

4 500 5 500

6 500

2 000- 3 000 3 000- 4 000

8 404 163 7 980 057 7 214 417

12 500 16 000

10 000-15 000

18 500

17 000-20 000

22 500 27 500

20 000-25 000

60 000

9 784 978

5 000- 6 000 6 000- 7 000 7 000- 8 000

45 000

20 086 154 15 597 243 10 680 434

4 000- 5 000

7 500 9 000

35 000

Antall personer

8 000-10 000

15 000-17 000

25 000-30 000 30 000-40 000 40 000-50 000 50 000 og over Totalt

6 690 868

10 11 1 1

209 599 505 808 886 410 309 495

1 079 153 627 736

555 676 230 096 264 332

114 106 619

NORGE Klassemidtpunkt

Inntektsklasse

Antall personer

kr 0 1 000

Ingen inntekt kr 0- 2 000

45 847

3 000

2 0004 000-

4 000 6 000 8 000

46 328 82 061 100 160

000- 10 000

116 890 114 537 101 716

5 000 7 000 9 000 11 000

13 000 15 000 17 000

19 000 22 500

6 0008 10 12 14

000- 12 000 000- 14 000 000- 16 000

16 000- 18 000 18 000- 20 000

27 500

20 000- 25 000 25 000- 30 000

32 500 37 500

30 000- 35 000 35 000- 40 000

24 223

99 101 105 264

406

721 087 539

231 611 148 478

85 097

88

Del 1 Metode

NORGE Klassemicltpunkt

inntektsklasse

Antall personer

kr 0 42 500

Ingen inntekt 40 000- 45 000

45 847 48 812

47 500

45 000- 50 000

29 857

55 000

33 245

65 000

50 000- 60 000 60 000 - 70 000

75 000

70 000- 80 000

85 000 95 000

80 000- 90 000 90 000-100 000

4 356

200 000

100 000-300 000

5 128

400 000 600 000

16 062 7 983 2 605

300 000-500 000

115

500 000 og over

______ 59 Totalt

1 815 923

Svar på øvelse Pilotundersøkelser Antallet n = 18 og det tosidige konfidensnivået 1 — la = 95 % gir c = 5 ifølge tabell 3b. Konfidensintervallet blir derved [25000; 45000] med vidde Zo = 20000. Dermed blir hovedundersøkelsens størrelse: n — 18 • (20000/2000)2 = 1800 Dette er selvfølgelig litt av en jobb, og du har heller ingen garanti for at 1800 er tilstrekkelig. Pilotundersøkelsens verdier var jo tilfeldige, og det samme vil verdi­ ene i hovedundersøkelsen være, men tross alt har du nå i det minste en pekepinn om arbeidets omfang.

Svar på øvelse Kritisk verdi ved store stikkprøver Intervalltype Tosidig Ensidig Tosidig Ensidig

95 95 90 90

% % % %

1 - 2a

1 — a

95% 95% 90% 90%

a

za

2,5 % 5% 5% 10%

1,96 1,645 1,645 1,28

+ 1) -Za • y 'V n

63,50 65,43 65,43 67,66

c

63 65 65 67

Vi runder hele tiden av nedover for å være på den sikre siden. Du finner za-faktorene både nederst i tabell 3b bak i boken og i avsnitt 4.5.

89

5 Sannsynlighetsregning 5.1 5.2 5.3 5.4 5.5 5.6 5.7

Mengdelære Andeler Sannsynlighet Betinget sannsynlighet Uavhengighet Sammendrag Oppgaver

5.1 Mengdelære Mengdelæren er et av fundamentene i sannsynlighetsregning. Heldigvis gir det norske skolesystemet en forholdsvis god bakgrunn i dette temaet. Vi skal derfor nøye oss med de viktigste poengene. Se på figur 5-1. Du ser en mengde E som inneholder en rekke elementer, blant annet blomster, blader, tregrupper, ansikter, hender, ringer og piler. Antall elementer i mengden finner du ved å telle opp: A(E) = 33.

Figur 5-1: En mengde med 33 elementer

I figur 5-2 har jeg rammet inn ringene og pilene i en egen undermengde S. Du ser at N(S) = 7. Resten av mengden E kalles komplementærmengden til S. Den skriver vi S’. Siden komplementærmengden til en mengde S består av de elementer som ikke eri S, leser vi ofte apostroffen som «ikke S». Du seratTVfS’) = 26 = V(E) — 7V(S).

90

Del

1 Metode

Figur 5-2: Undermengden S = {Symboler} har syv elementer

Figur 5-3: En bok og blyant er fellesmengden av P og M

I figur 5-3 ser du to undermengder av E. P er mengden av elementer fra planteriket inkludert en bok og en blyant, og M mengden av menneskelagde ting. Fellesmeng­ den av to mengder består av de elementer mengdene har felles og kalles snittet av mengdene. Snittet mellom P og M skrives P A Mog uttales gjeme «P og M». P og M har en bok og blyant felles.

pn

m

= {£3,Z}

Snittet mellom to mengder er en tom mengde hvis de ikke har noen elementer felles. Symbolet for den tomme mengden er 0. Snittet mellom mengden av an­ sikter og mengden av planter er for eksempel tomt. Hvis to mengder har tomt snitt, slik som mengden A av ansikter og B av blomster, kalles de disjunkte.

Da har vi: N (A fl B) = 0.

På figur 5-4 har jeg skyggelagt alt som er i P eller i M eller i begge. Denne mengden kalles unionen av P og M og skrives P U M. Det leses gjeme «P eller M». En statistiker forstår alltid ordet «eller» som den inklusive «eller» som også gir mulig­ het for «både-og». Språket er tvetydig, men statistikeren entydig, ihvertfall her.

5 Sannsynlighetsregning

91

Figur 5-4: Unionen av to mengder består av alt som er i minst én av dem

Av figuren ovenfor ser du sikkert at følgende generelle regneregel er opplagt, men den er sentral så forviss deg om at du skjønner den: 7V(P U M) = A(P) + A(M) - N (P n M) I vårt tilfelle får vi:

19 = 17 + 4-2 Antallet elementer i en union er altså summen av elementene i hver av de to meng­ dene minus antall elementer i snittet. Grunnen til at vi må trekke fra antall elemen­ ter i snittet er ikke at snittet ikke er med i unionen. Det er det nemlig. Grunnen er at vi alt har fått det med to ganger! Vi må med andre ord unngå dobbelt-telling. Skillet mellom tall (A) og mengder (E) er vesentlig og laget for at vi skal kunne tenke klarere. Hold dem fra hverandre! Du kan legge sammen tall, men ikke meng­ der. Mengder kan derimot forenes i en union. Det kan ikke tall.

5.2 Andeler Mer interessant enn antall elementer i de ulike undermengdene av E, er ofte hvil­ ken andel de utgjør av E. Hvis A er en undermengde av totalmengden E, definerer vi A-andelen:

Fr (A) = V(A)/V(E) I forrige avsnitt så vi at det alltid gjelder at

V(A U B) = A (A) + A(B) - N (A Pl B) Hvis vi deler hvert ledd på N (E), ser vi at det også alltid må gjelde at

Fr (A U B) = Fr (A) + Fr (B) - Fr (A Pl B)

92

Del

1 Metode

I det spesielle tilfellet der A og B er disjunkte, er N (A A B) = 0, og vi har at: Fr (A U B) = Fr (A) + Fr (B)

Figur 5-5: Syv delmengder

I figur 5-5 ser du følgende mengder:

Tabell 5-1 Andelene til mengdene i figur 5-5 E = P = M = S = A = H = R= L =

Totalmengden Planteriket Menneskelaget Sirkler Ansikter Hender Runde ting Legemsdeler

A(E) = 30 A(P) = 17 N (M) = 3 A(S) = 4 A (A) = 3 A(H) = 5 A (R) = 7 A(L) = 8

Fr(E) = A(E)/A(E) = 1,00 Fr(P) = A(P)/A(E) = 17/30 Fr(M) = A(M)/A(E) = 3/30 Fr(S) = A(S)/A(E) = 4/30 Fr (A) = A(A)/A(E) = 3/30 Fr(H) = A (H)/A (E) = 5/30 Fr (R) = A(R)/A(E) = 7/30 Fr(L) = A(L)/A(E) = 8/30

Av figur 5-5 ser du at:

Fr (R) Fr(L) Fr (R A L) Fr (R U L)

= = = =

7/30 8/30 3/30 12/30

Sjekk om dette stemmer med den generelle formelen for union!

5.3 Sannsynlighet Vi har ved flere anledninger allerede benyttet oss av betegnelsen sannsynlighet. De fleste har en ganske god forestilling om hva ordet betyr. Det er ikke forbeholdt statistikere å vite at sannsynligheten for å få en «toer» når man kaster en terning er 1/6. Imidlertid har statistikere behov for å definere begrepet på en skikkelig måte

5 Sannsynlighetsregning

93

slik at det bl.a. går an å regne med det. Statistikemes sannsynlighetsbegrep svarer helt til det daglige, intuitive, men det finnes flere måter å definere det på og ikke alle er like lette å gjennomskue.

Sannsynlighet som populasjonsandel En måte å betrakte sannsynlighet på tar utgangspunkt i tilfeldige trekninger der alle elementer har like stor sjanse for å bli trukket. La oss si at vi trekker et lodd tilfeldig fra en urne der det er fullt av lodd som enten er merket M eller K (for mann eller kvinne). Hvis vi vet at 90 % av loddene er merket K, er det rimelig at vi føler at sannsynligheten for at vi skal trekke et K-merket lodd er ganske høy, nærmere bestemt 0,90. Hvis halvparten av loddene er merket K, er det rimelig å føle at sannsynligheten P (K) er 0,50. (P har sammenheng med det engelske ordet probability - sannsynlighet.) Dette motiverer følgende:

Uformell definisjon av sannsynlighet La A være en undermengde av populasjonen E. Hvis vi trekker tilfeldig ett element fra E, er sannsynligheten for at dette elementet skal være et medlem av A:

Formel 5-1:

P (A) = Fr (A) = ^bL A(E)

Hvis vi trekker en alderslapp tilfeldig fra populasjonen av bygdekvinnenes aldre, vil P (alder = 30 år) = 7/500 = 0,014, fordi 7 av de 500 aldrene har verdien 30 år. Likeledes vil P (alder > 31 år) = 243/500. Litt sleivete kan vi si at vi betrakter sannsynligheten for en undermengde som undermengdens andel av totalmengden eller populasjonen. Denne definisjonen kan kritiseres for å være uvitenskapelig, men for oss er den hensiktsmessig både fordi den er lett å forstå og fordi den gjør det lett å utlede regnereglene for sannsynlighet. Det blir nøyaktig de samme som for andeler.

Sannsynligheten for unionen av to mengder Formel 5-2: P (A U B) = P (A) + P (B) — P (A A B) gjelder generelt P (A U B) = P (A) + P (B) hvis A og B er disjunkte

I en populasjon av mennesker er f.eks. P (gravid U mann) = P (gravid) + P (mann)

fordi P (gravid A mann) — 0.

94

Del

1 Metode

Det er egentlig nokså restriktivt å definere sannsynligheten for A som A’s andel av E, Fr (A). Hva hvis populasjonen E for eksempel består av alle børsnoteringer på Norsk Hydros aksjer, historiske og fremtidige? Hva er da N (Ej? Hvis A er alle noteringer over 650, hva er da Fr (A)? Det finnes opplagt en rekke tilfeller der hverken N (E) eller N (A) vil være defi­ nert på en fornuftig måte slik at vår definisjon av sannsynlighet kan brukes. Likevel er det nyttig å tenke på sannsynlighet som andel av populasjonen fordi det blir så lett å forstå hvordan begrepet da kan håndteres.

Sannsynlighet som relativ hyppighet i det lange løp Det er en måte å definere sannsynlighet på som er mye brukt i statistisk litteratur. Den baserer seg på noe som kan iakttas eksperimentelt: Man gjentar et forsøk gang etter gang og ser på de oppsamlete resultatene. Du kan for eksempel kaste en mynt gjentatte ganger og etter hver gang beregne den relative hyppigheten - eller an­ delen - av «krone». Hva vil du da se? Jeg har gjort dette 200 ganger. Resultatet av de 15 første kastene ser du i skjerm 5-1. Jeg har ikke kastet en mynt 200 ganger i virkeligheten, men nøyd meg med å simulere kastene ved hjelp av Statark. Statark I-7, Wenstøp: Kapittel 6

Binomiske forsøk Antall binomiske forsøk: n= P(vellykket forsøk): p=

Ant. Andel nr. JAer JA

200 0,5

De store talls lov JA

Antall forsøk

NEI NEI JA JA

1

1

1,00

17 18 19 20

11 11 12 13

0,65 0,61 0,63 0,65

Skjerm 5-1: Statark 1-7: Resultatet av 200 simulerte myntkast. Tabellen viser de 20 første, grafen viser fortløpende andel av JA-er.

5 Sannsynlighetsregning

95

Du kan lett simulere myntkast selv ved hjelp av Statark eller på annen måte. Ser du et påfallende trekk ved grafen i skjerm 5-1? Til å begynne med svinger kroneandelene ganske mye, men svingningene blir ganske snart dempet og andelen ser ut til å stabilisere seg på et nivå i nærheten av 0,5.1 tilfelle du skulle tro dette mønsteret skyldes tilfeldigheter (man skal jo være skeptisk), har jeg simulert to kastserier til. Resultat av dem ser du i graf 5-1 og 5-2. De viser nøyaktig det samme mønster selv om svingningene til å begynne med er annerledes. Det beror på tilfeldigheter. Det vi nå ser er en manifestasjon av de store talls lov. Den sier at hvis en rekke identiske forsøk gjøres, vil andelen av et bestemt utfall etter hvert nærme seg en bestemt verdi - en grense. Denne loven er imidlertid ingen naturlov, men et rent matematisk resultat!

De store talls lov

Graf 5-1: Simulering av 200 nye myntkast

96

Del 1 Metode

De store talls lov

Graf 5-2: Simulering av 600 myntkast

Av grafene ser vi tydelig at den relative hyppigheten i det lange løp ser ut til å nærme seg en stabil verdi - en grense. Grensen er kanskje ikke nøyaktig 0,50, men i nærheten. Praktisk erfaring tyder på at hvis en mynt blir kastet tusener av ganger, vil den relative hyppigheten av f.eks. «krone» etter hvert ta seg fullstendig ut som en rett horisontal linje når den tegnes i et diagram. Endringene i Fr (krone) blir til slutt så små at de ikke er synlige, og for alle praktiske formål kan den da oppfattes som en konstant. Denne konstanten kalles sannsynligheten for «krone» for denne mynten (eller tallgeneratoren):

Alternativ definisjon av sannsynlighet Grensen for en andel, når antall forsøk går mot uendelig: P (krone) = lim Fr (krone) rt —> 00

Sannsynligheten er altså den grensen den relative hyppigheten nærmer seg mot når antall kast n går mot uendelig. Naturligvis går det ikke an å gjøre uendelig mange kast i virkeligheten. Begrepet er en abstraksjon, en modell av virkeligheten som er brukbar fordi den samsvarer med vår mer begrensete erfaringsbakgrunn. Vi tenker oss altså en grense for Fr (krone) når antall kast går mot uendelig og kaller denne grensen for P (krone). En tilnærmet verdi for denne grensen kan vi finne ved å

5 Sannsynlighetsregning

97

beregne Fr (krone) for et meget stort antall kast. Denne behøver ikke nødvendigvis være nøyaktig 0,5, fordi mynten godt kan tenkes å være beheftet med usymmetriske egenskaper som gjør at en av sidene favoriseres, om enn bare lite grann. Hvorfor stabiliserer egentlig den relative hyppigheten seg rundt en grenseverdi slik vi ser det i graf 5-2? En spøkefull forklaring er at mynten «husker» hva den tidligere har vist og at den ved en eller annen mekanisme sørger for en viss balanse i det lange løp. Det er imidlertid ikke nødvendig å ty til slike tvilsomme resonnementer. Årsaken ligger i at vi hele tiden dividerer med antall kast n for å beregne den relative hyppigheten. Når n er svært stor, vil en serie på f.eks. ti «mynt» bidra lite til å endre på Fr (krone) i motsetning til hvis den opptrer tidlig i forsøksrekken. Hvilke regneregler får vi for sannsynlighet når vi definerer den som grensever­ dien til Fr (A)? Akkurat de samme som før. Tenk deg et eksperiment der vi kaster to mynter. For den første har vi P (Kj) = px og for den andre P (K2) = p2 (K står for «krone»). Eksperimentet gjentas n ganger. Fr (Kt U K2) representerer den andel av kastene der den ene mynten viser K eller den andre gjør det. Kj U K2 kan sees på som en undermengde av populasjonen av resultatene fra de n kastene. Da vet vi at Fr (K] U K2) = Fr (Kt) + Fr (K2) — Fr (Kj El K2). Hvis n er svært stor, vil andelene være nær de tilsvarende sannsynlighetene og det kan vises at o

P (K, U K2) = P (KJ + P (K2) - P (K, n K2)

De store talls lov er loven om at alt jevner seg ut i det lange løp. Kjøper du stadig lodd i pengelotteriet vil du i det lange løp få din rettmessige andel av vinnerlodd. Spiller du bridge elle poker ofte nok, vil du i det lange løp få like mange gode kort som dine medspillere. Tenk deg at du til å begynne med har flaks. Når du ved livets slutt skal gjøre opp regnskapet, vil denne begynnerflaksen måtte sees i forhold til alt annet som har skjedd, og da vil dens bidrag være minimal. Dette er ren matema­ tikk. Det er ikke snakk om noen skjebne som sørger for rettferdig fordeling av flaks og uflaks, men det ser det ut til at folk tror! Når ruletthjulet har stoppet på svart en del ganger på rad, begynner spillerne ofte å satse høyere på rødt fordi de jo «vet» at rødt og sort vil komme opp like mange ganger i det lange løp. Men det er galt! Dreies hjulet 10 000 ganger, er sannsyn­ ligheten omtrent null for at den skal stoppe på svart nøyaktig 5000 ganger. Gjør den det 5050 ganger, er Fr (svart) = 0,505, og det er dette tallet de store talls lov sier noe om. En av de mest dramatiske begivenheter i roulette fant sted i Monte Carlo 18. au­ gust 1913. Ved et av bordene begynte svart å komme igjen gang etter gang. Etter 10 svart på rad, var bordet omringet av opphissede folk som satset stort på rødt i håp om at de store talls lov ville belønne dem. Etter 15 svart på rad var det nesten panikk blant folk som ville frem til bordet for å vedde store summer på rødt. Etter 20 svart satset folk sine siste sjetonger på rødt i håp om få noe tilbake av alt de hadde tapt. Den minneverdige runden endte etter 26 svart på rad. Da hadde kasinoet vunnet millioner franc. Man har regnet ut at noe slikt vil forekomme ca. hvert 100 år, og dette skjedde i Monte Carlos 68. år.

98

Del

1 Metode

Noe tilsvarende skjedde i Chicago i november 1949. Atten fødsler på rad resul­ terte i gutter på et av byens sykehus. Den 10. november skrev Chicago Daily News at legene og pleierne på sykehuset nå ventet seg en serie jenter! I virkeligheten ble 18 av de neste 24 barna gutter. Noen få år senere skrev Chicago Tribune om fru Drabik som hadde fått seks barn som alle var jenter. Da hun ble gravid for syvende gang «var oddsene mot at hun igjen skulle få en jente astronomiske» og praktisk talt hele Chicago veddet 10 mot 1 på at den neste ungen skulle bli gutt. Det ble en jente. I Norge underholdes vi kontinuerlig av avisene med statistikk som viser hvor ofte de ulike Lotto-kulene med tall fra 1 til 35 har blitt trukket i det siste. Tanken er at tall som har dukket opp relativt sjelden nå «står for tur» og derfor bør satses på. Enkelte firmaer greier faktisk å få folk til å betale for «prognoser» basert på slik statistikk for hvilke kuler som vil bli trukket i neste trekning! Disse eksemplene er ikke å spøke med. De røper en utbredt og inngrodd misfor­ ståelse om hva det vil si at ting jevner seg ut i det lange løp. Det er viktig for deg som statistikkstudent at du har en korrekt forståelse av dette!

Subjektiv sannsynlighet Subjektiv sannsynlighet er et tallmessig uttrykk for i hvilken grad du tror et eller annet. En varm ettermiddag kan du, for eksempel, plutselig få en følelse av at de mørke skyene som har samlet seg over deg, har bestemt seg for å begynne å regne. Tallmessig sett kan du si at du mener sjansene for regn er som 3 til 1, dvs. sannsyn­ ligheten er 75 % eller 0,75. En annen kan mene at det er like stor sjanse for regn som for ikke regn. Hans sannsynlighet for regn er 50 % eller 0,5. En tredje kan være helt sikker på at det vil begynne å regne. Hennes sannsynlighet er 1,0. Subjektive sannsynligheter er viktige i den økonomisk-administrative hverdag hvor vi ofte må ta beslutninger under usikkerhet, men der situasjonene som regel er unike slik at vi ikke kjenner de relative hyppigheter i det lange løp. Det finnes imidlertid en systematisk, men enkel måte å måle en persons subjektive sannsyn­ lighet på. La oss si du ønsker å måle Lines sannsynlighet for at det begynner å regne i løpet av dagen. Du tilbyr da Line et valg mellom to alternative spill, A og B: A: Line får kr 500 ved midnatt hvis det har regnet i løpet av dagen B: Line får kr 500 ved midnatt hvis en terning som kastes viser seks øyne

Foretrekker hun A, vet vi at Lines sannsynlighet for regn er større enn 1/6. Vi kan nå endre B slik at hun får 500 kr hvis terningen viser fem eller seks øyne. Velger hun nå B, ligger Lines sannsynlighet for regn et sted mellom 1/6 og 2/6. Trikset er altså å kalibrere subjektive sannsynligheter mot objektive. Holder ikke en terning, kan vi bruke en generator av tilfeldige tall. Et problem med subjektive sannsynligheter, er at mennesker ikke er særlig gode til å operere intuitivt med dem slik at det svarer til regnereglene, men det betyr ikke at de ikke er nyttige i beslutningssammenhenger. Vi må bare lære å skjerpe oss.

5 Sannsynlighetsregning

99

Utfallsrom Hvis vi tar stikkprøver fra mengden av personer i Norge, er det gjeme spesielle ting vi er interessert i å observere, slik som f.eks. kjønn, alder og inntekt. Her kan vi igjen operere med mer eller mindre grove kategorier. En grov oppdeling av inn­ tekten er å dele den inn i lav (mindre enn 100 000), middels (100 000-200 000) og høy (over 200 000). Aldre kan deles inn i ung (under 40) og gammel (40 og over). Utfallet av en observasjon vil da kunne være: Mann, lav, ung M, lav, gammel K, middels, ung

I alt er det 2X3X2= 12 mulige utfall. Disse danner utfallsrommet E:

E = {M, lav, ung; M, middels, ung; . . .; K, høy, gammel} Hadde vi bare vært interessert i kjønnet, er E = {M, K}. Alt etter hva vi interesserer oss for, og hvilken oppdeling vi foretar, vil utfallsrommet bli forskjellig. Uansett vil utfallsrommet være en liste med disjunkte undermengder av den bakenforlig­ gende populasjonen som her var Norges befolkning.

Aksiomatisk definisjon av sannsynlighet Matematikere foretrekker å definere sannsynlighet helt abstrakt som en «ikke-negativ additiv mengdefunksjon med totalt mål 1». Fremgangsmåten er omtrent som dette: Man har gitt en mengde med undermengder og tilordner hver undermengde et tall mellom 0 og 1 som kalles mengdens sannsynlighet. Sannsynligheten sym­ boliseres med P (A) for den mengden som heter A. Tallene skal tilordnes slik at P(AUB) = P(A) + P(B)

gjelder for ethvert par av disjunkte undermengder A og B. Samtidig må vi ha

P(E) = 1.

Når dette er oppfylt, følger de andre regnereglene, slik at du får en sannsynlighetsalgebra som kan utvikles videre til matematisk sannsynlighetsteori nok til å fylle flere bind.

Valg av definisjon Vi har nå gjennomgått flere måter å definere sannsynlighetsbegrepet på, og spørs­ målet blir hvilken av dem vi skal bruke. Egentlig spiller det lite rolle om vi benytter den aksiomatiske definisjonen, eller om vi sier at P (A) = Fr (A) når A er en undermengde av populasjonen E, eller om vi betrakter P (A) som gjennomsnittlig andel i det lange løp - eller om vi tar utgangspunkt i subjektive sannsynligheter. Poenget er at i alle fire tilfellene kan vi kombinere sannsynligheter og beregne

100

Del 1 Metode

sannsynligheten for unioner og snitt ved hjelp av de samme regneregler som gjelder for andeler, samt multiplikasjonsregelen som vi kommer til i neste avsnitt. Tenk på sannsynlighet som relativ hyppighet i det lange løp eller som andel av en popula­ sjon, ettersom det passer. Sannsynlighet som areal Sannsynlighetsbegrepet har lett for å virke abstrakt, og når man mangler bakkekon­ takt, kan man lett tenke galt. En praktisk måte å konkretisere sannsynligheter på, er å representere dem med arealer. Under visse forutsetninger gjelder de samme reg­ neregler for arealer som for sannsynligheter. Det som skal til, er å tenke seg alle elementene i totalmengden T spredt jevnt utover. Vi kan tenke oss at totalmengden er en populasjon, der vi velger ut et tilfeldig element. Sannsynligheten for å velge et eller annet element i populasjonen er pr. definisjon 1,00. Følgelig sier vi at arealet av T er 1,00. Sannsynligheten for å velge et element i en undermengde er da undermengdens areal. På denne måten kan vi visuelt «se» regneregelen for sannsynligheten for en union mellom to mengder. Hvis snittet har areal 0,05, må unionen ha areal 0,55. Se figur 5-7.

K areal = 0,40

AnB 0,05

B areal = 0,20

Figur 5-6: En totalmengde med to overlappende delmengder

T areal = 1,00

AuB areal = 0,55

Figur 5-7: Unionen mellom to overlappende delmengder

5 Sannsynlighetsregning

101

5.4 Betinget sannsynlighet Begrepet betinget sannsynlighet er viktig, men kan virke komplisert. Det er lettest å tenke på det i forbindelse med hendelser som foregår etter hverandre i tid. I for­ bindelse med straffesaker begår folk først enten lovbrudd eller ikke, deretter blir de enten dømt eller frifunnet. Sannsynlighetstrær er et utmerket hjelpemiddel til å representere sekvensielle hendelser. Tenk deg at T er mengden av alle som har blitt tiltalt i norsk rett. Tenk deg videre at 75 % av dem som blir tiltalt er skyldige. Da er sannsynligheten for at en tilfeldig valgt tiltalt er skyldig lik 0,75. Se figur 5-8. Mengdemessig er mengden av de skyldige (S) 75 % av totalarealet av de tiltalte T. Tiltalt

0,75

0,25

Skyldig

Uskyldig

Figur 5-8: Sannsynlighetstre

Du får nå vite at sannsynligheten for at en skyldig (S) blir dømt (D) er lik 0,70. Dette er en sannsynlighet som er betinget av at vedkommende er skyldig. Vi skriver dette: P(D | S) = 0,70

Den loddrette streken leses «gitt». Sannsynligheten for at en tiltalt blir dømtg/77 at han er skyldig, er altså 0,70. Hvor mange er er både skyldige og dømte? Det må være 70 % av de 75 % som er skyldige. Med symboler:

P (D A S) = P (D | S) X P (S) = 0,7 X 0,75 = 0,525 La oss dele på P (S) på begge sider av likhetstegnet i ligningen ovenfor. Da får vi definisjonen på betinget sannsynlighet, et uttrykk du alltid kan bruke, samme hva D og S står for:

Definisjon av betinget sannsynlighet Formel 5-3: P (D | S) = P (D A S) / P (S)

Du får også oppgitt at sannsynligheten for at en som er uskyldig blir dømt, er 0,10: P(D | S’) = 0,10

102

Del 1 Metode

Vis at P (D A S’) = 0,025 på tilsvarende måte! Dette bør jo helst bli en liten sannsynlighet, siden rettsvesenet prøver å unngå at mennesker kommer i katego­ rien «dømt, men uskyldig». Alle opplysningene vi har fått og de betegningene vi har gjort, kan enkelt repre­ senteres i et sannsynlighetstre. Se figur 5-9. T

0,25

0,75

S

S'

0,7

0,3

0,1

0,9

D

D'

D

D'

0,525

0,225

0,025

0,225

dns

D’ n s

d n S’

D’ n S’

Figur 5-9: Sannsynlighetstre med endepunktssannsynligheter

Legg merke til at summen av endepunktssannsynlighetene i figur 5-9 er 1,00. Hva er sannsynligheten for at person blir dømt, P (D)? Det skjer i to av endepunktene. Siden en person bare kan havne i ett av endepunktene i én og samme rettsak, er endepunktene gjensidig utelukkende, og vi har:

P(D) = P(D A S) + P(D A S’) = 0,525 + 0,025 = 0,55

P (D) kalles en ubetinget sannsynlighet, det er ikke knyttet noen betingelse om hvorvidt han er skyldig eller ikke. Når vi nå har funnet alle endepunktssannsynlighetene ved hjelp av sannsynlighetstreet, kan vi oppsummere resultatene våre i en oversiktlig tabell som vist i 5-2. Av tabellen ser vi at P (D) = 0,55; P (D’) = 0,45; P (S) = 0,75; P (S’j = 0,25. Disse sannsynlighetene er alle ubetingete. — Du kunne med en viss rett innvende at de igjen er betinget av at vedkommende er tiltalt. Spørmålet er hvilken totalmengde vi tar utgangspunkt i. Hadde vi tatt utgangspunkt i mengden av personer i sam­ funnet, ville disse sannsynlighetene vært annerledes. I vårt eksempel har vi valgt å ta utgangspunkt i totalmengden T lik mengden av dem som er tiltalt. I forhold til denne totalmengden er sannsynlighetene ubetingete.

5 Sannsynlighetsregning

103

Tabell 5-2 Resultatoversikt T

D

D’

S S’

0.525 0,025

0,225 0,225

0,75 0,25

0,55

0,45

1,00

Bayes formel I prosessen ovenfor resonnerte vi oss frem til en fundamental regneregel som defi­ nerer betinget sannsynlighet: P (D A S) = P (D | S) X P (S)

Denne regneregelen er som sagt alltid riktig, samme hva D og S står for. Som i all matematikk, kan du selvsagt bytte ut symbolene med andre symboler, bare du pas­ ser på å gjøre det over alt. La oss for eksempel kalle D for S og omvendt. Da får vi: P(S A D) = P(S | D) XP(D) Dette er like riktig som det forrige. Av og til har du bruk for det ene, av og til det andre. La oss dele på P (D) på begge sider av likhetstegnet, erstatte P (D Pl S) med P (D S) X P (S) fra ligningen ovenfor, samt sette inn uttrykket for P (D) som vi har funnet tidligere. Da får vi Bayes formel'.

Bayes formel Formel 5-4: P(S|D)

p(snp) P(D)

________P(D|S)P(S)________ P(P|S)P(S) + P(P|S’)P(S’)

Vi ser at denne formelen gjør det mulig å snu på rekkefølgen til begivenhetene! Hvis vi vet at en person er dømt, og lurer på om han virkelig er skyldig, kan vi nå regne ut sannsynligheten. Dette er en praktisk situasjon som dukker opp ganske ofte. Du får vite at noe er hendt, og lurer på hva som kan være årsaken. Da er Bayes formel aktuell. Før vi beregner P (S | D) la oss rekapitulere: Til å begynne med fikk vi tre opplys­ ninger: = 0,75 ^(S) P(D S) = 0,70 P(D S’) = 0,10

og derfor og derfor og derfor

= 0,25 P(S’) P(P’ S) = 0,30 P(D’ S’) = 0,90

Ut i fra dette har vi ved enkle regneregler skaffet oss fullstendig oversikt over alle sannsynligheter vi måtte ønske, slik det er vist i tabell 5-2. Fra Bayes formel finner vi nå:

104

Del

1 Metode

P(S | D) = 0,525/0,55 = 0,9545 Dette virker nokså betryggende rettssikkerhetsmessig sett.

Bayes formel er oppkalt etter den engelske presten Thomas Bayes (1702-1761) som benyttet den til å prøve å beregne sannsynligheten for at Gud eksisterer. Tan­ kegangen var at man kanskje kan anslå sannsynligheten for visse observasjoner gitt at Gud eksisterer: P (Observasjoner | Gud eksisterer). Med formelen kan man så snu rundt på dette og beregne P (Gud eksisterer | Observasjoner). Poenget med formelen er altså at den kan bruke P (D | S) til å beregne P (S | D). Dette er spesielt nyttig når vi ønsker å si noe om fortiden basert på kjennskap til nåtiden og årsaks­ sammenheng. Vi vet hvor sannsynlig det er at en skyldig blir dømt (årsakssammen­ heng). Vi vet at en person er dømt (nåtid). Da kan vi beregne sannsynligheten for at han er skyldig (fortid). Mange studenter finner det vanskelig å anvende Bayes formel i praksis. Da kan det være lettere å regne ved hjelp av sannsynlighetstrær istedenfor. Figur 5-10 er figur 5-9, men med endret rekkefølge på dømming og skyld. Lag treet på følgende måte: 1.

Tegn 5-9 om igjen, men med omvendt rekkefølge på dømming og skyld

2.

Behold endepunktsannsynlighetene, men pass på at de kommer på riktig sted (du må flytte på noen av dem)

3.

Påfør de ubetingete sannsynlighetene for D og D’ (du fant dem ved å legge sammen endepunktssannsynlighetene med henholdsvis D og D’ i figur 5-9) T

0,55

0,45

D'

D

0,9545

0,0455

0,5

0,5

s

S'

s

S’

0,525

0,025

0,225

0,225

D’ n s

D’ n S’

Dns

d n S’

Figur 5-10: Invertert tre for beregning av Bayesianske sannsynligheter

5 Sannsynlighetsregning

4.

105

Beregn de betingete sannsynlighetene ved å dividere P (S | D) = 0,525/0,55 = 0,9545; P (S | D’) = 0,225/0,45 = 0,5

Vi ser altså også i figur 5-10 at sannsynligheten for å være skyldig gitt at man er dømt, er 0,9545. Dette er bra. Mer skummelt er det at sannsynligheten for å være skyldig gitt at man er frikjent, viser seg å være 0,5!

5.5 Uavhengighet La oss fortsette eksemplet fra forrige avsnitt. Du vet at 75 % av de tiltalte er skyl­ dige og at 55 % av de tiltalte blir dømt skyldige. Tenk deg imidlertid nå at retts­ praksis er helt vilkårlig, slik at sannsynligheten for å bli dømt er den samme enten man er skyldig eller ikke. Da er det å bli dømt uavhengig av skyldsspørsmålet. Vi vet altså: P (S) P(D) P(D | S)

= 0,75 = 0,55 = P(D | S’)

La oss skaffe oss en full oversikt på samme måte som forrige gang. Det innebærer å beregne endepunktssannsynlighetene. La oss resonnere: Siden de dømte skal ut­ gjøre 55 % av totalen og like stor andel av de skyldige som av de uskyldige, må de utgjøre 55 % av de skyldige og 55 % av de uskyldige. Med andre ord må vi ha at: P (D | S) - P (D | S’) = P(D) = 0,55

Endepunktssannsynlighetene blir:

P (D n S) P (D’ A S) P(DnS’) P (D’ n S’)

= = = =

P (D | S) X P (S) = 0,55 X 0,75 = 0,4125 P (D’ | S) X P (S) = 0,45 X 0,75 = 0,3375 P(D|S’)XP(S’) = 0,55 X 0,25 = 0,1375 P (D’ I S’) X P (S’) = 0,45 X 0,25 = 0,1125

Resultatene er oppsummert i tabell 5-3. Legg merke til at sannsynlighetstabellen nå er en multiplikasjonstabell. Hvis du ser etter, vil du se at sannsynlighetene inne i tabellen er produktet av sannsynlighetene i margen! Av det følger at også S er uavhengig av D.

Tabell 5-3 Multiplikasjonstabell for uavhengige begivenheter T

D

D’

S S’

0,4125 0,1375

0,3375 0,1125

0,75 0,25

0,55

0,45

1,00

106

Del 1 Metode

La oss så gå mer formelt til verks:

Definisjon av statistisk uavhengighet B er uavhengig av A hvis: Formel 5-5:

P (B | A) = P (B)

På samme måte er A uavhengig av B hvis P (A | B) = P (A). Vi husker at ifølge definisjonen på betinget sannsynlighet er (formel 5-3): P (B | A) = P (B A A) / P (A) Ved å multiplisere på begge sider med P (A), får vi:

P (B n A) = P (B I A) X P (A)

Hvis B er uavhengig av A, kan vi erstatte P (B | A) med P (B), og vi får:

Den spesielle multiplikasjonsregel Hvis A og B er uavhengige, gjelder:

Formel 5-6:

P (B Pl A) = P (B) X P (A)

Ved å dividere på begge sider av likhetstegnet med P (B) i 5-6, får vi videre: P(A) = P(BAA)/P(B) = P(A|B)

Med andre ord: Hvis B er uavhengig av A, er også A uavhengig av B. Derfor har vi kunnet bruke uttrykket «A og B er uavhengige» (av hverandre) i den spesielle multiplikasjonsregelen. Ikke bland sammen uavhengighet med disjunkthet! Hvis det å være mann er uav­ hengig av det å stå til eksamen, betyr ikke dette at menn ikke kan bestå eksamen eller at P (M A B) = 0. Tvert imot! Det betyr at menn har samme sannsynlighet som kvinner for å bestå, og at P (M A B) = P (M) X P (B)

5 Sannsynlighetsregning

107

5.6 Sammendrag Hensikten med dette kapitlet er å presentere noen grunnregler for sannsynlighets­ regning slik at det er mulig å løse enkle oppgaver og forstå sentrale sannsynlighetsfordelinger samt statistisk inferens. Hovedformålet med statistikk er jo på grunnlag av resultater fra en stikkprøveundersøkelse å kunne si noe om populasjonen som prøven var hentet fra, gjeme med konfidensnivåer heftet til utsagnet. Vi har ikke gått gjennom mye sannsynlighetsregning, men nok til å kunne forstå det som kom­ mer. Idérammen i kapitlet er en mengde E med N elementer og undermengder av denne mengden. Fra dette har vi utledet noen grunnleggende formler:

Uformell definisjon av sannsynlighet La A være en undermengde av populasjonen E. Hvis vi trekker tilfeldig ett element fra E, er sannsynligheten for at dette elementet skal være et medlem av A: nr 4 ' r, / a x r(A) = Fr(A) = --------

Sannsynligheten for unionen av tomengder P (A U B) = P (A) + P (B) — P (A A B) gjelder generelt P (A U B) = P (A) + P (B) hvis A og B er disjunkte

Definisjon av betinget sannsynlighet P(D I S) = P(D n S) !P (S)

Bayes formel

P(S | D) = f(SnD) P(D)

________P(D|S)P(S)________ P(D|S)P(S) + P(D|S’)P(S’)

108

Del 1 Metode

Sannsynlighetsregning i forbindelse med konkrete problemstillinger faller ofte vanskelig, og det er nyttig å bruke spesielle fremgangsmåter for å strukturere tan­ kene: - Skal du løse rene oppgaver med snitt og union, tenk på sannsynlighet som areal. - Foretar du tilfeldige trekninger fra en populasjon, tenk på sannsynlighet som areal. - Observerer du stokastiske prosesser slik som terningkast, hvor det samme eks­ periment gjentas gang etter gang, tenk på sannsynlighet som relativ hyppighet i det lange løp. - Har du med betingete sannsynligheter å gjøre, bruk sannsynlighetstrær. - Ønsker du å snu på rekkefølgen mellom hendelser, bruk Bayes formel. Dette kan gjøres indirekte gjennom å «snu» sannsynlighetstreet hvis du foretrekker den metoden.

5.7 Oppgaver Øvelse Sannsynlighetsregning (Svar etter oppgave 5-7) En fabrikk lager trykte kretser på kort som styrer programmene i vaskemaskiner. Sannsynligheten for at et kort er defekt er 10 %. Hvis kortet monteres direkte i vaskemaskinen, må det tas ut og bearbeides hvis det viser seg å være defekt. Kortet er imidlertid testet først. Testen vil med en sannsynlighet på 80 % avsløre at kortet er defekt, hvis så er tilfelle (dette kalles testens sensitivitet). Den har også en sann­ synlighet på 95 % for å indikere at et korrekt kort er korrekt (dette kalles testens spesifisitet). 1)

Hva er sannsynligheten for at testen slår ut på et tilfeldig kort?

2) Hva er sannsynligheten for at et kort er defekt hvis testen slår ut? Hva er sann­ synligheten for at et kort er i orden hvis testen slår ut? Hva er sannsynligheten for at et kort er defekt hvis testen ikke slår ut? Hva er sannsynligheten for at et kort er i orden hvis testen ikke slår ut? 3) Hvorfor er svarene under 2 interessante?

5 Sannsynlighetsregning

109

Oppgave 5-1 Dødelighetstabell Tabellen nedenfor er hentet fra S. H. Prestonetal.: Causes ofDeath: Life Tablesfor Natural Populations, Seminar Press, New York 1972. Den viser historiske tall for hyppigheten av dødsfall i ulike alderskategorier pr. 100 000 menn i USA Aldersgruppe

Dødshyppighet pr. 100 000 menn

0-1 1-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55 55-60 60-65 65-70 70-75 75-80 80 +

2 060 352 229 246 772 1 061 955 1 054 1 411 2 111 3 306 4 789 7 085 9617 11 828 13 836 14216 25 072

Kumulativ dødshyppighet 100 97 97 97 97 96 95 94 93 91 89 86 81 74 64 53 39 25

000 940 588 359 113 341 280 325 271 860 749 443 654 569 952 124 288 072

(Ettårsdagen er siste dag i det første intervallet, 5-årsdagen siste dag i intervall nr. 2, osv.) En nyfødt gutt trekkes tilfeldig. La følgende begivenheter være definert: A: B: C: D: a)

Han dør det første leveåret Han dør etter fylte 50 år Han dør i perioden 50-55 Han dør i perioden 55-60

Finn P (A)

b) Finn P (C)

Finn P (C U D)

Uttrykk med ord hva du har funnet!

d) Finn P (C A D)

Uttrykk med ord hva du har funnet!

e)

Finn P (B Pl C)

Uttrykk med ord hva du har funnet!

f)

Finn P (B)

c)

g) Finn P (C B)

Uttrykk med ord hva du har funnet!

h) FinnP(D B)

Uttrykk med ord hva du har funnet!

110

Del

1 Metode

Oppgave 5-2 Riktig eller galt?

a)

Mulige utfall når vi kaster en ærlig mynt to ganger er: ingen «krone», en «krone» og to «krone». Disse tre utfallene har alle en sannsynlighet på 1/3.

b) Hvis en ærlig mynt har vært kastet 5 ganger med «krone» som utfall i alle 5 kast, er sannsynligheten for å få «mynt» i det 6. kast større enn 1/2. c)

Det er mulig at for to hendelser, der P (A) — 0,5 og P (B) = 0,7, kan vi ha at P (A U B) = 1,2.

d) P (A | B) er alltid mindre enn P (B).

e)

Disjunkte hendelser er aldri uavhengige.

f)

Hvis P (A) = P (A j B), er A og B disjunkte.

Oppgave 5-3 Justering ved politiske meningsmålinger Ved en eksamen i statistikk ved BI i 1985 ble det gitt en oppgave om bruk av glattingsteknikk ved offentliggjøring av politiske meningsmålinger. Bjørn Balstad har i den forbindelse skrevet til Bl at Gallup/NOI aldri bruker «glatting», men jus­ terer mot forrige valg. Sitat: «Det er ikke korrekt at statistikkens feilmarginer hefter med full tyngde ved de politiske barometre. For vi presenterer ikke direkte tallene fra spørsmålet om hva man vil stemme på i morgen, men går omveien om svarene på hva man stemte på sist. Her kjenner vi fasiten (valgresultatet) og kan følgelig korrigere vårt utvalg slik at det blir perfekt på dette kriterium. Fra dette perfekte utgangspunkt registrerer vi så velgernes overganger partiene imellom, og har der­ med redusert utvalgsfeilene.» La oss se på en mulig fremgangsmåte.

Innføring av symboler:

La N(A85) være det antall blant de intervjuede som sier de vil stemme på Arbeider­ partiet (Ap) ved stortingsvalget 1985. /V(A’85) er det antall som ikke vil stemme Ap. La Fr (A85) være stikkprøveandelen som sier de vil stemme Ap i 1985, osv . La Fr (A85 | A81)være andelen av dem som sier de stemte Ap i 1981 som sier de også vil stemme Ap i 1985, osv. La P (A85) og P (A851 A81) stå for de tilsvarende populasjonsandelene, osv.

Tenk deg at en intervjuundersøkelse blant n — 1400 stemmeberettigete har gitt følgende resultat: N

A85

A’s5

Sum

^81

A’si

512 48

20 820

532 868

Sum

560

840

1400

5 Sannsynlighetsregning

a)

111

Les ut av tabellen eller beregn: N (A85) Fr (A85) Fr (A’85) Fr (A85 U A81) Fr (A85 A A81) Fr (A85 I A81) Fr (A85 | A’8]) Fr (A81)

b) Tyder dataene på at hva man stemmer på i 1985 er uavhengig av hva man stemte på i 1981? Forklar!

Ved stortingsvalget i 1981 fikk Ap 37,1 % av stemmene: P (A81) = 0,371 c) Fr (A81) og P (A81) er ikke like. Hvordan vil du forklare forskjellen og hva står her symbolene Fr og P for?

Vi multipliserer tallene i A81-raden ovenfor med 0,371/0,38 og tallene i A’8]-raden med 0,629/0,62 og får (tilnærmet): N

^85

A’85

Sum

^81 A’si

500 48

20 832

520 880

Sum

548

852

1400

d)

Sammenhold denne datajusteringen med sitatet fra Bjørn Balstad ovenfor og forklar hva vi har gjort og hvorfor. Beregn Fr (A85) ut fra denne tabellen. Sammenlikn med den tilsvarende beregning under punkt a) og kommenter.

e) Vis, eller gi et intuitivt resonnement for at følgende ligning alltid er riktig: p (A85) = p (A85 i a81) p (A81) + p (A851 A’81) p (A’81)

f)

Du kjenner ikke P(A85 | A81) eller P(A85 i A81’), men du har beregnet estimater for disse tallene i punkt a). Bruk dette til å estimere P (A85). Sammenlikn svaret med beregningen under d). Sammenhold det du har gjort med sitatet fra Bal­ stad og forklar med ord hva som har skjedd.

Oppgave 5-4 Om å kjøpe lodd først I en ume ligger N lodd, hvorav ett er vinnerloddet. A og B skal trekke ett lodd hver, men krangler om hvem som skal trekke først. Begge mener at den som trekker først har størst sjanse for å trekke vinnerloddet fordi hvis han virkelig gjør det, har jo nr. 2 ingen sjanse i det hele tatt. Tenk deg at A trekker først. a)

Hva er sannsynligheten for at A trekker vinnerloddet?

b) Hva er sannsynligheten for at B trekker vinnerloddet hvis A ikke gjør det?

c)

Hva er sannsynligheten for at B trekker vinnerloddet? Har A og B noen grunn til å krangle?

112

Del 1 Metode

Oppgave 5-5 Farskapssak I en farskapssak er det godt gjort at både A og B kan være barnefaren fordi begge har hatt samleie én gang med moren i angjeldende periode. Sannsynligheten er imidlertid størst for at det er A, fordi han var den første. Du skal beregne sannsyn­ ligheten for at A hhv. B er barnefaren når sannsynligheten for at et tilfeldig valgt samleie fører til graviditet er 1/20. B kan ikke befrukte kvinnen hvis A allerede har gjort det.

Benytt følgende symboler: A: A befrukter kvinnen B: B befrukter kvinnen G: Kvinnen blir gravid Spørsmålene a), b), c) og d) skal løses under forutsetning av at det ennå ikke er kjent at kvinnen har blitt gravid. Finn: a) P(A’) b) P(B|A’) c) P(B) d) P (G) e) P (B | G)

f)

Svar på spørsmålet i teksten ovenfor.

Oppgave 5-6 HIV-risiko Det er vel alminnelig anerkjent at for å redusere risikoen for å bli smittet av HIV, bør man holde seg til én sexualpartner. Men hvor mye hjelper det? Tenk deg at du velger din partner tilfeldig fra en populasjon der én promille (0,001) er smittet. Sannsynligheten for smitteoverføring i ett samleie er 0,002. (Disse tallene tilsvarer omtrentlig en norsk virkelighet.) a)

Hva er sannsynligheten for å bli smittet gjennom to samleier, ett med en til­ feldig person, og ett med en annen?

b) Hva er sannsynligheten for å bli smittet gj ennom to samleier med én og samme person?

Oppgave 5-7 Eliza-testen Eliza-testen er en vanlig test for HIV. Den har en sensitivitet på 99 % (sannsyn­ lighet for å indikere HIV hos en smittet person) og en spesifisitet på 98 % (sannsyn­ lighet for ikke å indikere HIV hos en som ikke er smittet). Én promille av be­ folkningen er smittet. Anta at du er en person med gjennomsnittlig risiko, og at du har blitt testet med indikasjon på HIV. Hva er sannsynligheten for at du virkelig er smittet?

5 Sannsynlighetsregning

113

Svar på øvelse sannsynlighetsregning Vi definerer: T: testen indikerer at kortet er defekt D: Kortet er defekt Vi har fått oppgitt: P (D) = 0,1 P (T | D) = 0,8 P (T | D’) = 0,05

1)

Vi beregner: P (T) = P (T | D) P (D) + P (T | D’) P (D’) = 0,08 + 0,045 = 0,125

2) Bayes formel: P (D | T) = P (T | D) P (D) / P (T) = 0,8 X 0,1 / 0,125 = 0,64

Da må vi også ha: P (D’ | T) = 1 - P (D | T) = 0,36 Bayes formel: P (D | T’) = P (T’ | D) P (D) / P (T’) = 0,2 X 0,1 / 0,875 = 0,023

Da må vi også ha: P (D’ | T’) = 1 - P (D | T’) = 0,977 3) Fabrikken må bestemme seg for hva de skal gjøre med kortene, om de skal bearbeide dem først, montere dem først, eller teste dem, og hva de i så fall bør gjøre avhengige av utfallet av testen. Her må kostnader kombineres med sann­ synligheter for hvilken tilstand kortene er i. Siden sannsynlighetene endres av testen, må vi beregne disse ved hjelp av Bayes formel.

115

6 Sannsynlighetsfordelinger 6.1 6.2 6.3 6.4 6.5

Kombinatorikk Binomialfordelingen Den hypergeometriske fordeling Sammendrag Oppgaver

6.1 Kombinatorikk Statistiske undersøkelser går ofte ut på å foreta stikkprøver fra populasjoner. Vi trenger metoder som gjør at vi kan beregne sannsynligheten for ulike resultater. Dette er læren om kombinasjoner, eller kombinatorikk. Først en beroligende melding til deg som synes sannsynlighetsregning er kom­ plisert: Dette avsnittet har ikke noe å gjøre med sannsynlighet i det hele tatt og det kan faktisk forstås selv om du ikke har lest noe av boken hittil. Det betyr ikke nødvendigvis at avsnittet er lett. Tenk deg at du har en urne med N = 5 elementer:

Du trekker ut n — 2 elementer i blinde. Hvor mange ulike resultater kan du få? Vel dette spørsmålet er flertydig. Først må vi avklare hvordan utvalget tas, om vi for eksempel legger tilbake elementene igjen etterhvert som vi trekker dem. I så fall sies utvalget å være med tilbakelegning. Deretter må vi bestemme oss for hva som skal til for at to utvalg er ulike, dvs. om rekkefølgen elementene trekkes i skal spille noen rolle. Velger vi å registrere rekkefølgen elementene trekkes i, kalles utvalget ordnet.

116

Del

1 Metode

Ordnet utvalg med tilbakelegning Vi trekker n = 2 elementer fra en populasjon på N = 5. Det første elementet som trekkes kan være ett av fem. Det kan det andre også, fordi vi la tilbake det første. For hver mulighet vi har i første trekning, har vi 5 i andre. I de to trekningene har vi derfor til sammen 5X5 muligheter. Her er de: Tabell 6-1 Alle de mulige 5X5 kombinasjoner ved ordnet utvalg med tilbakelegningpå n = 2 fra en urne med N — 5 elementer

00 oo oo oo oo

oo oo oo oo oo

oo oo oo oo oo

oo oo oo oo oo

oo oo oo oo oo

Generaliserer vi, ser vi at antall muligheter er antall elementer ganget med seg selv like mange ganger som antall trekninger:

Ordnet utvalg med tilbakelegning Antall mulige kombinasjoner når n elementer trekkes fra en populasjon på N elementer: Formel 6-1:

Antall kombinasjoner = Nn

Eksempel-. Hvor mange muligheter har du når du fyller ut én rekke i en tippeku­ pong? Du har N = 3 elementer; H U og B. Fra disse skal du velge n = 12 elementer. Du kan selvsagt velge det samme tegnet flere ganger, så vi har tilbakelegning. Den første du velger er tippetegnet for kamp nr. 1, den andre for kamp nr. 2, osv. Da spiller rekkefølgen en rolle, og utvalget er ordnet. Svaret blir: Nn = 312 = 531 441

6 Sannsynlighetsfordelinger

117

Ordnet utvalg uten tilbakelegning Nå kan du ikke trekke det samme elementet to ganger. Du har stadig fem mulig­ heter første gang, men nå har du bare fire muligheter annen gang for da er det bare fire elementer igjen. Hadde du trukket en tredje gang, ville det bare vært tre mulig­ heter da. Her er alle mulighetene når du trekker to ganger:

Tabell 6-2 Alle de mulige 5X4 kombinasjoner ved ordnet utvalg uten tilbakelegning på n = 2 fra en urne med N — 5 elementer

ØO øo OO øo



00 oø 00

oø 00

oø ©0

OO øo øo

øo

oø 00 00 oø

Hvis vi generaliserer, ser vi at vi skal gange n tall med hverandre, et tall for hver trekning. Det første tallet skal være N, det neste N — 1, deretter N — 2, osv.:

Ordnet utvalg uten tilbakelegning Antall mulige kombinasjoner når n elementer trekkes fra en populasjon på N elementer: Formel 6-2:

PnN = N X (A — 1) X (N — 2)... i alt n ledd

Funksjonen PnN vil du blant annet kunne finne på lommekalkulatorer. I Excel bru­ ker du funksjonen PERMUT (A;m). Eksempel'. Du får 5 glass med vin og skal si hvilket glass som inneholder den dyreste og hvilket som inneholder den nest dyreste vinen. Du kan ikke si at ett og samme glass inneholder både den dyreste og den nest dyreste vinen. Altså har du ikke tilbakelegning. I hvilken rekkefølge du rangerer de to du velger ut, er imidlertid viktig. Altså er utvalget ordnet. Svaret blir: Pf = PERMUT (5;2) = 20.

118

Del 1 Metode

Permutasjoner Hvor mange mulige resultater kan du få hvis du tar et ordnet utvalg uten tilbakeleg­ ning på n — 5 fra en populasjon på N — 5? Da skal vi starte med 5 og ha fem ledd med: P/ = 5 X 4 X 3 X 2 X 1 = 120

Hva er egentlig dette? Tenk deg at oppgaven din ovenfor egentlig var å rangere fem viner etter pris. Da kunne du ta vinglassene ett for ett, og plassere dem i prisrekkefølge. Det finnes altså like mange rekkefølger som utvalg. En rekkefølge kaller vi en permutasjon. Hvis vi generaliserer, ser vi at n elementer kan ordnes som vist i formel 6-3:

Antall permutasjoner Antall mulige rekkefølger n elementer kan ordnes i: Formel 6-3:

n\ = PnN — n X (/? — 1) X (n — 2) X (n — 3) X ... X 1

Det uttrykket er så viktig at det har fått et eget symbol og navn, n! uttales «-fakultet. Uordnet utvalg uten tilbakelegning Hvis vi slutter å interessere oss for hvilken rekkefølge elementene trekkes i, koker alle ordnete utvalg som har de samme elementene, men i ulik rekkefølge, sammen til ett utvalg. Med andre ord vil de to ordnete mulighetene OO og øo være bare én uordnet mulighet. To elementer kan plasseres i 2! =2X1 = 2 rekkefølger. Altså må vi dividere det totale antall ordnete muligheter på 2! for å få antall uordnete muligheter.

Tabell 6-3 Alle de mulige 5 X 4/2 kombinasjoner ved uordnet utvalg på n = 2 uten tilbakelegning fra en urne med N = 5 elementer

OO

oo oo

oo oo oo

oo oo oo oo

6 Sannsynlighetsfordelinger

119

La oss igjen generalisere: n elementer kan ordnes i n\ rekkefølger. Vi må derfor dividere antall ordnete muligheter med n\ for å få antall uordnete muligheter:

Uordnete trekninger uten tilbakelegning Antall mulige kombinasjoner når n elementer trekkes fra en populasjon på N elementer: Formel 6-4: N\ _ PnN

VX(V-

1)X(V-2)X...X(V-z7 +

1)

n X (n - 1) X (n - 2) X ...X2 X 1 (N-n)\Xnl

Parentesen j er en vanlig skrivemåte. Den leses «N over n» og kalles en binomisk koeffisient. I Excel bruker du funksjonen COMBIN (7V;h) O

o

Et par nyttige observasjoner: A velge ut n elementer fra N er det samme som å bestemme hvilke N - n som skal ligge igjen. Altså må vi ha:

N N-n

Siden det er 1 måte å velge ut Velementer blant V på, må det derfor også være 1 måte å velge ut ingen elementer blant Npå (0! er definert som lik 1): IN\

(N\

w/ ~ M Antall måter å velge ut ett element fra Npå, er selvsagt lik V. La oss sjekke om dette stemmer med formelen:

(N\ _ \1/

N(A-l)Xl!

VX (V- 1) X (V- 2) X , .2 X 1 (A-1) X (V-2) X ,.X2 X 1 X 1

= N

Eksempel-. Pengespillet Lotto går ut på at man krysser av 7 tall i en rekke på 34 tall. Det er om å gj øre å treffe så mange som mulig av de 7 tallene som senere blir trukket ut som vinnertall. På hvor mange måter kan man velge ut 7 tall blant 34? Du kan ikke krysse av samme tall to ganger. Altså er det ikke tilbakelegning. Hvilken rek­ kefølge du krysser av tallene i, er irrelevant. Når kryssene står der, kan ingen se hvilket som ble satt først. Utvalget er uordnet. Svaret er derfor: 34\ _ 7/

34 X 33 X 32 X 31 X 30 X 29 X 28 7X6X5X4X3X2X1

= 5 379 616

120

Del 1 Metode

Dette er flere muligheter enn folk flest kan forestille seg og omtrent ti ganger flere enn i tipping! Du bør kunne beregne disse kombinasjonene for relativt små tall selv. Du kan kontrollere resultatene dine med tabell 1 bak i boken der Ngår opp til 44 og n opp til 10. Sannsynligh etsregn ing Nå skal vi trekke sannsynlighetsregning inn i bildet. Vi har gjennomgått tre typer utvalg og laget formler for antall mulige resultater. Hvis disse utvalgene er rent tilfeldige, kan vi med symmetri-resonnementer lett overbevise oss om at alle de mulige resultatene må være like sannsynlige. Tror du ikke det, kan du eksperimen­ tere litt og se om det virker rimelig. Når alle utvalgene er like sannsynlige, kan vi som før tenke oss at de er spredt ut i et mengdediagram og beregne sannsynligheten for å havne i spesielle undermengder som interesserer oss.

Sannsynlighet som antall gunstige på antall mulige Anta at det totalt er m like sannsynlige mulige utvalg. Av disse er det g (for gunstig) i den undermengden som interesserer oss. Da er sannsynligheten for et gunstig utvalg: Formel 6-5: P (gunstig utvalg) — g/m

Eksempel'. Vi får n — 5 barn. Barna kan være av N = 2 typer, Pike eller Gutt. Vi har tilbakelegning fordi vi kan få samme kjønn om igjen. Vi observerer rekkefølgen til barna. Utvalget er altså ordnet. Vi antar at hver gang er Gutt og Pike like sannsynlig (rent tilfeldig utvalg). Hva er sannsynligheten for nøyaktig tre Piker? Vi kan få Nn = 25 = 32 mulige utfall. Her er de:

Tabell 6-4 Antall mulige ordnete resultater med 5 barnefødsler, med en undermengde bestående av tre piker og to gutter

PPPPP PPPPG PPPGP PPPGG PPGGP PPGPG PPGPP PPGGG

PGPPP PGPPG PGPGP PGGPP PGPGG PGGPG PGGGP PGGGG

GPGPP GPPPG GPPGP GPPGG GPPPP GPGPG GPGGP GPGGG

GGPPP GGPPG GGPGP GGPGG GGGPP GGGPG GGGGP GGGGG

6 Sannsynlighetsfordelinger

121

Som du ser er arealet med nøyaktig tre piker 10/32. Sannsynligheten for å få tre jenter hvis du planlegger fem barn er altså 0,313. Fremgangsmåten med å skrive opp alle mulige utfall og så telle opp dem vi er interessert i, er oversiktlig og sikker, men umulig hvis antall kombinasjoner er stort. Da trenger vi formler. Ser du en annen måte å finne ut at 10 av de 32 utfallene gir tre jenter? Vi har N = 5 fødsler. På hvor mange måter kan vi velge ut de n — 3 fødslene som skal gi jenter? Dette er et uordnet utvalg uten tilbakelegning. Svaret må derfor bli: 5X4X3

3!

Uordnet utvalg med tilbakelegning Dette er den fjerde og siste av de fire utvalgstypene og den eneste vi ikke skal lage noen formel for. Grunnen er at i dette tilfellet er ikke alle kombinasjoner like sann­ synlige, selv om utvalget er rent tilfeldig. La oss igjen se på eksemplet med barne­ fødsler. I et uordnet utvalg registrerer vi bare hvor mange ganger vi trekker de ulike elementene, ikke hvilken rekkefølge de kommer i. Vi har derfor følgende mulige utfall:

Tabell 6-5 De mulige uordnete resultater ved 5 barnefødsler 0 1 2 3 4 5

1 2 3 4 5 6

gutter og 5 piker gutt og 4 piker gutter og 3 piker gutter og 2 piker gutter og 1 pike gutter og 0 piker

Sannsynlighet Sannsynlighet Sannsynlighet Sannsynlighet Sannsynlighet Sannsynlighet

= = = = = =

1/32 5/32 10/32 10/32 5/32 1/32

Du kan forsikre deg om at sannsynlighetene er riktige ved å telle opp undermengdene i det ordnete utfallsrommet i tabell 6-4, eller ved å beregne følgende størrelser:

5j o)

Pj

\2/

W

W

\5/

I virkeligheten er det litt mer sannsynlig å få gutt (0,51) enn jente. Da er ikke frem­ gangsmåten i dette avsnittet med å se på like sannsynlige utfall tilstrekkelig. Vi må bygge videre på det vi har lært her. Det bringer oss over til den viktige binomialfordelingen.

6.2 Binomialfordelingen Ordet binomial kommer fra gresk bi nomen - to navn, og henspiller på at vi studerer prosesser der hele tiden kun én av to ting kan skje. Betrakt populasjonen av stem­ meberettigete i Norge. Den er på omtrent 2,8 millioner personer. La oss si at 30 % av dem stemmer på Høyre (H) og 70 % på andre partier (A).

122

Del 1 Metode

Hvis vi tilfeldig trekker ut en person fra denne populasjonen, vil P (H) = 0,30 og P (A) = 0,70. Populasjonen er så stor at selv om vi trekker ut en tilfeldig person til, vil sannsynligheten for at vedkommende stemmer Høyre, for alle praktiske formål, fremdeles være 0,30, uansett hva den første personen stemmer på. Vi har altså tilnærmet uavhengighet mellom utfallet av første og annen trekning fordi popula­ sjonen kan regnes som «uendelig» stor i forhold til det antallet vi trekker - den blir ikke forandret ved at noen trekkes ut. Dette ser du klart hvis du tar tallene ovenfor bokstavelig. Da er det 0,3 X 2,8 mill = 840 000 høyrevelgere. Hvis den første du trekker er en høyre velger, er det 839 999 igjen, og sannsynligheten for at også den neste er en høyrevelger er 839 999/2 799 999 = 0,299 999 8 som for alle praktiske formål er lik 0,30. Vi regner således med uavhengighet og kan multiplisere sannsynligheter: P P P P

(første (første (første (første

H, H, A, A,

annenH) annenA) annenH) annenA)

= = — =

0,3 X 0,3 X 0,7 X 0,7 X

0,3 0,7 0,3 0,7

= = = =

0,09 0,21 0,21 0,49

Dette kan vi oppsummere med P (begge H) = 0,09 P(énH, énA) = 0,21+0,21 = 0,42 P (begge A) = 0,49 for en tilfeldig stikkprøve på to velgere. Oppstilt i tabell ser det slik ut:

Tabell 6-6 Sannsynligheten for antall høyrevelgere i et tilfeldig utvalg på n = 2 når p — P (H) = 0,3 hver gang Antall H

Sannsynlighet P

0

1

2

0,49

0,42

0,09

X = 1,00

Istedenfor tabellen kan vi lage en formel for n = 2 og p — 0,3. Sannsynligheten for nøyaktig a høyrevelgere i et tilfeldig utvalg på n = 2 når p = P (H) = 0,3 hver gang

Formel 6-6:

/2\

P(a) = ( ) X 0,3a X 0,72 ~ a \a /

a står for antall H, a = 0,1 eller 2. Sjekk denne formelen ved å sette inn verdier! Legg merke til at 2 — a står for antall A. Du skal snart få forklaring på formelen. Hvis du trekker ut tre velgere tilfeldig, slik at n = 3 og antall H i stikkprøven representeres med a, vil antall A i stikkprøven være n — a eller 3 — a. Sannsyn­ lighetene for de forskjellige resultatene er gitt ved formel 6-7:

123

6 Sannsynlighetsfordelinger

Sannsynligheten for nøyaktig a høyrevelgere i et tilfeldig utvalg på n = 3 når p = P (H) = 0,3 hver gang Formel 6-7:

P(a) = f3X 0,3" X 0,73 "a \a /

For eksempel vil da sannsynligheten for at akkurat én av de tre stemmer Høyre (a = 1) være: P(l) = (3j X 0,3' X 0,73 “1 = 3 X 0,3 X 0,49 = 0,441 Tabellen over sannsynligheter ser nå slik ut: Tabell 6-7 Sannsynligheten for antall høyrevelgere i et tilfeldig utvalg på n — 3 når p = P (H) = 0,3 hver gang Antall H

Sannsynlighet P

0

1

2

3

0,343

0,441

0,189

0,027

X = 1,00

Forklaring på formel 6-7 Formel 6-7 kan forklares ved hjelp av tabell 6-8 (eksempelvis betyr AHH «først en som stemmer på et annet parti, dernest to som stemmer Høyre»): Tabell 6-8 De mulige ordnete utfall og deres sannsynligheter når et tilfeldig utvalg på n = 3 trekkes ogp = P (H) = 0,3 hver gang P (AAA) = P (AAH) = P (AHA) = P (AHH) = P (HAA) = P (HAH) = P (HHA) = P (HHH) =

0,7 X 0,7 X 0,7 = 0,73 = 0,7 X 0,7 X 0,3 = 0,72 X 0,3 0,7 X 0,3 X 0,7 = 0.72 X 0,3 0,7 X 0,3 X 0,3 = 0,7 X 0,32 0,3 X 0,7 X 0,7 = 0,72 X 0,3 0,3 X 0,7 X 0,3 = 0,7 X 0.32 0.3 X 0,3 X 0,7 = 0,7 X 0,32 0,3 X 0,3 X 0,3 = 0,33 =

= = = = = =

0,343 0,147 0,147 0,063 0,147 0,063 0,063 0,027 X = 1,00

Vi ser at P(lHog2A) = P(AAH)+P(AHA)+P(HAA) = 0,147 + 0,147 + 0,147 = 3 X 0,147 = 0,441

slik vi fant ovenfor. Det viktige her er 3-tallet. Det tilsvarer (j ^-leddet i formel 6-6 og representerer antall måter vi blant de n = 3 trekningene kan velge ut den ene trekningen som skal gi H som resultat. Hvis vi i stedet hadde trukket ut n — 8 stemmeberettigete, finner vi ved hjelp av samme resonnement at sannsynligheten for å finne to H-er er

124

Del 1 Metode

P(a = 2) =

X 0,32 X 0,78"2

Å få nøyaktig denne rekkefølgen: AHAAAHAA har en sannsynlighet på 0,32 X 0,76 og det må ganges med de (§j måter å velge ut de to plassene blant de åtte der de

to H-ene skal stå. Øvelse'. Anta at 30 % av alle stemmeberettigete vil stemme Høyre. Vis at en tilfeldig stikkprøve på n = 4 har en sannsynlighet på 0,075 6 for å inneholde nøyak­ tig tre H-er. Fyll ut tabellen: 0

Antall H

Sannsynlighet P

1

2

3

4

0,0756

Den regneregelen du bruker for å få 0,3a O,7'2 “ a er egentlig multiplikasjonsregelen for uavhengige hendelser. Du antar at sannsynligheten for hva f.eks. den ijerde velgeren som blir intervjuet vil stemme på, er uavhengig av hva de tre foregående

har svart. Faktoren Q j er rett og slett antall disjunkte utfall hvis sannsynligheter kan legges sammen for å finne den søkte sannsynlighet. Utfallene AHA og HAA for eksempel, er disjunkte - de utelukker hverandre, men begge inneholder én H og to A-er. Alt det vi har illustrert ved å ta for oss høyrevelgere og andre, gjelder selvsagt i alle tilfeller der vi har n uavhengige forsøk med kun to utfall. Her brukte vi H og A, men mer generelt snakker vi gjeme om vellykkete og mislykkete utfall, eller JA og NEI-utfall. Du kan jo selv velge hva som passer best her. Ved en løpende kvalitets­ kontroll vil for eksempel en vare som holder mål representere et JA. I motsatt fall er det et NEI. Binotnialfordelingen Vi har en stor populasjon der en andelp er vellykkete og resten 1 — p er mislykkete. Vi tar en tilfeldig stikkprøve på n. Da vil sannsynligheten for at stikkprøven inne­ holder a vellykkete og n — a mislykkete kunne beregnes med formel 6-8:

Binomialfordelingen Sannsynligheten for å få nøyaktig a vellykkete utfall i en serie på n identiske og uavhengige forsøk der sannsynligheten for at et tilfeldig forsøk skal bli vellykket er p Formel 6-8:

P (d) —

pa(l -p/~a

125

6 Sannsynlighetsfordelinger

Selv om formel 6-8 kan se komplisert ut, er den faktisk meget lett å forstå. pa er sannsynligheten for a vellykkete, og (1 — pf ~ a sannsynligheten for at resten er mislykkete. pa(\ — p)n~ a er sannsynligheten for en helt bestemt serie på a vel­ lykkete og resten mislykkete, for eksempel de a første vellykkete og resten mis­ lykkete. Den binomiske koeffisienten gir rett og slett hvor mange slike serier som finnes! Eksempel'. Hvis 10 %av en stor populasjon er arbeidsløs, hva er sannsynligheten for å finne nøyaktig 3 arbeidsløse i en stikkprøve på 6? Løsning', n = 6 p — 0,1 P(ø = 3) = ^O,l3O,93 = 0,01458

Kumulative sannsynligheter Tenk deg at 20 % av alle kandidater i hele landet vil bestå en ferdighetstest: p = 0,2 og 1 — p — 0,8.

Sannsynligheten for at nøyaktig a av 6 tilfeldig utvalgte vil bestå er:

P(«) = f6K2"0,86-a \a} Sannsynligheten for at 4 består er derfor: P(a) = Q 0,240,82 = 0,0154

Ved å sette inn ulike verdier av a i formelen, kan vi lage en sannsynlighetstabell som vist i tabell 6-9. Der har vi også beregnet sannsynlighetene for «minst» og «høyst» a:

Tabell 6-9 En sannsynlighetsfordeling: Punkts annsynligheter og kumulative sannsynligheter for en binomiskprosess med p = 0,2 og n — 6 a

P(P P (høyst a) P (minst a)

0

1

2

3

4

5

6

0,262 0,262 1

0,393 0,655 0,738

0,246 0,901 0,345

0,082 0,983 0,099

0,015 0,998 0,017

0,002 1 0,002

0,000 1 0

Den første raden er sannsynligheter for at nøyaktig a vil bestå, beregnet med for­ melen ovenfor. Disse kaller vi punktsannsynligheter. Ut fra dette kan vi beregne sannsynligheten for at for eksempel høyst to vil bestå. «Høyst to» betyr to eller færre. Altså:

P (høyst 2) = P(0) + P(l) + F (2) = 0,262 + 0,393 + 0,246 = 0,901

126

Del 1 Metode

Hva er så sannsynligheten for at minst 4 vil bestå? Minst 4 betyr 4 eller flere, dvs. 4, 5 eller 6. Derfor:

P (minst 4) = P (4) + P (5) + P (6) = 0,015 + 0,02 + 0,000 = 0,017

Disse sannsynlighetene kalles kumulative sannsynligheter. Kumulativt betyr «oppsamlet». Hvis vi holder oss ute i en av endene av fordelingen, kan de også kalles halesannsynligheter. Man skiller mellom høyrehaler og venstrehaler. P (høyst 2) er en venstrehalesannsynlighet, og P (minst 4) det motsatte. Beregning av binomiske sannsynligheter Du finner en tabell over binomialfordelingen bak i boken (tabell 2), men slike tabel­ ler kan ikke vise alt. Det er lettere å bruke regnearkformler. Følgende Excel-funksjon beregner P (2) hvis n = 6 og p = 0,2: BINOMDIST (2;6;0,2;0)

Erstatter du den siste nullen i Excel-funksjonen med et ettall, får du P (høyst a) istedenfor. Statark vindu 1-7 beregner også binomiske sannsynligheter, og gir deg grafer over fordelingen. Her kan du regne ut binomiske sannsynligheter for alle verdier av p og n du ønsker. Du får automatisk ut to tabeller, en som beregner sannsynligheten for nøyaktig a vellykkede og en høyst a vellykkede. Graf 6-1 viser en graf produsert med Statark.

Binomiske sannsynligheter

Antall vellykkede forsøk

Graf 6-1: Binomialfordelingen for n — 30 ogp = 0,2

6 Sannsynlighetsfordelinger

127

6.3 Den hypergeometriske fordeling Den hypergeometriske fordeling er aktuell når du foretar et utvalg fra en popula­ sjon med N elementer av to ulike typer, for eksempel Riktige og Gale, og vil be­ regne sannsynligheten for hvor mange riktige du får. Det best kjente tilfellet er kanskje Lotto. Tenk deg at du har kjøpt en Lottokupong og skal fylle ut en rekke. En kupong består av 34 tall. Du skal gjette på hvilke 7 av disse 34 tallene som vil bli trukket ut som såkalte vinnertall. Du skal med andre ord krysse av n = 7 av de TV = 34 tallene i kupongen, i håp om at du treffer de A = 7 vinnertallene. Hvor store sjanser har du? Dette spørsmålet er faktisk ganske enkelt med de kunnskapene du allerede har fra kombinatorikken. Når du velger 7 tall for avkrysning, foretar du et uordnet utvalg uten tilbakelegging. Det er uordnet fordi ingen bryr seg om hvilket tall du krysser av først, som nummer to, osv. Det er ikke tilbakelegging fordi du ikke kan krysse av samme tall to ganger. Da vet du at antall mulige måter å velge ut de n = 7 tallene blant de N = 34 er: m =

/N\ /34\ = n = COMBIN(34;7) = 5 379 616 \n/ \ 7/

Bare én av dem kan være riktig. Antall gunstige utvalg er altså g = 1. Sannsyn­ ligheten for å få sy v rette er dermed g/m = 1/5379616 = 0,00000018589. Dette er et ganske lite tall. Kanskje vi skal være litt mindre ambisiøse og heller regne ut sannsynligheten for å få 6 riktige tall. Du krysser stadig av n = 7 tall, slik at antall mulige måter å velge disse tallene på er uforandret, men flere av disse vil nå være gunstige for å få 6 riktige. Du må velge dine a = 6 riktige blant Lottos i alt A = 7 riktige tall. Det kan gjøres på:

\a

=

/7\ , = 7 mater. \ 6/

Samtidig må det siste tallet ditt velges blant Lottos 27 gale tall. Det kan gjøres på:

= 27 måter Sannsynligheten for å få 6 rette blir dermed:

7 X 27

5379616

= 0,00003513262

Hermed har vi resonnert oss frem til den hypergeometriske fordelingen.

128

Del

1 Metode

Den hypergeometriske sannsynlighetsfordeling n elementer trekkes uordnet og uten tilbakelegning fra en populasjon med N elementer hvorav^ er Riktige og resten Gale. Sannsynligheten for å få nøy­ aktig a Riktige i utvalget er: Formel 6-9:

= HYPGEOMDIST(a;M;A0

Formel 6-9 er i alminnelighet krevende å regne med. Vi har derfor lagt til den tilsvarende Excel-funksjonen som uten videre vil gi deg svaret, hvis du først greier å finne ut hva a, n, A ogN skal være. Imidlertid kan man lett bli litt forvirret av å prøve på det, og én grunn er at det som regel finnes to naturlige måter å gå frem på som begge er riktige. La oss se litt mer på dette. Tenk deg at du krysser av 9 tall på en Lottokupong og vil beregne sannsyn­ ligheten for å få 6 rette. Da har du: -

Populasjonens størrelse, kupongtallene: N = 34 Antall riktige elementer, Lottovinnertallene: A = 7 Utvalgets størrelse, antallet du krysset av: n = 9 Det antall riktige i utvalget, som du vil beregne sannsynligheten for: a — 6

P(6) =

34 \ 9/

I virkeligheten skjer jo imidlertid trekningene av de riktige Lottotallene etter at du har sendt inn dine 9 kryss. Det er derfor vel så naturlig å si at:

-

Polulasjonens størrelse, Lottotallene: N — 34 Antall riktige elementer, dine avkryssede tall: A — 9 Utvalgets størrelse, antall Lottotall som blir trukket: n = 7 Det antall riktige i utvalget, som du vil beregne sannsynligheten for: a = 6

6 Sannsynlighetsfordelinger

129

Hvis du regner ut de to sannsynlighetene, vil du heldigvis finne at de gir samme svar. Det spiller altså ingen rolle hva du ser på som henholdsvis utvalget og de riktige, men du må være konsekvent. En måte å sjekke konsekvens på er å forsikre deg om at de horisontale summene av tallene i telleren alltid skal være like de tilsvarende posisjonene i nevneren. 1 den første formelen ser du at 7 + 27 = 34 og at 6 + 3 = 9, i den andre ser du at 9 + 25 = 34 og at 6 + 1 = 7. Hvis ikke dette stemmer, har du gjort noe galt.

6.4 Sammendrag Det finnes fire typer utvalg. Antall mulige kombinasjoner er vist i tabell 6-10.

Tabell 6-10 Antall mulige kombinasjoner i de fire typer utvalg der n elementer trekkes fra en populasjon på N elementer Type utvalg

Med tilbakelegning

Uten tilbakelegning

Ordnet

Nn

PnN = N X (V - 1) X (N - 2)... i alt n ledd Excel: PERMUT (N;n)

Uordnet

Uinteressant

CN= R = N\«/ (N — n)\Xn\ Excel: COMBIN (N;n)

Uordnete utvalg med tilbakelegning har ikke like sannsynlige resultater, og antallet er derfor uinteressant. Ordnete utvalg uten tilbakelegning er uten sammenligning den viktigste og vanligste form for utvalg. En sannsynlighetsfordeling er en liste eller funksjon med sannsynligheter for de mulige resultater av en bestemt type observasjon. Vi skiller mellom punktsannsynligheter (sannsynlighet for nøyaktig lik) og kumulative sannsynligheter (sannsynlighet for minst lik). Summen av punktsannsynlighetene i en sannsynlighetsfordeling er 1,00. Binomialfordelingen'. Sannsynligheten for å få nøyaktig a vellykkete utfall i en serie på n identiske og uavhengige forsøk der sannsynligheten for at et tilfeldig forsøk skal bli vellykket er p:

\ a

//'(! -pf~a = BINOMDIST (tz;/7;/?;0)

130

Del 1 Metode

Den hypergeometriske sannsynlighetsfordeling: n elementer trekkes uordnet og uten tilbakelegning fra en populasjon med N elementer hvorav A er Riktige og resten Gale. Sannsynligheten for å få nøyaktig a Riktige i utvalget er:

P(a) =

I

I

I

---- \^-a)

= HYpGEOMDIST(a;H^;A9

/2V\

\n/

6.5 Oppgaver Øvelse Urneoppgave (Svar etter oppgave 6-3) I en urne er det 10 nummererte kuler, hvorav 6 er blå og 4 er røde.

a)

Du trekker 3 kuler med tilbakelegging. Hva er sannsynligheten for at du først trekker nr. 6, så nr. 8 og så nr. 2?

b) Du trekker 3 kuler uten tilbakelegging. Hva er sannsynligheten for at du først trekker nr. 6, så nr. 8 og så nr. 2? c)

Du trekker 3 kuler uten tilbakelegging. Hva er sannsynligheten for at du trek­ ker nr. 6, nr. 8 og nr. 2?

d)

Du trekker 3 kuler uten tilbakelegging. Hva er sannsynligheten for at du trek­ ker nøyaktig to blå?

e)

Du trekker 3 kuler med tilbakelegging. Hva er sannsynligheten for at du trek­ ker nøyaktig to blå?

Oppgave 6-1 Hjernegymnastikk Det er 7 personer i en heis på vei oppover med 7 etasjer igjen. Hver person velger tilfeldig og uavhengig av de andre hvor han vil gå ut. Beregn sannsynligheten for at de går ut i hver sin etasje. (Finner du oppgaven vanskelig, start med å tenke på to personer og to etasjer!)

6 Sannsynlighetsfordelinger

131

Oppgave 6-2 V5 Pengespillet rikstoto V5 går ut på å tippe riktige vinnere i 5 på forhånd bestemte trav eller galoppløp. De fem løpene er markert med hver sin søyle som er delt inn i 15 nummererte ruter. Et nummer i hver rute tilsvarer en bestemt hest i programmet. Vinner(e) markeres med x i de respektive løp. Se V-5 kupongen nedenfor.

lill I Hill lllllll I I I I I i I I I I I I HB Systemet velger reservehester for hester som er strøket.

Fyll ut allerøde^eltf

Beløp pr. rekke

V5 avd 1

V5 avd 2

V5 avd 3

UH

12 3 4

1 ? 8 «

? I 7 8

5 6 7 j

H 7 8

9 10 ijl 12

9 10 11 12

9 10 11 12

I\]a fl ON TO FR LØ SØ

13 14 15 Alle

13 14 15 Alle

13 14 15 Alle

Bane

V5 avd 4

V5 avd 5

12 3 4

12 n

5 j 7 8

51 ? j

9 10 ijl 12

110 4112

13 14 15 AUe

1^3 14 15 fille

e Denne bongen gjelder ikke som kvittering. *' Kvittering trykkes på egen bong som må tas vare på.

®

| 2 5 10 2 0 50 100

Ukedag

j 0 D J

K ST F

BT L Bl M LI L2 L3 L4 Markér ett beløp, én ukedag og én bane. Antall I rekker

Beløp pr.rekke

I Innj sats

1W* 1 Se baksiden for mer informasjon, gtrålfors 212B/ID27/50877

Anta du fyller ut en kupong med ett tilfeldig kryss for hvert løp. a)

Hva er sannsynligheten for å tippe 5 vinnere?

b) Hva er sannsynligheten for å få 4 vinnere? Anta at hvert av de tre første løpene fylles ut tilfeldig med 2 kryss, og hvert av de to siste løpene fylles ut tilfeldig med 7 kryss.

c)

Hva er sannsynligheten for å tippe 5 vinnere?

d) Hva er sannsynligheten for å tippe 4 vinnere?

e)

Ovenfor fylte du ut i alt 20 kryss. Har du større sannsynlighet for å tippe 5 vinnere dersom du isteden fyller ut 4 kryss tilfeldig for hvert løp? Begrunn svaret.

Oppgave 6-3 Lotto Spillet er så enkelt at alle som kan telle kan være med. Kunnskaper og spekulasjo­ ner gir ingen fordeler - her gjelder det kun å være heldig. T al 1 spil let Lotto foregår med utgangspunkt i en kupong som består av 10 tallrekker. Hver rekke består av 34 tall. Den som deltar i spillet, krysser av syv tall i hver av de rekkene vedkommende ønsker å fylle ut. Ved trekningen kommer man frem til de syv vinnertallene i den aktuelle spilleomgangen. Det blir fem premieklasser. De som har alle syv tallene riktige, får 1. premie og den høyeste gevinsten, seks riktige gir 2. premie osv. helt

132

Del

1 Metode

ned til tre riktige tall som gir 5. premie. 1 denne oppgaven skal du blant annet foreta visse sammenligninger mellom Lotto og den tradisjonelle fotballtippingen. Under sistnevnte kan du gå ut i fra at i hver av de 12 kampene er hvert av de 3 utfallene Hjemmeseier, Uavgjort og Borteseier like sannsynlig.

a)

Anta at du fyller ut en rekke tilfeldig på en tippekupong. Hva er sannsynlig­ heten for å få 12 riktige?

b) Anta at du fyller ut en rekke tilfeldig i Lotto (velger 7 av de 34 tall). Hva er sannsynlighetene for å få henholdsvis 7, 6, 5, 4 og 3 rette?

c)

I Lotto kan du på samme kupong også «gardere» ved for eksempel å krysse av for 8 tall av de 34. Vis at du får den samme sannsynligheten for 7 rette, enten regner utvalget for de 8 kryssede, eller de 7 vinnertallene.

d)

Du kan gardere med 8, 9,10,11 eller 12 kryss. Dette koster henholdsvis 8,36, 120, 330 og 792 kroner. Vis hvordan disse prisene fremkommer.

e)

I tillegg til de 7 vinnertallene, trekkes det også to tilleggstall. Du har krysset av ved 10 tall. Hva er sannsynligheten for å få nøyaktig 6 vinnertall, og ett til­ leggstall?

f)

I Vikinglotto er det 6 vinnertall av i alt 40. En rekke består av 6 kryss. Hva er sannsynligheten for 6 rette?

Svar på øvelse Urneoppgave I en urne er det 10 nummererte kuler, hvorav 6 er blå og 4 er røde. a)

Ordnet utvalg med tilbakelegging. N = 10, n = 3. Ett gunstig utfall. Svar: 1/Nn = 1/103 = 1/1000.

b) Ordnet utvalg uten tilbakelegging. N = 10, n = 3. Ett gunstig utfall. Svar: \/PNn = 1/10 X 9 X 8 = 1/720. c)

Uordnet utvalg uten tilbakelegging. N = 10, n = 3. Ett gunstig utfall. Svar: \/CNn = 7! X 31/10! = 1/120.

d) Hypergeometrisk: N = 10, n = 3, A = 6, a = 2,

nx n P(2) =

/10\

= 15X4/120 = 0,5 —

\3/ e)

Binomisk, n = 3,p = 0,6, a = 2 P(2) -

-3,0) P 0,5? I kapittel 6 hadde vi det motsatte problemet. Vi visste hvap var og skulle finne sannsynligheten for å få a JA-er blant n observasjoner. Da gjelder binomialfordelingen. Den fordelingen er imidlertid ganske komplisert å bruke til statistisk in­ ferens, men se på graf 8-3 igjen! Den viser binomialfordelingen brukt i forbindelse med fortegnstesten. Se hvordan den ligner på normalfordelingen. Dette er ikke overraskende, for ifølge sentral gren seteoremet er jo en sum av mange tilfeldigheter normalfordelt. Det skal vi benytte oss av i dette kapitlet. Normalfordelingstilnærmelsen Vi benytter oss igjen av blindvariabelen x fra avsnitt 9-1 og 9-2. La x = 1 hvis moren holder barnet på høyre arm (JA), og x = 0 hvis hun holder den på venstre (NEI). I et tilfeldig utvalg på n = 32 mødre er da Xx antall mødre som holdt barnet på høyre arm. Med andre ord har vi:

Xx = a

n

a n

M = P

242

Del

2 Parametrisk

statistikk

P- er gjennomsnittsverdien til x-ene i populasjonen og må være lik populasjonsandelen p. På denne måten har vi fått redusert problemet til estimering eller testing av et populasjonsgjennomsnitt. Vi vet på grunn av sentralgrenseteoremet at fordelingen til x er tilnærmet normalfordelt når bare n er stor nok. Vi kan derfor foreta hypotese­ prøving og lage konfidensintervall som vi gjorde i kapittel 10. Siden dette er et spesialtilfelle, kan vi i tillegg benytte oss av at variansen til blindvariabelen er a2 = p (1 - /?), slik vi tidligere har vist. Vi kan derfor lage en standardisert variabel på vanlig måte:

Normaltilnærmelsen for en dikotom variabel a vellykkete ut av n forsøk der sannsynligheten erp for at et tilfeldig forsøk er vellykket, z er standard normalfordelt:

Formel 11 1 ■

a ------ p n

z — ------ — a

Fli zp! ^Tn

n

a ------ P n 1 p(l ~p) \

n

Dette gir muligheten til å utføre hypoteseprøving og å beregne konfidensintervall akkurat som vi gjorde i kapittel 10.

Hypoteseprøving Testmetode

z-testen for én andel

Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi

n observasjoner av en dikotom variabel x, a er vellykkete Ho: P= Po H1:/?>/2o 2a a a Finn za i tabell 5b

Testobservator

a ------ Po n __________ A)0 -Po)

z— I

Konklusjon

n

Forkast Ho hvis | z | > za

Forkast Ho hvis z < —za

Forkast Ho hvis z > + za

11 Kategoriske

Eksempel: Salks kjevhendte mødre Testmetode: Data: Nullhypotese: Alternativ: Signifikansnivå: Kritisk verdi:

Testobservator:

Konklusjon:

variabler og normaltilnærmelsen

243

z-testen for én andel Av n = 32 kjevhendte mødre holdt a = 25 ungen på venstre arm P (ungen på venstre arm) = p = 0,5 p > 0,5 a= 5% za = 1,645 ifølge tabell 5 b

— - 0,5 32 _ z= , ■ —= 3,18 0,5 X (l - 0,5) N 32 Nullhypotesen forkastes siden z > za Kjevhendte mødre favoriserer venstre arm

Det kan altså ikke skyldes tilfeldigheter at så mange som 25 av de 32 mødrene holdt ungen på venstre arm. Signifikanssannsynligheten er faktisk så liten som 0,00074 ifølge tabell 5 a. Det er overbevisende! Konfidensintervall for p Hvis du skal lage et konfidensintervall forp, har du ingen verdi forp du kan sette inn i uttrykket for variansen cr2 — p (1 — p) i formelen til z. I stedet må du da sette inn et estimat ved å erstatte populasjonsandelenp med stikkprøveandelen a/n. I reali­ teten bruker vi akkurat samme fremgangsmåte som i forrige kapittel med konfi­ densintervall for ett gjennomsnitt:

Tosidig 1 - 2a konfidensintervall forp ved hjelp av normal­ tilnærmelsen

, _ Formel 11-2:

I — x 0 - —j

a \ n \ n p = — ± za \ ---------------------n ’ n

Legg merke til at vi bruker normalfordelingstabellen, altså ikke Studenttabellen som vi normalt skal gjøre når vi har estimert variansen.

244

Del

2 Parametrisk statistikk

Eksempel: Salks venstrehendte mødre Med n = 32 og a — 25 og med 1 — 2 X (1 ~p) n

Hvis vi løser dette med hensyn på n, får vi:

Stikkprøvens størrelse Ønsket konfidensintervallvidde = 2L Konfidensnivå = 1 — 2 a:

Formel 11-3:

za2 X p X (1 — p) n — ————-----------

Problemet med formel 11-3 er selvfølgelig at du ikke vet hvor stor p er. For å være på den sikre siden, kan du sette inn det mest pessimistiske anslaget: p = 0,5. Hvis du i tillegg ønsker et 95 % konfidensintervall, erza = 1,96 ~ 2,00. Dermed har vi den enkle formelen: n = l/£2. Med Å = 0,1 blir n = 100. Med £ = 0,05 blir n = 400, osv. Presisjon blir fort kostbart!

246

Del

2 Parametrisk

statistikk

Blindvariabler, andeler og binomisk fordelte variabler Begrepene blindvariabler, andeler og binomisk fordelte variabler henger sammen og er likevel forskjellige. Derfor er det lett å bli forvirret. Nøkkelen er å forstå hva vi velger som observator. La oss først definere et grunneksperimenf. Ett tall trekkes fra en populasjon med ettall og nuller der andelen av ettall erp. Resultatet av et grunneksperiment er derfor enten 1 eller 0. Dette er de mulige verdiene til en blindvariabel. Gjentas grunneksperimentet mange ganger, får vi et inntrykk av hvor mye verdiene til blindvariabelen varierer. Erp nær null, får vi stort sett nuller, og derfor liten variasjon. Er p nær 1, får vi stort sett ettall, og likeledes liten variasjon. Variansen til blindvariabelen som observator er p (1 - /?). Gjentas grunneksperimentet n ganger, og vi beregner andelen av ettall, a/n, får vi et tall mellom 1 og 0. Dette kaller vi en stikkprøve på n. Tar vi en stikkprøve på n mange ganger, får vi en serie med andeler, for eksempel 0,2; 0,33; 0,1; 0,5;.. osv.. Vi får størst variasjon hvisp er nær 0,5. Variansen til andelen a/n som observator er: p (1 - p)/n. Hvis vi i en stikkprøve på n velger å telle antall ettall a, istedenfor å beregne andelen, vil resultatet bli et tall mellom 0 og n. Gjør vi dette mange ganger for å få et inntrykk av hvor mye resultatet varierer, får vi en serie med tall: 5; 2; 10; 7;.. osv. a er en binomisk fordelt variabel og dens varians er: np (1 - p).

11.2 To andeler I avsnitt 8.5 gikk vi gjennom Fishers test for forskjell mellom to andeler, der vi benyttet den hypergeometriske fordelingen. Her skal vi presentere en alternativ metode som bygger på normaltilnærmelsen og som kan benyttes ved store stikk­ prøver når den hypergeometriske fordelingen blir nokså umulig å regne på. Nor­ maltilnærmelsen gir dessuten konfidensintervall for differansen. Datagrunnlaget er den samme 2 X 2-tabell som vi brukte i Fishertesten: Tabell 11-1 Datagrunnlaget for normaltilnærmelsen til to andeler

JA NEI

Stikkprøve 1

Stikkprøve 2

ai bi

a2 b2

A B

«i

«2

N

11 Kategoriske

variabler og normaltilnærmelsen

247

Vi har i forrige avsnitt sett at en andel a/n kan betraktes som et gjennomsnitt slik at vi kan anvende sentralgrenseteoremet. I forrige kapittel så vi at variansen til en differanse mellom to uavhengige stikkprøvegjennomsnitt er summen av variansene til hvert gjennomsnitt. Dette kan vi direkte overføre til to andeler. Fra formel 10-6 kan vi utlede:

z-observatoren for differanse mellom to andeler z er tilnærmet standard normalfordelt:

Formel 11-4:

z

a2 ----------------- (px-p2) nx n2______________ P1(1

~Pi)

«i

+ P2U

-Pz) n2

Formel 11 -4 kan vi bruke både til å foreta hypoteseprøving og å lage konfidensinter­ vall. Vi må imidlertid foreta noen justeringer på grunn av det vanlige problemet med at de ukjente parametrene inngår i standardavviket. Ved hypoteseprøving vil nullhypotesen gå ut på at de to populasjonsandelene er like. Da erstatter vi bådep} ogp2 med felles-estimatet A/N. Ved konfidensintervall erstatter vi dem med hen­ holdsvis a}/n} og a2/n2.

1 — 2a tosidig konfidensintervall for p} — p2 Formel 11-5:

P\ ~P2 =

248

Del

2 Parametrisk

statistikk

Hypoteseprøving Testmetode

z-testen for differanse mellom to andeler

Data

Stikkprøve 1: a} JA-er i nx trekninger fra populasjon 1 Stikkprøve 2: a2 JA-er i «2 trekninger fra populasjon 2 Se tabell 11-1 H0:pi = Pi ^\'P\^Pi Hpp, Pi 2a a a za i tabell 5b

Nullhypotese Alternativ Signifikansnivå Kritisk verdi

a\ _ a2

_____________ n\

Testobservator

' Konklusjon

N)

A \

1

n2_____________

— fl-— A \ N)

«1

«2

Forkast Ho hvis z < ~za

Forkast Ho hvis | z | > za

Forkast Ho hvis z > +za

Igjen er det viktig at du verdsetter den enkle, elegante og naturlige formen til testobservatoren! Skal vi finne ut om det er forskjell på to populasjonsandeler, er det selvsagt relevant å se på differansen mellom stikkprøveandelene, men det er like selvsagt at denne differansen må sees i forhold til hvilke tilfeldige utslag vi kan vente oss. Derfor må vi dividere med estimatet for standardavviket til differansen under forutsetning om at nullhypotesen er riktig.

Eksempel: Røyker jenter mer enn gutter? I kapittel 8 presenterte vi følgende data fra en spørreundersøkelse blant siviløko­ nomstudenter: Tabell 11-2 Røyking og kjønn hos 185 tilfeldige siviløkonomstudenter Stikkprøve 1 jenter

Stikkprøve 2 gutter

Røyker? JA

«i 17

«2 21

A 38

Røyker? NEI

49

bi 98

B 147

«i 66

«2

119

N 185

Er røykeandelen hos jenter signifikant høyere enn den hos gutter?

11 Kategoriske

Testmetode Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi

249

z-testen for differanse mellom to andeler Se tabell 11-2 H0:a = p2 Hf/h >P2 a = 0,05 za = 1,645 66

Testobservator

Konklusjon

variabler og normaltilnærmelsen

119

38 / 38 \ 38 / 38\ A 185 I, 185 ) 185 \ 185 ) \ ------------------------- ± ------------------------I 66 119 ±X = 1,31 0,062

Ho kan ikke forkastes fordi z < za. Ifølge tabell 5 a er signifikanssannsynligheten lik 0,095.

I oppgave 8-9 ble du bedt om å utføre Fishertesten på de samme dataene. Da ble signifikanssannsynligheten lik 0,135 som er den korrekte verdien. 0,095 er bare en tilnærmelse, og altså ikke en særlig god sådan i dette tilfellet (selv om konklusjonen på testen blir den samme), z-testen for differanse mellom to andeler er en test som anvendes meget ofte i praksis, men det er all grunn til å være forsiktig og heller anvende Fishers eksakte test når det er mulig! Et 95 % konfidensintervall for p} — p2 blir ifølge formel 11-5:

= 0,081 ±0,126

Du vil sikkert også denne gang ha bemerket at det ikke er lett å regne riktig med disse kompliserte formlene. Statark II, vindu 8 foretar all regningen for deg samti­ dig som det holder orden. Se arbeidsheftet.

11.3 Kontingenstabeller Kontingent er et annet ord for andel. Uttrykket brukes når vi sorterer observasjoner i kategorier. Hittil har vi bare operert med to kategorier: «JA» og «NEI». Det er ofte aktuelt med mer enn to kategorier i våre fagområder. Derfor er det av stor praktisk verdi også å kunne analysere tabeller som er større enn 2X2 ved hjelp av statistiske metoder.

250

Del 2 Parametrisk

statistikk

2 X 2-tabeller La oss igjen se på eksemplet i avsnitt 11.3 der vi undersøkte om det var signifikant forskjell på andelene av gutter og jenter som røykte. Det var 66 jenter og 119 gutter i stikkprøven, til sammen 185. Av dem var det 38 som røykte. Disse fordelte seg med 17 og 21 på henholdsvis jenter og gutter. Hvordan ville du vente at røykerne skulle fordele seg, hvis røyke-andelene i populasjonene som stikkprøvene var hentet fra er like? Da burde selvsagt de 38 røykerne fordele seg proporsjonalt med andelene av jenter og gutter i stikkprøven. Med andre ord ville vi vente å observere A X njN = 38 X 66/185 = 13,6 jenter som røyker. Siden vi observerte 21, ligger altså jentene noe i overkant. På denne måten kan vi lage en tabell over hva vi ville vente oss hvis nullhypotesen om ingen forskjell var riktig:

Tabell 11-3 Observerte data sammenlignet med det vi forventet hvis jenter og gutter har like stor røyketilbøyelighet Observert (O) Jenter Gutter

Forventet (E) Jenter Gutter

Sum

Røyker? JA

ax 17

«2 21

A X njN 13,6

A X njN 24,4

A 38

Røyker? NEI

bi 49

A 98

52,4

94,6

B 147

«1 66

«2 119

«1 66

«2 119

N 185

Hvis du nå husker tilbake til kapittel 5, har vi rett og slett laget en multiplikasjons­ tabell for de forventede tallene. En multiplikasjonstabell er knyttet til begrepet uav­ hengighet. Røyking er nå antatt å være uavhengig av kjønn, og omvendt. Null­ hypotesen vår ompx = p2 er altså en hypotese om at det ikke er noen sammenheng mellom kjønn og røyking. Vi vet vi kan teste Ho både ved hjelp av Fishers eksakte test og normaltilnærmelsen for to andeler. Finnes det noen annen metode som også kan benyttes ved tabel­ ler som er større enn 2 X 2? Jo større forskjell det er på forventede og observerte tall, jo dårligere ligger nullhypotesen an. Kvadrerer vi disse forskjellene og deler på det forventede antall, får vi en tabell med relative kvadratavvik. Se tabell 11-4.

Tabell 11-4 Relative kvadratavvik beregnet på grunnlag av tabell 11-3. --------------------------------- Jenter E JA NEI

0,875 0,226

Gutter 0,485 0,125

11 Kategoriske

variabler og normaltilnærmelsen

251

Det er opplagt at jo større summen av kvadratavvikene i tabell 11-4 er, jo dårligere ligger nullhypotesen an. Summen kalles for^2 (kji-kvadrat). Vi fåren sum på 1,711. For å vite hvor stor summen må være for at vi skal forkaste nullhypotesen om ingen sammenheng, må vi imidlertid kjenne dens fordeling under nullhypotesen.

Kji-kvadratfordelingen Kji-kvadratfordelingen bygger direkte på normalfordelingen og forutsetter at nor­ maltilnærmelsen kan benyttes. Vanligvis vil det være tilfelle hvis de forventede antall er større enn ti. Noen sier fem. Er ikke det tilfelle, kan du øke antallene ved å slå sammen kategorier. For en 2 X 2-tabell er x2 kji-kvadratfordelt med v = 1 frihetsgrad. At det kun er 1 frihetsgrad, kommer av at når tallene på randen i en 2 X 2-tabeller er gitt, kan du bare fritt bestemme ett av de fire tallene inni tabellen. De andre tre vil da samtidig være gitt. For en r X Æ-tabell er y2 kji-kvadratfordelt med v — (r — 1) X (k~ 1) frihetsgrader, r står for antall rader og k for antall kolonner. Gjennomsnittet til x2 er rog standardavviket V2r. Dessuten ser du av graf 11-2 at fordelingen nærmer seg normalfordelingen når antall frihetsgrader vokser. Kritisk verdi x2a kan du finne med Excelfunksjonen CHIDIST (a; p) eller tabell 7b bak i boken.

KJI-KVADRA TFORDELINGEN ny-4

ny=8

ny= 16

Graf 11-2: Kji-kvadratfordelingen.

252

Del 2 Parametrisk

statistikk

Hypoteseprøving Testmetode

kji-kvadrattesten for uavhengighet mellom to kategoriske variabler

Data

En r X A-tabell. Rute (z,y) inneholder antall observasjoner som samtidig har kategori i for variabel 1, og kategori j for variabel 2. Ho: De to variablene er uavhengige H,: De to variablene er på en aller annen måte avhengige a i tabell 7 med v = (r — 1) X (Æ — 1) frihetsgrader

Nullhypotese Alternativ Signifikansnivå Kritisk verdi Testobservator

Konklusjon

Forkast Ho hvis V > Va

Eksempel 1: Kjønn og røyking (2 X 2-tabell) I vårt eksempel fant vi y2 = 1,711 med n = 1 frihetsgrad. Ifølge tabell 7b er y2u = 3,841 med a = 5 %. Vår ^2-verdi er altså ikke stor nok og nullhypotesen beholdes. Da vi gjorde den tilsvarende analysen med normaltilnærmelsen for differanse mellom to andeler i avsnitt 11.2, fant vi z = 1,306 og siden vi hadde en tosidig test på 5 % -nivået, var za lik 1,96. Kvadratet av 1,306 og 1,96 er henholdsvis 1,711 og 3,841! Det betyr at ved 2 X 2-tabeller er kji-kvadrattesten og testen som bygger på normaltilnærmelsen for differanse mellom to andeler identiske! Hvis z er standard normalfordelt, er z2 kji-kvadratfordelt med 1 frihetsgrad. Siden vi kvadrerer når vi beregner kji-kvadratobservatoren, bruker vi bare høyrehalen. De 2,5 prosentene i hver hale under normalfordelingen blir samlet til en 5 % høyrehale under kji-kvadratfordelingen. Bruker du z med a = 0,025, skal du bruke y2 med a = 0,05. Det fine med kji-kvadrattesten er at den også kan brukes for større tabeller enn 2X2.

Eksempel 2: (r X k-tabell) I mange praktiske situasjoner er det ønskelig å kunne teste når vi har flere enn to kategorier. La oss igjen se på Bis arbeidsmarkedsundersøkelse. Respondentene ble blant annet spurt om hvilken spesialiseringsretning de hadde og hva som var hovedarbeidsområdet i den nye jobben. Et interessant spørsmål er om det er sam­ menheng mellom valg av spesialisering og arbeidsområde. For å tilfredsstille kjikvadrattestens bruk av normaltilnærmingen, må det være et rimelig antall forven­ tede svar i hver rute i tabellen. Vi har derfor gruppert retningene og områdene i kategorier som vist i tabell 11-5.

11 Kategoriske

253

variabler og normaltilnærmelsen

Tabell 11-5 Fra Bis arbeidsmarkedsundersøkelse. Spesialisering i studiet og hovedarbeidsområde i den første jobben etter siviløkonomstudiet. Spesialisering: Arbeidsområde Finans og øk. analyse Markedsføringsfag Ledelse Regnskap og revisjon Salg

Organisasjon og ledelse

Finans og sam­ funnsøkonomi

Markeds­ føringsfag

Regnskap, skatt og øk. styring

Observasjoner (O) 7 0 1 20 3 3 10 1 3 6

7 8 7 6 10

3 0 1 24 1

Tabellen tyder på at det faktisk er sammenheng mellom spesialisering og arbeids­ område. Se for eksempel hvordan omtrent alle med spesialisering i regnskap jobber på det området. Er disse forskjellene signifikante, eller kan det tenkes at dette ut­ valget tilfeldigvis fordelte seg noe ujevnt og at det i virkeligheten ikke er noen sammenheng? Det er det samme som å si at arbeidsområdet er uavhengig av spesia­ lisering. La dette være vår nullhypotese. Alternativet er at det ikke er uavhengighet, men hva slags avhengighet det er, vil kji-kvadrattesten ikke kunne si noe om. Hvis nullhypotesen er riktig, ville svarene fordele seg forholdsmessig på spesia­ lisering og arbeidsområde. Med forholdsmessig fordeling mener vi at antall svar i hver rute er proporsjonal med radsummen og kolonnesummen for den ruten. Det er akkurat det samme som vi gjorde med 2 X 2-tabeller. Se i arbeidsheftet for hen­ siktsmessige måter å utføre beregningene på. Du kommer for eksempel langt med et blankt regneark. Tabell 11-6 viser de svar vi forventet ifølge nullhypotesen. Vi ventet for eksempel at 17 X 30/121 = 4,2 av dem med spesialisering i markedsføringsfag skulle arbeide innenfor finans og økonomisk analyse hvis det ikke er noen sammenheng. I virkeligheten var det ingen som gjorde det!

Tabell 11-6 Spesialisering i studiet og hovedarbeidsområde i den første jobben etter siviløkonomstudiet. Forventet svarfordeling i henhold til nullhypotesen om ingen sammenheng. Forventet (£)

0&L

F&SØ

MF

R, S, ØS

Sum

Finans og øk. analyse Markedsføringsfag Ledelse Regnskap og revisjon Salg

5,3 9,1 4,4 12,9 6,3

3,4 5,8 2,8 8,1 4,0

4,2 7,2 3,5 10,2 5,0

4,1 7,0 3,4 9,8 4,8

17 29 14 41 20

Sum

38

24

30

29

121

254

Del 2 Parametrisk statistikk

Vi må nå se på avvikene mellom hva vi har observert og hva vi forventet ifølge nullhypotesen. Det er vist i tabell 11-7. Tabell 11-7 Spesialisering i studiet og hovedarbeidsområde i den første jobben etter siviløkonomstudiet. Avviksanalyse og beregning av kjikvadratobservatoren. 0&L

F& SØ

MF

R, S, ØS

Sum

Finans og øk. analyse Markedsføringsfag Ledelse Regnskap og revisjon Salg

0,52 0,13 1,54 3,67 2,20

3,90 3,93 0,02 0,43 0,24

4,21 22,82 0,06 8,26 0,22

0,28 6,95 1,65 20,44 3,00

8,92 33,83 3,28 32,81 5,66

Sum

8,07

8,51

35,58

32,33

84,50

Avvik (0 - E)2/E

Summen av de relative avvikene er 84,50. Dette er verdien til kji-kvadratobservatoren. Vi ser at de to retningene markedsføring og regnskap bidrar spesielt mye til totalavviket. Antall frihetsgrader i kji-kvadratfordelingen er 3 X 4 = 12. Ifølge tabellen er den kritiske verdien x2a = 21,06 for a = 5 %. Resultatet er altså signifikant langt utover enhver rimelig tvil: Den ujevne fordelingen er ikke tilfeldig. De tre tabellene ovenfor er hentet fra Statark som produserer dem automatisk som en del av kji-kvadratanalysen. Se arbeidsheftet.

Beregning av x2a når v> 30 Kji-kvadrattabellen går til v = 30. Når rer større bruker vi normaltilnærmelsen for å finne y2a. Vi vet at: Formel 11-6:

(y2 — r) z = ---- —

er tilnærmet standard normalfordelt. Følgelig kan den kritiske verdien beregnes slik:

11 Kategoriske

variabler og normaltilnærmelsen

255

11.4 Sammendrag Dette kapitlet dreier seg om hvordan vi kan bruke normaltilnærmelsen i forbindelse med kategoriske variabler. Forutsetningen er at vi har mange observasjoner. Det er ikke lett å vite hvor god en tilnærmelse er. Vi vet at i en del tilfeller er de ganske dårlige. Hvis det er mulig, bør du derfor bruke eksakte metoder i stedet. I denne boken har vi særlig lagt vekt på Fishers eksakte test for 2 X 2-tabeller istedenfor normaltilnærmelsen til to andeler. En andel Har du gjort n eksperimenter med en dikotom variabel der a har vist seg vellykkete, og du lurer på hva populasjonsandelen p vellykkete er (dette er det samme som sannsynligheten for at et tilfeldig eksperiment er vellykket), kan du lage konfidens­ intervall forp slik:

(formel 11-2) og teste nullhypotesen om atp = pQ ved hjelp av den normalfordelte observatoren:

z

a ------ Po n

PoO ~Po) n To andeler En 2 X 2-tabell fremkommer når du har observasjonsenheter med to dikotome kjennetegn, for eksempel kjønn og røykestatus. Det spiller ingen rolle hvordan du organiserer tabellen med hensyn til kolonner og rader, men vår konvensjon er å la det som mest naturlig fremtrer som stikkprøver danne kolonner (det er mer naturlig å ta stikkprøver av henholdsvis jenter og gutter og så spørre om de røyker, enn å ta stikkprøver av røykere og ikke-røykere og så spørre om kjønn). Uansett er det å teste om to populasjonsandeler er like, det samme som å teste om det er sammen­ heng mellom de to kjennetegnene. Dataene organiseres slik:

JA NEI

Stikkprøve 1

Stikkprøve 2

a\

«2

A B

«i

«2

N

256

Del 2 Parametrisk

statistikk

Du lager konfidensintervall for differansen mellom de to populasjonsandelene med formelen:

P\ ~P2 =

a\

(formel 11-5)

«i

og tester en nullhypotese om ingen forskjell på de to populasjonsandelene med den standard normalfordelte observatoren: a\

«2

Dette er også en test på sammenheng mellom de to kjennetegnene. Hvis mulig bør du istedenfor bruke Fishers eksakte test.

Kontingenstabeller Hvis du har observasjonsenheter med to kjennetegn der det ene faller i k forskjel­ lige kategorier (spesialiseringsretning) og det andre i r forskjellige kategorier (ar­ beidsområde), kan du organisere observasjonene i en r X Ekontingenstabell. Du kan bruke kji-kvadrattesten til å teste om det er en eller annen form for sammen­ heng mellom kjennetegnene. Testen er ekvivalent medz-testen for en 2 X 2-tabell. Kall det observerte antall i en rute for O. Beregn de forventede antall i hver rute (E) under nullhypotesen om ingen sammenheng ved å multiplisere kolonnesum med radsum og dividere på det totale antall observasjoner. Test observatoren kjikvadrat er summen av de relative kvadratavvik:

,

v (O - E)2

Dette er alltid en ensidig test. Nullhypotesen skal forkastes hvis x2 > X2aVær oppmerksom på at testen bygger på normaltilnærmelsen og derfor krever relativt mange observasjoner. Ifølge en vanlig tommelfingerregel bør de forven­ tede antall i hver rute være større enn 5, men denne regelen bør tas med en klype salt.

11 Kategoriske

257

variabler og normaltilnærmelsen

11.5 Oppgaver Øvelse Verdisyn (Svar etter oppgave 11-12) a)

Økonomistudenter blir fra tid til annen beskyldt for å ha et nokså pragmatisk verdisyn hvis de kan tjene penger på det. For å eventuelt prøve å avkrefte slike myter, ble det i 1996 arrangert en undersøkelse blant BI-studenter. Hensikten var å sammenligne holdningene til studentene med det som ifølge Norsk sam­ funnsvitenskapelige datatjeneste (NSD) gjelder for hele befolkningen. 1401 studenter ble tilfeldig trukket ut. Av dem ga 749 gyldige svar. Gjennomsnitts­ alderen til dem som svarte var 23,3 år. Et av spørsmålene var: «Hender det at du unngår å betale for kollektivtrafikk?» 534 svarte aldri eller nesten aldri. I NSDs undersøkelse i hele befolkningen svarte 84,1 % slik. Er økonomi studentenes holdning til dette spørsmålet signifikant forskjellig på 1 %-nivået fra den som gjelder i hele befolkningen? Lag også et 99 % konfidensintervall for populasjonsandelen av økonomistudenter som vil svare aldri eller nesten aldri. Er det andre mulige forklaringer til det du finner, enn at økonomistudenter har slap­ pere moral enn befolkningen?

b) Norsk Monitor er en serie store intervju-undersøkelser gjennomført annen­ hvert år siden høsten 1986 av Markeds- og mediainstituttet. Den sjette fant sted høsten 1995. Respondentene ble blant annet spurt om å beholde feil veksel er en handling som kan godtas. Svarene fordelt på partitiIhørighet er vist i tabell 11-8. Tabell 11-8 Norsk Monitor, verdiholdning og partipreferanse. «Kan det godtas å beholde feil veksel?» RV

SV

A

V

KF

SP

H

FP

Sum

Kan godtas Kan ikke godtas

14 18

74 97

244 599

30 87

12 136

55 150

107 303

93 159

629 1549

Sum

32

171

843

117

148

205

410

252

2178

Er det signifikant forskjell på 1 %-nivået mellom Arbeiderpartiet og Høyre i dette spørsmålet? Lag også et 99 % konfidensintervall for differansen mellom populasjonsandelene. Er det signifikante forskjeller mellom partiene på 1 %nivået hvis du ser alle partiene under ett?

Oppgave 11-1 Skattesnyteri og studentmoral I Bis holdningsundersøkelse som ble omtalt i punkt a) i øvelsen ovenfor, ble det også spurt om respondenten ville snyte på skatten hvis mulig. 15,2 % av økonomistudentene som ble intervjuet svarte «alltid» eller «nesten alltid» mot 8,5 % i be­ folkningen som helhet. Er studentene signifikant forskjellig fra befolkningen på 1 % -nivået? Lag også et 99 % konfidensintervall for snyteandelen i studentpopulasjonen.

258

Del 2 Parametrisk

statistikk

Oppgave 11-2 Jobbskulking og partimoral I Norsk Monitors holdningsundersøkelse som ble omtalt i punkt b) i øvelsen oven­ for ble det også spurt om det er godtakbart å skulke jobben. Svarene fordelte seg slik: RV

SV

A

V

KF

SP

H

FP

Sum

Kan godtas Kan ikke godtas

17 15

75 96

261 582

35 82

36 112

59 146

98 312

76 176

658 1520

Sum

32

171

843

117

148

205

410

252

2178

Skulke jobben

a)

Er det signifikant forskjell på Høyre og Arbeiderpartiet på 1 %-nivået? Lag også et 99 % konfidensintervall for differansen mellom populasjonsandelene av dem som kan godta skulking.

b) Er det signifikante forskjell på partiene på 1 %-nivået når du ser alle under ett? c)

Er det signifikant forskjell på partiene når du ser bort fra SV og RV?

Oppgave 11-3 Kjønn og røyking Røyker kvinnelige siviløkonomstudenter mer enn mannlige? Besvar spørsmålet på 5 %-nivået ved hjelp av dataene i innledningen til avsnitt 8-5 og tabell 8-7. Denne oppgaven har også blitt gitt som oppgave 8-9. Oppgave 11-4 Behandlingsopplegg for narkomane Løs oppgave 8-10 ved hjelp av normaltilnærmelsen! Oppgave 11-5 Dr. Salks høyrehendte mødre Dr. Salk observerte 255 høyrehendte mødre. Av dem holdt 212 bamet på venstre arm. Er dette forenlig med en hypotese om at det er tilfeldig hvilken arm hun holder ungen på? Test tosidig på 5 %-nivået og antyd også tilnærmet hvor stor signifikans­ sannsynligheten er! Lag også et 95 % konfidensintervall for p! Oppgave 11-6 Fusket Mendel? Gregor Mendels statistiske modell for hvordan gener bringer egenskaper fra en generasjon til den neste er en av de viktigste og mest elegante vitenskapelige teo­ rier. Et av Mendels opprinnelige eksperimenter dreide seg om selvbestøvning av hybride gule erteplanter. Teorien sa at avkommet med sannsynlighet 0,25 ville ha grønne erter og med sannsynlighet 0,75 gule. Mendel rapporterte disse empiriske resultater fra selvbestøvning av 8023 gule erteplanter:

Ertefarge til avkom Gule Grønne

Antall 6021 2002

11 Kategoriske

a)

variabler og normaltilnærmelsen

259

Test Mendels teori på 5 %-nivået.

b) Anta at Mendels teori er riktig. En fjerdedel av 8023 er 2005,75. Finn sannsyn­ ligheten for at han ved et slikt eksperiment med 8023 erteplanter skulle få mel­ lom 2002,0 og 2009,5 grønne erteplanter. Bruk normaltilnærmelsen.

c)

Det har blitt hevdet at Mendel fusket med resultatene for å få dem til å passe med teorien. I et annet eksperiment hadde Mendel nemlig beregnet den teore­ tiske sannsynligheten galt og likevel fått empiriske resultater i overensstem­ melse med sin gale sannsynlighet. Vurder utsagnet «Mendels resultater er for gode til å være sanne» i lys av dine beregninger under b).

Oppgave 11-7 Hjerteinfarkt og sunne vaner En av de vitenskapelige hypoteser som skulle testes i Osloundersøkelsen, var hvor­ vidt røykevaneomlegging og kostomlegging kunne redusere risikoen for å få frem­ tidig hjertesykdom. Av de i alt 604 i behandlingsgruppen fikk 19 hjerteinfarkt i løpet av en oppfølgingsperiode på syv år. I samme periode fikk 36 i kontrollgrup­ pen på i alt 628 hjerteinfarkt. Er det signifikant sammenheng på 5 %-nivået mellom hvilken gruppe de tilhører og sannsynligheten for hjerteinfarkt? Beregn signifikanssannsynligheten. Lag også et tosidig 9S % konfidensintervall for differansen mellom sannsynligheten for å få hjerteinfarkt i behandlingspopulasjonen og i kontrollpopulasjonen. Hva er din konklusjon angående den vitenskapelige hypotesen? Gi en fullsten­ dig formulering med egne ord. Oppgave 11-8 Hjelper det å stønne når man server i tennis? Dr. Dennis Lendrum ved Nottingham University i England observerte hvordan John McEnroe vant Wimbledontumeringen i 1983. Spesielt var han interessert i å finne ut om de kraftige stønnene som enkelte tennisspillere tidvis presterer når de server er til hjelp. Her er observasjonene (Ess er server som umiddelbart gir poeng):

a)

Stønn

Stille

Ess Feil Annet

61 32 144

35 8 53

Sum

237

96

Er det signifikant forskjell på feil sannsynligheten når han stønner og når han er stille? Utfør testen på 5 %-nivået og beregn signifikanssannsynligheten. Bruk normaltilnærmelsen.

b) Hjelper stønn på sannsynligheten for ess? Besvar spørsmålet på 5 %-nivået. c)

Spiller det i det hele tatt noen rolle hvorvidt han stønner eller ikke? Analysér på 1 %-nivået!

260

Del

2 Parametrisk

statistikk

Oppgave 11-9 Er klasser forskjellige? Studenter er med rette opptatt av eksamen. Er det helt og holdent opp til studenten selv hvor godt hun gjør det, eller spiller ytre forhold som hvor god læreren er og hvor fruktbar klasseånden er en viss rolle? Et år ble det undervist i statistikk i 7 parallelle klasser i Oslo. Strykprosentene var på grunn av tilfeldig variasjon selvfølgelig ikke like. Var ulikhetene for store til at det kunne være forklaringen, eller må det være andre årsaker? Det skal du avgjøre ved hjelp av en hensiktsmessig test. Tabellen gir antall (ikke prosenter). Klasse

A

B

C

D

E

F

G

Stryk Bestått

15 49

28 48

21 44

23 52

43 72

12 43

26 37

Oppgave 11-10 Alkohol og trafikkulykker Av 2 100 bilførere i USA som ble drept i trafikkulykker, ble 700 funnet å være uten skyld i ulykken. Av de 700 hadde 140 alkohol i blodet. Av de 1400 skyldige hadde 700 alkohol i blodet. Er det signifikant sammenheng mellom alkohol og skyld på 1 %-nivået?

Oppgave 11-11 Downs syndrom og morens alder Har mødre på 35 år eller over lettere for å få mongoloide barn enn de som er yngre? Definer:

P\= P (mongoloid barn moren under 35) /?2 = P (mongoloid barn moren 35 eller over) Test nullhypotesen på 1 %-nivået. Her er dataene fra alle fødsler i staten Michigan fra 1950 til 1964, som vi vil betrakte som en tilfeldig stikkprøve fra en større popula­ sjon.

Mongoloide Normale Sum Andel mongoloide

Moren > 35 år

Moren < 35 år

Sum

1 114 298 172 299 286 0,003722

1 312 2 526 371 2 527 683 0,000519

2 426 2 824 543 2 826 969 0,000858

11

261

Kategoriske variabler og normaltilnærmelsen

Oppgave 11-12 Holdning til piggdekk Statens vegvesen holder seg kontinuerlig informert om folks holdning til kjøp av vinterdekk med og uten pigger, blant annet ved å spørre om hva de vil kjøpe neste gang. Meningsmålingsinstituttet Opinion har intervjuet ca. 600 mennesker hvert år fra 1992 til 1996. Svarene fordelte seg ifølge Aftenposten slik: Vil kjøpe

1992

1993

1994

1995

1996

Piggdekk Piggfritt Kjøper ikke bildekk Ikke sikker

21 55 1 23

% % % %

31 % 36% 1 % 32%

43 % 32% 1 % 24%

41 % 34% 0% 26%

38% 47% 1 % 14%

Har det funnet sted holdningsendringer som er signifikante på 5 %-nivået?

Svar på øvelse Verdisyn a)

Et 99 % konfidensintervall for populasjonsandelen som svarer «aldri» eller «nesten aldri» finner vi med formel 11-2:

a \ n \ n P = — ± M -------------------

534 / 534 ------ X I---------749 749

749

= 0,713 ± 0,043

Hypoteseprøving:

Testmetode: Data: Nullhypotese: Alternativ: Signifikansnivå: Kritisk verdi:

z-testen for én andel n — 749, a = 534 p = 0,841 p P 0,5 a= 1 % zH = 2,58 ifølge tabell 5 b

Testobservator:

749

Konklusjon:

Nullhypotesen forkastes siden | z | Dette er meget sterk signifikans!

262

Del

2 Parametrisk

statistikk

Det er åpenbart at respondentene skiller seg kraftig ut fra befolkningen som helhet i dette spørsmålet. Det behøver imidlertid ikke bety at det er økonomistudenter det er noe spesielt med. Siden vi vet at gjennomsnittsalderen til res­ pondentene bare er 23,3 år, kan forklaringen like gjeme være at de er yngre enn befolkningen som helhet. Statark har et eget vindu som tar seg av alle beregninger i forbindelse med normaltilnærmelsen for én andel. Vinduet er vist i skjerm 11-1.

Statark 11-6, Wenstøp: Kapittel 11

Konfidensintervall og tester for p DATA

3 534

Data inn

749 a/n

Tosidig p= H.grense p= V.grense p=

0,7130 0,7130 0,7130

99 % - KONFIDENSINTERVALL ± zaV(a/n)(1-a/n)/n nedre grense ± 0,0426 0,6704 + 0,0385 0,0000 0,0385 0,6745

øvre grense 0,7555 0,7514 1,0000

Nivå

za 2,5758 2,3263 2,3263

1 % -nivå; HYPOTESEPRØVING

( Ho 7 Ho: po = ,841

H1:p?tpo H1:ppo

z=(a/n-po)/[Vpo(1-po)/n]= Izl z z

> < ’)-punkter er en stikkprøve fra denne populasjonen. Vi brukte stikkprøven til å estimere a. og ae som vist i formel 12-13. Som estimater flest er også disse usikre. Hver gang du lager en ny punktsverm med den samme modellen, vil jeg få nye estimater a, b og se. Det er viktig for oss å vite hvor nøyaktige estimatene er. Vi må derfor kjenne estimatorenes sannsyn­ lighetsfordeling. Kjenner vi fordelingen, kan vi lage konfidensintervall og foreta hypoteseprøving på vanlig måte. Det kan vises at følgende gjelder:

286

Del 3 Samvariasjon

Fordelingen til estimatorene a og b i lineær regresjonsanalyse Gitt n observasjonspar (x, y) som er produsert av en lineær regresjonsmodell. Estimatene a, b og se beregnes ved hjelp av formel 12-13. Følgende /-observatører er studentfordelt med v = n - 2 frihetsgrader:

Formel 12-15:

77^7^

rormel 12-16:

t = ——— Sb

V (x - x)2

I-2

a— a t = --------

n £ (x - x)2

Konfidensintervall for (3 Formel 12-17:

(3 = b ± tasb

Konfidensintervall for a Formel 12-18:

a — a ± tasa

Konfidensintervall for regresjonslinjen ix0 Formel 12-19:

a

+ /3xq =

fa ~ *)2

a + bxQ ± tase

n

Prediksjonsintervall for en ny observasjon når x = x0

Formel 12-20:

y0 = a + bx0 ± tase

fa ~ ^)2 n

£ (x - x)2

12 Lineær

regresjon og korrelasjon

287

I formel 12-19 og 12-20 har vi innført to nye begreper. Den estimerte linjens be­ liggenhet er bestemt av a og b. Siden begge er tilfeldige variabler, er den sanne linjens beliggenhet usikker. Formel 12-9 gir et konfidensintervall for hvor den sanne linjen a + (2>x befinner seg når x = x0, ved å ta begge usikkerhetene med i betraktning. Av og til vil også ha behov for å forutsi hvor en ny observasjony0 vil havne når vi vet at x = x0. Dette minner om et konfidensintervall, men siden vi ikke estimerer en parameter, men snarere prøver å forutsi en ny v-verdi, kaller vi dette et prediksjonsintervall i stedet. Her er vi utsatt for både usikkerheten om hvor den sanne linjen ligger, og hvor stort punktets avvik fra linjen vil bli. Derfor får vi det ekstra ettallet under roten i formel 12-20 som gjør at prediksjonsintervallet alltid vil ligge utenfor konfidensintervallet for linjen. Eksempel: Videregående skoler i Oslo La oss vende tilbake til eksemplet vårt med videregående skoler i Oslo der vi har data x for gjennomsnittspoengsummen ved opptak ved skolen, og resultatety i form av prosentandel som fikk fire eller bedre i gjennomsnitt på skolen. Dataene er vist i tabell 12-3 og graf 12-6.1 simuleringene våre visste vi at dataene var generert av en lineær prosess. Med data fra virkeligheten, må vi nøye oss med å anta at så er tilfelle. Hvilke problemer som da oppstår, skal vi diskutere nærmere i neste av­ snitt. La oss derfor foreløpig anta at det finnes en underliggende lovmessighet y = a + (3x + e som bestemmer skolens resultatet som funksjon av kvaliteten på opptaket, bortsett fra avvik e som skyldes spesielle forhold ved de enkelte skolene. Beregningene i regresjonsanalyse kan som sagt utføres med mange typer program­ vare. Tabell 12-6 viser resultatet omtrent slik det vises i Statark.

Tabell 12-6 Datafil Skoler. Beregninger med minste kvadraters metode. Data

Skoler

gj-sn.

std.avvik

Uavhengig variabel x: Avhengig variabel y: Ant.observasjonspar n =

Poengkrav Resultat 16

40,16 51,43

2,79 17,32

Beregninger Stigningsforhold: b = sxv/sx2 =

5,150

Skjæring med v-akse: a = y — bx = Kvadratavvik = 2 (e2) =

-155,400 1405,408

Stand.avviket til e: se = S Se2/(n — 2) =

10,019

Stand.avviket til b: sb —

0,927

(x — x)2 =

Beregningene viser altså at for hvert ekstra poeng elevene har i gjennomsnitt ved opptak, venter vi at andelen som oppnår 4 eller bedre vil stige med 5,15 prosent­ poeng! I graf 12-12 ser du regresjonslinjen inntegnet. Det interessante med grafen er at den viser hvilke skoler som er gode og hvilke som er dårlige, hvis vi med en god skole mener en som tilfører elevene mye. Pers-

288

Del 3 Samvariasjon Videregående skolers resultater som funksjon av poeng ved opptak fra ungdomsskolen

95------

Graf 12-12: Datafil Skoler. Regresjonslinje for sammenhengen mellom opptak og resultat.

bråten er uten tvil den beste skolen; den ligger lengst over regresjonslinjen. Deretter følger Ullern, som den nest beste skolen! Dette til tross for at Ullern tar inn de dårligste elevene! Vi ser altså at regresjonsanalysen tjener til å forklare den delen av y som skyldes x. De resterende avvik må forklares på annen måte! Vi må imidlertid ta flere forbehold. For det første har vi antatt at en lineær regresjonsmodell ligger under. Det skal vi komme tilbake til. For det andre er vi usikre på den nøyaktige verdien av fi. Ifølge formel 12-17 er vi 95 % sikre på at fi ligger i intervallet:

fi = b ± tasb = 5,15 ± 2,14 X 0,927 = 5,15 ± 1,99 (p =14 frihetsgrader) Usikkerheten angående fl gjør at vi ikke riktig vet hvor den «sanne» regresjonslin­ jen ligger. Dette forsterkes ved at vi også er usikre på a. De to usikkerhetene er regnet sammen i formel 12-19 som gir et konfidensintervall for den sanne linjens beliggenhet. Dette er vist i graf 12-13. Ifølge graf 12-13 kan faktisk alle skolene unntatt Hellerud, Handelsgym, Hartvik Nissen, Persbråten og Lambertseter tenkes å ligge på den «sanne» regresjonslinjen, når vi opererer på et 95 % konfidensnivå!

12 Lineær

regresjon og korrelasjon

289

95% konfidensintervall for regresjonslinjens beliggenhet 95% prediksjonsintervall for resultatet til en ny skole 100----------------------------------------------------------------------------------------------------------------------------

Graf 12-13: Datafil skoler. Grafen viser med heltrukne linjer et 95 % konfidensintervall for hvor den «sanne» regresjons linjen ligger. De stiplete linjene viser et 95 % prediksjonsintervall for hvilket resultat en ny skole vil ha, som funksjon av gjennomsnittspoengene ved opptak.

Hypoteseprøving om stigningskoeffisienten: Ho: fi = /30 Formel 12-15 gjør det mulig å teste nullhypotesen Ho: [3 = ff der /30 er et hvilket som helst tall. Hypoteseprøvingen foregår etter gammel oppskrift slik: Testmetode

r-testen for stigningskoeffisienten i regresjonsanalyse

Data Nullhypotese Alternativ Signifikansnivå Kritisk verdi

n observasjonspar (x,y) generert av en lineær prosess: y = a + fix + e e ~ N (0, cr|) Ho: d ~ do Hi: d do Hi: d < do dy. d > do 2a a a Finn ta i tabell 6b med r — n — 2 frihetsgrader

Testobservator

t=

b~ do

sb Konklusjon

Forkast Hf) hvis | r | > ta

Forkast Ho hvis t < —ta

Forkast Ho hvis t > +ta

290

Del 3 Samvariasjon

En helt spesiell nullhypotese er: Ho: modellen y = a + /3x + e slik ut:

= 0. Hvis denne hypotesen er riktig, ser

y= a + e

Hva innebærer dette? Det betyr aty er uavhengig av x. Samme hva x er, vil y-ene ligge spredt rundt en horisontal linje y = a. Nullhypotesen Ho: — 0 er altså en hypotese om ingen samvariasjon mellom x ogy. Dette er derfor en særdeles viktig og hyppig brukt test. Testobservatoren blir i dette tilfellet særdeles enkel:

Test på lineær sammenheng Testobservatoren under nullhypotesen om ingen lineær samvariasjon mel­ lom y og x: Ho: = /30

Formel 12-21:

t — b/sb

t er Z-fordelt med v = n — 2 frihetsgrader

Eksempel 1: Videregående skoler i Oslo: r-testen om ingen lineær sammenheng mel­ Testmetode lom x ogy Datafil Skoler: 16 observasjonspar (x,y) av po­ Data engsum ved inntak og resultat på skolen Ho: = 0 Nullhypotese Hi:/3>0 Alternativ a= 5% Signifikansnivå Ifølge tabell 6b med v = n — 2 = 14, cr/a = 1,76 Kritisk verdi t = b/sb = 5,15/0,927 = 5,55 Testobservator Konklusjon Ho forkastes fordi t > +ta. Resultatet er meget signifikant, og selvfølgelig ikke spesielt over­ raskende. Det er en klar sammenheng mellom opptak og resultat. Eksempel 2: f som mål for finansiell risiko Datafilen MncLavk inneholder i tillegg til historiske avkastninger for Norsk Hydro og Hafslund Nycomed også avkastninger for Oslo Børs totalindeks. En forsiktig aksje-investor vil prøve å diversifisere så mye som mulig, og prøve å finne aksjer som ikke samvarierer for mye med børsen. Hvis et selskaps avkastninger samvarierer mye med børsen, bidrar de lite til å fjerne totalusikkerhet. Finansanalyti­ kere har derfor laget et mål for usikkerhet med utgangspunkt i hvordan selskapets avkastning samvarierer med børsens. Se på graf 12-14. Det er tydelig at avkast­ ningene samvarierer, og at Hydroaksjene har markert større utslag enn Børsen.

12 Lineær

regresjon og korrelasjon

291

Norsk Hydros beta 40,00% r

Oslo Børs totalindeks, månedlig avkastning i prosent

Graf 12-14: Datafil Mnd^avk. Samvariasjon mellom avkastningen på Norsk Hydros aksjer og avkastningen på Oslo Børs indeks gir et mål for risiko.

Lineær regresjonsanalysemedx = børsavkastning ogy = Hydros avkastning gir a = 0,00639, b — 1,078 ogsb = 0,075. Hydro har altså en såkalt betarisiko som er noe større enn 1,0. Det kan være interessant å teste om denne verdien er signifikant forskjellig fra 1,0. Da må vi beregne verdien av testobservatoren: b~ fa t = ------ — = 0,078/0,075 = 1,05 sb Dette er ikke en signifikant verdi på noe rimelig nivå, og en nullhypotese om at Hydros beta er 1,0 må derfor beholdes. Ser vi istedenfor på Hafslund Nycomed, vil vi finne en beta lik 0,93 som altså er mindre enn 1,0. Målt med beta har derfor Hafslund Nycomed mindre risiko enn Hydro, til tross for at vi tidligere har sett at Hafslunds avkastninger har større stan­ dardavvik enn Hydros. Forklaringen er at Hafslund av og til har hatt avkastninger lite relatert til Børsens tendens, og derfor også ville bidra til å minke risikoen i en portefølje.

292

Del 3 Samvariasjon

12.5 Regresjonsanalyse med data fra virkeligheten Datafil Kreft inneholder fra et historisk synspunkt unike data fra 1966 om sammen­ hengen mellom røyking og lungekreft. Se på graf 12-15.

Sigarettrøyking og lungekreft

Sigaretter pr. person

Graf 12-15: Sammenhengen mellom årlig sigarettsalg og dødsfall på grunn av lungekreft i amerikanske stater i 1966

Fører røyking til økt sannsynlighet for lungekreft? Slik problemstillingen er for­ mulert, antas røyking (x) å føre til lungekreft (y), og ikke omvendt. Da er det natur­ lig å benytte regresjonsanalyse. En lineær regresjonsmodell som tar utgangspunkt i datafilen Kreft vil se slik ut: Uavhengig variabel: Avhengig variabel: Regresjonsmodell: Data:

x — årlig sigarettsalg pr. innbygger (tusen sigaretter) y — antall dødsfall pr. 100 000 innb, pga lungekreft y = a + (3x + e e ~ V (0, 0 a = 5% Ifølge tabell 6b med v — n - 2 = 16, er ta - 1,75 t = bl sb = 0,452/0,311 = 1,452 Ho beholdes fordi t < +ta. Vi har ikke kunnet på­ vise en positiv lineær sammenheng mellom ka­ rakterforventning og faktisk karakter hos guttene på postskolen.

(Denne analysen bør selvsagt innledes med et grafisk studium av sammenhen­ gen mellom x ogy. Lager du et aksediagram over dette, vil du se at det ikke er noe mønster tilstede som er mer innviklet enn en rett linje. En lineær regre­ sjonsmodell er derfor ikke åpenbart dårlig.)

12 Lineær

regresjon og korrelasjon

311

d) Et 95 % prediksjonsintervall for v med x0 = 2,5 finnes ved hjelp av formel 12-20:

y0 = a + bxQ ± tase

(x0 ~x)1 2

V (x - x)2

= 1,373 + 0,425 X 2,5 ± 2,12 X 0,720 X

1 !

1 18

!

(2,5-2,68)2

5,35

= 2,50 ± 1,57 Helt tilsvarende finner vi for x0 = 4,0: y = 3,18 ± 1,79

Vi ser at intervallene er vide, og derfor ikke særlig mye verdt til prognoseformål. Dette stemmer med at vi heller ikke har en signifikant sammenheng.

313

13 Kurvefremskriving 13.1 13.2 13.3 13.4 13.5

Om kurvefremskriving og prognosering Om tidsrekkeanalyse Tidsrekkemodeller: Den klassiske modell Sammendrag Oppgaver

Vestby opp, Bærum ned Statistisk Sentralbyrå har fremlagt prognoser for befolkningsutviklingen i Akershus i årene frem til år 2000. Her går det blant annet frem at Vestby vil fordoble sitt innbyggertall og at Bæ­ rum vil «miste» 5000 innbyggere. - Lettsindig, sier ordfører Kjell Erik Heibek i Vestby om en slik statistisk beregning. Ordfører Gunnar

Gravdahl har, med bakgrunn i kommunens egne beregninger, ingen tro på at folketallet vil bli redusert. En rekke andre politikere uttrykker også skepsis til disse prognosene. - Tallene er ikke ment som noe man absolutt skal tro på, sier førstekonsulent Jens Kristian Borgan i Statistisk Sentralbyrå.

Aftenpostens aftennummer, 18. mars 1980

13.1 Om kurvefremskriving og prognosering Folk som lager prognoser blir ofte utskjelt - som oftest fordi prognoser viser seg å være gale. Men hvorfor er prognoser gale? Selvsagt fordi man aldri kan vite hva fremtiden vil bringe, men også fordi prognosøren - om vi kan bruke et slikt ord sjelden har muligheter til å kartlegge alle forhold som kan være relevant for å komme frem til en «riktig» prognose. Ofte nøyer han seg med å analysere de histo­ riske verdiene til den størrelsen han skal prognosere for så å benytte en eller annen form for kurvefremskriving. Dette betyr ikke at virkningen av andre faktorer be­ traktes som irrelevante, men bare at de er for kompliserte eller tidkrevende å ta med i beregningen.

314

Del 3 Samvariasjon

Det er derfor av avgjørende betydning at brukerne av prognoser - politikere og personer i offentlig og privat virksomhet - kjenner til de premisser som ligger til grunn for prognosetallene. Da Borgan i Statistisk sentralbyrå omsider slapp til på side 2 i Aftenposten, fikk han forklart at det som var gjort, var å samle inn historiske data over innflytning og utflytning, dødelighet og fruktbarhet i kommunene. Ved å forlenge de observerte tendenser frem til år 2000 kan han så beregne prognosetall. Dette betyr ikke at prognosøren tror at han derved har funnet den faktiske folke­ mengden i år 2000. Han er (eller bør være) fullstendig klar over at andre faktorer som tilgjengelige arealer for bolig- og industriutbygging, kommunens økonomi samt de politiske avgjørelser i kommunen frem til år 2000 spiller en viktig rolle. Slike ting har imidlertid kommunens folk bedre oversikt over enn ham selv, og de bør kunne kompensere for dette når de bruker prognosetallene .

Eksempel: Trafikkulykker Personer drept i veitrafikkulykker

Graf 13-1: Antall personer drept i veitrafikkulykker 1986-1995 (Kilde: Statistisk årbok 1996) med tilpasset regresjonslinje for utviklingen

Graf 13-1 viser utviklingen av antall drepte i veitrafikkulykker per år i Norge. Til disse dataene kan det være naturlig å tilpasse en rettlinjet trendy = a + /3x ved hjelp av minste kvadraters metode, slik vi gjorde det i forrige kapittel. Vi finner a = 34003, b = —16,9. (a er linjens skjæring medy-aksen når x = 0, dvs. i år 0.) For­ lenger vi denne linjen frem til år 2005, får vi et prognosetall y2005 = 101- Dette tallets troverdighet må sees i sammenheng med hvordan det har blitt til, da det er resultatet av en ren, passiv trendfremskriving og forutsetter blant annet at det trafikksikringsarbeid som har pågått i perioden 1986-1995 fortsetter. Forlenger vi linjen videre til år 2015-dvs. lenger ut på glattisen- finner viy2015 = 34003 — 16,9 X 100 = —68. Dvs. minus 68 mennesker vil bli drept i trafikkulykker! Moralen er?

13 Kurvefremskriving

315

Noe mer informativt enn kun å gi et prognosetall for 1980, er det å hefte etpre­ diksjonsintervall til prognosen:

y2005 = 101 — slingringsmonn

Her kan formlene fra kapittel 12 brukes direkte. På den måten får vi innkalkulert hvor variable de historiske tallene har vært i forhold til den rette linjen. Jo mer ustabile de er, jo større blir prediksjonsintervallet. Prediksjonsintervallet er og blir en teoretisk konstruksjon: Hvis det virkelig er slik at vår samlede virksomhet innen trafikksikringsarbeidet samt trafikkvolumet gjør at antall ulykker faktisk følger en y — a + (3x der a og /3 er ukjente konstanter og x årstallet og skjebnen legger til et tilfeldig normalfordelt tall e for egen regning, da er prediksjonsintervallet riktig. Siden dette selvsagt ikke stemmer i praksis, må prediksjonsintervall oppfattes kun som veiledende for den faktiske usikkerhet.

Former for prognosering Den måten vi lagde prognosetall på ovenfor er et eksempel på tidsrekkeanalyse som vi skal behandle i neste avsnitt. Tidsrekkeanalyse dreier seg om bearbeidelse av tall og er i sinn og skinn et barn av statistisk metode og tankegang. Analyse av historisk tallmateriale er en ting, en praktisk, jordnær utøvelse av sunn dømmekraft og ekspertise noe annet. Det siste er minst like viktig som det første, men mye vanskeligere å sette i system. Den såkalte Delfi-metoden benytter for eksempel et panel av eksperter til å uttale seg om fremtiden. Sannsynligvis er det mest fruktbart å kombinere metodene. Eksperter på saks­ området kan bearbeide eller modifisere prognosetall som er fremkommet ved tids­ rekkeanalyse. Dette betyr at det er nødvendigfor eksperten å forstå premissene for ti dsrekkeanalyse.

13.2 Om tidsrekkeanalyse Tidsrekkeanalyse dreier seg om å finne mønstre i historiske tallmateriale. En tidsrekke er simpelthen en rekke med historiske verdier til en variabel. Antall drepte i trafikkulykker 1986-1995 er en tidsrekke. Årlig vanntilsig til drikkevannsreservoarene i Oslo de siste 104 år er en tidsrekke. Vi skal bruke følgende symboler: o

Symboler i tidsrekkeanalyse Tidspunkt: t Tidsrekkens verdi i tidspunkt t: yt Prognosetall for verdien i tidspunkt t: yt Prognosefeil: et = yt — yt

316

Del 3 Samvariasjon

Med referanse til trafikkulykke-eksemplet i graf 13-1, er v1986 = 45 2 ogy2oo5 = 101Når vi lager prognoser for fremtidige verdier og benytter tidsrekkeverdier helt opp til i dag som datagrunnlag, er det som regel unødvendig å skrive når progno­ sene ble laget. Vi nøyer oss med å si hvilket tidspunkt de gjelder for. Mønster i tidsrekker Øyet er en god konkurrent til matematiske analysemetoder når det gjelder å finne mønstre i tidsrekker. Det mønster vi for eksempel mente å kunne se i dataene over drepte trafikkulykker i graf 13-1, var simpelthen en rettlinjet avtagende tendens, eller en konstant negativ trend. Se igjen på grafene 12-1 og 12-2, samt 12-15 og 12-16. Se også på grafene 13-2 til 13-5. Studer grafene og prøv å formulere for deg selv eventuelle trekk du kan se som du kan tenke deg kunne forlenges inn i fremti­ den.

CATEPILLAR TRAKTOR OG INLAND STEEL

Graf 13-2: Historisk inntektsutvikling for to amerikanske industrigiganter. Kilde: G. Foster, 1986, Financial Statement Analysis, Prentice-Hall

13 Kurvefremskriving

317

Kraftforsyning

Graf 13-3: Månedlig produksjonsindeks for kraftforsyningen i Norge. Kilde: Statistisk Arbok 1996.

Graf 13-4: Prisindeks for norske jordbruksprodukter. Kilde: Statistisk Arbok 1996.

318

Del

3 Samvariasjon

Antall innbyggere

Folkemengdens bevegelse

Vurdering av tidsrekkene Hvis du har gjort deg opp din mening om eventuelle mønstre i tidsrekkene skal jeg komme med min vurdering.

- Graf 12-1 og 12-2: Avkastninger på børsen. Graf 12-1 viser en tidsrekke som hopper opp og ned på en uberegnelig måte. En statistisk analyse vil trolig vise at sprangene nedover ofte er større enn oppover, men hovedinntrykket er mangel på mønster, og derfor uforutsigbarhet. Graf 12-2 viser verdiutviklingen som føl­ ger av graf 12-1. Disse tidsrekkene driver på en uforutsigbar måte, bortsett fra at vi kan øyne langsiktige trender. Et slikt mangel på mønster kalles random walk. - Graf12-15: Temperaturutviklingen i Norge. Denne tidsrekken minner om børsavkastningene. Vi kan øyne en langsiktig trend, men for øvrig ser det svært tilfeldig ut. Forskjellen er at vi her har varme og kalde perioder. Temperaturen ett år ser med andre ord til i en viss grad å være avhengig av de foregående år. Dette kaller vi korrelasjon mellom naboverdier, eller autokorrelasjon. - Graf 12-16: Konsumprisindeksen. Mønsteret til konsumprisindeksen ser til å begynne med tydelig eksponensielt ut, men med en avtagende rate etter 1980. Vi vet at en prosess som stiger med en konstant årlig rate vil ha et eksponensielt forløp. Imidlertid er avvikene fra linjen ikke uavhengige. Ligger dataene først på undersiden av en tilpasset eksponensialkurve ett år, vil den med stor sannsyn­ lighet også gjøre det neste år. Det kommer selvfølgelig av at mekanismen er slik at ny pris alltid tar utgangspunkt i gammel pris. At avvikene ikke er uavhengige, vil kunne skape problemer ved en eventuell regresjonsanalyse.

13 Kurvefremskriving

319

- Graf 13-2: Caterpillar Tractor og Inland Steel: Det er ikke hver dag man ser tidsrekker som strekker seg tilbake til 1920-årene for fortjenesten til industribe­ drifter. Inntektene er i faste 1986-kroner. Inland Steel er den 4. største stålprodusent i USA og i en bransje som i stor grad påvirkes av konjunkturvariasjoner. Mønsteret i tidsrekken er preget av dette. Jeg ser moderate konjunkturbølger av uregelmessig varighet, men gjeme av størrelsesorden 8 år. Slike bølger ble be­ skrevet allerede i 1860 av den franske lege Clement Juglar og kalles derfor gjeme Juglar-bølgene. De antas å være knyttet til oppbygging av lager, men i hvilken grad de «virkelig finnes», er stadig kontroversielt. Selv om tidsrekken selvfølgelig også er påvirket av tilfeldig variasjon, kan ikke tilfeldig variasjon forklare at vi ser årrekker med oppgang og årrekker med nedgang. Inntrykket av Juglar-bølgene bekreftes av Caterpillar Tractors tidsrekke. Den har sterkere svingninger som stort sett er i samme fase som Inland Steel. Caterpillar Tractor er verdens største produsent av maskiner til å flytte jord. Det er påfallende med den dramatiske nedgangen for begge tidsrekker i åttiårene. Verdiene er også lave i 1930. Husk at inntektene er i faste kroner. Dette kan være et tegn på en såkalt Kondratjeff-bølge. De ble beskrevet av den russiske økonomen Nikolai Kondratjeff i 1930 som viste at i de 150 årene fra 1700 til 1940 var det mulig å skille ut tre perioder med langsom, men betydelig oppgang etterfulgt av like lang nedgang. Den nest siste nedgangsperioden endte i 1940, og den siste i nitti-årene. Det er mye som taler for at vi ved slutten av det nittende århundre er i starten på en oppgangsperiode til en ny Kondratjeff-bølge. - Graf 13-3: Kraftforsyningen i Norge. Det dominerende trekket er her sesongva­ riasjoner. Det har sine naturlige grunner. I tillegg ser det også ut til å være under­ liggende konjunkturaktige variasjoner pluss en oppadgående trend. - Graf 13-4: Prisindeks for jordbruksprodukter. Her er det også sesongvariasjo­ ner, men ikke så tydelig som ved kraftproduksjon. Tidsrekken er også preget av plutselige og store nivåendringer som ser ut til å holde seg. Hvis disse skyldes politiske grep, er de selvsagt vanskelige å forutsi med så enkle metoder som mønstergjenkjennelse. - Graf 13-5: Folkemengdens bevegelse. Her ser en lineær modell, eller en svak eksponensiell vekst ut til å være en god beskrivelse. I praksis foretar man selv­ sagt frem skri vinger av slike kurver ved å benytte mer detaljert viten om alders­ sammensetning, fruktbarhet og andre demografiske data.

Klassifikasjon av mønstertyper for økonomiske tidsrekker 1 denne uforbindtlige, subjektive analysen av tidsrekker har vi lagt vekt på følgende typer mønstre: 1. Trend, jevn stigning eller nedgang som tar seg ut som rett linje i diagrammet. Stigningskoeffisienten kan også tenkes å undergå en jevn forandring slik at linjen blir krum.

320 2.

3. 4. 5.

Del 3 Samvariasjon

Sesongvariasjoner, regelmessige svingninger som gjentar seg for hver periode (år, uke, døgn), konstante eller proporsjonale med det generelle nivået. Konjunkturvariasjoner fluktuerende avvik i en mer langsiktig trendbevegelse. Korrelasjon mellom naboverdier, positiv eller negativ etter som naboverdier ser ut til å holde seg på samme eller hver sin side av det mer generelle nivå. Random walk, tilfeldige sprang fra dagens nivå. Frembringer «drift».

Grunnen til at disse mønstertypene blir ansett som spesielt viktige når det gjelder økonomiske tidsrekker, er at det er relativt lett å forestille seg at de kan ha en natur­ lig årsak. Selv om vi ikke behøver å kjenne detaljene, vet vi jo at det finnes mekanis­ mer i økonomisk-sosiale systemer som kan forårsake slike mønstre. En positiv trend henger sammen med generell utvikling, teknologiske fremskritt, produksjon av kapitalvarer osv. Sesongvariasjoner er opplagte. Konjunktursvingninger kjen­ ner man riktignok ikke fullt ut årsaken til, men deres eksistens synes etter hvert uomtvistelig, og en del plausible forklaringer finnes. Når det gjelder korrelasjon mellom naboverdier er forklaringene vanligvis mer spesielle, slik som kjøpevaner, stabile værtyper etc. Er dette et tydelig trekk ved en tidsrekke, er det ingen grunn til å utelate det ved prognostisering. Det finnes også andre mønstertyper, men de er gjeme enda mindre «naturlige» og temmelig matematiske i sin definisjon, så vi vil ikke omtale dem her. De blir i første rekke aktuelle hvis man benytter ferdige programpakker i prognosearbeidet.

Fremgangsmåten ved tidsrekkeanalyse I praksis prøver man å gå frem omtrent slik:

1.

Analyse'. Først analyseres tidsrekken for å finne frem til hvilke mønstertyper som gjør seg gjeldende. Dette foregår dels visuelt, slik vi har gjort det, dels støttet av programvare som beregner en del mer håndfaste opplysninger. 2. Modellvalg'. Dernest velger man den tidsrekkemodellen man vil arbeide med. Har du for eksempel funnet at det meste du kan oppspore av mønster, er en lineær trend som i graf 13-1, vil den lineære regresjonsmodellen være et pas­ sende valg av modell. 3. Modelltilpasning'. Nå skal modellen tilpasses dataene ved at parametrene i modellen estimeres. En nokså vanlig metode er å estimere dem slik at summen av kvadratavvikene mellom de tilpassete verdieney, og observasjoneney, minimeres, med andre ord minste kvadraters metode. Parametrene i den lineære regresjonsmodell er a og /3 og disse estimeres da ved a og b som vi gjorde det i forrige kapittel. 4. Residualanalyse'. Til slutt bør den tilpassete modellen granskes for å se om den virker brukbar. Det skjer ved å beregne avvikene et — yt — yt for hver av de observerte y-verdiene. Disse avvikene representerer det vi ikke har greid å for­ klare ved hjelp av modellen. De kalles residualene, dvs. det som har blitt igjen. Hvis vi nå ser på residualene som en tidsrekke, kan vi undersøke om det er noe

13 Kurvefremskriving

5.

321

mønster i den. Finner vi et mønster, betyr det gjeme at modellen kan forbedres idet den ikke har greid å ta hånd om alt som på forhånd fantes av mønster. I så fall bør vi vurdere å velge en ny modell, eller en mer komplisert utgave av den første. Prognosering'. Er det ikke noe mønster igjen i residualene, tillater vi oss å lage prognosetall for fremtidige verdier ved å fremskrive forløpet av de mønstre vi har funnet.

Et grunnleggende metodeproblem I praksis vil det alltid være et problem at man tror man ser mønstre som i virkelig­ heten bare har oppstått ved tilfeldigheter eller som kun er kortvarige, forbigående fenomener. Skal man forlenge mønstre inn i fremtiden, må man ha tro på at de er noenlunde stabile. Det kan derfor være fornuftig å først se på den første halvdelen av dataene. Etter å ha tilpasset en modell, kan du så se om den også passer for den andre halvparten av dataene. Gjør den det, øker tilliten til at man har med stabile mønstre å gjøre. En slik fremgangsmåte forutsetter at du har mange observasjoner.

13.3 Tidsrekkemodeller: Den klassiske modell Det finnes et utall tidsrekkemodeller. Disse tilbys gjeme i form av programpakker. Vi skal her konsentrere oss om den klassiske, multiplikative modell som er en av de mest anvendte i analyse av økonomiske tidsrekker.

Den klassiske multiplikative modell yt ~ Ttstctit Tt = a + (it

Tidsrekkeverdiene y fremkommer her som et produkt av fire faktorer, en trendkomponent T som følger en rettlinjet bevegelse, en sesongindeks S, en konjunkturindeks C og et tilfeldig feilledd I med gjennomsnittsverdi lik 1. Den klassiske multiplikative modell bør tas i betraktning når de nevnte mønstertyper synes å være til stede. At leddene multipliseres, betyr bl.a. at sesongutslagene er proporsjonale med nivået. Tidsrekkene i grafene 13-3 og 13-4 er naturlige kandidater for anvendelse av den klassiske modell (for enkelhets skyld sløyfer vi ordet «multiplikativ»).

322

Del 3 Samvariasjon

Modelltilpasning Modelltilpasningen avy = TCSI foregår i følgende trinn:

Tilpasning av den klassiske modell til data: 1. 2. 3. 4. 5.

Isolering av TC-komponenten ved hjelp av glidende gjennomsnitt Estimering av trenden T ved minste kvadraters metode Beregning av sesongindeksene S ved gjennomsnitt over 57-tallene Isolering av C-indeksene ved C = TC / T Beregning av 7-indeksene ved I — y / TCS

Vi skal vise hvordan modelltilpasningen foregår ved hjelp av et eksempel der vi anvender Statark, vindu III-5. Vi viser Statarks grafer, mens tabellene er omorgani­ sert til et mer hensiktsmessig format. Se på tidsrekken i graf 13-3, kraftforsyningen i Norge. Her er det tydelige se­ songvariasjoner som øker med det generelle nivået. Den klassiske multiplikative modell ser ut til å være et lovende valg. Dataene er disse:

Tabell 13-1 Datafil Kraft96. Kraftforsyningen i Norge. Indeks: 1995 — 100. Rådata y. y

Jan

Feb

Mar

Apr

Mai

Jun

Jul

Aug

Sep

Okt

Nov

Des

1991 1992 1993 1994 1995 1996

117,4 104,7 111,9 118,3 117,0 130,8

123,0 108,6 112,9 120,6 115,5 128,3

107,7 107,2 108,8 97,3 110,0 106,9

93,8 101,5 93,3 82,0 98,6 83,7

86,9 83,6 79,3 78,0 84,1 80,6

72,2 77,9 79,9 81,9 79,7

58,8 71,0 70,3 66,4 76,2

67,1 80,9 76,9 74,5 81,0

77,2 89,0 91,9 83,8 86,7

84,3 100,6 101,9 94,4 98,7

93,0 108,6 117,6 100,8 122,1

100,2 107,5 120,7 105,5 130,3

Trinn 1: Isolering av TC ved hjelp av glidende gjennomsnitt Tidsrekkemodellenery = TSCI. Vi vet forutsetningsvis at sesongindeksene Sgjen­ tar seg for hvert år, dvs. 5jan 1991 = Sjan 1992 = ... osv. I alt er det derfor 12 ulike S-indekser. Legger vi sammen observasjonsverdiene f.o.m. januar 1991 t.o.m. de­ sember 1991 har vi tatt med innflytelsen av hver av de 12 S-ene én gang. Legger vi sammen alle tallene f.o.m. februar 1991 t.o.m. januar 1992, har vi også fått med hver av S-ene én gang. Fortsetter vi slik ved hver gang å sløyfe den eldste måned og ta med en ny, vil effekten av sesongvariasjonene i stor grad nøytraliseres. Hvis vi i tillegg deler hver sum på 12 vil også effekten av de tilfeldige avvik I minke be­ traktelig fordi gjennomsnitt har, som vi vet, mindre tilfeldig variasjon enn de opp­ rinnelige verdiene. Dette kalles å ta 12. ordens glidende gjennomsnitt, ettersom vi «glir» fremover i tallmaterialet og hver gang beregner gjennomsnittet av 12 verdier. Hadde vi hatt kvartalsvise observasjoner, ville vi selvsagt ha beregnet et 4. ordens glidende gjennomsnitt.

13 Kurvefremskriving

323

Det første tallet som fremkommer av en slik prosess er:

(117,4 + 123,0 + 107,7 + ... + 100,2) / 12 = 90,13 Det neste er:

(123,0 + 107,7 + 93,8 + ... + 104,7) / 12 = 89,07 osv. Det midterste tidspunktet blant de 12 første tallene er mellom juni og juli 1991. For å rette på dette upraktiske forhold, tar vi nå et glidende gjennomsnitt av 2. orden på disse tallene igjen, og får derved et sentrert 12. ordens glidende gjennomsnitt. Det første tallet blir derved (90,13 + 89,07)/2 = 89,60. Resten er vist i tabell 13-2 og i graf 13-6. Tabell 13-2: Resultatet av å isolere trend / konjunktur-komponenten ved hjelp av et sentrert 12. ordens glidende gjennomsnitt. TC

1991 1992 1993 1994 1995 1996

Jan

Feb

Mar

Apr

Mai

Jun

89,2 95,3 96,3 94,6

90,3 95,1 96,0 95,3

91,3 95,0 95,6 95,7

92,5 95,2 94,9 96,0

93,8 95,6 93,9 97,0

94,8 96,6 92,6 99,0

Jul

Aug

Sep

Okt

Nov

Des

89,6 95,4 97,4 91,9 100,6

88,5 95,9 98,0 91,6 101,7

87,9 96,1 97,8 92,0 102,1

88,2 95,8 96,9 93,2 101,3

88,3 95,3 96,3 94,1 100,6

88,4 95,2 96,4 94,3

Kraftforsyningsindeks 1995 = 100

Graf 13-6: Datafd Kraft96. De opprinnelige forsyningsindeksene er vist som punkter, og TC-tallene som en sammenhengende kurve. TC-tallene er hentet fra tabell 13-2.

324

Del 3 Samvariasjon

Trinn 2: Estimering av trenden T ved minste kvadraters metode I TC-komponenten står T for trenden som ifølge modellen er rettlinjet. Konjunkturindeksene C må da bære ansvaret for alt som avviker fra en rett linje i TC-tidsrekken. Egentlig er dette å tøye begrepet konjunktur for langt, da de langsomme uregelmessige svingningene i TC-verdiene kan skyldes mye annet enn det vi van­ ligvis forbinder med konjunkturvariasjoner, som vel i første rekke skulle påvirke etterspørselen etter kraft. Tilbudet (produksjonen) er påvirket av tilsiget som ikke er underlagt konjunkturvariasjoner slik vi vanligvis oppfatter ordet. Prisfastsettel­ ser spiller også en vesentlig rolle. I tillegg er det en mulighet for at vi faktisk intro­ duserer «falske» konjunkturbevegelser når vi tar glidende gjennomsnitt. Et enkelt, stort avvik vil jo forplante seg 6 perioder i begge retninger. Det kan også ligge igjen rester av sesongbevegelser. Betegnelsen konjunkturindeks brukes derfor på en spe­ siell, teknisk måte i denne sammenhengen, som avviker noe fra den gjengse be­ tydningen. En grei, objektiv måte å isolere Tpå, er å legge en rett linje gjennom TC-verdiene ved minste kvadraters metode. Vi finner: b = 0,156 (stigning pr. måned) a = 89,776 (Ts verdi januar 1991)

Kraftforsyningsindeks med Glidende gjennomsnitt og Trend

Måned nummer

Graf 13-7: Resultatet av å bruke minste kvadraters metode for å isolere trenden. Den rettlinjete trenden er inntegnet i tillegg til TC-tallene

13 Kurvefremskriving

325

Linjens likning er således:

T = 89,776 + 0,156 t

der t = 0 i januar 1991 og øker 1 enhet for hver måned, dvs. t teller antall måneder som er gått siden januar 1991. Linjen er tegnet inn i graf 13-7. Trinn 3: Beregning av sesongindeksene S ved gjennomsnitt over SI-tallene Av TC-tallene ser vi at sesongutslagene er eliminert samtidig som de irregulære avvik har skrumpet betraktelig inn. En beklagelig bieffekt er at vi ikke har noen LC-verdier for de 6 månedene i begge ender.

Graf 13-8: Den heltrukne linjen viser sesongindeksene S nederst i tabell 13-3. Den gjentar seg med samme forløp for hvert år. Punktene viser SI-tallene.

Hvis vi skal lage prognoser, er det ikke nok å fjerne sesongvariasjonene i de eksisterende dataene. Vi må også beregne sesongindeksene, slik at vi kan skaffe sesongvariasjonene tilbake igjen i prognosetallene. Dividerer viy-verdiene på TCverdiene vi har funnet, skal vi ifølge modellen få tilbake S7-verdiene:

326

Del 3 Samvariasjon

Tabell 13-3 Beregning av SI — y / TC og deretter sesongindeksene S ved gjennomsnitt over SI-tallene SI

Jan

Feb

Mar

Apr

Mai

Jun

Jul

Aug

Sep

Okt

Nov

Des

1991 1992 1993 1994 1995 1996

1,17 1,17 1,23 1,24

1,20 1,19 1,26 1,21

1,17 1,14 1,02 1,15

1,10 0,98 0,86 1,03

0,89 0,83 0,83 0,87

0,82 0,83 0,88 0,81

0,66 0,74 0,72 0,72 0,76

0,76 0,84 0,78 0,81 0,80

0,88 0,93 0,94 0,91 0,85

0,96 1,05 1,05 1,01 0,97

1,05 1,14 1,22 1,07 1,21

1,13 1,13 1,25 1,12

S

1,20

1,21

1,12

0,99

0,85

0,83

0,72

0,80

0,90

1,01

1,14

1,16

Hver kolonne i tabell 13-3 inneholder estimater av sesongindeksene for en og samme måned. Variasjonene innen hver måned skyldes feilleddet I. De endelige estimatene for sesongindeksene er derfor gjennomsnittsindeksen for hver måned som er beregnet på den nederste linjen. Når historiske data publiseres, er de ofte på forhånd sesongkorrigert. Dette opp­ når man ved å dividerey-verdiene i en tidsrekke med de tilhørende sesongindekser. Da fjernes sesongvariasjonene slik at vi bedre kan se eventuelle underliggende bevegelser. Merk deg at ved sesongkorreksjon beholdes feilleddene i tidsrekken fordi y/5 = TCI.

Trinn 4: Isolering av C-indeksene ved C — TC / T Konjunkturindeksene C finner vi nå enkelt ved å dividere TC-verdiene med F-verdiene. Disse finner vi ved å sette inn suksessive verdier av t i uttrykket T = 89,776 + 0,156 t. Resultatet er vist i tabell 13-4:

Tabell 13-4 Konjunkturindeksene C C

Jan

Feb

Mar

Apr

Mai

Jun

Jul

Aug

Sep

Okt

Nov

Des

1991 1992 1993 1994 1995 1996

0,97 1,02 1,01 0,97

0,98 1,02 1,01 0,98

0,99 1,01 1,00 0,98

1,00 1,01 0,99 0,98

1,02 1,02 0,98 0,99

1,03 1,02 0,96 1,01

0,99 1,03 1,03 0,95 1,02

0,97 1,03 1,04 0,95 1,03

0,97 1,03 1,03 0,95 1,04

0,97 1,03 1,02 0,96 1,03

0,97 1,02 1,01 0,97 1,02

0,97 1,02 1,01 0,97

Modelltilpasningen er nå i realiteten ferdig. Vi har estimert sesongindeksene 5 for hver måned, trenden Tog konjunkturindeksene C. For å skille våre estimater fra de hypotetiske, «virkelige» modellverdiene, vil vi bruke «hatter» over symbolene. Den tilpassete, eller estimerte, modell er da: Formel 13-1:

yt = TtStCt

Tt = a + bt

13 Kurvefremskriving

327

Kraftforsyning Sesongindeks og Konjunkturindeks

0,6 Måned nummer

Graf 13-9: Konjunkturindeksene C fra tabell 13-4 er vist som en stiplet linje sammen med sesongindeksene (heltrukket linje) og SI-tallene som punkter.

Graf 13-10: Den tilpassete modellen i formel 13-1 er vist som heltrukket linje. Punktene er de opprinnelige observasjonene. Forskjellen tilskrives feilleddene I.

328

Del 3 Samvariasjon

Her er a = 89,78 når t - 0 i januar 19791, b - 0,156. Tt kan således beregnes foret hvilket som helst tidspunkt t ved å sette den inn i formelen. Sesongindeksene vi har funnet tidligere: Mnd

Jan

Feb

Mar

Apr

Mai

Jun

Jul

Aug

Sep

Okt

Nov

Des

S

1,20

1,21

1,12

0,99

0,85

0,83

0,72

0,80

0,90

1,01

1,14

1,16

Konjunkturindeksene C har vi funnet kun for et begrenset tidsrom, fra juli 1991 til november 1995. Graf 13-10 viser den tilpassete modellen. Vi må imidlertid også sjekke hvor god modellen egentlig er. Det gjør vi ved å studere feilleddene I. Trinn 5: Beregning av I-indeksene ved I = y / TCS

Tabell 13-5 De estimerte feilleddene I beregnet ved y / TCS 1 1991 1992 1993 1994 1995 1996

Jan 0,98 0,98 1,02 1,03

Feb

0,99 0,98 1,03 1,00

Mar

1,05 1,02 0,91 1,03

Apr 1,11 0,99 0,87 1,04

Mai

1,04 0,97 0,97 1,01

Jun

Jul

Aug

Sep

Okt

Nov

Des

0,98 0,99 1,06 0,96

0,91 1,03 1,00 1,00 1,05

0,95 1,06 0,98 1,02 1,00

0,98 1,03 1,04 1,01 0,94

0,95 1,04 1,04 1,00 0,97

0,92 1,00 1,07 0,94 1,07

0,98 0,97 1,08 0,97

Graf 13-11: Feilleddene 1 (heltrukket linje) sammen med de opprinnelige observasjonene y. Feilleddene ser ut til å være uten mønster.

13 Kurvefremskriving

329

Residualanalyse Vi ser at residualene i graf 13-11 virker nokså fri for mønster. Verdiene hopper opp og ned på en uberegnelig måte som er svært forskjellig fra de jevne konjunkturbe­ vegelsene, enda utslagene er av samme størrelsesorden. Et erfarent øye vil likevel spore en tendens til positiv korrelasjon; er man først på en side av streken, vil man ofte være der i neste periode også. Dette kan kanskje tas vare på i en mer raffinert modell. Beregninger viser at gjennomsnittsverdien til /-ene i tabell 13-5 er 1,00, mens standardavviket er 0,047. Det kan være nyttig å ha en idé om hvor store prognosefeil vi omtrent kan vente oss. Hvis vi kan anta at /-ene er normalfordelte omkring 1 og uavhengige, kan vi benytte z-tabellen til å finne sannsynligheter. Den grafiske fremstillingen av /-ene gir inntrykk av at dette ikke virker helt urimelig. I det minste har vi mange små og få store avvik. Dette betyr at omtrent 95 % av avvikene vil holde seg innenfor ±2s = ±0,094 fra ESC-linjen. Muligens vil du synes at denne residualanalysen har en lavere standard når det gjelder presisjonsnivå enn det du hittil har vært vant til i denne boken. Det er helt riktig. Den klassiske multiplikative modell er såpass innviklet fra et statistisk syns­ punkt, og usikkerheten med hensyn til hvor godt modellen i fremtiden vil passe til virkeligheten er så dominerende, at det er liten grunn til å tilstrebe mer enn et grovt anslag av mønsteret i de historiske feilledd. Kurvefremskriving Vi er nå klare til å benytte den tilpassete modellen til det vi har laget den for, nemlig å beregne prognosetall. Dette er i prinsippet meget enkelt. Det er bare å forlenge trendlinjen og multiplisere med de aktuelle sesongindekser samt konjunkturindek­ sene. Men hva med konjunkturindeksene? Se igjen på graf 13-9. Ville du påtatt deg å forlenge konjunkturene inn i fremtiden? Det er opplagt at i dette tilfellet kommer vi ikke utenom å ta med andre betraktninger enn kun de historiske verdier. Tidsrekkeanalyse er ikke nok. De som eventuelt skal bruke prognosetallene må kobles inn med vurderinger av den fremtidige konjunkturutvikling. Noe vi imidlertid kan gjøre på egen hånd, er å lage prognosetall for gitte scenarioer, tenkte situasjons­ typer. La oss først velge en tidshorisont for prognosene. Når vi kun har data for 5,5 år, er det liten vits i å se alt for langt fremover. La oss prøve med nye 2 år. I vårt historiske materiale i tabell 13-4 har konjunkturbunnen vært på 95 % og toppen på 104 % av en normaltilstand. Dette kan vi, i mangel av noe bedre, ta som utgangspunkt for scenarioene som vi velger så enkle som mulig: «Optimistisk» scenario: Copt = 104 % (konstant lik 106 %) «Realistisk» scenario: Creai = 100 % «Pessimistisk» scenario: Cpess = 95 %

Beregningen av prognosetall kan nå ta til. For det realistiske scenarioet får vi for juni 1996 som er det første tallet vi ikke har data for: y65 = ^65^65^65 = (89,77 + 0,156 x 65) x 0,83 x 1,00 = 83,4

330

Del 3 Samvariasjon

Vi har satt t = 65 fordi juni 1996 ligger 65 måneder etter januar 1991 hvor t — 0 i henhold til regresjonslinjen. For det optimistiske scenariet vil tallet bli 1,04 ganger høyere, og for det pessimistiske 0,95 ganger så høyt. Prognosetallene er vist for 1996 i tabell 13-6, og for de neste to år i graf 13-12. Tabell 13-6 De opprinnelige dataene medprognosetall som bygger på det realistiske scenario for månedene juni til desember 1996. J'

Jan

Feb

Mar

Apr

Mai

Jun

Jul

Aug

Sep

Okt

Nov

Des

1991 1992 1993 1994 1995 1996

117,4 104,7 111,9 118,3 117 130,8

123 108,6 112,9 120,6 115,5 128,3

107,7 107,2 108,8 97,3 110 106,9

93,8 101,5 93,3 82 98,6 83,7

86,9 83,6 79,3 78 84,1 80,6

72,2 77,9 79,9 81,9 79,7 83,4

58,8 71 70,3 66,4 76,2 72,1

67,1 80,9 76,9 74,5 81 80,1

77,2 89 91,9 83,8 86,7 90,4

84,3 100,6 101,9 94,4 98,7 101,4

93 108,6 117,6 100,8 122,1 114,8

100,2 107,5 120,7 105,5 130,3 116,8

Kraftforsyningsindeks med to års kurvefremskrivning 140 -

Måned nummer

Graf 13-12: Kurvefremskriving over to år i henhold til det realistiske scenario med C = 100 %. De observerte verdiene er vist som punkter.

Vurdering av prognosefeilenes størrelsesorden Når vi nå har laget prognosetall for 2 år fremover, kan det være nyttig å ha en viss idé om hvor store feilmarginene er. Hvor store avvik fra prognosetallene kan vi vente oss? Vi opererer i denne sam­ menhengen med tre feilkilder:

13 Kurvefremskriving

331

1.

Tilfeldige avvik I i forhold til den «sanne» FSC-kurven. Disse har vi en bra oversikt over idet de estimerte /-ene hadde et standardavvik på 0,047. Feilene vil derfor holde seg mellom 109 % og 91 % av TSC-verdiene i anslagsvis 95 % av tilfellene, hvis de er uavhengige. 2. Modelltilpasningsfeil'. De estimerte parametrene F, S og C kan avvike fra de korrekte. En viss idé om usikkerheten angående T kan vi få ved å analysere minste kvadraters tilpasning av den rette F-linjen til FC-kurven. Usikkerheten angående S fremgår ved å studere variasjonen i de individuelle månedsindeksene i tabellen. Den største usikkerheten knytter seg imidlertid til konjunkturindeksene C som vi ikke en gang har våget å forlenge inn i fremtiden i form av en matematisk funksjon. 1 stedet stipulerte vi en øvre og nedre grense på 104 % og 95 % basert på skjønnsmessig vurdering av diagrammet over C. 3. Feil modellvalg-. Selv om observasjonene våre fra 1991 til 1996 tyder på at en klassisk, multiplikativ modell er realistisk, er det jo ikke sikkert at det vil fort­ sette å være slik i fremtiden. Riktignok har vi gode argumenter for å benytte hovedformen TCSI fordi trenden har sammenheng med velstandsutviklingen. Sesongindeksene skyldes hovedsakelig årstidene, og konjunktursvingninger ser ut til å være noe vi må leve med. I modellvalget ligger også innbakt en forutsetning om at parametrene, dvs. trendens nøyaktige stigning og sesongindeksens størrelse er konstanter og derfor uforanderlige innenfor vår prognosehorisont. Det samme gjelder konjunkturutviklingen, men siden vi ikke har esti­ mert noen parametre her, forsvinner problemstillingen i dette tilfellet. Når vi ikke tar noen sjanse, gjør vi heller ingen feil.

13.4 Sammendrag Prognosering er vanskelig og krever hjelp av all den informasjon og ekspertise som er tilgjengelig på området. Et av hjelpemidlene i prognosering er tidsrekkeanalyse. Dette er en kvantitativ metode som hovedsakelig benytter seg av den informasjon som ligger i historiske verdier av tidsrekken. I tillegg kan man dra nytte av annen informasjon som for eksempel om det er naturlig å vente sesongvariasjoner og i så fall hvor mange tidsperioder det er i hver sesongsyklus. Tidsrekkeanalyse dreier seg om å finne mønstre i de observerte verdier. Man benytter kvantitative teknikker for å sile vekk tilfeldige avvik slik at eventuelle mønstre kommer tydeligere frem. Dette skjer ved en eller annen form for gjennom­ snittsberegning, for eksempel glidende gjennomsnitt. Minst like viktig som kvanti­ tativ analyse er visuell analyse. Det er utrolig hva man kan se av mønstre med det blotte øye. Idiotsikkert er det også når du sammenholder med hvor lett det er å utføre imponerende kvantitativ analyse på falske premisser. De vanligste mønstertypene i økonomiske tidsrekker er lineær og eksponensiell trend, sesongvaria­ sjoner, konjunkturvariasjoner og korrelasjon mellom naboverdier sett i forhold til det generelle nivået.

332

Del 3 Samvariasjon

Når du har funnet hvilke mønstertyper som gjør seg gjeldende, må du velge en tidsrekkemodell som du vet har iboende de samme mønstertyper. En tidsrekkemodell er en arbeidshypotese om en matematisk prosess som frembringer tidsrekkeverdiene. Det finnes mange tidsrekkemodeller. Alle tidsrekkemodeller er karak­ terisert ved parametre. Når du har valgt tidsrekkemodelltype, tilpasses denne til de observerte verdier ved å estimere parametrene. Ofte skjer dette ved minste kvadraters metode. Vi har lagt spesiell vekt på den klassiske, multiplikative modell, både fordi den er forholdsvis enkel, mye benyttet og fordi den ofte passer spesielt godt til økono­ miske tidsrekker. yt = Ttstctit Tt = a + /3t

Her ery tidsrekkeverdiene, Ten lineær trend, S sesongindeks, Ckonjunkturindeks og / irregulært avvik. Estimeringen foregår på følgende måte: 1. 2. 3. 4. 5.

Isolering av 7C-komponenten ved hjelp av glidende gjennomsnitt Estimering av trenden T ved minste kvadraters metode Beregning av sesongindeksene 5 ved gjennomsnitt over ST-tallene Isolering av C-indeksene ved C — TC I T Beregning av /-indeksene ved / = y / TCS

Det er alltid viktig å foreta en residualanalyse før man sier seg tilfreds med en modell. Residualene er det som den tilpassete modellen ikke har greid å forklare i de historiske observasjonene. Poenget er at det ikke bør være noe mønster igjen i residualene når du ser på dem som en tidsrekke. I så fall burde jo også det mønsteret ha vært forklart ved en modell. Er resultatet av residualanalysen tilfredsstillende, er du klar til å beregne prognosetall. Det skjer rett og slett ved å fremskrive de møn­ strene du har funnet. Dette vil ofte være et stort problem hvis konjunkturindeksene spiller en dominerende rolle. Et fornuftig alternativ er da å lage prognoser for ulike konjunkturscenarioer. På den måten kommer forutsetningene for prognosetallene bedre frem, og du står mindre laglig til for hogg når de viser seg å være gale. Det finnes tre feilkilder for prognosetall som under uheldige omstendigheter kan forsterke hverandre: irregulære avvik, modelltilpasningsfeil og modellvalgsfeil. I en viss grad kan en statistisk analyse av tilfeldig variasjon gi en pekepinn om stør­ relsesordenen til de to første feiltypene. Når det gjelder valg av modell, er infor­ masjon om tidsrekkens natur fra andre kilder enn de historiske data nyttig. Ved praktisk prognosering er det bortimot nødvendig å benytte datamaskin, gjeme med kommersielle tidsrekkeanalyseprogrampakker som det finnes mange av. Husk imidlertid på at det kun er ønsketenkning å tro at man kan putte historiske observasjoner inn i en datamaskin og få ferdige prognosetall ut. Prosessen må fo­ regå interaktivt, særlig ved valget av modell. Til slutt må vi igjen minne om at prognosetall ved tidsrekkeanalyse stort sett må sees på som et ledd i en mer omfattende prognoseringsprosess. Det finnes nesten

13 Kurvefremskriving

333

alltid mye betydningsfull informasjon av mer kvalitativ art som det er vanskelig å få med i kvantitativ analyse.

13.5 Oppgaver Øvelsesoppgave Bruk datafilen Kraft96 og utfør selv den samme analysen som vi har gjort i gjennomgangseksemplet i kapitlet. Analysen kan gjøres for hånd, med et regneark, eller for eksempel med et program som Statark. Arbeidsheftet viser hvordan Minitab og Statark kan benyttes til dette formålet. Oppgave 1 Kraftforsyning i syttiårene Tabell 13-7 viser tall helt tilsvarende dem vi har arbeidet med i kapitlet, men for perioden 1975 til 1979. Tilpass en klassisk, multiplikativ modell, og sammenlign sesongindeksene og trenden med det vi har funnet for perioden 1991 til 1996. Hvilke kommentarer har du? Lag også prognoser for to år fremover.

Tabell 13-7 Datafil E-Kraft. Historiske verdier for kraftforsyningen i Norge. Indeks: 1975 = 100. Kilde: Statistisk sentralbyrå. Indeks

Jan

Feb

Mar

Apr

Mai

Jun

Jul

Aug

Sep

Okt

Nov

Des

1974 1975 1976 1977 1978 1979

111 117 124 120 123 141

113 118 126 115 129 135

110 108 123 106 120 124

98 108 108 97 110 112

91 87 92 85 91 101

85 83 88 81 85 96

77 72 76 65 77

81 80 87 68 82

93 93 101 83 95

108 103 103 95 105

114 115 111 116 126

113 118 117 116 141

Oppgave 2 Prisindeks for jordbruksprodukter Graf 13-4 og tabell 13-8 viser hvordan prisindeksen for jordbruksprodukter har utviklet seg i tidsrommet 1991 til 1996. Analyser dataene og ta stilling til om en klassisk modell ser brukbar ut. Tilpass modellen, og lag prognoser for to år frem­ over. Analyser også residualene og ta stilling til om de har et tilfredsstillende møns­ ter. Hvilke kommentarer har du om modellen i lys av at indeksene er laget i forhold til 1985 som er satt lik 100? Tabell 13-8 Prisindeks for jordbruksprodukter. 1985 = 100. Kilde: Statistisk årbok 1996 Indeks

Jan

Feb

Mar

Apr

Mai

Jun

Jul

Aug

Sep

Okt

Nov

Des

1991 1992 1993 1994 1995

119 116 112 115 110

121 117 112 115 110

121 118 113 115 111

121 118 113 116 110

122 118 113 117 112

123 123 114 122 116

121 121 116 115 111

118 118 115 113 108

119 118 114 112 107

119 118 113 110 105

121 120 115 112 106

121 120 116 113 108

DEL 4

Avrunding 14 Valg av metode 15 Videre studium av statistikk

337

14 Valg av metode 14.1 Målenivå 14.2 Metodevalg

14.1 Målenivå Du har nå vært igjennom en rekke ulike statistiske metoder. Det er naturlig hvis du nå føler at du mangler oversikt og synes det er vanskelig å velge riktig metode til enhver tid. Det skal vi rette på i dette kapitlet. Utgangspunktet for valg av metode er de data du har. Du har sikkert lagt merke til at vi noen ganger har data i form av tellinger, andre ganger i form av rangeringer, men som regel i form av målinger. Dette kaller vi gjeme dataenes målenivå og har blitt gjennomgått i avsnitt 4.7. Målenivået er helt essensielt for valg av metode. Målenivået henger sammen med hvordan vi registrerer observasjonene på en skala i form av tall. Det er viktig at dette gjøres slik at de matematiske operasjoner vi etterpå ønsker å utføre, har mening i forhold til den måten observasjonene ble regi­ strert på. Målenivået begrenser derfor utvalget av statistiske metoder som kan an­ vendes.

Eksempel Tenk deg at du har laget et spørreskjema der respondentene svarer om de er «helt uenig», «nokså uenig», «verken enig eller uenig», «nokså enig» eller «helt enig» i en påstand. Deretter går du rundt og intervjuer 100 mennesker. For å registrere svarene på en datamaskin, koder du de fem alternativene henholdsvis som A, B, C, D, E. Du kan nå selvsagt telle opp hvor mange svar du har fått av hver sort. La oss si resultatet er: Nominalskala:

Kode

A

B

C

D

E

Tellinger:

Antall

2

8

40

32

18

Nå kan du bruke statistiske metoder til for eksempel å beregne et konfidensintervall for E-andelen i populasjonen. Antall E-er er binomialfordelt. Siden vi har så mange

338

Del 4 Avrunding

observasjoner, kan vi bruke normaltilncermelsen til beregningen. Ved hjelp av me­ toden i kapittel 11.1 finner vi med n = 100 og a = 18 et 95 % konfidensintervall: pE = 0,18 ± 0,075

Slik kunne vi gjøre for hver av kodene. Synes du dette var interessant? Vel - vi har jo egentlig mer informasjon. Det er liten grunn til å begrense oss til det laveste målenivået som tellinger utgjør, når observasjonene faktisk er ordnet. Vi vet jo at E representerer en større grad av enighet enn D, D større enn C osv. Da er det mer naturlig å rangere observasjonene: Ordinalskala:

Rang

1

2

3

4

5

Antall

2

8

40

32

18

Nå kan vi for eksempel lage et konfidensintervall for medianresponsen ved hjelp av ordningsobservatorene. Metoden i kapittel 3.3 gir for et 95 % konfidensintervall c = 40. Det vil si at konfidensintervallet for medianresponsen i populasjonen går fra 3 til 4 eller fra «verken enig eller uenig» til «nokså enig». Nå har vi brukt den metoden som er naturlig i forhold til det målenivået dataene ligger på, nemlig som ordnete eller rangerte observasjoner. Det er imidlertid fristende å beregne stikkprøvegjennomsnittet og så lage et kon­ fidensintervall for gjennomsnittssvaret i populasjonen ved hjelp av Students t. Da må dataene oppfattes som målinger. Intervallskala:

Verdi

1

2

3

4

5

Antall

2

8

40

32

18

Stikkprøvens gjennomsnitt og standardavvik er henholdsvis 3,56 og 0,95. Et tosi­ dig 95 % konfidensintervall for g basert på Ametoden i kapittel 10.3 blir:

/z = 3,56 ± 0,19 Dette er jo ganske presist, men er det meningsfylt? Hva betyr en konfidensintervallvidde på 0,38? Egentlig har du observasjoner som kun er ordnet i forhold til hverandre. Du vet nemlig at «nokså enig» er mindre enig enn «helt enig», osv. Vi kaller dette observasjoner på en ordinalskala. Når du begynner å legge sammen observasjonene for å beregne gjennomsnitt, antar du i tillegg automatisk at av­ standen mellom «helt enig» og «nokså enig» er like stor som mellom «nokså enig» og «verken enig eller uenig», osv. rett og slett fordi du har tatt deg den frihet å sette disse «verdiene» på svarene. Dette ville i så fall være en intervallskala. Du kan likevel ikke være sikker på at dette er rimelig uten at du først har forsikret deg om at det faktisk er like stor psykologisk avstand mellom svaralternativene. Dessverre syndes det mye mot dette i praksis.

14 Valg av

metode

339

Nominal- eller kategoriskala Dette er det laveste målenivået. Vi registrerer kun hvilken kategori en observasjon faller i. For eksempel kan vi registrere hvorvidt en kunde er mann eller kvinne. Variabelen er da «kjønn», med to mulige «verdier» eller kategorier «mann» og «kvinne». Kategoriene står ikke i et ordnet forhold til hverandre. Vi kan vanskelig si at mann er mer enn en kvinne eller omvendt. Ordet «nominal» kommer av «navn». Vi har rett og slett kun navngitte kategorier. Selvfølgelig kan vi ha flere enn to kategorier. En annen variabel kan ha å gjøre med hvilken vare kunden kjø­ per: «varesort». Hver vare er da en kategori. Vi kaller observasjoner knyttet til nominalskalaer for «tellinger», fordi vi i prak­ sis må begrense oss til å telle opp hvor mange observasjoner som faller i hver kategori, - eller kategorikombinasjon, hvis vi har flere variabler. Med en variabel er som regel interessen vår knyttet til andelene til de ulike kate­ gorier. Med to kategorier bruker vi binomialfordelingen eller normaltilnærmelsen til en andel ved mange observasjoner. Med to variabler er vi ofte interessert i om det er sammenheng mellom dem; tenderer menn til å kjøpe en spesiell vare i forhold til kvinner? For 2 X 2-tabeller bruker vi Fishers eksakte test eller normaltilnærmelsen til to andeler hvis vi har mange data. For større tabeller bruker vi kji-kvadratfordelingen.

Ordinalskala Ordinalskala er på det nest laveste målenivået. Variablenes «verdier» er i utgangs­ punktet stadig kategorier, men kategoriene er ordnet i forhold til hverandre. Det mest typiske eksemplet i våre fag er spørreskjemaer som nevnt i eksemplet over. Det at kategoriene er ordnet - «helt enig» er mer enn «nokså enig» betyr at vi kan rangere svarene. For eksempel: helt enig — 5, nokså enig = 4, verken enig eller uenig = 3, nokså uenig = 2, helt uenig = 1. Her gjelder det å passe på at disse tallene bare er ranger og ikke nødvendigvis verdier som vi kan regne med. Da må vi i så fall ha en intervallskala, som er neste nivå. Med observasjoner på ordinalskala, kan vi bruke medianen som observator. Ved én stikkprøve kan vi bruke ordningsobservatorene. Med utgangspunkt i parvise observasjoner bruker vi Wilcoxons tegnrangtest på differansene, og trenger egent­ lig bare å vite hvilken plass differansene kommer på når de ordnes, ikke hvor store de egentlig er. Ved to uavhengige stikkprøver bruker vi Mann-Whitneytesten.

Intervall- og forholdstallskala Intervallskalaer er på det nest høyeste målenivået. Her er observasjonene målinger i form av tall som kan plottes inn på en skala slik at avstanden mellom tallene har mening. Slike skalaer har en konstant måleenhet som gjør at vi kan beregne av­ standen mellom to vilkårlige punkter. Forholdet mellom to avstander vil være uav­ hengig av valg av måleenhet og nullpunkt. Det betyr at de fire regningsartene addi­ sjon, subtraksjon, multiplikasjon og divisjon kan utføres på en meningsfull måte på avstander mellom to punkter på skalaen.

340

Del 4 Avrunding

Det mest vanlige eksempel på en intervallskala som ikke samtidig er en forholdstallskala, er temperaturskalaen. Vi observerer kvikksølvsøylen og noterer gradtallet der søylen ender. Det er like stor avstand mellom 5 og 10 grader som mellom 10 og 15 grader. Det gjelder enten vi måler i Fahrenheit eller Celsiusgrader, men lengden på søylen i seg selv har ingen mening. Den er ikke dobbelt så lang ved ti grader som ved fem, like lite som det er meningsfylt å si at det er dobbelt så varmt ved ti grader som ved fem. Det er dette som skiller en intervallskala fra en forholdstallskala som representerer det høyeste målenivået. Her har vi i tillegg et na­ turlig nullpunkt, slik at alle fire regningsartene kan anvendes ikke bare på inter­ valler, men også direkte på målingene. Meter, kilogram og kroner er eksempler på måleenheter for forholdstallsskalaer. For våre formål er det ikke nødvendig å skille mellom intervall- og forholdstalls­ skalaer. De resterende statistiske tester i dette pensumet - de som er knyttet til normalfordelingen og studentfordelingen - kan anvendes for begge skalaer. I statistiske anvendelser vil du ofte finne at responser på spørreskjemaer med ordnete rubrikker av typen «helt enig», «nokså enig» osv. blir benyttet som om det var målinger på en intervallskala. Det finnes metoder for å konstruere skalaene slik at rubrikkene faktisk får psykologisk like store avstander slik at dette rettferdig­ gjøres. I praksis hopper man som regel over dette. Dette kan gi misvisende resulta­ ter hvis den psykologiske avstanden mellom punktene er langt fra konstant. Hold et øye med dette og vær kritisk!

Frivillig reduksjon av målenivå Selv om dataene foreligger på et høyt målenivå, kan man utmerket godt bruke metoder som kun forutsetter et lavere nivå. I prinsippet kaster man da bort infor­ masjon om dataene som burde kunne bli benyttet, men av og til kan det være direkte nyttig. Har du en stikkprøve med målinger (intervall eller forholdstall) og ønsker å teste på den sentrale tendens (gjennomsnitt eller median), er det naturlig å bruke /-testen. Da utnytter du målingene til det fulle, men du kan også bruke Wilcoxons tegnrangtest, eller ordningsobservatorene. Da utnytter du kun den innbyrdes rangerin­ gen av observasjonene - du opererer på en ordinalskala. Til gjengjeld slipper du å bekymre deg for om gjennomsnittet er normalfordelt. Den bekymringen er størst ved få data. Wilcoxons tegnrangtest er dessuten ganske sterk, så du taper som regel lite på å velge den istedenfor. Har du to uavhengige stikkprøver med målinger, og ønsker å sammenligne po­ pulasjonenes beliggenhet, er det naturlig å benytte /-testen. Du kan også benytte Mann-Whitneytesten. Da registrerer du kun om et tall er større enn et annet, men ikke hvor mye større. Du opererer i realiteten på et ordinalt nivå, og slipper igjen å bekymre deg for om differansen til gjennomsnittene er normalfordelt. Mann-Whit­ neytesten er en relativt sterk test, og som regel å foretrekke fremfor /-testen ved få data.

14 Valg

av metode

341

I lineær korrelasjonsanalyse undersøker vi om det er signifikant lineær sammen­ heng mellom to variabler. Egentlig er dette svært begrensende. Ofte vil det kunne være mer interessant å undersøke om det er en eller annen form for monoton sam­ menheng, men ikke nødvendigvis lineær. Med «monoton» menes at den ene stiger når den andre stiger, eller at den ene synker når den andre stiger, men ikke nødven­ digvis like fort hele tiden slik som når sammenhengen er lineær. Dette kan vi fak­ tisk få til på en meget enkel måte. Vi erstatter de opprinnelige x-målingene med sine ranger, og likeledes y-målingene med sine ranger. Deretter fortsetter vi på vanlig måte med lineær korrelasjonsanalyse, men på rangene istedenfor. Dette går bra så lenge vi har store stikkprøver (n > 30). Dette betyr at vi erstatter Pearsons korrelasjonskoeffisient - som er den vi har gjennomgått i kapittel 12.2 - med Spearmans. Eksempel: Pearsons og Spearmans korrelasjonskoeffisient y

8

64

27

1

216

729

512

125

343

X

2

4

6

8

10

12

14

16

18

Her tenderer y til å stige når x stiger, men sammenhengen er ikke overbevisende lineær. En lineær modell vil derfor neppe være god. Vi får en korrelasjonskoeffisi­ ent på 0,58 hvis vi regner den ut, men den er ikke signifikant forskjellig fra null. Det ser vi gjennom en test som gir en t = 1,86 mot en ta — 2,36 i en tosidig test på 5 %-nivået. Vi må altså beholde en hypotese om at p er null. Hvis vi imidlertid erstatter verdiene med deres ranger, får vi: y

2

4

3

1

6

9

8

5

7

x

1

2

3

4

5

6

7

8

9

Her er korrelasjonskoeffisienten lik 0,68. En test på om p = 0 er en test på om det er en lineær sammenheng mellom rangene. Den gir t = 2,48 som viser at vi må for­ kaste nullhypotesen i en tosidig test på 5 %-nivået. Altså er rangene lineært positivt korrelert, og vi har funnet aty stiger monotont med x i populasjonen. Siden vi nå har gitt avkall på de opprinnelige målingene, kan vi imidlertid ikke bruke dette resulta­ tet til for eksempel å lage prognoser for nyey-verdier basert på nye x-verdier. Alt vi kan si er at hvis en x-verdi er høyere enn en annen x-verdi, venter vi også aty-en til den siste x-verdien skal være høyere enn y-en til den første. Vi trenger relativt store stikkprøver for at normaltilnærmelsen skal være bruk­ bar. Det er jo den vi indirekte benytter når vi tester på om korrelasjonskoeffisienten er null. Eksemplet ovenfor har egentlig for få data. Ved mindre stikkprøver finnes det imidlertid en spesiell tabell. Den forutsetter til gjengjeld at vi opererer med ranger, og da kalles gjeme korrelasjonskoeffisienten for Spearmans korrelasjons­ koeffisient. Tabellen er ikke tatt med i denne boken. Vår tradisjonelle lineære korre­ lasjonskoeffisient kalles ofte Pearsons korrelasjonskoeffisient. De er definert likt,

342

Del 4 Avrunding

men siden Spearman forutsetter at vi har med ranger å gjøre, finnes det en beregningsmessig enklere formel som har gitt koeffisienten sitt eget navn.

14.2 Metodevalg Når du skal bestemme deg for valg av statistisk metode, bør du vite hvilket målenivå dataene ligger på. Dessuten må du vite hvor mange variabler eller stikkprøver du har, og om det er parvise observasjoner. Med det utgangspunktet kan følgende tabell være nyttig: Målenivå

Nominal eller kategorisk

Ordinal eller ordnet

Intervall eller forholdstall

En stikkprøve

Binomisk p (6.2) En andel: Normaltilnærmelsen (H.l)

Ordningsobservatorene (3.3 og 7)

Students t (10.3)

To parvise stikkprøver

To uavhengige stikkprøver

Fortegnstesten (8.2) Students t for én Wilcoxons tegnrangtest stikkprøve på (8.3) differansene (10.3)

Fishers test (8.5) Normaltilnærmelsen (H.2) Kji-kvadrat (11.3)

Mann-Whitneytesten (8.4)

Flere uavhengige stikkprøver

Mål for samvariasjon

Students t (10.4)

Variansanalyse (10.5) Spearmans rangordens korrelasjon (16.1)

Lineær regresjon og korrelasjon (12)

Du kan alltid benytte metoder beregnet på et lavere målenivå enn dataene dine er på, men ikke omvendt. Wilcoxons tegnrangtest vil for eksempel nesten alltid be­ nyttes med rådata på intervallnivå, men kan i prinsippet brukes direkte på ordnete forskjeller. Du kan bare bruke z- eller z-observatoren hvis stikkprøvene er store nok til at normaltilnærmelsen er tilfredsstillende. Er den ikke det, må du bruke metoder laget for lavere målenivå.

343

15 Videre studium av statistikk

I denne boken har vi gjort statistikk så konkret som mulig. Vi har snakket om statis­ tisk inferens i forbindelse med stikkprøver fra populasjoner. Populasjoner har vi tenkt på som en samling tall skrevet på lapper i en urne. Det å ta en stikkprøve har vært det samme som å stikke hånden ned i urnen med bind for øynene og trekke ut et antall lapper. Stikkprøven vår er tallene som står på de lappene vi har trukket. Denne tankemessige enkle modellen har fungert bra i de fleste tilfeller, men ble litt anstrengt når vi snakket om terningkast eller aksjekurser. Da måtte vi tenke på urnen som noe som inneholdt resultatet av alle fremtidige terningkast eller alle fremtidige aksjekurser. Vi kalte dette for abstrakte populasjoner. Det finnes imidlertid en mer generell måte å beskrive det å ta stikkprøver på. Dette vil du sannsynligvis møte hvis du tar videregående kurs i statistikk eller i andre sammenhenger der statistikk brukes. Derfor er det greit å være forberedt slik at du ser sammenhengen mellom terminologien her og det du kan møte andre ste­ der. Det sentrale begrep er en stokastisk variabel.

Stokastisk variabel

Uformell definisjon av stokastisk variabel En stokastisk variabel er en variabel som får ulike verdier der tilfeldigheter bestemmer verdiene.

Mer formelt sier man at en stokastisk variabel er en funksjon fra alle mulige utfall av et eksperiment til den reelle tallinje. Mer forståelig er det kanskje hvis du tenker på en stokastisk variabel som et symbol for den verdi du vil komme til å observere før du faktisk gjør eksperimentet. En stokastisk variabel beskrives gjennom sannsynlighetsfordelingen for de ulike verdier den kan ta. Dette svarer til å beskrive en populasjon gjennom andelene av de ulike tall i populasjonen.

344

Del 4 Avrunding

Terminologi og symboler I en populasjon snakker vi om gjennomsnitt p, standardavvik a og varians cf. For en stokastisk variabel snakker vi omforventningsverdi E (X), standardavvik SD (A) og varians VAR (A). Innholdet er i realiteten det samme, men symbolene er forskjel­ lige. La oss repetere formlene for noen nøkkelparametre i en populasjon med gjen­ tatte verdier. Hyppigheten en verdi xz forekommer med kalles Az. Det totale antall verdier er N. Fra kapittel 9:

M =

I

xX

zJ og z er standardnormalfordelt.

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0 0.1 0.2 0.3 0.4

.5000 .4602 .4207 .3821 .3446

.4960 .4562 .4168 .3783 .3409

.4920 .4522 .4129 .3745 .3372

.4880 .4483 .4090 .3707 .3336

.4840 .4443 .4052 .3669 .3300

.4801 .4404 .4013 .3632 .3264

.4761 .4364 .3974 .3594 .3228

.4721 .4325 .3936 .3557 .3192

.4681 .4286 .3897 .3520 .3156

.4641 .4247 .3859 .3483 .3121

0.5 0.6 0.7 0.8 0.9

.3085 .2743 .2420 .2119 .1841

.3050 .2709 .2389 .2090 .1814

.3015 .2676 .2358 .2061 .1788

.2981 .2643 .2327 .2033 .1762

.2946 .2611 .2297 .2005 .1736

.2912 .2578 .2266 .1977 .1711

.2877 .2546 .2236 .1949 .1685

.2843 .2514 .2206 .1922 .1660

.2810 .2483 .2177 .1894 .1635

.2776 .2451 .2148 .1867 .1611

1.0 1.1 1.2 1.3 1.4

.1587 .1357 .1151 .0968 .0808

.1562 .1335 .1131 .0951 .0793

.1539 .1314 .1112 .0934 .0778

.1515 .1292 .1093 .0918 .0764

.1492 .1271 .1075 .0901 .0749

.1469 .1251 .1056 .0885 .0735

.1446 .1230 .1038 .0869 .0722

.1423 .1201 .1020 .0853 .0708

.1401 .1190 .1003 .0838 .0694

.1379 .1170 .0985 .0823 .0681

1.5 1.6 1.7 1.8 1.9

.0668 .0548 .0446 .0359 .0287

.0655 .0537 .0436 .0351 .0281

.0643 .0526 .0427 .0344 .0274

.0630 .0516 .0418 .0336 .0268

.0618 .0505 .0409 .0329 0262

.0606 .0495 .0401 .0322 .0256

.0594 .0485 .0392 .0314 .0250

.0582 .0475 .0384 .0307 .0244

.0571 .0465 .0375 .0301 .0239

.0559 .0455 .0367 .0294 .0233

2.0 2.1 2.2 2.3 2.4

.0228 .0179 .0139 .0107 .0082

.0222 .0174 .0134 .0104 .0080

.0217 .0170 .0132 .0102 .0078

.0212 .0166 .0129 .0099 .0075

.0207 .0162 .0125 .0096 .0073

.0202 .0158 .0122 .0094 .0071

.0197 .0154 .0119 .0091 .0069

.0192 .0150 .0116 .0089 .0068

.0188 .0146 .0113 .0087 .0066

.0183 .0143 .0110 .0084 .0064

2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4

.0062 .0047 .0035 .0026 .0019 .0013 .0397 •O369 ,0348 .0334

.0060 .0045 .0034 .0025 .0018 .0013 .0394 ,0366 ,0347 ,0334

.0059 .0044 .0033 .0024 .0017

.0057 .0043 .0032 .0023 .0017

.0055 .0041 .0031 .0023 .0016

.0054 .0040 .0030 .0022 .0016

.0052 .0039 .0029 .0021 .0015

.0051 .0038 .0028 .0021 .0015

.0049 .0037 .0027 .0020 .0014

.0048 .0036 .0026 .0019 .0014

.0013 ,0390 .0364 ,O345 .O331

.0012 .0387 .0362 ,O343 .0330

.0012 .0384 .0360 .0342 .0329

.0011 .0382 .0358 ,0340 ,0328

.0011 ■0379 .0356 .0339 .0327

.0011 .03 76 .0354 .0338 .0326

.0010 ,O374 .03 52 .0336 •O325

.0010 ,0371 .0350 .0335 .0324

3.5 3.6 3.7 3.8 3.9

,O323 .0316 ,0311 ,0472 ,0448

.0322 ,0315 ,0310 ,0469 ,O446

•0322 .0315 ,0310 ,0467 ,0444

,O321 ,0314 .0*96 .0464 ,0442

.0320 .0314 .0492 .0362 ,0441

.0319 ,0313 .0388 .0359 .03 39

.0319 •0313 .0385 ,0457 ,0437

.0318 .0312 .0382 .0354 ,0436

.0317 .0312 .03 78 ■0452 ,0434

.0317 ,0311 .0375 ,O45O ,0433

4.0 4.1 4.2 4.3 4.4

,0432 ,0421 .CP13 .O586 ,0554

,O43O ,0420 .O4^ .O582 .0552

,0429 ,0419 .O4^ ,0578 ,0549

.0428 Q3|8 .O4^ .0575 ,O547

.0327 0417 .0411 ,0571 ■O545

.03 2 6 .0317 .0311 ,0568 ,0543

,0425 ,0416 .0310 .0565 ,0541

.03 24 .0415 ,0598 ■0562 ,0539

.0323 .0315 ,O594 .O559 ,0537

.0322 .0314 ,O589 ,0557 •O536

4.5 4.6 4.7 4.8 4.9

,0534 ,O521 .O513 ,0680 .0®49

,O532 ■O52O •O512 ,0676 ,0646

.O531 ,0519 •O512 ,O673 •O645

,0530 .0518 ,0511 ,0669 ,0642

•O528 .CSU ,0511

■0527 ,0517 ,0510 .0663 ,0637

,0526 ,O516 ,0697 ,0®60 .0636

.0324 .0515 ,O692 .0657 ,O634

,0523 ,O514 ,0688 .0®54 .O633

■0522 .O514 ,0683 ,O652 ,0631

,0640

Eksponenten etter 0 representerer antall nuller. .O4 32 er f.eks. 0.000 032.

Appendiks

4

Tabeller

379

Tabell 5b Standard-normalfordelingen: Kritiske verdier za. Tabellen gir za slik at a = Pr(z ^>za) når z er standard-normalfordelt.

a 2a 2a z,

= .10 = .20 - .80 = 1.28

.05 .10 .90 1.645

.025 .05 .95 1.96

.01 .02 .98 2.33

.005 .01 .99 2.58

.001 .002 .998 3.09

.0005 .001 .999 3.29

.000000001 .000000002 .999999998 6.0

380

Del 5 Appendiks

Tabell 6a Student-fordelingen: Halesannsynligheter a

Tabellen gir a der a = Pr(t > når t er Student-fordelt med v frihetsgrader. 2

3

4

7

6

8

9

10

12

15

20

25

30

35

.0

.500

. 500

. 500 . 500 . 500 . 500

. 500 .500 . 500 . 500 . 500 . 500 . 500 . 500 . 500 . 500

.1 .2 .3 .4 .5

.468 .437 .407 .379 .352

.465 .430 .396 .364 .333

.463 .427 .392 .358 .326

.463 .426 .390 .355 .322

.462 .425 .388 .353 .319

.462 .424 .387 .352 .317

.462 .424 .386 .351 .316

.461 .423 .385 .350 .315

.461. .423 .385 .349 .315

.461 .423 .385 .349 .314

.461 .422 .385 .348 .313

.461 .422 .384 .347 .312

.461 .422 .384 .347 .311

.461 .422 .383 .346 .311

.461 .421 .383 .346 .310

.6 .7 .8 .9 1.0

.328 .306 .285 .267 .250

.305 .278 .254 .232 .211

.295 .267 .241 .217 .196

.290 .261 .234 .210 .187

.287 .258 .230 .205 .182

.285' .255 .227 .201 .178

.284 .253 .225 .199 .175

.283 .252 .223 .197 .173

.282 .251 .222 .196 .172

.281 .250 .221 .195 .170

.280 .249 .220 .193 .169

.279 .247 .218 .191 .167

.278 .246 .217 .189 .165

.277 .245 .216 .188 .163

1.1 1.2 1.3 1.4 1.5

.235 .221 .209 .197 .187

.193 .177 .162 .148 -.136

.176 .158 .142 .128 .115

.167 .161 .148 .142 .132 .125 .117 .110 .104 .097

.157 .138 .121 .106 .092

.154 .152 .135 .132 .117 .115 .102 .100 .089 .086

.150 .130 .113 .098 .084

.149 .129 .111 .096 .082

.146 .127 .109 >093 .080

.144 .124 .107 .091 .077

.142 .122 .104 .088 .075

1.6 1.7 1.8 1.9 2.0

.178 .169 .161 .154 .148

.125 .116 .107 .099 .092

.104 .094 .085 .077 .070

.092 .085 .082 .074 .073 .066 .065 .058 .058 .051

.080 .070 .061 .053 .046

.077 066 .057 .050 .043

.074 .064 .055 .047 .040

.072 .062 .053 .045 .038

.070 .060 .051 .043 .037

.068 .057 .049 .041 .034

.065 .055 .046 .038 .032

2.1 2.2 2.3 2.4 2.5

.141 .136 .131 .126 .121

.085 .079 .074 .069 .065

.063 .058 .052 .048 .044

.052 .045 .046 .040 .041 .035 .037 .031 .033 .027

.040 .035 .031 .027 .023

.037 .032 .027 .024 .020

.034 .029 .025 .022 .018

2.6 2.7 ta 2.8 2.9 3.0

.117 .113 .109 .106 .102

.061 .057 .054 .051 .048

.040 .037 .034 .031 .029

.030 .024 .027 .021 .024 .019 .022 .017 .020 .015

.020 .018 .016 .014 .012

.018 .015 .013 .011 .010

3.1 3.2 3.3 3.4 3.5

.099 .096 .094 .091 .089

.045. .043 .040 .038 .036

.027 .025 .023 .021 .020

.018 .013 .016 .012 .015 .011 .014 .010 .012 .009

.011 .009 .008 .007 .006

3.6 3.7 3.8 3.9 4.0

.086 .084 .082 .080 .078

.035 .033 .031 .030 .029

.018 .017 .016 .015 .014

.011 .008 .010 .007 .010 .006 . 009 .006 .008 .005

4.1 4.2 4.3 4.4 4.5

.076 .074 .073 .071 .070

.027 .026 .025 .024 .023

.013 .012 .012 .011 .010

4.6 4.7 4.8 4.9 5.0

.068 .022 .010 .067 .021 .009 .065 .020 .009 .064 .020 .008 .063 .019 .008

5.5 6.0 6.5 7.0 8.0

.057 .053 .049 .045 .040

.016 .013 .011 .010 .008

40 mange

. 500

. 500

.0

.460 .421 .383 .346 .310

.460 .421 .383 .346 .310

.460 .421 .382 .345 .309

.1 .2 .3 .4 .5

.277 .245 .215 .188 .163

.276 .244 .215 .187 .162

.276 .244 .214 .187 .162

.274 .242 .212 .184 .159

.6 .7 .8 .9 1.0

.141 .121 .103 .087 .073

.140 .120 .102 .086 .072

.139 .119 .101 .085 .071

.139 .119 .101 .085 .071

.136 .115 .097 .081 .067

1.1 1.2 1.3 1.4 1.5

.063 .052 .043 .036 .030

.061 .051 .042 .035 .028

.060 .050 .041 .034 .027

.059 .059 .055 .049 .048 .045 .040 .040 .036 .033 .032 .029 .027 .026 .023

1.6 1.7 1.8 1.9 2.0

.033 .028 .023 .020 .017

.031 .029 .027 .024 .026 .024 .022 .020 .022 .020 .018 .016 .019 .017 .015 .013 .016 .014 .012 .011

.023 .019 .015 .012 .010

.022 .022 .021 018 .018 .017 017 014 .014 .014 .013 .011 .011 .011 .011 .008 .009 .009 .008 .006

2.1 2.2 2.3 2.4 2.5

.016 .014 .012 .010 .009

.014 .012 .010 .009 .007

.013 .012 .011 .010 .009 .008 .008 .007 .007 .006

.008 .006 .005 .004 .003

.007 .007 .006 .005 .004 .004 .003 .003 .003 .002

.005 .003 .003 .002 .001

2.6 2.7 2.8 2.9 3.0

.009 .008 .007 .006 .005

.007 .006 .005 .005 .004

.006 .005 .005 .004 .003

.006 .005 .004 .003 .002 .002 .002 .005 .004 .003 .002 .002 .002 .001 .004 .003 .002 .002 .001 .001 .001 .003 .003 .002 .001 .001 .962 * .849 * .003 .002 .002 .001 .883 * .738 * .644 *

.006 .005 .004 .004 .004

.004 .004 .003 .003 .003

.003 .003 .003 .002 .002

.003 .002 .002 .002 .002

.002 .002 .001 .894 * .686 * .566 * .002 .002 .001 .709 * .533 * .432 * .002 .001 .872 * .561 * .413* .330 * .001 .001 .711 * .444 * .320 * .251 * .001 .881 * .580 * .352 * .248 * . 191 *

.007 .005 .007 .004 .006 .004 .006 .004 .005 .003

.003 .003 .003 .002 .002

.002 .002 .002 .002 .001

.002 .001 .001 .001 .001

.001 .001 .736* .473* .278* .192* .001 .914 * .616 * .386» .220* .148* .995 * .781 * .516 * .316 * .174 * .114 * .860 * .668 * .433 * .258 * .138 * .088 * .744 * .572 * .363 * .212 * .109 * .068 *

.005 .003 .005 .003 .004 .002 .004 .002 .004 .002

.002 .002 .002 .001 .001

.010 .008 .007 .005 .004

.009 .007 .006 .004 .004

.006 .005 .004 .003 .002

.002 . 968* .001 .687* .001 .484* .770 * .337 * .579 * .233 *

3.1 3.2 3.3 3.4 3.5

.488 * .434 * .159 * .368 * .324 * . 108 * .277 * .242 * .072 * .208 * .179 * 048 * .156 * . 133 * .032 *

3.6 3.7 3.8 3.9 4.0

.145 * .117* 098» 021** .110* 087 * 072 * 013 * .083 * .065 * .053 * .009 * .063 * .048 * 039 * 005 * .048 * .036 * .029 * .003 *

4.1 4.2 4.3 4.4 4.5

.001 .878 * .645 * .490 * .305 * .173 * .087 * .053 * .036 * .027 * .021 * 002 * .001 .771 * .560* .421 * .257 *. 142 * .069* .041 * .027 * .020 * .015 * 001 * .983 * .678 * .487 * .362 * .217 * .117 * .055 * .031 * .020 * .015 * 011 * 001 * .877 * .597 * .424 * .312 * .183 * .096 * .043 * .024 * .015 * .011 * 008 * 000 * .783 * .526* .369 * .269 * .155 » .079 * .034 * .019 * .012 * .008 * .006 * .000 *

4.6 4.7 4.8 4.9 5.0

. 006 .003 .001 .757 * .453 * .287 * .190 * . 131 * .068 * .031 * .011 * .005 * .003 * .002 * .001 * .000 * .005 .002 .923 * .482 * .271 * .162 * .101 * .066 * .031 * .012 * .004 * .001 * .001 * .000 * .000 * .000 * .004 .001 .643 * .316 *. 167 * .094 * .056 * .034 * .015 * .005 * .001 * .000 * .000 * .000 * .000 * .000 * .003 .001 .458 * .212 * .106 * .056 * .032 * .019 * .007 * .002 * .000* .000 * .000 * .000 * .000 * .000 * .002 .662 .246 » .102 * .046 * .022 * .011 * .006 * .002 * .000 * .000 * .000 * .000 * .000 * .000 * .000 *

5.5 6.0 6.5 7.0 8.0

' Tallet til venstre er multiplisert med 1 000.

ta

Appendiks

4

Tabeller

Tabell 6b Student-fordelingen: Kritiske verdier ta.

Tabellen gir ta, slik at a=P(t>ta) når t er Student-fordelt med v frihetsgrader. a 2a 1 —2a

.05 .10 .90

.025 .05 .95

.01 .02 .98

.005 .01 .99

.0005 .001 .999

1 2 3 4 5

6.31 2.92 2.35 2.13 2.01

12.71 4.30 3.18 2.78 2.57

31.82 6.96 4.54 3.75 3.36

63.66 9.92 5.84 4.60 4.03

636.6 31.60 12.92 8.61 6.87

6 7 8 9 10

1.94 1.89 1.86 1.83 1.81

2.45 2.36 2.31 2.26 2.23

3.14 3.00 2.90 2.82 2.76

3.71 3.50 3.36 3.25 3.17

5.96 5.41 5.04 4.78 4.59

11 12 13 14 15

1.80 1.78 1.77 1.76 1.75

2.20 2.18 2.16 2.14 2.13

2.72 2.68 2.65 2.62 2.60

3.11 3.05 3.01 2.98 2.95

4.44 4.32 4.22 4.14 4.07

16 17 18 19 20

1.75 1.74 1.73 1.73 1.72

2.12 2.11 2.10 2.09 2.09

2.58 2.57 2.55 2.54 2.53

2.92 2.90 2.88 2.86 2.85

4.02 3.97 3.92 3.88 3.85

21 22 23 24 25

1.72 1.72 1.71 1.71 1.71

2.08 2.07 2.07 2.06 2.06

2.52 2.51 2.50 2.49 2.48

2.83 2.82 2.81 2.80 2.79

3.82 3.79 3.77 3.74 3.72

26 27 28 29 30

1.71 1.70 1.70 1.70 1.70

2.06 2.05 2.05 2.05 2.04

2.48 2.47 2.47 2.46 2.46

2.78 2.77 2.76 2.76 2.75

3.71 3.69 3.67 3.66 3.65

40 60 120 OO

1.68 1.67 1.66

2.02 2.00 1.98

2.42 2.39 2.36

2.70 2.66 2.62

3.55 3.46 3.37

1.64

1.96

2.33

2.58

3.29

381

382

Del

5 Appendiks

Tabell 7b Kji-kvadratfordelingen

Tabellen gir slik at a=P(^>x2a) når x1 er kji-kvadratfordelt med v frihetsgrader.

V

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

.20 1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.030 12.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250

.10

.05

.025

.01

2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256

3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773

5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.647 41.923 43.194 44.461 45.722 46.979

6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892

Tatt fra Tabell IV hos Fisher and Yates, statistiske tabeller for biologisk, medisinsk og landbruksvitenskapelig forskning, utgitt av Longman Group Ltd., London (tidligere utgitt av Oliver & Boyd, Edinburgh) og etter tillatelse fra forfatterne og utgiverne.

Appendiks

4

Tabeller

Tabell 8b Wilcoxons tegnrangtest Direkte hypoteseprøving: Forkast en nullhypotese om differansemedian = 0 hvis testobservatoren er mindre enn c i tabellen. Ved tosidig test: 2a = signifikansnivå. Ved ensidig test: a — signifikansnivå. 2a

0,1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

0,05

1 2 4 6 8 11 14 17 21 26 30 36 41 47 54 60 68 75 83 92 101 110 120 130 141 152 163 175 188 201 214 228 242 256 271 287 303 319 336 353 371 389 408 427 446 466

1 2 4 6 8 11 14 17 21 25 30 35 40 46 52 59 66 73 81 90 98 107 117 127 137 148 159 171 183 195 208 222 235 250 264 279 295 311 327 344 361 379 397 415 434

0,02

2 3 5 7 10 13 16 20 24 28 33 38 43 49 56 62 69 77 85 93 102 111 120 130 141 151 162 174 186 198 211 224 238 252 267 281 297 313 329 345 362 380 398

0,01

2 3 5 7 10 13 16 19 23 28 32 37 43 49 55 61 68 76 84 92 100 109 118 128 138 149 160 171 183 195 208 221 234 248 262 277 292 307 323 339 356 373

Ved store stikkprøver:

c ~ a

n(n + 1) _ i/ n(n + 1) (2n + 1) 4 M 24

0,005 2,58

0,01 2,33

0,025 1,96

0,05 1,645

383

384

Stikkord A abstrakte populasjoner andel 91,246 ANOVA 229 aspirin 166 autokorreiasjon 318 avkastning 267

343

B Barnett, G.A. 38 Bayes formel 103 Bayes, T. 104 Bayesianske sannsynligheter 104 beliggenhet betarisiko 291 betinget sannsynlighet 101 betydelig forskjell 34 binominalfordeling 121, 125, 155, 345 binomisk fordelte variabler 246 binomiske sannsynligheter 126 Bis arbeidsmarkedsundersøkelse 1996 172, 228,235, 253 Bis holdningsundersøkelse 257 blindvariabel 178,180,183, 246 boligmarkedet 146 Bøhren, 0. 11

D Datafd 500aldre 44 9karakt 39 Avk_Risk 307 Barnett 39 Comflak 86, 140 Dekktryk 57 Faktura 29 IKEA 76 karakter 27 Klima 294 Kraft96 322 Kreft 292,294 KvD_Lonn 303 Lønn-85 74

MncLavk. 267-268,270 Nytte 41 Postskol Presse 272, 294, 306 Pris_ind 295 Puls 38,56 Regnskap 56 Reiseliv 33,160, 227 Rekrutt 184-185 Salk 20 Sivil96 172,228,234 Skoler 274 Tilsig 208 Tot_ind. 190, 191 Trondheim 49 Volvo 40 Delfi-metoden 315 deskriptiv statistikk 31 differanse mellom to andeler 247 dikotome variabler 163 direkte hypoteseprøving 138-139 disjunkte mengder 90 disjunkthet 106 dobbelt blindtest 79,165 Dr. Salks observasjoner 16

E effisient marked 190 eksponensielt forløp 295,318 Eliza-testen 112 ensidig feilsannsynlighet 53 ensidig hypoteseprøving ensidig konfidensnivå 53 ensidig test 144 enveis variansanalyse 228 ett gjennomsnitt 216 Excelfunksjoner (norsk navn) Average (gjennomsnitt) 236 Binomdist (binom.fordeling) 126 Combin (kombinasjon) 119 Correl (korrelasjon) 278 Count (antall) 236

Stikkord

Covar (kovarians) 277 Critbinom (grense.binom) 156 Hypgeomdist (hypgeom.fordeling) 128, 164 Index (indeks) 45 Median (median) 36 Normsdist (normsfordeling) 195 Normsinv (normsinv) 196 Percentile (persentil) 36 Permut (permuter) 117 Rand 45 Stdev (stdav) 186 Stdevp (stdavp) 186 Sumproduct (summerprodukt) 186 Tinv (tinv) 236

F fakultet 118 farskapssak 112 feil av type I 136 feil av type II 136 feil modellvalg 331 feilkilder feilledd 328 feilsannsynlighet 134 finansiell risiko 290 Fisher, R.A. 162 Fisherstest 162,164 flere gjennomsnitt - variansanalyse 228 Fontex 165 forholdstallskala 81,339 fortegnstesten 154 forventningsverdi 344 frafallsskjevhet 63 frihetsgrader 221 Foss, T. 11 F-testen 230 F-testen for flere gjennomsnitt 231 Fugleberg, 0. 11

G Gauss, K. F. 187 gjennomsnitt 175 gjentatte verdi er 177 glidende gjennomsnitt 322-323 Gosset, W.S. 221 grupperte data 177,180

385

H halesannsynligheter 126 Henden, K. 11 histogram 72 HIV-risiko 112 Holme, I. 11 hovedundersøkelsens størrelse 70 hypergeometrisk fordeling 127-128, 167 hypoteseprøving hypoteseprøving med ordningsobservatorer 135 høyregrenseintervall 53

I ikke-parametri ske tester 151 interkvartil variasjonsbredde 32 intervallskala 81,338-339 invertert tre 104 J Jennergren 190 Juglar, C. 319 Juglar-bølgene 319 K kategoriskala 339 kji-kvadratfordeling 251 kji-kvadrattesten 252 klassisk modell 321 klassisk multiplikativ modell 321 klyngeutvalg 64 kombinasjoner 116-117, 119 kombinatorikk komplementærmengde 89 Kondratjeff, N. 319 Kondratjeff-bølge 319 konfidensintervall 46, 55, 226, 243, 247 konfidensintervall for populasjonsgjennomsnitt 214,221 konfidensintervall for beta 286 konfidensintervall for alfa 286 konfidensintervall for differansen mellom to medianer 161 konfidensintervall for populasjonsmedian 55 konfidensintervall for regresjonslinje 286 konfidensnivå 51 konfidenssannsynlighet 47, 51 konjunkturbølger 319 konjunkturindeks 321,326 konjunkturvariasjoner 320

386

Stikkord

kontrollgrupper 78 korrelasjon 277 korrelasjon mellom naboverdier 320 korrelasjonskoeffisient 277,301 Korsvold, P. 190 kovarians 277 kritisk verdi 156 Kruskal-Wallis-testen 172 kryssprodukt kumulative sannsynligheter 126 kurvefremskriving 313,329 kvalitetskontroll 203 kvoteutvalg 64 L langsiktig trend 318 lineær regresjonsmodell 283 lineær samvariasjon 277 Lotto 119,127,131 lungekreft 293

M Mann-Whitneyobservatorene 34 Mann-Whitneys test 159 McEnroe, J. 171,259 median 28 mediandifferanse 33 Mendel, G. 258 mengdelære 89 minste kvadraters metode 283-284 modellkontroll 294 modelltilpasning 322 modelltilpasningsfeil 331 multiplikasjonsregel 106 multiplikasjonstabell 105 multippel regresjonsanalyse 298 mønster i tidsrekker 316 målenivå 337 måleskalaer N narkomane 171 Nemeyi 11 nominalskala 80, 337, 339 normalfordeling 186, 194 normalfordelt variabel 196 normaltilnærmelse for en dikotom variabel 242 Norsk Monitor 257 nullhypotese 133-134

O observator 31 objektivitet 69 ordinalskala 80,338-339 ordnet utvalg med tilbakelegning 116 ordnet utvalg uten tilbakelegning 117 ordningsobservatorene 28, 55, 145 Oslo B&K 85 Oslo-beh 85 Oslo-undersøkelsen 84,259 overtilpasning 296

P parallellplott 33 parametrisk statistikk 187 parvise sammenligninger 151 permutasjoner 118 Persons korrelasjonskoeffisient 341 pilotundersøkelse 70 placeboeffekt 165 plott 28 politiske meningsmålinger 245 populasjon 43,344 populasjonsgjennomsnitt 178 porteføljerisiko prediksjonsintervall 286 prognosefeil 315 prognosering 313 prognosetall 315 prosentiler 31 punktestimat 52 punktsannsynligheter 126

R random walk 190, 318, 320 randomisering 79 rang 338 reduksjon av målenivå 340 regresjonsanalyse 285 rekkefølge 118 relativ hyppighet 94 reliabilitet 59 residualanalyse 320, 329 residualer 320 responsfeil 63 rikstoto 131 røyking 171

387

Stikkord

s Salk, L. 15 samvariasjon 290 sannsynlighet 93, 96, 99, 120 sannsynlighetsfordeling 126,344 sannsynlighetsregning 120 sannsynlighetstre 101 scenario 329 sekvensiell stikkprøveuttaking 70 sentralgrenseteorem 198, 203 sesongindeks S 321, 325-326 sesongvariasjoner 320 Shewharts kvalitetskontroll-diagram 203 signifikansnivå 134 signifikanssannsynlighet 156,217 skjevhet 31 snitt 90 Spearmans korrelasjonskoeffisient 341 spørreskjema 65 standard normalfordeling 186 standardavvik 180 standardavviket til en differanse mellom to gjennomsnitt 223 standardisert variabel 183-185,197 standard-normalfordeling 194 Statark 23 statistikk 22 statistisk uavhengighet 106 stikkprøve 43, 71 stikkprøvegjennomsnitt 178 stikkprøvekovarians 277 stikkprøvens størrelse 245 stikkprøvestandardavvik 181 stokastisk variabel 343-344 store stikkprøver store talls lov strekdiagram 29 studentfordeling 220 subjektiv sannsynlighet 98 sum av to tilfeldige variabler 267, 278 sum av to uavhengige variabler 269 Sverdrup, E. 26

T tellinger 337-338 test basert på ordningsobservatorer 145 test på lineær sammenheng 290 test på om korrelasjonskoeffisienten er null 301 teststyrke 136

tidshorisont 329 tidsrekkemodell 320 tilfeldig feilledd 321 tilfeldig stikkprøve 59 tilfeldig variasjon 21 tilfeldigheter 21 tippekupong 116 to andeler 247 to ganger to-tabeller 250 to gjennomsnitt 223 t-observatoren for differanse mellom to gjennomsnitt 224 tom mengde 90 tosidig feilsannsynlighet 53 tosidig konfidensintervall 53 tosidig konfidensnivå 53 tosidig test 144 trafikkulykker 262 trend 319,324 trendkomponent 321 triangelfordeling 189 t-testen for differanse mellom to gjennomsnitt 224 t-testen for ett gjennomsnitt 222 t-testen for stigningskoeffisienten i regresjonsanalyse 289 tydelig forskjell 34 U uavhengige stikkprøver 151 uavhengighet 105-106 ubetinget sannsynlighet 102 undermengde 89 uniform fordeling 188, 344 union 93,90 uordnet utvalg med tilbakelegning uordnet utvalg uten tilbakelegning usikkerhet 267 utfallsrom 99 utvalgsskjevhet 60,63 V validitet 59 variabilitet varians 180 variansanalyse variasjonsbredde 30 venstregrenseintervall verdi-indekser 267 verdisyn 257

53

119, 121 118

388

Stikkord

videregående skoler 273 Vikinglotto 132 visuell inspeksjon 294 W Welsh formler 224 Wilcoxons tegnrangtest

Z

z-testen for differanse mellom to andeler z-testen for ett gjennomsnitt 217 z-testens styrke 218 Å

157

Rettelser til stikkordregiseret: .Andel 91, 241, 246 Beliggenhet 37 Ensidig hypoteseprøving 141 Feilkilder 63 Hypoteseprøving 133 Kombinatorikk 115 Kontigenstabeller 249 Kryssprodukt 275 Måleskalaer 79 Porteføljerisiko 270, 280 Stikkprøvens størrelse 69, 245 Store stikkprøver 71 Store talls lov 95 Teststyrke 136, 219 Variabilitet 37 Variansanalyse 229

Aakre, P. 11 årsakssammenhenger

297

248