Innføring i statistikk [2 ed.]
 8270376094 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

IVAR KRISTIANSLUND

Innføring i statistikk

'■. ‘ ’ oteket teket

P~FE.-os



MO I RANA 'f.. 75 12 12 82

rnlaan .no ,[email protected]

Cappelen Akademisk Forlag

© Cappelen Akademisk Forlag as, Oslo 1996

Det må ikke kopieres frs denne bok i strid med åndsverkloven og fotografiloven eller i strid med avtaler om kopiering inngått med KOPINOR. interesseorgan for rettighets­ havere til åndsverk. Kopiering i strid med lov eller avtale medfører erstatningsansvar og inndragning, og kan straffes med bøter eller fengsel. 2. utgave 1996 Sats: Tangen Prepress a.s Trykk: Gjøvik Trykkeri A/S ISBN 82-7037-609-4

Forord til 1. utgave

Denne boka er skrevet med tanke på studenter og andre som har små matematikk-kunnskaper (ikke noe særlig mer enn eksamen artium e.l.) og som har relativt liten øvelse i å omgås symboler og formler. Boka har likevel et forholdsvis høyt ambisjonsnivå når det gjelder å meddele leseren forståelse av statistisk tenkemåte og ferdighet i å anvende en del metoder som er mye brukt i praksis. Det er ikke tatt sikte på å bevise alt som er presentert. Tvert imot er mange viktige teoremer, etc. presentert med innledningen «det kan vises at». Forfatteren er av den mening at det er urealistisk å bevise alt når man tar lesergruppen og ambisjonsnivået i betraktning. Som erstat­ ning for bevis har boka imidlertid mange intuitive forklaringer som kan være egnet til å gi leseren følelse av å kunne gå med på og å forstå det som presenteres. Boka tar sikte på å være systematisk og grundig. Forfatteren er ikke redd for å bruke mange ord og lange forklaringer når han mener det er nødvendig for at leseren skal forstå stoffet. På den annen side har man også forsøkt å summere opp og å utheve viktige resultater og setninger som bør læres utenat. Formler og setninger er nummerert og uthevet, og det vises til tidligere formler og setninger når det kan bidra til å øke for­ ståelsen. Nytt stoff blir som regel innledet og/eller illustrert med et eller flere eksempler. Hovedeksemplene er nummerert, og enkelte av dem er brukt som gjennomgangseksempler som illustrerer flere slags problem­ stillinger. De viktigste metodene er illustrert ved løste oppgaver. Boka inneholder for øvrig et meget stort antall varierte oppgaver med svar til som studenten kan løse for å innøve stoffet. Det er tatt sikte på å velge ut både interessante oppgaver fra praksis og pedagogisk gode oppgaver som studenten kan lære mye av. Boka skiller seg på flere måter fra de statistikkbøkene på dette nivået som allerede finnes på det norske markedet. Sannsynlighetsbegrepet er i prinsippet ført inn som en brøk. Under gjennomgåelsen av sannsynlighetsregningens regler har man appellert til leserens intuisjon i forbin­ delse med brøkregning. Likevel har man i tillegg gjort seg nytte av mengdelærens begreper. En del bøker på dette nivået begrenser seg til vesentlig å behandle diskrete tilfeldige variabler. I denne boka, derimot, har man tatt sikte på prinsippielt også å behandle kontinuerlige variabler. Blant annet er nor-

malfordelingen gjennomgått, og bruken av tabeller over den standardi­ serte normalfordelingen er forklart. For øvrig har man illustrert teorien for kontinuerlige variabler med meget enkle funksjoner. Symbolmessig skiller boka seg fra andre ved at tilfeldige variabler er gitt et symbol med en strek under, mens verdier av tilfeldige variabler er betegnet med tilsvarende symboler uten understrekning. Dette er gjennomført helt konsekvent gjennom hele boka, noe som trolig bidrar til å gjøre den mer lettlest enn ellers. Forfatteren har brukt dette syste­ met i mange år og finner det meget fleksibelt og hensiktsmessig. For den som finner dette uvant er det ikke noe i veien for å bruke store bok­ staver i stedet for understrekede symboler og små bokstaver ellers. For­ fatteren har imidlertid aldri sett at noen har gjennomført en slik notasjon konsekvent. Som regel svikter det enten i forbindelse med t eller F eller greske bokstaver . Pedagogisk sett bygger boka på to grunnprinsipper som forfatteren mener er helt vesentlige i statistikkundervisningen. Det første er at man må skille mellom populasjon og utvalg. Uttrykt i et nøtteskall, kan man si at statistikk er et fag som oppstår fordi man i praksis er nødt til å arbeide med et utvalg i stedet for med hele popula­ sjonen. Noe av den forvirringen man ofte finner blant studenter av dette faget er at man ikke har dette klart for seg. Det andre grunnprinsippet er at det er umulig å forstå statistisk infe­ rens uten å tenke seg gjentatte utvalg. En stor del av kapitel 5 tar sikte på å forklare studenten denne måten å tenke på. Hvorledes skal man kunne forstå f.eks. en t-fordeling hvis man kun stirrer seg blind på det ene utvalget man faktisk har skaffet seg? Forfatteren har det inntrykk at svært mange som har lært litt statis­ tikk egentlig ikke er fortrolige med denne måten å tenke på. I det hele tatt har forfatteren lagt stor vekt på at statistikk er et tenke fag. Selve matematikken i faget har man forsøkt å begrense til et mini­ mum. Tankegangen er følgende: På samme måte som det går an å lære å kjøre bil på en utmerket måte uten å være bilingeniør, ja endog uten å ha så mye kjennskap til hvorledes motoren, etc. fungerer, på samme måte går det an å lære seg å bruke statistiske metoder på en forholdsvis fornuftig måte uten å kjenne de matematiske bevis. Det hadde selvsagt vært en fordel om alle kunne alt, men i våre dager da EDB-teknikken kommer veltende over oss, er det nødvendig at flest mulig settes i stand til å kunne lese og tolke EDB-utskrifter, selv om de ikke har anledning til å skaffe seg en grundigere statistisk utdannelse. En målsetting har vært å presentere stoffet i en logisk riktig rekke­ følge. Dette kommer av og til i konflikt med en annen målsetting, nem­ lig å velge den rekkefølgen som gjør det lettest mulig for studenten å tilegne seg stoffet. Slike konflikter er som regel løst ved at det er lagt

hovedvekt på de pedagogiske hensyn. Således har man f.eks. beskrevet utvalget før man har beskrevet populasjonen, da utvalget er mer kon­ kret og lettfattelig for studenten. Framstillingen bygger på forfatterens erfaringer med statistikkundervisning på dette nivået for studenter ved flere høyere læreinstitusjoner gjennom et par decennier. Han har inntrykk av at denne måten å under­ vise på har fungert ganske bra. Det er imidlertid svært mange forskjel­ lige måter å undervise dette faget på, og man blir nok aldri ferdig med å lete etter den beste måten. Boka skulle gi rikelig med stoff f.eks. til et kurs ved en distriktshøg­ skole. Eksempel- og oppgave-valget er slik at boka skulle egne seg godt for studenter både innenfor økonomiske, biologiske og samfunnsviten­ skapelige fag, m.v. I og med at forklaringene er så grundige og enkle, skulle boka også kunne tjene til selvstudium, f.eks. for personer som en gang har lært litt statistikk og som får behov for å friske det opp. Emnevalget i boka skulle være ganske matnyttig f.eks. for forskere og andre som får bruk for noe statistikk. Forfatteren vil rette en hjertelig takk til sin kollega prof. dr. Inge Hel­ land ved NLH som har lest gjennom hele manuskriptet og kommet med mange nyttige merknader.

Oslo den 9. september, 1985 Ivar Kristianslund

Forord til 2. utgave

Den nye utgaven er bygget over samme lest som 1. utgave. Kapittel­ inndelingen er således nøyaktig den samme. Likevel er det en helt ny bok som nå utgis, i og med at hvert eneste kapittel er blitt grundig gjen­ nomarbeidet. I de fleste kapitlene er det foretatt ganske store forandrin­ ger. Siktemålet med revisjonen har vært å gjøre stoffet så lett forståelig som overhode mulig. Samtidig har det vært lagt vekt på at fremstillin­ gen skal være faglig korrekt. Også redigeringen av stoffet, med økt bruk av rammer og liknende utheving, bidrar til å gjøre boka mer lesevennlig enn tidligere. I slutten av kapittel 1 er det nå gitt en oversikt over innholdet i boka. Boka er gjort mer oversiktlig ved at de spredte oppgavene nå er sam­ let i slutten av hvert kapittel. For å gjøre det lettere for lærere som tid­ ligere har brukt boka, har vi latt de gamle oppgavene beholde sitt tidligere nummer. Noen av de gamle oppgavene er likevel byttet ut med nye. I tillegg er det føyd til mange nye oppgaver på slutten av hvert kapittel. Første utgave var skjemmet av en del stygge trykkfeil. Forhåpentlig har vi nå greid å hanskes bedre med dette problemet. Jeg vil også takke forlaget ved redaksjonssjef Svein Olav Thoresen for stor tålmodighet og verdifull hjelp under utarbeidelsen av denne utgaven. Sarpsborg den 22. desember 1995

Ivar Kristianslund

Innhold

1

Innledning - noen grunnbegreper 1.1 1.2 1.3 1.4

2

Beskrivelse av et utvalg 2.1

2.2

2.3 2.4

3

Innledning Noen statistiske grunnbegreper Statistikkfaget i et nøtteskall Oversikt over boka

Lokaliseringsmål eller middeltall 2.1.1 Aritmetisk gjennomsnitt 2.1.2 Median 2.1.3 Veid gjennomsnitt 2.1.4 Andre lokaliseringsmål Spredningsmål eller mål for variasjon 2.2.1 Variasjonsbredden 2.2.2 Varians og standardavvik 2.2.3 Variasjonskoeffisienten Frekvensfordeling og beslektede begreper Frekvensfordelinger for kontinuerlige tilfeldige variabler

Sannsynlighetsregning 3.1 3.2

Litt kombinatorikk Sannsynlighetsregning 3.2.1 Definisjon av sannsynlighetsbegrepet. 3.2.2 Noen setninger om sannsynligheter 3.2.3 Enten-eller-setninger 3.2.4 Betingede sannsynligheter 3.2.5 Både-og-setninger. Uavhengighet mellom kjennetegn 3.2.6 Litt om bruken av sannsynlighetsbegrepet 3.2.7 Sannsynlighetsregning og mengdelære. 3.2.8 En alternativ definisjon av sannsynlighets­ begrepet

15 15 17 31 33 36

36 37 38 39 42 43 43 44 47 48

50 65 65 72 72 74 75 78

79 82 85 88

3.3

4

Beskrivelse av en populasjon 4.1

4.2

4.3

5

5.5

Innledning Gjennomsnittet oppfattet som en tilfeldig variabel Utvalgsvariansen oppfattet som en tilfeldig variabel Student’s t-fordelingen 5.4.1 Ett-utvalgs t 5.4.2 To-utvalgs t Kjikvadratfordelingen

Estimering 6.1 6.2

89 93 98

114

En tilfeldig variabel og dens fordeling 114 4.1.1 Sannsynlighetsfunksjoner 116 4.1.2 Sannsynlighetstetthetsfunksjoner 121 Karakteristikker av fordelingen til en tilfeldig variabel 125 4.2.1 Forventningen 126 4.2.2 Populasjonsvariansen 127 Noen spesielle fordelinger 128 4.3.1 Generell orientering 128 4.3.2 Den binomiske sannsynlighetsfunksjonen 131 4.3.3 Den hypergeometriske sannsynlighets­ funksjonen 133 4.3.4 Poisson’s sannsynlighetsfunksjon 134 4.3.5 Den normale sannsynlighetstetthetsfunksjonen 135 4.3.6 Normalfordelingen som en tilnærmelse til binomialfordelingen 139 4.3.7 Binomialfordelingen som en tilnærmelse til den hypergeometriske fordelingen 141 4.3.8 Poissonfordelingen som en tilnærmelse til binomialfordelingen 141 4.3.9 Normalfordelingen som en tilnærmelse til Poissonfordelingen 142

Utvalgsteori og utvalgsfordelinger 5.1 5.2 5.3 5.4

6

Binomialformelen og den hypergeometriske formelen 3.3.1 Binomialformelen 3.3.2 Den hypergeometriske formelen

Punktestimering En punktestimators egenskaper

152 152 154 159 160 160 165 166 172 172 176

6.3 6.4 6.5

6.6 6.7

6.8 6.9

7

Hypotesetesting 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12

8

Intervallestimering 179 Nødvendigheten av forutsetninger ved statistisk inferens 181 Konfidensgrenser for forventningen til en normalt fordelt tilfeldig variabel 182 6.5.1 Ett-utvalgsproblemer 182 6.5.2 To-utvalgsproblemer med parobservasjoner 188 Konfidensgrenser for differensen mellom for­ ventningene til to normalt fordelte tilfeldigevariabler193 Konfidensgrenser for differensen mellom for­ ventningene til to normalt fordelte tilfeldige variabler når = (y}^a2 195 Konfidensgrenser for en varians eller et standardavik 196 Konfidensgrenser for en sannsynlighet 198

Innledning Innledende eksempel Kort oversikt over hypotesetestingsprosedyren Forutsetninger og data Nullhypoteser og andre hypoteser Valg av hypotese og alternativ To slags feil ved hypotesetesting De to slags feil illustrert ved et eksempel Signifikansnivå og signifikanssannsynlighet Testing ved hjelp av et konfidensintervall Styrkefunksjon og operasjonskarakteristikk Ubetingede sannsynligheter for forskjellige testingsutfall

Hypoteser om forventninger for normalt fordelte variabeler 8.1 8.2 8.3 8.4 8.5

Innledning Ett-utvalgsproblemer To-utvalgsproblemer med parobservasjoner To-utvalgsproblemer uten parobservasjoner To-utvalgsproblemer uten parobservasjoner når O] * o2

209 209 211 217 218 219 220 222 223 225 227 228 228

232 232 232 233 234

235

9

Testmetoder basert på kjikvadratfordelingen 9.1 9.2 9.3

9.4

9.5

9.6

9.7 10

Innledning Hypoteser om en varians eller et standardavvik Hypotetiske sannsynligheter for et sett av disjunkte kjennetegn i en enkelt populasjon. (Helspesifisert hypotese) En hypotese om at en tilfeldig variabel følger en hypotetisk gitt fordeling med ukjente parametre. (Delvis spesifisert hypotese) En hypotese om uavhengighet mellom kjennetegn eller likhet mellom sannsynligheter i forskjellige populasjoner 9.5.1 En hypotese om uavhengighet mellom kjennetegn (uavhengighetstesten) 9.5.2 Likhet mellom sannsynligheter i forskjellige populasjoner Samsvar mellom kjikvadrattester og noen andre testmetoder Yates’ kontinuitetskorreksjon

240 240 241

Enkel lineær regresjon og korrelasjon 10.1 10.2 10.3 10.4 10.5 10.6 10.7

10.8

10.9

10.10 10.11 10.12

Oversikt Korrelasjonsbegrepet belyst ved et eksempel Litt repetisjon av matematikk Regresjonsfunksjonen i populasjonen belyst ved et eksempel Grunnleggende symboler og formler Minste kvadraters metode forklart ved et eksempel Regresjonsanalyse anvendt på et problem fra dagliglivet Korrelasjonskoeffisienten og andre assosiasjonsmål 10.8.1 Kovariansen 10.8.2 Korrelasjonskoeffisienten 10.8.3 En sammenligning av b og r 10.8.4 Determinasjonskoeffisienten. Kvadratsummer Flere eksempler på korrelasjon og samvariasjon. Korrelasjonsmodeller og regresjonsmodeller Forutsetninger ved statistisk inferens Et eksempel hvor ikke alle forutsetninger er oppfylt Noen estimeringsresultater

241

247

250 250

254

255 257 269 269 271 273 274 279 282

289 293 293 296 298 299 302 309 313 314

10.13 10.14

10.15 10.16

10.17 10.18 11

Simultane, marginale og betingede fordelinger 11.1 11.2 11.3 11.4 11.5

11.6 11.7

11.8 11.9

12

Konfidensintervall for p og hypotesetesting vedrørende P Konfidensintervall og prediksjonsintervall 10.14.1 Konfidensgrenser for E(YIX) for en gitt X. 10.14.2 Prediksjonsintervall for Y for en gitt X Omsnuing av regresjonsproblemet Mer om bruken av regresjonsanalysen 10.16.1 Forskjellige tolkningsspørsmål 10.16.2 Mer om assosiasjonsmål 10.16.3 Alternative skrivemåter for regresjonsfunksjonen Regresjonsanalyse og tidsrekker Regresjonsanalyse og EDB-utskrifter

Innledning, terminologi, symboler og sammendrag Simultane fordelinger Marginale sannsynlighetsfunksjoner Uavhengighet mellom tilfeldige variabler Populasjonskovarians og populasjonskorrelasjonskoeffisient Betingede fordelinger Populasjonsregresjonsfunksjonene 11.7.1 Regresjonsfunksjonen for Xo med hensyn på Xj. 11.7.2 Regresjonsfunksjonen for Xj med hensyn på Xo Regresjon og korrelasjon. Sammenhenger Kontinuerlige variabler. Mer enn to variabler 11.9.1 Kontinuerlige variabler. Binormal fordeling 11.9.2 Mer enn to tilfeldige variabler

Litt om lineære funksjoner av tilfeldige variabler 12.1

12.2

En lineær funksjon av en enkelt tilfeldig variabel 12.1.1 Definisjon og eksempler 12.1.2 Konsekvenser for fordeling, forventning og varians 12.1.3 Konsekvenser for utvalgsgjennomsnitt og utvalgsvarians En lineær funksjon av to tilfeldige variabler

316 319 319 321 323 325 325 326

327 328 331 353 353 356 364 366 367 370 373

373 375 376 377 378 379

387 387 387 391

394 395

12.3

13

En lineær funksjon av et vilkårligantall variabler

Variansanalyse og F-test 13.1 13.2

13.3 13.4

13.5

13.6

13.7 13.8

Innledning Litt mer om forsøksplaner 13.2.1 Definisjon av grunnbegreper 13.2.2 Planen fri randomisering 13.2.3 Blokkplanen F-fordelingen Variansanalyse av en-veisgrupperte data 13.4.1 Forklaring av datatype og symboler 13.4.2 Kvadratsum, frihetsgrader og middelkvadrat 13.4.3 Et eksempel på en-veis variansanalyse 13.4.4 Forskjellige modeller for enveisgrupperte data 13.4.5 Varianskomponentmodeller Variansanalyse av to-veis grupperte data 13.5.1 Modeller for to-veis grupperte data 13.5.2 Et eksempel på to-veis variansanalyse 13.5.3 Litt om samspill Mulige avvik fra forutsetningene og virkninger av dette Litt om estimering av kontraster Forventninger til middelkvadrater 13.8.1 Innledning 13.8.2 En-veis variansanalyse med like utvalgsstørrelser

14 Noen ikke -parametriske metoder 14.1 14.2

14.3

397 404 404 405 405 407 412 417 418 418 422 426 432 439 442 442 445 448

450 451 454 454 454

462 Innledning 462 Litt om skalatyper og målenivåer 463 14.2.1 Innledning 463 14.2.2 Egenskaper ved tall-linjen 465 14.2.3 Oversikt over målenivåene 466 14.2.4 Nominalnivået 467 14.2.5 Ordinalnivået 467 14.2.6 Intervallnivået 468 14.2.7 Forholdstallsnivået 469 14.2.8 Konsekvenser for statistisk behandling 470 Kort orientering om begrepene validitet og reliabilitet 470

14.4 14.5 14.6 14.7

15

Sammenligning av tre lokaliseringsmål i populasjonen Ett-utvalgs fortegntest To-utvalgs fortegntest ved parobservasjoner Wilcoxon’s fortegn-rangtest 14.7.1 Ett-utvalgsproblemer 14.7.2 To-utvalgsproblemer med parobservasjoner 14.8 Wilcoxon-Mann-Whitney ’s test 14.9 Kruskal Wallis’ test 14.10 Følgetester 14.10.1 Testing av tilfeldighet i en oppsatt rekkefølge (nummerering) 14.10.2 Testing av om et utvalg er tilfeldig 14.10.3 Testing av om to utvalg kommer fra samme populasjon 14.11 Rang-korrelasjon 14.12 Ikke-parametrisk estimering 14.12.1 Punktestimering av populasjonsmedianen 14.12.2 Konfidensintervall for populasjonsmedianen

471 473 477 479 479 484 485 489 492

Bayes ’ teorem og noen anvendelser av dette

507 507 512 514 515

15.1 15.2 15.3 15.4

16

Bayes’ teorem i sin enkleste form Bayes’ teorem i sin generelle form Bayes’teorem og subjektive sannsynligheter Bayesiansk inferens

Blandede oppgaver

17 Tabeller 18

492 494

495 496 498 498 499

523 557

Appendiks A. Litt om regning med summetegn

573

Stikkordregister

577

1

Innledning noen grunnbegreper

1.1

Innledning

Ordet statistikk brukes ofte om en stor samling tall. Eksempler finner vi i betegnelsene importstatistikk, industristatistikk, helsestatistikk osv. Men ordet brukes også som betegnelse på et noe matematisk preget metodefag som det er nyttig å ha kjennskap til når man skal arbeide med en samling tall, f.eks. en tallsamling av den typen som er nevnt ovenfor. Statistikkfaget er nyttig både når vi skal planlegge innsamlin­ gen av tallene, og når vi skal analysere tallene og trekke slutninger. Hvis vi ønsker å kunne ha begrunnet håp om at tallene skal gi svar på de spørsmålene vi stiller, bør vi omgås tallene på en målbevisst måte. En viktig arbeidsmåte innen statistikkfaget er å sette opp en statistisk modell som viser hvorledes et tallmateriale kan tenkes framkommet. En slik statistisk modell er en tankekonstruksjon som kan skrives ned ved hjelp av matematiske og statistiske begreper og symboler. Den utgjør et metodisk hjelpemiddel til å oppdage, undersøke og kvantifisere mer eller mindre faste regler og lovmessigheter i virkeligheten som omgir oss. I statistikken arbeides det med typer av modeller som er så gene­ relle at de kan anvendes innen en rekke helt forskjellige fagområder. Statistikkfaget er således av felles interesse både for økonomer, biolo­ ger, ingeniører, sosiologer osv., selv om det nok finnes visse spesialiseringer innen faget. Statistisk teori og statistiske metoder kommer til anvendelse både når vi skal skaffe oss viten om vår verden, og når vi skal ta praktiske avgjø­ relser på grunnlag av denne viten. Statistikkfaget forsyner oss med et lager av nyttige begreper og metoder som kan brukes når bestemte typer av problemer skal løses. Matematikk er et viktig hjelpemiddel innen statistikken. Statistikkfaget betegnes derfor også som matematisk statistikk. Men statistikken skiller seg klart fra matematikken. Et sær­ trekk ved statistikkfaget er at det anvendes på fenomener hvor det inn­ går et element av usikkerhet, og hvor man ønsker å ta direkte hensyn til denne usikkerheten i selve behandlingen av problemet. Noen helt spredte eksempler på fenomener som kan ansees for å være av denne typen er tipping, forsikringsvirksomhet, kvalitetskontroll ved stikkprø­ ver, politiske meningsmålinger, statistiske utvalgstellinger, leting etter olje, og sist, men ikke minst vitenskapelige eksperimenter. 15

Statistikkfaget kan betraktes fra forskjellige synsvinkler. Fra en side sett er statistikken en del av den vitenskapelige metodelæren. Fra en annen side sett er statistikk et hjelpemiddel til å treffe mest mulig rik­ tige beslutninger under forhold hvor det hersker usikkerhet. Både bedriftsledere, leger, ingeniører og mange andre grupper av fagperso­ nell stilles til stadighet overfor viktige beslutninger av denne typen. Vi vil nå forsøke å gi en brukbar definisjon av faget.

DEFINISJON 1.1. STATISTIKK: Statistikk er et metodefag som behandler problemer som oppstår og metoder som kan brukes når man skal samle viten og treffe beslutninger under forhold hvor det hersker usikkerhet.

Usikkerheten kommer som regel inn i bildet fordi vi er nødt til å bruke våre kunnskaper om et begrenset antall tilfelle (et utvalg) på et større antall tilfelle (en populasjon) som vi vet lite om på forhånd. Statistikken kan hjelpe oss til å innrette oss på en formålstjenlig måte i slike situa­ sjoner. Et eksempel kan kanskje tjene til å klarlegge vår definisjon. En gruppe medisinske forskere får i oppdrag å bekjempe en hittil ukjent smittsom sykdom. De undersøker da et begrenset antall pasienter (et utvalg) for å bli kjent med sykdommen. Videre foretar de en rekke eksperimenter med behandlingsmåter og medisiner. Resultatene bør ha gyldighet også for andre pasienter av samme type (andre gjentak) som ikke er undersøkt (dvs. gyldighet for hele populasjonen). Til slutt setter de i gang en praktisk bekjempelse av sykdommen ved hjelp av isola­ sjon, vaksinasjon, hygieniske tiltak osv. På alle stadier i dette programmet vil det herske usikkerhet. Etter hvilket prinsipp bør man velge ut de pasientene som skal undersøkes? Hvorledes bør eksperimentene legges opp og konklusjonene utledes av tallmaterialet? I hvilken utstrekning er konklusjonene gyldige under praktiske forhold? Spørsmål av liknende slag blir behandlet systematisk i statistikken på et helt generelt grunnlag uten tilknytning til noe bestemt fagområde. Derfor er statistisk teori og statistiske metoder anvendelige i all empi­ risk forskning, dvs. i all forskning hvor vi systematisk samler erfaring om variable fenomener i den virkeligheten som omgir oss. Statistikk er et meget stort og variert fagområde med flere spesialdisipliner. Faget er et sentralt hjelpemiddel for beslutningstakere og i sam­ funnsvitenskapelig og naturvitenskapelig forskning. Statistikk bygger på sannsynlighetsregningen som har røtter helt tilbake til 1500-tallet. Men det er spesielt i vårt århundre at statistikken har fått en enorm 16

vekst i omfang og betydning. Fagets relative betydning vil trolig fort­ sette å øke betraktelig i tiden framover. Stadig bedre muligheter for og kunnskaper om elektronisk databehandling vil bidra til dette. Sannsynlighetsregningen blir ofte betraktet som en ren matematikkdisiplin. Fra en teoretisk synsvinkel kan dette være hensiktsmessig. Når vi tenker på anvendelser på vår virkelighet, er imidlertid sannsynlig­ hetsregningen knyttet til fenomener hvor det inngår et element av usik­ kerhet. I følge vår tidligere grenseoppgang vil vi derfor betrakte sannsynlighetsregningen som en del av statistikkfaget i det følgende.

1.2

Noen statistiske grunnbegreper

Å lære begreper for en statistikk-student er like viktig som å lære ord for en språk-student. Uten ord blir det ikke noe språk, og uten begreper blir det ikke noe statistikk. Det er nødvendig å lære utenat hva de mest sentrale begreper og symboler står for hvis man skal forstå statistikk. Som på så mange andre områder kreves det altså flid og tålmodighet. Statistikk oppfattes ofte som et tungt fag å lære. Noen gode tips til nybegynneren er: (1) Sett deg godt inn i begrepene og tenkemåten. Sta­ tistikk er et utpreget tenkefag. (2) Vær tålmodig og lær enkeltdelene først selv om du ikke forstår helt hva du skal bruke dette til. Gled deg over det lille du forstår! Det nytter ikke å få en skikkelig helhetsforstå­ else på et tidlig stadium i et så abstrakt og komplisert fag som statistikk. Om det er litt kjedelig til å begynne med, blir det gøy når bitene etter hvert begynner å falle på plass, og du oppdager at dette er et kjempenyttigfag. Virkeligheten vi lever i er svært komplisert. De problemene vi får å løse ved statistiske metoder er derfor ofte innfløkte og sammensatte. Følgelig må vi som regel spalte opp et problemkompleks som det vi støtte på i eksemplet ovenfor i en rekke forholdsvis enkle delproblemer. Slike delproblemer kan i sin tur ofte beskrives ved hjelp av statistiske modeller. Vi må selvsagt likevel være på vakt mot å tape helheten av syne. (Modeller som behandler flere delproblemer under ett kan for øvrig også lages.) Ved behandlingen av et slikt statistisk delproblem får vi bruk for en rekke begreper som vi skal se nærmere på i det følgende. Men først presenterer vi noen eksempler som vi kan vise til.

EKSEMPEL 1.1 Studentene ved Universitetet i Oslo (UiO) klager over at de har dårlig økonomi og at dette går ut over studiene. Du har fått i opp­ drag å foreta en objektiv undersøkelse av problemet og å skrive en kort rapport om dine resultater. 17

EKSEMPEL 1.2 Du er ansatt i Biltilsynet og får i oppdrag å foreta fartskontroll på en bestemt veistrekning en bestemt dag.

EKSEMPEL 1.3 Du er ansatt i en bank og får i oppdrag å utrede hvilken risiko som knytter seg til bankens eksisterende utlånsmasse.

EKSEMPEL 1.4 Du er landbruksforsker og får i oppdrag å sammenlikne tre nye lovende hvetesorter med de to sortene som hittil har vært vanlig dyrket innenfor et dyrkningsområde.

Som tidligere nevnt er statistikk et hjelpemiddel for å skaffe viten eller kunnskap. For å få viten må vi foreta undersøkelser. Typisk må vi undersøke flere objekter eller situasjoner av samme slag, dvs. vi gjen­ tar undersøkelsen. Hvert objekt som vi undersøker eller overveier å undersøke kaller vi derfor et gjentak. Det vi undersøker er egenskaper ved gjentakene. I eksempel 1.1 må vi undersøke flere studenter. Derfor er hver student et gjentak. I eksempel 1.2 er hver bil som passerer et gjentak. I eksempel 1.3 er hvert eksisterende lån som banken har gitt et gjentak. I eksempel 1.4 kunne vi for eksempel dyrke alle 5 sortene på en rekke gårder og sammenlikne avlingene av de 5 sortene på hver enkelt av gårdene. I såfall ville vi si at hver gård er et gjentak. I et statis­ tisk problem er det altså viktig å ha klart for seg hva som er gjentak. I en del tilfelle vil det være flere muligheter alt etter hvorledes undersø­ kelsen legges opp. En statistisk undersøkelse får svært begrenset gyldighet hvis vi ikke undersøker flere gjentak. Hvis du treffer en ufordragelig bergenser og på det grunnlaget påstår at alle bergensere er ufordragelige, er du åpen­ bart på tynn is.

18

DEFINISJON 1.2 GJENTAK: Et gjentak kan defineres som et enkeltobjekt eller en enkeltsituasjon som kan undersøkes i situasjoner hvor man er opp­ tatt av utsagn som også involverer andre enkeltobjekter av samme slag. Et annet ord som brukes for gjentak er telleenhet. Hva som skal oppfattes som gjentak i det enkelte tilfelle er avhengig av undersøkelsens karakter. Skal vi foreta en statistisk undersøkelse av beretningene om flyvende tallerkener, kan f.eks. hver ny påstått tilsyne­ komst av flyvende tallerkener oppfattes som et gjentak. Andre eksem­ pler på gjentak kan f.eks. være stemmeberettigede personer når den egenskapen vi er interessert i er planlagt stemmegivning ved et kom­ mende valg. Eller gjentakene kan være land når den egenskapen vi er interessert i er innbyggertall. Det kan lett ramses opp en uendelighet av objekttyper eller situasjonstyper som kan være gjentak i gitte tilfelle. I et statistisk problem vil vi nesten alltid undersøke mer enn ett gjen­ tak av samme slag. I eksempel 1.1 vil du f.eks. ganske sikkert intervjue mer enn én student; i eksempel 1.2 vil du måle hastigheten til mer enn én bil; og i eksempel 1.3 vil du granske mer enn ett lån. På den annen side er det lite sannsynlig at du vil intervjue alle studentene ved Univer­ sitetet i Oslo, eller at du vil måle hastigheten på alle bilene som passe­ rer. Vi ledes derfor til begrepene utvalg og populasjon.

DEFINISJON 1.3 UTVALG og UTVALGSSTØRRELSE: Samlingen av gjentak som vi undersøker i forbindelse med et bestemt problem vil vi kalle et utvalg. Betegnelsene stikkprøve eller sampel brukes også. Antall gjentak i utvalget betegnes som regel med symbolet n og kalles utvalgsstørrelsen.

DEFINISJON 1.4 POPULASJON: Med en populasjon menes samlingen av alle de gjentak som vi tar sikte på at våre resultater skal gjelde for. Beteg­ nelsen univers brukes også.

19

Som regel er det praktisk eller økonomisk umulig å undersøke hele populasjonen, og nettopp dette er grunnen til at vi får bruk for statis­ tiske metoder. Utvalget er alltid en del av populasjonen. Skjematisk kan relasjonen mellom gjentak, utvalg og populasjon illustreres som i figur 1.1.

Figur 1.1 Skjematisk illustrasjon av tre grunnbegreper.

Det er viktig at vi sørger for å ta ut utvalget på en slik måte at vi har rimelig sjanse til å få et utvalg som er representativt for populasjonen. La oss tenke oss at vi skal foreta en politisk meningsmåling ved å ta ut et utvalg på 1000 stemmeberettigede personer fra populasjonen av stemmeberettigede personer i Norge. Vi ville vel da finne det ønskelig at prosentandelen av kvinner var den samme i utvalget som i populasjo­ nen. Videre burde prosentandelen av førstegangsvelgere helst være den samme i utvalget som i populasjonen. Men også prosentandelen av vestlendinger burde være den samme i utvalget som i populasjonen. Imidlertid kunne vi fortsette å ramse opp en rekke andre prosentandeler som burde være de samme i utvalget som i populasjonen. Vi kunne f.eks. ta prosentandelen av industriarbeidere, av aktive idrettsutøvere, av personer som tidligere har stemt på Arbeiderpartiet, av EU-motstandere, av kirkegjengere, osv., osv. Vi ville snart oppdage at det rett og slett er en umulighet å få til en slik representativitet. Det finnes en genial, men enkel løsning på dette problemet, nemlig å ta ut et utvalg helt tilfeldig ved hjelp av en form for loddtrekning. 20

DEFINISJON 1.5 TILFELDIG UTVALG: Et utvalg av størrelse n som tas ut fra en populasjon på en slik måte at alle tenkelige utvalg av størrelse n fra denne populasjonen har like stor sjanse for å bli tatt ut kalles et tilfeldig utvalg.

Det kan bevises at vi kan få et slikt utvalg ved å trekke ut tilfeldig et gjentak av gangen fra populasjonen. Men det må skje på en slik måte at alle gjenværende gjentak har samme sjanse til å bli trukket ut ved hver trekning inntil vi har trukket n gjentak. Ordet «sjanse» som er brukt ovenfor er upresist, men blir senere erstattet av ordet «sannsynlighet» som representerer et veldefinert begrep. Skal du f.eks. trekke et tilfeldig utvalg på 15 personer fra en populasjon på 100 personer, kan du ta 100 lapper og skrive navnene på de 100 personene på lappene (et navn på hver lapp). Deretter trekker du tilfeldig 15 lapper (enten alle på en gang eller en av gangen). Anta at vi alltid bruker tilfeldige utvalg. Intuitivt synes det da klart at våre utvalg gjennomsnittlig i det lange løp vil være representative på alle mulige måter. Trekningsmåten er nemlig «upartisk» på en slik måte at hvis det er mange gjentak av en bestemt kategori i populasjonen, vil det være en tendens til at det også blir mange av denne kategorien i utvalget. Vi innrømmer imidlertid at et og annet utvalg, ved en tilfeldig­ het, kan slumpe til å bli svært lite representativt. Dette er imidlertid noe vi må leve med. Det er selvsagt umulig å få sikre opplysninger om en populasjon når vi bare undersøker et begrenset utvalg. I statistikken er det vanlig å bruke tilfeldige utvalg, selv om vi i noen tilfelle først deler opp populasjonen i deler (strata) og deretter tar et til­ feldig utvalg fra hver del (hvert stratum). Denne oppdelingen (stratifiseringen) kan i vårt eksempel f.eks. skje etter kjønn (menn og kvinner), etter bosted, etter yrke, etter tidligere stemmegivning, osv. Det kan av og til være meget vanskelig eller umulig å angi konkret hvilke gjentak det er som hører med til en bestemt populasjon. Ofte er populasjonen å oppfatte som en abstrakt tankekonstruksjon som er lite håndgripelig. Likevel er populasjonen et meget nyttig begrep som letter formuleringen og analysen av våre problemer. Hvis f.eks. gjentaket er en bilreise på en bestemt veistrekning med en bestemt biltype, kan populasjonen bestå av alle bilreiser på denne strekningen med denne biltypen under nærmere spesifiserte kjøreforhold. I eksempel 1.1 er som nevnt hver student et gjentak. Du vil sannsyn­ ligvis ikke intervjue eller undersøke alle studentene ved UiO, for det vil bli for arbeidskrevende og kostbart. De n studentene som du faktisk 21

undersøker utgjør utvalget. Du ønsker imidlertid at de resultatene du kommer fram til med hensyn til studentenes økonomi skal ha en viss gyldighet for alle studenter ved UiO i sin alminnelighet. De N studen­ tene som er registrert som studenter ved UiO utgjør derfor populasjo­ nen. Hva vi vil oppfatte som populasjon når vi i et konkret tilfelle starter en undersøkelse er til en viss grad gjenstand for valg, men det får kon­ sekvenser for hvorledes utvalget bør tas ut. Målet for vår undersøkelse er å komme fram til utsagn, regler eller lovmessigheter som vi kan ha håp om er gyldige for hele populasjonen, selv om de bare bygger på en undersøkelse av utvalget. Det er opp til den som er ansvarlig for undersøkelsen å bestemme hva som skal betraktes som populasjonen i hvert tilfelle. I eksempel 1.2 vil det kanskje være naturlig å si at hver bil er et gjentak, at samlingen av alle biler som passerer veistrekningen mens du arbeider der utgjør populasjonen, og at de bilene du måler hastigheten på utgjør utvalget. Andre formuleringer er imidlertid også mulige, f.eks. at populasjonen består av alle biler i sin alminnelighet som passerer denne veistreknin­ gen. I eksempel 1.3 er det naturlig å si at hvert utestående lån som banken har gitt er et gjentak og at samlingen av alle slike lån utgjør popula­ sjonen. Hvis du undersøker nærmere bare noen av lånene, utgjør disse lånene utvalget. I eksempel 1.4 vil det være gunstig om du sammenlikner de 5 sortene ikke bare på en gård, men på en rekke forskjellige gårder med forskjel­ lige vekstvilkår. Hver gård blir da et gjentak, samlingen av de gårdene du utfører dyrkningsforsøk på er utvalget, og samlingen av alle gårder som du tar sikte på at dine dyrkningsråd skal være gyldige for utgjør populasjonen.

DEFINISJON 1.6 POPULASJONSSTØRRELSE, ENDELIG POPULASJON og UENDELIG POPULASJON: Antall gjentak i populasjonen kalles populasjonsstørrelsen. Hvis populasjonsstørrelsen er et endelig tall, betegner vi den gjerne med symbolet N. En slik populasjon kalles en endelig populasjon eller begrenset populasjon. Hvis deri­ mot antall gjentak i populasjonen oppfattes som uendelig (oo) sier vi at vi har å gjøre med en uendelig populasjon eller en ubegrenset populasjon.

Har vi f.eks. en bestemt terning og oppfatter hvert kast med denne som et gjentak, kan det være hensiktsmessig, som en tilnærmelse, å si at 22

antall mulige kast (antall gjentak) er uendelig. Noe tilsvarende gjelder for eksemplet ovenfor hvor gjentakene var bilreiser på en bestemt strek­ ning. Når ikke noe annet går fram av sammenhengen, vil de popula­ sjonene vi får å gjøre med i det følgende alltid oppfattes som ubegrensede. Dette kan synes merkelig, da det i praksis kanskje kan være vanskelig å peke på populasjoner som faktisk har uendelig mange gjentak. Forklaringen er imidlertid at det matematisk sett ofte er gunstig å operere med ubegrensede populasjoner. Populasjonen behøver ofte ikke å være så stor (kanskje bare noen hundre eller noen tusen) for at det skal være hensiktsmessig å operere med begrepet ubegrenset popu­ lasjon som en matematisk tilnærmelse. Det vi er interessert i hos gjentakene er som nevnt egenskaper, og vi skal i den første delen av denne boka oftest interessere oss for én egen­ skap av gangen. Senere skal vi også se på sammenhenger mellom for­ skjellige egenskaper, f.eks. sammenhengen mellom egenskapen sysselsetting og egenskapen produksjonsvolum når gjentakene er industribedrifter av en bestemt type. Undersøkelsen av hvert gjentak går ut på å granske en egenskap og å observere og registrere et kjennetegn. Vi undersøker f.eks. egenskapen partitilhørighet og observerer og registrerer kjennetegnet Arbeiderpar­ tiet.

DEFINISJON 1.7 EGENSKAP OG KJENNETEGN: En egenskap er en avgrenset kvalitet eller kvantitet som alle gjentakene i den populasjonen vi betrakter har, men som likevel kan ha forskjellig type utslag hos forskjellige gjentak i denne populasjonen. Hver type utslag som en bestemt egenskap kan ha i populasjonen kalles et kjennetegn som svarer til denne egenskapen. Andre betegnelser på kjennetegn er begivenhet eller hendelse. (Se senere.) I eksempel 1.1 hvor hver student er et gjentak vil f.eks. kjønn være en egenskap, mens mann og kvinne er de to kjennetegnene som svarer til denne egenskapen. Nasjonalitet er en annen egenskap, mens norsk, svensk og alle andre nasjonaliteter som er representert blant studentene ved UiO utgjør de kjennetegnene som svarer til denne egenskapen. I eksempel 1.2 hvor hver bil er et gjentak, vil f.eks. hastighet ( målt i km per time) være en egenskap, mens 71 km per time og 93 km per time er to av de kjennetegnene som svarer til denne egenskapen. I dette eksem­ plet vil det kunne være svært mange kjennetegn som svarer til egenska­ pen hastighet. 23

DEFINISJON 1.8 DISJUNKTE KJENNETEGN: Samlingen av alle forskjellige kjennetegn som karakteriserer en bestemt egenskap i en popula­ sjon vil vi kalle et sett av disjunkte kjennetegn. Likeverdige beteg­ nelser er et sett av kjennetegn som utelukker hverandre eller et sett av alternative kjennetegn. Tar vi for oss to eller flere kjennetegn fra et slikt sett, sier vi at disse kjennetegnene er disjunkte.

Hvert gjentak som har en bestemt egenskap, har altså ett og bare ett kjennetegn fra det settet av disjunkte kjennetegn som svarer til denne egenskapen.

DEFINISJON 1.9 MOTSATTE KJENNETEGN: Når det finnes bare to kjennetegn i et sett av disjunkte kjennetegn, kalles disse også motsatte kjenne­ tegn eller komplementer.

Alle nasjonalitetene som er representert blant studentene ved UiO utgjør et sett av disjunkte kjennetegn, dvs. et sett av kjennetegn som utelukker hverandre. Når vi hevder dette, har vi forutsatt at hver student har en og bare en nasjonalitet. Kjennetegnene mann og kvinne utgjør et annet sett av disjunkte kjennetegn i den samme populasjonen. Siden dette settet bare inneholder de to kjennetegnene, er disse kjennetegnene også motsatte kjennetegn. Hvis vi ønsker å operere bare med kjenneteg­ net norsk og det sammensatte kjennetegnet ikke-norsk, blir også disse kjennetegnene to motsatte kjennetegn. De forskjellige hastighetene som forekommer i populasjonen av biler i eksempel 1.2 utgjør et sett av dis­ junkte kjennetegn.

DEFINISJON 1.10 KVANTITATIVE OG KVALITATIVE EGENSKAPER OG KJEN­ NETEGN: Når hvert av kjennetegnene som svarer til en egenskap i en populasjon kan karakteriseres på en naturlig og meningfylt måte med et tall, sier vi at hvert av kjennetegnene er et kvantitativt kjen­ netegn, og at egenskapen er en kvantitativ egenskap. Et kvalitativt kjennetegn er et kjennetegn som ikke er kvantitativt. En kvalitativ egenskap er en egenskap som ikke er kvantitativ. 24

Som nevnt kan hver enkelt egenskap karakteriseres hos det enkelte gjentak ved et enkelt kjennetegn som er et alternativ fra en samling av kjennetegn som innbyrdes utelukker hverandre. Slike kjennetegn kalles som nevnt disjunkte kjennetegn. Grunnen er at de, som vi senere skal se, svarer til disjunkte punktmengder i et såkalt utfallsrom. Kjenne­ tegnet Chevrolet er f.eks et alternativ fra et sett av alternative eller disjunkte kjennetegn som også omfatter alle andre bilmerker i popula­ sjonen som f.eks. Fiat, Datsun, Mercedes, osv. Kjennetegnet 4 barn når gjentaket er en familie er et alternativ eller en verdi i et sett som omfat­ ter alle tall, 0, 1, 2 osv. opp til antall barn i de barnerikeste familiene i populasjonen. Kjennetegnet legemshøyde 176,5 cm er en verdi i et sett som omfatter alle høyder som forekommer i populasjonen. Vi ser altså at hvert sett av disjunkte kjennetegn inneholder de mulige alternativer eller verdier av en egenskap som f.eks. bilfabrikat, familiestørrelse, legemshøyde, osv. Det er viktig alltid å definere de kjennetegnene vi opererer med (f.eks. nasjonaliteter) på en slik måte at hvert gjentak har ett og bare ett kjennetegn fra hvert sett av disjunkte kjennetegn som vi betrakter. Vi sier da at de forskjellige kjennetegn fra samme sett av alternative kjen­ netegn utelukker hverandre, idet de ikke kan opptre samtidig hos et og samme gjentak. Vi sier også at et gjentak må ha enten det ene eller det andre (eller det tredje, osv.) av dem. Toyota, Ford og Opel er disjunkte kjennetegn, mens død og levende også er motsatte kjennetegn. Når et sett av disjunkte kjennetegn inneholder mer enn to alternati­ ver, er det alltid mulig å innrette seg slik at vi kan operere med bare to motsatte kjennetegn ved å gruppere flere kjennetegn under en felles betegnelse. Dette er ofte praktisk og kan lette visse definisjonsproble­ mer. I stedet for å operere med flere grader av sykdom, kan det f.eks. være hensiktsmessig bare å definere de to motsatte kjennetegnene syk og ikke syk. Når to kjennetegn fra to forskjellige sett av disjunkte kjennetegn kan opptre samtidig hos ett og samme gjentak (slike situasjoner kommer vi til senere), sier vi at de to kjennetegnene ikke utelukker hverandre. Et gjentak kan altså da ha både det ene og det andre kjennetegnet. Termi­ nologien blir tilsvarende når vi har å gjøre med mer enn to kjennetegn fra mer enn to sett av disjunkte kjennetegn. Hvis vi f.eks. betrakter en populasjon av mennesker, kan kjenneteg­ net svensk statsborger og kjennetegnet legemsvekt 77 kg tenkes å opp­ tre samtidig hos et gjentak. De utelukker hverandre altså ikke. Som vi ser, tilhører de to kjennetegnene forskjellige sett. Det ene set­ tet omfatter alle nasjonaliteter, og det andre omfatter alle tenkelige vek­ ter. De to settene svarer til de to egenskapene nasjonalitet og vekt. I eksempel 1.1 vil en tilfeldig students kjønn være en kvalitativ egen­

25

skap. Mann vil være et kvalitativt kjennetegn og kvinne vil være et annet kvalitativt kjennetegn som svarer til eller er utslag av (verdier av) den kvalitative egenskapen kjønn. På samme måte vil en tilfeldig stu­ dents fakultet-tilhørighet være en kvalitativ egenskap. Hvis det f.eks. er i alt 5 fakulteter som vi betegner med henholdsvis A, B. C, D og E, vil disse fakultetene være kvalitative kjennetegn som svarer til den kvalita­ tive egenskapen fakultet. I eksempel 1.2 vil spørsmålet om en tilfeldig bilist kjører over eller under fartsgrensen kunne kalles en kvalitativ egenskap hvis vi lar lovlig hastighet og ulovlig hastighet være de to kvalitative kjennetegnene som svarer til den nevnte egenskapen. I eksempel 1.4 vil f.eks. samlebetegnelsen bakeegenskaper være en kvalitativ egenskap som knytter seg til en hveteavling av en bestemt sort på en bestemt gård. Gode, middels og dårlige er tre kjennetegn som svarer til denne egenskapen. La oss se på enda noen flere eksempler som kan bidra til å klarlegge disse begrepene. Alder er en kvantitativ egenskap når gjentakene er f.eks. skip. 22 år er et kvantitativt kjennetegn som kan karakterisere egenskapen alder hos et slikt gjentak. 5,5 år er et annet slikt kjennetegn. Legemshøyde er en kvantitativ egenskap når gjentakene er mennesker. 177 cm er et kvantitativt kjennetegn som kan karakterisere denne egen­ skapen hos et (eventuelt flere) gjentak. Fabrikat er en kvalitativ egen­ skap når gjentakene er biler. Ford er et kvalitativt kjennetegn som kan karakterisere denne egenskapen, Opel er et annet, Volvo er et tredje. Planlagt stemmegivning er en kvalitativ egenskap, mens A, H, Kr.E, osv. er tilsvarende kvalitative kjennetegn. Et kjennetegn kan enten observeres direkte ved hjelp av våre sanser, eller indirekte ved bruk av mer eller mindre kompliserte instrumenter, apparater og metoder. Man bruker også betegnelsen begivenhet eller hendelse for et kjennetegn eller kanskje spesielt for en kombinasjon av kjennetegn når dette faller naturlig, språklig sett. Ved terningkast er f.eks. antall øyne (før vi ser resultatet) en egenskap, mens 5 er et kjen­ netegn, en begivenhet eller en hendelse. Som vi senere skal se, kan det som sies om egenskaper og kjennetegn i dette kapitlet også tilpasses til og anvendes på kombinasjoner av kjennetegn fra forskjellige sett av disjunkte kjennetegn. Kvalitative kjennetegn kan alltid uttrykkes som om de var kvantita­ tive ved at vi velger et tall for hvert av dem. Kjønn kan f.eks. defineres ved at vi setter kvinne = 0 og mann = 1. Øyenfarge kan uttrykkes ved at blå = 1, brun - 2 og annen farge = 3. Vi opererer imidlertid da på et lavt målenivå, nemlig det såkalte nominalnivået (se kap. 14), og dette vil legge en begrensning på hvilke statistiske metoder som kan brukes.

26

Det vi ofte er interessert i ved våre statistiske undersøkelser, er såkalte tilfeldige variabler. En «folkelig» definisjon som gjør nytten, følger nedenfor. Matematisk presise definisjoner finnes i litteraturen.

DEFINISJON 1.11 TILFELDIG VARIABEL. VERDI AV TILFELDIG VARIABEL: Med en tilfeldig variabel menes en kvantitativ egenskap. Med en verdi av en tilfeldig variabel menes et kvantitativt kjennetegn som svarer til denne egenskapen. En tilfeldig variabel knytter seg alltid til en populasjon og dermed også til eventuelle utvalg fra denne populasjonen. En verdi av en tilfeldig variabel er et tall som varierer mer eller mindre fra gjentak til gjentak i populasjonen eller utvalget som vi arbeider med. Tallets størrelse for et bestemt gjentak kalles verdien av denne tilfeldige variabelen for dette gjentaket. Andre betegnelser for en tilfeldig variabel er stokastisk varia­ bel eller random variabel. I eksempel 1.1 vil alder være en egenskap som knytter seg til studen­ tene ved UiO. Alderen kan karakteres greit ved et tall. Alle studenter er ikke like gamle, selv om det kan forekomme at noen av dem er det. Alder er altså en tilfeldig variabel etter vår definisjon. Hvis du og jeg er studenter ved UiO vil din alder være en verdi av den tilfeldige variabe­ len alder, mens min alder er en annen verdi av den samme tilfeldige variabelen. Hvis vi er nøyaktig like gamle, har vi begge samme verdi av den tilfeldige variabelen alder. I den første delen av denne boka vil vi som regel behandle bare én tilfeldig variabel av gangen, og vi betegner den da med symbolet X. Vi trenger nemlig symboler fordi vi etter hvert skal presentere en rekke formler. Vi kan altså f.eks. skrive X = alder. En verdi av X skriver vi ofte som X med en fotskrift som angir gjentak nr. i utvalget. (Det er gjerne hensiktsmessig å tenke seg at gjentakene i utvalget er nummerert i en eller annen rekkefølge fra 1 til n.) Hvis jeg er student nr. 1, og du er student nr. 2, og hvis jeg er 60 år og du er 25 år, vil det være naturlig å skrive X] = 60 og X2 = 25. Legg merke til at den tilfeldige variabelen X = alder i dette eksemplet egentlig ikke er et tall, hvor rart det enn kan høres ut. Verdien Xj = 60 er et tall og verdien X2 = 25 er et annet tall. Men symbolet X = alder er altså egentlig ikke et tall, men et symbol for det variable fenomenet som heter alder og som resulterer i et bestemt tall (60 eller 25, osv.) hver gang vi undersøker et gjentak. Dette er meget viktig, og faller ofte vanskelig å forstå. (Likevel er det ikke noe i veien for å bruke X i formler som om det allerede var et tall. Dette skal vi se eksempler på i senere kapitler.) 27

For å få fram hva X = alder egentlig er i dette eksemplet er det ofte hensiktsmessig å skrive: X = alderen til en tilfeldig student. Vi får da fram at vi ikke tenker på et bestemt tall, men at det likevel er snakk om alder, og at alle aldre som forekommer i populasjonen i og for seg er av interesse i vår sammenheng. Generelt vil vi altså bruke bokstaver med streker under som symboler for tilfeldige variabler. For verdier vil vi bruke de tilsvarende symbolene uten understrekning og eventuelt med fotskrifter som angir nummereringen av gjentakene. Symbolbruken i forbindelse med tilfeldige variabler og verdier av til­ feldige variabler er noe varierende i litteraturen. En tilfeldig variabel og en verdi av denne betegnes f.eks. med henholdsvis X og x eller X og X (altså samme symbol) eller fet X og vanlig X. Fordelen ved vår symbol­ bruk er blant annet at den lar seg gjennomføre konsekvent hele tiden, også når vi kommer til greske bokstaver og konvensjonelle symboler. La oss se på noen andre eksempler på tilfeldige variabler. I en popu­ lasjon av byer er f.eks. innbyggertall en tilfeldig variabel mens 15000 kan være en verdi av denne tilfeldige variabelen. I eksempel 1.1 vil den samlede studiegjelden til en tilfeldig student per dags dato være en til­ feldig variabel med verdier som kan variere fra student til student. I eksempel 1.2 vil gjennomsnittshastigheten til en tilfeldig bil idet den passerer kontrollstrekningen være en tilfeldig variabel. I eksempel 1.3 vil antall ganger et tilfeldig lån er blitt purret være en tilfeldig variabel med verdier som kan variere fra lån til lån. I eksempel 1.4 vil f.eks. dif­ ferensen mellom avlingen per dekar for sort nr. 1 og sort nr. 4 være en tilfeldig variabel med verdier som varierer fra gård til gård. Det er ikke vanskelig å finne på et stort antall andre tilfeldige variabler i forbindelse med disse eksemplene. Det finnes to slags tilfeldige variabler som det er meget viktig ikke å sammenblande fordi den matematiske behandlingen som kommer senere er svært forskjellig for de to slagene.

DEFINISJON 1.12 DISKRET TILFELDIG VARIABEL og KONTINUERLIG TIL­ FELDIG VARIABEL: En diskret tilfeldig variabel er en tilfeldig variabel som har verdier som svarer til punkter på tall-linjen som alle ligger mer eller mindre adskilt fra hverandre. En kontinuerlig tilfeldig variabel, derimot, har verdier som kan ligge tett i tett inn­ til hverandre i hvert fall på en del av tall-linjen.

Antall barn i en tilfeldig familie er et eksempel på en diskret tilfeldig variabel. Denne diskrete tilfeldige variabelen kan ha verdiene 0, 1,2, osv. Siden verdier som f.eks. 2,3 barn eller 5,8 barn ikke kan fore­ 28

komme, er altså verdiene atskilt fra hverandre. Verdiene av en diskret tilfeldig variabel er som regel, men ikke alltid resultatet av en tellepro­ sess hvor vi teller en, to, tre, osv. (eventuelt 0 først). Gevinsten i et pen­ gelotteri kan f.eks. være 0, 100, 50000 og 1000000 kroner. Disse tallene er da verdier av den diskrete tilfeldige variabelen lotterigevinst for et tilfeldig lodd. Verdiene av en kontinuerlig tilfeldig variabel er som regel resultatet av en avlesning på en skala av et eller annet slag, f.eks en vektskala, et metermål, en pH-skala, en verdiskala (kroner og øre), e.l. En slik skala er oftest i prinsippet kontinuerlig (sammenhengende), selv om man i praksis svært ofte foretar avrundinger. Som regel er det det prinsipielle og ikke den praktiske avrundingen som avgjør om man skal regne en tilfeldig variabel for å være diskret eller kontinuerlig i slike tilfeller. Det er imidlertid opp til den som har ansvaret for analysen å velge hva slags tilfeldig variabel det er hensiktsmessig å bruke i slike tilfelle. Høyden av en tilfeldig person vil vanligvis bli betraktet som en kontinuerlig til­ feldig variabel, selv om vi runder av høydene til hele centimeter. Et pengebeløp, f.eks. den daglige omsetningen i en bestemt forretning en tilfeldig dag, blir nokså typisk behandlet som en kontinuerlig tilfeldig variabel, selv om man foretar avrundinger, f.eks. til hele tusen kroner i det statistiske materialet. Vi ser da bort fra situasjoner som i lotterieksemplet ovenfor hvor det bare er visse sterkt atskilte verdier som kan forekomme. Med våre definisjoner kan vi si at en egenskap svarer til en tilfeldig variabel, mens et kjennetegn svarer til en verdi av en tilfeldig variabel. Det er heller ikke noe i veien for å bruke betegnelsen kvalitativ variabel i stedet for kvalitativ egenskap og verdi av en kvalitativ variabel i stedet for kvalitativt kjennetegn. I mange fagmiljøer f.eks. innen sosialvitenskapene, er det nokså vanlig å bruke betegnelsen variabel både for kvantitative og kvalitative egenskaper. Dette er oversiktlig og praktisk i mange situasjoner, men når det kommer til statistisk behandling, mel­ der det seg snart et behov for spesialbegreper av den typen som er inn­ ført ovenfor. Som nevnt knytter det seg vanligvis et stort antall egenskaper til gjentakene i en populasjon, men vi er ofte bare interessert i en eller noen få. Det kan likevel være nyttig for oversiktens skyld å klassifisere de forskjellige egenskapene. For det første har vi de egenskapene som er felles for alle gjentak i populasjonen og bare for disse. Populasjonen kan i prinsippet avgrenses på grunnlag av disse. (Populasjonen av mennesker kan f.eks. avgrenses på grunnlag av de menneskelige egenskapene.) For det andre brukes visse andre egenskaper undertiden til en videre klassifisering av gjentakene for analytiske formål. Sammen med de egenskapene som definerer populasjonen brukes disse egenskapene til å 29

definere en subpopulasjon eller delpopulasjon. I prinsippet kan vi f.eks. definere en delpopulasjon av populasjonen som omfatter alle mennes­ ker ved å skille ut de mennesker som har egenskapen øyenfarge karak­ terisert ved kjennetegnet blå og egenskapen legemshøyde karakterisert ved kjennetegnene mindre enn 170 cm.

DEFINISJON 1.13 DELPOPULASJON: Når noen av gjentakene i en gitt populasjon alle har ett (eventuelt flere) kjennetegn som de øvrige gjentakene mangler, sier vi at de førstnevnte gjentakene utgjør en delpopula­ sjon av den gitte populasjonen.

For det tredje finnes det egenskaper som er av interesse fordi de identi­ fiserer det enkelte gjentak. Eksempler er personnummer, navn, adresse, osv. hvis gjentakene er mennesker, og registreringsnummer hvis gjen­ takene er biler. For det fjerde har vi de egenskaper som vår undersøkelse egentlig dreier seg om. Det er hovedsakelig disse vi kommer til å se på i det føl­ gende. La oss til slutt i dette kapitlet nevne at terminologien kan variere noe fra lærebok til lærebok. I stedet for å si at vi undersøker en rekke gjen­ tak vil en del statistikere si at vi utfører en rekke eksperimenter eller forsøk. Mens ordet gjentak etter vår bruk refererer seg til det enkelte objekt, kan vi si at ordet eksperiment refererer seg til selve observasjonsprosessen eller til forberedelsen av denne. Anta f.eks. at den tilfel­ dige variabelen vi er interessert i er legemshøyden til en tilfeldig mannlig norsk student. Vi kan da si at hver student er et gjentak eller at hver måling av en student er et eksperiment. Det som er av egentlig interesse er imidlertid selve måleresultatet. Om vi knytter dette til begrepet gjentak eller til begrepet eksperiment er av underordnet betyd­ ning. Hvis vi er interessert i resultatet når vi kaster flere ganger med en bestemt terning, kan vi si at hvert terningkast er et eksperiment, men vi kan også si at hvert terningkast er et gjentak. I dette tilfelle faller såle­ des de to begrepene sammen. Hvis vi skal skaffe oss kunnskap om en hittil ukjent sykdom, må vi ta for oss et antall pasienter og undersøke hver av disse. Hver pasient i dette eksemplet er et gjentak mens hver undersøkelse er et eksperiment. Siden ordet eksperiment lett får oss til å tenke på et komplisert forsøk, skal vi i det følgende holde oss til begrepet gjentak. Ofte kan vi også utelate både begrepet gjentak og begrepet eksperiment og f.eks. si at vi har et utvalg av observasjoner.

30

1.3 Statistikkfaget i et nøtteskall Statistikk er et vidtomspennende fag med en mangfoldighet av til dels meget kompliserte problemstillinger. Derfor er det vanskelig å gi en god oversikt over faget som kan være til nytte for nybegynneren. Like­ vel har vi nedenfor forsøkt å gi en kort beskrivelse av faget. La oss ta utgangspunkt i eksempel 1.5.

EKSEMPEL 1.5 Du har fått i oppdrag å kartlegge inntektsforholdene i populasjo­ nen av personer som hadde arbeid i Norge i hele 1994. Du skal spesielt undersøke betydningen av alder, utdannelse, kjønn og nasjonalitet for inntektsnivået.

I statistikken er vi alltid interessert i å finne ut noe om gjentakene i en populasjon. Nærmere bestemt vil vi finne ut noe om tilfeldige variabler og kvalitative egenskaper som knytter seg til gjentakene i populasjo­ nen. I eksempel 1.5 er gjentakene personer som hadde arbeid i Norge i hele 1994. Tilfeldige variabler av interesse kan f.eks. være (1) X = alderen til en tilfeldig person fra denne populasjonen i 1994. (2) Y = inntekten til en tilfeldig person fra denne populasjonen i 1994. (3) Z = antall år formell utdannelse utover 7 år for en tilfeldig person fra denne populasjonen i 1994. Kvalitative egenskaper av interesse kan være kjønn og nasjonalitet. Den kunnskapen vi søker kan i stor utstrekning uttrykkes ved såkalte sannsynlighetsfordelinger for tilfeldige variabler. I stedet for sannsynlighetsfordeling bruker vi som regel det kortere ordet fordeling. Fordelingene kan igjen beskrives til en viss grad ved hjelp av konstanter som vi kaller parametere. En parameter er altså matematisk sett en viss karakteristikk av en fordeling, men indirekte kan den like gjerne sies å være en beskrivelse av eller et mål på et aspekt ved gjentakene i en populasjon. I eksempel 1.5 kan vi f.eks. være interessert i fordelingen til alderen. Denne fordelingen er en matematisk funksjon som forteller noe om hvor sterkt de forskjellige aldersklassene er representert i populasjonen. En parameter som karakteriserer denne fordelingen er gjennomsnittsal­ deren, px i hele populasjonen, (p er en gresk m som angir middeltall og uttales my). En annen parameter som karakteriserer eller beskriver andre sider ved den samme fordelingen er standardavviket Gx til X i hele populasjonen. Standardavviket er et mål for variasjon eller spred­ ning. (cr er en gresk s som angir spredning og uttales sigma.) I en tenkt situasjon hvor alle personene i hele populasjonen er like gamle vil gx 31

være lik 0. Jo mer variasjon det er i alderen mellom gjentakene i popu­ lasjonen, desto større er populasjonsstandardavviket ox. På tilsvarende måte kan vi være interessert i fordelingen til inntekten Y som karakteriseres ved parameterne øy °g Eller fordelingen til utdannelsen Z som beskrives ved hjelp av bl.a. parameterne øz og Gz. Kjønnsfordelingen i populasjonen kan beskrives fullstendig ved en enkelt parameter, nemlig pK som er lik kvinneandelen i populasjonen. pK kalles også sannsynligheten for at en tilfeldig person i populasjonen er kvinne. Egenskapen nasjonalitet kan på tilsvarende måte beskrives ved hjelp av populasjonsandelene for de forskjellige nasjonalitetsgrup­ pene. Kjennskap til de parameterne vi har omtalt hittil ville representere nyttig informasjon. Langt mer interessant ville det imidlertid være å lære noe om den simultane fordelingen til f.eks inntekt og alder. (Simultan betyr samtidig, som i simultantolkning.) For å beskrive denne fordelingen trenger man bl.a. populasjonskorrelasjonskoeffisienten pXY i tillegg til de 4 parameterne øx, Gx, øY og gy. (p er en gresk r som angir relasjon (korrelasjon) og uttales ro.) Hvis man kjen­ ner den simultane fordelingen og parameterne som beskriver denne, vil det kunne være mulig å utlede populasjonsregresjonsfunksjonen for inntekten med hensyn på alderen. Dette er en funksjon som kan brukes til å beregne populasjonsgjennomsnittet for inntekten når alderen er gitt. Vi kunne fortsette å brodere ut dette eksemplet i det vide og brede, men vi stopper med dette. Vår hensikt har vært å forklare at kjennskap til parametere representerer meget nyttig kunnskap for mange formål og at statistikk stort sett går ut på å lære noe om parametere. Forenklet kan vi altså si at statistikk handler om sannsynlighetsfordelinger og om parametere som beskriver disse. Hovedproblemet i statistikken er imidlertid at parametrene vanligvis er ukjente.

Å undersøke hele populasjonen for å bestemme størrelsen på paramet­ rene er vanligvis enten umulig fordi populasjonen nærmest er uendelig stor, eller det er praktisk og økonomisk uhensiktsmessig fordi det blir for tidkrevende og kostbart. Løsningen på dette problemet er å under­ søke et utvalg i stedet for å undersøke hele populasjonen. På grunnlag av tall som vi observerer hos gjentakene i utvalget regner vi ut tall som svarer til parametrene og som vi håper kan erstatte parametrene uten altfor store negative konsekvenser. Disse erstatningstallene kalles esti­ mater av parametrene. Hele prosessen som går ut på å finne et estimat kalles å estimere. Estimatet av populasjonsgjennomsnittet ø er utvalgs32

gjennomsnittet X. Som estimat for populasjonsstandardavviket c> bru­ ker vi utvalgsstandardavviket s. Populasjonskorrelasjonskoeffisienten p estimeres ved at vi på grunnlag av observasjonene i utvalget regner ut utvalgskorrelasjonskoeffisienten r. Populasjonsregresjonskoeffisienten 3 har sin parallell i utvalgsregresjonskoeffisienten b, osv. (p er en gresk 3 og uttales beta.) Satt på spissen, kan vi altså si at grunnen til at vi har et eget fag som heter statistikk er at vi i praksis er nødt til å arbeide med et utvalg i stedet for med hele populasjonen. Men da oppstår en rekke problemer som vi kan kalle statistiske problemer.

Eksempler på statistiske problemer er følgende: (1) Hvor stort skal utvalget være? (2) Hvordan skal utvalget tas ut? (3) Hva skal vi forut­ sette om den matematiske formen på sannsynlighetsfordelingene i populasjonen? (4) Hvilke prinsipper skal legges til grunn for estimerin­ gen av parametrene? (Estimeringsteori.) (5) Hvorledes kan vi få avkref­ tet eller bekreftet våre forhåndsoppfatninger om parametrene ved å undersøke utvalget? (Hypotesetestingsteori.) (6) Hvor stor usikkerhet knytter det seg til konklusjonene våre? Kan vi angi et intervall på tallinjen hvor vi er temmelig sikre på at parameteren befinner seg? (Konfidensintervall.) Vi har nå gitt en viss oversikt over faget. Vær imidlertid oppmerk­ som på at faget har mange irrganger og tilsynelatende besynderligheter. Her gjelder det å trå varsomt og å veie sine ord på gullvekt. Faget står helt sentralt i hele den menneskelige erkjennelsesprosessen og er langt mer spennende og utfordrende enn det tørre navnet statistikk skulle tilsi.

1.4

Oversikt over boka

Det finnes sikkert mange velbegrunnede synspunkter på hvorledes en innføringsbok i statistikk bør være. Et problem kan være at forkunnska­ per, interesse og siktemål med undervisningen kan variere. I denne boka har vi vært spesielt opptatt av å forsøke å legge fram stoffet på en lettfattelig og systematisk måte. Kapittel 2 «Beskrivelse av et utvalg» og kapittel 4, «Beskrivelse av en populasjon» svarer til hverandre og bør studeres i sammenheng. Satt på spissen og med utgangspunkt i avsnitt 1.3, kan vi si at i kapittel 4 beskriver vi fordelingene og parametrene, mens i kapittel 2 studerer vi estimatene. Egentlig ville det ha vært mest logisk å ta kapittel 4 før kapittel 2. Men kapittel 4 er langt mer abstrakt og teoretisk enn kapittel

33

2. Ved å studere det mer enkle og praktiske kapittel 2 først, får man bedre grunnlag for også å forstå kapittel 4. Kapittel 3 kunne godt ha vært det første kapitlet i boka. Sannsynlighetsregningen danner grunn­ laget for all statistikk, og kan ikke komme senere enn der den nå er plassert. Om man ønsker det, er det ikke noe i veien for å stokke om rekkefølgen på kapittel 2, 3 og 4, bare man sørger for at kapittel 3 kom­ mer før kapittel 4. Kapittel 5 er et nokså teoretisk kapittel. Det er meget viktig å sette seg inn i tankegangen omkring gjentatte utvalg, da denne tankegangen er helt grunnleggende for forståelsen av kapittel 6-10 og 13-15. Kapittel 6 er et meget matnyttig kapittel som behandler metoder som er svært mye brukt i praksis. Det er først her vi er kommet i gang med den egentlige statistikken. De tidligere kapitlene har mer karakteren av å danne grunnlag for det som kommer senere, selv om det også i disse kapitlene finnes mye som kan anvendes i det praktiske liv. Kapittel 7 er igjen et nokså teoretisk kapittel, men behandler et av de mest grunnleggende og interessante temaene i statistikken. Metodene som behandles i kapittel 8 bygger på den såkalte Studenfs t-fordelingen og er svært mye brukt. I kapittel 9 behandles metoder som bygger på kjikvadratfordelingen. Også disse er populære i anvendelser. Kapittel 10 omhandler noe av det mest nyttige man kan lære innen sta­ tistikkfaget. Kapittel 11 er meget nyttig for en dypere forståelse av sta­ tistikken, men det er ikke helt vanlig å ta med slikt stoff i en innføringsbok av dette slaget. Stoffet fører studenten forholdsvis langt med små midler, matematisk sett. Jeg har ikke sett noe liknende som dette i litteraturen. En del studenter vil trolig sette stor pris på dette stof­ fet. Kapittel 11 danner på en måte et teoretisk grunnlag for kapittel 10 og kan med fordel studeres før, eller i sammenheng med kapittel 10. Også kapittel 12 gir en dypere forståelse av statistikken og er nyttig dersom man ønsker å føre bevis for en del sentrale resultater. Men kapitlet har også mange direkte praktiske anvendelser, spesielt innen faget finansiering. Kapittel 13 gir en innføring i det store og viktige emneområdet for­ søksplanlegging og variansanalyse og F-test. Kapittel 14 behandler metoder som er svært populære i mange fag­ miljøer, bl.a. fordi metodene krever lite av forutsetninger og likevel har vist seg å gi bra resultater. Disse metodene er alternativer til noen av de mer tradisjonelle metodene som er behandlet i kapittel 6, 8, 10 og 13. Kapittel 15 gir en innføring i en arbeidsmetode i statistikken som er annerledes enn den tradisjonelle. I tillegg til den informasjonen som inneholdes i utvalget bruker man her også annen, subjektiv informasjon som man måtte ha om det fenomenet man studerer. Denne angrepsmå­ ten er nyttig, blant annet når man skal treffe beslutninger, men er noe omstridt. 34

Ved hjelp av den oversikten som er gitt ovenfor vil det være mulig for brukeren av boka å plukke ut de kapitlene som man ønsker å ta for seg.

OPPGAVE 1.1 Tenk deg et utvalg som består av 30 pasienter som har lungebetendelse. Hvilken populasjon kunne du tenke deg å si at disse kommer fra? Er det flere muligheter? OPPGAVE 1.2 Tenk deg en politisk meningsmåling. Hva blir nå populasjon og utvalg? Hvilke parametere og estimater er involvert?

35

2

Beskrivelse av et utvalg

I dette kapitlet vil vi tenke oss at vi betrakter en bestemt tilfeldig vari­ abel X som på vanlig måte har en verdi for hvert gjentak i den popula­ sjonen vi arbeider med. Fra denne populasjonen tar vi så et tilfeldig utvalg på n gjentak. Det er praktisk å tenke seg at gjentakene blir num­ merert i en eller annen rekkefølge (f.eks. i den rekkefølgen de blir undersøkt) fra 1 til n. De tilhørende verdiene av X for de n gjentakene trenger vi symboler for, da vi skal presentere en rekke formler. Vi vil derfor bruke symbolene Xb X2, X3, ..., Xn. En annen måte å angi de n verdiene på og som vi ofte vil støte på i litteraturen er følgende: X, (j=l, 2, 3, ..., n). De n Xj-verdiene kan beskrives og karakteriseres på for­ skjellig måte. Vårt mål i dette kapittelet er å gjennomgå noen av de vik­ tigste begrepene og formlene som brukes til dette. Beskrivelsen av utvalget har to hensikter. For det første kan beskri­ velsen ha verdi i seg selv. I et utvalg av mennesker er det f.eks. ofte interessant å vite noe om gjennomsnittsinntekten og å vite noe om inn­ tekts variasjonen fra person til person, osv. For det andre er de fleste av de målene for lokalisering, variasjon, osv. som vi beskriver i dette kapitlet å oppfatte som estimater av tilsvarende parametere i popula­ sjonen. Dette siste er det viktigste, da estimering er en av de mest sen­ trale aktivitetene i statistikken. Som tidligere påpekt har mange av de begrepene som blir behandlet i dette kapitlet paralleller når vi skal beskrive alle X-verdiene i hele populasjonen. Om ikke før, så bør man ihvertfall når man kommer til kapittel 4 sørge for å få en oversikt over denne parallelliteten.

2.1

Lokaliseringsmål eller middeltall

Et lokaliseringsmål eller middeltall eller mål for sentral tendens er et enkelt tall som indikerer i grove trekk hvor på tallinjen man med en viss rett kan si at tallmassen som helhet (dvs. de n Xj-tallene) er lokalisert eller befinner seg. Det viktigste lokaliseringsmålet vi skal se på er det aritmetiske gjennomsnittet. Et annet viktig lokaliseringsmål er media­ nen.

36

2.1.1

A ritmetisk gjennomsnitt

DEFINISJON 2.1 ARITMETISK GJENNOMSNITT, UTVALGS GJENNOM­ SNITT OG POPULASJONSGJENNOMSNITT: Det aritmetiske gjennomsnittet av en rekke tall er lik summen av tallene dividert med antall tall. Når denne oppskriften anvendes på de n observa­ sjonene Xj, X2, X3,Xn av en tilfeldig variabel X i et utvalg, får vi utvalgsgjennomsnittet for disse observasjonene. Som regel bru­ ker vi bare betegnelsen gjennomsnittet for dette. Oppskriften kan også anvendes på de N verdiene X1? X2, X3, ..., XN av en tilfeldig variabel X i en endelig populasjon, og da får vi populasjonsgjen­ nomsnittet til X som vanligvis kalles forventningen til X. Det van­ lige symbolet for utvalgsgjennomsnittet er X som leses Xbar. Det vanlige symbolet for populasjonsgjennomsnittet er p (gresk m for middeltall, uttales my) eller E(X) (E står for «Expectation» = for­ ventning.) Formelen for utvalgsgjennomsnittet er gitt i (2.1). Når observasjonene som danner grunnlaget for beregningene er ordnet i en såkalt frekvensfordeling (se senere) må vi bruke formelen (2.16). En formel for forventningen er gitt i (4.7). Hvis popula­ sjonen er uendelig, må vi bruke en annen regnemåte for å finne forventningen, men forventningsbegrepet er i realiteten det samme. Forventningen regnes vanligvis ut på grunnlag av en for­ deling, dvs. enten en sannsynlighetsfunksjon for en diskret tilfel­ dig variabel (se senere) eller en sannsynlighetstetthetsfunksjon for en kontinuerlig tilfeldig variabel (se senere). Når utgangspunktet for beregningen er en sannsynlighetsfunksjon, bruker vi (4.8). Når utgangspunktet er en sannsynlighetstetthetsfunksjon, bruker vi (4.9).

ly (2.1) X =

= Ly = Xy n

n

Lengst til venstre i (2.1) har vi skrevet gjennomsnittet på en måte som alle lesere er fortrolig med. En mer konsentrert skrivemåte som er van­ lig i statistikken får vi ved å bruke summetegnet. (Noen enkle regler for regning med summetegn er vist i appendiks A.) Først har vi brukt sum­ metegnet med fullstendige summasjonsgrenser. Når det ikke er fare for misforståelser, kan vi imidlertid forenkle som vist i de to skrivemåtene 37

til høyre i (2.1). Tilsvarende forenklinger kan vi også foreta i mer kom­ pliserte formler som vi kommer til senere. Vi vil da vanligvis ikke pre­ sentere så mange forskjellige skrivemåter som vi har gjort i (2.1).

EKSEMPEL 2.1. ARITMETISK GJENNOMSNITT AV ANTALL BARN: I en populasjon som består av studentektepar betrakter vi den tilfeldige variabelen X = antall barn. Vi tar et tilfeldig utvalg på n = 12 ekte­ par og får de observasjonene som er vist i tabell 2.1 nedenfor TABELL 2.1. Antall barn for hvert av 12 studentektepar. Ektepar nr. (j): 1 234567 89 10 11 12 Antall barn (Xj): 202120122 2 3 1

X finnes av formel (2.1) på følgende måte:

(2.2) X=(2 + 2+l+2+l+2 + 2 + 2 + 3 + l)/12=18/12=l,5

Legg merke til at også ektepar nr. 2 og 6 må være med ved utreg­ ningen av gjennomsnittet. Disse har ingen barn og bidrar derfor ikke i telleren, men ved at de teller med i nevneren, er de med på å dra ned gjennomsnittet, som riktig er.

2.1.2

Median

DEFINISJON 2.2 MEDIAN, UTVALGSMEDIAN OG POPULASJONSMEDIAN: Medianen til en rekke tall er lik det midterste tallet når tallene er ordnet i rekkefølge etter stigende størrelse. Hvis antall tall er et partall, blir det to tall i midten, og da definerer vi medianen som det aritmetiske gjennomsnittet av de to midterste tallene. Når denne oppskriften anvendes på de n observasjonene Xj, X2, X3,..., Xn av en tilfeldig variabel X i et utvalg, får vi utvalgsmedianen for disse observasjonene. Oppskriften kan også anvendes på de N ver­ diene X], X2, X3, XN av en tilfeldig variabel X i en endelig populasjon, og da får vi populasjonsmedianen til X. Hvis popula­ sjonen er uendelig, må vi bruke en annen regnemåte for å finne populasjonsmedianen (se kapittel 14), men medianbegrepet er i realiteten det samme. Som regel bruker vi bare betegnelsen media­

38

nen både for utvalgsmedianen og populasjonsmedianen. Vi vil bruke symbolet pM eller r| (gresk e, uttales eta og brukes i Minitabmanualene) for populasjonsmedianen og X eller XM for utvalgs­ medianen.

For barnetallene i eksempel 2.1 finnes medianen av den ordnede tall­ rekken 001 1 1 2222223. Medianen XM blir her lik det aritmetiske gjennomsnittet av de to midterste tallene som er 2 og 2. Altså blir medianen lik 2. En fordel med å bruke medianen som lokaliseringsmål framfor det aritmetiske gjennomsnittet, er at medianen er lite påvirket av ekstreme verdier. Slike ekstreme verdier kan av og til skyldes målefeil eller avlesningsfeil som helst ikke skal ha innflytelse på lokaliseringsmålet. Hvis f.eks. 3-tallet i dette tallmaterialet hadde blitt forvekslet med et 8tall, ville medianen ikke ha blitt påvirket i det hele tatt. I denne boka er medianen spesielt mye brukt i kapittel 14.

2.1.3

Veid gjennomsnitt

Veid gjennomsnitt er et lokaliseringsmål som har meget stor praktisk og teoretisk betydning i mange sammenhenger. Vi skal derfor gå gjennom dette nå, selv om vi derved forstyrrer framstillingen noe. Veid gjen­ nomsnitt har nemlig ikke den samme umiddelbare anvendelse som arit­ metisk gjennomsnitt og median i beskrivelsen av et utvalg med tanke på å trekke slutninger om en populasjon. Veid gjennomsnitt er mer et spesialmål som bl.a. kan gi oss bedre forståelse av en del sentrale formler i statistikken. Veid gjennomsnitt bruker vi når de k tallene X, som vi skal regne ut gjennomsnittet av ikke er like viktige, dvs. når de ikke har samme vekt.

DEFINISJON 2.3 VEID GJENNOMSNITT: Anta at vi ønsker å regne ut gjennom­ snittet av k tall, Xj, X2, X3, ..., Xk. Anta videre at tallene ikke har samme viktighet eller vekt. La tallet X} ha vekten V1? X2 ha vekten V2, X3 ha vekten V3, osv. slik at Xk har vekten Vk. Det veide gjen­ nomsnittet finnes da ved å multiplisere hvert tall med den tilsva­ rende vekten og å summere produktene. Produktsummen divideres deretter med summen av vektene. Dersom summen av vektene er lik 1, er det unødvendig å dividere med summen av vektene, idet en divisjon med 1 ikke har noen virkning. Det veide gjennomsnit39

tet blir da ganske enkelt produktsummen av tallene og vektene. Veid gjennomsnitt har mange anvendelser, og vi innfører ikke noe annet symbol enn Xv for dette. Formler for et veid gjennomsnitt er gitt i (2.3) og (2.4).

Formel (2.3) er helt generell. Mens vi tidligere har brukt n eller N for antall ledd ved utregning av et gjennomsnitt, har vi her med vilje brukt et annet symbol, nemlig k. Dette er for å understreke at i våre anvendel­ ser av veid gjennomsnitt i denne boka er antall ledd vanligvis ikke lik antall gjentak i et utvalg eller i en populasjon. Derimot er antall ledd ofte lik antall forskjellige verdier som en tilfeldig variabel kan ha i en populasjon eller i et utvalg. Dersom summen av vektene er lik 1, foren­ kles (2.3) til (2.4): k

(2.4) Xv = V,X, + V,X2 + V3X3 + ... + VkXk = £V,X, = £VX i = 1

Veid gjennomsnitt blir ofte brukt på skoler og høyskoler dersom man f.eks. ønsker å regne ut en enkelt hovedkarakter for et helt studium. Hvert fag får da sin vekt. Fag som betraktes som viktige i studiet som helhet får stor vekt, mens fag som er mindre viktige får mindre vekt. Dersom vektene har en sum som er lik 1, kan vi tenke oss at hovedka­ rakteren dannes ved at man tar en brøkdel av hver karakter. Denne brøkdelen er lik vekten. Man tar altså store brøkdeler av de karakterene som har stor vekt og små brøkdeler av de karakterene som har liten vekt. På denne måten vil de karakterene som har stor vekt dominere hovedkarakteren. Det er svært viktig at man tilegner seg denne tanke­ gangen forat man lettere skal forstå viktige formlene som vi skal pre­ sentere senere! Et annet eksempel på en situasjon hvor det er nyttig å bruke veid gjennomsnitt er hvis man skal regne ut gjennomsnittsinntekten per per­ son i hele verden ved å basere seg på gjennomsnittsinntekten i hvert

40

land. I dette tilfelle skal man altså regne ut gjennomsnittet av en rekke gjennomsnitter. Hvis hensikten med utregningen er å finne ut hvordan verdens befolkning stort sett har det, vil det være urimelig å la Norge, som har en meget høy gjennomsnittsinntekt, men bare 4 millioner men­ nesker veie like sterkt som f.eks. Kina som har en meget lav inntekt og noe slikt som 1 milliard mennesker. I dette tilfelle ville det være hen­ siktsmessig å bruke folkemengden i de forskjellige landene som vekter. Det aritmetiske gjennomsnittet har den egenskapen at når det multi­ pliseres med antall ledd, får vi summen av X-ene. Hvis f.eks. X}, X2, X3,..., Xn er prisene ved salg av n gjenstander og X er gjennomsnittspri­ sen, vil derfor nX være den totale salgssummen.

EKSEMPEL 2.2. VEID GJENNOMSNITT AV PRISER PÅ FRITIDSBÅTER: Sett at en bedrift produserer og selger 3 typer, A, B og C av fritidsbåter i plast. Prisen på A, B og C er henholdsvis 500, 100 og 10 tusen kroner. Antall båter som ble solgt av de 3 typene i løpet av et bestemt år var 20, 50 og 930, tilsammen 1000 båter. Hvis vi regner ut gjennomsnittsprisen på de 3 båttypene (arit­ metisk gjennomsnitt), får vi:

(2.5) X = XX/n = (500 + 100 + 10) / 3 = 203,333 Dvs. 203333 kroner. Noen vil kanskje tro at hvis vi multipliserer dette tallet med antall solgte båter som er 1000 så vil vi få den totale bruttoinntekten av båtsalget som altså da skulle bli 203,333 millioner kroner, men det stemmer ikke (selv om vi ser bort fra avrundingsfeilen). Den gjennomsnittlige båtprisen på_203333 kro­ ner er nemlig altfor høy til å brukes på denne måten. X er her sterkt påvirket av den høye prisen på båttype A som det selges svært få av og av prisen på båttype B som det heller ikke selges så mange av. Det riktige ved en slik beregning ville være enten å bruke gjen­ nomsnittsprisen for de 1000 enkeltbåtene eller å bruke et veid gjennomsnitt av de tre båtprisene med antall solgte båter av hver type som vekter. Resultatet blir det samme i begge tilfelle. Det veide gjennomsnittet Xv kan beregnes på følgende måte:

(2.6) Xv = r. Vi skal forklare hva som menes med dette antallet ved å vise til eksempel 3.4 nedenfor som er en modifisert utgave av eksempel 3.3.

EKSEMPEL 3.4. ANTALL PERMUTASJONER AV K PASSASJERER TATT r AV GANGEN: Vi tenker oss nå at det er k = 9 passasjerer som gjerne vil være med bilen i eksempel 3.3, men at bilen som før bare har r = 4 passasjerplasser. Vi er nå interessert i hvor mange måter det er 67

å fylle bilen på når vi tenker oss at vi i tur og orden velger ut den ene gruppen etter den andre på r = 4 passasjerer blant de k = 9 og at de r = 4 passasjerene i hver gruppe tenkes plassert på alle mulige måter i forhold til hverandre. Antall måter å velge ut og å plassere passasjerene i bilen på i en slik situasjon kalles antall permutasjoner av k - 9 objekter tatt r = 4 av gangen. Ved å bruke tilsvarende resonnement som i eksempel 3.3 finner vi lett at svaret på oppgaven blir 9 • 8 • 7 • 6 = 3024 (Et stort tall!). Dette antallet betegnes med symbolet 9P4.

For å komme fram til en løsning for andre verdier av k og r er det nyttig å studere følgende oppstilling: Plass nummer: Antall måter å fylle plassen på:

1

2

3

4 ...

r-1

r

k

k-1

k-2

k-3 ...

k-(r-2)

k-(r-l)

Legg merke til at det som trekkes fra k i nedre linje er lik plass nummer minus 1. Ved å studere denne oppstillingen og de foregående eksem­ plene, finner man lett at antall permutasjoner av k objekter tatt r av gan­ gen, som betegnes med symbolet kPr, blir lik: (3.2) kPr = k(k-l)(k-2) ... (k-(r- l)) = k(k-l)(k-2)... (k-r+ 1)

Uttrykket (3.2) kan omformes ved at vi skriver det som en brøk med nevner lik 1 og deretter multipliserer teller og nevner med (k-r)!. Telle­ ren blir da lik k!, og vi får:

(3.3) kPr = k!/(k-r)!

SETNING 3.3. ANTALL PERMUTASJONER AV k OBJEKTER TATT r AV GANGEN: Antall permutasjoner av k objekter tatt r av gangen betegnes med symbolet kPr og kan finnes av formel (3.2) eller . (3.3) Her er k og r positive hele tall (eller 0) og r < k. Hvis k = r, finner vi ved å eliminere k fra (3.3) at svaret blir r!. Dette er i overensstemmelse med setning 3.2. Andre symboler som brukes for kPr er Prk eller k'r) som uttales «k i r faktoriell».

68

Antall permutasjoner av k objekter tatt r av gangen kalles også av mange lærebokforfattere for antall ordnede utvalg på r objekter tatt fra k objekter uten tilbakelegging. Betegnelsen ordnet utvalg betyr i eksempel 3.4 at passasjerene ikke får sette seg hvor som helst, men får tildelt en nummerert plass. Betegnelsen uten tilbakelegging innebærer at hvis vi har tatt en bestemt person inn i bilen og plassert ham på en bestemt plass, kan vi ikke sende ham tilbake til de andre utenfor bilen for å ta ham inn igjen og også bruke ham om igjen på en annen plass slik at han får to (eventuelt enda flere) plasser i bilen i det samme utval­ get som fyller bilen. Uten tilbakelegging i denne sammenheng betyr altså at det skal være like mange forskjellige personer i bilen som det er seter. Det neste vi skal se på er antall kombinasjoner av k objekter tatt r av gangen. Dette kalles også antall uordnede utvalg på r objekter tatt fra k r objekter uten tilbakelegging. Som symbol for dette vil vi bruke I I . (Leses k over r.) Noen forfattere bruker også kCr som svarer til kPr idet C står for «Combinations», mens andre bruker Crk.

Vi skal forklare hva dette er ved å vise til eksempel 3.4 som da må modifiseres noe. Vi skal nå finne ut hvor mange måter det er å fylle bilen på når det dreier seg om en varebil uten seter hvor vi bare holder greie på hvem de r = 4 passasjerene er, uten å bry oss om hvorledes de sitter. En kombinasjon kan altså i dette eksemplet sies å være en fiokk på r = 4 passasjerer som fyller bilen. Vi har en ny kombinasjon hver gang vi foretar en ombytting av personer slik at det ikke er identisk de samme 4 personene som sitter i bilen. Det er altså tilstrekkelig å bytte ut én person for å få en ny kombinasjon, selv om de 3 andre personene er de samme som før. Til en hvilken som helst slik kombinasjon svarer det r! = 4! = 1 • 2 • 3 • 4 = 24 permutasjoner. Om det hadde vært 4 seter i bilen, ville vi kunne fylle setene på 24 måter hver gang vi fikk en flokk på 4 personer inn i bilen. Av dette forstår vi at antall permutasjoner er lik antall kombina­ sjoner multiplisert med 24 i vårt eksempel. Men da må jo antall kombi­ nasjoner være lik antall permutasjoner dividert med r! = 24. Følgelig finner vi formelen for antall kombinasjoner ved å dividere formel (3.3) for antall permutasjoner med r! som vist i formel (3.4):

(34) (r) = ■

eIlerG) = whn= 126

69

SETNING 3.4 ANTALL KOMBINASJONER AV k OBJEKTER TATT r AV GANGEN: Antall kombinasjoner av k objekter tatt r av gangen betegnes med symbolet

(som leses k over r) og er gitt ved

første del av formel 3.4. Her er k og r positive hele tall (eller 0) og r < k. Ved bruk av formel (3.4) og definisjonen 0! = 1, finner vi at k kalles bino= 1 for alle k. Koeffisientene = 1 og at “ = np( 1 - p) • ——y

133

Legg merke til at formlene likner på de tilsvarende formlene for binomialfordelingen. Faktoren (N - n)/(N - 1) kalles korreksjonsfaktoren for endelige populasjoner. Denne faktoren får vi bruk for senere.

4.3.4

Poisson’s sannsynlighetsfunksjon

Denne sannsynlighetsfunksjonen kan skrives på følgende måte: -X

A X

e Å (4.27) f(X) = —— A.

(X = 0, 1,2,3, ...)

Verdiene som den tilfeldige variabelen X kan ha er alle naturlige tall 0, 1, 2, osv. opp mot uendelig. Symbolet e står for grunntallet i det natur­ lige logaritmesystemet (e = ca. 2,72). Poisson's sannsynlighetsfunksjon som vi også vil kalle Poissonfordelingen har én parameter, X. (X = «lambda» = gresk 1.) X kan være et hvilket som helst positivt tall. Hvis vi går fram på tilsvarende måte som forklart for de to foregående forde­ lingene, vil vi finne følgende:

(4.28) E(X) = p = X og var (X) = c>2 = X

Poissonfordelingen er «i slekt» med binomialfordelingen. La oss tenke oss at vi tar for oss en rekke binomialfordelinger hvor hver ny binomialfordeling har mindre p og større n enn den foregående. Samtidig skal np være samme tall, nemlig X, for alle binomialfordelingene. Hvis vi på denne måten gjør p liten nok og n stor nok, kan det vises at binomialfor­ delingene etter hvert nærmer seg Poissonfordelingen (4.27). Dette er uttrykt mer presist nedenfor:

134

n4

SETNING 4.5

l Hvis n

%

co og p —> 0 samtidig som np = X (eller np —> X), vil

Mange biologiske, tekniske og økonomiske fenomener eller tilfeldige variabler kan antas å følge tilnærmet Poisson’s sannsynlighetsfunksjon. Til en viss grad kan vi resonnere oss til dette ut fra vårt kjennskap til hvorledes sannsynlighetsfunksjonen framkommer. Antall tilfelle per år i Norge av en relativt sjelden, ikke smittsom sykdom kan tenkes å følge Poisson’s sannsynlighetsfunksjon. Resonnementet er følgende: Alle mennesker som finnes i Norge i et enkelt år kan oppfattes som et stort (n —> oo) tilfeldig utvalg av mennesker fra populasjonen av mennesker. Sykdommen er relativt sjelden (p —> 0) og ikke smittsom (uavhengig­ het) I det lange løp vil gjennomsnittlig np mennesker per år få sykdom­ men. Slike resonnementer er gjerne noe omtrentlige og må ikke tillegges for stor vekt. Poissonfordelingen har for øvrig også mange anvendelser hvor et tilsvarende resonnement ikke kan gjennomføres, og hvor den binomiske sannsynlighetsfunksjonen ikke kommer inn i bildet. Antall kunder som kommer inn i en bestemt forretning i løpet av en tidsperi­ ode av en bestemt varighet (f.eks. et minutt) er et annet eksempel på en tilfeldig variabel som kan tenkes å være Poissonfordelt under visse vil­ kår. Hvis vi skal bruke Poissonfordelingen til å beskrive en konkret tilfel­ dig variabel er vi nødt til å kjenne X som er det samme som forventnin­ gen p. I praksis er forventningen eller populasjonsgjennomsnittet vanligvis ikke kjent. Som en tilnærmelse kan vi da bruke utvalgsgjennomsnittet X i stedet.

4.3.5

Den normale sannsynlighetstetthetsfunksjonen

Den neste fordelingen vi skal se på er en sannsynlighetstetthetsfunksjon. Den gjelder altså for en kontinuerlig tilfeldig variabel. Den nor­ male sannsynlighetstetthetsfunksjonen som også ofte blir gitt navn etter Gauss eller Laplace, er uten sammenlikning den viktigste fordelingen i statistikken.

135

DEFINISJON 4.9 NORMALFORDELINGEN: Vi betrakter en kontinuerlig tilfeldig variabel X med forventning E(X) = p og varians var (X) = G“, altså med standardavvik lik G. Hvis fordelingen til den tilfeldige vari­ abelen kan beskrives ved den normale sannsynlighetstetthetsfunksjonen (4.29), sier vi at X er normalt fordelt eller normalfordelt med parametre lik p og a. Som en forkortelse for dette vil vi bruke følgende skrivemåte: X er N(p, G2) Parameteren p kan ha en hvil­ ken som helst verdi, mens parameteren g kan ha en hvilken som helst positiv verdi. Av formel (4.29) ser vi at hvis X er normalfordelt, så vil p og G inngå direkte som parametre i sannsynlighetstetthetsfunksjonen. Noe lik­ nende var tilfelle for Poissonfordelingen da jo parameteren X = p = Verdien av p bestemmer plasseringen av toppen (og dermed av hele kurven) på tall-linjen. Verdien av 5 forat tilnærmelsen skal ansees brukbar. (Enkelte forfattere stiller noe mindre krav og krever f.eks. at np skal være minst lik 2.) Vi kan oppfatte dette som et krav om at for­ ventningen og dermed hele binomialfordelingen skal ligge tilstrekkelig langt til høyre i et koordinatsystem slik at det blir plass til en «hale» som for normalfordelingen til venstre ned mot 0. Nå vet vi imidlertid at det er vilkårlig i en binomisk modell hva vi velger å kalle p og hva vi velger å kalle 1 - p. (Vi kan bytte om p og 1 - p, men da må vi også bytte om X og n - X.) Det kravet som vi her­ etter skal forlange oppfylt for at vi skal kunne bruke normalfordelingen som en tilnærmelse til binomialfordelingen er derfor:

(4.33) np > 5 og np( 1 — p) > 5

140

SETNING 4.7

II

NORMALFORDELINGEN SOM EN TILNÆRMELSE TIL BINOMIALFORDELINGEN: Når kravene i (4.33) er oppfylt, kan binomialfordelingen (4.21) med god tilnærmelse erstattes med en normalfordeling med forventning lik np og varians lik np( 1 - p). For å få god tilnærmelse er det ofte nødvendig å foreta en kontinuitetskorreksjon (se oppgave 4.24 og 4.25).

4.3.7

Binomialfordelingen som en tilnærmelse til den hypergeometriske fordelingen

Det finnes mange viktige situasjoner i praksis da det strengt tatt er på sin plass å bruke den hypergeometriske fordelingen, nemlig visse situa­ sjoner hvor man trekker et tilfeldig utvalg fra en endelig populasjon uten tilbakelegging (se avsnitt 3.3 og tabell 3.2). Binomialfordelingen er imidlertid lettere å arbeide med. Det er der­ for ofte aktuelt å bruke denne som en tilnærmelse til den hypergeomet­ riske fordelingen. Jo større N er, jo mindre forskjell er det på den hypergeometriske fordelingen og binomialfordelingen. Hvis vi tenker oss at N vokser, vil altså den hypergeometriske fordelingen nærme seg binomialfordelingen som en grense. Hvis n er liten i forhold til N kan vi få en god tilnærmelse selv om N ikke er så stor. For mange formål blir tilnærmelsen god nok hvis n utgjør mindre enn 10 prosent av N.

4.3.8

Poissonfordelingen som en tilnærmelse til binomialfordelingen

Av setning 4.5 følger det at når p er liten og n er stor, kan vi erstatte binomialfordelingen med en Poissonfordeling hvor vi setter p = np. Til­ nærmelsen vil bli god nok for mange formål når n > 50 og np < 5. Legg merke til at når p i binomialfordelingen går mot 0 vil (1 — p) gå mot 1 slik at np( 1 - p) går mot np slik at variansen nærmer seg forvent­ ningen. I Poissonfordelingen er disse to som kjent like store (se setning 4.4). Hvis n er stor har vi gode muligheter for å erstatte binomialfordelin­ gen med en annen fordeling, nemlig med normalfordelingen hvis np > 5 og med Poissonfordelingen hvis np < 5.

141

4.3.9

Normalfordelingen som en tilnærmelse til Poissonforclel ingen

Da det er en forbindelse mellom binomialfordelingen og normalforde­ lingen og mellom binomialfordelingen og Poissonfordelingen, er det ikke uventet at det også er en forbindelse mellom Poissonfordelingen og normalfordelingen. Når Z øker vil Poissonfordelingen som er sterkt skjev for små X bli mer symmetrisk. Allerede for Z = 5 er den forholds­ vis symmetrisk. Det kan vises at med økende X vil Poissonfordelingen nærme seg en normalfordeling med forventning og varians lik X.

OPPGAVE 4.1 a) Framstill sannsynlighetsfunksjonen (4.5) grafisk på samme måte som i figur 4.1.

b) Framstill sannsynlighetsfunksjonen (4.5) grafisk ved et histogram på liknende måte som i figur 2.1 idet du lar høydene av rektanglene være lik sannsynlighetene. Hvor stort blir arealet av alle rektanglene i histogrammet? OPPGAVE 4.2 Overbevis deg om at formel (4.7) som gjelder for en populasjon svarer helt til formel (2.1) som gjelder for et utvalg og at formel (4.8) på tilsvarene måte svarer til formel (2.16).

OPPGAVE 4.3 Hensikten med denne oppgaven er å illustrere forskjellige formler for forventning og varians. I et bestemt land (land A) er det 10 byer. Disse byene utgjør en populasjon av byer. Hver by er altså et gjentak. Popula­ sjonen er endelig, og populasjonsstørrelsen er N = 10. I denne popula­ sjonen vil vi betrakte en tilfeldig variabel X som er antall sykehus i en tilfeldig by. De 10 verdiene av X i denne populasjonen er gjengitt nedenfor:

By nr. Verdi av X:

1 2 10

3 2

4 5 6 112

7 0

8 0

9 1

10 2

a) Beregn forventningen og populasjonsvariansen etter formlene (4.7) og (4.10) hvor hver av summene har 10 ledd (like mange ledd som det er gjentak i populasjonen).

b) Sett opp sannsynlighetsfunksjonen for X i en tabell hvor det i tabellhodet står X og f(X). Ta utgangspunkt i denne tabellen og beregn forventningen og populasjonsvariansen etter formlene (4.8) og 142

(4.11) hvor hver av summene har 3 ledd (like mange ledd som det er forskjellige verdier av den tilfeldige variabelen i populasjonen.

c) Kontroller ved innsetting at sannsynlighetsfunksjonen for X kan skrives slik: (4.34) f(X) = |

lx +1)

OPPGAVE 4.4 La X være antall ganger en husmor besøker en dagligvareforretning i løpet av en 1-ukes periode. Anta at X har følgende sannsynlighetsfunk­ sjon: f(X):

0 0,1

12 0,5 0,3

3 0,1

Beregn forventningen og standardavviket til X (Svar: 1,4 ganger og 0,8 ganger.)

OPPGAVE 4.5 Vis at forventningen og standardavviket for antall øyne ved terningkast med en ideell terning er 3,5 øyne og 1,71 øyne.

OPPGAVE 4.6 La hvert gjentak være et tvillingpar og la oss betrakte en tilfeldig varia­ bel, X = antall gutter (X = 0, 1 eller 2). Vi vil tenke oss tre forskjellige populasjoner hvor sannsynlighetsfunksjonen for X er henholdsvis (4.35) f(X) = 1/3,

f(X) = l/4( 3)

og

f(X) = 2X - X2.

\ A/

Sett de tre funksjonene opp i hver sin tabell og sett opp beregninger i den samme tabellen for å finne forventningen og standardavviket til X i hver av de tre populasjonene. (Svar: Forventningen blir lik 1 gutt i alle tre tilfelle. Standardavviket blir henholdsvis 0,8165, 0,7071 og 0 gut­ ter.) Studer de tre tabellene og finn ut hvorfor de tre standardavvikene blir forskjellige. OPPGAVE 4.7 Antall punkteringer som en heltidsansatt drosjesjåfør i Oslo opplever med drosjen i løpet av et kalenderår er en tilfeldig variabel X. La oss forutsette at X har følgende sannsynlighetsfunksjon:

143

(4.36) f(X) = ,

i 4 + \ i

l

(X = O. 1,2.3, ...)

4 )

Hva er sannsynligheten for at drosjesjåføren opplever mer enn 2 punk­ teringer i løpet av et tilfeldig valt år? (Svar: 0,05.) OPPGAVE 4.8 I en bestemt populasjon er sannsynlighetene, f(X) for at en drektig søye skal få X levende fødte lam følgende (tallene er valt noe urealistiske for å gjøre regningen enkel):

X: f(X):

0123 0,1 0,3 0,5 0,1

a) Beregn forventningen og variansen for den tilfeldige variabelen X = antall levende fødte lam. (Svar: 1,6 lam og 0,64 lam2.) OPPGAVE 4.9 Når en bestemt reservedel bestilles fra et lager, vil antall hele dager som går inntil reservedelen sendes ut fra lageret være en tilfeldig variabel X. La oss anta at X har sannsynlighetsfunksjonen: (4.37) f(X) = 0,5x+l

(X = 0, 1,2, 3, ...)

Vi bestiller en slik reservedel fra lageret.

a) Hva er sannsynligheten for at det vil gå mer enn 4 dager før reserve­ delen sendes? (Svar: 0,03125.)

b) Hva er sannsynligheten for at det vil gå 2 eller 3 dager før reservede­ len sendes? (Svar: 0,1875.)

c) Hva er sannsynligheten for at det vil gå mindre enn to dager før reservedelen sendes? (Svar: 0,75.)

OPPGAVE 4.10 En transportforretning har 5 biler som brukes til kjøring for andre. Kjø­ reoppdragene kan være av forskjellig varighet. Antall biler som på en tilfeldig dag er engasjert i et langsiktig kjøreoppdrag (kjøreoppdrag av minst en ukes varighet) er en tilfeldig variabel X med sannsynlighets­ funksjon (4.38) f(X) = c X

hvor c er en konstant. 144

(X = 1, 2, 3, 4 eller 5)

a) Vis at konstanten c er lik 1/15.

b) Framstill funksjonen f(X) grafisk. c) Finn sannsynligheten for at antall biler som er engasjert i et langsik­ tig kjøreoppdrag på en tilfeldig dag er lik 4. (Svar: 4/15.)

d) Vis at P(X > 2) = 4/5. e) Vis at forventningen til X er lik 55/15.

OPPGAVE 4.11 La X være kapasitetsutnyttelsen av en lagertank for et flytende kjemika­ lium på en fabrikk ved arbeidsdagens slutt på en tilfeldig arbeidsdag. Hvis X = 0 er tanken tom, og hvis X = 1 er tanken full. Anta at sannsynlighetstetthetsfunksjonen for X er (4.39) f(X) = k-kX

(0 4). (Svar: 3/4.) 145

OPPGAVE 4.13 Anta at en bestemt slags bilreparasjon ikke kan ta mindre enn 1 time og heller ikke mer enn 4 timer, og at alle varigheter av reparasjonen mel­ lom 1 time og 4 timer er like sannsynlige. Tar vi delintervaller som er like lange, og som ligger i intervallet fra 1 time til 4 timer, skal også sannsynligheten for en varighet innenfor et delintervall være den samme for alle delintervaller. Det kan vises at sannsynlighetstetthetsfunksjonen for X = reparasjonens varighet i timer da blir

(4.20) f(X) = 1/(4 - 1) = 1/3

(1 < X < 4)

a) Framstill denne sannsynlighetstetthetsfunksjonen grafisk. b) Beregn sannsynligheten for at reparasjonen vil ta mellom 1,5 og 2 timer for en tilfeldig bil. (Svar: 1/6.) c) Briskebytrikken har 10 minutters rute, men du vet ikke når den går fra en bestemt holdeplass. Du går for å ta trikken. La X være antall minutter du må vente. Bruk det du har lært tidligere i denne oppga­ ven til å resonnere deg fram til sannsynlighetstetthetsfunksjonen for X, og framstill denne grafisk.

d) Hva er sannsynligheten for at du må vente mer enn 3 minutter? (Svar: 0,7.) e) En kontinuerlig tilfeldig variabel X kan ha verdier i intervallet fra a til b. Sannsynlighetstetthetsfunksjonen for X er l/(b - a). Denne sannsynlighetstetthetsfunksjonen kalles den rektangulære. Hvorfor? Hva tror du forventningen til X er lik? (Riktig svar: (a + b)/2.)

OPPGAVE 4.14 En forening som samler penger til et veldedig formål planlegger en til­ stelning som skal holdes på en bestemt dag. Ledelsen vet at hvis det ikke regner denne dagen, vil tilstelningen gi et overskudd på kr 5000 hvis den holde ute og kr 1700 hvis den holdes inne. Hvis det regner, vil overskuddet bli kr 800 hvis tilstelningen holdes ute og kr 4400 hvis den holdes inne. Det er også kjent at sannsynligheten for regn denne dagen er lik 1/3. Gi et forslag til hvorledes man kan avgjøre hvor tilstel­ ningen bør holdes. OPPGAVE 4.15 Beregn forventningen til X i sannsynlighetsfunksjonen (4.5):

a) Ved hjelp av en tabelloppstilling hvor du bruker formel (4.8).

b) Ved hjelp av sluttresultatet i formel (4.22). 146

c) Forsøk å forklare ved et praktisk resonnement hvorfor sluttresultatet i formel (4.22) må være riktig.

OPPGAVE 4.16 Beregn variansen til X i sannsynlighetsfunksjonen (4.5): a) Ved hjelp av en tabelloppstilling hvor du bruker formel (4.11).

b) Ved hjelp av sluttresultatet i formel (4.23).

OPPGAVE 4.17 En bilforretning har 6 nye varevogner av en bestemt type på lager. 1/3 av disse bilene har fabrikasjonsfeil. Du kjøper 3 biler, og de 3 blir tatt ut tilfeldig fra de 6. La X være antall biler med fabrikasjonsfeil blant de 3 som du får utlevert. Sett opp fordelingen for X i tabellform og framstill denne fordelingen grafisk. Finn forventningen og variansen til X på to forskjellige måter og kontroller at du får samme svar. OPPGAVE 4.18 a) Ta for deg oppgave 2.4 på nytt. Gå ut fra at X er Poisonfordeit med X = X = f,54.' Regn ut f(X) for X = 0, 1, 2, 3, 4 og 5. (Svar: 0,2144 0,3301 0,2542 0,1305 0,0502 og 0,0155.)

b) Hvorfor er ikke summen av de 6 sannsynlighetene i svaret ovenfor lik 1?

c) Sammenlikn de 6 sannsynlighetene med de tilsvarende relative fre­ kvensene. Hva synes du om overensstemmelsen? Hvorfor ville ikke de to tallsettene blitt helt like selv om X hadde vært eksakt Poissonfordelt og du hadde brukt den riktige X?

OPPGAVE 4.19 En tappemaskin for kartonger med 1 liter melk er innstilt på 1,004 liter. Det er kjent at forventningen for tappevolumet da er lik 1,004 liter med et standardavvik lik 0,005 liter. Man går ut fra at tappevolumet er nor­ malt fordelt. Vis at sannsynligheten for at en melkekartong inneholder mindre enn 1 liter melk er 0,2119. OPPGAVE 4.20 Et bestemt slags batterier har en levetid som er tilnærmet normalt for­ delt med forventning lik 1200 dager og populasjonsstandardavvik lik 100 dager. Hvor lang tid bør garantitiden være hvis produsenten tar sikte på at 10 prosent av batteriene skal gi grunnlag for reklamasjon fordi levetiden er for kort. (Svar: 1072 dager.)

147

OPPGAVE 4.21 En maskinprodusent må kjøpe stålfjærer som tåler en belastning (har en bruddstyrke) på minst 25 kg. Leverandør A kan skaffe fjærer med en bruddstyrke som har forventning lik 29,5 kg og populasjonsstandardavvik lik 2,1 kg. Leverandør B kan skaffe fjærer med forventet brudd­ styrke lik 28,3 kg og standardavvik lik 1,6 kg. Hvem av de to leveransene vil resultere i den minste prosentandel utilfredsstillende fjærer? Forutsett at bruddstyrkene er tilnærmet normalt fordelt. (Svar: A. 1,62 prosent utilfredsstillende.)

OPPGAVE 4.22 (Fortsettelse av eksemplet i tabell 2.3 og 2.4.) La X være høyden til en tilfeldig kvinnelig søker. Vi vil nå sette opp som en foreløpig påstand (en hypotese) at X er normalt fordelt. Siden vi ikke kjenner p og G. tilla­ ter vi oss å erstatte p med X som er lik 167,67 cm og G med s som er lik 4,86 cm.

a) Bruk normalfordelingen ovenfor til å regne ut sannsynligheten for høyder i hver av de 8 klassene som finnes i tabell 2.4. og de to åpne endeklassene som også hører med når vi bruker en normalfordeling. Kontroller at summen av de 10 sannsynlighetene blir lik 1.) b) Sammenlikn de sannsynlighetene du fant under (a) med de tilsva­ rende relative frekvensene i tabell 2.4 etter at du først har forenet de to åpne ytterklassene med klassene innenfor.

c) Forklar hvorfor det kan tenkes at X er tilnærmet normalfordelt med god tilnærmelse selv om sannsynlighetene under (a) skulle avvike en del fra de relative frekvensene i tabell 2.4. OPPGAVE 4.23 En tilfeldig variabel X er N(p, g2). Finn P(X] < X < X2) hvis Xj = p 1 ,96g og X2 = p + 1,96o . (Svar: 0,95.) Legg merke til at svaret er upå­ virket av hvor store p og g er. Denne oppgaven illustrerer et viktig fak­ tum.

OPPGAVE 4.24 Anta at sannsynligheten for å få sitteplass på et bestemt tog som vi pleier å ta er 0,5. Regn ut sannsynligheten for å få sitteplass på nøyaktig 4 av 12 tilfeldig valte reiser med dette toget (a) ved bruk av binomial­ fordelingen og (b) ved bruk av normalfordelingen som tilnærmelse. (Svar: 0,1208 og 0,1173.) Legg merke til at når vi bruker normalforde­ lingen vil 4 svare til et intervall fra 3,5 til 4,5 (tegn histogram!).

148

OPPGAVE 4.25 Anta at 18 prosent av alle artikler av et bestemt slag som kommer ut fra et samlebånd er førsteklasses. Hva er da sannsynligheten for at minst 12 artikler i et tilfeldig utvalg på 100 artikler fra samlebåndet er førsteklas­ ses? (Svar: 0,9545.) Legg merke til at minst 12 i den diskrete skalaen som gjelder for binomialfordelingen svarer til minst 11,5 i den kontinu­ erlige skalaen som gjelder for normalfordelingen. (Tegn figur!) Den halve enheten kan vi kalle en kontinuitetskorreksjon.

OPPGAVE 4.26 Erfaring viser at 10 prosent av de personene som reserverer bord i en nattklubb ikke vil komme. Anta at nattklubben har 50 bord og lar 54 bord bli reservert. Hva er da sannsynligheten for at alle som har reser­ vert bord og kommer, vil få et? (Svar: 0.8051.) OPPGAVE 4.27 Ved en glødelampefabrikk er det en sannsynlighet på 0,001 for at en ubrukbar lampe slipper gjennom kontrollen. De undersøkte lampene pakkes i esker med 200 lamper i hver eske. Beregn sannsynligheten for at en eske inneholder

a) ingen b) nøyaktig en

c) mer enn en ubrukbar lampe. (Svar: 0,819 0,164 og 0,017.) OPPGAVE 4.28 En student som ikke hadde noe bedre å ta seg til tellet antall ord på de første 100 sidene i en lærebok. Etter en del beregninger konkluderte han med at antall ord per side er normalt fordelt med p = 236 og o = 55. Anta at konklusjonen er riktig, og at han velger 10 sider tilfeldig fra de gjenværende sidene i boka. Hva er sannsynligheten for at det totale antall ord på disse 10 sidene overstiger 2500? Hva må du forutsette for å finne svaret? OPPGAVE 4.29 En eske inneholder 50 konvolutter. Blant disse er det 10 stk. som hver gir mottageren rett til 5000 kroner, 10 stk. som hver gir mottageren rett til 1000 kroner, og de andre er tomme. Hvilken pris ville det være «rett­ ferdig» å ta for å la en person trekke en tilfeldig konvolutt fra esken når vi ser bort fra alle kostnader ved eksperimentet (administrasjonskostna­ 149

der, renter, etc.) enn selve pengesummene som er involvert. Et spill ansees for å være rettferdig hvis den gjennomsnittlige gevinsten i det lange løp er lik 0. OPPGAVE 4.30 En eier av et selvbetjeningsvaskeri vet at 20% av alle nye vaskemaski­ ner som kjøpes må repareres i løpet av det første året de er i bruk. Eieren kjøper 5 nye vaskemaskiner, og vi antar at de kan oppfattes som et tilfeldig utvalg.

a) Hva er sannsynligheten for at alle fem må repareres i løpet av det første året de er i bruk? b) Hva er sannsynligheten for at ingen av de fem må repareres i løpet av det første året de er i bruk?

c) Hva er sannsynligheten for at minst to av de fem må repareres i løpet av det første året de er i bruk?

OPPGAVE 4.31 En tilfeldig variabel X har sannsynlighetstetthetsfunksjonen f(X)=l/8

(11500 kg. Heller ikke i et slikt tilfelle går det an å bytte om H og A. Grun­ nen til dette er den samme som er nevnt under punkt (2). - (4) Både H og A kan omfatte mange konkurrerende hypoteser (mange konkurrerende verdier av parameteren), men slik at H også omfatter en verdi pH som danner en nedre eller øvre grense mot de verdiene som er spesifisert under A. Heller ikke i slike situasjoner går det an å la H og A bytte rolle. Imidlertid kan det i slike situa­ sjoner være flere måter å formulere problemet på. Et eksempel på en hypotese og et alternativ av ovennevnte slag er følgende. H: p > 1500 kg. A: p < 1500 kg. Et annet eksempel er. H: p < 1500 kg. A: p > 1500 kg. I det første eksemplet går H ut på at p er minst 1500 kg. I det andre eksemplet går H ut på at p. er høyst 1500 kg. Hvis en produsent av slepetau garanterer at p = 1500 kg, kan formuleringene i begge eksemplene være aktuelle alt etter hva problemstillingen er. Hvis en kjøper av tau ønsker å bevise at tauene er for svake, vil han stå sterkest hvis han velger formuleringen i det første eksempelet. Hvis han velger et signifikansnivå som også leverandøren er villig til å bruke og konklusjonen blir at H forkastes, kan han si at han har «bevist» at p < 1500 kg. Hvis det derimot er leverandøren av tauene som ønsker å bevise at tauene er sterke nok, vil han stå seg på å velge den andre formuleringen. Dersom han velger et signifikans­ nivå som også kjøperen er villig til å bruke og konklusjonen blir at H forkastes, kan han si at han har «bevist» at p. > 1500 kg.

I situasjoner som her hvor vi deler tall-linjen i to deler som svarer til parameterverdiene under henholdsvis H og A, må vi alltid sørge for at delingspunktet (likhetstegnet) kommer med under H. Når vi skal avlede konsekvenser av hypotesen, kan vi da bruke den av de hypotetiske verdiene som svarer til likhetstegnet. Der­ med blir det mulig å trekke nyttige konklusjoner.

Hypotesetestingssituasjoner av den typen som er beskrevet under (4) ovenfor er ikke blant de viktigste i denne boka, men for fullstendighetens skyld skal vi se litt på hvorledes de kan behandles. La oss f.eks. se litt på de mulige konklusjonene når vi tester H: p > 1500 kg mot A: p < 1500. Konklusjonen kan i prinsippet baseres på gjennomsnittet X i et tilfeldig utvalg på n observasjoner av X. (I praksis bruker vi gjerne t i stedet.) 221

Hvis X er så liten at vi må forkaste hypotesen om at p = 1500 kg og godta alternativet at p < 1500 kg, så er X selvfølgelig også liten nok til at vi må forkaste hypotesen om at p > 1500 kg mot det samme alterna­ tivet. Konklusjonen blir da at p < 1500 kg. Hvis derimot X er så stor at vi ikke kan forkaste hypotesen om at p = 1500 kg mot alternativet at p < 1500 kg, kan det tenkes at p er enda større enn 1500 kg. Konklusjonen blir da at p > 1500 kg. Det er viktig å være klar over at de to mulighetene H og A ikke er symmetriske i den forstand at vi i enhver situasjon kan velge fritt hva som skal være H hva som skal være A. Av (l)-(4) ovenfor ser vi imid­ lertid at vi noen ganger har valgmuligheter i så henseende. Av denne grunn kan det reises spørsmål om hvilke prinsipper som bør legges til grunn for valget. Når vi skal teste en hypotese om en parameter, må H gjøre det mulig å spesifisere en ganske bestemt verdi av den parameteren som hypotesen dreier seg om. Under testingen må vi nemlig foreta beregninger som bygger på den forutsetningen at H er riktig, og det er da nødvendig å ha en konkret H-hypotetisk verdi av para­ meteren. Sagt på en annen måte så må H gå ut på en ganske spesi­ ell mulighet (eventuelt som en grense), mens A godt kan innebære mange muligheter, nemlig alle muligheter som ikke faller inn under H.

Skal vi f.eks. ved hypotesetesting ta stilling til om to kjennetegn A og B er uavhengige eller ikke, må hypotesen H gå ut på at de er uavhengige, da dette betyr noe ganske spesielt. Avhengighet kan bety så mangt - det kan være snakk om svakere eller sterkere avhengighet. A må derfor gå ut på at de er avhengige.

7.7

To slags feil ved hypotesetesting

Når vi tester statistiske hypoteser, kan vi komme i skade for å gjøre en av to feil.

DEFINISJON 7.7 FEIL AV 1. SLAG ELLER FORKASTNINGSFEIL. FEIL AV 2. SLAG ELLER GODTAKINGSFEIL: Hvis H faktisk er riktig, men våre data og/eller vår testmetode leder oss til likevel å for

222

kaste H, gjør vi en feil som i litteraturen kalles feil av 1. slag. Vi vil også bruke betegnelsen forkastningsfeil. Hvis H er feilaktig, dvs. at A (alternativet eller et av alternativene) er riktig, men våre data og/eller vår testmetode likevel leder oss til å godta (eventuelt la være å forkaste) H, gjør vi en feil som i litteraturen blir kalt feil av 2. slag. Vi skal også bruke betegnelsene godtakingsfeil eller forkasta ingsunnlatelsesfeil.

Situasjonen kan skisseres i en enkel tabell. Når det gjelder virkelig­ heten, er vårt problem spesifisert slik at enten er H riktig, eller så er A riktig. Noen tredje mulighet finnes ikke. Ser vi på vår handling, så går den ut på enten å forkaste H eller å godta H. Når vi i et gitt tilfelle tester en hypotese, H er det derfor 4 mulige resultater av testingen. Dette er illustrert i tabell 7.1 nedenfor. Tabell 7.1 Mulige resultater av en hypotesetesting.

Virkeligheten

Vår handling

H er riktig

A er riktig (H er feil)

H forkastes

Forkastningsfeil

Riktig handling

H godtas

Riktig handling

Godtakingsfeil

Vår oppgave er å innrette oss slik at vi best mulig styrer unna begge typer av feil. Dette er imidlertid et meget vanskelig problem. Når vi minsker sannsynligheten forbundet med en type feil, er det for en gitt utvalgsstørrelse nemlig ikke til å unngå at vi samtidig øker sannsynlig­ heten forbundet med den andre typen av feil. Vi må derfor foreta en viss avveiing mellom kostnadene eller ulempene ved å gjøre de to typer av feil. Strengt tatt burde vi også trekke inn forhåndssannsynligheter (a priori sannsynligheter) om hvorledes virkeligheten er. Slike sannsynlig­ heter behandles i kapittel 15.

7.8

De to slags feil illustrert ved et eksempel

En forkastningsregel for H er en regel som sier hvilke observasjonsresultater det er som skal få oss til å forkaste H. Vi har tidligere vært inne på at vi søker å innrette oss slik at H er en enkelt hypotese, mens A i mange tilfelle omfatter mange forskjellige hypoteser. En konsekvens av dette er følgende:

223

Til en bestemt forkastningsregel for H svarer det en bestemt sann­ synlighet for at H blir forkastet gitt at H er riktig. Til den samme forkastningsregelen for H svarer det imidlertid flere forskjellige sannsynligheter for å godta H gitt at H er feilaktig, nemlig en sannsynlighet for hver mulighet innen alternativet. En konsekvens av dette er at det er vanligvis lettere å studere sannsynligheter for­ bundet med forkastningsfeil enn sannsynligheter forbundet med godtakingsfeil. Bl.a. av denne grunn velger man i praksis ofte bevisst å konsentrere seg mer om forkastningsfeil enn om godta­ kingsfeil. I den utstrekning man har anledning til å velge hva som skal være hypotese og hva som skal være alternativ, innretter man seg da slik at den feilen som det er mest om å gjøre å unngå blir forkastningsfeil.

Vi skal illustrere dette ved å skissere et eksempel (uten å gå i detaljer). Når en ny medisin sendes ut på markedet, hender det en sjelden gang at medisinen har katastrofale bivirkningen (Et eksempel er sovemedisinen thalomid som førte til at mange barn ble misdannet på grunn av at mødrene brukte medisinen under svangerskapet.) Under utprøvingen av en ny medisin kan vi tenke oss at produsenten setter fram følgende hypotese og alternativ.

H: Medisinen har farlige bivirkningen (Dette kan f.eks. tenkes uttrykt ved at størrelsen av en bestemt parameter ligger på eller over en bestemt verdi.) A: Medisinen har ikke farlige bivirkningen (Dette kan tenkes uttrykt ved at størrelsen av parameteren ligger under den før nevnte verdien.)

Feil av 1. slag betyr at H forkastes, gitt at H er riktig. I vårt eksempel innebærer dette at produsenten konkluderer med at medisinen ikke har farlige bivirkninger til tross for at den faktisk har det. Dette leder til en katastrofe. Medisinen sendes nemlig ut på markedet og medfører store menneskelige tragedier for dem som rammes, samtidig som pro­ dusenten stilles overfor betydelige erstatningskrav og skader sitt renommé. Feil av 2. slag eller godtakingsfeil betyr at H godtas gitt at A er riktig. I vårt eksempel medfører dette at produsenten konkluderer med at medisinen har farlige bivirkninger gitt at den ikke har det. Han tør 224

derfor ikke sende medisinen ut på markedet. Resultatet er at menneske­ heten går glipp av en god medisin, og bedriften går glipp av fortjeneste. Selv om dette er uheldig, vil de fleste mennesker trolig mene at denne feilen er mindre alvorlig enn den første. I praksis innretter man seg ofte på følgende måte. Man lar om mulig den farligste feilen bli feil av 1. slag eller forkastningsfeil. Deretter velger man et signifikansnivå, som er et lite tall som f.eks. 0,05 eller 0,01 eller 0,001. Testmetoden og forkastningsregelen utformes på en slik måte at sannsynligheten for å forkaste H gitt at H er riktig blir lik eller mindre enn æ Dermed har man sannsynligheten forbundet med forkastningsfeil under kontroll. Hvis denne feilen vurderes som spesielt farlig, velger man et sig­ nifikansnivå som er så lite som f.eks. 0,001.

7.9

Signifikansnivå og signifikanssannsynlighet

T litteraturen vil vi se at det er to forskjellige måter å presentere resulta­ tet av en hypotesetesting på. I vårt innledende eksempel kan vi for det første gjøre slik som vi har gjort. Vi har presentert tallet tH som kan sammenliknes med den kritiske verdien for å finne ut om hypotesen H skal forkastes. Dette er en grei måte som er enkel å forstå og enkel å praktisere. Den andre måten går i prinsippet ut på at man i stedet for å presentere tallet tH (eller i tillegg til dette) presenterer det som kalles P-verdien eller signifikanssannsynligheten.

DEFINISJON 7.8 P-VERDI, SIGNIFIKANSSANNSYNLIGHET, HALESANNSYNLIGHET ELLER OPPNÅDD SIGNIFIKANSNIVÅ: P-ver­ dien, som også går under andre navn som vist ovenfor, kan defineres som det signifikansnivået vi måtte ha valt om den ver­ dien av testobservatoren som vi har funnet for vårt utvalg skulle ha blitt akkurat så vidt signifikant. En annen likeverdig måte å defi­ nere P-verdien på er å si at P-verdien er sannsynligheten for å få en verdi av testobservatoren som er minst like ekstrem som den vi faktisk fant, gitt at H er riktig. Utregningen av P-verdien vil bl.a. bli påvirket av om alternativet til H er ensidig eller tosidig. (En overgang fra tosidig til ensidig alternativ vil vanligvis medføre at P-verdien blir halvert.) P-verdien kalles også signifikanssannsyn­ ligheten og må ikke forveksles med signifikansnivået.

225

P-verdi-måten er ofte mer tungvindt å bruke enn vår måte, bl.a. fordi det ofte ikke er så helt enkelt å finne den eksakte P-verdien. Grunnen til at måten omtales her er for det første at den brukes av mange, og for det andre at den er meget nyttig når vi bruker datamaskin og programmet regner ut P-verdien som de fleste programmer nå gjør. Hvis vi har valt signifikansnivået 0.05 og datamaskinen forteller at P-verdien er 0.047, betyr dette at den tilhørende tH er signifikant. I dette tilfellet ville den imidlertid ikke ha vært signifikant om vi på forhånd hadde valt signifi­ kansnivået 0.01.

Regelen er altså at om den utregnede P-verdien er mindre enn det valte signifikansnivået, cx så er testobservatoren (dvs. tH i vårt eksempel) signifikant og hypotesen H må forkastes.

Hvilken av de to måtene vi vil bruke er et spørsmål om hensiktsmessig­ het. Begge måter er like «riktige» og gir nøyaktig samme konklusjon. Vi vil i denne boka for det meste bruke den første måten hvor vi presen­ terer verdien av en testobservator. Et annet viktig spørsmål som ikke bør forveksles med det vi nettopp har diskutert er om signifikansnivået skal velges på forhånd, før vi har samlet inn data og regnet ut verdien av testobservatoren (heretter kalt metode 1), eller om signifikansnivået kan velges etter at verdien at testobservatoren foreligger (heretter kalt metode 2). I de fleste hypotesetestingssituasjoner er vel hensikten med testingen å komme frem til en konklusjon som leder til en praktisk avgjørelse. Vi tester f.eks. en hypotese om at to forsøksledd er like gode. Hvis hypote­ sen forkastes, tar vi en avgjørelse om å bruke bare det forsøksleddet som synes å være det beste for fremtiden. I slike situasjoner synes det klart at metode 1 er å foretrekke. Hvis man bruker metode 2, kan man nemlig selv bestemme hva avgjørelsen skal bli ved å velge et signifi­ kansnivå som gir den ønskede konklusjon. Det blir nesten som når en ung dame kaster mynt og krone for å avgjøre om hun skal si ja eller nei til et frieri og hun bestemmer seg for hva krone skal bety først etter at hun har sett resultatet av myntkastingen. Metode 2 kan forsvares hvis hensikten med testingen ikke er å komme fram til en avgjørelse, men bare å gi en slags sammentrengt beskrivelse av materialet i form av et enkelt tall, tH eller signifikanssannsynligheten. Som fordel med metode 2 er det gjerne fremhevet at hver enkelt leser av resultatet selv skal kunne velge hvilket signifikansnivå han vil bruke. Problemet er imidlertid at leseren ikke kan velge signifikansnivå på en objektiv måte når han allerede har sett verdien av testobservatoren. 226

Vanligvis er det vel også forfatteren som har de beste forutsetninger for å velge signifikansnivå idet han har de beste forutsetninger for å vur­ dere sannsynlighetene for og kostnadene ved å begå begge typer av feil. Vi skal konsekvent bruke metode 1 hele tiden i denne boka. Ved bruk av denne metoden i publiserte arbeider forutsetter vi at man ikke bare skriver f.eks. at observatoren er signifikant på 5-prosent nivået, men at man også oppgir antall observasjoner, verdien av observatoren og ver­ dien av eventuelle parametre (frihetsgrader). Dette er i overensstem­ melse med god publikasjonsskikk, og på denne måten ivaretar man alle behov. En leser som ønsker det, kan da selv regne ut signifikanssannsynligheten og han kan også velge sitt eget signifikansnivå.

7.10 Testing ved hjelp av et konfidensintervall Et konfidensintervall for en ukjent parameter kan under visse betingel­ ser brukes til å teste en hypotese om denne parameteren. Det er to betin­ gelser som må være oppfylt hvis dette skal la seg gjøre på en enkel måte. For det første må det signifikansnivået vi ønsker å bruke ved testingen svare til den konfidenssannsynligheten som er brukt ved beregningen av konfidensintervallet i den forstand at summen av signi­ fikansnivået og konfidenssannsynligheten må være lik 1. Ønsker vi f.eks. å bruke signifikansnivået a = 0,05 så må konfidenssannsynlig­ heten som er brukt ved utregningen av konfidensgrensene være 0,95 og ikke f.eks. 0,99 for at konfidensintervallet skal kunne brukes til hypotesetestingen. For det andre må alternativet til hypotesen som skal tes­ tes være tosidig.

Hvis det signifikansnivået a som vi ønsker å bruke svarer til den konfidenssannsynligheten 1 - a som vi har brukt, i den forstand at de har en sum som er lik 1, og dersom alternativet til H er tosidig, kan hypotesetesting ofte foretas på følgende måte: Vi undersøker om den hypotetiske verdien av parameteren (dvs. den som gjelder under H) ligger innenfor eller utenfor konfidensintervallet for parameteren. Hvis den hypotetiske verdien ligger innenfor konfi­ densintervallet, kan hypotesen ikke forkastes på et signifikansnivå som er lik 1 minus konfidenssannsynligheten.

Denne måten å teste hypotesen på gir samme konklusjon som når vi regner ut en testobservator som f.eks. tH. Resultatet er nokså naturlig når vi tenker på at vi er temmelig sikre på at den sanne verdien av para­ meteren ligger innenfor konfidensintervallet. 227

7.11

Styrkefunksjon og operasjonskarakteristikk

Vi har tidligere nevnt at sannsynligheten for å godta H gitt at A er riktig betegnes med p og kalles operasjonskarakteristikken, mens 1 - p kalles teststyrken. Størrelsen av p og 1 - p avhenger av A og av forkastningsregelen som igjen avhenger av det valte signifikansnivået og av testme­ toden. Sannsynlighetene p og 1 - p (det er en smaksak hvilken av disse vi velger å betrakte) forteller noe om risikoen forbundet med godtakingsfeil.

DEFINISJON 7.9 OPERASJONSKARAKTERISTIKKFUNKSJON OG STYRKE­ FUNKSJON: Hvis alternativet A omfatter flere forskjellige verdier av parameteren som vi tester hypotese om, finnes det en p og en 1 - P for hver parameterverdi. Hvis vi framstiller p som en funksjon av de forskjellige alternative parameterverdiene, får vi det som kalles operasjonskarakteristikkfunksjonen. Ser vi i stedet på 1 - p som en funksjon av de alternative parameterverdiene, får vi styrkefunksjonen. Ved å studere en av disse funksjonene (det blir det samme hvilken), kan man få et intrykk av sannsynlighetene forbundet med godtakingsfeil. Den ideelle situasjonen ville vi ha om teststyrken 1 - p var lik 1 for alle alternative verdier av parameteren, og at samtidig signifikansni­ vået, oc (som er et slags spesialtilfelle av 1 - p hvis A settes lik H) var lik 0. Å finne en testmetode som tilfredsstiller disse krav er umulig i praksis, men en slik betraktning forteller oss noe om den ønskelige for­ men på styrkefunksjonen. Ønsker vi å minske både oc og p samtidig, kan dette oppnås ved å øke utvalgsstørrelsen, n som i vårt innledende eksempel er lik 6.

7.12 Ubetingede sannsynligheter for forskjellige testingsutfall Det er viktig å være oppmerksom på at både signifikansnivået a og operasjonskarakteristikken p er betingede sannsynligheter. De er betin­ get av at henholdsvis H er riktig eller at A er riktig. Det samme gjelder for 1 - a og 1 - p. Derfor bør vi være svært nøye med hvorledes vi ord­ legger oss når vi skal forklare hva a og p er. La oss som en illustrasjon anta at P i figur 7.1 er lik 0,30. (Dette tallet er altså valt helt vilkårlig her for å få et tall å skrive om og å regne på.)

228

De sannsynlighetsutsagn som kan knyttes til vår hypotesetestingssituasjon kan da summeres opp som vist i tabell 7.2. Tabell 7.2. Betingede sannsynligheter for at vi forkaster eller godtar H betinget av hvorledes virkeligheten er. - ----- :-- .-------- - -Alternative muligheter med hensyn til virkeligheten Vår handling H er riktig A er riktig

H forkastes H godtas Sum

ot = 0,05

1 - p = 0,70

1 - a = 0,95

P = 0,30

1,00

1,00

Legg merke til at vi ikke har grunnlag for å si at sannsynligheten for at hypotesen er riktig er så og så stor (f.eks. 0,95 som enkelte studenter kan være tilbøyelige til å si). Vi har ikke engang grunnlag for å si at sannsynligheten for feilaktig konklusjon er et bestemt tall. Det vi kan si er følgende: Hvis hypotesen H er riktig (noe vi ikke vet om den er), så er sannsynligheten for å forkaste den når vi bruker vår metodikk lik a = 0,05. Hvis hypotesen er feilaktig (noe vi heller ikke vet om den er), er sannsynligheten for å godta den 0,30. Hvis vi ønsker å komme med andre sannsynlighetsutsagn som ikke er betingede, må vi innføre såkalte a priori sannsynligheter, dvs. forhåndssannsynligheter (se kapittel 15) for at henholdsvis H og A er rik­ tig. Vi vil illustrere dette ved et eksempel.

EKSEMPEL 7.2 FORTSETTELSE AV EKSEMPEL 7.1: Anta at laboratoriet i vårt innledende eksempel regelmessig får tilsent flasker med oppløs­ ningen K, og at 80 prosent av de flaskene som ankommer har et innhold av V på 10 gram pr. liter, mens 20 prosent av flaskene har et innhold på 20 gram V pr. liter. Under slike forhold kunne det kanskje være rimelig før vi har foretatt analyser i det hele tatt å forutsette at forhåndssannsynligheten for at H er riktig er P(HR) = 0,8 og at forhåndssannsynligheten for at A er riktig er P(AR) = 0,2. I det følgende vil vi gjøre disse forutsetningene og se hva de leder til. Vi kan da regne ut 4 vanlige (ubetingede) sannsynligheter som har en sum lik 1 ved å bruke den generelle både-og-setningen for to kjennetegn. La HR bety at H er riktig, AR bety at A er riktig, FH bety at vi forkaster H og GH bety at vi godtar H. Vi får da: 229

P(HR P(HR P(AR P(AR

n FH) = P(HR)PfFHIHR) n GH) = P(HR)P(GHIHR) n FH) = P(AR)P(FHI AR) n GH) = P(AR)P(GHI AR)

= = = =

0,8 0,8 0,2 0,2

• • • •

0,05 0,95 0,70 0,30

= = = =

0,04 0,76 0,14 0,06 1,00

Sannsynlighetene er summert opp i tabell 7.3 nedenfor.

Tabell 7.3 Sannsynlighetene for de 4 mulige utfall av hypotesetestingen beskrevet i teksten. Virkeligheten

Vår handling

Sum

H er riktig

A er riktig

H forkastes

0,04

0,14

0,18

H godtas

0,76

0,06

0,82

Sum

0,80

0,20

1,00

Med denne utvidelsen av eksemplet er det mulig å si at sannsynligheten for riktig handling er lik P [(HR n GH) u (AR n FH)] = P(HR n GH) + P(AR n FH) = 0,76 + 0,14 = 0,90. På tilsvarende måte finner vi at sannsynligheten for feilaktig handling blir 0,10. Beregningene i tilknytning til tabell 7 er tatt med her for å gi dypere innsikt i hypotesetestingsproblematikken. Blant brukere av hypotesetestingsmetoder er det neppe særlig vanlig å foreta slike beregninger. En av grunnene til dette kan være at det er vanskelig å sette opp a priori sannsynligheter for at H er riktig. Dessuten har man i praksis vanligvis flere mulige alternativer A. Valget av signifikansnivå er derfor ikke så enkelt. For å få en fullstendig avveiing av hvilket signifikansnivå man bør bruke, må man både ta hensyn til a priori sannsynligheter, og man må ta hensyn til kostnadene eller ulempene ved å begå hver av de to typer feil. I vårt eksempel med et bestemt alternativ er det mulig å gjøre dette ved å innføre en såkalt tapsfunksjon og å minimalisere totalt forventet tap. Vi skal imidlertid ikke komme inn på dette her. Vi har i dette kapittel gjennomgått noen grunntrekk av hypotesetestingsteorien i tilknytning til et konkret eksempel. Teorien er imidlertid

230

helt generell. I stedet for den tilfeldige variabelen tH opererer man i andre tilfelle med andre tilfeldige variabler som f.eks. ZH og som vi har tabell over bakerst i boka gitt at H er riktig. I de følgende kapitler skal vi gjennomgå noen spesielle hypotesetestingssituasjoner som ofte forekommer i praksis.

231

8

8.1

Hypoteser om forventninger for normalt fordelte variabeler Innledning

I avsnitt 6.5-6.7 tok vi opp til behandling forskjellige slags konfidensintervaller i forbindelse med forventninger for normalt fordelte tilfel­ dige variabler. Vi skal nå ta opp de tilsvarende hypotesetestingsproblemene. Det er nemlig en parallellitet her slik at det til hver konfidensintervallmetode svarer en hypotesetestingsmetode som bygger på den samme utvalgsva­ riabelen, nemlig en utvalgsvariabel som er fordelt etter Studenfs t-fordelingen. Slike utvalgsvariabler ble behandlet i avsnitt 5.4 hvor vi tok utgangspunkt i tilfeldige variabler som er normalt fordelt. Generelt kan vi si at hvis vi ønsker å teste hypoteser om forventnin­ ger, kan det være mulighet for å bruke de metodene vi nå skal behandle hvis vi mener at det er forsvarlig å forutsette at den eller de grunnleg­ gende tilfeldige variablene som er involvert er tilnærmet normalt for­ delt. Siden de såkalte t-testene som er emnet for dette kapitlet er relativt robuste overfor avvik fra forutsetningen om normal fordeling, er meto­ dene ganske mye brukt. Det finnes imidlertid også andre metoder som er aktuelle og som ikke gjør bruk av forutsetningen om normal forde­ ling. Dette kommer vi tilbake til i kapittel 14 som handler om såkalte ikke-parametriske metoder.

8.2

Ett-utvalgsproblemer

Avsnitt 5.4.1 og kapitel 7 gir noe av det teoretiske grunnlaget for å handtere slike problemer. Det tilsvarende konfidensintervallproblemet er behandlet i avsnitt 6.5.1. Oppgaven er følgende: Vi har et tilfeldig utvalg på n observasjoner av en tilfeldig variabel X som vi forutsetter er (tilnærmet) N(p, G"). Observasjonene skal brukes til å teste en hypotese om p. Vi bruker da testobservatoren tH som er gitt ved (8.1).

(8.1) tH =

232

s/Vn

tH er fordelt etter Studenfs t-fordelingen med n - 1 frihetsgrader hvis den hypotetiske p-verdien pH er riktig. Testingen går ut på å regne ut et tall eller en testobservator tH ved å sette inn de aktuelle verdier av X, pH, s og n i formel (8.2). X — pH (8.2) tH = ----s/a/h

Hvis tH faller i det kritiske området for tH, forkaster vi hypotesen H. Det kritiske områdets plassering bestemmes av signifikansnivået og av hvilket alternativ, A vi tester H mot.

- (1) Hvis vi tester H: p = pH mot A: p pH, ligger det kritiske områ­ det for tH til høyre for t^ og til venstre for -ta/2. Vi skal da forkaste H hvis tH enten er større enn ta/2 eller mindre enn -t^. - (2) Hvis vi tester H: p = pH mot A: p < pH (eller H: p > pH mot A: p < p|_j) skal vi forkaste H hvis tI(< — tæ

- (3) Hvis vi tester H: p = pH mot A: p > pH (eller H: p < pH mot A: p > pH) skal vi forkaste H hvis tH > -tæ

8.3

To-utvalgsproblemer med parobservasjoner

I avsnitt 6.5.2 har vi behandlet det tilsvarende konfidensintervallproblemet. Der har vi også forklart hva vi mener med parobservasjoner. Set­ ning 6.1 viser hvorledes et to-utvalgsproblem med parobservasjoner kan reduseres til et ett-utvalgsproblem når vi arbeider med et konhdensintervallproblem. En tilsvarende regel gjelder når vi arbeider med hypotesetesting. Framgangsmåten blir altså følgende: Når vi har et to-utvalgsproblem med parobservasjoner, reduserer vi det til et ett-utvalgsproblem ved å ta differensen mellom parene. Hvis vi mener det er grunnlag for å forut­ sette at differensene er observasjoner av en tilfeldig variabel som er (til­ nærmet) N(p. G'), kan vi teste hypoteser om p på nøyaktig samme måte som beskrevet i foregående avsnitt. En hypotese som det ofte er aktuelt å teste er at p = 0. Dette er det samme som å teste at de to gruppene eller forsøksleddene som ligger til grunn for parene er like med hensyn til forventning for den tilfeldige variabelen som er observert.

233

8.4

To-utvalgsproblemer uten parobservasjoner

Utvalgsteorien som vi skal bygge på i dette avsnittet er behandlet i avsnitt 5.4.2. Det tilsvarende konfidensintervallproblemet er behandlet i avsnitt 6.6. Problemet er følgende: Vi har nj observasjoner av en tilfeldig varia­ bel Xj som vi forutsetter er (tilnærmet) N(p1? o-,). Videre har vi n2 observasjoner av en tilfeldig variabel X2 som vi forutsetter er (tilnær­ met) N(p2, o22). Det forutsettes at Oj er (tilnærmet) lik g2. Vi ønsker å teste en hypotese om differensen mellom de to forventningene pj og p2. Vi kan f.eks. teste en hypotese om at differensen er lik 0. dvs. at de to forventningene er like. Eller vi kan teste en hypotese om at differensen er et hvilket som helst tall. Generelt ønsker vi altså å teste en hypotese H som går ut på at Jij - p2 = (p, - p2)H, hvor det som står etter likhets­ tegnet er en hypotetisk differens. Vi bruker da testobservatoren tH som er definert ved (8.3). (8.3) tH =

x,-x2- (H!-g2)H

Hvis den hypotetiske verdien (p - p2)H av (p, - p2) er riktig, er tH fordelt etter Student’s t-fordelingen med nj + n2 - 2_frihetsgrader. Testingen foretas ved at vi regner ut tH ved å sette inn X2, (pj - p2)H, sp n} og n2 i (8.4).

X, -X2- (n,-h2)h (8.4) tH

2

2

Her regnes sp ut etter formel (8.5) hvor s j og s 2 er utvalgsvanansene for de to utvalgene av observasjoner av henholdsvis Xj og X2. I

2

2

(nl - 1) s; + (n2- l)s2 (8.5) s„ - -------------------- - -------p Aj nj + n2 - 2

De kritiske områdene for tH for forskjellige alternativer finnes på tilsva­ rende måte som beskrevet i avsnitt 8.2 idet (p; - p2 )H inngår på tilsva­ rende måte i formel (8.4) som pH i formel (8.2). 234

8.5

To-utvalgsproblemer uten parobservasjoner når G] g2

Hypotesetestingsmetodikken som er beskrevet i avsnitt 8.4 svarer til konfidensintervallmetodikken i avsnitt 6.6. I begge tilfelle må det strengt tatt forutsettes at o, = g2 Hvis G] g2 kan man beregne konfi­ densgrenser som beskrevet i avsnitt 6.7. Vi skal nå kort beskrive en hypotesetestingsmetodikk som svarer til konfidensintervallmetodikken i avsnitt 6.7. Under lesningen av det følgende bør man sammenlikne både med avsnitt 6.7 og 8.4. Problemstillingen er den samme som i avsnitt 8.4, så vi skal bare beskrive det som er annerledes. I stedet for å bruke testobservatoren (8.4), brukes observatoren (8.6).

,R6, , (8-6) tH -

X,-X2-(g,-n2)H 7==

h+h n2

Det som er sagt i avsnitt 6.7 gjelder i stor utstrekning også her. Den kri­ tiske verdien finnes i t-tabellen, men antall frihetsgrader beregnes etter formel (6.J4). Diskusjonen i avsnitt 6.7 om valg av intervallestimeringsmetode er relevant også ved valg av hypotesetestingsmetode. OPPGAVE 8.1 Tegn en figur av liknende slag som figur 7.1 for hvert av punktene (1)(3) i avsnitt 8.2 og gå gjennom det resonnementet som fører til at forkastningsområdet for H må bli som forklart.

OPPGAVE 8.2 Bruk tallene i oppgave 6.4 og test en hypotese som går ut på at forvent­ ningen for den tiden det tar å utføre arbeidsoperasjonen er lik 15 minut­ ter mot et tosidig alternativ. Utfør testingen på signifikansnivået 0,05 (a) ved å regne ut tH etter formel (8.2) (Svar: tH = 1,18.) og (b) ved å gjøre bruk av det konfidensintervallet du regnet ut i oppgave 6.4. (c) I oppgave 6.4 fant vi at konfidensgrensene for p som svarer til konfidens­ sannsynligheten 0,95 ble 10 og 27. Hva blir konklusjonen hvis vi bru­ ker signifikansnivået 0,05 og regner ut tH etter formel (8.2) for å teste hypotesen H: p = 10 mot A: p 10 eller H: p = 27 mot A: p 27? Hvis du ikke greier å svare, bør du prøve å utføre denne testingen. Det kan da lønne seg å bytte ut tallene 10 og 27 med de tilsvarende uavrundede tal­ lene 10,5 og 27,2. 235

OPPGAVE 8.3 10 tilfeldige personer løfter på en sekk for å anslå sekkens vekt. Resul­ tatet av vektanslaget i kilo ble 48 40 52 32 37 26 24 46 41 og 37. Vi for­ utsetter at feilen ved vektfastsettingen er en tilfeldig variabel som er normalt fordelt med forventning lik 0. Dermed blir den anslåtte vekten en tilfeldig variabel som er normalt fordelt med forventning lik den fak­ tiske vekten. Bruk signifikansnivået 0,05 og test en hypotese som går ut på at sekken er en 40-kilos sekk mot alternativet at vekten er forskjellig fra 40 kilo. (Svar: tH = -0,59.)

OPPGAVE 8.4 Bruk tallene i oppgave 6.9 og test en hypotese som går ut på at forven­ tet avling for sort A er 5 «bushels per acre» høyere enn for sort B. La alternativet være at forskjellen i forventet avling for de to sortene er 5 «bushels per acre». Bruk signifikansnivået 0,05. (Svar: tH = 0,26.) OPPGAVE 8.5 Bruk tallene i oppgave 6.10 og test en hypotese som går ut på at det ikke er noen forskjell på forventningen for pulsen før og etter mot alter­ nativet at forventningen for pulsen er større etter. La signifikansnivået være 0,01. (Svar: tH = -4,74.)

OPPGAVE 8.6 Et blokkforsøk ble utført for å sammenlikne to forplaner, A og B for slaktegriser i et bestemt landområde. Forsøket ble utført på følgende måte: Fra populasjonen av grisekull (populasjonen av blokker) i ved­ kommende område ble det tatt ut et tilfeldig utvalg på 5 grisekull (5 blokker). Fra hvert kull ble det trukket ut tilfeldig 2 griser, og ved loddtrekning ble det bestemt hvilken gris som skulle fores etter forplan A. Den andre grisen i kullet ble foret etter forplan B. Tilveksten i kg levende vekt i løpet av forsøksperioden ble følgende: 1

2

3

4

5

Forplan A:

67

57

74

61

70

Forplan B:

62

51

75

58

65

Blokk nr.

Test en hypotese som går ut på at det ikke er noen forskjell på forventet tilvekst ved bruk av de to forplanene mot alternativet at det er forskjell. Bruk signifikansnivået 0,01. (Svar: tH - 2,88.)

236

OPPGAVE 8.7 Bruk tallene i oppgave 6.12 og signifikansnivået 0,01 og test en hypo­ tese som går ut på at forventningen til høyden av menn er 10 cm større enn forventningen til høyden av kvinner. La alternativet være at for­ skjellen er noe annet enn 10 cm.

OPPGAVE 8.8 Bruk tallene i oppgave 6.13 og signifikansnivået 0,05 og test en hypo­ tese som går ut på at reisetiden med de to transportmidlene er like lange mot alternativet at reisetiden med trikken er kortere. (Svar: tH = 2,40.) OPPGAVE 8.9 Et foringsforsøk ble utført etter planen fri randomisering for å sammen­ likne to forplaner, A og B ved foring av kalkuner. Forsøket ble utført på følgende måte. Fra populasjonen av kalkuner i vedkommende område ble det tatt ut et tilfeldig utvalg på 16 kalkuner. Disse ble delt tilfeldig i to like store grupper, og det ble bestemt ved loddtrekning hvilken av gruppene som skulle fores etter plan A. I løpet av en viss tid registrerte man følgende tilvekster i kg levende vekt: Plan A: Plan B:

3,5 1,8

2,0 2,5

2,3 2,5

3,5 2,8

2,0 2,0

2,0 1,5

1,8 1,8

1,3 2,5

Test en hypotese som går ut på at forventningen for tilveksten er den samme ved bruk av forplan A som ved bruk av forplan B mot et tosidig alternativ. Bruk signifikansnivået 0,05. (Svar: tH = 0,39.) OPPGAVE 8.10 Løs oppgave 8.7 på nytt ved å gå fram som beskrevet i avsnitt 8.5. (Svar: tH = 2,16. d.f. = 4.5.) OPPGAVE 8.11 I en bestemt handelsbedrift antar man at purring pr. telefon er mer effektivt enn purring pr. brev for å påskynde innbetalingen av forfalte utestående fordringer. For å belyse spørsmålet tar man et tilfeldig utvalg på 12 forfalte utestående fordringer. Disse blir delt tilfeldig i to grupper. Kundene det gjelder i den ene gruppen blir purret pr. brev, mens kundene i den andre gruppen blir purret pr. telefon. Innkrevingstiden etter purring (i dager) er vist nedenfor for de to gruppene:

237

Antall dager til innbetaling fant sted

Purremetode Brev

6

8

9

10

12

9

Telefon

4

5

4

8

6

9

Velg nullhypotese og alternativ ut fra problemstillingen ovenfor. Foreta deretter hypotesetesting på signifikansnivået 0,05 for å komme fram til en konklusjon. Testingen skal utføres ved hjelp av Studenfs t-test. OPPGAVE 8.12 To aksjeporteføljer har vist følgende resultater:

Portefølje 1 Antall kvartaler som dataene gjelder: 12 Gjennomsnittlig prosentvis avkastning: 13% Utvalgsstandardavviket til avkastningstallene: 4,0%

Portefølje 2 15 9,5% 3,0%

Test en hypotese som går ut på at forventet avkastning er den samme for de to porteføljene mot alternativet at portefølje 1 har høyere forven­ tet avkastning enn portefølje 2. Bruk signifikansnivået 0,05. OPPGAVE 8.13 En leverandør av matvarer til restauranter er interessert i å vite om det er noen forskjell på salget til restaurant 1 og restaurant 2. Salget i dollar for 7 tilfeldig utvalgte uker er vist nedenfor. Uke nr.

Restaurant 1

Restaurant 2

1

4100

3800

2

1800

4600

3

2200

5100

4

3400

3050

5

3100

2800

6

1100

1950

7

2200

3400

Foreta hypotesetesting på signifikansnivået 0,05.

238

OPPGAVE 8.14

Produsenten av en sportsbil påstår at brennstoff-injeksjons-systemet varer 48 måneder før det trenger å bli reparert. En bilorganisasjon tester denne påstanden ved å ta ut et tilfeldig utvalg på 10 eiere av denne bil­ typen. Bilens alder da brennstoff-injeksjons-systemet ble reparert (i måneder) var følgende:

29 46

42 30

49 51

58 42

53 62

a) Finn konfidensgrenser for forventningen til bilens alder når repara­ sjon av nevnte slag må utføres. Bruk konfidenssannsynligheten 0.99. b) Test påstanden om at brenstoff-injeksjons-systemet er nyere enn 48 måneder gammelt når det trenger reparasjon. Bruk signifikansnivået 0,05.

239

9

Testmetoder basert på kjikvadratfordelingen

9.1

Innledning

Kjikvadratfordelingen har mange anvendelser i forbindelse med hypo­ tesetesting. I dette kapitlet skal vi først vise hvorledes vi kan teste hypo­ teser om en varians eller et standardavvik. Deretter skal vi ved hjelp av eksempler beskrive bruken av noen test­ metoder som går ut på å teste hypoteser om sannsynligheter eller hypo­ teser som kan uttrykkes ved hjelp av sannsynligheter. Med det første mener vi hypoteser som går ut på at sannsynlighetene for et sett av dis­ junkte kjennetegn er lik bestemte oppgitte tall som summerer til 1. (Sannsynlighetene kan også være entydig gitt ved en formel.) Med det siste mener vi (1) Hypoteser om at en tilfeldig variabel er fordelt etter en bestemt oppgitt fordeling med en eller flere ukjente parametre eller (2) hypoteser om uavhengighet mellom kjennetegn (uavhengighetstesten) eller hypoteser om at et sett av disjunkte kjennetegn har de samme sannsynlighetene i to eller flere populasjoner (homogenitetstesten).

De hypotesene som på en eller annen måte er forbundet med sannsynligheter testes alle etter samme hovedprinsipp. Prinsippet er at observerte frekvenser Cf sammenliknes med de forventningene Ez som disse frekvensene vil ha hvis hypotesen er riktig eller med estimater Et av disse forventningene. Basert på diffe­ rensene mellom O-ene og E-ene regner vi ut verdien av en testobservator y H somler tilnærmet kjikvadratfordelt hvis hypotesen er riktig. Verdien y H av testobservatoren kan oppfattes som et mål for hvor dårlig hypotesen H stemmer overens med de observerte data. Store y H er signifikante og fører til at H forkases. 2

Testobservatoren y H som eventuelt er kjikvadratfordelt er definert på forskjellig måte for hver type hypotesetestingsproblem. Vi skal i hvert tilfelle sette opp en tabell over denne beregningen slik at man får over­ sikt over problemets struktur. Også antall frihetsgrader i kjikvadtratfordelingen kan uttrykkes ved formler eller regler som er forskjellige for 240

hver type problem. Disse formlene skal vi beskrive etter hvert. Frem­ stillingen vil bli knyttet til eksempler. Som allerede nevnt skal vi bruke O som symbol for observerte abso­ lutte frekvenser i dette kapittelet. I kapittel 2 brukte vi h (for hyppig­ het). Videre skal vi bruke E som symbol for forventede absolutte frekvenser. Dermed kommer vi også i takt med det som er mye brukt internasjonalt innenfor denne delen av statistikken. For å unngå for­ vekslinger vil vi i dette kapittelet bruke A i stedet for E for kjennetegn.

9.2

Hypoteser om en varians eller et standardavvik

I avsnitt 5.5 forklarte vi at definert ved formel (5.14) er kjikvadratfordelt med n - 1 frihetsgrader. Dette benyttet vi så i avsnitt 6.8 til å konstruere konfidensgrenser for en varians eller et standardavvik. Hvis alternativet er tosidig, kan konfidensgrensene (6.16) og (6.17) selvsagt også brukes til å teste hypoteser om g" eller om G som forklart i avsnitt 7.10. 2 2 For øvrig kan hypotesen H: G~ = g’h testes direkte med utgangs­ punkt i formel (5.14) ved at vi setter den hypotetiske verdien g~h av g" inn i formel (9.1) nedenfor. Z 1X 2 zn 2 (n - l) 8 (9-1) ZH = -----°H

Forkastningsregelen avhenger av alternativet på følgende måte:

• • •

2

2

2

2

Hvis alternativet er A: g g H så forkaster vi H hvis G H < g“|_(z/2 eller hvis g2h > G2k/2. 2 Hvis alternativet er A: g > g H så forkaster vi H hvis / H > 2 2 2 2 Hvis alternativet er A: G < g"h så forkaster vi H hvis / H < % '|-a.

9.3

Hypotetiske sannsynligheter for et sett av disjunkte kjennetegn i en enkelt populasjon. (Helspesifisert hypotese)

Vi skal først skissere et par eksempler for å vise hva testingen går ut på. Den testmetoden vi nå skal gjennomgå brukes ofte i genetikken for å teste om nedarving av kjennetegn skjer i overensstemmelse med Mendel’s lover, men har også mange andre anvendelser f.eks. innen øko­ nomi og samfunnsfag.

241

EKSEMPEL 9.1 MENDEL’S ERTEPLANTER: Når f.eks. visse typer erteplanter med lyserøde blomster krysses med hverandre, kan blomsterfargen i populasjonen av avkom fra slike krysninger enten bli A] = hvit, Å2 = lyserød eller A3 = rød. Siden det ikke er andre mulighe­ ter, utgjør disse kjennetegnene er sett av disjunkte kjennetegn, og summen av sannsynlighetene for dem er lik P(A]j + P(A?) + P(A3) = 1. Det kan nå være aktuelt å teste følgende hypotese som er avle­ det av MendeFs lover. H: P(Aj) = 1/4, P(A2) = 1/2 og P(A3) = 1/4. Legg merke til at det hadde vært nok å oppgi to av de tre sannsyn­ lighetene under H da den tredje følger av at summen av dem er lik 1. Alternativet, A til denne hypotesen er at ikke alle sannsynlighet­ ene er lik de tallene som er oppgitt under H. I praksis betyr det at minst to av de tre sannsynlighetene har andre verdier.

EKSEMPEL 9.2 TILFELDIGE TALL: I statistikken har vi ofte bruk for en tabell over tilfeldige sifre. En slik tabell kan være stor eller liten, og sifrene kan være ordnet på en hvilken som helst måte i grupper eller enkeltvis. På hver sifferplass i tabellen skal det imidlertid forekomme et siffer som kan oppfattes som en tilfeldig trekning fra en populasjon av siffer hvor hvert av de 10 sifrene 1, 2, 3, ..., 9, 0 har en sannsynlighet på 1/10 for å bli trukket ut ved hver trek­ ning. Da det ikke er andre muligheter, utgjør de 10 sifrene 1, 2, 3, ..., 9, 0 et sett av 10 disjunkte kjennetegn, A1? A2, A3, ..., A9, A]0, og summen av sannsynlighetene for å trekke dem ut fra den nevnte populasjonen ved en enkelt trekning er Hk P(Aj) + P(A2) + P(A3) + ... + P(A9) + P(A]0) = 1. Ved å stille sammen to eller flere sifre fra en slik tabell på en til­ feldig måte kan man også konstruere to- eller flersifrete tilfeldige tall. Tabeller over tilfeldige tall (sifre) brukes blant annet som et hjelpemiddel ved loddtrekning og ved uttak av et tilfeldig utvalg. I våre dager blir slike tabeller eller tallrekkefølger av ensifrete tilfeldige tall gjerne produsert av elektroniske datamaskiner. Det er da ofte aktuelt å teste om tallene virkelig produseres på en slik måte at hvert av de 10 sifrene har en sannsynlighet på 1/10 for å bli trukket ut. Den metoden vi nå skal gjennomgå kan brukes til dette.

242

Vi går nå over til det generelle problemet som skal behandles i dette avsnittet. La oss betrakte m disjunkte kjennetegn, A, (i = 1,2, ..., m). Sannsynlighetene for disse kjennetegnene er lik P(Aj) = p, (i = 1,2, ...,

m). Vi ønsker å teste en hypotese, H om at pj = Pj (i = 1, 2, ..., m) hvor r,

H

H

H

P; (i = 1,2, ..., m) er m oppgitte tall slik at pj + p2 + ... + pm ' = 1. Alternativet, A til H går ut på at pj p, for minst én i. (Men hvis en p skiller seg fra den tilsvarende hypotetiske p, må minst én til gjøre det for at summen av p-ene skal fortsette å være 1.) Alt i alt kan det være like greit å si at alternativet går ut på at ikke alle de m sannsynlighetene, PJ Pj er lik de tilsvarende hypotetisk oppgitte sannsynlighetene p{ . For å teste H skaffer vi oss et tilfeldig utvalg på n gjentak. De absolutte frekvensene for Aj betegner vi med Oj (i = 1, 2, ..., m). Vi skal nå beskrive testingen i detalj i tilknytning til et eksempel hvor m = 2. Under­ veis skal vi forsøke å gi en intuitiv begrunnelse for framgangsmåten.

EKSEMPEL 9.3 MASSEPRODUSERTE ARTIKLER: La oss ta for oss en popula­ sjon av masseproduserte artikler. Vi vil forutsette at populasjonen kan betraktes som uendelig stor. Hver enkelt artikkel som produse­ res kan klassifiseres som enten 1. klasses (Aj) eller 2. klasses (A2). Sannsynligheten for 1. klasses er P(Aj) = p,, mens sannsynlighe­ ten for 2. klasses er P(A2) = p2 Vi ønsker å teste en hypotese, H som går ut på at pj = 1/4. Hypotesen, H innebærer da selvsagt at p2 = 3/4. Den alternative hypotesen, A går ut på at p, 1/4. Dette innebærer selvsagt også at p2 3/4. Vi har skaffet oss et tilfeldig utvalg på n = 886 artikler. Av disse var det Oj = 204 med kjenne­ tegnet Aj = 1. klasses. Antallet med kjennetegnet A2 = 2. klasses må da bli lik O2 = n - Oj = 682. Hypotesen og alternativet er altså følgende: T_T

HO

H: pj = P] som her er 0,25. Dette innebærer at p2 = p2 som altså må være 0.75 siden summen er 1. A: pj P]H, altså er pj 0,25. Dette innebærer at også p2 p2 , dvs. at p2 0,75.

Vi vil bruke signifikansnivået cx = 0.05. 2 Testingsteknikken går ut på at vi regner ut en størelse /“H som rent praktisk sett kan oppfattes som et mål for hvor dårlig våre data synes å 243

stemme overens med hypotesen H. Er %2H et stort tall, forkaster vi hypotesen. Utvalgsfordelingen til testobservatoren £2H hjelper oss til å finne ut hvor stor H må være for at vi skal forkaste H på det signifi­ kansnivået vi har valt. Hvis H er riktig, er nemlig denne utvalgsforde­ lingen en kjikvadratfordeling med 1 frihetsgrad. Utregningen av %2H er meget enkel, men det kan likevel være nyttig å sette den opp i tabell­ form som vist i tabell 9.1. 2

Tabell 9.1 Utregning av /"H for testing av en hypotese om at P (1. klasses) = 1/4. (1) Kjennetegn,

Ai

1. klasses = Aj 2. klasses

(2) obser­ verte frek­ venser o,

(3) (4) (6) (5) Hypotetisk Hypotetisk Avvik i Kvad­ gitte sann­ forventede forhold til rerte synligheter frekvenser hypotesen avvik H H Ei =np. Oi - Ef (Oj-E,")2 Pi

(7) Kvadrerte relative avvik

A-e")2 E?

204

0,25

221,5

-17,5

306,25

1,3826

= a2

682

0,75

664,5

17,5

306,25

1,3826

Sum

n = 886

1,00

886,0

0

X2H= 1.8434

I vårt eksempel har vi bare to kjennetegn, A] og Å2. En tilsvarende tabell som tabell 9.1 kan imidlertid også brukes til å regne ut /2H når vi har flere enn to kjennetegn. Vi må da operere med flere linjer i tabellen. I kolonne (1) i tabell 9.1 har vi ført opp de forskjellige kjennetegn eller kvalitetsklasser som kan forekomme. Disse kategoriene må alltid være uttømmende og ikke overlappende. Enhver artikkel må altså kunne henføres til en og bare en kategori. Kolonne (2) inneholder den observerte absolutte frekvensen, Oj for kjennetegnet A, (i = 1,2, ..., m). Summen av de m O, er lik utvalgsstørrelsen, n. Kolonne (3) inneholder den hypotetiske sannsynligheten, pjH for kjennetegnet Aj (i = 1,2, ..., m). Summen av tallene i kolonne (3) må alltid være lik 1. Vi kan si at kolonne (2) beskriver vårt utvalg, mens kolonne (3) beskriver populasjonen slik den er ifølge hypotesen. I kolonne (4) har vi ført opp den hypotetiske forventningen, EjH = H

14

npj for antall artikler med kjennetegnet Aj (i = 1,2, ..., m). At np; er en forventning går fram av det faktum at O er binomisk fordelt med

244

parametre n og p/1 hvis H er riktig og hvis vi tenker oss gjentatte utvalg på n artikler fra den gitte populasjonen. (Se tabell 3.2 og avsnitt 4.3.2.) Legg merke til at summen av kolonne (4) alltid blir lik n. Kolonne (2) og (4) er altså helt sammenliknbare. Kolonne (2) gir oss den obser­ verte fordelingen av de 886 artiklene på eie to kvalitetsklassene, mens kolonne (4) gir oss forventningen for fordelingen hvis H er riktig, dvs. den fordelingen vi ville få i «gjennomsnitt» for en uendelighet av utvalg, alle på n = 886 artikler, hvis H er riktig. En testing av hypotesen vil derfor kunne foretas ved å sammenlikne kolonne (2) og kolonne (4). Det ville f.eks. ikke være unaturlig å se på differensene mellom disse kolonnene. Dette er gjort i kolonne (5). Hvis hypotesen, H synes å stemme dårlig overens med våre data, vil avvikene mellom observert og hypotetisk forventet resultat i kolonne (5) bli store. En nærliggende første tanke kunne derfor være å summere disse avvikene og å bruke summen som et mål for hvor dårlig hypotesen synes å stemme med våre data. Denne summen vil imidlertid alltid bli lik 0. Hvis det blir for mange artikler i en kategori i forhold til det hypotetisk forventede antal­ let, vil det nemlig alltid bli et tilsvarende antall for få i de øvrige kate­ gorier. For å fjerne dette fortegnsproblemet, kunne vi kvadrere avvikene som vist i kolonne (6). Men heller ikke summen av tallene i kolonne (6) er noe godt mål for hypotesens tilsynelatende «dårlighet». I første linje i tabell 9.1 ser vi f.eks. at O. - E H = -17,50, mens E; =221,5. Avviket H 1 på -17,5 er kanskje ikke særlig stort, men hvis Ej hadde vært f.eks. 20, ville de fleste av oss ha sagt at et avvik på -17,5 er stort. Det er altså rimelig å se avvikene, og dermed også de kvadrerte avvikene, i forhold til det hypotetisk forventede resultat, E, . Dette er gjort i kolonne (7), hvor vi har dividert tallene i kolonne (6) med Ej . Summen av tallene i kolonne (7) er det søkte tallet x H. Dette vil selvsagt alltid være positivt, men kan ellers ha en hvilken som helst verdi. Hypotesen, H kan tenkes å være riktig. uansett hvor stort tallet /2h er. Men det skulle være klart at et^stort /"h gir oss større grunn til skepsis overfor hypotesen enn et lite /"H. (Hvis er et tall meget nær 0, kan det være grunn til mistanke om regnefeil, falske data, e.l., men vi ser bort fra slike ting her.) Spørsmålet er nå hvor stort må være for at vi skal bestemme oss for å forkaste hypotesen. Kjikvadratfordelingen gir oss et hjelpemiddel til å avgjøre dette. Under forutsetning om at hypotesen H er riktig, kan det nemlig bevises at tallet /2H = 1,8434 som vi har regnet ut er en verdi av en tilfeldig variabel x h som er tilnærmet fordelt etter kjikvadratfor­ delingen.

245

MHnMnHMHHMaBnHHMIMMHBMHBnMMaBMHanBMMMBHH

SETNING 9.1 I den type problemer vi har å gjøre med i dette avsnittet blir antall frihetsgrader i fordelingen til testobservatoren /"H bestemt etter formel (9.2). Her er m lik antall observerte frekvenser som er brukt ved utregningen av observatoren, dvs. antall linjer i tabellen utenom tabellhodet og sumlinjen. (9.2) d.f. - v - m - 1

I eksempel 9.3 er d.f. = m - 1 = 2 - 1 - 1. Siden vi har bestemt oss for å bruke signifikansnivået cx = 0.05, finner vi i tabell III at den kritiske verdien av /2H er %2a = X2o.o5 = 3,841. Siden tallet /2H = 1,8434 som vi har regnet ut er mindre enn den kritiske verdien 3,841, kan vi ikke forkaste hypotesen H. De observerte frekven­ sene synes altså å være forenlige med hypotesen.

Prinsippene for den testingen vi nå har gjennomgått svarer helt til det vi gjennomgikk i kapitel 7 og 8 i tilknytning til Studenfs t-fordelingen. Hvis H er riktig, er fordelt etter kjikvadratfordelingen med 1 fri­ hetsgrad, dvs. en fordeling som har relativt store funksjonsverdier litt til høyre for 0 og en lang «hale» enda lengre til høyre. Hvis et av alternati­ vene til H er riktig, kan det vises at x"H følger en annen fordeling som er forskjøvet mer til høyre i forhold til kjikvadratfordelingen. Den har altså mer areal og større sannsynligheter lengre til høyre. Det er derfor naturlig å forkaste H hvis % H er stort, dvs. større enn / a. 2

La oss til slutt ta med et lite forbehold. x~H er bare tilnærmet kji­ kvadratfordelt også hvis H er riktig. Tilnærmelsen blir gjerne ansett for å være god nok så lenge alle tallene EjH er minst lik 5. Et tilsvarende krav gjelder også for de øvrige kjikvadrattestene vi skal beskrive i resten av dette kapitlet. Hvis kravet ikke er oppfylt, kan vi bøte på dette ved å slå sammen visse kjennetegn og beregne et nytt £"H på grunnlag av et mindre antall kategorier. I en situasjon hvor vi også har tredje- og fjerdeklasses kvalitet kan vi f.eks. slå disse sammen til «dårlig kvalitet» slik at m blir 3 i stedet for 4. Vi må da også bruke m - 3 når vi skal bestemme d.f.

246

Den metodikken vi har gjennomgått i dette avsnittet kan også bru­ kes til å teste en hypotese om at en tilfeldig variabel X er fordelt etter en oppgitt fordeling fH(X) med kjente parametre. Hvis X er diskret, kan de mulige verdiene Xj av X da betraktes som kvanti­ tative kjennetegn Aj? og funksjonsverdiene fH(Xj) som kan bereg­ nes av den hypotetiske oppgitte sannsynlighetsfunksjonen med de oppgitte parametrene blir å sammenlikne med de hypotetisk gitte sannsynlighetene PjH i tabell 9.1. Den eneste vesentlige forskjel­ len i forhold til det vi har gjennomgått tidligere er altså at de hypotetiske sannsynlighetene Pj ikke er gitt direkte, men indi­ rekte gjennom en sannsynlighetsfunksjon, fH(X). Hvis X er kontinuerlig, blir prinsippet det samme, men vi må da operere med klasser for verdiene av X. Det at X får en verdi i klasse nr. i er da å oppfatte som et kjennetegn, Aj. Videre må vi for hver klasse beregne den hypotetiske sannsynligheten, Pj for at X skal falle i denne klassen. Denne sannsynligheten beregnes som et areal.

I neste avsnitt skal vi behandle en problemtype som minner sterkt om det nærmest foregående. Det er imidlertid en viktig forskjell, nemlig at parameterne i den hypotetisk gitte fordelingen ikke er spesifisert i hypo­ tesen, H. Dette får betydning når antall frihetsgrader i fordelingen til X’H skal bestemmes.

9.4

En hypotese om at en tilfeldig variabel følger en hypotetisk gitt fordeling med ukjente parametre. (Delvis spesifisert hypotese)

Også denne testmetoden vil vi beskrive i tilknytning til et eksempel.

EKSEMPEL 9.4 En viss mengde blod fra en pasient ble fortynnet et bestemt antall ganger. Fra dette fortynnede blodet ble det tatt et tilfeldig utvalg på n = 100 blodprøver, hver bestående av 1 milliliter. Antall røde blodlegemer i en slik tilfeldig milliliter er en tilfeldig variabel X. Ved å telle antall røde blodlegemer i hver av de 100 blodprøvene fant man den frekvensfordelingen som er vist nedenfor. Vi ønsker å teste en hypotese om at X er fordelt etter Poisson’s sannsynlig­ hetsfunksjon med ukjent parameter. 247

Observerte verdier, X: Observerte frekvenser, O:

0 6

12 16 24

3 22

4 23

5 6

6 2

7 1

En måte å gå fram på er å sammenlikne de relative frekvensene i utval­ get med de tilsvarende sannsynlighetene som kan regnes ut ved hjelp av Poisson’s sannsynlighetsfunksjon. For å kunne regne ut sannsynlighet­ ene må vi ha et tall for parameteren X. Denne kan estimeres ved å sette T = X. Problemet er imidlertid at vi ikke vet hvor god overensstemmelsen mellom de relative frekvensene og de tilsvarende sannsynlighetene må være for å kunne karakteriseres som tilfredsstillende. På grunn av utvalgsvariasjon vil det nemlig være en viss uoverensstemmelse selv om hypotesen er riktig. Dette problemet skal vi løse nå. Vi setter altså opp følgende hypotese og alternativ: H: X er Poissonfordelt. med parameter X som er ukjent. A: X er ikke Poissonfordelt. Vi velger å bruke signifikansnivået 0,05. Det kan bevises at hypotesen H kan testes ved at man regner ut et tall X~H på en måte som tilsvarer det vi gjorde i tabell 9.1. Utregningen er vist i tabell 9.2.

Tabell 9.2 Utregning av testobservatoren for testing av en hypotese om at antall røde blodlegemer i en tilfeldig blodprøve følger Poisson­ fordelingen. (2) (3) (1) Verdier av observerte Sannsynlig­ x, frekvenser heter X = Xj estimert ut o. fra H f H(x,) = p jH

(5) (4) (6) (7) Estimerte Estimerte Kolonne Kolonne (6g hypotetisk avvik i dividert med És (5) forventede forhold til kvadrert (orÉrj frekvenser hypotesen (Oj-É”)2 AH ~ H Oj-É» Ei = nPi

É?

0

6

0,0665

6,65

-0,65

0,4225

0,0635

1

16

0,1803

18,03

-2,03

4,1209

0,2286

2

24

0,2443

24,43

-0,43

0,1849

0,0076

3

22

0,2207

22,70

-0,07

0,0049

0,0002

4

23

0,1495

14,95

-8,05

64,8025

4,3346

5

6

0,0810

8,10

-2,10

4,4100

0,5444

6 og større

3

0,0577

5,77

-2,77

7,6729

1,3298

Sum

n= 100

1,0000

100,00

0



X2h = 6,5087

248

ZK

Ho

Tallene fH(Xj) = pj på de 6 første linjene i kolonne (3) i tabell 9.2 er

estimater av tallene f (X) =

- . De er beregnet ved å sette Z = X =

2,71. For å markere at det dreier seg om estimater, har vi brukt hatt Celler møne) over f og over p. Videre er det ikke en gang sikkert at Pois­ sonfordelingen gjelder i det hele tatt. For å markere dette, har vi merket både funksjonssymbolet f og sannsynlighetssymbolet p med H. Tallet 0,0577 på siste linje i kolonne (3) er funnet ved å trekke sum­ men av tallene ovenfor fra 1.

Legg merke til at man i slike oppgaver alltid må sørge for å få med sannsynlighetene i «halen» av fordelingen, slik at summen av tallene i kolonne (3) blir nøyaktig lik 1.

SETNING 9.2 I den type problemer vi har å gjøre med i dette avsnittet blir antall frihetsgrader i fordelingen til testobservatoren /"H bestemt etter formel (9.3). Her er m lik antall observerte frekvenser som er brukt ved utregningen av observatoren. Dvs. antall linjer i tabel­ len utenom tabellhodet og sumlinjen. Tallet c er lik antall parame­ tre i den hypotetiske fordelingen som vi har måttet estimere ved hjelp av observasjonene i utvalget. (9.3) d.f. = v = m - 1 - c Antall frihetsgrader bestemmes altså etter formel (9.3) som likner på formel (9.2). Her er m som før antall linjer i tabellen, dvs. antall kjenne­ tegn eller antall X-kategorier eller antall frekvenser eller antall klasser som er brukt. Legg merke til at vi skal telle antall linjer i tabellen etter at vi eventuelt har slått sammen visse kjennetegn eller kategorier for å oppnå at hver enkelt av de estimerte hypotetiske forventningene blir minst lik 5. I vårt tilfelle har vi slått sammen de tre linjene som svarer til X - 6, X = 7 og X > 7. Videre er c lik antall uavhengige parametre i den hypotetiske fordelingen som vi har måttet estimere ved hjelp av observasjonene i utvalget, (p og q i binomialfordelingen er ikke uav­ hengige parametre da q = 1 - p. Vi skal derfor telle bare en av dem.) 249

I eksempel 9.4 har vi måttet estimere 1 ukjent parameter, nemlig X. Følgelig er c - 1 og d.f. = m-l-c = 7- l- l=5. Siden vi har valt signifikansnivået a = 0,05, finner vi i tabell III at X2Oo5^) = 11,070. Det beregnede er altså ikke signifikant på signifikans­ nivået 0,05. Hypotesen om at antall røde blodlegemer i en tilfeldig prøve følger Poissonfordelingen (i hele populasjonen av slike prø­ ver) kan altså ikke forkastes. Konklusjonen blir da at vi kan bruke denne fordelingen som en beskrivelse.

Som nevnt er det også ved denne type kjikvadrattest et krav at de fre­ kvensene vi sammenlikner de observerte frekvensene med (i dette tilelle de estimerte forventede hypotetiske frekvensene Ej ) minst skal være lik 5. I tabell 9.2 er den minste verdien av ÉjH lik 5.77. Hvis vi ikke hadde slått sammen alle X-verdier fra 6 og oppover, ville imidler­ tid Ej ha blitt mindre enn 5 for disse verdiene. Testmetoden som er beskrevet her kan også brukes når vi har å gjøre med en kontinuerlig tilfeldig variabel. I slike tilfelle vil tallene i kolonne (1) i tabell (9.2) ikke bestå av X-verdier, men av intervaller (klasser) for X-verdiene. Sannsynlighetene PjH vil være arealer som vi kan beregne ved integrering eller ved numeriske metoder. Hvis det dreier seg om en normalfordeling kan vi bruke tabell I.

9.5

En hypotese om uavhengighet mellom kjennetegn eller likhet mellom sannsynligheter i forskjellige populasjoner

9.5.1

En hypotese om uavhengighet mellom kjennetegn (uavhengighetstesten)

Også, denne testmetoden vil vi gjennomgå ved hjelp av et eksempel.

EKSEMPEL 9.5 Det ble trukket et tilfeldig utvalg på n = 1000 personer fra en populasjon, L av voksne personer. Gjentakene i utvalget ble klassi­ fisert etter kjønn og etter om de var farveblinde eller ikke, som vist i tabell 9.3. (Se bort fra tallene i parentes foreløpig.) Vi ønsker å teste en hypotese om at det er uavhengighet mellom kjønn og farveblindhet.

250

Tabell 9.3 Klassifisering av 1000 tilfeldige personer etter kjønn og eventuell farveblindhet. F' = ikke farveblind

F = farveblind

Sum

M = mann

442 (458.88)

38 (21,12)

480

M' = kvinne

514 (497,12)

6 (22,88)

520

Sum

956 (956,00)

44 (44,00)

1000

Vi setter nå opp følgende hypotese og alternativ: H: F og M er uavhengige kjennetegn (se oppgave 3.3). A: F og M er avhengige kjennetegn.

Vi velger å bruke signifikansnivået 0,05. Det kan vises at vi får en tilnærmet riktig test ved å regne ut en stør­ relse %2h på liknende måte som i de to foregående avsnitt. Her som i forrige avsnitt bygger tallet på differensene mellom de observerte fre­ kvensene og estimater av de tilsvarende forventningene for frekvensene gitt at H er riktig. De sistnevnte vil vi som tidligere betegne som esti­ merte forventede frekvenser. Som observerte frekvenser, Oj bruker vi de 4 tallene O|=442, O - 38, O3 = 514 og O4 = 6 som vi finner inne i tabell 9.3. Rekke­ følgen som vi har gitt disse frekvensene er vilkårlig. De tilsvarende estimerte forventede frekvensene Ej = npi finner vi etter formel (9.4) som beskrevet i setning 9.3:

SETNING 9.3 I den type problemer vi har å gjøre med i dette avsnittet tar vi utgangpunkt i en tabell over observerte frekvenser tilsvarende tabell 9.3. Tabellen kan ha et vilkårlig antall linjer og et vilkårlig antall kolonner. Vi finner da de estimerte forventede frekvensene etter formel (9.4) hvor summene refererer til tabellen.

. p p , hniesum • kolonnesum (9.4) Estimert forventet frekvens = — ------- ;---------------totalsum

251

/\ JJ[

For eksempel 9.5 finner vi f.eks. at Ej som svarer til Oj = 442 er lik linjesummen 480 for den linjen som 442 står på, multiplisert med kolonnesummen 956 i den kolonnensom 442 står i, dividert med totalsummen i tabellen som er 1000, altså Ej = (480 • 956)/ 1000 = 458,88. Dette tallet er føyd til i parentes i samme celle i tabellen hvor O, = 442 står. På tilsvarende måte kan vi finne É0H, H H • 1 E3 og E4 (gjør dette som en øvelse!). Men disse tre frekvensene kan også finnes ved subtraksjon, da alle summene i tabellen skal gjelde ikke bare for de observerte, men også for de estimerte for­ ventede frekvensene.

Begrunnelsen for formel (9.4) kan gis på følgende måte: La oss f.eks. betrakte kjennetegnet (F n M). Hvis H er riktig, slik at det er uavhen­ gighet mellom F og M, har vi ifølge definisjon 3.5 at P(F n M) = P(F)P(M). På grunnlag av tabell 9.3 (som bare omfatter et utvalg) finner vi følgende estimater av de to sistnevnte sannsynlighetene (estimatene betegner vi med samme symbol som sannsynlighetene, men med en «hatt» over P-en): P(F) = 44/1000. P(M) = 480/1000. Den estimerte sannsynligheten for at en tilfeldig person som trekkes ut er en farveblind mann finner vi ved å multiplisere disse to estimatene med hveran­ dre. Hvis vi videre multipliserer dette produktet med 1000, finner vi det estimerte forventede antall personer som er farveblinde menn i et tilfel­ dig utvalg på 1000 personer forutsatt at H er riktig. (Tenk gjennom hvorledes dette kan begrunnes ut fra at forventningen i en binomialfordeling er lik np!) Dette tallet er imidlertid nettopp det som er gitt ved . (9.4) Resultatet blir tilsvarende for de øvrige tre cellene i tabell 9.3. Utregningen av / H for eksempel 9.5 er vist i tabell 9.4. Tabell 9.4 Utregning av testobservatoren for eksemplet i tabell 9.3.

Oi

252

-H 2 (Oj-Ej)

É,H

Oi - É,H

(O, - É”)2

442

458,88

-16,88

284,9344

0,6209

38

21,12

16,88

284,9344

13,4912

514

497,12

16,88

284,9344

0,5732

6

22,88

-16,88

284,9344

12,4534

1000

1000,00

0



X2h = 27,1387

»H Ei

2

Utregningen av / H skulle ikke trenge nærmere kommentar. Også i dette tilfelle er det slik at et stort % H gjør oss mistenksomme overfor hypotesen H. Et stort /"H er nemlig et tegn på at de observerte frekven­ sene avviker mye fra de estimatene av forventningene til frekvensene som vi har funnet ved å forutsette at H er riktig. En annen måte å si det samme på er at et stort er et uttrykk for at de observerte frekvensene i tabell 9.3 avviker sterkt fra å være proporsjonale. I en tilsvarende tabell som omfatter hele populasjonen skal vi nemlig ha slik proporsjonalitet hvis det er uavhengighet (se oppgave 3.3 c). Legg merke til at hvis vi ser på de estimerte forventede frekvensene (i parentes) i tabell 9.3 så er linjene proporsjonale. Vi finner f.eks. at 497,12 : 458,88 = 22,88 : 21,12 = 520 : 480 = 1.0833. Det skulle være klart at jo mer de nevnte linjene (observerte frekven­ ser) avviker fra å være proporsjonale, desto dårligere kan vi si at våre data synes å stemme overens med hypotesen, H. Hvor stort /2H må være for at vi skal forkaste H, blir avgjort ut fra tabell III. Det kan nemlig vises at under forutsetning av at H er riktig, er tallet x“h en verdi av en tilfeldig variabel £ H som er tilnærmet fordelt etter kjikvadratfordelingen med et antall frihetsgrader som er forklart nedenfor. Tabell 9.3 kan kalles en 2 ganger 2 tabell fordi den består av 2 linjer og 2 kolonner når vi ser bort fra sumlinjen og sumkolonnen.

SETNING 9.4 Den metodikken vi nå har gjennomgått, kan også brukes på tilsva­ rende problemer hvor vi har flere linjer og/eller kolonner. Hypote­ sen, H går da ut på at det er uavhengighet mellom alle mulige kombinasjoner av kjennetegn når man tar et kjennetegn fra forspalten og et kjennetegn fra hodet i tabellen. Alternativet A til H går ut på at dette ikke er tilfelle. De estimerte forventede frekven­ sene kan beregnes ved hjelp av formel (9.4) som før. I alle oppga­ ver av denne typen kan antall frihetsgrader bestemmes etter formel (9.5) idet vi viser til en tabell over observasjonene tilsva­ rende tabell 9.3 i eksempel 9.5:

(9.5) d.f.= v = (antall linjer - 1) • (antall kolonner - 1)

For eksempel 9.5 får vi at d.f. = (2 - 1) (2 - 1) = 1. Siden vi har valt signifikansnivået a = 0,05, finner vi i tabell III at x"0,05(l) = 3,841. Vårt x“H som er lik 27,139 er derfor signifikant, og H må følgelig

253

forkastes. Av den opprinnelige dataoppstillingen trekker vi da den konklusjonen at det er relativt flest farveblinde blant mennene.

Også ved denne typen kjikvadrattest må mein stille det krav at alle de estimerte hypotetiske forventede frekvensene, Et skal være minst lik 5. Den beregningsmåten for som er vist i dette avsnittet er nok ikke den enklest mulige, men den har den fordelen at den bygger på det samme grunnskjemaet som vi brukte i tabell 9.1 og 9.2 og samtidig gir et innblikk i hva gir uttrykk for. I våre dager vil man som regel bruke ferdige dataprogrammer ved utregningen i forbindelse med stan­ dard testmetoder som f.eks. t-tester og kjikvadrattester. Vi har derfor lagt mer vekt på forståelse enn på lett utregning.

9.5.2

Likhet mellom sannsynligheter i forskjellige populasjoner

Vi skal se på en testsituasjon som leder til nøyaktig samme testmetode og beregninger som beskrevet i avsnitt 9.5.1, men hvor dataene tenkes framkommet på en annen måte, slik at også hypotesen bør formuleres litt annerledes. Tallene i tabell 9.3 var tenkt framkommet ved at et tilfeldig utvalg på 1000 personer ble trukket fra en populasjon som besto av både menn og kvinner. Tenker vi oss gjentatte utvalg på 1000 personer, vil altså både linjesummene og kolonnesummene i tabell 9.3 variere fra utvalg til utvalg. Bare tallet 1000 vil nødvendigvis forbli konstant. Innen fagom­ rådet kategorisk dataanalyse, som omfatter bl.a. slike kjikvadrattester, sier man da at både kjønn og den aktuelle egenskapen ved synet er avhengige variabler. La oss nå se på en annen måte som tallene i tabell 10 kunne ha fram­ kommet på. Anta at vi hadde tatt et tilfeldig utvalg på 480 menn og et annet tilfeldig utvalg på 520 kvinner. Hvis vi nå tenker på gjentatte utvalg, må vi forestille oss to delpopulasjoner, en som består av menn, og en som består av kvinner. Fra den første delpopulasjonen tar vi gjen­ tatte utvalg på 480 menn, og fra den andre tar vi gjentatte utvalg på 520 kvinner.Ved gjentatte utvalg vil altså hele kolonnen til høyre i tabell 9.4 forbli konstant, mens de øvrige tallene i tabellen vil variere.Hvis vi nå ønsker å estimere f.eks. sannsynligheten for mann, P(M), vil estimatet bli 480/1000 = 0,48 hele tiden uten noen utvalgsvariasjon. Innen kate­ gorisk dataanalyse vil man da si at kjønn er en uavhengig variabel, mens den aktuelle egenskapen ved synet er en avhengig variabel. I en slik situasjon vil tallet 0,48 ikke være noe egentlig estimat av P(M), da det er bestemt av våre (vilkårlige) utvalgsstørrelser på 480 og

254

520. Selv om vår hypotese H nå, som i avsnitt 9.5.1 går ut på det samme, nemlig at det ikke er noen sammenheng mellom kjønn og farveblindhet, er det nå naturlig å unngå å operere med M og M' som kjennetegn som har sannsynligheter. Vi formulerer derfor hypotesetestingsproblemet på følgende måte:

H: P(F I M) = P(F I M'). Dette innebærer også at P(F'IM) = P(F'IM') A: P(F I M) P(F'IM')

P(F I M'). Dette innebærer også at P(F'IM)

Vi betrakter nå symbolene M og M' ikke først og fremst som symboler for kjennetegn, men som symboler for delpopulasjoner. Hvis vi har flere linjer og/eller kolonner i den opprinnelige tabellen (tilsvarende tabell 9.3) blir formuleringen tilsvarende. Hypotesen går ut på at det er likhet mellom sannsynlighetene for de samme kjennetegnene i de for­ skjellige populasjonene, mens alternativet går ut på at det finnes for­ skjeller i sannsynlighetene. Dette avsnittet er tatt med for fullstendighetens skyld, men er ikke av de viktigste, da utregningen av og bestemmelsen av antall frihets­ grader blir nøyaktig slik som beskrevet i avsnitt 9.5.1. På liknende måte som vi begrunnet formel (9.4) i forrige avsnitt, er det lett å gi en tilsva­ rende intuitiv begrunnelse ut fra den nye formuleringen av H.

9.6

Samsvar mellom kjikvadrattester og noen andre testmetoder

La oss løse hypotesetestingsproblemet i avsnitt 9.3 (tabell 9.1) på en annen måte. I et tilfeldig utvalg på n - 886 artikler fant man Oj - X = 204 artikler med kjennetegnet Aj - 1. klasses. Vi setter P(Aj) = p og skal teste en hypotese, H om at p = pH = 0,25 mot et alternativ A som går ut på at p Ph = 0,25. Hvis vi tenker oss gjentatte utvalg av størrelse n - 886 fra den samme populasjonen, får vi å gjøre med en tilfeldig variabel X. Tallet X = 204 er en verdi av denne. Hvis vi tenker oss at populasjonen er uendelig, skulle det være klart at X er binomisk fordelt med parametre n og p hvor n = 886 og p er ukjent. Forventningen til X er E(X) = lt =

np = 886p og standardavviket er o = Tvar(X) = 7np (1 — p)

-

7886p (1 - p) . 255

La oss i det følgende inntil videre forutsette at H er riktig og se hva det leder til. Forventningen til X blir da lik pH = npH = 886 • 0,25 = 221,5. Standardavviket til X blir gh = ^np^j (1 - pH) = 7886 • 0,25 • 0,75 = 12,889. Siden np > 5 er X tilnærmet N(0, r). Men da blir ZH tilnær2 o met N(0, 1 ) når vi setter:

(9.6) ZH = —

eller

ZH= —

Hvis H ikke er riktig, vil ZH ha en fordeling hvor mer av arealet er for­ skjøvet enten til høyre eller til venstre i forhold til den standardiserte normalfordelingen. Dette leder til følgende forkastningsregel for H på signifikansnivået a = 0,05: Forkast H hvis ZH> 1,96 eller hvis ZH < -1,96. Ved å bruke formelen lengst til høyre i (9.6) og de tallene vi har kommet fram til tidligere, får vi da det resultatet som er vist i (9.7):

(9.7) ZH

X-gH _ 204-221,5 = -1,3577 gh 12,889

Siden tallet ZH ikke er mindre enn -1,96 (og selvfølgelig heller ikke større enn 1,96), kan hypotesen H ikke forkastes på signifikansnivået 0,05. La oss se hvilket samsvar det er mellom denne metoden og kjikvadratmetoden. Det vi gjorde nå var å sammenlikne tallet -1,3577 med tallet -1,96. Hvis vi kvadrerer hvert av disse tallene, får vi imidlertid 1.8433 og 3^842 som svarer ganske nøyaktig til de to tallene % H = 1.8434 og X oosH) ~ 3,841 som vi sammenliknet da vi brukte kjikvadratmetoden. De to metodene går altså ut på det samme. Legg for øvrig merke til at kravet om at np skal være minst lik 5 går igjen ved begge metoder. Det kan vises generelt at når vi kvadrerer en standardisert normalt fordelt tilfeldig variabel, får vi en tilfeldig variabel som er for­ delt etter kjikvadratfordelingen med 1 frihetsgrad (se setning 5.12). Det kan være verd å merke seg følgende: Når testingen i vårt eksempel baseres på bruk av ZH, får vi et kritisk område i hver «hale» av normalfordelingen («to-haletest»). Bruker vi derimot som testobservator, får vi bare ett kritisk område i den høyre «halen» av kjikva­ dratfordelingen («en-haletest»). I dette eksemplet med m = 2 kan imidlertid alternativet i begge tilfelle sies å være to-sidig.

256

At vi har tosidig alternativ betyr ikke alltid at vi må bruke tohaletest.

Hypotesetestingsproblemet i eksempel 9.3 kan løses på i alt 3 måter som er behandlet i denne boka. Foruten å bruke kjikvadratmetoden, eller metoden basert på ZH, kunne vi ha beregnet konfi­ densgrenser etter formelen (6.20) eller (6.21) som forklart i avsnitt 7.10. Den sistnevnte metoden såvel som kjikvadratmetoden kan bare brukes direkte når alternativet er tosidig, mens meto­ den som gjør bruk av ZH kan brukes også når alternativet er ensidig.

En fordel med kjikvadratmetoden er at den kan brukes også når m > 2. Når vi har to populasjoner og to kjennetegn er del lett å vise ved hjelp av formler som er behandlet i kapittel 12 at også kjikvadrattesten som er behandlet i avsnitt 9.5.2 har sin parallell basert på normalforde­ lingen. Igjen finner vi altså at Z2H = /"H. Normalfordelingsmetoden er aktuell når alternativet til H er ensidig. Imidlertid kan man i slike til­ felle oppnå det samme ved å bruke kjikvadrattest og et signifikansnivå som er det dobbelte av det man egentlig hadde tenkt å bruke. Men er man opptatt av å finne konfidensintervall, er man nødt til å ty til normal­ fordelingen og resultatene som er behandlet i kapittel 12. Vi vil imidler­ tid ikke komme mer inn på dette i denne boka.

9.7

Yates’ kontinuitetskorreksjon

Vi har nevnt tidligere at våre testmetoder basert påkjikvadratfordelin­ gen ikke er eksakt riktige. Av og til kan vi få en bedre tilnærmelse til det korrekte hvis vi benytter det som kalles Yates’ kontinuitetskorreksjon. Det er ikke alltid at korreksjonen er nødvendig eller gir så store utslag. Yates’ kontinuitetskorreksjon anbefales i hvert fall brukt hvis antall frihetsgrader er lik 1, og hvis det beregnede er (så vidt) signifikant.

Korreksjonen er meget enkel og utføre. 257

2

Med utgangspunkt i våre tabeller over beregningen av %_H (tabell 9.1, 9.2 og 9.4) kan Yates’ kontinuitetskorreksjon beskrives slik: Det nye kommer inn i kolonne (5) i tabell 9.1 og 9.2 og kolonne 3 i tabell 9.4, dvs. der hvor vi har differensene mellom observerte og (estimerte) forventede frekvenser. I disse kolonnene bytter vi nå ut tallene med nye tall som fremkommer av de gamle på føl­ gende måte: 1) Vi ser bort fra alle minus. 2) Vi trekker 0,5 fra alle tall. Deretter fortsetter vi beregningen på vanlig måte.

I tabell 9.5 nedenfor har vi demonstrert korreksjonen med utgangspunkt i tabell 9.1. Tabell 9.5 Utregning av korrigert

2

H for eksemplet i tabell 9.1. 2

Oi - E*

(IOj - EjHl - 0,5) = a.

2 ai

nPi

-17,5

17

289

1,3047

17,5

17

289

0,4349 Korrigert / H - 1,7396

2

Da det korrigerte alltid blir mindre enn det ukorrigerte, er det ingen grunn til å korrigere hvis det ukorrigerte ikke er signifi­ kant. Korrigeringen vil jo i så fall ikke kunne påvirke konklusjo­ nen i noe tilfelle. (Vi forutsetter her at signifikansnivået velges på forhånd.)

Yates’ korreksjon svarer til den korreksjonen på 1/2 enhet som bør fore­ tas i en rekke problemer hvor normalfordelingen brukes. (Se oppgave 4.24 og 4.25.) I vår beregning av ZH i formel (9.7) ville det ha vært riktigere å bruke 204,5 i stedet for 204 for X. Grunnen til dette er at verdien 204 for en diskret (binomisk fordelt) variabel svarer til et intervall fra 203,5 til 204,5 for en kontinuerlig (normalt fordelt) variabel. Hvis vi tenker oss at vi utfører testingen ved hjelp av X i stedet for å bruke Z, må vi altså

258

spørre om intervallet fra 203,5 til 204,5 ligger i det kritiske området for X. Det aktuelle kritiske området finner til venstre i fordelingen, siden 204 er mindre enn forventningen npH = 221,5. Derfor må hele interval­ let ligge til venstre for den kritiske verdien av X for at tallet X = 204 skal være signifikant. Men hvis 204,5 ligger tilstrekkelig langt til ven­ stre, vil hele intervallet ligge tilstrekkelig langt til venstre. Følgelig vil det være korrekt å bruke tallet 204,5. Betraktninger av denne typen er ofte aktuelle, og vi vil se flere eksempler på denslags i kapittel 14. Vi har gjennomført testingen ved å bruke Z i stedet for X, men resonne­ mentet blir det samme. Spørsmålet er altså om ZH ligger til venstre for den kritiske verdien av Z som er Z0975 = -Z0 025 = -1,96. Før vi under­ søker dette vil vi minne om at dersom 204 hadde vært større enn forventningen, ville det blitt spørsmål om signifikant ZH i den høyre del av «Z-fordelingen», og vi måtte ha brukt tallet 203,5 i stedet for 204,5 for X. Hvis vi regner ut ZH med X - 204,5 i vårt eksempel, får vi: X - Fh 204 5 -221 5 (9.8) Korrigert ZH = ----- - =-1,3190 C5*

i

Dette tallet skal sammenliknes med -1,96 og er altså ikke signifi­ kant. Hvis vi kvadrerer det korrigerte ZH, får vi (—1,3190)“ = 1,7398 som er tilnærmet lik det korrigerte / H som er lik 1,7396. Differensen skyldes avrundingsfeil. Yates’ kontinuitetskorreksjon svarer altså til kontinuitetskorreksjonen på 1/2 enhet som kan være aktuell når vi bruker normalfordelingen som en erstatning for binomialfordelingen.

OPPGAVE 9.1 Se på formel (9.1) (tegn om nødvendig også figur) og gjennomgå det resonnementet som må til for å begrunne forkastningsreglene (1) - (3) i teksten under formelen. OPPGAVE 9.2 Bruk tallene i oppgave 6.3 og test en hypotese om at G = 50 kg mot alternativet at o 50 kg.

OPPGAVE 9.3 Bruk tallene i oppgave 6.4 og test en hypotese om at o" =100 mot alter­ nativet at o- < 100. 259

OPPGAVE 9.4

Bruk tallene i oppgave 6.5 og test en hypotese om at o = 5 mot alterna­ tivet at o < 5. OPPGAVE 9.5 Et tilfeldig utvalg på 100 avkom etter en krysning mellom erteplanter med lyserøde blomster besto av 32 planter med hvite, 46 planter med lyserøde og 22 planter med røde blomster. Test en hypotese som går ut på at sannsynlighetene for henholdsvis hvit, lyserød og rød blomsterfarve hos avkom etter slike krysninger er lik 1/4, 1/2 og 1/4. Bruk signi­ fikansnivået 0,05. (Svar: /"H = 2,640. d.f. = 2. /2005(2) = 5,991. H kan ikke forkastes.)

OPPGAVE 9.6 Av 64 avkom etter en bestemt krysning mellom marsvin var 34 røde, 10 svarte og 20 hvite. En genetisk modell går ut på at antall avkom med rød, svart og hvit farve etter slike krysninger skal forekomme i forhol­ det 9:3:4 (og at ingen andre farver er mulige). Still opp en statistisk hypotese for å teste denne modellen og foreta testing på signifikans­ nivået a = 0,05. Forklar med et par setninger hva resultatet betyr. (Svar: %2H = 1,444. d.f = 2. Hypotesen om at modellen gjelder godtas.) OPPGAVE 9.7 Ved hjelp av et EDB-program ble det generert 1000 ensifrete tilfeldige tall. Frekvensfordelingen ble følgende: Siffer

Frekvens

0

1

2

3

4

5

6

7

8

9

112

107

98

80

103

79

104

100

107

110

Foreta hypotesetesting på signifikansnivået 0,05 for å finne ut om det kan sies at programmet genererer alle sifrene med samme sannsynlighet. (Svar: / H = 12,120. d.f. = 9. % 0 05(9) = 16,919. H kan ikke forkastes.) OPPGAVE 9.8 Antall maskiner av en bestemt type som ble solgt fra en maskinforret­ ning i en 10-ukers periode var følgende: 10

8

20

2

14

10

15

6

9

4

Undersøk om det kan sies at den variasjonen i salget som har forekom­ met fra uke til uke kan sies å være tilfeldig, eller om det kan sies å ha vært en sesongbevegelse i salget i denne perioden. Bruk signifikansni-

260

vået 0,05. (Svar: %2H = 26,690. d.f. = 9. X20,05(9) = 16,919. Hypotesen, H om fravær av sesongbevegelse må forkastes.)

OPPGAVE 9.9 Anta at man i et tilfeldig utvalg på n = 200 tvillingpar fant følgende fre­ kvensfordeling for X = antall gutter: X: h:

0 80

1 70

2 50

Test en hypotese som går ut på at sannsynlighetsfunksjonen for X er gitt ved formel (4.13) i oppgave 4.3. Bruk signifikansnivået 0,05. (Svar: /2H= 9,584. d.f. = 2. x20 05 (2) = 5,991. H forkastes.)

OPPGAVE 9.10 Følgende tabell viser hvor mange av ukens vanlige ukedager (mandager-fredager) en bestemt buss kom forsinket til et bestemt stoppested om morgenen i 40 tilfeldig utvalte uker. Antall dager bussen var forsinket

Antall uker

0 1 2 3 eller mer

4 11 15 10

Bruk signifikansnivået 0,05 og test en hypotese som går ut på at bussen er forsinket 30 prosent av gangene, dvs. test en hypotese som går ut på at antall ganger bussen er forsinket pr. uke (om morgenen mandagerfredager) er en tilfeldig variabel som er binomialt fordelt med n = 5 og p = 0,3. OPPGAVE 9.11 Test en hypotese som går ut på at den tilfeldige variabelen X som er behandlet i oppgave 2.4 og 4.18 er Poissonfordelt med ukjent para­ meter. Bruk tallene fra disse oppgavene. Velg signifikansnivå 0,05. (Svar: /2H = 1,694. d.f - 3. X^osQ) = 7,815. H kan ikke forkastes.) OPPGAVE 9.12 Blant 100 3-barnsfamilier fant man følgende frekvensfordeling for antall gutter: Antall gutter: Antall familier:

0 13

12 32 44

3 11

261

Test en hypotese som går ut på at antah gutter er fordelt etter binomial­ fordelingen med ukjent parameter, p. Bruk signifikansnivået 0,05. (Legg merke til at i denne oppgaven er det to forskjellige størrelser som det kan være naturlig å betegne med symbolet n. En binomisk fordelt variabel^er nemlig oftest å oppfatte som en utvalgsvariabel.) (Svar: /2H = 2,014. d.f. = 2. x’005(2) = 5,991. H kan ikke forkastes.)

OPPGAVE 9.13 Ta for deg problemet i oppgave 4.22 og test en hypotese H som går ut på at X er fordelt etter normalfordelingen med ukjente parametre. Bruk signifikansnivået 0,05. OPPGAVE 9.14 Bruk tallene i oppgave 2.5 til å teste en hypotese, H som gå ut på at den årlige nedbøren på Blindern er normalt fordelt med ukjente parametre. Velg signifikansnivået 0,05. (Svar: /2H = 0,800. d.f = 2. X20,05(2) = 5,991. H kan ikke forkastes.) OPPGAVE 9.15 En vaksine som antas å ha en viss evne til å hindre forkjølelser ble prøvd på 500 personer som var trukket ut tilfeldig blant 1000 personer som sa seg villige til å være med på et eksperiment. De øvrige 500 personer ble ikke vaksinert, men utgjorde en kontrollgruppe. I løpet av et år fikk man følgende fordeling av antall personer i de to gruppene: Ingen forkjølelser

En forkjølelse

Mer enn en forkjølelse

Antall per­ soner i alt

Vaksinerte

252

145

103

500

Uvaksinerte

224

136

140

500

Foreta testing på signifikansnivået 0,01 for å undersøke om vaksinen kan sies å ha noen virkning. (Svar: = 7,57. d.f. = 2. x^00](2) = 9,210. H kan ikke forkastes. Vaksinen har ingen påviselig virkning.)

OPPGAVE 9.16 Av 729 personer som skulle gjennomgå en bestemt kirurgisk operasjon, ble 194 bedøvet lokalt og 535 totalt. Utfallet av operasjonene ble karak­ terisert med T = tilfredsstillende og T' = ikke tilfredsstillende. Resul­ tatet ble følgende:

262

T= Tilfredsstillende

T' = Ikke tilfredsstillende

Sum

L = Lokal bedøvning

173

21

194

L' = Total bedøvning

511

24

535

Sum

684

45

729

a) Disse data er skaffet til veie med sikte på en sammenlikning mellom de to bedøvingsmetodene. Den ansvarlige for undersøkelsen har hatt som oppgave å velge bedøvingsmetode for hvert enkelt av de 729 tilfelle. Hvilket prinsipp for valg av bedøvingsmetode må vi forut­ sette at vedkommende har brukt? Sett at dette prinsippet ikke er blitt respektert. Hvilke konsekvenser vil da det føre til for sammenliknin­ gen mellom bedlvingsmetodene? b) Forutsett at disse data er skaffet tilveie på en slik måte at de kan bru­ kes til sammenlikning mellom bedøvningsmetodene. Kan det da sies noe (eksakt eller tilnærmet) om hvorvidt T og L er uavhengige kjen­ netegn? Forklar i tilfelle hva som kan sies. (Svar: a) Det må bestem­ mes på tilfeldig måte hvilke pasienter som skal ha lokal og hvilke som skal ha total bedlvning. Hvis ikke dette blir gjort, vil et slikt for­ søk vanligvis være verdiløst, b) = 9,88. d.f. = 1. Hvis vi velger signifikansnivået 0,05, finner vi at X20?05(l) = 3,841. H må da for­ kastes. Konklusjonen blir da at T og L er avhengige kjennetegn. Man bør foretrekke total bedøvning som har gitt relativt flest tilfelle med tilfredsstillende resultat.)

OPPGAVE 9.17 Ved kirurgisk behandling av en viss defekt etter en metode A ble det notert 15 komplikasjoner i et materiale på 98 tilfelle. En ny metode B ble prøvd og ledet i 47 tilfelle til at bare 1 tilfelle medførte komplikasjo­ ner. Tallene er gjengitt nedenfor: Komplikasjon

Ikke komplikasjon

Sum

Metode A

15

83

98

Metode B

1

46

47

Sum

16

129

145

a) Formuler en hypotese som kan brukes til å avgjøre om det kan sies å være forskjell på metodene og test denne. Bruk signifikansnivået 0,01. 263

b) Hvilke to typer av feil kan vi komme til å gjøre ved testingen av denne hypotesen? Oppgi en sannsynlighet forbundet med den ene av disse feilene (forklar hvilken). c) Sett at metode B er langt mer smertefull enn metode A. Hvilke kon­ sekvenser får det da å gjøre hver av de to typer feil. Hvilke avveiinger må vi gjøre når vi skal velge signifikansnivå i dette tilfelle? (Svar: a) H: Sannsynligheten for komplikasjon er den samme for de to metodene. x~h = 5,62. d.f = 1. X o,oi0) ~ 6,635. Konklusjon: H kan ikke forkastes, b) I. Forkaste H selv om H er riktig (betinget sannsynlighet a = 0,01), dvs. ta i bruk den nye metoden selv om den faktisk ikke gir færre komplikasjoner. II. Unnlate å forkaste H selv om H faktisk ikke er riktig, dvs. unnlate å ta i bruk den nye metoden selv om den gir færre komplikasjoner, c) I. Bruke unødig smertefull behandlingsmåte. II. Ha unødig mange komplikasjoner. Vi må bl.a. avveie alvorligheten ved komplikasjonene mot den økte smerten ved den nye metoden. Arten og graden av komplikasjon og smerte må trekkes inn i vurderingen.) OPPGAVE 9.18 Lam får av og til sykdommen alveld etter at de kommer ut på beite. En har mistanke om at sannsynligheten for å få denne sykdommen varierer med blodtypen. I en undersøkelse av 32 lam med blodtype AA, 35 lam med blodtype AB og 24 lam med blodtype BB viste det seg at hen­ holdsvis 6, 15 og 13 lam i de tre gruppene fikk alveld.

a) Stadfester undersøkelsen mistanken om at det er sammenheng mel­ lom blodtype og sannsynligheten for å få alveld? Bruk signifikans­ nivået 0,05. b) Hva må man forvisse seg om for ikke^å feiltolke et slikt tallmateri­ ale? (Svar: a) /2H = 8,08. d.f. = 2. X^.os/2) = 5,991. H forkastes. Mistanken stadfestes, b) Man bør ha et tilfeldig utvalg av lam av hver blodtype.) OPPGAVE 9.19 En bedrift Bj fra industri 1 og en bedrift B2 fra industri 2 har samme arbeidstid for sine arbeidere. Arbeiderne ved de to bedriftene kan opp­ fattes som tilfeldige utvalg av arbeidere fra de respektive industrier. Ved begge bedrifter blir det foreslått å forandre arbeidstiden på samme måte. Ved en avstemning blant arbeiderne hvor de skulle svare på om de ønsket forandringen, ble resultatet følgende:

264

Ja

Nei

Blankt

Bedrift Bj

1154

475

243

Bedrift B2

1083

442

362

Undersøk om det kan påvises forskjell mellom de to industriene og i til­ felle hva forskjellen kommer av. Bruk signifikansnivået 0,05. (Svar: X~h = 26,79. d.f. = 2. x“005(2) = 5,991. H forkastes. Forskjellen skyldes forskjellig andel av blanke stemmer ved de to bedriftene.) OPPGAVE 9.20 Tiden som ble tilbrakt i et PC-rom ble notert for et tilfeldig utvalg på n = 200 studenter. Man fikk følgende frekvensfordeling: Minutter tilbrakt i PC-rommet

Antall studenter

20 - 39

16

40-59

56

60-79

72

80-99

48

100- 119

8

n = 200

Gjennomsnittet og standardavviket for disse tidene, utregnet før grup­ pering i frekvensfordelingen, er X = 67,1 minutter og s = 19,9 minutter. a) Finn arealene under en normalfordelingskurve med p = 67,1 ogo = 19,9 i intervallene mellom 19,5 og 39.5, mellom 39.5 og 59,5, mel­ lom 59,5 og 79,5, mellom 79,5 og 99,5, mellom 99,5 og 119,5. og i fordelingens «haler». b) Ta utgangspunkt i tallene under a og beregn estimerte forventede frekvenser for et hensiktsmesssig antall klasser idet du forutsetter normal fordeling. Kontroller at summen av de estimerte forventede frekvensene er lik 1.

c) Test en hypotese som går ut på at tiden som blir tilbrakt i PC- rom­ met er normalt fordelt. Bruk signifikansnivået 0,05.

265

OPPGAVE 9.21 Et tilfeldig utvalg på 130 næringslivsledere ble klassifisert etter alder og graden av risiko-aversjon som ble målt ved en psykologisk test. Resul­ tatet ble følgende: Grad av risiko-aversjon Lav

Middels

Høy

Under 45

14

22

7

45-55

16

33

12

Over 55

4

15

7

Foreta testing på signifikansnivået 0,05 for å finne ut om det kan sies å være noen sammenheng mellom alder og grad av risiko-aversjon. OPPGAVE 9.22 Et dataprogram genererer 100 observasjoner fra en normalfordeling som skal ha forventning lik 35 og standardavvik lik 2. Resultatet ble følgende verdier, X: Intervall

Absolutt frekvens

X < 32

6

32-33

9

33-34

12

34-35

23

35-36

19

36-37

15

37-38

11

38 /z.sregresjonsfunksjon. Forholdet er illustrert nærmere i figur 10.1.

I figur 10.1 er X målt langs førsteaksen, mens både Y og E(YIX = X) er målt langs andreaksen. Regresjonslinjen er tegnet inn i XY-planet. Som illustrasjon har vi valgt ut to brystomfang, nemlig 170 cm og 180 cm. I disse to punktene på førsteaksen har vi oppreist to parallelle andreakser i XY-planet, vinkelrett på førsteaksen. Langs etter disse to andreaksene har vi målt henholdsvis (Yl 170) og (Yl 180), dvs. slaktevekter for kuer med brystomfang 170 cm og slaktevekter for kuer med brystomfang lik 180 cm. Langs de samme aksene har vi også avmerket de betingede for­ ventningene E (Yl 170) og E(YI18O) for slaktevektene. I punktene 170 og 180 på førsteaksen har vi også oppreist to tredjeakser vinkelrett på XY-planet. Langs den første måler vi g(YI 170), dvs. den betingede sannsynlighetstetthetsfunksjonen for slaktevekter for kuer med brystomfang lik 170 cm. Langs den andre har vi gjort noe til­ svarende for brystomfang lik 180 cm. Når regresjonsfunksjonen antas å være lineær, sier vi at vi har å gjøre med enkel lineær regresjon. Det er imidlertid ingen prinsipielle vanske­ ligheter forbundet med å operere med andre funksjoner som fremstiller krumme linjer, f.eks. følgende funksjon av 2. grad: (10.3) E(YIX) = a0 + oqX + oc2X2 Vi sier da at vi har å gjøre med krumlinjet regresjon. Vekten av en ku avhenger selvsagt ikke bare av brystomfanget, men også av en rekke andre variabler som f.eks. rygglengden, låromkretsen og alderen. Det er også mulig å ta hensyn til disse variablene. Når vi tar med mer enn en forklaringsvariabel, sier vi at vi har å gjøre med multip­ pel regresjon. Vil vi f.eks. ta med rygglengden, X2 i tillegg til brystom­ fanget, X], kan regresjonsfunksjonen skrives på følgende måte:

(10.4) E(YIXj X2) = p0 + PjXj + p2X2 Ligningen (10.4) fremstiller et plan i et tredimensjonalt rom. Ved å foreta hypotesetesting kan man avgjøre hvilke ledd som even­ tuelt bør fjernes i en gitt hypotetisk regresjonsfunksjon. I det følgende skal vi imidlertid bare behandle regresjonsfunksjoner av formen (10.2). Ovenfor har vi greid å gi en teoretisk tilfredsstillende formulering av

278

problemet i eksempel 10.1. Men noen praktisk løsning har vi ikke fun­ net enda. Vanskeligheten består i at koeffisientene a og p er ukjente. Disse må derfor estimeres ved hjelp av observasjoner i et tilfeldig utvalg på n kuer. På denne måten skaffer vi oss en utvalgs regresjonsfunksjon som kan brukes for praktiske formål.

DEFINISJON 10.2 Utvalgsregresjonsfunksjonen for Y med hensyn på X er definert ved formel (10.5). Den viser estimatet av den betingede forvent­ ningen til Y som en funksjon av X. Koeffisienten b kalles utvalgsregresjonskoeffisienten og a kalles konstantleddet i utvalget. Her er a et estimat av cx og b er et estimat av p. Grafen til 10.5 er en rett linje som kalles utvalgsregresjonslinjen for Y med hensyn på X. La oss betrakte et gjentak som har en X-verdi lik X, og en Y-verdi lik Yj. Restleddet eller residualet for dette gjentaket betegnes med £j og er definert ved det andre uttrykket i (10.5). Restleddet viser avvik fra utvalgsregresjonslinjen for gjentak nr. i.

(10.5) É(YIX)= Y = a + bX

= Yj - É(YIXj) = Y, - Y,

Som symbol for den estimerte betingede forventningen for Y bruker vi altså enten É(YIX) eller det enklere symbolet Y. Et sentralt problem i regresjonsanalysen er å estimere a og p. Esti­ meringen blir gjerne basert på et prinsipp som kalles minste kvadraters metode og som vil bli gjennomgått i avsnitt 10.6.

10.5 Grunnleggende symboler og formler Våre data i regresjons- og korrelasjonsanalysen er alltid et sett av sam­ menhørende observasjoner (parobservasjoner) av to variabler X og Y i et utvalg som består av n gjentak. I tabell 10.1 har vi gjengitt i symbolform de grunnleggende data som brukes ved analysen. Dessuten har vi tatt med en del størrelser som vi vil komme tilbake til senere i dette kapitlet.

279

Tabell 10.1 Data for en regresjonsanalyse samt diverse andre relaterte størrelser. Utvalget betraktet i utvalgsperspektiv. Konkrete tall i et konkret utvalg. Yj og Xj kan observeres direkte. Koeffisientene b og a kan regnes ut ved hjelp av formlene

(10.11) og (10.12). Deretter kan tallene Y og É- regnes ut ved hjelp av formlene i (10.5).

1

2

3

4

5

Observasjon nr.

Avhengig variabel

Uavhengig variabel

Estimert betinget forventning for Y

Residual

j

Yj

Xj

Yj =É(YIXp

gj

1

Y,

Y] =É(YIX1)

2

y2

X) x2

Y2 = É(YIX2)

£2

3

Y3

x3

Y3 = É(YIX3)

£3







n

Yn

X„



Yn = É(YIXn)

£n

Det samme utvalget som ovenfor betraktet i et populasjonsperspektiv. Tallene Yj og Xj er de samme som før. Hvis oc og P hadde vært kjent, hadde vi kunnet regne ut E(YI Xj) og Ej ved hjelp av formlene (10.2) 1

2

3

4

5

Observasjon nr.

Avhengig variabel

Uavhengig variabel

Betinget for­ ventning for Y

Forstyrrelsesledd

j

Yj

Xj

E(YIXp

£j

1

Yj

Xi

E(YIXj)

£1

2

Y,

X,

E(YIX2)

£2

3

Y3

X3

E(YIX3)

£3









n

Yn

X„

E(YIXn)



£n

Alle beregningene i regresjons- og korrelasjonsanslysen blir basert på observasjonene som vi har symboler for i kolonne 2 og 3 i tabell 10.1. Vi skal etter hvert presentere en rekke formler. Med tanke på dette, er det praktisk en gang for alle å presentere de sentrale størrelsene som kan avledes fra observasjonene og som inngår i formlene. Hvis man regner ut disse størrelsene til å begynne med, har man alt som skal til når formlene skal brukes 280

Ved enkel lineær regresjons- og korrelasjonsanalyse er det 6 størrelser som går igjen i de formlene vi får bruk for. Disse 6 stør­ relsene kan finnes på grunnlag av de n smmenhørende observasjo­ nene X, og Y, (j = 1.2. n) i et utvalg (se tabell 10.1) og er listet opp nedenfor: 1) n 2) X 3) Y 4) Sxx

5) 6)

Dvs. utvalgsstørrelsen. Dvs. gjennomsnittet av X| (j = 1,2, ..., n). Dvs. gjennomsnittet av Yj (j = 1,2, ..., n). Dvs. kvadratsummen for Xj omkring gjennomsnittet, gitt ved formel (10.6). SYy Dvs. kvadratsummen for Yj omkring gjennomsnittet, gitt ved formel (10.7). SXY Dvs. produktsummen for Xj og Yj omkring gjennom­ snittene, gitt ved formel (10.8).

I det følgende vil vi bruke disse størrelsene i formlene uten nær­ mere forklaring.

n (10.6) Sxx =

n

Z (VX) (XJ-X>

=

Z

(XJ-X)2 =

ZX n

__

__

n

__

0

(10.7) SYY = X (Yj-Y) (Yj-Y) = Y (Yj-Y) =

j=1 ( n

A2

j=1

n

n

j=1

j=1

(io.8) sXY=

n n y x.y J

X' 281

Vi kunne gjerne ha sløyfet summasjonsgrensene i formlene ovenfor, da alle summasjoner i dette kapittelet går fra 1 til n. Den første skriveformen i formlene for Sxx og SYY er unaturlig, men hensikten er å vise at strukturen er den samme som i formelen for SXY. Denne likheten i struktur gjelder også de etterfølgende formlene, selv om det ikke er like tydelig å se. Legg for øvrig merke til at Sxx og SYY er tellerne i form­ lene for utvalgsvariansen til henholdsvis X-observasjonene og Y-observasjonene.

DEFINISJON 10.3 TOTAL KVADRATSUM: Når Y er avhengig variabel vil vi kalle kvadratsummen SYY i formel (10.7) den totale kvadratsummen. Den vil få betegnelsen SST («Sum of Squares for Total»).

Begrunnelsen for betegnelsen total kvadratsum vil vi komme tilbake til senere.

10.6 Minste kvadraters metode forklart ved et eksempel Vi skal nå illustrere minste kvadraters metode ved hjelp av eksempel 10.1. La oss tenke oss at vi ønsker å konstruere en graf som kan brukes

Figur 10.2 Spredning sdiag ram og regresjonslinje basert på tallene i tabell 10.2 over brystomfang, X i cm og slaktevekt, Y i kg for 12 kuer.

282

til å avlese omtrentlig slaktevekt, Y for en ku med kjent brystomfang, X. Vi tenker oss at vi har et tilfeldig utvalg på n - 12 kuer fra denne populasjonen som kuene kommer fra. Observasjonene er gjengitt med symboler i de tre første kolonnene i tabell 10.1. De tilsvarende tallene er gjengitt i de tre første kolonnene i tabell 10.2. For enkelhets skyld har vi sløyfet fotskriftene j.

Tabell 10.2 Brystomfang, X (i cm) og slaktevekt, Y (i kg) i et tilfeldig utvalg på 12 kuer, sammen med diverse utregninger. Ku nr. (j)

Y

X

i 2 3 4 5 6 7 8 9 10 11 12

239 175 216 252 195 164 252 221 158 195 234 193

193 168 177 183 173 164 187 183 160 171 175 171

Sum: Gj. snitt

2494

2105

207.8

175.4

X2

YX

57121 30625 46656 63504 38025 26896 63504 48841 24946 38025 54756 37249

37249 28224 31329 33489 29929 26896 34969 33489 25600 29241 30625 29241

46127 29400 38232 46116 33735 26896 47124 40443 25280 33345 40950 33003

261.866 185.042 212.699 231.137 200.407 172.750 243.429 231.137 160.458 194.261 206.553 194.261

-22.8665 -10.0421 3.3011 20.8633 -5.4070 -8.7502 8.5714 -10.1367 -2.4583 0.7390 27.4471 -1.2610

530166

370281

440651

2494.0

0.0001

207.8

0.0000

Y2

Y

8

På grunnlag av de 12 observasjonene (parobservasjonene) i tabell 10.2, kan vi tegne et spredningsdiagram eller punktdiagram som vist i figur 10.2. Hver ku er her representert ved et punkt med koordinater lik kuas brystomfang og vekt. To av kuene har samme brystomfang og omtrent like vekter slik at de to tilhørende punktene i diagrammet blir praktisk talt sammenfallende. I spredningsdiagrammet er det derfor brukt et tall (2) som angir antall sammenfallende punkter i stedet for punktmarkering. Vi har tidligere forutsatt at populasjonsregresjonsfunksjonen er lineær. Egentlig finner vi derfor utvalgsregresjonslinjen ved å trekke en rett linje på beste måte gjennom punktsvermen i figur 10.2. Den mate­ matiske likningen til utvalgsregresjonsfunksjonen er vist i (10.5). For å kunne tegne inn linjen trenger vi å vite verdiene av koeffisientene a og b. Det er dette problemet dreier seg om nå.

283

Legg merke til at den første likningen (10.5) ikke er en ligning mel­ lom X og Y, men mellom X og Y. For en gitt X er Y den tilsvarende faktiske vekten, mens Y er den tilsvarende anslåtte vekten, dvs. avstan­ den fra punktet X på førsteaksen opp til linjen, parallelt med andreaksen. Y-ene kan kalles tilpassede vekter eller estimerte betingede forventninger for Y. De finnes ved å tilpasse linjen til punktsvermen. Disse vil også bli brukt når vi skal lage anslag eller prediksjoner av for­ skjellige slag. A finne den første ligningen (10.5) er det samme som å finne formler for a og b. Før vi tar fatt på å finne ligningen, vil vi for­ klare litt om språkbruken i forbindelse med en slik linje. Det prinsippet man vanligvis legger til grunn for bestemmelse av formler for a og b kalles som nevnt minste kvadraters metode og kan lettest forklares i tilknytning til figur 10.2. La oss tenke oss at vi har tegnet inn en linje med en vilkårlig a og en vilkårlig b gjennom punkt­ svermen omtrent som vist på figuren. (Den linjen som faktisk er tegnet inn er den som vi kommer fram til ved bruk av minste kvadraters metode.) Siden hele beregningen skal bygge på de faktiske observasjo­ nene vi har for de 12 kuene i tabell 10.2, vil de tilsvarende punktene i figur 10.2 ligge fast.

Hvis vi nå tenker oss at vi lar a variere, vil linjen bli parallellforskjøvet opp eller ned. Lar vi b variere, vil linjen bli dreiet. Ved å variere a og b er det altså mulig å få prøvd alle tenkelige rette lin­ jer i planet. Minste kvadraters metode går ut på å velge a og b slik at summen av kvadratene av alle de loddrette avstandene fra punktene til linjen blir så liten som mulig.

Merk at avstandene måles parallelt med aksen til den avhengige varia­ belen, Y. Vi vil se litt nærmere på dette. De n = 12 brystomfangene kan som vist i tabell 10.2 betegnes med Xj (j = 1,2, ..., n). Tilsvarende kan de n = 12 slaktevektene betegnes med Yj (j = 1, 2, ..., n). De n tilpassede slaktevektene som tilsvarer de n brystomfangene Xj (j = 1, 2, ..., n) hvis man holder seg på linjen vil vi betegne med Yj (j = 1,2, ..., n). Yj er altså den slaktevekten man ville avlese for ku nr. j ut fra kuas brystom­ fang, Xj ved hjelp av linjen hvis linjen var kjent. De n loddrette avstan­ dene fra punktene til linjen kan betegnes med Ej. Her er £ en gresk e som uttales epsilon. Vi vil kalle hver Ej et restledd eller residual. Hver ku har sin E(. For ku nr. j er E- kuas overvekt (positiv Ej) eller undervekt (negativ Ej) i forhold til Y r dvs. i forhold til det vi kan kalle gjennomsnittsvekten (vekten ifølge linjen eller den tilpassede vekten) for kuer med brystomfang Xj. Ved å se på likning (10.5) og figur 10.2 for­

284

står vi at en tilfeldig ku (ku nr. j) har et restledd som er gitt ved følgende uttrykk: (10.9) Ej = Yj-ÉdlXp = Yj-Yj = Yj- (a + bXj) Det lønner seg å tegne figur og forvisse seg om at man har forstått (10.9) før man går videre. Formelen er helt analog med andre formel i (10.2). Tenk deg at punkt nr. j ligger over linjen i første omgang. Da blir £• positiv. For kuer med punkter under linjen blir £j negativ. Uttrykket (10.9) har gyldighet for en hvilken som helst ku nar vi erstatter j med kuas nummer. Uttrykket kan derfor kvadreres og summeres fra 1 til n. Vi får da: (10.10) M = zrJ = Z(Y.-Yj) J J

2

= Z(Y.J (a + bX-)) J

2

I matematikken så vel som i statistikken er vi vant til at X-er og Y-er er variabler, mens a-er og b-er er konstanter. Slik er det også vanligvis i regresjonsanalysen, men akkurat nå er det omvendt.

Som forklart, er observasjonene i tabell 10.1 gitt, slik at X-ene og Y-ene er å betrakte som konstanter i den minimaliseringsprosessen som heter minste kvadraters metode. Vi skal prøve oss fram med forskjellige a-er og b-er. Derfor er a og b i øyeblikket å opp­ fatte som variabler. M er en funksjon av a og b, og funksjonsformen fremgår av uttrykket lengst til høyre i (10.10). Oppgaven blir derfor å finne de verdier av a og b som minimaliserer funksjo­ nen M.

Vi går ikke inn på den matematiske løsningen av problemet her. Interes­ serte henvises til oppgave 10.1. Kravet om at M skal være så liten som mulig blir oppfylt når a og b blir bestemt etter følgende formler:

(10.11) (10.12) a = Y-bX

De tallene som trengs til innsetting i (10.11), bortsett fra gjennomsnit­ tene, er gjengitt i formlene (10.7) og (10.8). 285

For eksempel 10.1 og tabell 10.2 som gjelder kuer, får vi følgende:

(10.13) b = |^ =

$xx

2494 -2105 ----1irioi 12 _ 3161,81 _ T qj 2105 I2 ’ 1028,94 " ’ 370 281 - — 12

440 651 -

Ved innsetting i (10.12), finner vi også a:

(10.14) a = Y-bX = 207,8-3,073-175,4 = -331 Setter vi disse resultatene inn i første del av (10.5), finner vi lignin­ gen for linjen: (10.15) Y = -331 + 3,07X

I nest siste kolonne i tabell 10.2 har vi også gjengitt de tilpassede eller anslåtte slaktevektene, Yj for de n = 12 kuene. Disse er funnet ved i tur og orden å sette de enkelte kuenes brystomfang inn i (10.15). En måte å tegne inn linjen på er å velge to brystomfang, f.eks. 160 cm og 193 cm. Vi velger da helst to verdier som ligger et stykke fra hverandre. De tilhørende slaktevektene er 160,5 kg og 261,9 kg. (Se tabell 10.2.) Vi merker derfor av to punkter med koordinatene (160, 160,5) og (193, 261,9) og trekker en rett linje gjennom disse punktene. Dette er gjort i figur 10.2. Det kan for øvrig bevises at følgende setning gjelder. (Se oppgave 10.1 c.)

| SETNING 10.2 | En linje som er bestemt etter minste kvadraters metode vil alltid gå gjennom punktet (X, Y), dvs. gjennom det vi kan kalle gjen| nomsnittspunktet.

I vårt eksempel vil linjen altså gå gjennom punktet med koordinater 175,4 og 207,8. (Vis ved tallberegning at dette stemmer.) Et annet punkt som linjen selvsagt vil gå gjennom er punktet (0, a) eller (0, -331) i vårt eksempel. I figur 10.2 er dette punktet til liten nytte, fordi målestokken er valgt slik at punktet ikke vises. 286

Legg merke til at matematisk sett, er a en nyttig størrelse, da den angir linjens høyde over førsteaksen når vi måler denne høyden ved origo. (Hvis vi måler den samme høyden over punktet X, blir resultatet Y.) Statistisk sett, må a ikke tolkes for bokstavelig. Vår a på -331 er nemlig et uttrykk for at slaktevekten for kuer med et brystomfang på 0 cm er lik -331 kg! Matematisk sett gir den tilpassede ligningen mening for en hvilken som helst X fra til + oo Men fra et statistisk syns­ punkt er det en fordel om man begrenser seg til slaktevektberegninger for brystomfang innenfor det brystomfang-intervallet som er represen­ tert ved våre data (160-193 cm). En av grunnene til dette er at det er grenser for hvor lite eller stort brystomfang en ku kan ha. En annen grunn er følgende: Selv om samvariasjonen mellom brystomfang og vekt i utvalget synes å være lineær innenfor det brystomfangintervallet som vi har data for, kan det meget godt tenkes at sammenhengen er ikke-lineær utenfor dette intervallet. Slike situasjoner kan vi ofte støte pa. Det er alltid grunn til å være forsiktig med å bruke en estimert regresjonsfunksjon for X-verdier som ligger utenfor det intervallet av Xverdier som er representert i utvalget. Grunnen til dette er at regresjonsfunksjonen kan tenkes å avvike sterkt fra å være lineær utenfor dette intervallet. Av tabell 10.2 går det fram at gjennomsnittet av Y er lik Y. Det kan vises at dette gjelder generelt. I siste kolonne har vi vist tallene é-. Legg merke til at Yj = Yj + (k. Vi ser også at summen av er lik 0. Også dette gjelder generelt. (Se oppgave 10.1 b.) o

SETNING 10.3 Ved bruk av minste kvadraters metode i forbindelse med enkel lineær regresjon kan det vises generelt at gjennomsnittet av Yj i utvalget er lik gjennomsnittet av Yj i utvalget. Videre kan det vises at summen og dermed gjennomsnittet av fk i utvalget er lik 0.

Summen av éj er ikke vist i tabellen, men denne blir lik 2113,4. Det er denne summen som er gjort så liten som mulig ved å plassere linjen i et passende leie. Det er helt umulig å få denne summen mindre ved å velge en annen linje.

287

DEFINISJON 10.3 n

RESTKVADRATSUMMEN: Den minimumsverdien som y éj

j=i får ved bruk av minste kvadraters metode kan i prinsippet regnes ut ved hjelp av formel (10.10) når vi bruker b og a gitt ved form­ lene (10.11) og (10.12). Denne kvadratsummen kalles restkvadratsummen (eller feilkvadratsummen) og vil bli betegnet med SSE (for «Sum of Squares for Error»).

I tilknytning til en regresjonsberegning av det slaget vi har gjennomført ovenfor er det også vanlig å regne ut utvalgskorrelasjonskoejfisienten, r som er et estimat av populasjonskorrelasjonskoeffisienten, p. Formelen er følgende: (10.16) r =

SxY V^XX^YY

For eksempel 10.1 og tabell 10.2 som gjelder kuer, får vi ved inn­ setting i denne formelen, idet vi først bruker formel (10.7) til å regne ut SYY: Ay 3161 81 (10.17) r = ----------- = = 0,91 7$xxSyy 71028,94 • 118296,70 Vi finner altså at r = 0,91, dvs. at det er en relativt sterk samvaria­ sjon mellom brystomfang og vekt i dette utvalget. Dette gir oss også god grunn til å anta at p er positiv, da antall observasjoner er såpass stort som 12.

288

10.7 Regresjonsanalyse anvendt på et problem fra dagliglivet I dette avsnittet skal vi gi enda et eksempel på hva regresjon og korrela­ sjon kan dreie seg om. Enkelte mennesker bekymrer seg over at de er overvektige, mens andre er redde for å være undervektige. Hva bør en bestemt person, f.eks. en kvinne, veie? Mange vil svare at det avhenger av kvinnens høyde. Javel, men hvis hun er 170 cm høy, hvor mye bør hun da veie? Det kan man finne ut fra en ligning eller en graf eller en tabell vil noen svare. Ja, men hvor kommer slike hjelpemidler fra? Sva­ ret er vel trolig at de er resultatet av en regresjonsanalyse. Vi skal nå beskrive hvorledes en slik analyse kan tenkes utført. Vi vil da gå ut fra at regresjonsfunksjonen for høyde med hensyn på vekt i populasjonen er lineær. Det er trolig i hvert fall tilnærmet riktig for et intervall av vanlige høyder. Høyden kan matematisk sett oppfattes som en variabel, X som kan variere fra kvinne til kvinne (selv om den selvsagt også kan være lik for flere kvinner). Til hver høyde, X svarer det en betinget forventning for vekten som vi betegner med E(YIX) og som er lik a + pX. Estimatet av denne betingede forventningen betegner vi med Y eller É(YIX). Dette estimatet er lik a + bX. Ligningen for den empiriske regresjonsfunksjo­ nen har vi tidligere skrevet som vist i første del av (10.5).

EKSEMPEL 10.2 SAMMENHENGEN MELLOM HØYDE OG VEKT HOS KVINNER: I tabell 2.3 er det gjengitt tall for høyde og vekt for 105 kvinner. Selv om det ikke stemmer helt med virkeligheten, vil vi nå tenke oss at vi har en populasjon av kvinner, f.eks. alle nor­ ske kvinner (definert på en entydig måte), og at de 105 kvinnene kan oppfattes som et tilfeldig utvalg fra denne populasjonen. Vi ønsker å studere sammenhengen mellom høyde og vekt ved hjelp av disse observasjonene.

Figur 10.3 viser et spredningsdiagram basert på disse tallene. En hoved­ oppgave i regresjonsanalysen er å legge en i dette tilfellet rett linje på beste måte gjennom punktsvermen. Vi kaller dette å estimere en regresjonssfunksjon eller regresjonslinje. Vi skal nå gjøre dette. Hvis man skal gjennomføre en enkel regresjonsanalyse med beregning av korrela­ sjonskoeffisient, m.v. uten datamaskin, lønner det seg å starte med å regne ut de 6 størrelsene som ble listet opp i avsnitt 10.5, da dette gjør analysen mer oversiktlig. 289

Med utgangspunkt i tabell 2.3 og formler fra avsnitt 10.5 finner vi for eksempel 10.2 de 6 størrelsene som hele den etterfølgende regresjonsanalysen kan baseres på: n - 105. Y - 60,90. X = 167,67. Sxx = 2459,50. SYY = 5633,06. SXY = 1674,75. Bruker vi formlene fra avsnitt 10.6, finner vi at: b_ = SXY/SXX = 1674,75/ 2459,50 = 0,681. Videre får vi at: a = Y - b = 60,90 - 0,681 • 167,67 = -53,3. Utvalgsregresjonsfunksjonen blir derfor:

(10.18) É(Y|X) = -53,3 + 0,681 X

Estimatet av den betingede forventningen til vekten for kvinner med en høyde på 170 cm blir derfor:

(10.19) É (Y| 170) = -53,3 + 0,681 • 170 = 62,5 Ved hjelp av (10.18) kan vi regne ut estimater av den betingede forvent­ ningen til vekten for en hvilken som helst høyde. Den minste høyden blant de 105 høydene er 157 ca, og den største er 180 cm. I tabell 10.3 har vi stilt sammen resultatene fra 24 beregninger av estimater av betin­ gede forventninger for vekten, idet vi har brukt alle høyder i hele cm fra 157 cm til 180 cm.

Tabell 10.3 Estimater, É(Y \ X) = Y av den betingede forventningen til vekten for kvinner med forskjellig høyde, X beregnet etter (10.18) som bygger på tabell 2.3. (Enheter: høyde, cm og vekt, kg.) X: Y: X:

Y:

157

158

159

160

161

162

163

164

165

166

167 168

53,6 54,3 55,0 55,7 56,3 57,0 57,7 58,4 59,1 59,7 60,4 61,1

169

170

171

172

173

174

175

176

177

178

179 180

61,8 62,5 63,2 63,8 64,5 65,2 65,9 66,6 67,2 67,9 68,6 69,3

Også av tabell 10.3 fremgår det som regresjonskoeffisienten viser, nem­ lig at når høyden stiger med 1 cm, så stiger estimatet av den betingede forventningen til vekten med ca. 0,7 kg. (Egentlig 0,681 kg. Se (10,18).) Regresjonslinjen kan nå tegnes inn i et koordinatsystem. Skal linjen brukes til å avlese estimater av betingede forventninger for vek­ ten som svarer til gitte høyder, bør man bruke et eget diagram til dette, men for å spare plass har vi tegnet linjen direkte inn i spredningsdiagrammet i figur 10.3. På denne måten får vi også kontrollert om a og b synes å være riktig beregnet. 290

Y og É(Y | X) 90. t

|-------------------- |--------------------- --------------------|------------- -------- |_------------------- 1

156.0

168.0

162.0

174.0

180.0

186.0 X ~ høyde

Figur 10.3 Spredningsdiagram og regresjons linje basert på tallene i tabell 2.3 over høyde og vekt for 105 kvinner. Korrelasjonskoeffisienten mellom høyde og vekt kan vi finne på vanlig måte av (10.16). Vi får da

r =

Sxv

YY ■ SYY *47SAA il

=

1674,75

= 0>45

72459,50 ■ 5633,06

Korrelasjonen er ikke høy. Som kjent finnes det en del «lange og tynne» og «små og tykke» som er med på å holde r på et nokså moderat nivå. Det kan for øvrig vises at kvadratet av korrelasjonskoeffisienten som ofte kalles determinasjonskoejfisienten kan gis en ganske grei prosenttolkning. (Vi kommer tilbake til dette.)

2

I eksempel 10.2 er r" = 0,202. Vi kan da si at i dette utvalget har variasjonen i høyde fra kvinne til kvinne forklart 20,2 prosent av den korresponderende variasjonen i vekt fra kvinne til kvinne. De resterende 79,8 prosent av vektvariasjonen kan ikke settes i sam­ menheng med en tilsvarende høydevariasjon, men må eventuelt forklares på annen måte.

291

Vi vil nå kommentere videre noe av det vi hittil har sagt om kvinners høyde og vekt. Den sammenhengen mellom høyde og vekt som regresjonslinjen representerer er i en viss forstand gjennomsnittlig. For øvrig går linjen også gjennom punktet (X, Y). For kvinner som har en høyde lik gjennomsnittshøyden i utvalget er estimatet av den betingede forventningen til vekten lik Y, altså lik gjennomsnittsvekten for alle kvinnene i utvalget.

Hvis vi går ut fra at det som er «gjennomsnittlig» også er «normalt», kan estimatene av de betingede forventningene for vekten, dvs. estima­ tene som er gjengitt i tabell 10.3, oppfattes som «normalvektor». Det kan imidlertid tenkes at det er flere overvektige enn undervektige nor­ ske kvinner, og i såfall vil disse «normalvektene» kanskje bli for høye i forhold til det man kunne kalle «idealvekt». Hvis man er ute etter en idealvekt hvor det forutsettes at fettavleiringen er optimal fra et helsemessig og estetisk synspunkt, burde man ide­ elt sett definere en populasjon som ekskluderer kvinner med for mye eller for lite fett, og ta et tilfeldig utvalg fra en slik populasjon. En slik fremgangsmåte innebærer imidlertid en skjønnsmessig vurdering som trolig vil falle vanskelig. Våre data gjelder søkere til en sykepleierskole. Siden slike personer oftest er opptatt av helse og ernæring, kan det ten­ kes at våre resultater tilnærmet gir en slags idealvekt. Ordet idealvekt kan imidlertid også være misvisende. Det gir inn­ trykk av at alle kvinner helst burde «befinne seg på den empiriske regresjonslinjen». Men dette er ikke tilfelle. Det finnes en naturlig vari­ asjon i kroppsbygning og kroppsform som tilsier at kvinner med samme høyde svært ofte bør ha nokså forskjellig vekt. Derfor burde idealvekten helst beregnes ved hjelp av multippel regresjon. I en slik regresjons­ analyse kunne man i tillegg til Y = vekt og X = X, = høyde f.eks. prøve seg fram med følgende forklaringsvariabler: X^ = håndleddsomkrets. Denne variabelen ville fortelle noe om hvor grov benbygningen er. X3 benlengde. Denne ville fortelle noe om kroppsproporsjonene. I tillegg kunne man bruke en rekke andre mål og kanskje alder. Før vi forlater denne diskusjonen, vil vi peke på at selv om vi ikke oppfatter estimatene i tabell 10.3 som noe mer enn en form for gjennomsnittsvekter for hver høyde, kan vi likevel ikke si at vi har de rik­ tige gjennomsnittene. Våre beregninger bygger nemlig på et tilfeldig utvalg på n = 105 gjentak, og ikke på tall for hele populasjonen.

292

Hvis vi tenker oss nye tilfeldige utvalg på n = 105 kvinner fra den samme populasjonen, vil tallene i tabell 2.3 variere fra utvalg til utvalg. Men dermed vil punktsvermen i figur 10.3 også variere fra utvalg til utvalg. Dette bevirker igjen at såvel a som b vil variere fra utvalg til utvalg, men dermed vil også tallene i tabell 10.3 vari­ ere fra utvalg til utvalg. Vi kan altså snakke om en rekke utvalgsvariabler, a, b, E (Y|X) eller Y, osv.

Koeffisientene a og b er som nevnt bare å oppfatte som estimater av de tilsvarende koeffisientene a og p i populasjonsregresjonsfunksjonen. Det vi helst skulle hatt er den første funksjonen (10.2) som altså også kalles den teoretiske eller den sanne regresjonsfunksjonen. Normalt er det imidlertid ikke mulig å få tak i denne. Som vi skal se senere blir det derfor aktuelt både å teste hypoteser om og å beregne konfidensgrenser for visse ukjente konstanter. Spesielt er vi interessert i den sanne regresjonskoeffis ien ten, p.

10.8 Korrelasjonskoeffisienten og andre assosiasjonsmål I dette avsnittet skal vi gå grundigere inn på utval gskorrelasjonskoeffisienten og beslektede størrelser.

10.8.1 Kovariansen Utvalgskorrelasjonskoeffisienten, r mellom X og Y som vi nå skulle være fortrolige med, kan sies å være avledet av en matematisk sett enklere størrelse som kalles utvalgskovariansen

DEFINISJON 10.5 UTVALGSKO VARIANS: Utvalgskovariansen mellom to tilfel­ dige variabler X og Y vil vi betegne med cov(X, Y) eller med sXY. (Her er «cov» forkortelse for det engelske «covariance», og hatten over cov indikerer at det dreier seg om en empirisk størrelse, dvs. et estimat.) Formelen er gjengitt i (10.20).

(10.20) cov(Y, X) = sXY = 293

Noen statistikere bruker n i stedet for n - 1 i nevneren. Som regel bru­ ker de da også n i nevneren til utvalgsvariansen. Vi ser at kovariansen har samme teller som r og b, nemlig SXY.

I likhet med korrelasjonskoeffisienten er kovariansen et assosiasjonsmål, dvs. et mål for samvariasjon. Den har også lignende egen­ skaper, men kan ha alle mulige verdier. Den er ikke som korrela­ sjonskoeffisienten normert slik at verdien må ligge mellom bestemte grenser (-1 og 1). Størrelsen av kovariansen avhenger av hvor syste­ matisk samvariasjon det er i utvalget, men også av hvilke enheter vi bruker for X og Y og av hvor mye variasjon det er i tallene. Et studium av kovariansen kan kaste lys over den mer kjente og brukte korrelasjonskoeffisienten. Vi skal derfor regne ut kovariansen for kueksemplet i tabell 10.2 på en litt spesiell måte for å få fram hvorledes for­ tegnet og størrelsen til kovariansen blir bestemt. I tabell 10.4 nedenfor har vi sortert X-ene etter størrelsen slik at de minste kommer først. En annen måte å si det samme på er at vi har sor­ tert kuene etter brystomfanget, slik at kuer med minst brystomfang kommer øverst i tabellen. Y-ene har selvsagt fulgt med under sorterin­ gen, men siden det ikke er noen fullkommen positiv korrelasjon mel­ lom X og Y, blir ikke Y-ene derved sortert fullkomment etter størrelse. Tabell 10.4 Utregning på en spesiell måte av telleren i kovariansen og korrelasjonskoeffisienten og regresjonskoeffisienten for eksemplet i tabell 10.2.

Linje nr

Ku nr.

X

Y

X-X

Y—Y

(X-Xj(Y-Y)

1 2 3 4 5 6 7 8 9 10 11 12

9 6 2 10 12 5 11 3 8 4 7 1

160 164 168 171 171 173 175 177 183 183 187 193

158 164 175 195 193 195 234 216 221 252 252 239

-15.4167 -11.4167 - 7.4167 - 4.4167 - 4.4167 - 2.4167 - 0.4167 1.5833 7.5833 7.5833 11.5833 17.5833

-49.8333 -43.8333 -32.8333 -12.8333 -14.8333 -12.8333 26.1667 8.1667 13.1667 44.1667 44.1667 31.1667

768.263 500.430 243.513 56.680 65.514 31.014 -10.903 12.931 99.848 334.931 511.598 548.015

Sum 294

SAXYI = 3161.830

Vi ser av tabell 10.4 at X-ene stiger når vi går fra linje 1 mot linje 12, på grunn av sorteringen. Det samme gjelder selvsagt (X - X). Y-ene er ikke sortert, men har fått følge X-ene under sorteringen. Likevel ser vi at også disse har en stigende tendens fra linje 1 til linje 12. Grunnen til dette er at det er en positiv_samvariasjon mellom X og Y i utvalget. Av samme grunn vil også Y - Y ha en tendens til å stige når vi går nedover i tabellen. Resultatet av dette er at produktet (X - X) (Y - Y) lengst til høyre i tabellen stort sett fremkommer ved at negative verdier av X - X multipliseres med negative verdier av Y - Y og at positive verdier av X - X multipliseres med positive verdier av Y - Y. Det er fak­ tisk bare ett unntak fra dette. Produktet blir altså oftest positivt. Det samme blir summen av alle produktene og derved kovariansen, korrelasjonskoeffisienten og regresjonskoeffisienten. Hvis det hadde vært negativ samvariasjon mellom X og Y i utvalget, ville produktene lengst til høyre i tabell 10.4 for det meste ha blitt negative med det resultat at kovariansen også hadde blitt negativ. Riktigheten av dette kan man få demonstrert ved å regne oppgave 10.5.

Merk at sorteringen av X-ene ikke får noen innvirkning på resultatet av beregningen, da Y-ene jo følger med under sorteringen, og addendenes orden er likegyldig ved addisjon. Sorteringen er bare et hjelpemiddel for lettere å se hvorledes fortegnet til SXY og dermed kovariansen blir bestemt. Man kan også argumentere på lignende måte for å forklare størrelsen av absoluttverdien av kovariansen. Dividerer vi summen, 3161,8 med n - 1 som er lik 11, finner vi at kovariansen blir lik 287.436. Vår måte å beregne kovariansen på er tungvinn og er bare brukt her for å demonstrere hvorledes fortegnet (og størrelsen) fremkommer. Visse brukergrupper av statistiske metoder har imidlertid behov for å kjenne den teoretiske kovariansen, cov(X, Y) = oXY. Vår beregning av sXY kan kanskje gjøre det lettere å forstå den teo­ retiske kovariansen når vi kommer til den i kapittel 11. Ved hjelp av utvalgsstandardavviket til Y som vi vil betegne med sY, utvalgsstandardavviket til X som vi vil betegne med sx og kovariansen, sXY mellom de to tilfeldige variablene, er det lett å skrive ned formler for både r os b som vist nedenfor:

295

s°XY (10.22) b = |^ = ^ = ^ ^xx

^xx ----------

SY A

n- 1

En viktig egenskap ved formelen helt til høyre er at hvis vi bytter ut s med (5 hele veien, får vi tilsvarende formler som gjelder for populasjo­ nen.

10.8.2 Korrelasjonskoeffisienten Det er viktig å merke seg at både sXY b og r har positiv nevner, og at alle har samme teller. Dette går fram av (10.20), (10.11) og (10.16). Det er derfor telleren, SXY (eller sXY) som bestemmer fortegnet for alle, og de har følgelig alltid samme fortegn. Hvis en av dem er lik 0 (det opp­ lever vi neppe i praksis) må derfor også de to andre være lik 0.

Siden også formlene for de korresponderende populasjonsbegrepene har en tilsvarende struktur, gjelder det også for populasjonsbegrepene 2.

For å forklare kort hva dette innebærer, kan vi si at alle Yj-ene er nor­ malt fordelt med nøyaktig samme standardavvik, men med forskjellige forventninger. Forventningen til Yj er en lineær funksjon av Xj. Vi skri­ ver derfor, EQQI Xj) = cx + pXj. Det er ingen systematisk samvariasjon mellom to og to Xj-er. Vi har flere observasjoner enn det er ukjente koeffisienter i regresjonsligningen. Vi skal nå ta de forskjellige forutsetningene opp til en litt mer detal­ jert behandling.Til slutt skal vi også se på alternative forutsetninger. Fordelingsegenskapene til modellen kan beskrives enten i tilknytning til Yj eller i tilknytning til Ej. Vi skal nå gjøre det på den siste måten.

Forutsetningene vi bygger på kan mer detaljert uttrykkes på føl­ gende måte: 1. Regresjonsmodell. Vi forutsetter at modellen er en regresjons­ modell (se definisjon 10.8). Dette betyr at de n Xj-ene er å opp­ fatte som n konstanter som vil forbli de samme, også i nye, tenkte, gjentatte utvalg. 2. Linearitet. Vi forutsetter at modellen (10.26) er lineær i koeffi­ sientene cx og P og i forstyrrelsesleddet e. Det som ligger i denne, for noen kryptiske, formuleringen er for det første at modellen kan brukes som vist i (10.26) hvor modellen er lineær i Xj og Y(. Men modellen kan også brukes på en noe mer avansert måte: I (10.26) har vi anledning til å erstatte X3 med en funksjon av Xj og/eller å erstatte Yj med en funksjon avY?

310

3. Forventning lik null for forstyrrelsesleddet. Vi forutsetter at E(Ej) = 0 for alle j. 2 4. Homoskedastisitet. Var (sd = g’ for alle j. Vi forutsetter altså at variansen .til forstyrrelsesleddet alltid er lik den samme konstanten G~. 5. Ingen autokorrelasjon. Cov(Ej, Ej) = 0 når i j. Vi forutsetter altså at alle forstyrrelsesledd er parvis ukorrelerte med hveran­ dre. 2 6. Normalitet. Ej er N(0, (5~) for alle j. Alle Ej har altså identisk samme normalfordeling. 7. Identifikasjonsbetingelsen. Minst 2 Xj-er er forskjellige. Hvis alle Xj-ene er like, ligger alle observasjonene på en loddrett linje uten at dette behøver å fortelle noe om den sanne regresjonslinjens posisjon. 8. Antall observasjoner. Vi forutsetter at vi har minst 3 observa­ sjoner. Hvis vi har én observasjon kommer vi ingen vei. Hvis vi har to er regresjonsanalysen til ingen hjelp. Vi kan da like gjerne trekke en rett linje gjennom de to punktene i spred­ ningsdiagrammet.

I det følgende skal vi gi noen ytterligere kommentarer til forutsetnin­ gene: Hvis vi på grunnlag av teoretiske overveielser eller et studium av et spredningsdiagram konkluderer med at regresjonsfunksjonen ikke er lineær, kan vi ofte oppnå tilnærmet lineæritet ved å foreta en transfor­ masjon av enten den uavhengige variabelen eller av den avhengige variabelen eller av begge. Vanlige transformasjoner er f.eks. å bruke logaritmen eller kvadratroten eller den inverse verdien i stedet for den opprinnelige variabelen. Har man ikke teoretisk grunnlag for å velge transformasjon, er det lett å prøve seg fram ved å tegne forskjellige spredningsdiagrammer ved hjelp av en datamaskin. De resultatene man kommer fram til bør da helst etterprøves ved hjelp av nye data. Regnemessig er bruken av slike transformasjoner enkel. Man erstatter f.eks. alle X-er med log X og regner videre som om log X skulle ha vært X. Vi har tidligere sett at gjennomsnittet av alle de n Ej er lik 0. Nå gjør vi altså den parallelle forutsetningen at forventningen til s. er lik 0 for alle j. Å forutsette at Ej har forventning lik 0 er ensbetydende med å for­ utsette at Yj har en forventning som er lik a + pXj. Dette kan lett bevi­ ses ved hjelp av formler som blir gjennomgått i kapittel 12, men er også intuitivt lett å forstå. Vi bruker derfor den skriveformen som ble presen­ tert allerede i formel (10.2). Siden E. er normalt fordelt, følger det av setning 12.6 i kapittel 12 at

311

også Yj er normalt fordelt (j = 1,2, ..., n). Dette innebærer at hver Xj gir oss en normalfordelingskurve for Yj. Figur 10.1 kan kaste lys over for­ utsetningene. Der er det skissert to slike kurver, den ene for Xj = 170 og den andre for Xj = 180. Når vi betrakter en av de nevnte normalforde­ lingene, tenker vi oss at origo ligger på X-aksen i punktet 170 eller 180. Hvis vi forskyver origo i XY-planet parallelt med Y- aksen slik at det blir liggende på regresjonslinjen, kan vi like gjerne betrakte en slik for­ deling som en fordeling for Ej med forventning lik 0. Toppen av fordelingskurven befinner seg jo rett over regresjonslinjen. Forutsetning nr. 4 går ut på at alle disse normalfordelingene har samme standardavvik Regresion > Residual plots. Videre velger vi som «resi­ duals» RESI1 og som «fits» FITS1. Deretter klikker vi «OK». I diagrammet øverst til venstre bør punktene ligge mest mulig på en rett linje, da det er best i overensstemmelse med antakelse om normal for­ deling for forstyrrelsene. Kurven i diagrammet øverst til høyre bør ha et mest mulig tilfeldig forløp. Har denne kurven som helhet f.eks. en buet form, kan det tyde på at populasjonsregresjonsfunksjonen ikke er lineær. I diagrammet nederst til høyre bør variasjonen opp og ned omkring linjen som er merket 0 være omtrent den samme både til ven­ stre og til høyre og i midten av figuren. Vi må vel kunne konkludere med at diagrammene har et tilfredsstillende utseende i dette tilfellet. Vi har også bedt om å få et spredningsdiagram med regresjonslinjen, konfidenskonturer og prediksjonskonturer inntegnet. For å få til dette, velger vi Stat > Regresion > Fitted line og krysser av «Display of confidence bands» og «Display of prediction bands». Videre velger vi Y_vekt som «Response» og X_hoyde som «Predictors». før vi klikker OK. Resultatet er vist nedenfor:

336

OPPGAVE 10.1 (Lesere med utilstrekkelige matematikk-kunnskaper kan se bort fra denne oppgaven.)

a) Finn nødvendige betingelser for minimum av funksjonen M ved å derivere M partielt først med hensyn på a og deretter med hensyn på b og å sette de partielle deriverte lik 0. Løs de resulterende lignin­ gene simultant med hensyn på a og b og vis at du får formlene som er presentert i teksten. b) Vis at summen av é] = 0.

c) Vis at regresjonslinjen går gjennom gjennomsnittspunktet, dvs. gjennom det punktet som har (X, Y) som koordinater. OPPGAVE 10.2 Fra en populasjon av griser i alderen 4-10 måneder ble det tatt et tilfel­ dig utvalg på n = 10 griser. Brystomfanget, X i cm ble målt, deretter ble grisene slaktet. Slaktevekten Y i kg er gjengitt sammen med brystom­ fanget for hver gris nedenfor:

X(cm): Y (kg):

80 42

94 75

83 50

88 50

96 72

92 61

96 64

103 75

109 86 100 50

Tegn et spredningsdiagram. Beregn regresjonsligningen for Y med hen­ syn på X og tegn regresjonslinjen inn i spredningsdiagrammet. Beregn korrelasjonskoeffisienten, r. Beregn de 10 restleddene, £j(j = 1,2, ..., 10) og kontroller at summen av dem er lik 0. Kontroller at r også kan finnes ved å bruke formelen:

r - rXY - rYX -

1 'V

YY

(Svar: Y =-106 + 1,83X. r = 0,95.) OPPGAVE 10.3 Tykkelsen av et lag med ikke-magnetisk galvanisert sink ble bestemt på 11 stykker jern og stål. (Enhet: hundretusendels tomme.)

337

Tykkelsen målt ved den vanlige «strippemetoden»

Tykkelse målt ved den ikkedestruktive magnetiske metoden

116 132 104 139 114 129 720 174 312 338 465

105 120 85 121 115 127 630 155 250 310 443

Måling av tykkelsen ved «strippemetoden» er nøyaktig, men undersø­ kelsene er destruktive og kostbare. Den magnetiske metoden er ikke så kostbar. Estimer en enkel lineær regresjonsfunksjon Y med hensyn på X, og beregn den empiriske korrelasjonskoeffisienten r. Angi i et par setninger hvilken praktisk interesse dine beregninger kunne tenkes å ha. (Svar: Y =-1,79+ 1,12X. r = 0,996.)

OPPGAVE 10.4 Vi tenker oss at vi har avgrenset en populasjon av norske kvinner hvor hver enkelt kvinne er i akkurat passe hold, verken overvektig eller undervektig. Selv i en slik populasjon vil kvinner med samme høyde ofte ha nokså forskjellig vekt. I denne populasjonen vil vi nå operere med to tilfeldige variabler, nemlig X = høyden til en tilfeldig kvinne og Y = vekten til en tilfeldig kvinne. Vi tenker oss at vi har et tilfeldig utvalg på n = 12 kvinner fra denne populasjonen, og at vi har data for høyde og vekt for hver enkelt av disse. Tallene er gjengitt nedenfor: Høyde, X i cm: Vekt, Y i kg:

168 172 175 170 172 168 160 167 164 169 175 172 54 57 70 63 60 60 48 62 55 52 65 55

a) Tegn spredningsdiagram.

b) Finn regresjonsligningen for vekten med hensyn på høyden. 338

c) Beregn korrelasjonskoeffisienten, r. (Svar: b) Y =-111 + 0,998X. c) r = 0,71.)

OPPGAVE 10.5 I tabellen nedenfor er X observasjoner av det prosentiske innholdet av ligning (trestoff) i 10 prøver av et formiddel og Y er observasjoner av fordøyelighetskoeffisienten (prosent fordøyelighet) for organisk stoff. 59 11

65 10

64 13

64 12

72 9

74 8

69 10

71 9

42 16

74 7

a) Estimer en lineær regresjonsfunksjon for Y med hensyn på X.

b) Beregn korrelasjonskoeffisienten, r. c) Beregn korrelasjonskoeffisienten, r ved først å regne ut kovariansen etter den fremgangsmåten som er beskrevet i avsnitt 10.8.1. Deretter brukes formel (10.16). d) Tegn et spredningsdiagram på grunnlag av tallene i denneoppgaven. Trekk opp to linjer som skjærer hverandre i punktet (X, Y), den ene parallell med førsteaksen, og den andre paralldl med andreaksen. Skriv verdien av kryssproduktet (Yj - Y) (Xj - X) på hvert av punk­ tene. Hvilke fortegn kan disse kryssproduktene få i hver av de 4 kvadrantene som de to linjene deler planet i? Diskuter konsekvensen av dette for kovariansen og for helningen til regresjonslinjen. (Svar: a) É(YIX) = 101 - 3,34X. b) og c) r = -0,92.)

OPPGAVE 10.6 a) Ta for deg spredningsdiagrammet i oppgave 10.4_på nytt. Trekk en linje parallelt med førsteaksen gjennom punktet Y på andreaksen. Bruk f.eks. rød blyant og merk av på figuren de 12 linjestykkene som har lengder lik de leddene som skal kvadreres i den totale kvadratsummen. b) Bruk f.eks. blå blyant og merk av de 12 linjestykkene som har leng­ der lik de leddene som skal kvadreres i restkvadratsummen.

c) Legg merke til at hvis en regresjon sl i nje har helning, (dvs. ikke fal­ ler sammen med den vannrette linjen gjennom Y), så kommer det av at punktsvermen har en tilsvarende helning, og da må summen av kvadratene av de blå linjestykkene være mindre enn summen av kvadratene av de røde. Hvis regresjonslinjen ikke har helning, faller de to linjene sammen, slik at de to kvadratsummene blir like.

339

OPPGAVE 10.7

(Lesere med utilstrekkelige matematikk-kunnskaper kan se bort fra (a) og (b) i denne oppgaven.) a) Ta utgangspunkt i formel (10.9) og bevis formel (10.23).

b) Ta utgangspunkt i formel (10.16) som du kvadrerer og bevis formel (10.24). c) Drøft formel (40.24) og vis at 0 < r" < 1. Forklar situasjonen når r“ = 0 og når r” = 1. OPPGAVE 10.8

En forskningsgruppe ønsker å undersøke hvorledes proteininnholdet i foret virker på veksten av regnbueørret. Det ble utført et forsøk med 10 grupper ørret, hvor hver gruppe fikk forskjellig andel protein i foret (X). Gjennomsnittlig tilvekst (Y) i løpet av en periode på 8 måneder ble målt i hver gruppe. Resultatet ble følgende:

X (prosent) Y(gram)

18 22 26 30 34 38 42 46 50 54 178 214 223 244 232 255 248 261 264 259

Til hjelp for utregningene oppgis følgende:

XX = 360

XY = 2378

LX2= 14 280

EY2 = 571 996

XYX = 88 216

a) Estimer den lineære regresjonsfunksjonen for tilveksten (Y) med hensyn på proteininnholdet (X).

b) Finn et 95 prosent konfidensintervall for den sanne regresjonskoeffisienten. (Svar: a) Y = 167 + 1,98X. b) 1,15 og 2,81.) OPPGAVE 10.9

Bestemmelsen av antall røde blodlegemer ved hjelp av mikroskop er tidkrevende og gjenstand for betraktelige unøyaktigheter. Det såkalte pakkede cellevolum er mye lettere å bestemme. For å finne en mulig sammenheng mellom disse to variabler ble det tatt blodprøver fra 10 hunder. For hver av disse prøvene ble det pakkede cellevolumet, X og det tilsvarende resultatet av tellingen av røde blodlegemer, Y registrert. De resulterende data er presentert nedenfor. X er pakket cellevolum i mm , mens Y er antall røde blodlegemer i millioner. 340

X:

45 6,53

42 56 6,30 9,52

48 42 7,50 6,99

35 5,90

58 9,49

40 6,20

39 6,55

50 8,72

Til hjelp for beregningene oppgis at de aritmetiske gjennomsnittene for henholdsvis X og Y er 45,5 og 7,37 mens utvalgsstandardavvikene er 7,46 og 1,38. Kvadratet av utvalgskorrelasjonskoeffisienten er 0,905. a) Estimer en lineær regresjonsfunksjon for Y med hensyn på X.

b) Tegn et spredningsdiagram hvor du også tegner inn regresjonsfunk­ sjonen som du fant under (a).

c) Bruk konfidenssannsynligheten 0,95 og beregn konfidensgrenser for den sanne regresjonskoeffisienten. d) Bruk svaret under (a) til å anslå antall røde blodlegemer i en blod­ prøve hvor det pakkede cellevolumet er 55 mm . (Svar: a) Y = -0,645 + 0,17X. c) 0,13 og 0,22. d) 8,70.)

OPPGAVE 10.10 Tabellen nedenfor viser begynnelsesvekten og vektøkningen (gram) for 15 hunrotter på en diett med mye protein fra 24 til 84 dagers alder. Med tanke på planlegging av senere forsøk, ønsker man å undersøke om vektøkningen kan sies å avhenge av begynnelsesvekten.

Rotte nr. Begynnelsesvekt Vektøkning

1 50 128

2 64 159

3 76 158

4 64 119

5 74 133

6 60 112

7 69 96

Rotte nr. Begynnelsesvekt Vektøkning

9 56 132

10 48 118

11 57 107

12 59 106

13 46 82

14 45 103

15 65 104

8 68 126

a) Beregn en lineær regresjonsfunksjon for vektøkningen med hensyn på begynnelsesvekten. b) Test en hypotese om at den sanne regresjonskoeffisienten er lik null mot alternativet at den er større enn null. Bruk signifikansnivået 0,05. (Svar: a) Y = 55,0 + l,06X. b) tH = 2,02. d.f. = 13. t005(13) = 1,771. Signifikant. H forkastes.)

341

OPPGAVE 10.11 R. Doll presenterte i 1955 data som vist nedenfor, for en rekke land over X = sigarettkonsum pr. person i 1930 og Y = antall dødsfall av lun­ gekreft blant menn pr. million menn i 1950.

For disse data finner vi følgende:

X = 604,5

Land

Y = 206,4

n = 11

Sigarettkonsum pr. person i 1930 (X)

Dødsfall pr. million i 1950 (Y)

225 250 300 375 450 500 450 550 1100 1150 1300

60 90 115 175 180 150 240 250 350 4 r-f C\ 4/0 190

Island Norge Sverige Danmark Australia Canada Nederland Sveits Finland Storbritannia USA

S(Y-Y)2 = 141 605

Z(X-X)2= 1503 523

L(Y-Y) (X - X) = 337 807 a) Tegn et spredningsdiagram. Beregn (utvalgs)determinasjonskoeffisienten r". Estimer en lineær regresjonsfunksjon for Y med hensyn på X. Tegn grafen til denne funksjonen inn i spredningsdiagrammet.

b) Test en hypotese, H om at regresjonskoeffisienten (i populasjonen) er lik 0 mot alternativet, A at den er større enn 0. Bruk signifikansni­ vået 0,01.

c) Bruk funksjonen under (a) til å anslå (1) forventningen til Y for de land som hadde en X tilsvarende et sigarettkonsum på 600 pr. person i 1930 og (2) Y for et tilfeldig land (kall det Tyskland) som hadde en X tilsvarende et sigarettkonsum på 600 pr. person i 1930. d) Beregn (1) et konfidensintervall for E(YI600) og (2) et prediksjons­ intervall for Y for landet Tyskland under punkt (c). Bruk konhdensog prediksjonssannsynligheten 0,95. 342

(Svar: a) r2 = 0,535. Y = 70,5 + 0,22X. b) tH - 3,22. Signifikant. H forkastes, c) I begge tilfelle 205. d) (1) 147 og 264. (2) 3 og 407.) OPPGAVE 10.12 a) Estimer en lineær regresjonsfunksjon for X med hensyn på Y ved å bruke de samme observasjonene som i oppgave 10.4.

b) Tegn begge regresjonslinjene inn i samme koordinatsystem med X langs førsteaksen.

c) Finn skjæringspunktet mellom linjene. d) Demonstrer riktigheten av formel (10.50) numerisk, og bevis denne formelen algebraisk. OPPGAVE 10.13 Foreta en del eksperimentelle regresjonsberegninger (trendberegninger) på grunnlag av tallene i tabell 10.6 med tanke på å få klarhet i det som er gjennomgått i teksten. Fremstill tidsrekken og trendlinjen grafisk. (Svar: Med tidsvariabel (1) lik årstallet (2) lik de to siste siffer i årstallet (3) 0,1, 2, osv. (4) 1, 2, 3, osv. blir regresjonskoeffisienten i alle tilfelle lik 2,31, mens konstantleddet blir henholdsvis (1) -4551 (2) -163 (3) 10,2 og (4) 7,86. Med tidsvariabel -7, -5, -3, -1, 1, 3, 5, 7 blir regre­ sjonskoeffisienten lik 1,15 og konstantleddet lik 18,3. OPPGAVE 10.14 Tabellen nedenfor viser Norges nettoimport i kilo pr. innbygger av appelsiner, mandariner, klementiner o.l. for hvert av årene 1977-1981. Tallene er beregnet på grunnlag av data fra Statistisk Sentralbyrå over import, eksport og middelfolkemengde. Tallet for 1981 er foreløpig. Ved siden av årstallene er det også tatt med en kodet tidsvariabel. År 1977 1978 1979 1980 1981

Nettoimport 15,8 14,7 15,3 13,7 14,4

Tidsvariabel -2 -1 0 1 2

a) Bruk regresjonsanalyse til å beregne en lineær trendfunksjon som viser «langtidsbevegelsen» i tallene.

b) Tegn en figur som viser både de faktiske nettoimporttallene pr. inn­ bygger og funksjonen som du beregnet under (a). 343

c) Er det grunnlag for å si at nettoimporten pr. innbygger av disse citrusfruktene har forandret seg i løpet av denne perioden? Forsøk å underbygge konklusjonen din ved hjelp av et konfidensintervall eller hypotesetesting på signifikansnivået 0,05. d) Hva vil du anslå nettoimporten av disse varene til å bli i 1983 hvis «langtidsbevegelsen» ikke forandrer seg? (Merk at dette er en øvelsesoppgave. I praksis beregner man ikke trend, m.v. på så korte tidsrekker.) (Svar: a) Y = 14,8 — O,38X. c) tH = -1,91. Det er ingen signifikant trend i tidsrekken. d) 13,28)

OPPGAVE 10.15 Tabellen nedenfor viser Norges forbruk av ren alkohol i alt i brennevin, vin og øl pr. innbygger 15 år og over for de 16 årene 1966-1981. (Kilde: Statistisk Sentralbyrå.)

Ar 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981

Forbruk 3,85 4,05 4,32 4,49 4,73 4,93 5,11 5,22 5,58 5,63 5,66 5,74 5,17 5,65 5,98 5,30

a) Fremstill tallene grafisk i et koordinatsystem med tiden langs første­ aksen. (Du kan gjerne her og senere bruke en kode for tiden.)

b) Anta at alkoholforbruket i tabellen ovenfor er en tidsrekke med rett­ linjet trend eller langtidsbevegelse. Estimer en lineær regresjons­ funksjon som gir uttrykk for denne trenden. c) Fremstill trendlinjen som du fant under (b) i koordinatsystemet under (a).

d) Finn korrelasjonskoeffisienten, r. 344

e) Anta at langtidsutviklingen fortsatte på samme måte i de etterføl­ gende år. Anslå på dette grunnlag hva alkoholforbruket var i 1983. (Svar: Med origo i 1973/74 og et halvt år som enhet: b) Y = 5,09 + 0,0590X. d) 0,88. e) 6,21.) OPPGAVE 10.16 Nedenfor har vi gjengitt vinnertidene (i sekunder) ved 1500-meters løp for menn ved de olympiske sommerlekene i årene 1900-1980. (På grunn av kriger ble det ikke arrangert slike leker i 1916, 1940 og 1944.)

Ar Tid o

Ar Tid

1900

1904

1908

246,0

245,4

243,4 236,8

241,8 233,6 233,2

231,2 227,8

1948

1952

1956

1964

1972

1976

1980

229,8

225,2

221,2 215,6 218,1

214,9 216,3

219,2

218,0

1012

1960

1020

1024

1968

1928

1932

1936

a) Lag et spredningsdiagram med tiden (årene) langs førsteaksen og vinnertidene langs andreaksen.

b) Estimer en lineær regresjonsfunksjon med vinnertiden som avhen­ gig variabel og tegn den tilhørende regresjonslinjen inn i diagram­ met under (a). c) Bruk den estimerte regresjonsfunksjonen til å beregne vinnertiden i 1984. (Lat som om den ikke er kjent.)

d) Hva mener du om å bruke denne funksjonen til å lage en prognose for vinnertiden i år 2020? (Svar: b) Med origo i år 1900: Y = 245 - 0,395X. c) 211,8.) OPPGAVE 10.17 Bevis at den totale kvadratsummen SST er lik regresjonskvadratsum­ men SSF pluss restkvadratsummen SSE. OPPGAVE 10.18 En produsent av et produkt foretar forskjellige prosentvise økninger i produktprisen i åtte forskjellige områder av landet. Det følgende året måles den prosenvise forandringen i salgsvolumet. Resultatet er vist nedenfor:

345

Prosentvis forandring i prisen................... Prosentvis forandring i salgsvolum.............

6,0 5,0

4,0

7,0

7,0

6,0 10,0

8,0

5,2 7,3

7,4

4,6

5,3

5,0 -1,0

2,7

a) Estimer regresjonsfunksjonen for prosentvis forandring i salgsvo­ lum med hensyn på prosentvis forandring i pris. b) Hvordan tolker du den estimerte regresjonskoeffisienten?

c) Beregn konfidensgrenser for populasjonsregresjonskoeffisienten idet du bruker konfidenssannsynligheten 0,95.

OPPGAVE 10.19 En kjøpmann varierte prisen på en ikke lagringsdyktig forbruksvare i seks uker som fulgte etter hverandre. Pris og omsatt kvantum er vist nedenfor: Pris

Omsatt kvantum

60 62 58 60 64 62

22 20 28 25 19 24

a) Estimer en lineær regresjonsfunksjon for omsatt kvantum med hen­ syn på pris, dvs. med omsatt kvantum som avhengig variabel.

b) Tegn et spredningsdiagram med omsatt kvantum langs førsteaksen (dvs. den horisontale aksen) og pris langs andreaksen (dvs.den verti­ kale aksen). Dette er vanlig blant økonomer, men er motsatt av hva som er naturlig fra et statistisk synspunkt her. Tegn linjen som du fant under (a) inn i diagrammet sammen med punktene. Marker i diagrammet med rødt, eller med tykke streker, e.l. de linjestykkene som kvadreres og summeres og minimaliseres får vi bruker minste kvadraters metode. c) Lag en prognose for omsatt kvantum i en uke når prisen er 63.

d) Beregn lengdene av de linjestykkene som du markerte under (b) og sett dem opp i en liten tabell. Summen av dem skal bli 0 (bortsett fra avrundingsfeil). Bruk disse linjestykkene til å regne ut korrelasjons­ koeffisienten r. Den skal bli lik -0,86. 346

e) Beregn konfidensgrenser for den sanne regresjonskoeffisienten i for­ bindelse med regresjonsfunksjonen som du estimerte under (a). Bruk konfidenssannsynligheten 0,95. OPPGAVE 10.20 Nedenfor har vi vist 6 sammenhørende observasjoner av to tilfeldige variabler X og Y.

4 2

1 2

5 1

3 3

2 4

a) Finn en estimert regresjonsfunksjon med Y som avhengig variabel.

b) Finn en estimert regresjonsfunksjon med X som avhengig variabel.

c) Tegn de to regresjonslinjene du har funnet inn i et og samme dia­ gram. Det blir påstått at de to linjene skjærer hverandre i et punkt som har gjennomsnittene for de to variablene som koordinater. Er dette riktig? d) Vi er også interessert i korrelasjonen meliom de to tilfeldige varia­ blene. Hva har du å si om denne? OPPGAVE 10.21 I tabellen nedenfor er gjengitt opplysninger fra i alt n = 10 tilfeldig utvalgte hytteeiere om antall uker hytta har vært benyttet siste år (Y) og avstand i mil mellom hytte og bosted (X).

X

Y

9 2 5 7 1 4 7 5 4 6

3 18 10 8 19 10 14 3 5 10

a) Estimer en lineær regresjonsfunksjon for Y med hensyn på X.

b) Finn konfidensgrenser for den sanne regresjonskoeffisienten, idet du bruker konfidenssannsynligheten 0,95.

347

OPPGAVE 10.22 Som et mål på hardheten av drikkevann brukes mengden X (milligram/ liter) av magnesium som vannet inneholder. I en undersøkelse prøvde en å relatere denne hardheten til smakspoeng Y gitt ved hjelp av et smakspanel. Resultatene fra 8 forskjellige prøvesteder ble følgende:

Prøve­ sted nr.

1

2

3

4

5

6

7

8

X

8

9

11

8

9

12

12

19

Y

25

25

26

48

65

87

90

100

a) Estimer en regresjonslinje med smakspoeng som avhengig variabel og tegn denne inn i et diagram sammen med punktene som represen­ terer observasjonene.

b) Finn et konfidensintervall for den sanne regresjonskoeffisienten. Bruk konfidenssannsynligheten 0,95. c) Finn et 95% konfidensintervall for forventningen til smakspoeng for vann som inneholder 10 milligram magnesium pr. liter.

d) Finn et 95% prediksjonsintervall for smakspoeng for en bestemt vannprøve som inneholder 10 milligram magnesium pr. liter.

OPPGAVE 10.23 Ved en produksjonsprosess avhenger produktmengden pr. tidsenhet av mengden av produksjonsfaktor A pr. tidsenhet på følgende måte (meng­ dene av de andre produksjonsfaktorene holdes konstante): Produktmengde per tidsenhet

Mengde av faktor A per tidsenhet

40

0

70

20

90

40

100

60

100

80

a) Foreta forandring av enhetene og koding, slik at produktmengden per tidsenhet uttrykkes som -2-1 0 1 2. Disse enhetene skal 348

brukes i resten av oppgaven. Finn likningen for den estimerte regre­ sjonslinjen.

b) Bruk likningen som du fant under (a) og beregn de 5 restleddene. Kontroller at summen av restleddene er lik 0 (med mulig avrundingsfeil). c) Tegn først en spredningsdiagram hvor du også legger inn linjen du fant under a. Rett under spredningsdiagrammet tegner du et diagram med samme førsteakse. I dette diagrammen tegner du inn restled­ dene. Legg merke til at såvel spredningsdiagrammet som diagram­ met med restleddene indikerer at en krum linje ville ha vært bedre enn den rette linjen som du har funnet. OPPGAVE 10.24 Du har aksjer i et selskap, la oss kalle selskapet A/S Gøy. Du har avkastningstall for selskapet og for markedet som helhet for de 6 siste årene. Tallene er vist i tabellen nedenfor:

Avkastning i prosent

O Ar

A/S Gøy = Y

Marked = X

1

30

24

2

-20

-10

3

12

7

4

10

20

5

28

19

6

-25

-20

a) Estimer en lineær regresjonsfunksjon for Y med hensyn på X, dvs. du skal bruke avkastningen fra A/S Gøy som avhengig variabel og markedsavkastningen som uavhengig variabel.

b) Bruk konfidenssannsynligheten 0,95 og finn konfidensgrenser for den sanne regresjonskoeffisienten p.

c) Forklar hva P gir uttrykk for.

d) Skriv ned følgende 3 tall: (1) Den totale kvadratsummen. (2) regresjonskvadratsummen. (3) Restkvadratsummen. Beregn determinasjonskoeffisienten ved hjelp av de to første kvadratsummene og forklar i en setning eller to hva denne står for. 349

OPPGAVE 10.25 Nedenfor har vi gjengitt data som kan brukes til å analysere importen av bananer til Norge i årene 1906-29. (Det bør korrigeres for autokorre­ lasjon, men det ser vi bort fra i denne oppgaven.) Arene 1914-19 er ute­ latt på grunn av krigen. Variablene er følgende: Veid gjennomsnittlig importpris pluss toll for bananer, kr/kg, deflatert. (Deflatert betyr at virkningen av forandringene i det generelle pris­ nivået er fjernet.) Import av bananer, kg pr. innbygger pr. år. Dataene er printet ut nedenfor. Kolonnene er gitt navn som er lette å identifisere med definisjonene ovenfor. Row

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Aarstall PrisBana 2.45 6 7 2.98 1.58 8 2.18 9 2.13 10 11 2.06 12 1.96 1.90 13 1.92 20 2.16 21 1.94 22 1.99 23 24 2.17 1.76 25 1.94 26 27 1.88 1.79 28 29 1.81 1.79 30 1. 62 31 32 1.65 1.76 33 34 1.66 35 1.61 1.55 36 37 1.51 1.48 38 1.55 39

ImpBanan 0.210 0.398 0.468 0.551 0.500 0.423 0.492 0.539 0.945 1.025 1.186 1.475 1.293 1.638 2.156 2.411 2.534 2.862 3.001 3 . 087 2.762 1.979 2.286 2.287 2.312 2.761 2.997 2.610

a) Estimer en regresjonsfunksjon med importen av bananer som avhengig variabel og prisen på bananer som uavhengig variabel. 350

b) Beregn konfidensgrenser for regresjonskoeffisienten i populasjonen. Bruk konfidenssannsynligheten 0,95. c) (For økonomer.) Beregn etterspørselens (bananimportens) elastisitet med hensyn på prisen når prisen er 2 kr/kg.

OPPGAVE 10.26 En konservesfabrikk ønsker å finne en funksjon som kan brukes til å forutberegne kvartalsvis salg av en spesiell frossen grønnsakblanding. Man har samlet data for alle kvartaler fra og med 1. kvartal 1980 til og med 2. kvartal 1987 over følgende variabler: Samlet annonseutlegg for produktet i 1000 kr. Antall pakninger solgt fra fabrikken i enheten 1000 stk.

Observasjonene er gjengitt til slutt i denne oppgaven. Ved konfidens- eller prediksjonsintervallberegninger skal man bruke konfidens- eller prediksjonssannsynligheten 0,95.

a) Finn en regresjonsfunksjon for salget med hensyn på annonseutlegget og beregn konfidensgrenser for den sanne regresjonskoeffisien­ ten.

b) Bruk regresjonsfunksjonen du har funnet til å anslå salget i et kvar­ tal da annonseutlegget er 6,00. Skriv også ned det tilhørende konfi­ dens- og prediksjonsintervallet. ROW 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Annonser 5.5 6.8 7.5 5.5 7 .1 6.5 6.8 5.5 5.1 6.0 6.5 6.0 7.0 7.0 6.9 6.8 7.0

Salg 7.35 8.51 9.55 7.50 9.29 8.32 8.75 7.78 7.08 8.05 6.85 8.00 9.10 8.95 8.92 8.87 9.53

351

18 19 20 21 22 23 24 25 26 27 28 29 30

352

6.9 6.0 6.0 6.0 5.8 6.5 7.0 6.8 6.5 6.5 6.5 5.8 6.8

9.50 8.75 7.85 7.65 7.19 8.09 8.80 9.23 8.32 8.27 7.53 7.93 9.47

11

Simultane, marginale og betingede fordelinger

11.1 Innledning, terminologi, symboler og sammendrag Dette kapitlet er meget nyttig og nødvendig for å gi en dypere forståelse av statistikken enn det som har vært mulig hittil. Som i kapittel 10 skal vi betrakte to tilfeldige variabler samtidig. Av flere grunner betegner vi nå disse med Xo i stedet for Y og med Xj i stedet for X. For det meste skal vi arbeide med diskrete tilfeldige variabler, da dette er det enkleste. Kontinuerlige tilfeldige variabler krever integralregning. Men vi skal forklare noen hovedtrekk av den tilsvarende teorien for kontinuerlige tilfeldige variabler. Vi skal også kort omtale noen generaliseringer til et vilkårlig antall variabler. Som kjent kan variasjonen i verdiene av en enkelt diskret tilfeldig variabel beskrives ved en sannsynlighetsfunksjon. På tilsvarende måte kan den samtidige variasjonen i verdiene av to diskrete til­ feldige variabler beskrives ved en simultan (samtidig) sannsynlig­ hetsfunksjon som er en funksjon av verdiene av de to tilfeldige variablene. Denne vil vi betegne med f(X0, Xj).

Matematisk sett må vi altså nå operere med en funksjon av to variabler. Geometrisk trenger vi da 3 akser som står vinkelrett på hverandre i et tredimensjonalt rom, nemlig en X0-akse, en Xrakse og en f(X0, X|)akse. Simultane sannsynlighetesfunksjoner er grunnlaget for alt som behandles i dette kapitlet. Som før vil vi ofte bruke det enklere ordet fordeling i stedet for ordet sannsynlighetsfunksjon. Det står imidlertid fast at ordet fordeling i vår terminologi er mer omfattende, da det også kan bety sannsynlighetsretr/zezvfunksjon. Hvis vi lar være å bry oss om variasjonen i den ene tilfeldige varia­ belen og bare betrakter variasjonen i den andre, kan denne variasjonen beskrives på vanlig måte med en sannsynlighetsfunksjon av den typen vi er vant til. I denne sammenheng kalles denne imidlertid en marginal sannsynlighetsfunksjon. 353

Med to diskrete tilfeldige variabler har vi altså å gjøre med én simultan og to marginale sannsynlighetsfunksjonen Den margin­ ale sannsynlighetsfunksjonen til Xo vil vi betegne med f0(X0), mens den marginale sannsynlighetsfunksjonen til Xj får betegnel­ sen f^X^.

Hvis vi tenker oss at vi sorterer ut fra populasjonen alle gjentak som har en bestemt verdi, Xj av X]? utgjør disse gjentakene en delpopulasjon av den opprinnelige populasjonen. Variasjonen i verdiene av Xo i denne delpopulasjonen kan beskrives på vanlig måte ved en sannsynlighets­ funksjon. Denne kalles nå den betingede sannsynlighetsfunksjon til X() betinget av at Xj har verdien X] og betegnes goCXJXj = X]) eller enklere, g^XølXØ.

De enkelte verdiene av denne funksjonen er betingede sannsynligheter. Teorien for betingede sannsynlighetsfunksjoner bygger på teorien for betingede sannsynligheter. Legg merke til at det finnes like mange betingede fordelinger for Xo som det finnes mulige verdier av Xj. Lar vi X() og X] bytte rolle, kan vi på tilsvarende måte snakke om den betingede fordelingen for Xj betinget av at Xo har en bestemt verdi, Xo. Denne fordelingen betegner vi med g/XJXg = Xo) eller enklere, g/XJXø). Det finnes like mange fordelinger av denne typen som det finnes mulige verdier av den tilfeldige variabelen Xo.

Marginale og betingede fordelinger er, hvis vi tar dem ut av sin sammenheng, vanlige fordelinger av den typen vi behandlet i kapittel 4. De har derfor på vanlig måte forventninger, varianser og standardavvik som defineres og regnes ut på en tilsvarende måte som tidligere. Vi bruker naturlig nok betegnelsene marginal forventning, marginal varians, marginalt standardavvik, betinget forventning osv. på disse størrelsene.

354

Logisk sett burde rekkefølgen av kapitlene 10 og 11 ha vært byttet om. Den faktiske rekkefølgen er valgt av hensyn til studenter med liten sans for teori, og til studenter som ikke skal ha kapittel 11 som pensum. Kapittel 11 har stor verdi i seg selv, men tjener også til å gi et teoretisk grunnlag for kapittel 10. Den samvariasjonen i populasjonen som vi forsøkte å beskrive ver­ balt i kapittel 10, kan beskrives eksakt med utgangspunkt i begrepet simultan fordeling. Populasjonskorrelasjonskoeffisienten som vi ga et vagt bilde av i kapittel 10 kan således defineres direkte ut fra den simultane fordelingen. Tilsvarende vil populasjonsregresjonsfunksjonen, som ble introdusert i samme kapittel, bli definert presist senere i inne­ værende kapittel når begrepet betinget fordeling er klargjort. Da skal vi få demonstrert at populasjonsregresjonsfunksjonen for Xo med hensyn på Xj er en matematisk funksjon som gir oss de betingede forventnin­ gene for Xo uttrykt som en funksjon av verdiene av X,. Vi vil understreke at kapittel 11 helt og holdent dreier seg om populasjonen, ikke om utvalget. De tre fordelingstypene som er nevnt i kapitteloverskriften kan imidlertid presenteres i tabeller som har sine klare paralleller i utvalget.

I resten av dette innledningsavsnittet skal vi derfor tenke oss et utvalg som beskrives ved slike tabeller. Anta f.eks. at vi er interessert i en populasjon av familier (f.eks. alle ektepar i Oslo), og at vi ønsker å finne ut noe om sammenhengen mel­ lom barneantall og trangboddhet. Det utføres en empirisk undersøkelse hvor man tar et tilfeldig utvalg på n familier. For hver familie registre­ res verdiene av to tilfeldige variabler, Xo og Xj. Vi innfører symbolene, Xj, = antall barn i familie nr. j, og XOj = antall rom familie nr. j dispone­ rer (j = 1, 2, ..., n). Resultatet av undersøkelsen vil kunne summeres opp ved å presentere en rekke tabeller. Disse tabellene vil være av lig­ nende type som de tabellene vi skal bruke for å beskrive simultane, marginale og betingede fordelinger. De sistnevnte tabellene vil alltid være tabeller over sannsynligheter, dvs. brøker. Resultatene av en empi­ risk undersøkelse (utvalgsundersøkelse), derimot, vil vanligvis bli pre­ sentert i tabeller som enten inneholder antall, eller prosenter. For øvrig er de helt analoge. Man kan f.eks. presentere en tabell med antall barn i hodet av tabel­ len og antall rom i forspalten. Inne i tabellen kan man ha prosenttall i hver celle som viser hvor stor prosent av familiene som faller i hver kategori. En slik tabell svarer til en simultan fordeling. Forskjellen er at 355

vi i en simultan fordeling opererer med brøker i stedet for prosenter, og at vi tar med hele populasjonen. I en annen tabell kan man vise prosentvis fordeling av alle familiene under ett etter antall barn uten å ta hensyn til antall rom. Dette svarer til den marginale fordelingen for antall barn. Tilsvarende kan man sette opp en prosentvis fordeling av alle familiene etter hvor mange rom de disponerer uten å bry oss om antall barn. Dette svarer til den marginale fordelingen for antall rom. Videre kan man f.eks. sette opp en tabell for de familiene som har to barn og vise prosentvis fordeling av disse familiene etter hvor mange rom de disponerer. Dette svarer til den betingede fordelingen for antall rom betinget av at antall barn er lik to. Det finnes flere betingede forde­ linger for antall rom, nemlig en fordeling for hvert barneantall. På til­ svarende måte finnes det en betinget fordeling for antall barn for hvert eneste romantall. I det følgende skal vi presentere en detaljert behand­ ling.

11.2 Simultane fordelinger La oss betrakte to diskrete tilfeldige variabler Xo (svarer til Y) og Xj (svarer til X). Vi vil ta for oss en vilkårlig verdi, Xo blant de verdier Xo kan ha og en vilkårlig verdi X! blant de verdier Xj kan ha. Sannsynlig­ heten for at X() skal ha verdien Xo og at Xj samtidig skal ha verdien X} kan skrives som P((X0 = Xo) n (Xj = XØ). Prinsipielt kunne vi tenke oss å finne denne sannsynligheten ved opptelling av gjentak i en (endelig) populasjon. La oss anta at sannsyn­ ligheten kan skrives som en funksjon, f(X0, Xj) av Xo og XP Vi får da: (11.1) P((X0 = X0)n(X1=X1)) = f(X0,X])

DEFINISJON 11.1 SIMULTAN SANNSYNLIGHETSFUNKSJON: En funksjon f(X0, Xj) som tilfredsstiller (11,1) for alle de sammenhørende ver­ dier som kan forekomme av de to diskrete tilfeldige variablene Xo og Xj kalles den simultane (samtidige) sannsynlighetsfunksjonen til Xo og Xj. På tilsvarende måte kan vi opererere med en simultan fordeling for mer enn to tilfeldige variabler. Vi vil belyse det hele med et eksempel.

356

EKSEMPEL 11.1 TERNINGKAST OG MYNTKAST: La Xo være resultatet av et tilfeldig kast med en «riktig» mynt, og Xj resultatet av et tilfeldig kast med en «riktig» terning. Xo kan da ha verdien 0 som vi lar stå for mynt, eller 1 som vi lar stå for krone. Xj kan ha verdiene 1, 2, 3, 4, 5 eller 6. Anta at vi foretar et kast med mynten og terningen samtidig og noterer resultatet. Vi kan da tenke oss 12 forskjellige resultater med sannsynligheter som vist i tabell 11.1.

Tabell 11.1 Mulige utfall og tilhørende sannsynligheter ved kast med en mynt og en terning samtidig. Verdier av Xo (Det vil si resultatet av myntkastet)

1

2

3

4

5

6

0 1

1/12 1/12

1/12 1/12

1/12 1/12

1/12 1/12

1/12 1/12

1/12 1/12

1/2 1/2

Sum

1/6

1/6

1/6

1/6

1/6

1/6

1

Verdier av Xf (Dvs. resultatet av terningkastet)

Sum

De 12 sannsynlighetene inne i tabellen kan vi kalle simultane sannsyn­ ligheter. Disse er verdier av den simultane sannsynlighetsfunksjonen for Xo og Xj som kan skrives slik: (11.2) P((X0 = Xo) n (Xj =X])) = f(X0,X])= 1/12

(Xo = O eller 1; X, = 1,2,

eller 6)

At f(X0, Xj) = 1/12 uansett hvilket par av verdier av Xo og Xj vi spesi­ fiserer, kan lettest begrunnes ved å si at det er 12 mulige resultater ved et slikt kombinert kast, og at vi har all grunn til å anta at alle 12 mulig­ hetene er like sannsynlige. (Vi vil gi en annen begrunnelse i avsnitt 11.4.) Den simultane sannsynlighetsfunksjonen er i dette tilfellet en konstant funksjon, altså en meget enkel funksjon. Den kan fremstilles grafisk i et tredimensjonalt aksesystem som vist i figur 11.1.

357

f(Xo , X,) A

Figur 11.1 Det simultane sannsynlighetsfunksjonen i tabell 11.1 frem­ stilt grafisk.

Hvis vi i dette eksemplet bare hadde brydd oss om resultatet av myntkastet, kunne vi si at vi har å gjøre med en tilfeldig variabel Xo med sannsynlighetsfunksjon gitt ved (11.3): (11.3) P(X0 = Xo) = f0(X0) = 1/2

(Xo = 0 eller 1)

Dette er en vanlig sannsynlighetsfunksjon av den typen vi behandlet i kapittel 4 (sammenlign med formel (4.1)), men fordi den nå forekommer i en sammenheng hvor vi også har en annen tilfeldig variabel, betegner vi den som den marginale sannsynlig­ hetsfunksjonen til Xo. Vi ser at denne funksjonen faktisk er tabellert i de to kolonnene i margen lengst til venstre og lengst til høyre i tabell 11.1. Vi finner variabelverdiene lengst til venstre og funksjonsverdiene eller sannsynlighetene lengst til høyre. Navnet marginal sannsynlighetsfunksjon er derfor nokså naturlig. Sann­ synlighetene i margen i tabell 11.1 kan vi kalle marginale sann­ synligheter.

358

På tilsvarende måte kan vi si at Xj har en marginal sannsynlighetsfunk­ sjon gitt ved (11.4). Denne er tabellert i margen øverst og nederst i tabell 11.1.

(11.4) P(X, = X1) = f](X1) = 1/6

(X, = 1,2, ...,eller6)

Dette er samme funksjon som vi betraktet i eksempel 4.1. Eksempel 11.1 er meget spesielt. Vi skal komme tilbake til dette. Vårt neste eksempel er også meget spesielt, men på en annen måte. Det tredje eksemplet vi skal se på er mer «midt i mellom».

EKSEMPEL 11.2 4-BARNS-FAMILIER: Vi skal nå ta for oss eksempel 4.2 på nytt. Der betraktet vi en tilfeldig variabel X = antall gutter i en tilfeldig 4-barnsfamilie. Det var imidlertid vilkårlig at vi konsentrerte oss om guttene. Vi kunne like gjerne ha tatt for oss en tilfeldig variabel Y = 4 - X = antall jenter i en tilfeldig 4-bams-familie. En tredje mulighet hadde vært å operere med begge disse tilfeldige varia­ blene samtidig. Vi skal se at disse tre mulighetene i tur og orden gis oss to marginale og en simultan fordeling som belyser et og samme fenomen.

Det er da hensiktsmessig å skifte symboler. Dette gjør vi på følgende måte: Gammelt symbol

Nytt symbol

X n-X( = 4-X) p ( = 0,52) 1 - p = q ( = 0,48)

x. Xo Pl Po

Symbolforklaring Antall gutter Antall jenter Sannsynligheten for gutt Sannsynligheten for jente

Det overlates til leseren å forvisse seg om at de to marginale og den simultane fordelingen i dette eksemplet kan skrives på følgende måte:

(11.5) f0(X0)

0,48X() O,524~Xo

(Xo = O, 1,2, 3 eller 4)

359

4

0,52X1 0,484-x

(H.6) MXp =

(X] =0, 1,2, 3 eller 4)

0,48x° O,52X|

(11.7) f(X0,X,) = A0!A].

(X0,Xj =0, 1,2, 3 eller 4, men Xo + X! =4) Alle tre funksjonene er tabellert samtidig i tabell 11.2. Tabell 11.2 Funksjonsverdier regnet ut etter (11.5) - (11.7). Verdier av Xo (Dvs. antall jenter) 0 1 2 3 4

/i^i)

Verdier av Xj (Dvs. antall gutter)

f0(x0)

0

1

2

3

4

0 0 0 0 0,0531

0 0 0 0,2300 0

0 0 0,3738 0 0

0 0,2700 0 0 0

0,0731 0 0 0 0

0,0731 0,2700 0,3738 0,2300 0,0531

0,0531 0,2300

0,3738

0,2700

0,0731

1,0000

Vi ser at i denne tabellen, såvel som i tabell 11.1, kan de margin­ ale sannsynlighetene finnes ved å summere de simultane sannsyn­ lighetene linje for linje og kolonne for kolonne. Dette er felles for alle slike tabeller.

Men tabell 11.2 skiller seg klart fra tabell 11.1 ved at de simultane sann­ synlighetene nå ikke lenger fremstår som produktet av de marginale sannsynlighetene på samme linje og i samme kolonne. Eksempel 11.2 er meget kunstig. Ingen ville i praksis finne på å sette opp noe slikt. Likevel er eksemplet, som vi skal se etter hvert, meget lærerikt. Det pussige er at de tre funksjonene (11.5) - (11.7) faktisk beskriver nøyaktig samme fenomen, bare sett fra litt forskjellige syns­ vinkler. Utgangspunktet for dette eksemplet er en ^/normalfordeling. Bi betyr to. 1 et binomisk problem inngår det egentlig to tilfeldige variabler, men i praksis eliminerer vi den ene av disse. Legg merke til hvor symme­ trisk Xo og p0 på den ene side og X] og pj på den andre, inngår i formel . (11.7) 360

I eksempel 11.2 hadde vi å gjøre med en populasjon hvor det var to slags gjentak.

La oss nå generalisere binomialsituasjonen til en tilsvarende situa­ sjon hvor det finnes 3 slags gjentak, f.eks. gjentak med kjenneteg­ nene A. B og C. Sannsynlighetene for A, B og C er henholdsvis p0, pj og p2. Vi trekker et tilfeldig utvalg på n gjentak fra popula­ sjonen. Det forutsettes enten at populasjonen er uendelig eller at trekningen foregår med tilbakelegging etter hver trekning. Antall gjentak med kjennetegnene A, B og C i dette utvalget vil vi betegne med henholdsvis Xo, X] og X2. Tenker vi på gjentatte utvalg, får vi da å gjøre med 3 tilfeldige variabler Xo, Xj og X2. Den simultane sannsynlighetsfunksjonen for disse tre tilfeldige variablene kalles en trinomisk sannsynlighetsfunksjon (tri = tre).

Den kan skrives på følgende måte:

(11.8) f 2 når X, = 2?

b) Hva er standardavviket til Xo når Xj = 1 ? c) Begrunn at populasjonsregresjonsfunksjonen for Xo med hensyn på Xj er likEiXolXj =X,)= 1 + 2Xk * Besvarelsen av oppgave 11.6 krever lite regning. Legg merke til at oppgaven ville hatt god mening også om vi hadde valgt å oppfatte Xt-verdiene som gitte konstanter og ikke som verdier av en tilfeldig variabel XP Sammenlign med diskusjonen av regresjonsmodell og korrelasjonsmodell i avsnitt 10.9.

OPPGAVE 11.7 To tilfeldige variabler Xo og X] har følgende simultane sannsynlighets­ funksjon: , v

— (X, + 1)

x0

f« x)-e 2 e (X1 + 1) t(A0, X,) - —--------------- —----------Æo.

Æ].

a) Hva er ligningen for regresjonsfunksjonen til Xo med hensyn på Xj?

b) Hvilken funksjonell sammenheng er det mellom X] og standard­ avviket til Xo? c) Hvor stor er sannsynligheten for både Xj < 1 og Xo < 1 ?

OPPGAVE 11.8 Nedenfor har vi gjengitt den simultane sannsynlighetsfunksjonen for to tilfeldige variabler X og Y. Verdier av X

Verdier av Y

20

40

60

5

1/3

0

0

10

0

1/3

0

15

0

0

1/3

Skriv ned de marginale sannsynlighetsfunksjonene for X og Y, og finn korrelasjonskoeffisienten mellom de to tilfeldige variablene.

383

OPPGAVE 11.9

La den simultane sannsynlighetsfunksjonen for to tilfeldige variabler Xo og Xj være: f(X0, X,) = k(8 - X,2 - Xo) Xo = 2, 3, eller 4 X, = 0, 1, eller 2. a) Vis at k = 1/30.

b) Vis at den marginale fordelingen til X, er fj(Xj) = 0,1(5 - Xf). c) Vis at den betingede forventningen til Xo gitt at Xj = Xj er 2

43-9X7 E(X0IXj) =---------- X, = 0, 1, eller 2. 15-3Xj

d) Beregn kovariansen mellom Xo og XP

OPPGAVE 11.10 En personalsjef i en stor bedrift har mistanke om at stillingssøkere som har hatt mange stillinger før vil være mer tilbøyelige til å forlate bedrif­ ten forholdsvis raskt etter at de er blitt ansatt enn søkere som har hatt få tidligere stillinger. En gjennomgang av arkivmateriale for alle ansatte som ble i bedriften 4 år eller mindre ga en simultan sannsynlighetsfunk­ sjon for denne populasjonen som er vist i følgende tabell: Antall tidligere stillinger, X

Antall år før sluttet, Y

1

2

3

4

1

0,03

0,05

0,10

0,12

2

0,05

0,06

0,08

0,07

3

0,07

0,06

0,06

0,02

4

0,07

0,09

0,05

0,02

a) Finn den marginale sannsynlighetsfunksjonen til X. Finn deretter forventningen, variansen og standardavviket i denne marginale for­ delingen. b) Finn den marginale sannsynlighetsfunksjonen til Y. Finn deretter forventningen, variansen og standardavviket i denne marginale for­ delingen. c) Beregn kovariansen og korrelasjonskoeffisienten mellom X og Y.

d) Beregn de 4 betingede fordelingene for Y.

e) Beregn de betingede forventningene for Y. 384

f) Bruk tidligere resultater til å svare kort på følgende spørsmål: Er X og Y uavhengige tilfeldige variabler? Er regresjonsfunksjonen for Y med hensyn på X lineær?

OPPGAVE 11.11 I en bedrift er det to avdelinger. I avdeling A er det ansatt 8 menn og 4 kvinner, tilsammen Nj = 12 personer. I avdeling B er det ansatt 2 menn og 6 kvinner, tilsammen N? = 8 personer. De ansatte skal velge 4 representanter til en komite. Det blir foreslått at hver avdeling skal velge 2 representanter til komiteen og at valgene skal foregå ved loddtrekning innen hver avdeling. Vi definerer følgende to tilfeldige variabler: X = antall valgte menn fra avdeling A Y = antall valgte menn fra avdeling B. (Vi kan f.eks. tenke oss at valg blir foretatt hvert år. De to tilfeldige variablene vil da ha forskjellige verdier fra år til år.) a) Finn sannsynlighetsfunksjonen f/X) til X og finn sannsynlighets­ funksjonen f2(Y) til Y. b) Finn den simultane sannsynlighetsfunksjonen f(X,Y) til X og Y.

Finn kovariansen mellom X og Y. Måten du gjør dette på kan du velge selv, bare du forklarer fremgangsmåten.

d) Vi definerer følgende tilfeldige variabel: Z = antall menn blant de fire valgte. Finn sannsynlighetsfunksjonen til Z. e) En kvinne blant de ansatte mener at valgmetoden er kjønnsdiskrimi­ nerende. Hva mener du? Begrunn svaret. OPPGAVE 11.12 La x være antall rådyr som felles innen et bestemt jaktområde i et tilfel­ dig år, mens y er antall elg som felles. Det er tillatt å felle maksimalt 2 rådyr og 1 elg hvert år. Disse reglene blir alltid fulgt. Den simultane sannsynlighetsfunksjonen for de to tilfeldige variablene er gitt ved: 9

9

f(x, y) = 0,2 + 0,lx - 0,2y - 0.lx“ + 0,lxy + 0,1 x“y

a) Sett opp en tabell over de simultane og marginale sannsynlighetene i forbindelse med denne fordelingen. Du bør vite hvilke krav disse sannsynlighetene skal tilfredsstille, slik at du har en rimelig kontroll med at du har regnet riktig. Regner du feil, vil det bli vanskelig å løse andre punkter.

b) Den marginale sannsynlighetsfunksjonen f (y) for y er matematisk sett ganske enkel. Prøv deg fram til du finnér en formel for denne. 385

c) Det blir påstått at den marginale sannsynlighetsfunksjonen til x er gitt ved: fx(x) = 0,2 + 0,3x - 0,1 x".

Er dette riktig?

d) Det kan vises at de betingede fordelingene til y betinget av x er gitt ved gy(ylx = x)= 1 -0,5x-y + xy.

Sett opp en fullstendig tabell over denne funksjonen.

e) Det kan vises at populasjonsregresjonsfunksjonen for y med hensyn på x er gitt ved følgende funksjon: E(ylx = x) = 0,5x.

Demonstrer riktigheten av denne funksjonen ved å føye til de betingede forventningene i tabellen under d.

f) Er regresjonsfunksjonen under punkt e lineær? Elva er i tilfelle stør­ relsen på regresjonskoeffisienten og konstantleddet? g) Finn populasjonskovariansen mellom x og y når du får opplyst at var(x) = 0,56.

386

12

Litt om lineære funksjoner av tilfeldige variabler

I setning 5.6 og i etterfølgende kommentarer har vi forklart hva vi mener med en funksjon av en tilfeldig variabel. Også i setning 10.1 har vi vært inne på det samme. Begrepet er meget sentralt i statistikken. I dette kapitlet skal vi spesielt se på noen setninger som dreier seg om forventningen og variansen til lineære funksjoner, men enkelte beslek­ tede temaer vil også bli berørt. Kjennskap til dette stoffet vil gi en langt dypere forståelse av statistikken og vil gjøre det mulig å bevise en del viktige resultater på en enkel måte. Noe av det som gjennomgås kan også brukes direkte til å løse praktiske problemer. I, . . .. rz

r7 . . _ - -

....

.

.

.......------------------

.

...

~~n

--------------- ---------------

I

Resultatene i dette kapitlet gjelder like fullt uansett om det er dis­ krete eller kontinuerlige tilfeldige variabler som inngår i proble­ met.

12.1 En lineær funksjon av en enkelt tilfeldig variabel Dette er det enkleste tilfellet, men likevel viktig.

12.1.1 Definisjon og eksempler Vi har tidligere latt symbolet L stå for en populasjon. I dette kapittelet skal vi bruke L som symbol for en lineær funksjon, men det skulle ikke være fare for misforståelser.

DEFINISJON 12.1 EN LINEÆR FUNKSJON AV EN TILFELDIG VARIABEL. LINEÆR TRANSFORMASJON: La L og V være to tilfeldige variabler som knytter seg til én og samme populasjon. La videre og X være to konstanter. Vi forutsetter at det til hver verdi, V av V svarer en verdi, L av L som er gitt ved (12.1). Vi sier da at L er en 387

lineær funksjon av V og uttrykker dette ved (12.2). I et utvalg på n gjentak fra populasjonen vil vi betegne verdien av L og V for gjentak nr. j med henholdsvis L. og Vj. For utvalget kan vi derfor skrive (12.3). Ligningen (12.2) kalles også en transformasjonsligning. Vi sier at vi har foretatt en lineær transformasjon fra den til­ feldige variabelen V til den tilfeldige variabelen L.

(12.1) L = X0 + XV (12.2) L = X0 + XV (12.3) Lj = Xo + Å,Vj

(j = l,2, ...,n)

Lineære funksjoner eller transformasjoner er belyst nedenfor ved en rekke eksempler. Et eksempel på en slik lineær transformasjonsligning får vi hvis populasjonsregresjonsfunksjonen for en tilfeldig variabel L med hensyn på en annen tilfeldig variabel V er lineær og populasjonskorrelasjonskoeffisienten er enten lik 1 eller lik -1.

EKSEMPEL 12.1 4-BARNSFAMILIER: Dette er eksempel 11.2 om igjen, men vi skal nå se nærmere på det fra en litt annen synsvinkel. La V være antall gutter i en 4-barnsfamilie, og la L være antall jenter. Det er da åpenbart at L = 4 - V. I dette eksemplet er altså Xo = 4 og Å = -1. Dette er for øvrig det samme som henholdsvis konstantleddet og regresjonskoeffisienten i populasjonsregresjonsfunksjonen for antall jenter med hensyn på antall gutter.

EKSEMPEL 12.2 TEMPERATURMÅLINGER: Anta at vi har et termometer hen­ gende på et ganske bestemt sted i Oslo, og at termometeret har to skalaer, en med Celsiusgrader og en med Fahrenheitgrader. La V være temperaturen målt i Celsiusgrader den 1. januar kl. 0,00 et tilfeldig år, mens L er den samme temperaturen målt i Fahren­ heitgrader. Da vet vi at L = 32 + 1,8V. Her er altså Xo = 32 og Æ = 180/100. Dette er et eksempel på en transformasjon hvor vi foran­ drer 0-punkt og enhetslengde på måleskalaen. (Se figur 12.1) Vi vet at 0 på Celsiusskalaen er lik 32 på Fahrenheitskalaen. Xo som

388

her er lik 32 har altså å gjøre med plasseringen av O-pimktet ved slike transformasjoner. Dette tallet uttrykker 0-punktet i den opp­ rinnelige (Celsius) skalaen målt i de nye (Fahrenheit) enhetene. Videre vet vi at avstanden mellom frysepunktet og kokepunktet er lik 100 på Celsiusskalaen og 180 på Fahrenheitskalaen. X som her er lik (180/100) = 1,8 har altså å gjøre med forandring av enhet­ slengden ved slike måleskalatransformasjoner. Tallet uttrykker enhetslengden i den gamle (Celsius) måleskalaen målt i de nye (Fahrenheit) enhetene.

EKSEMPEL 12.3 VALUTATRANSFORMASJON: La oss betrakte en populasjon som består av alle eneboligsalg i USA i 1995. La V være prisen på en tilfeldig enebolig målt i dollar. Vil vi sammenligne med norske forhold, kan det være naturlig å regne om disse prisene til norske kroner. La L være prisen på den samme tilfeldige eneboligen målt i kroner. Hvis kursen er 7 kroner pr. dollar, får vi: L = 7V. Her er Xo = 0 og 1 = 7. Dette er altså eksempel på en lineær transforma­ sjon (måleskalatransformasjon) hvor man forandrer enhetslengde, men ikke 0-punkt. (Hvis man er «blakk» i en valuta, hjelper det ikke å veksle over til en annen valuta, 0 er 0, uansett.)

c

F

100 -I - 212 .

V

Eksempel 12.2, temperaturmålinger.

var (X)

Eksempel 12.4, standardisering.

Figur 12.1 Eksempler på måleenhetstransformasjoner 389

EKSEMPEL 12.4 STANDARDISERING: I definisjon 4.11 er det forklart hva det vil si å standardisere en tilfeldig variabel. Utgangspunktet er en tilfel­ dig variabel X (eller V) med forventning lik E(X) = p og med stan­ dardavvik lik 7var (X) = G. Vi danner en ny tilfeldig variabel Z (eller L) ved hjelp av transformasjonsligningen (12.4) z = 7var(X)

For å få klarere fram at dette er en lineær transformasjon, skriver vi (12.4) på følgende måte: (12.5) Z = -

E(~) + 1 X 7var (X) 7var (X)

Hvis vi nå sammenligner (12.5) med (12.2), ser vi at vi har å gjøre med en lineær funksjon, idet både E(X) og var(X) jo er konstanten Vi ser at Xo svarer til -E(X)/7var (X). Dette tallet uttrykker 0-punktet i den gamle (X) skalaen målt i de nye (Z) enhetene (se figur 12.1). Videre svarer X til l/^/var (X). Dette tallet uttrykker 1 enhet i den gamle (X) skalaen målt i de nye (Z) enhetene.

EKSEMPEL 12.5 RELATIV FREKVENS: Vi tar for oss eksemplet i begynnelsen av avsnitt 6.9 og betrakter funksjonen

(12.6) p = X/n Her er X en binomisk fordelt tilfeldig variabel med parametere n og p. Ved å skrive funksjonen som vist i (12.7) og ved å sammen­ ligne (12.7) med (12.2), ser vi lett at dette er en lineær funksjon.

(12.7) p = 0 + -X n I dette tilfellet er Xo = 0, mens X = 1/n.

390

12.1.2 Konsekvenser for fordeling, forventning og varians I alle eksemplene i forrige avsnitt kan vi tenke oss at V har en eller annen fordeling. Et problem som ofte melder seg i slike tilfelle er å finne ut hvilken fordeling L har. Vi skal ikke ta opp dette problemet i sin bredde, men bare presentere noen nyttige resultater.

SETNING 12.1 EN LINEÆR FUNKSON AV EN NORMALT FORDELT TIL­ FELDIG VARIABEL: Hvis V er normalt fordelt og L er en lineær funksjon av V, kan det bevises at også L er normalt fordelt. En lineær funksjon av en normalt fordelt tilfeldig variabel er altså selv normalt fordelt.

Det er setning 12.1 vi benytter oss av når vi i tilknytning til eksempel i 2.4 sier at hvis X er normalt fordelt, så er også Z normalt fordelt. Selv om vi ikke alltid kan finne fordelingen til L, så skal vi nedenfor vise hvordan vi kan løse den mer begrensede oppgaven å finne forvent­ ningen og variansen til L når forventningen og variansen til V er kjent.

(12.8) E(L) =

+ ÅE(V)

eller

pL = Åo + Apv

Ved hjelp av setning 12.2. finner vi lett at forventningen til antall jenter i eksempel 12.1 er lik 1,92 hvis forventningen til antall gutter er lik 2,08. I eksempel 12.2 finner vi at hvis forventningen til temperaturen målt i grader Celsius er-15, så er forventningen til temperaturen målt i grader Fahrenheit lik 5. Er E(V) = 50 000 dollar i eksempel 12.3, så fin­ 391

ner vi at E(L) = 350 000 kroner. I forbindelse med eksempel 12.4 kan vi ganske enkelt sette forventningsymbolet E foran L og V i (12.4) eller (12.5). Dermed får vi straks det viktige resultatet at E(Z) = 0. I eksem­ pel 12.5 går vi fram på tilsvarende måte og ser da straks at E(p) = p . Dermed har vi bevist det viktige resultatet at per en forventningsrett estimator av p.

SETNING 12.3 VARIANSEN TIL EN LINEÆR FUNKSJON AV EN TIL­ FELDIG VARIABEL: Hvis L er en lineær funksjon (12.2) av V, kan det vises at variansen til L er gitt ved (12.9). Derav følger at standardavviket er gitt ved (12.10). (12.9)

var(L) = Å2var(V) eller crL = Å ov2

(12.10) 7var (L) - Wvar (V)

eller

oL = Åov

Av (12.9) finner vi lett at hvis variansen til antall gutter i eksempel 12.1 er lik 0,9984, så er variansen til antall jenter lik (—1 )20,9984 - 0,9984. At variansen er lik for antall gutter og antall jenter er naturlig, da det dreier seg om variasjonen i samme fenomen, nemlig kjønnsfordelingen blant barna. Tenker vi oss at standardavviket til V i eksempel 12.2 er lik 5 grader Celsius, finner vi lett av (12.10) at standardavviket til L er 9 grader Fahrenheit. Med utgangspunkt i (12.5) som sammenlignes ledd for ledd med (12.2), finner vi ved innsetting i (12.10) at standardavviket til Z er lik 1. Sammen med tidligere resultater i dette kapitlet har vi da alt i alt bevist det viktige resultatet at når X er N(p,o") så vet vi at Z (definert ved (12.4)) er N(0,l2).

Det er bemerkelsesverdig at Åo ikke inngår i formlene (10.9) og (10.10). Det kommer av at varians og standardavvik er mål for variasjon (omkring forventningen). Variasjonen er den samme uansett hvor vi velger å plassere nullpunktet. Vi får ofte bruk for formlene (12.8) og (12.9), fordi det ofte er aktuelt i statistikken å finne forventningen og variansen til en tilfeldig variabel som er en funksjon av en annen tilfeldig variabel.

392

Mange studenter synes å være noe i villrede i forbindelse med denslags problemstillinger. Vi foreslår derfor følgende fremgangs­ måte: (1) Undersøk om den gitte funksjonen er lineær. Første steg i denne undersøkelsen kan være å skrive den på formen (12.2), slik som vi gjorde med (12.4) da vi skrev den på formen (12.5). Deretter sammenligner vi den funksjonen vi da får ledd for ledd med (12.2) og kontrollerer at den matematiske strukturen er den samme i begge. På venstre side i den ligningen vi får skal vi altså finne en tilfeldig variabel som vi kan kalle L. På høyre side skal vi finne en konstant som vi kan kalle pluss en konstant som vi kan kalle X ganger en tilfeldig variabel som vi kan kalle V. Noe mer skal vi ikke finne. (2) Når vi eventuelt har erkjent at den gitte funksjonen er lineær og har identifisert de forskjellige leddene, er analogien klar, og det er da lett å løse problemene ved innsetting i (12.8) og (12.9).

Vi har beskrevet dette så detaljert fordi fremgangsmåten er tilsvarende i de mer kompliserte tilfellene vi kommer til nedenfor. Erfaringsmessig har mange studenter problemer med å anvende en slik analogi. Man bør spesielt være oppmerksom på at konstantene og Å kan ha alle mulige verdier. Således kan Åo f.eks. være lik 0, og Å kan f.eks. være lik 1 eller-1. For å kaste mer lys over det som skjer ved en transformasjon av typen (12.2) skal vi se litt nærmere på eksempel 12.2. La oss som før anta at E(V) = -15 grader Celsius og at 7v^r (V) = 5 grader Celsius. Da finner vi som vist tidligere at E(L) = 5 grader Fahrenheit og at Vvar (L) = 9 grader Fahrenheit. Til en videre illustrasjon vil vi tenke oss at V er normalt fordelt. Da er også L normalt fordelt ifølge setning 12.1. For å illustrere hva dette betyr matematisk, har vi gjengitt de to sannsynlighetstetthetsfunksjonene i (12.12). (V+ 15)

1

(12.12) fv(V) = -g=e SÆ

2

2 5’

2

o

(L-5)2* *1 *

1

fJL) = —Ue 29 9,/2n

2

De to sannsynlighetsfunksjonene er fremstilt grafisk (kun illustrati v fri­ håndstegning) i figur 12.2 nedenfor. I figur 12.2 har vi illustrert transformasjonen ved å tenke oss at vi har et fast 0-punkt og en fast enhetslengde på førsteaksen. En alternativ måte å tenke seg en slik transformasjon på er antydet i figur 12.1 (høyre

393

Figur 12.2 Illustrasjon av eksempel 12.2 m.v. del) hvor kurven tenkes å ligge fast, men hvor man forandrer måleskalaen på førsteaksen (en X-skala og en Z-skala).

12.1.3 Konsekvenser for utvalgsgjennomsnitt og utvalgsvarians Setningene 12.2 og 12.3 har en eksakt parallell som gjelder for et utvalg. Denne er gjengitt i setning 12.4 nedenfor. Ved å ta med og bevise denne, kaster vi enda mer lys over det viktige temaet, lineære transformasjoner. Dessuten har setningen en viss interesse i forbindelse med praktiske beregninger.

SETNING 12.4 GJENNOMSNITT OG UTVALGSVARIANS VED EN LINEÆR TRANSFORMASJON AV EN TILFELDIG VARIABEL: Anta at den tilfeldige variabelen L er en lineær funksjon av den tilfeldige variabelen V som vist ved likning (12.2). Anta videre at vi har et utvalg på n observasjoner av V. De tilhørende n observasjonene av L vil da kunne beregnes etter likning (12.3). Hvis gjennomsnittet, utvalgsvariansen og utvalgsstandardavviket for de n observasjo­ nene av y er lik henholdsvis V, sv2 og sv, kan de tilsvarende stør­ relsene L, sL2 og sL for de n observasjonene av L finnes av formlene (12.13) og (12.14).

394

(12.13) L = Z0 + Å,V (12.14) sL2 = Z2sv2

eller

sL = Xsv

Setning 12.4 kan brukes på forskjellige måter til å forenkle praktiske beregninger. Dette er ikke så viktig nå i dataalderen som tidligere, men har fremdeles betydning. For øvrig viser vi til oppgave 2.8 som nå kan komme i et klarere lys. Som et lite eksempel på bevisførsel ved hjelp av reglene for regning med summetegn har vi nedenfor bevist formlene (12.13) og (12.14).

n

n

Zb £ _ j = 1

n

¥(/.., +/A.) - J = 1______________

n

nV^ZVi - _________ J = 1

n

n

= Xo + XV

2

n

n

Z(Lj-E)

X (^ + XV,-X0-?.V)

. j - 1 = J= I____________________________

n-1

n- 1

L

n

py (Vj-v)2 j = 1

.22

= —----------------- = X sv n

En lineær funksjon av to tilfeldige variabler Vi skal nå generalisere resultatene i avsnitt 12.1.2 til det tilfelle at en til­ feldig variabel L er en lineær funksjon av to tilfeldige variabler Vj og V2. Først skal vi se på et eksempel.

EKSEMPEL 12.6 KASSEPRODUKSJON: Anta at vi driver produksjon av kasser av et bestemt slag under meget enkle forhold på følgende måte. Det er ingen inflasjon, slik at alle priser, lønninger, etc. er faste. Vi leier produksjonslokaler til en fast pris pr. uke. Vi leier også varierende mengde arbeidskraft etter behov til en fast timelønn. Arbeiderne holder seg selv med det verktøy de trenger uten ekstra betaling. Videre kjøper vi råvarer til faste priser. Råvareforbruket pr. kasse er konstant. Vi innfører følgende symboler: V} = antall arbeidsti­ mer vi har leid i løpet av en tilfeldig uke. V2 = antall kasser vi har 395

produsert i løpet av den samme tilfeldige uken. L = de totale kost­ nadene ved denne produksjonen i løpet av den samme tilfeldige uken. Sammenhengen mellom de tre tilfeldige variablene V]5 V2 og L kan nå skrives som vist i (12.17). (12.17) L = Z0 + Z1 Yi + Z2 V2 Her er Zo, Z| og Z2 konstanten La oss se hvordan de kan tolkes: Zo = faste kostnader pr. uke. X] = timelønnen. Z2 = materialkostna­ der pr. kasse.

I uttrykket (12.17) sier vi at L er en lineær funksjon av de to tilfeldige variablene Yi og V2. Funksjonen (12.17) er en direkte generalisering av funksjonen (12.2). Vi skal se at resultatene (12.8) - (12.10) også kan generaliseres på en nokså naturlig måte.

SETNING 12.5 FORVENTNING OG VARIANS TIL EN LINEÆR FUNKSJON AV TO TILFELDIGE VARIABLER: La L, Yi og V2 være tre til­ feldige variabler med verdier som knytter seg til samme gjentak («generaliserte parobservasjoner»). La videre Zo, Zj og Z2 være tre konstanten Populasjonskorrelasjonskoeffisienten mellom Y] og Y2 vil vi betegne med p]2. Hvis L er en lineær funksjon av Yj og V2 som vist i uttrykket (12.17), kan det vises at forventningen og variansen til L er gitt ved formlene (12.18) og (12.19).

(12.18) E(L) = Z0 + Z1E(Y1) +X2E(Y2) eller Pj = Z0 + Z]p]+Zoø2 9

9

(12.19) var(L) = X|Var(V,) + X2var(V2)

+ 2p12X1Å.27var (Vj) Jvar (V2) 2

2

2

2

2

eller Oj — Z (5 ] + Z-,c>-> + 2p ] ?Z | Z2ct o-. 396

Ofte er det mest hensiktsmessig å bruke symbolene pL, p, og jLt2 f°r for­ ventningene i formel (12.18) og symbolene Gj, Oj og for standardavvikene i formel (12.19). Formel (12.18) er lett å forstå når man har fått tak i (12.8). Et viktig spesialtilfelle av formel (12.19) får vi hvis pl2 = 0. Da faller nemlig det siste leddet bort, og det som blir igjen represente­ rer dermed en naturlig generalisering av formel (12.9).

I eksempel 12.6 er det vel grunn til å regne med at p12 er positiv og relativt nær 1 (jo flere arbeidstimer, desto flere kasser produsert). Siden alle de andre faktorene i dette leddet også er positive, blir dermed hele det siste leddet positivt.

12.3 En lineær funksjon av et vilkårlig antall variabler I dette avsnittet vil vi generalisere alle våre tidligere resultater med unn­ tak av de som er beskrevet i avsnitt 12.1.3. Hvis man forstår innevæ­ rende avsnitt, har man altså fått med seg det vesentligste av dette kapitlet. Vi skal operere med m tilfeldige variabler, Vj (i = 1, 2, .... m). Hvis m = 1, får vi resultater som allerede er vist i avsnitt 12.1.2. Settes m = 2, får vi resultater som er vist i avsnitt 12.2.

DEFINISJON 12.2 EN LINEÆR FUNKSJON AV TILFELDIGE VARIABLER: La L og Yj (i = 1,2, ..., m) være m + 1 tilfeldige variabler som knytter seg til de samme gjentakene i en og samme populasjon. La videre Zj (i = 0, 1, 2, ..., m) være m + 1 konstanter. Til ethvert sammen­ hørende sett av verdier, Vb V2, ..., Vm, av Vp V2, ..., Vm svarer det en verdi av L som er gitt ved (12.20). Vi sier da at L er en lineær funksjon av de m tilfeldige variablene Y (i = k 2, ..., m) og uttrykker dette ved (12.21).

(12.20) L = Å.0 + VVl+?i2V2 + ...+ ÅmVn, (12.21) L = Vi + V Y, + VV2 + ...+ ZmVm

397

SETNING 12.6 EN LINEÆR FUNKSJON AV NORMALT FORDELTE TIL­ FELDIGE VARIABLER: Anta at hver enkelt av de m tilfeldige variablene V;(i = 1,2, ..., m) er normalt fordelt. Hvis L er en lineær funksjon av disse tilfeldige variablene, kan det vises at også L er normalt fordelt. En lineær funksjon av normalt fordelte tilfeldige variabler er altså selv normalt fordelt.

m

(12.22) E(L) = V+ XXiE(Yi) i = 1

m

(12.23) var(L) = £ X^var (V,) + i = 1 m L2pijxA)7var(Y,) 7var

(X,.-x..)2

4, = I^TTI-------

Vi husker at variansen til et gjennomsnitt er en n-del av variansen til den opprinnelige tilfeldige variabelen (se setning 5.2). Hvis skal være sammenlignbar med som har karakteren av å være en varians for enkeltobservasjoner, må den derfor multipliseres med n. Dette er gjort i formel (13.24):

r.V (Xj.-X..)2

(13-24)

nsl

=

■=

--------

I det spesialtilfellet at alle nrer er like og lik n ser vi altså at høy­ residen i formel (13.24) er lik MSE Situasjonen blir noe lignende i det mer generelle tilfelle. Av dette forstår vi at jo større MSF er, desto mer variasjon er det blant forsøksleddgjennomsnittene XL.

13.4.3 Et eksempel på en-veis variansanalyse Vi skal nå ta for oss forsøket som ble beskrevet i eksempel 13.4 og de tilhørende observasjonene i tabell 13.2 og vise hvorledes variansanaly­ sen kan utføres. Først skal vi forklare problemstillingen. Vi bruker nå en problemformulering som viser slektskapet med t-testen i avsnitt 8.4. I neste avsnitt skal vi se på noen andre formuleringer. Før forsøket settes i gang utgjør altså alle 12 grisene som er med i forsøket et tilfeldig utvalg fra en og samme populasjon. Etter at forsø­ ket er utført tenker vi oss derfor at vi har å gjøre med 4 tilfeldige varia­ bler som forklart nedenfor. X] er tilveksten for en tilfeldig gris fra den nevnte populasjonen hvis den fores med kraftfdrblandingen T7. X2 er 426

tilveksten for en tilfeldig gris fra den samme populasjonen hvis den får kraftforblandingene T2. Tilsvarende definisjoner gjelder for X3 som er tilveksten for T3 og X4 som er tilveksten for T4. Forventningene til disse tilfeldige variablene er henholdsvis p]? p2, p3 og p4. Standardavvikene betegnes med G, (i = 1,2, 4). Siden vi har benyttet randomisering ved tildelingen av forsøksledd til forsøksenhetene, kan vi regne med at de 4 tilfeldige variablene er uavhengige.

Vi ønsker å teste en hypotese H: p, = p2 = p3 = p4 mot alternativet A: Ikke alle p-er er like.

Signifikansnivået skal være lik a = 0,05.

De forutsetningene vi gjør er at hver av de 4 tilfeldige variablene er normalt fordelt, og at standardavviket er likt for alle 4, nemlig lik Ge. Dette kan skrives i kompakt form på følgende måte: Xj er N(Pi, of ) (i = 1,2, ...,k).

Begrunnelsen for det noe merkelige symbolet G; kommer i avsnitt 13.4.4.

427

Tabell 13.3 Data fra eksempel 13.4 med forberedende beregninger med sikte på en-veis variansanalyse.

Testingen foregår ved at man regner ut en testobservator FH. Tabell 13.3 inneholder de observerte data. I tilknytning til denne tabellen er det gjort en del forberedende beregninger.

Vi har også regnet ut noen størrelser som vi strengt tatt ikke tren­ ger under testingen, nemlig Xj., sj og si (i = 1,2, ..., k). Grunnen til at vi har tatt med Xj.-ene er at disse forsøksleddgjennomsnit­ tene er estimater av tø-ene. Kjennskap til Xj.-ene gir oss derfor en viss kartlegging av situasjonen. Tallene sj eller gir en viss indikasjon på holdbarheten av forutsetningen om at de 4 standardavvikene a, er like.

428

rJ

- H 1,45

= 268,55

420,45 = 292,55

N 1

= !

Frihets grader. " DF

11

il 1 oo \D

r‘" z xr 1 II

>dz

x’ II

1

II

x- c

ii II

ii

X 1

x

II

II

II

Innen forsøksledd (rest, feil)

II x oo

M ellom forsøksledd

K vadratsum , SS

ii H 00

Total

V ariasjonsårsak

Tabell 13.4 Variansanalysetabell for eksempel 13.4 (data fra tabell 13.2 eller 13.3).

M SF=

F

89,52

DF



s~ =

MS =

V arians cz cz II

II

[—.. II X4

z

i C4

o

ci II IX cc 00 1 F4

X 1

i

z9 2

ii w

429

H

M



M SE

M SF -------

26.11

-

Selve utregningen av FH er foretatt i tabell 13.4 som er en såkalt variansanalysetabell. Det er vanlig å sette opp en slik tabell, selv om det ikke er vanlig å gjøre den så omfattende som vi har gjort her. Nedenfor har vi også tatt med en EDB-utskrift som viser hva man får ut hvis tilsvarende beregning utføres ved hjelp av matematikk- og sta­ tistikkpakken Minitab. Vi har rundet av på samme måte som Minitab under våre beregninger for å få samme svar. Generelt vil det lønne seg å bruke mange desimaler (f.eks. 4) og heller runde av FH til slutt. Etter å ha trukket SSF fra SST, får man nemlig ofte få gyldige siffer i differen­ sen. One-Way Analysis of Variance Analysis of Variance DF Source SS Factor 3 268.55 7 24.00 Error 10 292.55 Total

Level Cl C2 C3 C4

N 2 3 3 3

Pooled StDev =

Mean 57.000 66.333 55.333 65.333 1.852

MS 89.52 3.43

F 26.11

P 0.000

Individual 95% CIs For Mean Based on Pooled StDev ---------- -i-------------StDev -------- +--------------- + 2.828 (---------- *----------- ) (--------*---------) 1.155 2.082 (-------- *---------) (--------*---------) 1.528 -------- +--------------- 4----- ----------- 1_-----------55.0

60.0

65.0

La oss nå gi en beskrivelse av FH og bruken av denne. Vi tenker oss da rent teoretisk at forsøket gjentas på samme måte, med de samme for­ søksleddene og med samme antall tilfeldig utvalgte griser fra den samme populasjonen. Hver slik gjentakelse av forsøket gir oss en ny variansanalysetabell, og dermed et nytt sett av kvadratsummer og en ny Fh. Når vi tenker på gjentatte forsøk, har vi derfor å gjøre med følgende tilfeldige variabler (merk understrekingen): SSF, SSE og FH. Hvis forutsetningene ovenfor er oppfylt, kan det vises at MSF og MSE er to uavhengige tilfeldige variabler. Er dessuten H riktig, kan det videre vises at (k - l)s^/o| = SSF/aj er /"-fordelt med k - 1 frihets­ grader. (Sammenlign med formel (5.13).) Videre følger da at SSE/g;2 = (N - k)s|/o| er /2-fordelt med N - k frihetsgrader. (Se formlene (5.13) og (13.22) og setning 5.10 for antydning av bevismåte.) Av dette og setning (13.1) følger da at FH i formel (13.25) er F-fordelt hvis hypotesen er riktig og forutsetningene holder.

430

SSF

(13.25)

o2(k- 1) MSF s2 Fh = —---------- = = = — ~H SSE MSE s2 o2(N-k)

Konklusjonen trekkes nå på følgende måte'. (1) Ved å gå inn i tabell IV bak i boka (A = 0,05) med 3 frihetsgrader for teller og 7 frihetsgrader for nevner, finner vi den kritiske verdien 4,35 for FH. Sidene den beregnede FH er større enn den kritiske verdien, er den førstnevnte signifikant på 5-prosent nivået. (2) Hypotesen H må derfor forkastes. (3) Konklusjonen er da at ikke alle p-ene er like. Dette betyr at ikke alle kraftforblandingene gir samme forventede tilvekst.

For en nybegynner kan en slik variansanalyse se komplisert ut, men med litt øvelse blir det hele snart en enkel rutine. Variansanalysetabellen (tabell 13.4) gir god oversikt over hvorledes FH beregnes. Når man har lært å regne ut FH, er det flere mulige intuitive forklaringer på hva det hele går ut på. Vi skal se litt på noen slike. Det dreier seg stort sett om de samme fakta uttrykt på litt forskjellige måter:

(1) MSF er en utvalgsvarians som måler variasjonen blant forsøksledd­ gjennomsnittene Xj. (Egentlig er den justert opp ved hjelp av n, så den blir sammenlignbar med en vanlig varians for enkelt-X-verdier, dvs. med MSE.) Er MSF et stort tall, vet vi altså at forsøksleddgjennomsnit­ tene er svært forskjellige. Men forsøksleddgjennomsnittene er estimater av de tilsvarende forventningene, basert på forventningsrette estima­ torer. En stor MSF betyr derfor at forventningene trolig er forskjellige slik at H bør forkastes. Fh er det samme som MSF målt med MSE som målestokk. Hvis H er riktig skal de to være av samme størrelsesorden slik at FH varierer omkring et tall nær 1. Hvis MSF er en god del større enn MSE slik at FH blir betraktelig større enn 1, får vi mistanke om at H ikke er riktig.

(2) Det kan vises at forventningen til MSF er lik 0.

Hvis H ikke kan forkastes, blir konklusjonen at leddet A, i model­ len ikke eksisterer i det hele tatt. Vi har nemlig forutsatt at E(Aj) = 0. Hvis vi i tillegg konkluderer med at var(Aj) = 0, har vi å gjøre med en tilfeldig variabel med forventning lik 0 og varians lik 0. En slik tilfeldig variabel kan vi se helt bort fra, da den ikke gir seg noen som helst utslag.

Som nevnt er Xy en lineær funksjon av Aj og Dessuten er Aj og £uavhengige og dermed ukorrelerte tilfeldige variabler. Ved å bruke set­ ning 12.5 finner vi da: (13.35) var(Xjj) = var(Aj) + varfej) eller g2 = G? + Gt2 1

*J

zA

c

Variansene i (13.35) kalles varianskomponenter og modellen (13.33) kalles en varianskomponentmodell. Denne spesielle modellen blir også ofte kalt modell II. Hovedformålet med denne modellen er å bruke F-test for å finne ut om g| > 0. Hvis dette er tilfelle, er neste oppgave å estimere g| .

440

La oss se på et par eksempler hvor det er aktuelt å bruke en varianskomponentmodell. Først kan vi ta eksempel 13.2. Anta at de k = 4 byggsor­ tene som er med i forsøket er et tilfeldig utvalg fra en populasjon av byggsorter. Formålet med et slikt forsøk kan være å forsøke å finne ut om det er noen variasjon i avlingsnivået mellom sortene i populasjonen og i tilfelle å estimere denne variasjonen. Man er altså interessert i å estimere varianskomponenten for sorter. Sett at konklusjonen på under­ søkelsen skulle bli at varianskomponenten for sorter er lik 0. Dette ville bety at det ikke er noe å vinne ved å forsøke å velge ut de beste sortene. Det er riktignok variasjon i avlingsnivået, men denne variasjonen skyl­ des ikke at det dreier seg om forskjellige sorter, men det skyldes andre ting (Ejj). Størrelsen på varianskomponenten for sorter forteller noe om hvor mye man kan oppnå ved å velge de beste sortene. På tilsvarende måte kunne vi i eksempel 13.4 tenke oss at vi ikke har å gjøre med k - 4 kraftforblandinger, men med k = 4 råner som er fedre til grisene slik at alle grisene som hørte til samme forsøksledd tidligere, nå tenkes å ha samme far. Vi tenker oss at de 4 rånene er et tilfeldig utvalg fra en populasjon av råner, slik at vi ville ha fått nye råner i tenkte gjentatte utvalg. Varianskomponenten for råner i en slik sam­ menheng forteller igjen noe om hva som kan oppnås ved avlsmessig utvalg. Den er derfor en del av begrepsapparatet i avlslæren. I avsnitt 13.8 skal vi vise hvorledes varianskomponenten kan estimeres i det enkleste tilfellet. Legg merke til følgende: Det som avgjør om vi skal bruke en varianskomponentmodell eller en modell med faste effekter er hva vi ønsker å undersøke, og dermed hva vi tenker oss vil skje i tenkte gjen­ tatte utvalg. Hvis vi i eksemplet med byggsortene er interessert i å sam­ menlikne 4 konkrete byggsorter, Tb T2, T3 og T4, må vi tenke oss at vi har å gjøre med de samme 4 byggsortene i alle tenkte gjentatte utvalg. Men da vil også de 4 forsøksleddeffektene oø, oc2 °g a4 ^li de samme hver gang idet de knytter seg til 4 spesielle sorter. Det eneste som varierer fra utvalg til utvalg er verdiene av de tilfeldige variablene Ejj. Vi har da å gjøre med en modell med faste effekter. Hvis vi derimot tar et tilfeldig utvalg på 4 byggsorter i hvert tenkt gjentatt utvalg, vil de 4 verdiene Aj, A2, A3 og A4 variere fra utvalg til utvalg fordi vi får for­ skjellige byggsorter fra utvalg til utvalg. Følgelig har vi å gjøre med 4 tilfeldige variabler Ab A2, A3 og A4 i tillegg til de tilfeldige variablene Ejj. Følgelig har vi å gjøre med en varianskomponentmodell. Hvis kon­ klusjonen på hypotesetesteingen blir at Oy - 0, er konklusjonen ensbe­ tydende med at de 4 tallene Aj, A2, A3 og A4 alle er lik null i alle gjentatte utvalg. Dette betyr igjen at det ikke finnes noen sortseffekt. Resonnementet blir helt tilsvarende i eksemplet med rånene.

441

13.5 Variansanalyse av to-veis grupperte data Som nevnt tidligere fremkommer to-veis grupperte data blant annet som et resultat av forsøk etter blokkplanen. Tar vi observasjonene fra eksempel 13.5, 13.6, 13.7 eller 13.8, vil disse være to-veis grupperte. De kan ordnes i en tabell som vist i tabell 13.1, men nå vil vi ha en forspalte i tabellen hvor blokknummer er angitt. Som gjennomgangseksempel i dette hovedavsnittet vil vi bruke eksempel 13.6. Vi vil tenke oss at vi har fått de observasjonene som er gjengitt i tabell 13.8. Tabell 13.8 Tenkte data fra forsøket i eksempel 13.6. Forsøksledd Blokk

Ti

t2

t3

t4

I II III

413 453 418

398 340 353

426 373 390

387 409 366

Symbolene vi bruker i to-veis variansanalyse svarer helt til sym­ bolene i en-veis, bortsett fra at alle nj nå er like og settes lik n som altså står for antall blokker.

Modellen for to-veis grupperte data får et ledd mer enn modellen for enveis grupperte, nemlig et ledd som tar vare på blokkeffekten. Kort uttrykt kan vi si at det viktigste nye ved analysen er at vi får en variasjonsårsak til, nemlig blokk. Dermed får vi også en ny linje med kvadratsum SSB, frihetsgrader DFB og middelkvadrat MSB i variansanalysetabellen.

13.5.1 Modeller for to-veis grupperte data Den modellen vi skal bruke for eksempel 13.6 kan skrives på følgende måte:

(13.36) Xjj = p. + otj + B + 8jj (i — 1,2, ..., k; j = 1,2, ..., n) Her er Lt en konstant som kan tolkes som den gjennomsnittlige forvent­ ningen til avlingen for alle forsøksledd og alle blokker som er med i forsøket. cr er k forsøksleddeffekter som har en sum og et gjennomsnitt 442

som begge er lik 0. Bj er n tilfeldige variabler, og hver av dem er N(0 , Og ). Ej: er nk = N tilfeldige variabler, og hver av dem er N(0, of). Alle de tilfeldige variablene Bj og E,, er uavhengige tilfeldige variabler. I praksis er både p, forsøksleddeffektene oq, blokkeffektene Bj og forstyrrelsesleddene E^ ukjente.

EKSEMPEL 13.6 fortsatt For å illustrere modellen, har vi konstruert et eksempel, hvor vi tenker oss at vi kjenner disse leddene for eksempel 13.6, dvs. tabell 13.8. Vi tenker oss at p = 400, oc = 15, a2 = -6, a3 = -8, a4 = —1, Bj = 10, Bo = -3 og B3 = -4. Dermed er også E—leddene bestemt, i og med at vi allerede har presentert selve observasjo­ nene i tabell 13.8. Alle tallene er vist i tabell 13.9.

Tabell 13.9 En modell for tallene i tabell 13.8. Forsøksledd Blokk



t2

t3

t4

I

413 = 400 + 15 + 10-12

398 = 400 -6+ 10-6

426 = 400 -8+10 + 24

387 = 400 -1 + 10-22

II

453 = 400 + 15-3 + 41

340 = 400 -6-3-51

373 = 400 -8-3-16

409 = 400 -1-3+13

III

418 = 400 + 15-4 + 7

353 = 400 -6-4-37

390 = 400 -8-4+2

366 = 400 - 1 - 4 - 29

I denne modellen har vi forutsatt at forsøksleddeffektene er faste, dvs. de er konstanter, mens blokkeffektene er tilfeldige dvs. de er verdier av til­ feldige variabler. Siden vi har begge slags effekter, kalles dette en blan­ det modell. For de faste forsøksleddeffektene har vi brukt en parametrisering som medfører at summen, og dermed gjennomsnittet, av effek­ tene (oc-ene) er lik null. Men for de tilfeldige blokkeffektene er situasjo­ nen annerledes. Her er det ikke gjennomsnittet, men forventningen som er lik null. For å minne om dette er tallene B, = 10, B2 = -3 og B3 = -4 valt slik at gjennomsnittet av dem ikke er lik null. I tenkte gjentatte ut­ valg vil Bj ikke bli lik 10, men vil ha varierende verdier som «i det lange løp, gjennomsnittlig» blir lik null. Tilsvarende gjelder for B2 og B3. Man kan også tenke seg andre typer av modeller. 443

Spørsmålet om en gitt type effekter skal betraktes som faste eller tilfeldige er et spørsmål om hva man tenker seg vil skje hvis man gjentar forsøket, altså hvis man tenker seg gjentatte utvalg. Dette vil igjen bero på hva man ønsker å undersøke og hvorledes for­ søket er lagt opp.

I det eksemplet vi nå behandler tenker vi oss at forsøket er utført med tanke på å finne ut noe om nettopp disse 4 bestemte byggsortene. I tenkte, teoretiske gjentatte utvalg, ville vi derfor hele tiden ha de samme byggsortene. Derfor betraktes forsøksleddeffektene som faste. Blokkeffektene, derimot, betraktes som tilfeldige. Vi tok nemlig et tilfeldig utvalg på 3 blokker fra en populasjon av blokker. Det er da for­ utsetningen at hvis vi gjentar forsøket, vil vi ta et nytt tilfeldig utvalg av blokker, og da kan vi komme til å få andre blokkeffekter. Hvis vi hadde tatt for oss eksempel 13.5 i stedet, ville det ha vært naturlig å betrakte blokkeffektene som faste. I dette eksemplet har vi nemlig tre bestemte blokker på en bestemt gård. Ved gjentatte utvalg ville man bruke de samme blokkene, men bare randomisere innen blok­ kene på nytt. I vårt talleksempel ovenfor ville det da ha vært naturlig å operere med blokkeffekter med et gjennomsnitt lik 0. La oss illustrere den friheten vi har ved valg av parametrisering med utgangspunkt i blokkeffektene ovenfor. For enkelthets skyld ser vi da bort fra forsøksleddeffektene og forstyrrelsene. Nøkkelen til å forstå dette er å merke seg at det er summen av p og vedkommende effekt som må være i overensstemmelse med de faktiske forhold. De to led­ dene i summen kan vi forandre fritt. Vi tenker oss nå at blokkeffektene er faste, slik at de utgjør en del av forventningen. Faste blokkeffekter vil vi betegne med pp (j = 1, 2, ..., n). Vi vil betrakte to alternativer, i alternativ 1 bruker vi blokkeffektene ovenfor, bortsett fra at de betrak­ tes som faste. I alternativ 2 bruker vi en parametrisering som beskriver de samme realitetene, men hvor summen av blokkeffektene er lik null. Blokk

Alternativ 1

Alternativ 2

I

400+ 10 = 410

401 + 9 = 410

II

400 + (-3) = 397

401 + (-4) = 397

III

400 + (-4) = 396

401 +(-5)= 396

Gjennomsnitt

400+ 1 =401

401 +0 = 401

Vi ser at summen av p og blokkeffekten blir den samme uansett hvilket av de to alternativene vi velger. I alternativ 2 er summen av blokkeffek­ tene lik null, slik som vi ønsker. 444

Det er alltid mulig å omfordele tallstørrelser mellom det grunnleg­ gende nivået p og de forskjellige effektene uten at modellen der­ ved blir mindre realistisk. Det er derfor ingen innskrenkning i en modells gyldighet å forutsette at summen av de faste effektene er lik null eller at forventningen til de tilfeldige effektene er lik null.

13.5.2 Et eksempel på to-veis variansanalyse Vi skal nå vise hvorledes variansanalysen utføres. Det hele vil bli illus­ trert ved det samme eksemplet som vi har brukt hele tiden i dette hovedavsnittet, nemlig eksempel 13.6 og de tilhørende data som er pre­ sentert i tabell 13.8. Modellen vi ønsker å bygge på er presentert i for­ rige avsnitt. Hypotesen vi ønsker å teste er at forventningen til avlingen er den samme for alle sortene, dvs. at alle forsøksleddeffektene er lik 0. Gene­ relt har vi altså følgende hypotesetestingsproblem:

Vi tester hypotesen H: cx, = a2 = ... = ak = 0 mot alternativet A: Ikke alle a, er lik 0, dvs. minst to a, er forskjellige fra 0.

Vi ønsker nå å bruke signifikansnivået 0,05. Vi har tidligere gitt en utførlig detaljert forklaring av en-veis varians­ analyse. Da prinsippene for to-veis variansanalyse er omtrent de samme, skal vi her fatte oss i korthet. Hele analysen er presentert i tabell 13.10 og tabell 13.11. Disse er nærmest selvforklarende på bak­ grunn av våre tidligere forklaringer. Vi har også presentert en EDB-utskrift (Minitab) som viser den samme analysen.

445

MTB > print cl-c3 Data Display Row Respons ForsLedd

Blokk

1 1 1 2 2 2 3 3 3 4 4 4

1 2 3 1 2 3 1 2 3 1 2 3

1 2 3 4 5 6 7 8 9 10 11 12 MTB > twow

413 453 418 398 340 353 426 373 390 387 409 366 cl-c3

Two-way Analysis of Variance Analysis of Variance for Respons Source DF SS MS ForsLedd 3 6378 2126 Blokk 2 1176 588 Error 6 4016 669 11 Total 11570

Tabell ]3.10 Data fra eksempel 13.6 med forberedende beregninger med sikte på variansanalyse. Forsøksledd t2

t3

t4

413 453 418

398 340 353

426 373 390

387 409 366

1284

1091

1189

1162

j= 1

550 502

398 613

472 705

451 006

I'

X

= 4726

n

X XV = i = 1 j = 1

j= 1





IX 00

■-

446

V

1624 1575 1527

k

n

XV

L i= 1

II

n

V = XV

k \ ' AZ

_X

I II III

Ti

AZ V =

ZT

Blokk

428,00 475,00 21,79

363,67 926,33 30,44

396,33 732,33 27,06

387,33 462,33 21,50

X.. = 393,83

1 872 826

N = kn = 4-3 = 12

X2 47262 y22 = yy" = 1861 256

k

^X2 = 12842 + 10912 + 11892 + 11622 = 5 602 902 i = 1

k

Xx'f = 16242+ 15752+ 15272 = 7 449 729 j = i k

k

Zv

—---- = 5 602 902 = .

n

3

6J4

Zx-f n

_ 7 449 /29 = j §62 4J2

4 2

Vi kan si at middelkvadratet for blokk eller blokkvariansen MSB = s B (som vi ikke har regnet ut) måler variasjonen mellom blokkgjennomsnittene (som vi heller ikke har regnet ut). Tilsvarende måler MSF = s2F variasjonen mellom forsøksleddgjennomsnittene. Igjen er FH = MSF/MSE. Diskusjonen i avsnitt 13.4.3 om hvorledes disse tre størrelsene skal tolkes kan lett tilpasses tilfellet med to-veis grupperte data.

I eksemplet har vi fått en FH på 3,18. Går vi inn i tabell IV med 3 frihetsgrader for teller og 6 frihetsgrader for nevner, finner vi den kritiske verdien 4,76 når vi bruker signifikansnivået 0,05. Den beregnede FH er altså ikke signifikant. H kan ikke forkastes. Det er ingen påviselig forskjell på forventningene til avlingen for de for­ skjellige sortene.

13.5.3 Litt om samspill Hensikten med dette avsnittet er å gi en liten innføring i hva samspill er, og hvilke konsekvenser det kan få for den statistiske analysen av våre observasjoner. La oss betrakte modellen for et blokkforsøk med faste blokkeffekter:

(13.38)

Xy = p + otj + pj + Ejj (i = 1,2, ..., k; j = 1,2, ..., n)

447

448

SSF =

i

(x,, -

x..) 2

y

n

i

X

J

i= j=

y

= i

Y2

y

N

i =

1

—s

n

V

i

II

n V (X ,.-X ..) 2 = — -------

k

j=

kV (X .j-X ..) 2 = ^ 4 k------ — N '



i

y y i= j=

kn -

=

=

1

1

867 634-

862 432-

1

1

256= 1176

861 256 = 6378

861

= 1872 826 - *861256 = 11570

DF

-

i

1

=2

"

II

CZ)

oo

1) = 6

(n -1 )

(k -

n

il

Rest

ledd

Forsøks­

SSB =

SST =

kn

Kvadratsum, SS

1 z

Blokk

Total

Variasjonsårsak

Frihets­ grader

Tabell 13.11 Variansanalysetabell for eksempel 13.6 (data fra tabell 13.8 eller 13.10).

II

\D O

u-

II

00

O1

m

oo

1

00

H

oo

1

X + l>