143 99 79MB
Norwegian Pages 261 Year 1986
Del 2
Statistisk metodelære 4. utgave
TAPIR
© TAPIR Uten skriftlig tillatelse er det ikke tillatt å kopiere eller mangfoldiggjøre dette skrift, eller deler av det, ifølge lov av 12. mai 1961 om opphavsrett til åndsverk.
Første utgave 1973 Andre utgave 1977 Tredje utgave 1982 Fjerde utgave 1986
Trykk: Bind: Papir: Omslag:
Tapir Julius Maske A/S G-print 90 gr. Leif Gaustad
ISBN 82-519-0713-6
GJØVIK
' 8 T, luuJtoO' 8To2>Z3é>
IHGEfMØRHØGSKOLE BIBLIOTEKET
,,Uagtet Sandsynlighedsregningen oprindeligt er fremkommen ved Betragtningen af Hazardspillet og nærmest Tærningspillet, saa hengik der ikke lang Tid, inden dybe Tænkere saa i denne Regning Kilden til en ny Videnskab, som kunde erholde Anvendelser, hvorom man neppe skulde have nogen Anelse, og som griber ind i Forhold, som synes at ligge udenfor al menneskelig Beregning. Herhen hører f. Ex. Anvendelserne paa Dødelighedstabellerne og overhovedet paa de statis tiske Tabeller. Ikke mindre mærkelige ere Anvendelserne paa Videnskaber som Astronomi, Landmaaling, Fysik o.s.v. ” Fra Dr. A.S. Guldberg: Om Sandsynlighedsregningen og dens Anvendelse paa Hazardspil og Forsikringsvæsen, (side 21), Christiania 1873.
Forord til første utgave Mens vi i første bind ga en innføring i elementene av sannsynlighetsregningen og utviklet det nødvendige begrepsapparat for å kunne etablere sannsynlighetsteoretiske modeller, tar vi i dette bind for oss den statistiske metodelære. Hovedvekten er lagt på teorien for estimering og hypotesetesting. Boken er en bearbeidet og noe utvidet versjon av forelesninger holdt ved Universitetet i Trondheim, Norges tekniske høgskole. I forbindelse med utarbeidelsen av dette bind har jeg hatt god hjelp av univer sitetslektorene Per Hokstad og Liv Høyland, samt cand.real. Bent Natvig. Fru Anne Grete Tessem og frk. Kari Hegvik har hatt mye strev i forbindelse med maskinskriving av manuskriptet. Som tilfellet var da første bind ble utgitt, er også dette bind ment som en fore løpig utgave. Jeg er derfor interessert i å få såvel kommentarer som kritikk og også i å bli gjort oppmerksom på trykkfeil, slik at den endelige utgave kan bli bedre enn den foreløpige.
Trondheim, juli 1973 Arnljot Høyland
Forord til annen utgave I kapitlene 12, 13, 14, 15, 16, 19 og 20 er det bare foretatt mindre endringer og rettelser i forhold til første utgave.
Kapitlene 17 og 18 er noe utvidet. I kapittel 17 er tatt med et nytt avsnitt om analyse av (rxs)-tabeller. Spesielt har en tatt for seg (2x2)-tabeller. I kapittel 18 er det tatt med noen flere rangmetoder. I kapittel 21, som er nytt, tar en bl.a. for seg sannsynlighetskvoteprinsippet (Likelihood ratio principle) og illustrerer bruken av prinsippet ved å kon struere testmetoder for noen standardsituasjoner.
-VII -
Kapittel 22 i denne utgaven svarer til kapittel 21 i førsteutgaven.
Antall øvingsoppgaver er økt, og oppgavene er nå nummerert. I forbindelse med revisjonen av annet bind har jeg hatt god hjelp av univer sitetslektorene Per Hokstad, Liv Høyland og Bent Natvig. Til slutt vil jeg rette en varm takk til Vera Almar-Næss som med stor tål modighet og nitid nøyaktighet har skrevet annen utgave såvel av bind I som av bind II.
Trondheim i juni 1977 Arnljot Høyland
Forord til tredje utgave I de seneste tiår er såkalte Bayesianske metoder mer og mer tatt i bruk, bl.a. i forbindelse med statistisk analyse av teknologiske problemstillinger. Visse sider ved teorien bak disse metodene er fremdeles kontroversielle blant statis tikere. I lys av dette har jeg funnet det riktig å inkludere et nytt kapittel i tredje utgave (Kapittel 22), der jeg på elementært grunnlag prøver å illustrere filosofien bak Bayesiansk inferens i forbindelse med estimering. Samtidig prøver jeg å få frem hva kontroversene består i.
Kapittel 22 i annen utgave er nå gjengitt uforandret som kapittel 23. Enkelte trykkfeil er rettet. For øvrig inneholder tredje utgave det samme som annen.
Trondheim i januar 1983
Arnljot Høyland
Forord til ijerde utgave Ennå noen trykkfeil er oppdaget og rettet. Nå skulle det forhåpentligvis ikke være mange tilbake. Dessuten er noen få avsnitt skrevet om. Videre er det gjort noen typografiske endringer slik at det skulle bli lettere for brukeren å finne fram i boka. Trondheim i desember 1985 Arnljot Høyland
INNHOLD
12 Innledning til den statistiske metodelære 13 Punktestimering 13.1 Innledning 13.2 Estimering av forventningsverdi og varians 13.3 Prinsipper for konstruksjon av estimatorer 13.3.1 Sannsynlighetsmaksimeringsprinsippet 13.3.2 Minste kvadratsums prinsipp 13.3.3 Momentprinsippet 13.4 Markov-estimatorer 14 Intervallestimering 14.1 Innledning 14.2 Tosidige konfidensintervall (intervallestimatorer) 14.3 Ensidige konfidensintervall (intervallestimatorer) 15 Hypotesetesting 15.1 Innledning 15.2 Hypotesetesting, generell fremstilling 15.3 Signifikanssannsynlighet - Alternativ fremgangsmåte ved testing 15.4 Sammenheng mellom intervallestimering og hypotesetesting 16 Statistisk analyse av Gauss-modeller 16.1 Ett sett variable 16.1.1 m ukjent, o2 = Oo2 (kjent) 16.1.2 m = Mo (kjent), a2 ukjent 16.1.3 p og a2 begge ukjente 16.2 To sett variable 16.2.1 Pi og p2 ukjente, oi2 og o22 kjente 16.2.2 Hi og p2 ukjente, oy2 og u22 ukjente, men like store 16.2.3 Ah og/i2,oy2 og o22 alle ukjente
1 3 3 8 9 9 14 17 18 19 19 19 23 27 27 34
36 37 39 39 39 45 49 55 55 59 66
-IX -
17
18
19
Statistisk analyse av binomiske, Poisson-, hypergeometriske og multinomiske modeller. Kontingenstabeller 73 17.1 Binomiske modeller 17.1.1 En binomisk forsøksrekke 17.1.2 Sammenligning av to binomiske forsøksrekker 17.2 Poisson-modeller 17.2.1 Analyse av ett Poissonforsøk 17.2.2 Sammenligning av to Poissonforsøk 17.3 Hypergeometriske modeller 17.4 Multinomiske modeller - K. Pearsons og R.A. Fishers X2 -tester 17.4.1 En multinomisk forsøksrekke. Fullstendig spesifisert hypotese 17.4.2 Testing av modell 17.5 Statistisk analyse av (2x2)-tabeller 17.5.1 Innledning 17.5.2 Hypergeometrisk modell (Eks. 17.8) 17.5.3 Dobbelt binomisk modell (Eks. 17.8) 17.5.4 Multinomisk modell (Eks. 17.9) 17.6 Statistisk analyse av (rxs)-tabeller (kontingenstabeller) 17.6.1 Innledning 17.6.2 x2_test for homogenitet i (rxs)-tabell 17.6.3 x2_test for uavhengighet i (rxs)-tabell
73 73 79 86 86 89 92
93
94 96 101 101 103 104 104 109 109 110 113
Statistisk analyse av ikke-parametriske modeller 18.1 Parametrisk/Ikke parametrisk modell 18.2 Ett sett variable 18.2.1 Fordelingen kontinuerlig, men ikke nødvendigvis symmetrisk 18.2.2 Fordelingen kontinuerlig og symmetrisk 18.3 Sammenligning av to sett variable 18.3.1 B er a priori minst like god som A. Wilcoxon-Mann-Whitneys test 18.3.2 Siegel-Tukeys test 18.3.3 Wald-WolfOwitz’ følgetest (Kolmogorov-)Smimovs test 18.4 Sammenligning av k(>3) sett variable 18.4.1 Kruskal-Wallis’test
119 119 120
Statistisk kvalitetskontroll - Varekontroll 19.1 Stikkprøvekontroll av varepartier - Enkeltprøving 19.2 Stikkprøvekontroll av varepartier - Multipel prøving 19.3 Produsentrisiko - Forbrukerrisiko 19.4 Gjennomsnittlig utgående kvalitet (AOQ) - Dårligste gjennomsnittlige utgående kvalitet (AOQL)
161 162 165 168
120 123 134 134 146
149 157 158
170
-X-
Stikkprøvekontroll/Hypotesetesting Et eksempel der kvaliteten av et produkt måles før klassifikasjonen i defekt/ikke-defekt 19.6.1 Enkeltprøvingsplan der en nøyer seg med å klassi fisere produktene som defekte eller ikke-defekte 19.6.2 Kontrollplan basert på de målte produktkvaliteter 19.6.3 Sammenligning av kontrollplanene i 19.6.1 og 19.6.2 20 Statistisk forsøksplanlegging (Eksperimenteringsteori) 20.1 Sammenlignende eksperimenter 20.1.1 Fem eksempler på problemstillinger 20.2 Analyse av forsøk utført etter parplanen 20.2.1 Parplanen analysert ved hjelp av tegntest 20.2.2 Parplanen analysert ved Wilcoxon-test 20.2.3 Parplanen analysert ved Students t-test 20.3 Regresjonsanalyse 20.3.1 Innledning 20.3.2 En regresjonsvariabel. g(t) = j30 + (^t 20.3.3 Flere regresjonsvariable. Lineær regresjonsmodell 20.4 Variansanalyse 20.4.1 Innledning 20.4.2 Variansanalyse av enveisgruppering 20.4.3 Variansanalyse av toveisgruppering 19.5 19.6
21
Prinsipper for konstruksjonav testmetoder 21.1 Innledning 21.2 Neyman-Pearsons lemma 21.3 Sannsynlighetskvoteprinsippet (Likelihood ratio principle)
22 Bayesiansk inferens 22.1 Innledning 22.2 Bayes-estimering 22.3 Valg av a-priori-fordeling 22.4 Fortolkning av a-priori-fordelingen 22.4.1 Empirisk Bayesiansk inferens 22.4.2 Subjektiv Bayesiansk inferens 22.5 Noen eksempler på Bayes estimering 23 Deskriptiv statistikk 23.1 Uavhengige enkeltobservasjoner 23.2 Uavhengige observasjonspar Appendiks Normalfordelingspapir Lognormalfordelingspapir Stikkordliste
174
175 176 176 178 179 180 180 185 186 187 188 190 190 191 200 203 203 204 207
213 213 213 218
227 227 228 230 232 232 233 234 238 238 242 248 248 248 251
12. INNLEDNING TIL DEN STATISTISKE METODELÆRE Allerede i første del (avsnitt 1.1) nevnte vi at det innenfor en rekke forskjellige fagområder blir stadig mer vanlig å nytte stokastiske modeller. Når en etablerer en slik modell av en konkret situasjon ved hjelp av det be grepsapparat vi har utviklet i de 11 første kapitlene, vil modellen vanligvis komme til å inneholde én eller flere ukjente konstanter (parametre). Ofte vil en trenge anslagsverdier (estimater) for disse parametrene, beregnet på grunnlag av et foreliggende observasjonsmateriale som kan representere for søksresultater eller innsamlede data. Andre ganger skal en ta stilling til om forsøksresultater eller innsamlede data indikerer at en fremsatt påstand om parametrene er gal. I begge tilfeller er det spørsmål om å trekke generelle slutninger ut fra data, m.a.o. å benytte seg av det som kalles statistisk infe rens. For å få frem forskjellen mellom den problemstilling en møter i sannsynlighetsregning og den en møter i statistisk metodelære (også kalt statistisk inferensteori) skal vi først se på et enkelt eksempel. Eks. 12.1. Et vareparti består av i alt a enheter. La oss betegne antall defekte i partiet med a • 6. Vi tar nå en stikkprøve av størrelse n fra partiet og beteg ner antall defekte i stikkprøven med X. I denne situasjonen synes det natur lig å nytte en hypergeometrisk modell (se 4.2), dvs. (12.1)
zaØx za-aØx P(X=x) = x n~-~ ,
x = 0, 1,........
Hittil har vi vesentlig beskjeftiget oss med spørsmål av typen: Når a, 0 og n er gitt, hvor stor er da sannsynligheten for at stikkprøven skal komme til å inneholde x defekte, x = 0, 1,2,. . ., ? Dette er „ren sannsynlighetsregning”. I denne situasjonen stilles det i „praksis” ofte spørsmål av en annen type. Selv om størrelsen av parametrene a og n er kjente, vil ofte 0 være ukjent, og hensikten med å ta en (eller flere) stikkprøver fra partiet, er å skaffe informasjon om størrelsen av 0. Det kan f.eks. være spørsmål om
2
a) å anslå størrelsen av 6,
b) å angi et intervall som med en viss „sikkerhet” (sannsyn lighet) inneholder 0, c) å ta stilling til om stikkprøven tyder på at en fremsatt påstand om verdien av 0 er gal, eller d) å ta stilling til om en bør kjøpe partiet, avvise det, eller be om en stikkprøve til.
I alle disse situasjoner er det som vi ser,spørsmål om å trekke slutninger eller foreta valg av avgjørelser, basert på data, m.a.o. spørsmål om statistisk infe rens. I den statistiske metodelære utvikler en forskjellige metoder som kan an vendes ved slik inferens, og sammenligner deres egenskaper. I denne forbind else trengs det åpenbart kriterier for hvor gode metodene er i gitte situasjoner.
Når en skal besvare spørsmål av typene a), b) og c), ledes en inn i tre hoved områder av den statistiske metodelære, henholdsvis: teorien for punktestimering, teorien for intervallestimering og teorien for hypotesetesting. Den problemstilling som er eksemplifisert i d), hører egentlig inn under det som kalles statistisk desisjonsteori og vil ikke bli behandlet i denne boken. Derimot skal vi leilighetsvis komme inn på spørsmål som angår bestemmelse av stikkprøvestørrelse og sammenheng mellom utvelgingsmåte og modell.
13.
13.1.
PUNKTESTIMERING
Innledning.
Under de innledende betraktninger vil det være hensiktsmessig å ha et eksempel å referere til. Vi skal derfor se på følgende situasjon. Eks. 13.1. En bedrift masseproduserer et bestemt produkt og ønsker å prøve et nytt produksjonsopplegg. Spesielt er en interessert i å anslå defektsannsynligheten p (sannsynligheten for at et tilfeldig valgt produkt skal være defekt).
Prøveproduksjonen skal strekke seg over to skift. I første skift vil det bli produsert mt produkter, i annet skift m2 produkter. Produktene ten kes nummerert etter hvert som de blir ferdige. La Ip være stokastiske variable, v = 1, 2, . ..,m1 + m2, definert på følg ende måte: (13.1)
=
1 dersom produkt nr. v er defekt,
=
0 dersom produkt nr. v er ikke-defekt.
I,
Det synes da naturlig å gå ut fra at Ij, . .., Imi +m? er uavhengige og at (13.2)
P(lp = ip) = P (1-P)
;
ip = 0, 1, p = 1, 2,...,jn1 + m2
Den simultane punktsannsynlighet for li,... ,Im +m (13.3)
fGiJz, • • • ’ im!+m2 ’ P) = P
SL v
a^så
nu+m2-Zij, V
Bortsett fra at vi vet at 0 0.
n->oo
En estimator (eg. sekvens av estimatorer) med egenskapen (13.5) sies være konsistent. (Se avsnitt 11.1.) oooOOOooo ’ Vi skal her innskrenke oss til å betrakte denne situasjon (Parametrisk modell).
Punkt estimering
5
La oss nå vende tilbake til eksempelet. Eks. 13.1 (fortsatt).
La U(= S Ip) betegne antall defekte en finner i mn + m 2
produksjonen fra første skift, mens V(=
Z
Ip) betegner antall defekte
P=mi+ 1
i produksjonen fra annet skift. (13.6)
P(11
j
. . . , Imi + m2-l
Følgende to estimatorer er foreslått for p: U+ V mi+ m2
og (13.7)
p(L, . ..,L +m ) = 1(AL 4-
V m2
For korthets skyld betegner vi estimatorene med p og p.
La oss nå undersøke disse to estimatorene og se om den ene av dem gene relt vil være å foretrekke fremfor den annen i lys av de fire krav vi nett opp har stilt opp. Vi innser umiddelbart at såvel p som p antar verdier i [0,1].
Videre er Ip, p = 1, ...,(m1 + m2) indikatorvariable (se 5.2.7), og (13.8)
E(IP) = p, Var(Ip) = p(l-p), p = 1, ...,mi+m2.
Dessuten er h , .. .,Imi + m2 forutsatt å være uavhengige. Anvendes resultatene fra 5.2.7, får vi at (13.9)
E(p) = p,
Var(p) = -^4- , m[ + m2
E(p) = p,
Var(p) = lp(l-p)(-^- + 4-). 4 mj m2
og videre at (13.10)
Estimatorene p og p er derfor begge forventningsrette.
Videre er (13.11)
Var(p)-Var(p) = p(l-p)[-l- + -1----------- ±----- 1 4mj 4m2 mt + m2 (mi -m2)2 = P(‘-P) 4m? m2(m, + m,) > °'
Herav følger at Var(p) > Var(p). Estimatoren p er derfor å foretrekke fremfor p, såfremt en ønsker at variansen til estimatoren skal være så liten som mulig.
6
Ved bruk av Tsjebysjeffs ulikhet (3.51) finner vi til slutt at
(13.12)
P( ^-p I < e) > 1 - - P(‘~p), ■ 4(m1 + m2) e2
>
og at (13.13)
P(|^-p| < e) > 1 - 1 p(l-p).(A + J_). _L 4 nij m 2 e2
.
Av (13.12) ser vi at hvis n^ eller m2 (eller begge) blir uendelig stor(e), vil P( lp-p I < e) -> 1 for alle e > 0. p er altså konsistent.
Av (13.13) ser vi at dersom mi og m2 begge blir uendelig store, vil P( lp-p I < e) -> 1 for alle e > 0. Som konklusjon får vi at dersom vi baserer vårt valg på de nevnte 4 krav, vil estimatoren p være å foretrekke fremfor p. (Er mi=m2, faller estimatorene sammen og er like gode.)
Eks. 13.2. Ved produksjon av glassflasker opptrer undertiden små harde partikler i glassmassen. Hvis en flaske inneholder én eller flere slike par tikler, betraktes den som defekt (for et bestemt formål). En er interessert i å anslå sannsynligheten for at en tilfeldig valgt flaske skal være i orden og prøveproduserer n (n > 2) flasker etter et foreskrevet produksjonsopplegg.
La oss først etablere en modell av denne situasjonen. Anta at en har erfaring for at antall (X) partikler i en tilfeldig valgt flaske er Poissonfordelt med parameter X (Å ukjent). Den sannsynlighet som skal estimeres, er da en funksjon av X, som vi betegner p(X), der p(X) = P(X=0) = e"\
La nå Xj betegne antall partikler i flaske nr. j, j = 1, 2, ...,n, mens Y betegner antall av de n flasker som er i orden.
To estimatorer for p(X) er nå foreslått:
(13.14) og (13.15)
P = (1-
La oss studere disse estimatorer i lys av de oppstilte krav,
p og p har åpenbart begge verdiområde [0,1].
Punkt estimering
7
Videre er Y binomisk fordelt (n,p(X)) der p(X) = P(Xj = 0) = e’\
Altså er (13.16)
E(p) = p(X) = e"X
(13.17)
Var(p) = 1 p(Å) ■ (1 -p(X)) = le’2X(eX-l).
Innføres Z = SXj, er Z Poissonfordelt med parameter nX. s. 137.)
(Setning 9.2,
og p = (1- l)z = (—)z.
r
V
\n ’
n
Nå er iflg. (3.43) E(B) = S (1--1)2 • I2-V e-X n n
z=o
=
z!
.X 5 IGtlkAL^-ln-DX = (13.18)
z!
z=o
- e
= e-X = p(X).
Videre er E(p2) = E[(l-b2Z] = E[(l-^ +J-2)Z] = n n n2
= s (n^-2X+X/n)z e~nX = z!
z=o
= e
- 2X + X/n
Herav
. -2X+ —
(13.19)
Var(p) = e
_2X
n - e
-2X
= e
(e11 - 1).
Av (13.16) og (13.18) fremgår at p og p begge er forventningsrette.
For å kunne sammenligne variansene omskriver vi uttrykkene (13.17) og (13.19) på følgende måte: Var(p) = e'2XA + ^ + ^- + • • • + A- + ’ ’ ’ > n 2n 3!n n! n (13.20) Vai(g) = e'2X(A + 2L + ••• ) n 2n2 3!n3 n! nn
8
Herav følger at Var(p) < Var(p). p er altså alltid minst like god som p.
Øving 13.1. Vis ved hjelp av Tsjebysjeffs ulikhet (3.9, s. 66) begge er konsistente estimatorer for p.
at p og p
oooOOOooo Følgende setning er nyttig når en skal vise at en estimator er konsistent.
Setning 13.1. La 0(Xlf ...,Xn) være en forventningsrett estimator (eg. sekvens av estimatorer) for 9. Dersom PartØfX!, ..., XnJ] -> 0 når n -» oo? ytt fi(Xi, ..., Xn) være en konsistent estimator for 0. (Betingel sen: Var[0(X!, ... ,Xn)] -> 0 når n -> , er m.a.o. en tilstrekkelig be tingelse for at en forventningsrett estimator skal være konsistent.)
Bevis: Ifølge Tsjebysjeffs ulikhet er , Var[0(X15 ...X)] (13.21) P(IØ(X1, ...,Xn)-Øl > e) 1-------------- -----------2— e
Av (13.22) ser en umiddelbart at lim P(l§(Xl; . ..,Xn)-0 I < e) = 1 n->°°
13.2.
Estimering av forventningsverdi og varians
La Xi, ..., Xri være n uavhengige og identisk fordelte variable. Fordelingsfunksjonen behøver ikke å være kjent, men vi forutsetter at forvent ning (m) og varians (o2) i fordelingen eksisterer, /jl og o2 antas begge å være ukjente og skal estimeres. I denne situasjon nyttes ofte estimatorene
(13.23)
Og (13.24)
A = X = | SX , Il J
a2 =
1 n — S (XrX)2.x) (n-1) j=i J
Vi skal studere egenskapene til disse estimatorene og tar først for oss ja. xl 2 7 Betegnes i mange bøker med S .
Punktestimering
9
Ved bruk av henholdsvis (5.72), (5.81) og (5.86), (3.46) og (3.47) får en at rr2 E(m) = m, Var(g) = — . Ved bruk av Setning 13.1 ser en umiddelbart at £ er en konsistent estimator for g. Hvorvidt det fins en annen og bedre estimator for g enn £, vil avhenge av hvilken konkret fordeling som foreligger.
At u2 er en forventningsrett estimator for o2, kan f.eks. vises på følgende måte: Av
_ _ S(Xj - ja)2 = S(Xj - X )2 + n(X - ii)2 j
j
følger at
E[L(Xj-M)2] = E[S(Xj-X)2] + nE(X-M)2 j
):
no2 = E[S(Xj-X)2] + o2 j
Altså
a2 = E[-l-S(Xj-X)2] n-1 J
q.e.d.
Hvis Å4 = E[(X-g)4] eksisterer i fordelingen, kan det vises ved en del reg ning at (13.25)
Var(o2) = -[Å4---r4o4] n n-1
Ved bruk av Setning 13.1 følger videre at d2 (om Å4 eksisterer) er en kon sistent estimator for o2.
13.3.
Prinsipper for konstruksjon av estimatorer
I de fleste situasjoner vi hittil har sett på, har det vært mulig å stille opp estimatorer på intuitivt grunnlag. I mer kompliserte situasjoner vil dette være vanskelig. Vi skal derfor se på noen av de prinsipper som nyttes når en skal finne forslag til estimatorer.
13.3.1.
Sannsynlighetsmaksimeringsprinsippet.
La oss illustrere ideen bak dette prinsippet ved å ta for oss et enkelt eksempel:
10
Eks. 13.3. Anta at en er interessert i å finne en anslagsverdi for sannsyn ligheten p for at en bestemt tegnestift skal bli liggende med spissen opp når den kastes. I den anledning skal vi kaste (knipse) tegnestiften 10 ganger og registrere resultatene. Vi innfører de variable 1 hvis tegnestiften ender med spissen opp i pte kast lp
v = 1, 2, ..., 10
0 ellers,
Som i eks. 13.1 synes det naturlig å gå ut fra at den simultane punktsannsynlighet for lj, ...,Ii0 er 10-Sip
f(i!, ...,i10;p) = p
(1-p)
La oss tenke oss at vi gjennomfører forsøket og får spissen opp i kast nr. 2, 5 og 7, mens de øvrige gir det motsatte resultat. Når en på dette grunn lag skal anslå p, synes det naturlig å spørre seg selv: Hvor sannsynlig vil det være å få det inntrufne resultatet dersom p var 0.05, 0.10, 0.15 osv? Sannsynlighetsmaksimeringsprinsippet sier nå at en bør velge som estimat den verdi av p (i [0.1]) som gjør det inntrufne resultat så sannsynlig som mulig, m.a.o. den p verdi som maksimaliserer f(i], ...,i10;p) for de gitte verdier av ij, ...,i10, dvs. som maksimaliserer p3(l-p)*7. Her finner vi lett at den søkte p-verdi er 0.3. Om vi tilsvarende hadde utført n kast og fått spissen opp i akkurat x av disse (x = ’Sip), ville prinsippet ledet til estimatet x/n.
Den tilsvarende stokastiske variabel meringsestimatoren for p.
= % kalles sannsynlighetsmaksi-
(S.M.E. for p.)
oooOOOooo
La oss nå gi en generell fremstilling av prinsippet. Xj, ...,Xn er n uavhengige, identisk fordeltex) stokastiske variable med sannsynlighetstetthet (ev. punktsannsynlighet) f(x;015 ...,Ør), der f er en kjent funksjon og (01? . ..,Ør) er r-dimensjonal ukjent parameter som vi tes tilhører en nærmere angitt delmengde £2 av det r-dimensjonale Euklidske rom Er.
Den simultane sannsynlighetstetthet for Xj, ... ,Xn er da n
j=l x') 7 Vi skal nøye oss med å se på dette tilfellet.
Punktestimering
11
Vi oppfatter nå verdiene av x15 . ..,xn som gitt (slik de vil være det når observasjonene foreligger), og betrakter følgende funksjon av (015...,0r) n
(13.26)
xn) = nf(xj;01>...,01) j=l
Denne kan oppfattes som et mål for rimeligheten av det oppnådde observasjonsresultat som funksjon av (0ls...,0r). I engelsk terminologi kalles funksjonen »the likelihood function». Vi vil her kalle den rimelighetsfunk sjonen. Dersom en for ethvert gitt verdisett (x1}... ,xn) kan finne ett og bare ett verdisett (0 ) * 0 i £2 slik at (13.27)
W, * -,^...,^ ...,9
> l(01,...,0r;x1,...,xn)
for alle (Øt,..., Ør) e 12
kalles (0 ,..., * ) * 0 for sannsynlighetsmaksimeringsestimatet for (Øb..., Ør). ,...,0 0 * vil åpenbart være funksjoner av (x15...,xn). De tilsvarende stokastiske variable Øi* (X 1,..., XJ, i = 1,..., r kalles sannsynlighetsmaksimeringsestimatorene (S.M.E.) for Øx,..., 6r
Ofte er 1(0X,... ,Ør;xx,... ,xn) deriverbar m.h.p. 01}...,0r. En nødvendig betingelse . for at l(Øi,..., Ør;xx,..., xn) skal ha et maksimum (som ikke ligger på randen av £2) er da at
(13.28)
*-3 = o, .... 3-l=o 30, 30r
Sannsynlighetsmaksimeringsestimatet må i så fall finnes blant løsningene av (13.28).
1(0Ør;xj,..., xn) er ikkenegativ. Da In 1 er en monotont voksende funksjon av 1, vil den ha maksimum for det samme verdisett (Øi,...,Ør) som maksimaliserer 1. (13.28) kan derfor, om en finner det hensiktsmes sig, erstattes med 91n 1 _ n din 1 _ n dø! aør Av beregningsmessige grunner foretrekkes ofte (13.29) fremfor (13.28).
(13.29)
oooOOOooo
12
Eks. 13.4. La X15...,Xn være uavhengige og identisk fordelte med sann synlighetstetthet
f(x,0) = -4- -V x2 e'x2/®2, 4T 6
x>0, 0>0
Vi skal finne S.M.E. for 0. Her er £2 mengden av de positive tall.
1 1(0) = (~r)n Ø3n V 7F
v 2 v 2 Y 2 X i X2 ... xn
-Sxj2/02 e J
. Sx3 In 1(0) = n ln(-—) - 3n InØ + 221nXj - —JV 7T 0
din 1(0) 90
=
3n + 2SXj2 0 Ø3
Den 0 verdi i £2 som tilfredsstiller —
= 0. er 0 = \/— Sx? . V 3n J
90 921 „ 1
Siden — < 0 for denne verdi, har In 1(0), og dermed 1(0), maksimum for 0 = x/—-Sxj^ . S.M.E. for 0 blir altså v 3n J (X 1,...,Xn) = J4- LX/ * 0 3n J Eks. 13.5. La X15...,Xn være uavhengige og identisk normalfordelte med sannsynlighetstetthet !
f(x;M,o) =
\T2tt
- ^2(x-^)2
1 e 20 o
S2 er her {11,0;-°° 0) > 1-a
oooOOOooo
En situasjon av den type som er illustrert ved Eks. 14.3, behandles analogt, idet en søker én funksjon
0(X15...,Xn) med den egenskap at
(14.9)
P(0(Xp...,Xn) < 0) = 1-a
eventuelt
(14.9)'
P(0(X15...,Xn) < 0) > 1-a
oooOOOooo Vi skal heller ikke her komme inn på generelle metoder til konstruksjon av ensidige konfidensintervall, men vil nøye oss med å antyde en fremgangsmåte som kan føre frem i enkelte situasjoner.
For å konkretisere vil vi tenke oss at vi ønsker et konfidensintervall som er begrenset oppad.
Vi tar igjen utgangspunkt i en punktestimator 0(XT,. . . , Xn) for 0. Ut fra fordelingen for 0, forsøker vi å finne en funksjon h(0, 0), hvis sannsynlighetsfordeling hverken avhenger av 0 eller eventuelle andre ukjente parametre. La oss tenke oss at det er lykkes å finne en slik funksjon og at denne er kontinuerlig fordelt. La nå ha betegne a-kvantilen i denne fordelingen. Da er
(14.10)
P(h(0,0) < ha) = 1-a
Dersom den mengde av 0-verdier som tilfredsstiller
Intervallestimering
(14.11)
25
h(0, 0)
er et intervall av typen (- oo, g(0)), der g(0) representerer en eller annen funk sjon av 6, har vi lykkes i å konstruere et ensidig konfidensintervall av den type vi var ute etter i Eks. 14.2. I enkelte situasjoner kan det være nødvendig å ta utgangspunkt i (14.12)
P(h(0,0) > h._L ”'W_) = 1 -a
for å oppnå at den mengde av Ø-verdier som tilfredsstiller
(14.13)
h(0,0)>hla
er et intervall av typen (- oo, g(0)).
oooOOOooo
Eks. 14.5. Anta at Xt,. . . , Xn er uavhengige og normalfordelte (0, a02), der 0 er ukjent, mens u02 er kjent, og at vi ønsker et konfidensintervall for 0 som er begrenset nedad.
Som i Eks. 14.4 tar vi utgangspunkt i 0 = X, og konstaterer at (X - 9)y/l\/o0 er N(0,1). Dersom vi lar u_ betegne a-kvantilen i normalfordelingen (0,1), har vi at (14.14)
P((X-0)v 1/2. For nær mere å presisere hva vi mener med „stor”, må vi på en eller annen måte velge et tall k. Når prøvekastingen er utført og X observert lik x, sammenlignes så x med k. Hvis x > k, blir vi mistenksomme og tror at p > 1/2. Er derimot x < k, ser vi ingen grunn til å tro at p > 1/2.
Som allerede nevnt, er verdiområdet for X det samme (0, 1,2,..., 15) uan sett hvilken verdi p har i (0,1). Det er derfor ikke til å unngå at den frem gangsmåte vi her har skissert, kan lede oss til gal konklusjon. Det beste vi kan gjøre, er da å prøve å kontrollere sannsynligheten for at så skal skje. En gal konklusjon kan være av to typer: For det første kan det tenkes at forsøksresultatet, x, leder oss til å tro at p > 1/2, til tross for at i virkeligheten p = 1/2. Sannsynligheten for at dette skal skje, er:
(15.2)
15
1s 115 S md) x=k A 2
og for å få denne liten nok, må k velges stor (nær 15). For det annet kan det tenkes at forsøksresultatet x får oss til å tro at alt er i orden til tross for at p i virkeligheten er hk p2 (> 1/2). Sannsynligheten for at dette skal skje, er:
(15.3)
^(^jp^d-pj)
og for å få denne liten, må k velges liten (nær 0), (uansett hvilken verdi pt måtte ha). Eksempelet viser altså at en ikke samtidig kan oppnå at sannsynligheten (15.2) og (15.3) blir små bare ved å gi k en passende verdi.
Nå er en ikke alltid like redd for å begå hver av de to typer feil. I vårt eksem pel kan vi f.eks. tenke oss at vår venn A er en i alminnelighet troverdig fyr, og at vi svært nødig vil beskylde ham for uhederlighet i utide. Derimot er vi ikke så redde for å bli lurt til å spille selv om p skulle være større enn 1/2. Vi er m.a.o. først og fremst interessert i å ha kontroll med sannsynligheten (15.2), dvs. med sannsynligheten for feilaktig å forkaste hypotesen p = 1/2. Denne hypotesen (p = 1/2) kalles da nullhypotesen og betegnes ofte med HQ, mens p > 1/2 kalles den alternative hypotese og betegnes med . Vi sier at vi skal teste Ho: p= 1/2 mot HT: p > 1/2
30
Ut fra hvor redde vi er for feilaktig å forkaste HQ, fastlegger vi nå en maksi mal verdi a for sannsynligheten (15.2), og bestemmer k ut fra relasjonen
(15.4)
15
x=k
15 115 °)(-) x
a
a velges vanligvis i intervallet (0.00, 0.10]. La oss tenke oss at vi i vårt eksem pel har valgt a = 0.10, og skal bestemme k. Vi beregner da venstre side av (15.4) for forskjellige verdier av k, og stiller resultatene opp i en tabell. k
15
14
13
12
11
10
P (X=k)
0.0000
0.0005
0.0032
0.0139
0.0417
0.0916
P(X>k)
0.0000
0.0005
0.0037
0.0176
0.0593
0.1509
Tabell 15.1 Av denne tabellen fremgår at (15.4) vil være tilfredsstilt (a = 0.10) dersom k velges som ett av tallene 11, 12, 13, 14 eller 15. Vi har tidligere pekt på et generelt ønske om at også sannsynligheten (15.3) bør være minst mulig, og at dette oppnås ved å velge k minst mulig. Av de ovennevnte verdier bør derfor k velges lik 11.
Fremgangsmåten er nå klar:
Hvis 11 eller flere av våre 15 prøvekast resulterer i et ulike antall øyne, for kaster vi Ho : p = 1/2, og konkluderer med p > 1/2. Hvis derimot 10 eller færre av kastene resulterer i et ulike antall øyne, finner vi ikke grunn til å tvile på Ho (og tror det vi trodde før, nemlig at vår venn A er en hederlig person). Vi har ikke ført noe ,,bevis” for at p = 1/2, men re sultatet av prøvekastingen gir oss ikke grunn til å tvile på HQ.
Ved denne fremgangsmåte er altså sannsynligheten for feilaktig å forkaste Ho høyst lik 0.10 (a). Vi kaller fremgangsmåten for en test for hypotesen HQ mot alternativet H1. Siden konklusjonen trekkes på grunnlag av den verdi X antar, betegnes X som testobservatoren, a kalles signifikansnivået for testen, k kalles den kritiske verdi og {x:x> k} kalles forkastingsområdet.
Et naturlig spørsmål å stille nå er hvor stor sannsynlighet det er for å av sløre at Ho er gal når p = px, der pt er en bestemt verdi i (0.5, 1.0]. Denne sannsynligheten kalles for testens styrke (teststyrken) i alternativet p = px. I den etterfølgende tabell er angitt teststyrken i alternativene 0.6, 0.7, 0.8, 0.9, 1.0.
Hypotesetesting
P zl5\ X/. >.15—x 2 (x)p (!-p) x—11 A
0.5
0.6
0.7
0.8
0.9
0.059
0.217
0.515
0.836
0.987
31
1.0 1.000
Tabell 15.2. Sannsynligheten for å forkaste Ho, oppfattet som funksjon av de ukjente parametrene (her p), kalles styrkefunksjonen for testen. Det kan vises at denne i vårt eksempel er en strengt voksende funksjon av px). I Fig. 15.3 er gitt et grafisk bilde av styrkefunksjonen, 0 (p).
Fig. 15.3.
oooOOOooo
Slik vi har formulert problemet i Eks. 15.1, har vi for enkelhets skyld sett bort fra muligheten p < 1/2. Det er imidlertid lett å innse at den test vi kom frem til, også har signifikansnivå 0.10 (a) relativt til hypotesetestingsituasjonenH0': p< 1/2 mot H^: p> 1/2. ।
15
15
x=ll
x
x
P(X> 11 I Ho' riktig) = S (V)px(1 -P) U
15-x
15
< s
x=ll
’5)(b15 n rP kj). Som i Eks. 15.1 fastlegger vi en maksimal verdi a (signifikansnivået) for sannsynligheten for feilaktig forkasting av HQ. Konstantene kj og k2 må da tilfredsstille relasjonen:
(15.7)
kl
K
115
x=0
x
2
2 (* M)
15
+ 2
1x)(|> S 1 15
x=k2
Hvis ikke spesielle grunner tilsier noe annet, velges her kj og k2 slik at (15.8)
ki
15
1
x=0
A
Z
15
a 2
33
Hypotesetesting
15 1 15 < 5 a S ( 15 v )(4> x=k2 x 2 2
(15.9)
Dersom pi 1/2, ønsker en selvsagt at sannsynligheten for å avsløre det skal være størst mulig,): at kl
s
ic
cx5)p
x
(i-P)
15-X
15
ic
x=k2
x
x
+ s dVa-p)
x=0 x
15-x
skal være størst mulig, når pi 1/2. Det er derfor ønskelig at kj er så stor som mulig, mens k2 er så liten som mulig. Kombineres dette med (15.8) og (15.9), bør altså kx velges som det største hele tall som tilfredsstiller (15.8), og k2 som det minste hele tall som tilfredsstiller (15.9).
La oss eksempelvis velge a = 0.05. Av tabell 15.1 finner vi da at k2 = 12. Analogt finner vi k1 =3.
Fremgangsmåten (testen) er nå klar: Hvis våre 15 prøvekast resulterer i at „3 eller færre”, eller „12 eller flere” kast gir et ulike antall øyne, forkaster vi Ho : p = 1/2 og påstår p t 1/2. Hvis ikke, gir forsøksresultatet ingen foranledning til å tvile på HQ. Ved denne fremgangsmåte er sannsynligheten for feilaktig å komme til å forkaste Ho mindre enn eller lik 0.05. La oss til slutt stille opp styrkefunksjonen |3(p) for denne testen og fremstille j3(p) grafisk. i c
3
15-X
x
15
0(p)= S (V)P (1-P)
(15.10)
x=0
1c
x=12
x
15-X
x
( v)P (l-P) A
alternativt: 11
ic
x=4
x
x
0(p) = 1 - S Wd-p)
(15.10)'
15-x
p
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
3(p)
0.944
0.648
0.297
0.092
0.035
0.092
0.297
0.648
0.944
Tabell 15.3.
34
Fig. 15.5.
oooOOOooo
I kapitel 16 skal vi ta for oss en rekke hypotesetestingssituasjoner i forbindelse med Gauss-modeller.
15.2. Hypotesetesting, generell fremstilling La Xj, X2, . . . , Xn være n stokastiske variable med kjent simultan fordelingsfunksjon F(x15 . . . , xn; 0). 6 er en parameter som vites å tilhøre et bestemt område £1 på den reelle tallinje, men som for øvrig er ukjent. (I Eks. 15.1 svarer p til 6 og [0,1 ] til £2). På grunnlag av et observasjonssett av Xj,... , Xn skal vi ta stilling til om 0 tilhører et nærmere avgrenset del område co i S2. (I Eks. 15.1 svarer punktet p = 1/2 til co). Vi skal med andre ord ta stilling til om 0 e co eller om 6 e F2-co.x-* Vi vil tenke oss at vi er særlig redde for feilaktig å komme til å forkaste 0 e co og velger derfor denne påstand som nullhypotese. Oppgaven er altså å etablere en test for (15.11)
HQ:06co mot Hj: 0 e £2-co
En testmetode er nå en regel som for ethvert mulig observasjonssett av (Xj,. . . , Xn) sier om vi skal forkaste HQ eller ikke. En måte å beskrive denne regel på er å angi det område S i det n dimensjonale rom som skal lede til forkasting av Ho. S kalles forkastingsområdet og nyttes ofte også som navn på testmetoden. x) S2-C0betegner den del av £2 som ikke tilhører CO.
Hypotesetesting
35
Når en baserer sin konklusjon på verdiene av stokastiske variable, løper en selvsagt en risiko for å komme til gal konklusjon. Dersom en imidlertid sørger for å velge S slik at P{(X1,.. . , Xn) e S}< a når 0 e co
der a er et nærmere bestemt lite, positivt tall (0.10, 0.05, 0.025, 0.01), har en fått kontroll over sannsynligheten for feilaktig forkasting av HQ. a kalles signifikansnivået (nivået) for testen S.
Men testen må også ha evne til å avsløre det hvis 0 virkelig tilhører f2-co, slik at Ho er gal. Denne evne måles ved å beregne sannsynligheten for å for kaste Ho når 0 e £2-co,): P{(X15. . . ,Xn) e S} når 0 e H-co P{(Xx,.. ., Xn) e S}vil i sin alminnelighet være en funksjon av 0, og vi betegner den 0(0 IS). Vi ønsker altså å velge S slik at
0(0 I S) < a når 0 e co og slik at
0(0 IS) er størst mulig, når 0 e
-co.
0 (0 I S) kalles styrkefunksjonen for testen, dm 0{ e £2-co, kalles (3(011 S) for teststyrken til S i alternativet 0 = 01.
I situasjoner der flere testmetoder er foreslått, kan en gjøre bruk av de res pektive styrkefunksjoner når en skal velge den metode som skal nyttes. La oss f.eks. tenke oss at to forskjellige testmetoder Sx og S2 med samme signifikansnivå a er foreslått ved testing av (15.11). De tilhørende styrkefunksjoner vil vi betegne Øx (0 ISJ og 02 (0 IS2). HvisØJØ' ISJ >02(0' IS2) og 0' e fi-co, betyr dette at testmetoden Sx har størst sannsynlighet for å avsløre at Ho er gal, dersom 0=0'.
Hvis (3^0 I Sj) > 02(0 I S2) for alle 0 e S2-co, betyr dette at Sj er minst like god som S2 når det skal avsløres at Ho er gal, uansett hvilken verdi 0 har i £2-co. er uniformt like god eller bedre enn S2.
I visse situasjoner kan det konstrueres testmetoder som er uniformt like gode eller bedre enn en hvilken som helst annen test med samme nivå. (Se NeymanPearsons lemma, s. 213. Lykkes det å finne en slik test, sies den være en uniformt sterkeste test blant alle a-nivå-tester for testing av HQ mot H1.
36
Styrkefunksjonen for en test S, (3(0 IS), vil vanligvis være en funksjon av n. Den kan derfor også nyttes når stikkprøvestørrelsen n skal fastlegges. Vi skal senere se eksempler på dette.
15.3. SignifikanssannsynlighetAlternativ fremgangsmåte ved testing La Xj,. . . , X være n stokastiske variable med simultan fordelingsfunksjon F(xx,. . . , x ). Anta at vi skal teste en hypotese HQ mot et alternativ H1 , og er kommet til at det er rimelig å basere testen på testobservatoren Y(Xx,..., Xn). For å konkretisere vil vi tenke oss at forkastingsområdet er Y > k.
Etter det vi har sagt til nå, gjennomføres testingen på følgende måte: i) Velg signifikansnivå a ut fra den foreliggende situasjon. ii) Bestem k slik at testen får det ønskede nivå. iii) Undersøk om den observerte Y-verdi, y, faller i forkastings området eller ikke.
I situasjoner der en ikke har tilgjengelig tabeller over fordelingen for Y, kan det imidlertid være fordelaktig å nytte følgende alternative fremgangsmåte: i) Velg signifikansnivå a ut fra den foreliggende situasjon. ii) Observer Y=y, og bestem (øvre grense for) P(Y > y I Ho). iii) Hvis P(Y>y lH0)< a, forkastes HQ; hvisP(Y > y lHQ) > a, forkastes Ho ikke.
Fig. 15.6.
Hypotesetesting
37
Siden
P(Y > y I Ho) < a y > k
er de to fremgangsmåtene åpenbart ekvivalente. (Se fig. 15.6.)
000OOO000
P(Y > y I Ho), som ofte betegnes a(y), angir det minste signifikansnivå som fører til forkasting av HQ når Y = y, og kalles signifikanssannsynligheten for den observerte verdi y av Y.
I enkelte situasjoner, f.eks. i forbindelse med vitenskapelige undersøkelser, synes det unaturlig å velge signifikansnivå. I slike situasjoner kan en om gå denne vanskeligheten ved å oppgi observasjonsresultatet og den tilhørende signifikanssannsynligheten.
15.4. Sammenheng mellom intervallestimering og hypotesetesting La Xj, . . . , Xn være n stokastiske variable med kjent fordelingsfunksjon F(xx, . . . , xn; 0), der 0 er en ukjent parameter. Anta at vi skal teste H0:0=00 mot Hj:0 f00
fen mulig testmetode vil her være å etablere et tosidig konfidensintervall for 9, basert på Xj, . . . , Xn, og forkaste HQ dersom det fremkomne intervall ikke inneholder 0Q. Vi stiller nå spørsmålet: hvilket signifikansnivå vil denne testen ha dersom nevnte konfidensintervall har konfidenskoeffisient (1 -a)? Om vi betegner konfidensgrensene med ^(Xj,. . . , Xn) og 0(Xj, . . . , Xn), er altså (15.12)
P0 [0(Xj,... , Xn) < 9 < 0(Xj,. . . , Xn)] > 1 - a
uansett hvilken verdi 0 måtte ha. (P$ angir at sannsynligheten er beregnet for parameterverdien 0.) Derfor er sannsynligheten for at Ho ikke skal bli feilaktig forkastet ved denne testen:
(15.13)
P9o[e(X1,...,Xn) u.
a0
“ 2
6-kvantiIen i normalfordelingen (0,1) vil heretter bli betegnet med
42
Samtidig bør åpenbart P( I X I > kx I g) være så stor som mulig når /i + /1q. kj bør derfor velges så liten som mulig. Den minste verdi av kj som tilfredsstiller (16.9), er
(16.10) Om vi kaller styrkefunksjonen for denne testen (3t (g), får vi:
ØiOO =P(IX-Mol>uQ % t Vn
1m) =
= 1-P(-UO ■£^ 7.00.
iii) La oss så tenke oss at vi har observert gjennomsnittsverdien 7.01 og ønsker et intervallanslag for ju med konfidenskoeffisient 0.95.
Ifølge resultatet i punkt b) kommer vi da til intervallestimatet: (7.01 - 1.96 •
3
): (6.977, 7.043)
, 7.01 + 1.96 • -^) 3
44
iv) La oss til slutt tenke oss at vi skal teste (16.14)
Ho : fl = 7.00 mot g + 7.00
og ønsker en test med signifikansnivå a = 0.05.
Den test som er angitt i punkt c) for denne type situasjon, har forkastingsområdet: IX-7.00 \> 1.96 •
3
= 0.033
Den tilhørende styrke funksjonen blir
^(g) = 4>(- 1.96 + 7-Q°7 M • 3) +4>(- 1.96 - 7'00~M • 3) 0.05 0.05 Nedenfor er gitt en tabell over verdier av fa (g) for noen utvalgte g-verdier. Siden (7.00 - △) = fa (7.00 + △), trenger en bare beregne fa (g) for positive verdier av g.
I Fig. 16.3 er j3(g) fremstilt grafisk. M
7.00 6.98 6.96 6.94 6.92
7-00-M .3 0.05
0.00 1.20 2.40 3.60 4.80
Fig. 16.3.
ØjGO 0.05 0.22 0.67 0.95 0.997
Statistisk analyse av Gauss-modeller
45
Det er lett å overbevise seg om at styrke funksjonene (16.8) og (16.11) begge er voksende funksjoner av n. Dette forhold kan utnyttes til å finne den minste n-verdi som for gitt a fører til at teststyrken i et konkret alternativ gi minst blir lik en oppgitt verdi .
Øving 16.2. Hvor stor må n minst være for at j3(/i), gitt i (16.8), skal være større enn eller lik 0.90 når p = Mo + o0 oga = 0.05?
16.1.2. p = Mo (kjent), o2 ukjent. fx(x)
Fig. 16.4. Den simultane sannsynlighetstetthet for Xj,. . . , Xn er her -2
(16.15)
-
SCxj-Mo)
f(xn . . . , xn;p0 ,o2) = (27m2) 2 e 20
a) Punktestimering av o2 . Ved å gå fram som i 13.3.1 får en følgende S.M.E. for a2: (Verifiser) (16.16)
(a2* )
= 1 S (X -m0)2 n j=i J
La oss undersøke egenskapene ved denne estimatoren. Ifølge Setning 10.5 (Del I, s. 142) er
cr
S(X.- Mo)2 X2-fordelt med n frihetsgrader. Derfor er J
E[i I(X.-Mo)2] = n o j=l J Og
1
n
Var[-L S (X. - Mo)2] = 2n a2 j=i J
46
Ved å utnytte dette får vi (16.17)
i
„2
n
E[(a2)»] = ^E[-L S(X-m0)2] = o2 n (jl j = i J
og
(16.18)
i
„4
n
n„4
Var[(o2*)] = ^-Var[\ S(X -/z„)2] = ^_ n2 a2 j=i J n
(cr2 )* er altså en forventningsrett og konsistent estimator for o2. (Setn. 13.1, s. 8).
I 13.2 har vi foreslått en annen estimator for n2, nemlig s2 = —Lsæ-X)2, n-lj=l J og vi viste der at også S2 er en forventningsrett estimator for o2. Hvilken av de to estimatorene, (cr2 )* og S2, bør foretrekkes i den foreliggende situasjon? Det synes naturlig å velge den estimatoren som har minst varians. La oss derfor i n — bestemme Var(S2). Ifølge Setning 10.7 (Del I, s. 142) er-^ S (X.-X)2 o2 j=i J X2 -fordelt med (n -1) frihetsgrader. Derfor er 1
— „
n
Var(-L S (X.-X)2) = 2 (n-1) o j=l J Ved å utnytte dette, får vi at
(16.19)
rr4
1
n
T n4
—
Var(S2)= -4? Var[-L S(XrX)2] = ^(n-1)2 a2 j=l J n-1
Begge estimatorene er altså forventningsrette og konsistente, men siden Var(S2) > Var[(=
1-a
?-,n
x) e-kvantilen i X2-fordelingen med V frihetsgrader vil heretter bli betegnet med ze p
Statistisk analyse av Gauss-modeller
47
a og za betegner henholdsvis (1 - —)- og — -kvantilene i x2 i'2’n 2’n 2 2 fordelingen med n frihetsgrader.
der z
Av (16.20) får en P(
n n S(X-Mo)2 -------- za,n'ao2) S(XrJUo)2 = P(-----L-----a2
(16.26)
gp2 a,n
cr2
0(o2) = i-r„(zo>n- ^-)
Eks. 16.2. Nøyaktigheten av en målemetode skal bestemmes, og en lar en kjent størrelse g0 bli målt 10 ganger av en person som ikke kjenner g0 • De måleresultater som oppnås, Xx,.. . , X , antas uavhengige og normalfordelte (g0 ,(J2 ), der cr2 er ukjent og karakteriserer målenøyaktigheten.
La oss tenke oss at måleresultatene er: 3.80, 3.40, 8.32, 6.93, 7.39, 3.85, 6.75, 6.20, 4.75, 6.15. g0 er på forhånd bestemt ved en „nøyaktigere” målemetode og funnet lik 5.42. x) f (z) betegner her og i det etterfølgende fordelingsfunksjonen for ^-fordelingen med n frihetsgrader.
Statistisk analyse av Gauss-modeller
49
a) La oss først tenke oss at vi på dette grunnlag skal angi et konfidensinter vall for o2 med konfidenskoeffisient 0.90. Vi nytter da den fremgangsmåte som er angitt i 16.1.2b og finner
S(x.-Mo)2 = 27.10 Siden z0,05 fl 0 = 18.31 og z0 ,9 5 rl 0 = 3.94, får vi som resultat intervallet
(1.48, 6.88) b) La oss deretter tenke oss at vi på grunnlag av samme forsøk skal avgjøre om dette gir grunnlag for å påstå at o2 > 2.25. Signifikansnivået for testen skal være 0.05.
Med den fremgangsmåte som er angitt i 16.1.2c, skal vi altså forkaste Ho når S(X--go)2 >Zo.o5/io ' CTo2 j J ):når S(X-m0)2 > 18.3 -2.25 = 41.18 j J I vårt tilfelle er 2(x. -g0)2 = 27.10, og observasjonsmaterialet gir altså (med signifikansnivå 0.05) ikke grunnlag for å forkaste 2.25.
Øving 16.5. Utled en rimelig test for
H0:a2=a02
mot
Hj:a2to02
når m = Mo (kjent), og bestem styrkefunksjonen.
16.1.3. n og o2 begge ukjente.
fx(x)
Fig. 16.5.
50
Den simultane sannsynlighetstetthet for (Xt, . . . , X ) er 2
1
f(x15.. . , xn;/i,a2) = (27T) 2 a02 dersom S2 er stor, dvs. dersom S(Xj -X)2 > k, der k er en passende valgt konstant. Ved å gå fram helt analogt til hva vi gjorde i 16.1.2c, kommer en fram til at testen får signifikansnivå a dersom en velger k
= za,n-l ' °o2
Styrkefunksjonen 0(o2) bestemmes også anlogt, og vi finner at (16.30) H(o2) = l-rn.i(za>„_i ■ -^)
o02
oooOOOooo
52
Styrkefunksjonene (16.26) og (16.30) viser seg begge å være voksende funk sjoner av n. Dette forhold kan utnyttes til å finne den minste n-verdi, som for gitt a, fører til at teststyrken i et konkret alternativ o}2 minst blir lik en oppgitt verdi .
Øving 16.7. Hvor stor må n minst være for at (3(o2), gitt i (16.30), skal være større enn eller lik 0.95, når o2 = 3cr02 og a = 0.05?
Øving 16.8. Utled en rimelig test for Ho : o2 = o02
mot
o2 4 Oo2
når ja er ukjent, og bestem styrkefunksjonen.
c) Intervallestimering av p og testing av hypoteser om p. Da vi i Eks. 14.4, s. 21 skulle bestemme et konfidensintervall for forvent ningsverdien i normalfordelingen (0,a02) der a02 var kjent, tok vi utgangs punkt i (X-Øj^TnYdo, som var normalfordelt (0,1).
I den situasjon vi nå skal se på, der o2 er ukjent, synes det nærliggende å prøve med å ta utgangspunkt i
(16.31) (X-m)xAF/S der S2 = -1- S(X.-X)2. n-1 J
Under de forutsetninger vi her har gjort, vil ifølge Setning 10.9, Del I, s. 145, (X-n)y/n /S være Student t-fordelt med (n-1) frihetsgrader. Med utgangspunkt i dette resultatet er det nå lett å etablere et konfidensin tervall for 11. Siden
P(X--|=,to
-0)/y * (0
2
nl
2
+
2~’
n2
__
/~~2
21
X2-X1 + uaV-^- + ^-) 2 111 n2
c) Testing av hypoteser om 0 = (p2 ~ Mi )■ La oss nøye oss med å se på den situasjon at vi på grunnlag av (Xx x,..., Xn x, X12,... ,Xn^2) skal teste 1 H0:0 = 00
mot
der 00 er et oppgitt tall. Å teste likO.
Hi:0 4 00 = M2 mot Mi + M2 svarer til at 00 settes
Tar en utgangspunkt i estimatoren 0* gitt i (16.35), synes det rimelig å for kaste Ho når I 0* - 00 I > k, der k er en passende valgt konstant. Ønsker en at testen skal ha signifikansnivå a, må k velges slik at (16.38)
P( IØ *-Ø
o l>kl 0 = 00) ua • T 2 Samtidig bør selvsagt k velges slik at P( 1*0 - 00 I> k) blir størst mulig når 0 f 00, og k bør derfor velges minst mulig. Setter vi inn for r, får vi altså som resultat at
(16.39) k= ua .V^i2/ni + a22/n2' 2 Styrkefunksjonen 0(0) for denne testen kan en få ved følgende resonne ment:
0(0) = P(IØ -Ø *
o l>u„(X ■t10) 2 = 1 -P(~U^ • 7 < 0* — 0 o Øo
eller
Ho":0 > Øo
mot
Hi”:0 < 00
forden situasjon vi her har beskrevet, kalles ofte for en (to-utvalgs-)S/We«ts t-test (Two-sample Student t-test).
Eks. 16.5. La oss betrakte situasjonen i Eks. 16.4 på nytt og sløyfe forut setningen om at u2 er kjent. a) Anta først at vi på grunnlag av observasjonsmaterialet skal angi et intervallestimat for 0 = - p. med konfidenskoeffisient 0.95. -D
Vi beregner da først S2 gitt ved (16.45) og finner
s2 = _L (0.0031 + 0.0017) = 0.00048
Altså er
s = 0.022
I de statistiske tabeller finner vi to.O2s,io = 2.23.
Ved innsetting i (16.52) får vi da følgende intervallestimat for (gB-
ma):
(-0.020, 0.036) b) Anta dernest at vi på grunnlag av observasjonsmaterialet skal teste
H0:ma =mb
mot
Hi:ma*M
b
og ønsker et signifikansnivå på 0.05. Går vi fram som i 16.2.2c, kommer vi til at Ho skal forkastes dersom
IX2 -Xi I > 2.23 S Ved innsetting av de aktuelle verdier av Xi, X2 og S ser vi at det foreliggende observasjonsmateriale ikke gir grunnlag for å forkaste Ho. (Ved å utnytte resultatet i 15.4, kunne vi umiddelbart ha trukket denne konklusjonen ut fra det faktum at det intervallestimat med konfidens koeffisient 0.95 vi fant for MB~MA ovenfor, inneholder 0.)
66
Øving 16.13. Utled en rimelig test for Ho :ai2 < Mi motH1:M2>Mi iden situasjon som er beskrevet i 16.2.2. Øving 16.14. Undersøk om observasjonsmaterialet i Eks. 16.5. gir grunnlag for å forkaste hypotesen Ho : o2 > 0.0009 og påstå at o2 < 0.0009.
16.2.3. p.1 og
of og o2 alle ukjente.
Punkt- og intervallestimatoren for Mi og of kan selvsagt bestemmes ut fra (Xn ,.. . , Xn i j) slik det er gjort rede for i 16.1.3. p2 og o22 estimeres analogt ut fra (X, 2, . .. , X„ 0).
a) Intervallestimering av a22 /oj2. Testing av hypoteser om o22 /(J?. Siden og
ni Sl2 = -J-j- S (Xjj-X,)2 ni - 1 i=i 11
1 n2 S22 = —4 s (Xi2-X2)2 n2 -1 i=i 12
estimerer henholdsvis Ui2 og u22 (se 16.1.3a, s. 50), synes det rimelig å ta utgangspunkt i S22 /S t2 når en skal intervallestimere eller teste hypoteser om o22 /a 2. Ifølge Setning 10.11 (Del I, s. 148) er O12
S? o22 Si2 (Fisher-) F-fordelt med (n2 - 1) og (nr 1) frihetsgrader, mens
o2 2 Oi2
Sj2 S22
er (Fisher-) F-fordelt med (^ - 1) og (n2 - 1) frihetsgrader. På dette grunnlag er det nå lett å etablere konfidensintervall for forholdet mellom de to variansene, f.eks. for o2 /o2 . Siden
(16.57)
Q 2 P(£ 'f „ Sl
1~2, ni-l, n2-l
2
Q2
Oj2
Sl2
2»ni"En2-l
) = 1-a
betegner her og i det etterfølgende 6-kvantilen i (Fishers-) F-fordeling med vj og v2
frihetsgrader.
Statistisk analyse av Gauss-modeller
67
I de fleste statistiske tabellverk finner en bare f_,v,,2 for e-verdier mindre enn 0.5. Vi skal imidlertid vise at (16.58)
fl\-e,vx,v2_ 1 - -- ----------
og utnytter vi dette resultatet, kan (16.57) skrives slik: P(S^---------L____ 4/
(16.59)
Si2
fa y,n2-l,ni-l
( s?_ Si12 f O-
)= 1
|,nrl,n/ 2
Q 2
1
1 1-l 1 2 ,n2-l,n
— * f $12
)
er altså et (l - a)-konfidensintervall for o22/o^.
oooOOOooo
Vi skal nå vise riktigheten av (16.58). La F være en stokastisk variabel som er (Fisher-) F-fordelt med Pi og p2 frihetsgrader. Da er
Altså er
P( 1 > ------1-----) = e Ffll-e,P1,P2
Om vi innfører den stokastiske variable H = — , er derfor F P(H > ----- 1-----) = e p2
e-kvantilen i H's fordeling må altså falle sammen med ----- ------ . h-e,p1,p2
Ifølge Setning 10.13 (Del I, s. 149) erH = — (Fisher-) F-fordelt med F Pi frihetsgrader, og derfor er
som er ekvivalent med (16.58).
p2
og
68
Eks. 16.6. Anta at vi skal bestemme f0 .9 5 5 7> 15. I de statistiske tabeller
finner vi at f0.05,15,7 = 3.51. Av (16.58) får vi så at f0.95,7,15 0.28.
=
oooOOOooo
La oss nå vise hvordan en på grunnlag av (Xx x,.. . , Xn 2) kan teste hypo tesen O~2
Ho: -4 < t?0
(16.60)
H,:
mot
Of
On2
> n0
01
der 77 0 er et kjent tall. (17O = 1 svarer f.eks. til at en skal teste n22 < o2 mot o2 > o2 .)
Det synes fortsatt naturlig å ta utgangspunkt i S22 /S2 og nytte en test med et forkastingsområde av typen
s? Sl2 Skal en slik test få signifikansnivå a, må k velges slik at q 2
P(
(16.61)
°2
> k
bl
\
— < ?7o) < « ^1
S2 —2 er (Fisher-) F-fordelt med (n2 - 1) og Si ^2 (nj - 1) frihetsgrader. For å kunne utnytte dette skriver vi (16.61): o2
På s. 66 pekte vi på at
P(
S22
n2 i’ni 1
< a , sålenge
a2
> f o 22
Siden Bp p (x) er en fordelingsfunksjon, er 1 - Bp v (x) en avtagende 1’2^
1’2
G\
1
funksjon av x. (16.62) vil derfor være tilfredsstilt for alle —L > -L- dersom g 2
.
o2
i?0
den er tilfredsstilt for -3- = — , dvs. dersom k velges slik at o2 Vo x) B
med
(x) betegner her og i det følgende fordelingsfunksjonen for (Fishers) F-fordeling og i>2 frihetsgrader.
Statistisk analyse av Gauss-modeller
(16.63)
69
P(|^ > k I ~ = 7?o) < a Si2 of
Men (16.63) kan også skrives n 2 o2 ^k I — o? 02
P(^- S22 Si2
\
= ^o)
Av dette ser vi at k må velges slik at f a,n2-l,n1-l
7?0
dvs. slik at
(16.64)
^a, n2-l,n1-l
Velges k slik, har en sikret at testen får nivå a. Samtidig ønsker en selvsagt at testen skal ha så stor teststyrke som mulig, dvs. at P(S22 /S2 > k) skal være størst mulig når o22 /o2 > t]q . Blant de k-verdiene som tilfredsstiller (16.64), velger en derfor den minste, dvs.
(16.65)
k = 7?o ’ f n i „ 1 a,n2-l,nj-l
Vi er altså kommet fram til en u-nivå-test for (16.60) som har forkastings område S 2 d 2 $2
1°
. f 1a,n2-l,n1-l
Styrkefunksjonen for testen kan nå utledes. Det viser seg at teststyrken bare avhenger av o2 /o2, som vi nå kaller 17. Vi får da S2 øøo = P(^>% fa,„2.l,nrl) = pr gi2 . S22 > ^0 f cr22
(16.66)
P(t|)
1
S2
®n2-l,n1-l
T]
a’n2-l>n1-l
7?
^a,n2-l,n1-l
Eks. 16.7. To leverandører A og B tilbyr samme slags råstoff til en fabrikk. For fabrikken er det av produksjonstekniske grunner om å gjøre at råstoffet er så homogent som mulig når det gjelder innhold av et bestemt stoff S. Det er påstått at råstoffet fra A er mer homogent i så måte enn råstoffet fra B. For å finne ut om denne påstanden er riktig, bestemmer en S-innholdet i 6 prøver fra A og i 8 prøver fra B ved samme analysemetode.
70
La Xn , X21, . . . , X61 og X12 ,. .., X82 være analyseresultatene henholds vis for råstoffet fra A og fra B. Om vi går ut fra at vi kan nytte modellen fra 16.2.3, skal vi altså på dette grunnlag teste Ho
' a?
1
mot
cr?2 Hj : —, > 1 Oi
La oss se hva konklusjonen blir dersom resultatet av forsøket er: A: 16.2, 16.4, 18.4, 19.0, 17.3, 16.0
B: 15.9, 18.6, 13.0, 19.8, 20.7, 17.7, 15.6, 24.3 og testen skal ha signifikansnivå 2.5%. Ho skal da forkastes dersom
SsW
f0.0 2 5, 7,5 = 6.85
I dette tallmaterialet er S12 = i • 7.77 = 1.55, s22 = - • 85.52 = 12.22. 1 5 7
Siden s22/sf2 7.9, gir altså resultatet av undersøkelsen (med signifikansnivå 2.5%) grunnlag for å påstå at o2 /o2 > 1, dvs. at råstoffet fra A er mer homogent med hensyn på S-innhold enn råstoffet fra B.
Øving 16.15. Utled en rimelig a-nivå test for
Ho : Oj2 = o22
mot
Hi : o2 + o2
i den situasjon som er beskrevet i 16.2.3.
b) Intervallestimering av 0 = p2~ Pi- Testing av hypoteser om 6. Om en i denne situasjonen forsøker å etablere et konfidensintervall for 0 = n2 - Mi, eller å teste hypoteser om 0, kommer en opp i vanskeligheter, når en skal finne den eksakte fordelingen til den observator det er naturlig å basere seg på. Vi skal her nøye oss med å angi en fremgangsmåte som bygger på en approksimasjon og som kan nyttes når nj og n2 er store. 2 2-1 er N(0,l), der 0* = X2-X,. ni n2 Dersom ni er stor, regner en med at punktestimatoren Si2 =
1 ni —-— 2 (X-, - X. )2 med stor sannsynlighet vil være „nær” Oj2. Tilni - 1 i=i 11 1 i n2 svarende vil, dersom n2 er stor, S22 =------ X (Xi9 - X2 )2 med stor sannn2-1 i=i 12
_
_
Statistisk analyse av Gauss-modeller
71
synlighet være „nær” a22 •
Dersom både r^ og n2 er store, tillater vi oss å approksimere fordelingen ø 2 '
/$ 2
til (0 * - 0) /y —— + —— med normalfordelingen (0,1). Dette tar vi utni n2 gangspunkt i når vi skal etablere konfidensintervall for 0 eller teste hypoteser om 0.
Ved å gå fram som i 16.2.1b ledes vi da til følgende konfidensintervall: —
—
(X2-X,-u j
/q
2
0 2'
+ -^ , n, n2
/c 2
*2 ø~
i 7-^-+^ni n2
som tilnærmet har konfidenskoeffisient 1 - a.
Skal vi f.eks. teste
Ho : 0 = ØQ
mot
HjIØ + Øq
går vi fram som i 16.2.1c, og ledes da til en test som har forkastingsområde i^-Xi-øo । > u • 4*
Denne testen vil tilnærmet ha signifikansnivå a.
17. STATISTISK ANALYSE AV BINOMISKE, POISSON-, HYPERGEOMETRISKE OG MULTINOMISKE MODELLER. KONTINGENSTABELLER.
17.1. Binomiske modeller 17.1.1. En binomisk forsøksrekke. Anta at vi skal utføre et eksperiment som kan beskrives ved en binomisk for søksrekke (Del I, s. o8). Den stokastiske variable som skal observeres, betegnes X og er altså binomisk fordelt (n,p). p e [0,1], men er ellers ukjent, og hen sikten med å utføre eksperimentet er å få informasjon om p. En naturlig punktestimator for p er (17.1) (Denne kommer en forøvrig fram til såvel ved bruk av sannsynlighetsmaksimeringsprinsippet som ved momentprinsippet.)
Det er lett å verifisere at p er forventningsrett, har varians lik
og er
konsistent (Bemoullis lov om de store tall).
oooOOOooo
La oss nå tenke oss at vi på grunnlag av én observasjon av X skal teste hypo tesen (17.2)
H0:pp0
der p0 er et gitt tall i [0,1]. Ved å resonnere som vi gjorde i Eks. 15.1, ledes vi til en test med forkastingsområde
X > k
74
Nå er P(X>k) = S(")px(l-p)”-x x=k A
en strengt voksende funksjon av p (se Øving 17.1). En sikrer derfor at testen får nivå a,): at P(X > k I Ho) < a ved å velge k som det minste hele tall slik at n
(17.3)
S(")Pox(l-Po)n-x < x=k A
a
Med k valgt på denne måte, blir styrkefunksjonen for testen:
(17.4)
0(p) =
n S (")px(l -p)"-x x=k A
Øving 17.1. Anta at Xj,. . . , Xn er uavhengige og rektangulært fordelt (0,1]. Vis at sannsynligheten for at minst k av de n X'ene skal falle i (0,p] er gitt ved uttrykket for 0(p) i (17.4). Hvordan kan en slutte av dette at 0(p) må være en strengt voksende funksjon av p?
Øving 17.2. Utled en rimelig test (se Eks. 15.2, s. 32) for H0:p = p0
Hiiptpo
mot
Bestem styrkefunksjonen for testen.
oooOOOooo
I 11.3.2 (Del I,s. 165) pekte vi på at X asymptotisk er normalfordelt (np, np( 1 -p)) når n -> °°. Er n tilstrekkelig stor (np > 5, og n( 1 -p) > 5), vil fordelingen til X kunne approksimeres ved en normalfordeling. Dette kan utnyttes til utledning av „tilnærmet riktige” metoder for intervallestimering av p og tester for hypoteser om p. Vi skal først utvikle noen metoder basert på approksimasjonen (11.10) (Del I, s. 165).
Ved etablering av en test for (17.2) fant vi det rimelig å nytte en test med forkastingsområde
X > k
der k er bestemt slik at (17.5)
P(X>k I Ho)< a
):
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
(17.6)
75
P(X < k I Ho)> 1 - a
I stedet for å bestemme k ut fra (17.3), nytter vi nå approksimasjonen (11.10) og får at k må være slik at
(17.7)
( k Q'57^_) > 1 - a når p < p0 Vnp(l-p)
Venstre side av (17.7) er en avtagende funksjon av p, og (17.7) er derfor oppfylt når la
VnPo(l-Po) Vi velger derfor
(17.8)
k = np0 + 0.5 + ua •v/np0(l-p0)‘
der u_ betegner a-kvantilen i N(0,l). (X
oooOOOooo
Vi skal så utlede et konfidensintervall for p og igjen utnytte approksima sjonen (11.10). Vi tar da utgangspunkt i P(Cj (1-P1) C2)P2 (I-P2) x!=o xi y-xi
(v l
(17.41)
PXi Y^i 77
der X1 = 0, l,...,y; y = 0, l,...,^+n2). Ved innsetting av (17.40) og (17.41) i (17.42)
pX1,Y c(Y) ) = S
y=0
X
xj >c(y)
px Y(xny) b
og det er innlysende at c(y) da for hver y-verdi bør velges som det minste hele tall slik at ni)( n2 . y-Xj S /nj+ n2. xi>c(y) y
for at teststyrken skal bli størst mulig.
Ho skal altså forkastes hvis og bare hvis den observerte Xi -verdi er større enn eller lik c(y), der y betegner den observerte Y-verdi. Legg merke til at en for å kunne gjennomføre denne testingen i en konkret situasjon bare trenger verdien av c(y) for den observerte Y-verdi, og at c(y) kan finnes direkte ut fra punkt-
sannsynligheten for den hypergeometriske fordeling h (x^n^ n2 , ———) . y nj4-n2 (Se det etterfølgende eksempel.) Situasjonen er forøvrig godt egnet for bruk av den alternative fremgangsmåte ved testing som vi gjorde rede for i avsnitt 15.3, s. 36). En test av den type vi her har beskrevet, kalles ofte for en betinget test (gitt Y), siden en resonnerer som om den stokastiske variable Y er gitt. Eks. 17.2. La Pi og p2 betegne defekt-sannsynlighetene henholdsvis for produksjonsopplegg 1 og 2. Det blir påstått at p} > p2 , og vi skal på grunnlag av prøveproduksjonen ta stilling til om det er grunnlag for en slik påstand. For enkelhets skyld vil vi tenke oss at en her har erfaring for at pj < p2 er utelukket, slik at en får å teste
H0:pi =p2
mot
H1:p1>p2
Prøveproduksjon av 20 enheter etter opplegg 1 gir 3 defekte. Tilsvarende gir prøveproduksjon av 15 enheter etter opplegg 2 én defekt. La signifikansnivået være valgt lik 0.10.
I dette tilfelle er altså y = 4, og c(4) skal bestemmes som det minste hele tall
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
slik at
(17.47) (17.47) kastes.
S
Xi >c(4)
20 v 15 Xi' 4-x 35 4
85
< 0.10
gir c(4) = 4. Siden Xi = 3 og altså mindre enn c(4), kan Ho ikke for
I avsnitt 15.3, s. 36 , har vi gjort rede for en alternativ fremgangsmåte ved testing. Om vi nytter denne her, går vi fram slik:
Først beregnes sannsynligheten for at Xx skal være større enn den observerte Xi -verdi, dvs. 3. Dersom denne sannsynlighet er mindre enn eller lik 0.10, er dette ekvivalent med at Xi > c(4), og Ho kan forkastes. Er nevnte sannsyn lighet større enn 0.10, kan Ho ikke forkastes på grunnlag av forsøksresultatet. Eks. 17.3. La situasjonen være som beskrevet i det foregående eksempel, men anta at nj og n2 er store nok til at vi kan nytte testen med forkastingsområde (17.35). Vi tenker oss at vi har prøveprodusert 1000 enheter med opplegg 1 og funnet 40 defekte. Videre har vi prøveprodusert 800 enheter med opplegg 2 og funnet 24 defekte, a velges som før lik 0.10 og ua blir da lik 1.282. Med de oppgitte tall blir _______ △________ = 0.04 - 0,03_ y(_L+±)^(1^) y(_L + _1_) . _64_ . 1236 v ni n/pv v 1000___ 800 1800 1800 Forsøksresultatet gir altså ikke grunnlag for å forkaste Ho.
Øving 17.6. Utled ved samme resonnementsmåte som ovenfor at en rimelig a-nivå-test for (17.31) vil ha forkastingsområde Xi >
c2(Y)
og Xi < Ci(Y)
der Ci (Y) er det største hele tall slik at ni n2 . Cl (y) ( Xi y-x/ a S ( ni + n 2 xi=0 2 y og der c2 (y) er det minste hele tall slik at
86
S xi>c2(y)
(n‘)( 112 ) v xx y-xx (nx+ n2 y
Øving 17.7. Hvilken test vil du foreslå i den situasjon som er beskrevet i øving 17.6 dersom nx og n2 er svært store?
17.2. Poisson-modeller
17.2.1. Analyse av ett Poissonforsøk. Anta at vi skal utføre et eksperiment som kan beskrives ved en Poissonmodell (Del I, s. 77). Den stokastiske variable X som skal observeres, er altså Poissonfordelt med parameter Å, der X > 0, men ellers er ukjent. Hensikten med forsøket er å skaffe informasjon om X.
Skal X estimeres på grunnlag av én enkelt observasjon av X, er (17.48)
X=X
en naturlig punktestimator for X. Det følger direkte av resultatene i Avsnitt 4.3.1 (Dell, s. 77) at (17.49)
E(X) = X,
Var(X) = X.
Skal X estimeres på grunnlag av n uavhengige realisasjoner av X, (XT,. . . , Xn), er (17.50)
X = X =
SX. n j=i J
en naturlig punktestimator for X. En innser lett at X er forventningsrett, har
varians - og derfor er konsistent. n (Av Setning 9.2, Del I, s. 137, følger for øvrig at Y = SXj er Poissonfordelt med parameter 77 = nX. Å skaffe informasjon om X er selvsagt ekvivalent med å skaffe informasjon om 77 siden n er kjent.) Anta nå at vi på grunnlag av én observasjon av X skal teste hypotesen
(17.51)
H0:X Xo
der Xo er et spesifisert positivt tall. Signifikansnivået skal være a. Ut fra (17.48) synes det rimelig å nytte en test med forkastingsområde av
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
87
formen (17.52)
X > k
Nå kan det vises at P(X > k) er en strengt voksende funksjon av Å. En sikrer derfor at P(X > k I Ho) er mindre enn eller lik a ved å velge k som det minste hele tall slik at oo
(17.53)
e"x° S Xox/x! < a x=k
Styrkefunksjonen for denne testen blir (17.54)
j3(X) = e’Å S Xx/x! x=k
Øving 17.8. Utled en rimelig 0.05-nivå-test for
Ho : X = 5
mot
Xf5
Skisser styrkefunksjonen for testen.
oooOOOooo
Det kan vises at (X-X)A/X asymptotisk er normalfordelt (0,1) når X For store verdier av X (f.eks. X > 10), vil derfor fordelingen til X kunne approksimeres ved N(X,X). Ved å utnytte dette, kan en ved å gå fram på samme måte som vi gjorde i 17.1, utlede metoder for intervallestimering av X med tilnærmet konfidenskoeffisient (1 -a) og tester for hypoteser om X med til nærmet signifikansnivå a.
I analogi med det konfidensintervall vi bestemte for p og hvis grenser ble gitt i (17.16) og (17.18), får vi her at dersom (17.55)
ai(X) = X-0.5 + 0.5ua2 -uaX/0.25ua2 + (X-0.5)' 2
2
2
Og
(17.56)
vil
a2(X) = X + 0.5 + 0.5ua2 + uaV/Q.25ua2 + (X + 0.5)' 2
2
2
P(ai (X) < X < a2(X)) « 1 -a
(Intervallet kan en også rent formelt få fram av uttrykkene i (17.16) og (17.18) ved å erstatte np med X og la n mens p -» 0).
88
Vil en nøye seg med en „dårligere” approksimasjon, kan en ta utgangspunkt i at (X-ÅVy/X1 tilnærmet erN(0,l) og resonnere slik: (17.57)
P(-uo
X2
Ved en intuitiv betraktning av situasjonen synes det ikke urimelig å ta ut gangspunkt i summen Y = (Xi + X2) for deretter å se hvor stor andel Xj ut gjør av denne. Utgjør Xi den vesentlige del av Y, indikerer dette åpenbart at Xt > X2 og at Ho derfor bør forkastes. Forkastingsområdet for en test av denne type blir da av formen
(17.64)
Xi > c(Y)
der c er en passende valgt funksjon av Y. Vi skal se hvordan c(Y) kan be stemmes slik at testen får det ønskede signifikansnivå. Fremgangsmåten er helt anlog til den vi nyttet i 17.1.2. Den simultane fordeling for Xi og Y er gitt ved punktsannsynligheten (17.65)
xi y-xi Px Y(xi,y) = P(Xi = Xi, X2 = y-Xi) = —2—e *—2 eM ’’ Xi! (y-xi)! der y = 0,1,. .. ; xx = 0, . . . , y
90
Videre er den marginale fordeling for Y ifølge Setning 9.2 (Del I, s. 137) gitt ved punktsannsynligheten y
(17.66)
PY(y)= —------------- e
y = 0,1,2,...
,
Altså er den betingede fordeling for Xj, gitt Y = y,
): (17.67)
p
, (x1* ^) ly)=(y)(^ X1(l-^L_)1"X1, x1 = 0,l,...,y 1 X1 Åj + Å2 Ai + A2
Den betingede fordeling for Xx, gitt Y = y er m.a.o. den binomiske fordeling (y,p), der (17.68)
p=
Ai । A2
Ved innsetting av (17.67) og (17.66) i (17.42) blir den simultane punktsann synligheten bragt på en form som skal vise seg å være hensiktsmessig. zn
(17.69)
z
ÆX1/i
x
pX1 Y c(Y) I Ho) < a
dvs. slik at oo
(17.70)
S
?
|Y(X1 ly) • pY(y) < a, nårÅi = X2 (Ho)
px 1
y=0 xj>c(y)
1
1
Når Ho er riktig (Åj = X2 ),er imidlertid (17.71)
px |Y(xi f y) = (y ) • (|/ , 1 2
og (17.72)
Xi = 0, l,...,y
y
e"n',
p (y) =
y!
y = 0,l,...
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
91
Siden pY (y) ikke avhenger av x i, kan (17.70) skrives S
Spy(y) y=0
(y)(l)yc(y) X1
Hvis vi altså for hver y-verdi bestemmer c(y) slik at S
(xy)(|)y c(Y)) = S
Z
pXi
y
y=0xi>c(y) A1’Y
(Xj + X2) Ui + x2) = X ------------- e y=o y!
Xi ^c(y) X1
(xi ,y) =
Aj + A2
Aj+A2
og det er innlysende at c(y) for hver gitt y-verdi bør velges som det minste hele tall slik at
(17.73)
x>(|)y < a
Xi >c(y) xi
2
for at teststyrken skal bli så stor som mulig.
Testen kan derfor utføres ved å observere Y, bestemme c(y) ut fra (17.73) og deretter forkaste Ho bare dersom den observerte Xj -verdi overskrider c(y). Dersom en bare er interessert i å avgjøre om Ho (17.63) skal forkastes eller ikke, trenger en altså bare å bestemme c(y) for den observerte Y-verdi. I lik het med testen på s. 84, kalles denne testen en betinget test (gitt Y), og situa sjonen er godt egnet for bruk av den alternative fremgangsmåte ved testing som vi gjorde rede for i avsnitt 15.3, s. 36. Eks. 17.5. Vi skal sammenligne strålingsintensitetene Xj og X2 for to radio aktive kilder og er interessert i å teste Ho • X] — X2
mot
Hj i Xj > X2
Modellen er som angitt ovenfor, og vi har observert at Xj =9, mens x2 = 6. Signifikansnivået skal velges lik 0.10. Vi gjennomfører nå testingen på den måte som er angitt ovenfor, konstaterer først at Xj + x2 = y = 15 og bestemmer c( 15) = 11. Siden den observerte Xj -
92
verdi ikke overskrider c(15) = 11, gir observasjonsmaterialet ikke grunnlag for å påstå at Åx > X2 (med det valgte signifikansnivå). Øving 17.10. Utled ved samme resonnementsmåte som vi brukte ovenfor, en rimelig a-nivå-test for H0:Xi = X2
mot
H1:å1+X2
Anta at Xx og X2 er observert henholdsvis lik 7 og 12, og gjennomfør test ingen når a velges lik 0.10. Øving 17.11. Utled ved samme resonnementsmåte som vi brukte ovenfor, en rimelig a-nivå-test for
mot
H0:Xi=k-X2
HxiXi>k-X2
der k er en gitt positiv konstant.
Anta at Xi og X2 er observert henholdsvis lik 11 og 4 og gjennomfør testen når k = 2 og a velges lik 0.10.
17.3. Hypergeometriske modeller Anta at vi skal utføre et eksperiment som kan beskrives ved en hypergeometrisk modell (Del I, s. 74). Den stokastiske variable som skal observeres, er altså hypergeometrisk fordelt med punktsannsynlighet hn(x; a, 0). Vi skal gå ut fra at n og a er kjente, naturlige tall, n < a, mens 9 er en ekte brøk med nevner a, og ellers ukjent. Hensikten med forsøket er å skaffe informa sjon om 9.
Skal 0 estimeres på grunnlag av en enkelt realisasjon av X, er (17.74)
9 = X/n
en naturlig punktestimator for 9. Det følger direkte av (4.12), Del I, s. 75, at
(17.75)
E(0) = 9,
N^9} =
a-1
n
Skal en på grunnlag av én observasjon av X teste hypotesen
(17.76)
H0:000
der 90 er et positivt tall i (0,1), synes det ut fra (17.74) rimelig å nytte en test med forkastingsområde av formen
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
93
(17.77)
Nå kan det vises at P(X > k) er en strengt voksende funksjon av 0. En sikrer altså at P(X > k I Ho) er mindre enn eller lik a (dvs. at testen får nivå a), ved å velge k som det minste hele tall slik at /0 w a"
(17.78)
S —----- < a
x=k
/a\
Styrkefunksjonen for denne testen blir aØx fa-aØ x l n-x (17.79) m = x=k x (a) vn 7 Øving 17.12. Anta at a = 25, n = 8 og at a velges lik 0.10. Hva blir konklu sjonen når en skal teste Ho : 6 < 0.2
mot
Hi :0 >0.2
dersom en ved å utføre eksperimentet, finner at x = 0? Når a er stor sammenlignet med n, vil det vanligvis spille liten rolle om lodd trekningen skjer med eller uten tilbakelegging. Fordelingen til X kan i så fall approksimeres ved binomialfordelingen (n,0). Er dessuten n tilstrekkelig stor, vil binomialfordelingen (n,0) kunne approksimeres ved normalfordelingen (nØ,nØ(l -0)). Under slike betingelser kan en som en approksimasjon nytte de metoder som er angitt i 17.1.1 til bestemmelse av konfidensintervall for 9 eller til testing av hypoteser om 0.
Øving 17.13. Utled en rimelig test for Ho: 0=0.1
mot
H^ØfO.l
når a = 100 og n = 10. Velg signifikansnivå 0.10. Skisser styrkefunksjonen for denne testen.
17.4. Multinomiske modeller K. Pearsons og R.A. Fishers x2-tester Vi skal her nøye oss med ganske kortfattet å angi (uten beviser) noen metoder for analyse av multinomiske modeller og antyde anvendelser av disse.
94
17.4.1. En multinomisk forsøksrekke. Fullstendig spesifisert hypotese. Anta at vi skal utføre et eksperiment som kan beskrives ved en multinomisk forsøksrekke av n enkeltforsøk (Del I, s. 117). Den stokastiske vektor som skal observeres, (Xj,. .., Xr l), er altså multinomisk fordelt. (17.80) P(X1=X1,..,XI.1=xI.1) = —nl—P1X1...p;r, x,=O,l,...;j=l,...,r 1 r 1 xj..x ! r J
der
r r S x.=n, Sp.= l j=i J j=l J
16. 1 (Del I, s. 118) har vi begrunnet at marginalfordelingen for Xj er binomisk (n,Pj) j = 1,2,. . . , r. Naturlige estimatorer for pj,. . . , pr er derfor
(17.81)
p, = ^, J n
j=l,2,...,r.
Legg merke til at vi egentlig har bare (r - 1) ukjente parametre siden pr = r-1 r-1 1 - S pP Vi har da også at p = 1 - Sp.. j=l J j=i J Ved å utnytte resultatene i 6.1 finner en at E(Pj) = pj5
Var(pj) = p.(l-p.)/n
(17.82)
Cov(pj5pk) = -
,
jfk
j,k = 1, 2,..., r
Estimatorene p x, . . . , pr er altså ikke engang parvis uavhengige. La oss tenke oss at vi på grunnlag av en observasjon av (Xj ,X2, . . . , Xr l) skal teste hypotesen (17.83)
Ho :p. -p.°, j = J 1,2,.., J r- 1 JmotJ Hj :p. f p.° for minst en j-verdi
Vi skal nøye oss med å angi en testmetode som kan nyttes når n er stor. Van ligvis forlanges npj > 5 for alle j. Som en „motivering” for metoden, skal vi først se på tilfellet r = 2, som vi allerede har drøftet (s. 79). Vi kom der fram
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
95
til en a-nivå-test som hadde forkastingsområdet (17.26). Innfører vi beteg nelsene fra dette avsnitt, kan dette forkastingsområdet skrives (17.84)
(X^npt0)2 npi°(l-Pi°)
(17.84)
kan imidlertid også skrives
(17.84)'
v2 (Xj-npp2 j=l npf
z a, i1
z a, 11
På s. 79 begrunnet vi at venstre side av (17.84) og dermed venstre side av (17.84)' tilnærmet vil være x2-fordelt rned 1 frihetsgrad dersom pi = Pi°.
Det kan vises at den multinomiske fordeling under ovennevnte forutsetning r (X.-np;0)2 kan approksimeres ved en multinormal fordeling og at S —-—— tilj=i npj° nærmet vil være x2-fordelt med (r-1) frihetsgrader dersom Pj = pj° for j = l,...,(r-l). Jo mer forskjellig Pj er fra pj° , jo mer kan vi vente at Xj vil avvike fra npj° ; r (Xj-npj0)2 j = 1,. . . , r. Det synes da rimelig å ta en stor verdi av X —— som en j=i npj° indikasjon på at Ho er gal, og gjør vi det, får vi en test med forkastingsom rådet x)
(17.85)
r (Xj-npj0)2 j=l npj°
a,r-1
der za r l, som før, betegner a-kvantilen i x2 -fordelingen med (r-1) frihets grader. Testen får tilnærmet signifikansnivå a. Eks. 17.6. En har konstruert en maskin for generering av uavhengige, til feldige enkeltsifrede tall. Mekanismen er slik at avhengighet mellom de enkelte sifre som genereres, ikke kan oppstå. En er imidlertid interessert i å finne ut om sifrene 0, 1,..., 9 opptrer med forskjellig sannsynlighet og vil la maskinen generere n(=100) enkeltsifre for å ta stilling til dette spørsmål.
Om en lar pj, j = 0, 1,. . . , 9 betegne sannsynligheten for at resultatet av en siffergenerering skal bli , j” og lar X betegne antall ganger ,J” opptrer blant 9
9
de n(=100) sifre, j = 0, 1,. . . , 9, er t p, = 1, 2 x( = 100 og Xo,... , X8 j=o J j=o J x) Karl Pearsons X2-test. Karl Pearson (1857-1936).
96
multinomisk fordelt. P(X0-x0, . . . , X8 -x8) -
100! x0 ! . .. x9!
x0
Po
x9
Xj
• • • P9
Pl
På grunnlag av de observerte verdier av Xo ,. . . , X8 skal vi ta stilling til om Ho:po = Pi = . • . = p8 = 0.10 Dette er et eksempel på den situasjon vi nettopp har beskrevet, og vi kan nytte den test hvis forkastingsområde er gitt i (17.85).
La oss tenke oss at genereringen ga som resultat 34673 74945 24805 91665
10097 54876 37542 24037
32533 80959 04805 20636
76520 09117 64894 10402
13586 39292 74296 00822
og se hva vår konklusjon da ville bli. Vi finner at j
0
1
2
3
4
5
6
7
xi
14
6
12
10
12
10
10
9
8 7
9 10
9 (Xj-10)2 Og S —2--------5.00. 10 j=o 9 (X: -10)2
Hvis Ho er riktig, er S —----j=o
10
tilnærmet x -fordelt med 9 frihetsgrader,
(Xj-10)2 ogE(E—L> « 9. Resultatet gir derfor ikke grunnlag for å påstå at de enkelte sifre opptrer med forskjellige sannsynligheter.
17.4.2. Testing av modell. Allerede på side 1 i Del I understreket vi betydningen av at den modell vi arbeider med, er realistisk. En viktig del av en statistisk undersøkelse er der for å „verifisere” at modellen virker rimelig.
La oss her ta for oss den situasjon at vi har n uavhengige realisasjoner av en stokastisk variabel Y, Yj, . . . , Yn, og er kommet til at Y er kontinuerlig fordelt med sannsynlighetstetthet f (y; 01,. . . , Øs) der f er en kjent funksjon, mens (01,. . . , Øs) er ukjente parametre. (Fremstillingen blir analog i det tilfelle at Y er diskret fordelt.)
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
97
Vi setter oss nå som oppgave å teste nullhypotesen (Ho) at Y's sannsynlig hetstetthet virkelig er f(y;Øt,..., Øs).
En måte å gå fram på er følgende:
Tallinjen deles først inn i r delintervaller (aj. 2 ,aj], der j = 1, . . . , r og a0 = -°°, ai = + oo. La Xj betegne antall realisasjoner av Y som faller i (aj_15 aj, og betegn P(Ye(aj_15aj]) = Jajf(y;Øi,. . . , Øs)dy med Pj(Øi,. . . , Øs). aj-i
Hvis Ho er riktig, vil nå Xj, . . . , Xr-1 være multinomisk fordelt ,, f
P(X1=xlv.. A-^Xr-P =
,
Xi
„
,P1(91.-A) -PrA.- •• A)
Xi !.. .xr!
Derfor er (se s. 95) j. (Xj-np/Ø, ,... * A)) / — > _____ z.________ *--------------------------------------------j=l npj(015. . . , Øs) tilnærmet x2 -fordelt med (r-1) frihetsgrader når Ho er riktig.
Hvis Ho ikke er riktig, vil en kunne vente at to eller flere av differensene I Xj - npj(0 i, . . . , Øs) ler større enn de ville vært om Ho var riktig. En stor verdi av Zj vil vi derfor ta som en indikasjon på at Ho ikke er riktig. Men Zx inneholder de ukjente parametre (Øi,. . . , Øs) og kan derfor ikke nyttes direkte som test-observator. Dersom en i Zj erstatter (Øt,.. . , Øs) med korresponderende estimatorer (0 , * . . . , 02*) og danner (Xj-nPj(0 j=l nPj(0 * ,...,
Øs* )) 2 Øs*)
synes det fortsatt være rimelig å ta en stor verdi av Z som indikasjon på at Ho ikke er riktig, og gjør vi det, får vi en test med forkastingsområde x) (17.86)
r (Xj-npj(01x,...,0sx))2 j=l npj(0* ,!... ) * ,0
Spørsmålet er nå: (Øi,...,Øs)?
Hvilken metode skal en nytte ved estimeringen av
En måte å gå fram på er å gå tilbake til de n realisasjonene av Y, dvs. Yt,.. . , Yn, og la 0 * ,..., 0 * være sannsynlighetsmaksimeringsestimatox) R.A. Fishers X^test.
xr
98
rene for (Øi, . . . , Øs) basert på Yt,.. . , Yn. (Se s. 10.) Det kan vises at Z da, under svært generelle betingelser for f(xt,. . . , xn; 0 j,. . . , Øs), til nærmet vil være x2 -fordelt med ((r-1) - s) frihetsgrader når Ho er riktig. Vi mister altså én frihetsgrad for hver av parametrene ,. . . , Øs som estimeres. Ved å velge k i (17.86) lik a-kvantilen i denne x2-fordelingen, za r_1_s, opp når en at testen tilnærmet får signifikansnivå a. For at tilnærmelsen skal være brukbar, må n være stor, og r velges slik at antall Y-observasjoner som faller i hvert intervall, minst er lik 5. r må heller ikke være for liten. Eks. 17.7. La oss anta at vi studerer intensiteten av en radioaktiv kilde som utstråler a-partikler. Vi akter å observere tidsavstandene mellom påfølgende utsendelse av a-partikler.
Dersom en gjør forutsetningene (4.18) (Del I, s. 78), ledes en til at observa sjonene kan oppfattes som n uavhengige stokastiske variable, alle eksponensialfordelt med sannsynlighetstetthet (Del I, s. 82):
(17.87)
fT (t) = Åe"xt ,
t>0
der Å (intensiteten) er en ukjent positiv konstant.
La oss nå nytte den fremgangsmåte vi nettopp har skissert, til å undersøke om denne modellen er urealistisk. Om vi betegner observasjonene med Tj,. . . , Tn, er sannsynlighetsmaksimeringsestimatoren for Å gitt slik: (verifiser) (17.88)
n ST: j=i J
La oss videre tenke oss at vi har observert 100 tidsavstander og fått som resultat (konstruerte tall):
3.16 1.44 6.60 2.32 8.80 3.08 1.56 12.80
10.20 1.16 2.08 1.01 0.12 5.64 3.00 1.00
3.92 10.08 0.80 2.88 6.44 2.52 0.16 16.12
1.16 2.32 17.57 9.28 10.60 1.84 0.60 8.44
1.88 1.32 7.92 1.04 4.64 9.60 7.20 1.24
(forts, neste side)
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
99
(forts.)
0.36 13.16 3.40 0.65 18.04 7.44 1.88 2.56 1.25 2.72 2.92 4.04
0.44 3.92 0.48 2.80 6.72 2.20 0.56 7.04 5.05 1.42 1.44 6.48
0.48 0.68 9.88 1.10 3.56 5.72 4.02 0.32 13.30 0.20 3.44 4.62
4.08 1.04 0.40 22.40 5.24 8.96 5.04 1.02 3.68 1.24 7.60 5.84
2.02 8.96 5.40 9.60 2.32 3.04 4.12 0.08 8.32 0.36 2.80 3.16
Tabell 17.1.
Vi utarbeider først en frekvenstabell over observasjonsmaterialet. 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 17
17
15
7
10
4
5
10
Tabell 17.2.
(Alle intervaller er valgt åpne til venstre, lukket til høyre.) For å få ,,nok” observasjoner i hver celle, slår vi sammen intervallene
(4.00, 5.00] og (5.00, 6.00], (6.00, 7.00] og (7.00, 8.00], samt (8.00, 9.00] og (9.00,10.00].
Vi får da følgende inndeling i celler med tilhørende frekvenser: celle nr. j 1 2 3
intervall
( 0.00, ( 1.00, ( 2.00,
1.00] 2.00] 3.00]
frekvens „Xj” 17 17 15 (forts, neste side)
100
(forts.) celle nr. j 4 5 6 7 8
intervall
frekvens „Xj” 10 13 9 9 10
( 3.00, 4.00] ( 4.00, 6.00] ( 6.00, 8.00] ( 8.00, 10.00] (10.00, Tabell 17.3.
Ved innsetting av de aktuelle observasjoner i (17.88), finner vi estimatet 0.220 for Å. De forskjellige pj(X*) lar seg nå lett beregne.
j
* Pj(X )
1 2 3 4 5 6 7 8
0.1975 0.1585 0.1272 0.1021 0.1476 0.0951 0.0612 0.1108
nPj(X *) 19.75 15.85 12.72 10.21 14.76 9.51 6.12 11.08
Xj-npjCX») 17 17 15 10 13 9 9 10
+ + + -
)) * (Xj-np/Å
2.75 1.15 2.28 0.21 1.76 0.51 2.88 1.08
7.5625 1.3225 5.1984 0.0441 3.0976 0.2601 8.2944 1.1664
2
(X,-nPj(X * ))2 *) npj(X 0.3829 0.0834 0.4087 0.0043 0.2098 0.0274 1.3553 0.1053
2.5771 Tabell 17.4.
Vi finner her at 8 (X,-nPj(Å )) * 2 L —— = 2.58 j=i *) npj(X og siden z0 05 8_x _x = zo.o5,6 ~ 12.59, gir observasjonsmaterialet oss ingen grunn til å hevde at modellen er urealistisk.
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
101
Øving 17.14. La Xi,. . . , Xs 0 betegne 50 uavhengige realisasjoner av en stokastisk variabel X. Nytt den fremgangsmåten vi nettopp har skissert til å finne ut om det er grunn til å hevde at X ikke er normalfordelt 0,1) når observa sjonsmaterialet er: (Konstruerte data)
4.83 3.83 3.97 3.93 4.40 5.50 3.97 4.06 5.40 3.81
4.97 3.95 4.94 4.97 4.62 2.93 4.94 1.94 3.78 4.64
5.20 4.54 2.21 3.49 3.58 5.50 4.03 3.66 3.51 2.41
2.72 4.04 3.42 3.23 3.65 3.79 2.10 3.81 4.30 2.49
2.91 4.83 5.54 3.90 5.02 4.51 4.68 3.62 4.90 3.03
Velg signifikansnivå a= 0.10.
17.5. Statistisk analyse av (2x2)-tabeller
17.5.1. Innledning. La oss først se på et par eksempler på situasjoner der forsøksresultatene ofte presenteres i såkalte (2x2)-tabeller (Dobbel dikotomi). Eks. 17.8. To produksjonsopplegg Ai og A2 for fremstilling av en bestemt artikkel, skal sammenlignes. Sannsynligheten for at et produkt som fremstilles med Aj skal bli defekt, kaller vi pj, j = 1, 2. Vi er interessert i å sammenligne Pi °g P2 , som begge er ukjente. For å skaffe til veie nødvendig informasjon, prøveproduseres ni (12) artikler med Aj og n2 (10) artikler med A2 , og av disse viser det seg at henholdsvis Xi (3) og X2 (1) er defekte (D), mens de øvrige er i orden (D * ). Resultatet av forsøket kan da settes opp i følgende (2x2)-tabell:
Tabell 17.5.
102
Spørsmålet er så hvordan en på grunnlag av dette skal kunne teste f.eks.:
(17.89)
H0:pi=p2
mot
Pi >p2
Eks. 17.9. En masseprodusert artikkel kvalitetskontrolleres med hensyn på to kriterier, dimensjonering og overflatebehandling. La A betegne at dimen sjoneringen ikke er tilfredsstillende og B at overflatebehandlingen ikke er til fredsstillende. En er spesielt interessert i å finne ut om de to typer feil opptrer uavhengig av hverandre eller ikke. For å skaffe til veie nødvendig informasjon, prøveproduseres i alt n (22) artikler. Av disse viser det seg at
Zi (1) er av typen AAB, Z2 (3) er av typen AAB * , Z3 (2) er av typen A * AB, mens Z4 = (n- Zi - Z2 - Z3) (16) er av typen A * AB * . Resultatet av dette forsøket kan da settes opp i en (2x2)-tabell slik:
B
* B
I alt
A
1
3
4
* A
2
16
18
I alt
3
19
(22)
Tabell 17.6. Spørsmålet er så om det på dette grunnlag kan sies at de to feiltyper ikke opptrer uavhengig av hverandre.
oooOOOooo Selv om tabellene 17.5 og 17.6 synes like, er det vesensforskjell mellom de to situasjonene. I tabell 17.5 er f.eks. linjesummene 12 og 10 fastlagt ved for søkets begynnelse. De tilsvarende linjesummer i tabell 17.6 er ikke gitt på for hånd. (Kolonnesummene er ikke gitt på forhånd i noen av tabellene.)
I det følgende skal vi se på noen modeller som det er naturlig å bruke ved analyse av situasjonene i de to eksemplene.
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
103
17.5.2. Hypergeometrisk modell (Eks. 17.8). La oss ta for oss Eks. 17.8 på nytt og skrive opp tabell 17.5 med generelle symboler. * D
D Ai a2
Xx X2 Xj + x2
ni - Xi
ni
n 2 - X2
n2
ni 4- n2 ~ Xj ~ X2
nt + n2
Tabell 17.7. Vi går ut fra at utfallene av de (n} + n2) forsøkene kan antas å være uavhengige. Vi skal først intuitivt resonnere oss fram til en rimelig test for (17.89), dvs. for H0:pi=p2
mot
H1:p1>p2
Selv om Y = Xt + X2 er en stokastisk variabel, synes det åpenbart at den ikke inneholder relevant informasjon når Ho skal testes mot Hi. Det som betyr noe i denne sammenheng, er hvor stor andel Xj utgjør av Y. Intuitivt ledes vi altså til å se på den betingede fordeling for Xt, gitt Y. Ved å gå fram som vi gjorde på s. 82, se (17.39), (17.40),(17.44), kommer en til at Xj, forgz77 verdi av Y, er hypergeometrisk fordelt, når Ho er riktig. P(X, = X1 lY = y;H0) =
(n‘)(112 ) 1 X1 , x, = 0. 1,... Æi -i- n2 x y
Ved å betrakte den observerte verdi av Y som gitt, er vi altså blitt ledet til en hypergeometrisk modell. Når Ho skal testes mot Hj og nivået i denne betingede testen velges lik a, synes det rimelig å velge en test med forkastingsområde
Xj > k der k er det minste hele tall slik at
(17.90)
(n‘)(112) v y-v v=k zni+n2. y
104
(I 17.1.2 har vi vist at nivået for den tilsvarende ubetingede test, der Y altså ikke oppfattes som gitt, også blir lik a.) Testen kalles ofte for Fisher-Irwins test etter R.A. Fisher og J.O. Irwin som foreslo den uavhengig av hverandre i 1930-årene. Andre kaller den Fishers eksakte test for (2x2)-tabeller, siden en kan beregne den eksakte signifikanssannsynlighet, P(Xi > c(Y) I Ho), når testen nyttes.
Eks. 17.8 (fortsatt). La observasjonsmaterialet være som allerede oppgitt og a nc&tq valgt lik 0.10. Siden den minste verdi av k som tilfredsstiller S v=k
0.10
er k = 4, og den observerte verdi av Xi er 3, gir materialet ikke grunnlag for å forkaste Ho. En alternativ fremgangsmåte ville være å beregne signifikanssannsynligheten for resultatet, dvs. S v=3
Siden denne er større enn det valgte signifikansnivå, kommer en til samme konklusjon som ovenfor.
17.5.3. Dobbelt binomisk modell (Eks. 17.8). Situasjonen i Eks. 17.8 kan åpenbart beskrives ved en dobbelt binomisk for søksrekke, og vi har da nøyaktig den situasjon som ble drøftet i 17.1.2. (Legg merke til at vi der kom fram til nøyaktig samme test som i forrige avsnitt.)
17.5.4. Multinomisk modell (Eks. 17.9). La oss ta for oss Eks. 17.9 på nytt og skrive opp Tabell 17.6 med generelle symboler.
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
B
* B
A
Zi
z2
* A
Z3
n-Zi-Z2-Z3
Zi T Z2
N
1
c
Zi + Z3
105
n-Zj-Z3
Tabell 17.8.
Situasjonen kan her åpenbart beskrives ved en multinomisk modell (Del I, s. 117) der r = 4, Pi p2 p3 p4
= = = =
P(AAB) * P(AAB ) * P(A AB) 3 * P(A * ) = 1 - S Pi AB j=l
slik at (17.91)
P( n (Zj = Zj)) = — "! j=i
J
der
p,z' P7 p3Z3 p?,
Zj I z2' z3! z4 ! z4 = n - Zj - z2 - z3.
At de to feiltypene A og B opptrer uavhengig av hverandre, er det samme som at (se Del I, s. 37, 38) P(B I A) = P(B I A * ). Det synes videre naturlig å si at det er positiv sammenheng mellom opptreden av A og B dersom P(B I A) > P(B I A * ) og negativ sammenheng dersom P(B I A) < P(B I A * ). For å konkretisere problemet vil vi her tenke oss at hensikten med forsøket er å teste
(17.92)
Ho : P(B I A) = P(B I * ) A
mot
Hx:P(BI A) > P(Bl * ) A
dvs.
(17.92)'
Ho : —=_mot Pl + P2
P3 + P4
H[. _Pi_ > __Ps_ Pl + P2
P3 + P4
Selv om U = Zj + Z2 er en stokastisk variabel, føler en intuitivt at den ikke inneholder relevant informasjon når en skal ta stilling til (17.92)'. Det som betyr noe her, må være den relative størrelse av Zx, (Z2) og Z3, gitt Zx + Z2 . Vi vil derfor i det etterfølgende tillate oss å betrakte U (og dermed også n-U) som gitt.
106
La oss altså utlede den betingede fordeling for Z] og Z3, gitt U = u. Vi får da ~ ITT X P(Zl = Z1 , Z2= U-Zl , Z3 =Z3) P(Z, = z,, Z3 = z31 U=u) = ~—-
Om U vet vi at den er binomisk fordelt (n,pj + p2) (se Del I, s. 118, siste avsnitt). Utnytter vi dette, får vi at n! Z1 U-Zi Z3 P3
------------ '------------ Pl P2
P(Z1=Z1 ,Z3=z3 IU=u) =
=
u-
(
zJCu-zJ!
)zi . (
Pi Pi+p2
P2
-----------------------rJk-7I(Pi + P2)u(l-P,-P2)n-u u!(n-u)! P3
yi-zi (n-u)I (
P1 + P2
Z4 P4
z3!z4!
)Z3
(
P4
)Z4
I-P1-P2
l-pi-p2
Ved å sette inn uttrykkene for p4 og z4 (= n-u-z3) finner vi at
(17.93)
P(Z1 = z1,Z3=z3IU=u) =
=cZ1u jr p, + p2
- -4'-r zi-("-"x —P3 + P4 P1+P2 Z3
P3 + P4
Av (17.93) ser vi at om U betraktes som gitt, blir og Z3 uavhengige og bi nomisk fordelte henholdsvis (u;px/(px 4- p2))og (n-u; p3/(p3 + p4)).
I denne situasjon skal vi teste Ho: —=_ P1 + P2
P3+P4
mot
Hj
Pi P1 + P2
>
P3
P3+P4
Tillater vi oss altså å betrakte U som gitt, er situasjonen akkurat den samme som den vi drøftet i 17.5.3 (og 17.1.2). Testingen gjennomføres derfor akkurat på samme måte som i 17.5.2. Når vi går fram slik, tillater vi oss ikke bare å oppfatte U =Zj + Z2 som gitt, men også Y = Zj + Z3. Vi resonnerer altså som om såvel linjesummene som kolonnesummene i (2x2)-tabellen er gitt. (Dobbel betinging.) Ved resonnement tilsvarende det vi gjennomførte i 17.1.2 kan en vise at nivået for den tilsvarende ubetingede test blir det samme som det nivå vi velger for den betingede test.
Eks. 17.9 (fortsatt). La observasjonsmaterialet være som allerede angitt, og la a være valgt lik 0.10 . Siden den minste verdi av k som tilfredsstiller
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
107
(4)(18) s ' v'1 3-v' v=k z 22 x 1 3 J
er k = 3 og den observerte verdi av er 1, gir forsøksresultatet ikke grunnlag for å påstå at det er positiv sammenheng mellom opptreden av de to feil typene A og B. Øving 17.15. En ønsker å finne ut om det er noen sammenheng mellom hår farge og øyenfarge i en gitt befolkning. 20 personer blir derfor loddtrukket fra befolkningen. For hver person klassifiseres øyenfargen som blå eller brun, og håret som lyst eller mørkt. Resultatet ble: (konstruerte tall)
Lyst hår
Mørkt hår
I alt
Blå øyne
9
3
12
Brune øyne
3
5
8
12
8
20
I alt
Tabell 17.9.
Gir resultatet grunnlag for å påstå at det er positiv sammenheng mellom øyen farge og hårfarge når disse klassifiseres som her? Velg signifikansnivå a = 0.10. Øving 17.16. Ta for deg situasjonen i Eks. 17.8 på nytt. Angi en rimelig test for H0:pi =p2
mot
Hj :pi + p2
Øving 17.17. Ta for deg situasjonen i Eks. 17.9 på nytt. Angi en rimelig test for å avgjøre om de to feiltypene opptrer uavhengig av hverandre eller ikke. oooOOOooo
Undertiden er linjesummene og kolonnesummene i (2x2)-tabellen så store tall at det blir for tidkrevende og omstendelig å beregne signifikanssannsynligheten direkte ut fra den hypergeometriske fordelingen. I slike tilfelle nøyer en seg ofte med å approksimere den hypergeometriske fordeling med en normalfor deling som har samme forventning og varians, og beregner signifikanssannsyn ligheten ut fra denne. Vi skal nøye oss med å illustrere dette ved et eksempel.x) x) Eksemplet er hentet fra Høyland og Walløe: Elementær statistikk. Tapir 1981.
108
Eks. 17.10. I 1954 ble Salks vaksine mot poliomyelitt prøvd ut i New York. 401.947 barn deltok i forsøket. Av disse ble 200.745 loddtrukket og vaksinert med Salk-vaksinen, mens de øvrige ikke ble vaksinert. Barna ble så fulgt i en viss periode, og en registrerte hvor mange som fikk poliomyelitt med lammel ser i de to gruppene. Resultatet ble:
Poliomyelitt med lammelse
Kontrollgruppe Vaksinert gruppe
115
I alt
Ikke poliomyelitt med lammelse
I alt
33
201.114 200.712
201.229 200.745
148
401.826
401.974
Tabell 17.10.
På dette grunnlag ønsket en å teste: Ho : Vaksinen beskytter ikke mot å få poliomyelitt med lammelse,
mot Hj : Vaksinen beskytter mot å få poliomyelitt med lammelse. Situasjonen er her akkurat den samme som den vi drøftet i Eks. 17.8. Vi skal forkaste Ho når Xj (= antall i kontrollgruppen som får poliomyelitt med lammelse) blir stor. Velger vi å beregne signifikanssannsynligheten for resul tatet, skal vi altså bestemme: 201 229 w 200 745 148 v H 148-vJ P(Xi> 115 IHO)= X v = 115 401 974. ( 148 '
Når Ho er riktig, er Xi egentlig hypergeometrisk fordelt hn(xj ;a,3) (se Del I, s. 74) der a = 401.974, n = 148 og 0 = 201 229/401 974. Nytter vi formlene (5.94) og (5.95) i Del I, s. 115, blir E(XJ = 148 • 201 229 = 74 j 401 974
Var(Xj)
= 401 974- 148 . 148 . 201 229 Q _ 201 229 401 974 401 974 401 974
= 36.99
SD(Xj) = 6.08
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
109
Vi approksimerer nå fordelingen til Xi under Ho ved en normalfordeling med riktig forventningsverdi og standardavvik og finner da at signifikanssannsynligheten for resultatet blir:
P(X, > 115 I Ho) ~ 1 -$( 115;°„~74'1) = 1--K6.64) « 0.00005 6.08 Signifikanssannsynligheten for forsøksresultatet ligger altså langt under et hvert rimelig valg av signifikansnivå, og Ho må forkastes.
17.6. Statistisk analyse av (rxs)-tabeller (kontingenstabeller).
17.6.1. Innledning. Vi skal først se på et par eksempler på situasjoner der forsøksresultatene van ligvis presenteres i såkalte (rxs)-tabeller, også kalt to-veis kontingenstabeller.
Eks. 17.11. Menneskenes røde blodlegemer kan inndeles i fire forskjellige arvelige blodtyper, A, B, AB og 0. En internasjonal helseorganisasjon ønsker å finne ut om den relative forekomst av de fire blodtypene er den samme i tre bestemte etniske folkegrupper, Ej, E2 og E3. Tilfeldige utvalg av størrelse henholdsvis 400, 200 og 100 personer trekkes fra de tre folkegruppene, og blodtypen bestemmes for hver enkelt person. Resultatet av undersøkelsen er gitt i tabell 17.11, som kalles en (3x4)-tabell. Blodtype
Folkegruppe
A
B
AB
0
I alt
Ei e2
176 112
41 16
19 6
164 66
400 200
e3 I alt
48
8
40
100
336
65
4 29
270
700
Tabell 17.11. Spørsmålet er nå om dette forsøksresultatet gir grunnlag for å påstå at den relative forekomst av de fire blodtypene er forskjellig for disse tre folkegrup pene.
Eks. 17.12. For å finne ut om det er noen sammenheng mellom øyenfarge og hårfarge hos mennesker i en gitt befolkning, loddtrekkes i alt 80 personer
110
fra befolkningen. For hver person klassifiseres øyenfargen som blå eller brun, og hårfargen som lysblond, mørkblond eller mørk. Resultatet av undersøk elsen er gitt i tabell 17.12, som kalles en (2x3)-tabell. Hårfarge
Lysblond Mørkblond Mørk
I alt
Øyen-
Blå
29
12
7
48
farge
Brun
10
12
10
32
I alt
39
24
17
80
Tabell 17.12. Spørsmålet er nå om dette forsøksresultatet gir grunnlag for å påstå at det er sammenheng mellom forekomst av øyenfarge og hårfarge i denne befolk ningen. oooOOOooo Tabellene 17.11 og 17.12 er begge (rxs)-tabeller, men vi legger merke til at de atskiller seg fra hverandre i det at linjesummene i Tabell 17.11 er gitt på forhånd, mens linjesummene i Tabell 17.12 fremkommer som resultat av forsøket, dvs. er stokastiske.
17.6.2. x2-test for homogenitet i (rxs)-tabell. Den situasjonen vi har å gjøre med i Eks. 17.11, er en direkte generalisering av situasjonen i Eks. 17.8.1 Eks. 17.8 dreide det seg om å sammenligne to Zzznomiske fordelinger. Her er det spørsmål om å sammenligne tre multinomiske fordelinger.
For å få en mer hensiktsmessig notasjon ved oppstilling av modellen vil vi betegne blodtypene A, B, AB og 0 henholdsvis som blodtype 1,2, 3 og 4. Undersøkelsen av utvalget fra folkegruppen Ej kan da oppfattes som en multi nomisk forsøksrekke (se Del I, s. 117) der en har i alt n* uavhengige enkeltforsøk, der en i hvert enkeltforsøk registrerer om blodtype 1,2,3 eller 4 opptrer, og der sannsynligheten for at en skal finne blodtype j settes lik py, j = 1,2,3,4; i = 1,2,3. Om en nå betegner antall personer i Ej som har blodtype j,med Xy, kan resultatet stilles opp slik:
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
1
2
3
4
I alt
Ei
Xn
Xi 2
Xi 3
x14
ni
e2
X21
X2 2
x23
X2 4
n2
e3
X31
X3 2
x3 3
X34
n3
X.!
X.2
x. 3
X.4
n
111
Tabell 17.13. 4
Her er S j=i
J
= nB i = 1,2, 3. 3
3
Videre setter vi L rq = n og innfører X. j = S^X^, Om de enkelte
(17.94)
j = 1,2, 3, 4.
vet vi at
0 < Pjj < 1,
og at (17.95)
4
S Pii = 1 for alle i, j=l J
men for øvrig er de enkelte pjj ukjente. Siden hensikten med undersøkelsen var å finne ut om den relative forekomst av de fire blodtypene er forskjellig for de tre folkegruppene, er det naturlig å sette opp som nullhypotese (17.96)
Ho ipij = p2j = P3j i
j = 1,2, 3,4.
Hvis Ho er riktig, er E(Xij) = niplj,for alle i j
Nå kan det vises ved samme type resonnement som vi refererte til i 17.4, s. 95, at når Ho er riktig, vil Z'. =
4 2 j=i
(X^-mpu) 2 XJ iriJ74 * *
i=l,2,3
niPlj
være tilnærmet x2-fordelt med 3 frihetsgrader. Altså vil, når Ho er riktig, 3 4 (X;: - mpi i)2 Z' = S S —11---- 1F1J i=l j=l
njPij
112
tilnærmet være x2 -fordelt med (3 + 3 + 3) = 9 frihetsgrader. Hvis Ho ikke er riktig, vil en kunne vente at to eller flere av differensene I Xy - np^ I vil være større enn om Ho er riktig. Når Ho ikke er riktig, vil en altså kunne vente at Z' vil være større enn om Ho er riktig.
Siden Z' inneholder den ukjente parametervektor (pj i ,pi 2 ,Pi 3), kan den ikke nyttes direkte som testobservator. Dersom en i Z' erstatter denne parametervektoren med estimatoren p =(pn,Pi2,Pi3), der (17.97)
Plj = J
Xij + Xnj + Xoj X. j 11 2j------ 21= —1, n n
j = 1,2, 3,(4),
som synes være en rimelig estimator for p^- når Ho er riktig, og danner (17.98)
3 4 (X:: - n.pi .-)2 Z= S S .. 1P1J i=lj = l njPij
synes det fortsatt rimelig å ta en stor verdi av Z som en indikasjon på at Ho ikke er riktig. Gjør vi det, ledes vi til en test, definert ved forkastingsområdet:
Z > k
I likhet med hva vi gjorde i 17.4.2, „mister” vi én frihetsgrad for hver para meter som estimeres. Her har vi estimert tre parametre (den fjerde kan uttryk kes ved de tre andre). Når Ho er riktig, er altså Z tilnærmet x2 -fordelt med 9-3 = 6 frihetsgrader. Ved å velge k = za 6 oppnår en altså at testen tilnær met får nivå a. Om vi hadde gjennomført det samme resonnement for en (rxs)-tabell, ville vi kommet til at
Z = ff (Xij-n.Plj)2 i=ij=i njpjj tilnærmet er x2 -fordelt med r(s- 1) - (s- 1) = (r- 1) ■ (s- 1) frihetsgrader når Ho er riktig.
Ved testing av homogenitet (17.96) i en (rxs)-tabell kan vi altså nytte den test som er definert ved forkastingsområdet
(17.99)
j. f (X|j -niPij)2 i=ij=i niPlj
Denne testen har tilnærmet nivå lik a.
Za,(r-1)(s-1 )
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
113
Eks. 17.11 (fortsatt). Når vi skal nytte testen (17.99) i dette eksemplet, beregner vi først n^ j = ntX. j/n for alle i,j. La oss skrive opp Tabell 17.11 på nytt idet vi fyller inn i parentes estimatene njp^.
Blodtype 1
2
3
4
I alt
176 (192)
41 (37.1)
19 (16.6)
164(154.3)
400
e2
112 (96)
16(18.6)
6
(8.3)
66 (77.1)
200
e3
48 (48)
8 (9.3)
4
(4.1)
40 (38.6)
100
336
65
29
270
700
Tabell 17.14.
Her er z_ 162 । 162 । 0 192 96 48
3.92 , 2.62 + 1.32 + 2.42 , 2.3 * + 0.12 । 9.72 + 11.1% 1.42 _ 37.1 18.6 9.3 16.6 8.3 4.1 154.3 77.1 38.6
Velges a = 0.05, firiner vi av tabellene at z0 ,Os ,6 = 12.6.
Materialet gir altså ikke grunnlag for å påstå at „blodtypefordelingen” er forskjellig for de tre befolkningsgruppene. oooOOOooo
La oss til slutt peke på at den testen vi her har drøftet, også kan nyttes når r = s = 2, slik tilfellet var i Eks. 17.8. Om en i denne situasjonen ønsker å teste Pi = P2 mot Pi $ P2 i motsetning til (17.89) s. 101, kan en altså nytte en X2 -homogenitetstest, men en må være oppmerksom på at Fisher-Irwin-testen har eksakt nivå a, mens x2 -testen bare tilnærmet har nivå a. Øving 17.18. Nytt testen (17.99) på situasjonen i Eks. 17.8.
17.6.3. x2 ~test for uavhengighet i (rxs)-tabell. Den situasjonen vi har å gjøre med i Eks. 17.12, er en direkte generalisering av situasjonen i Eks. 17.9.1 begge tilfelle dreier det seg om multinomiske for-
114
søksrekker. Forskjellen er bare at i Eks. 17.9 klassifiseres resultatene i fire kategorier, mens de i Eks. 17.12 klassifiseres i seks. For å få en hensiktsmessig notasjon innfører vi Ai og A2 for de to øyenfarger og Bi, B2 og B3 for de tre hårfarger. Sannsynligheten for at en person skal ha øyenfarge Aj og hårfarge Bj betegner vi med . Dermed blir sannsynligheten for at en person skal ha øyenfarge Aj lik S py som vi skriver Pj. , og sannsynj=1 2 ligheten for at en person skal ha hårfarge B.j lik i=1 S p,j , som vi skriver p ; . ij Om de enkelte Pjj vet vi her at o < Pij < 1
(17.100) 2
3
2 SPij= 1 i=l j = l J men for øvrig er de ukjente.
At de to egenskaper, øyenfarge og hårfarge, opptrer uavhengig av hverandre, er da ensbetydende med at p,j = pj. • p. j for alle i,j. Vår nullhypotese blir altså (17.101)
H0:pij=pi..p . f
i=l,2; j= 1,2,3.
Vi oppfatter nå klassifikasjonene av de n personene som uavhengige, og betegner vi antall personer med øyenfarge A; og hårfarge B, med X.;, kan for1 J 3 søksresultatet presenteres som i tabell 17.15, idet vi innfører X; = S X:: 2 j=l y ogX.^.SXy. ij •
Hårfarge
Bi
b2
B3
I alt
Øyen-
Ai
Xi i
Xi 2
Xi 3
Xn
farge
A2
X21
X2 2
X2 3
x2.
I alt
x.i
X.2
X.3
n
Tabell 17.15
Binomiske, Poisson-, hypergeometriske og multinomiske modeller 2
115
3
(Xi i, Xi 2 , Xi 3 , X2 i, X2 2) er altså multinomisk fordelt, og X X X,, = n. i=lj=l J Hvis Ho er riktig, er
E(Xij) = np,. • p.j ,
i = 1, 2; j = 1,2, 3.
Nå kan det vises ved samme resonnement som vi refererte til i 17.4, s. 95 , at når Ho er riktig, vil 2 3 (X;: - np; ,p. j)2 Z' = XX —---- -- J i=ij=i npj.p.j
tilnærmet være x2-fordelt med 2-3-1 = 5 frihetsgrader. Er Ho ikke riktig, vil en kunne vente at to eller flere av differensene IX^ - np, .p.j I vil være større enn om Ho er riktig. Hvis Ho ikke er riktig, vil en m.a.o. kunne regne med at Z' blir stor. Siden Z' inneholder de ukjente parametre pi. , p2. , p. i, p. 2 og p. 3 , kan denne ikke nyttes som testobservator. Dersom en i Z' erstatter disse parametre med estimatorene pi. , p2. , p. i , p.2 og p.3 der -
-
Pi •
Xi-
--1
o
’
1
,
j - 1,2, 3
n
1,2, og
(17.102) P-j =
som er naturlige estimatorer henholdsvis for pj. og p.j, i = 1,2;j = 1, 2, 3, når Ho er riktig, og danner (17.103)
2
3
Z= X X i=lj=i
(Xsj - np; . p )2 1J, p npj.p.j
synes det fortsatt rimelig å ta en stor verdi av Z som indikasjon på at Ho ikke er riktig. Gjør vi det, ledes vi til en test for (17.101),definert ved forkastings området:
(17.104)
Z > k
I likhet med hva vi gjorde i 17.4.2 og 17.6.2, ,,mister” vi én frihetsgrad for hver parameter som estimeres. Her har vi estimert 3 parametre, nemlig Pi. ogp. i,p.2 (p2. = 1-pi. ,p. 3=1-P.i-P. 2 )• Når Ho er riktig, er altså Z, definert ved (17.103), tilnærmet x2-fordelt med (2-3-l)-3 = 2 frihetsgrader. Ved å velge k = za 2 oppnår en altså at testen tilnærmet får nivå a. Om vi hadde gjennomført det samme resonnementet for en (rxs)-tabell, ville vi kommet til at
116
z= s s (Xij ~nPi- p-j)2 i=!j=l npi.p.j
tilnærmet var x2-fordelt med rs - 1 - (r-1) - (s-1) = (r-1) • (s-1) frihetsgrader nårH0 er riktig.
Ved testing av uavhengighet (17.101) i en (rxs)-tabell kan vi altså nytte den test som er definert ved forkastingsområdet r S (X:j - np: . p.i)2 S É o 1 r J i=ij=i npj.p.j
(17.105)
Za,(r-1 )(s-1)
Denne testen har tilnærmet nivå lik a. Eks. 17.12 (fortsatt). Når vi skal nytte testen (17.105) i dette eksemplet, . . X, X..beregner vi først n • pj. p.= -------- - for alle i, j. La oss skrive opp Tabell J n 17.12 på nytt idet vi fyller inn i parentes estimatene npj. p.j .
1
2
3
I alt
1
29 (23.4)
12(14.4)
7(10.2)
48
2
10(15.6)
12 (9.6)
10 (6.8)
32
39
24
17
80
1 alt
Tabell 17.16.
Her er
Z=
«L 2.42 23.4 14.4
3.22 + 5.62 4. 2.42 + 3.22 = 6.86. 10.2 15.6 9.6 6.8
Velges a = 0.05, finner vi av tabellene z0,0 5 ,2 = 5.99.
Materialet gir altså (med signifikansnivå 0.05) grunnlag for å påstå at øyenfarge/hårfarge ikke opptrer uavhengig av hverandre i befolkningen.
oooOOOooo
Binomiske, Poisson-, hypergeometriske og multinomiske modeller
117
La oss til slutt peke på at den test vi her har drøftet, også kan nyttes når r = s = 2, slik tilfellet var i Eks. 17.9. Om en i denne situasjonen ønsker å teste uavhengighet mot avhengighet generelt, kan en altså nytte en x2-uavhengighetstest, men en må være oppmerksom på at signifikanssannsynligheten for observasjonsresultatet, beregnet ut fra x2 -testen, bare tilnærmet er riktig, mens signifikanssannsynligheten for observasjonsresultatet, beregnet ut fra testen i 17.5.4, er eksakt. Øving 17.19. Nytt testen (17.105) på situasjonen i Eks. 17.9.
18. STATISTISK ANALYSE AV IKKE-PARAMETRISKE MODELLER 18.1. Parametrisk/Ikke-pararnetrisk modell I samme øyeblikk som en bestemmer seg for å analysere en situasjon (et feno men, et eksperiment) statistisk, har en stilltiende forutsatt at situasjonen er underlagt statistisk regelmessighet (Del I, s. 7). De n observasjonene en akter å ta, forutsettes m.a.o. å være realisasjoner av n stokastiske variable (vektorer) Xj, . . . , Xn med en eller annen simultan fordelingsfunksjon. Det første skritt i en statistisk analyse vil bestå i å formulere den forhåndsinnsikt en har i problemet (a priori viten) som egenskaper ved denne simultane fordelingsfunksjon.
I en rekke situasjoner er en i stand til, på grunnlag av a priori viten og visse forenklende forutsetninger, å angi fordelingen for X'ene ved en kjent funk sjon , . . . , Xn (X1 > • • • ’ xn ’
1 > • • • ’ ^r)
der Øj, . . . , Ør er ukjente konstanter (parametre) som vites tilhøre et nærme re angitt delområde £2 av det r-dimensjonale rom, men som for øvrig er ukjen te. I så fall har en altså vært i stand til å etablere en naturlig én-entydig sam menheng mellom mengden av de mulige fordelingsfunksjoner og punktene (0T, . . . , Ør) i parameterrommet Sl. Den fremkomne modell sies da være parametrisk. Det eneste ukjente i slike situasjoner er verdiene av parametrene. I kapitlene 16 og 17 har vi sett eksempler på oppstilling av parametriske mo deller, og også angitt analysemetoder for disse. I andre situasjoner vet ikke statistikeren tilstrekkelig til å kunne stille opp den funksjonelle form på den simultane fordelingsfunksjon, eller er ikke villig til å gjøre de forenklende forutsetninger som må til for å oppnå en rimelig para metrisk modell. Den funksjonelle form på fordelingsfunksjonen er altså ukjent. I så fall sies modellen å være ikke-parametrisk. Situasjonen kan f. eks. tilsi at Xj, . . . , Xn med rimelighet kan oppfattes som uavhengige variable, men statis-
120
tikeren synes likevel ikke at han vet nok til å kunne spesifisere formen på fordelingsfunksjonen. Forutsetningen om uavhengighet er imidlertid temmelig restriktiv, og vi skal se at den i flere situasjoner gjør det mulig å utlede såvel metoder for estimering som for hypotesetesting, selv om den funksjonelle form på fordelingsfunksjonen er ukjent.
18.2. Ett sett variable
18.2.1. Fordelingen kontinuerlig, men ikke nødvendigvis symmetrisk. Gjennom hele 18.2 skal vi forutsette at Xx,..., Xn er n uavhengige stokas tiske variable med samme kontinuerlige fordeling
P(Xj x0,s 0 }er imidlertid ekvivalent med at ,,høyst (r-1) obser vasjoner er mindre enn x0,5 0 ”• Derfor er (18.4)
P{X(r)>x0,0}=
Analogt er
(18.5)
P^\n-r+l)
x0 .5 0 }
r-1 s v=0
n)(l)n v7 2
(18.2) vil altså være tilfredsstilt dersom r velges slik at (18.6) For gitt konfidensgrad (1-a) ønsker en selvsagt at konfidensintervallet skal være så kort som mulig, og r bør derfor velges så stor som mulig.
Konklusjonen blir altså at dersom r bestemmes som det største hele tall som tilfredsstiller (18.6), vil (X(r), X(n_r+1)) være et (1-a)-konfidensintervall for medianen. Eks. 18.1. La oss ta for oss observasjonsmaterialet i Eks. 16.2 på nytt, og be stemme et 0.95-konfidensintervall for medianen i fordelingen. Her er n = 10, og a = 0.05.
Siden S ( 10) (^-)10 = 0.011 v=o v 2
og
S(1O)(|)10= 0.055 v=o v
2
blir r = 2.
(X(2),X(9)) er altså et 0.95-konfidensintervall for medianen. Numerisk løs ning:
Ordner vi tallmaterialet etter størrelse, får vi 3.40, 3.80, 3.85, 4.75, 6.15,
122
6.20,6.75,6.93,7.39,8.32. Intervallestimatet blir altså (3.80, 7.39).
b) Testing av hypoteser om medianen. Anta at Yx,. . ., Yn er n uavhengige identisk fordelte variable med kontinuer lig fordeling. Medianen i fordelingen kaller viy0,5 0. På grunnlag av Yj,... ,Yn skal vi teste
(18.7)
H0':y0.50
mot
Hf:y0,50 > 7?0
der 7?0 er et kjent tall. Om vi innfører nye variable ved translasjonen, (18.8)
Xj=Yj-7?0
vil åpenbart det å teste (18.7) på grunnlag av Yj,. . . , Yn være ekvivalent med å teste
(18.9)
x0.5o < 0
mot
xo.so>0
på grunnlag av Xj,. . . , Xn. Det er derfor tilstrekkelig å ta for seg situasjonen i (18.9).
La oss først tenke oss at situasjonen er som beskrevet innledningsvis i 18.2.
Fig. 18.1. Innfører en hjelpestørrelsen p = P(X > 0), vil (18.9) kunne uttrykkes slik: (18.10)
Ho': p < 0.5
mot
H/:p>0.5
En intuitivt rimelig fremgangsmåte vil være følgende: La S betegne antall posi tive X’er. Forkast Ho dersom S > s0, der s0 er en passende valgt konstant.
Statistisk analyse av ikke-parametriske modeller
123
S er åpenbart binomisk fordelt (n,p). Ønskes signifikansnivå a, må s0 velges slik at
(18.11)
n
p
S ( )pv(l-p)n-v< a når p< 0.5 so v
Som vi ser, baserer testen seg utelukkende på fortegnene for observasjonene. Den kalles derfor tegn-testen (sign-test). Styrkefunksjonen for testen blir (18.12)
n
n
«p) = L(")pv(l-P)n'v so v
For at teststyrken i alternativet p skal bli så stor som mulig, må s0 velges så liten som mulig. Videre kan det vises at /3(p) er en voksende funksjon av p (Øving 17.1, s. 74). (1-8.11) vil derfor være oppfylt dersom s0 velges som det minste hele tall som tilfredsstiller £ z n l)n (18.13) so v 2
Legg for øvrig merke til at p i sin alminnelighet avhenger av den ukjente for delingsfunksjon F(x). For å kunne beregne teststyrken, er en altså nødt til å spesifisere F(x).
oooOOOooo
18.2.2. Fordelingen kontinuerlig og symmetrisk. La oss i tillegg til de forutsetninger vi gjorde innledningsvis i 18.2, anta at for delingen er symmetrisk, dvs. (18.14)
f(x0,5 o + x) = f(x0.50-x)
Hq:
X0.50 “
0
Fig. 18.2.
124
a) Estimering av medianen. Den estimatoren vi foreslo i (18.1), (18.1)' er selvsagt fortsatt brukbar. Følg ende estimator, foreslått av J.L. Hodges og E.L. Lehmann i 1963, er vanligvis bedre i denne situasjonen. 2O.5O= mediCj {(Xi + Xj)/2}
(18.15)
NB! (i5 0 >0
Nå er imidlertid fordelingen symmetrisk. Følgende testmetode ble i 1945 foreslått av Frank Wilcoxon/)
Nummerer først observasjonene Xj,. . . , Xn etter størrelsen av I Xj I. Den observasjon som har minst absoluttverdi, tildeles altså nr. 1, den som har nest minst absoluttverdi, nr. 2 osv. Det nummer en observasjon på denne måte tilordnes, kalles dens rang™ *. Vi innfører Rj, j = 1,. . . , n som betegnelse på rangen til observasjonen Xj. Siden vi forutsetter kontinuerlig fordeling, er (18.17)
P(Xj=0) = 0 for alle j
Videre er sannsynligheten for at to observasjoner, Xj og Xj, skal ha samme absoluttverdi, lik 0. x) Frank Wilcoxon (1892 - 1965). xx) Egentlig burde vi ha kalt den”absolutt-rang”.
Statistisk analyse av ikke-parametriske modeller
125
Inntil videre skal vi derfor gå ut fra at alle I Xj I er innbyrdes forskjellige og forskjellige fra 0.
La nå V_ betegne summen av rangene for de negative observasjonene og V+ summen av rangene av de positive observasjonene. Da er (18.18)
n
V_ + V+ = Sj = n(n+l)/2
Hvis medianen i fordelingen er lik 0, skulle en på grunn av symmetriforutsetningen (18.14) kunne vente at V+ og V_ ville være omtrent like store. Er x0 .5 o > 0, skulle en kunne vente at V+ > V_, og er x0,5 0 < 0, skulle en kunne vente at V+ < V_.
Wilcoxon foreslår derfor en test for (18.16) med forkastingsområdet (18.19)
V_ < k
der k er bestemt slik at testen får det ønskede signifikansnivå a. Utnytter vi (18.18), kan forkastingsområdet (18.19) alternativt uttrykkes ved
(18.20)
V+>k'
eller ved
(18.21)
V > k"
der (18.22)
V=V+-V_
og k" og k' er bestemt slik at testene får samme signifikansnivå som (18.19). Testene (18.19), (18.20) og (18.21) er derfor ekvivalente.
La oss først forenkle problemstillingen ved å tenke oss at vi istedet for (18.16) skulle teste
(18.23)
Ho* • Xo 5 o = 0
mot
Hi : x0 -5 o > 0
Vi skal først utlede noen egenskaper ved fordelingen for V når Ho* er riktig. La , . . . , In være n stokastiske variable definert på følgende måte: Ij = 1, dersom Xj > 0 (18.24)
Ij = -1, dersom Xj < 0
Da er åpenbart (18.25)
n
V = 2R.I, j=l
J J
126
Siden Xj, . . . , Xn er forutsatt å være uavhengige variable, vil Ij,. . . , In også være uavhengige.
Når Ho* er riktig, vil på grunn av symmetrien
(18.26)
P(Ij = D = P(Ij = -1) = 0.5
slik at (18.27)
E(Ij) = O, Var(Ij)=l, j = l,...,n.
Når Ho* er riktig, er videre på grunn av symmetrien (18.28)
P((l Xj K x) n (Ij = l)) = P(08.05.
Nivået for testen skal være 0.05. La oss tenke oss at vi har gjort ialt 9 pH-bestemmelser og funnet pH-verdiene 8.16, 8.15, 8.04, 8.11, 8.07, 8.03, 8.00, 8.05, 8.13.
Hvordan kan en gå fram her?
For å bringe problemstillingen på „standardform” utfører en først transla sjonen
X: = Yj -8.05, j= 1,...,9 Å teste (18.44) på grunnlag av Y'ene er nå åpenbart ekvivalent med å teste (18.45)
Ho:xo.5o=0
mot
H1:xo.5O>0
på grunnlag av X'ene, som blir
0.11, 0.10, -0.01, 0.06, 0.02, -0.02, -0.05, 0.00, 0.08. Hadde ikke komplikasjonen med opptredende nuller og sammenfallende ob servasjoner opptrådt, ville vi ha rangordnet materialet etter størrelsene av absoluttverdiene, bestemt rangsummen V+ for de positive observasjonene og forkastet Ho når V+ > k, der k var bestemt slik at testen fikk det ønskede nivå.
Med sikte på å nytte en modifisert versjon av Wilcoxons ett-utvalgstest, ord ner vi, sålangt det er mulig, observasjonene etter størrelse av absoluttverdiene:
0.00, -0.01, -0.02, 0.02, -0.05, 0.06, 0.08, 0.10, 0.11.
Antallet forskjellige opptredende absoluttverdier bortsett fra eventuelle nul ler, kaller vi q. Videre lar vi d0 betegne antall observasjoner som er lik null,
di betegne antall observasjoner som har minst absoluttverdi, d2 betegne antall observasjoner som har nest minst absoluttverdi; osv. I vårt eksempel er q = 7 og d0 = dt = d3 = d4 = d5 = d6 = d7 = 1, mens d2 - 2.
132
Når observasjonene skal rangordnes etter størrelse av absoluttverdi, synes det rimelig å gi observasjoner med samme absoluttverdi samme rang. Denne rangverdi settes lik gjennomsnittet av de rangtall som normalt skulle ha vært til delt observasjonene i gruppen. I vårt materiale finner vi to observasjoner med samme absoluttverdi, nemlig -0.02 og + 0.02. Sett under ett skulle disse vært tildelt rangtallene 3 og 4. Vi gir dem altså begge rang (3 + 4)/2 = 3.5.
Denne fremgangsmåten fører til følgende rangordning av observasjonene: 0.00, (1)
-0.01, -0.02, 0.02, -0.05, 0.06, 0.08, 0.10, 0.11 (2) (3.5) (3.5) (5) (6) (7) (8) (9)
Den korresponderende rangsum av de positive observasjoner betegner vi med V+* , og vi finner det rimelig å forkaste Ho gitt ved (18.45) når V+* > c. I vårt materiale finner vi V+* = 33.5. Når vi skal beregne signifikanssannsynligheten for dette resultatet, får vi bruk for følgende setning som refereres uten bevis: Når Ho, gitt ved (18.45) er riktig, vil V +* være asymptotisk normalfordelt med forventning og varians gitt ved
(18.46)
E(V+* ) = "(n+D-Mdo+l) q
(i8 47)
Var(V )* = n(n+ 1)(2n+ D ~ do(do+ D(2d0 + 1) _ + 24
-1)
48
I vårt materiale finner vi: E(V+*) = ? ' 10~ 1 ' 2 = 22 4 Var(V+* ) = 2-10-^9- 1-2-3 _ |3 = 1701 = 70.88
SD(V+* ) = 8.42 Signifikanssannsynligheten for resultatet V+* =33.5 blir derfor P(V+* > 33.5 IHO )= P( —-~22 > 33-5~22|Ho ) « + o 8.42 8.42 0 J
* 1 -$(-1.37) = 0.085
Hq kan derfor ikke forkastes dersom signifikansnivået er valgt lik 0.05.
Statistisk analyse av ikke-parametriske modeller
133
(Det synes uten videre rimelig å nytte samme test om en skulle testet
mot
H0:x0.5o0)
Legg for øvrig merke til at en ved bruk av denne fremgangsmåten har at (18.48)
V+* + V_ * = n(n+ V. -
Øving 18.1. Trykkstyrken av betong kan måles ved at en støper en serie ensformede prøvesylindre og måler hvor stort trykk disse tåler uten å knuses. Trykket angis f.eks. i Newton pr. mm2 . Om en betegner trykkstyrken for n slike prøvesylindre med X!,. . . , Xn, tenker vi oss at disse kan oppfattes som uavhengige og identisk fordelte med kontinuerlig symmetrisk fordeling. Anta at en har laget en betongsats, støpt 10 prøvesylindre og målt følgende trykkstyrker:
Prøve nr.:
Trykkstyrke:
1
2
3
19,4 19,7 20,3
4
5
19,6 20,1
6
7
8
10
9
18,2 20,7 18,4 18,9
19,2
På grunnlag av dette materialet skal en ta stilling til om det kan påståes at medianen i trykkstyrkefordelingen er mindre enn 20,0. Vi skal m.a.o. teste
Hq : Xq .5 o
20,0
mot
Hi: x0 -5 o < 20,0
i)
Ignorer opplysningen om symmetrisk fordeling og gjennomfør testingen ved hjelp av en tegntest.
ii)
Gjennomfør deretter testingen ved hjelp av en Wilcoxons ett-utvalgstest.
iii)
Kommenter resultatet.
Øving 18.2. Ta for deg Øving 18.1 på nytt idet observasjonsmaterialet endres til: Prøve nr.: Trykkstyrke:
123456789
10
19,4 19,7 20,3 19,7 20,0 18,2 20,7 18,9 18,9
19,2
Gjennomfør testingen ved hjelp av en Wilcoxon-test modifisert etter gjennomsnittsrang-prinsippet.
134
18.3. Sammenligning av to sett variable Gjennom hele 18.3 skal vi forutsette at XT, . . . , uavhengige, kontinuerlig fordelte variable, der
, Yj, . . . , Yn er (m+ n)
P(Xj < x) = Fx (x),
i = 1, . . ., m
P(Yj < x) = Fy(x),
j = 1, . . . ,n
(18.49) De funksjonelle former på Fx (x) og på FY (y) antas være ukjente, og vi forut setter heller ikke at E(X) og E(Y) eksisterer.
Vår oppgave skal være å etablere tester for den hypotese at X'ene og Y'ene har samme fordeling, m.a.o. at Fx (x) = FY (x) for alle x, mot forskjellige alter nativer.
Denne problemstilling oppstår f.eks. når en skal sammenligne virkningene av to forskjellige behandlingsmåter A og B (gjødningsmidler, dietter, medikamen ter, produksjonsopplegg, råstoffer, etc.). Fra en stor populasjon av forsøksenheter loddtrekkes m og behandles med A. Virkningene på disse m enhetene betegnes med Xi,. .., Xm . Samtidig loddtrekkes n enheter fra populasjonen og behandles med B, og virkningene på disse n betegnes med Yj,..., Yn. At Fx (x) = Fy (x) for alle x, er da ensbetydende med at det ikke er noen for skjell i virkning mellom A og B, og dette er i mange situasjoner en interessant hypotese.
For å ha en konkret situasjon å referere til, vil vi tenke oss at A er en velkjent metode (standard, kontroll), mens B er en ny behandlingsmåte hvis virkning er mer eller mindre ukjent. Videre vil vi tenke oss at situasjonen er slik at store verdier av de variable angir gunstig virkning, små verdier dårlig virkning. Siden vi forutsetter kontinuerlige fordelinger, vil sannsynligheten for at to eller flere variable skal anta samme verdi, være 0. Vi vil derfor foreløpig gå ut fra at alle X2, . . . , Xm, Ylt . . . ,Yn er forskjellige og derfor kan ordnes etter algebraisk størrelse på bare én måte.
I hele avsnitt 18.3 er (18.50)
H0:Fx(x) = FY(x) for alle x
18.3.1. B er a priori minst like god som A. Wilcoxon-Mann-Whitneys test. La oss anta at situasjonen a priori tilsier at B ikke kan være dårligere enn A.
Statistisk analyse av ikke-parametriske modeller
135
(A kan f.eks. bestå i at en ikke gir behandling i det hele tatt, mens B er en behandlingsmåte som ikke kan ha ugunstig virkning.) Et naturlig alternativ til Ho (18.50) er da
Frank Wilcoxon foreslo i 1945 følgende testmetode i denne situasjon: Nummerer samtlige observasjoner etter algebraisk størrelse. Det nummer en observasjon på denne måte tilordnes, kalles dens rang. La Rj,. . . , Rm be tegne rangene av Xb . . . , Xm , og Si,. . . , Sn betegne rangene av Yj,. . . , Yn. La videre WR betegne rangsummen for X'ene og Ws rangsummen for Y'ene. Forkast Ho dersom
(18.52)
WR< k
der k er en passende valgt konstant. Motiveringen for testen er at dersom Y'ene gjennomgående er større enn X'ene, indikerer dette at B er bedre enn A. Rangene for X'ene blir da gjenm
nomgående mindre enn rangene for Y'ene, og WR = S R, blir relativt liten. i=l
Siden (18.53)
2Rj + £ S- = Tv = k
der k er en passende valgt konstant.
152
Motiveringen for denne testen er at en, dersom Ho er riktig, dvs. Fx (x) = Fy (x) for alle x, vil kunne vente at Hx(m)(x) og HY(n)(x) ikke skal avvike vesentlig fra hverandre. Jo mer Fx (x) avviker fra FY (x), jo større vil en kunne vente at D blir. For å kunne bestemme k slik at testen får et ønsket signifikansnivå a, trenger vi å finne fordelingen for D når Ho er riktig. Vi skal her illustrere en fremgangs måte som kan benyttes for moderate verdier av m og n, ved å ta for oss et lite eksempel.
Eks. 18.11. Situasjonen er som beskrevet og observasjonsmaterialet er
X: -1.2, 2.9, 5.4, 5.8 Y: 2.6, 6.2, 8.1
I Fig 18.5 er gitt en grafisk fremstilling av Hx(4)(x) og HY(3)(x). Av Fig. 18.5 ser vi at D = sup I Hx(4)(x)-HY(3)(x) I = | og inntreffer når x ligger i intervallet (5.8,6.2). Det er videre klart at en, så lenge en bare beholder den innbyrdes rekkefølge av X'er og Y'er, kan endre observasjonsverdiene uten at D forandres. D kan derfor like gjeme bestemmes ut fra Fig. 18.6.
Fig. 18.6.
Statistisk analyse av ikke-parametriske modeller
153
Til hvert (4,3)-arrangement av våre 4 X'er og 3 Y'er vil det svare en bestemt D-verdi. Om vi bestemmer D-verdiene for samtlige (4,3)-arrangementer, har vi altså funnet verdiområdet for D. 7 Når Ho er riktig, vil hvert av de ($) mulige (4,3)-arrangementer ha samme sannsynlighet = 1/35. Betegner vi antall (4,3)-arrangementer som leder til at D < d, med a(d;4,3), kan fordelingen for D når Ho er riktig, skrives (18.94)
P(D $i)-
Produsenten ønsker altså en kontrollplan med den egenskap at (19.10)
P(AlØ)>l-a
nårØ 1-a
Og (19.11) være oppfylt dersom
(19.13)
P(Al02) AOQ(Ø) > 0 for alle 0 i [0,1]. Videre er AOQ(O) = AOQ(l) = 0. Siden P(A I 0) avtar fra 1 til 0 når 0 vokser fra 0 til 1, innser en intuitivt at AOQ(Ø), når 0 øker fra 0 til 1, først vil øke fra 0 til et maksimum som nås for 0 = 0', og deretter avta til 0 igjen. Maksimalverdien AOQ(0') kalles den dårligste gjennomsnittlige utgående kvalitet (Average Outgoing Quality Limit, AOQL).
(19.20)
AOQL = Max 0 -P(AlØ)= 0'P(AlØ') 0
Den dårligste gjennomsnittlige utgående kvalitet 0'P(Al 0') vil forbrukeren ende opp med bare når produsenten leverer partier med konstant kvalitet 0'.
I realiteten vil selvsagt kvaliteten av partiene variere fra produsenten, men vi ser av ovenstående resonnement at forbrukeren ikke i noe tilfelle vil kunne risikere dårligere AOQ-verdi enn AOQL. Leverer produsenten varepartier der 0 > 0', vil kontrollen „sørge for” at et større antall partier går veien om allkontrollen; leverer han varepartier der 0 < 0', vil kontrollen sørge for at færre partier går til allkontroll.
I Dodge og Romig: Sampling Inspection Tables, Wiley 1951, finnes kon trollplaner, klassifisert etter verdi av AOQL.
172
Eks. 19.3. La oss bestemme AOQL for enkeltprøvingsplanen i Eks. 19.1.
e
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
P(AIØ)
1.00
0.90
0.81
0.72
0.63
0.55
0.48
0.41
0.35
0.29
ØP(AIØ)
0.000
0.045 0.081 0.108 0.126 0.138 0.144 0.144 0.140 0.131
0
0.50
P(AlØ)
ØP(AlØ)
0.55
0.60
0.65
0.70
0.75
0.80
0.85
0.90 0.95
1.00
0.24 0.19
0.15
0.11
0.08
0.05
0.03
0.02
0.01
0.00
0.00
0.120 0.105 0.090 0.072 0.056 0.038 0.024 0.017 0.009 0.00
0.00
Tabell 19.3.
Fig. 19.5. Siden Q -P(AiØ) = 0 ■ .(1 ~^) O9~2Q 0) iy og når 0 = 0.35, blir her
= 221 = 0.144 både når 0 = 0.30 ly
AOQL = 0.144 og inntreffer for 0 = 0.30 og 0 = 0.35.
Statistisk kvalitetskontroll - Varekontroll
173
Eks. 19.4. La oss bestemme AOQL for dobbeltprøvingsplanen i Eks. 19.2.
e P(AIØ) ØP(AIØ)
0.0
0.1
0.2
0.3
0.4
0.5
0.6
1.00 1.00 0.84 0.63 0.43 0.26 0.14
0.7
0.8
0.9
1.0
0.07 0.02 0.00 0.00
0.00 0.10 0.17 0.19 0.17 0.13 0.008 0.05 0.02 0.00 0.00
Tabell 19.4.
AOQL = 0.19 og inntreffer for 3 = 0.30. Et „bilde” av AOQ(Ø) = 3 ■ P(A I 3) får en ved det inntegnede skraverte rektangel i fig. 19.7. Arealet av rektanglet angir AOQ(Ø), og 3' er den verdi av 3 som gjør dette areal størst mulig.
174
Fig. 19.7.
Øving 19.5. Bestem AOQL for enkeltprøvingsplanen (n = 50, c = 3).
19.5. Stikkprøvekontroll/Hypotesetesting La , 02, a og (5 ha samme betydning som i 19.3, og la oss se på stikkprøvekontrollen fra forbrukerens synspunkt.
Vi vil tenke oss at forbrukeren har gode erfaringer i forbindelse med tidligere leveranser fra samme produsent, og derfor regner med at varepartikvaliteten vil være god. Han kan da betrakte kontrollen av et vareparti som en test av (19.21)
Ho:001
Hvis en lar forkasting av Ho være ensbetydende med avvisning av det kon trollerte parti, vil en ha følgende sammenheng mellom styrkefunksjonen j3(0) for testen og operasjonskarakteristikken P(A I 6) for planen: (19.22)
/3(0) = 1 -P(AlØ)
Kravet om produsentrisiko a er da ensbetydende med at testen skal ha signi fikansnivå a
1 -P(Al01) E(Yj) = ej, Var(YJ) = o22
j = l....... n
Statistisk forsøksplanlegging (Eksperimenteringsteori)
189
. , £n, o2 , o22 og A er ukjente parametre. At A og K er like gode, ut trykkes nå ved A = 0. Om vi fortsatt tenker oss at skalaen for respons er slik at en liten verdi er gunstigere enn en stor, vil Hj uttrykkes ved at A >0.
Vår oppgave er altså å etablere en test for (20.5)
Ho : A = 0
:A >0
mot
Som før synes det naturlig å basere analysen på differensene Dt, . . . , Dn. Av de forutsetninger vi nå har gjort, følger at Dj,. . . , Dn er uavhengige og nor malfordelte (A ,o2) der A > 0 og o2 (=of + o22 ) er ukjente parametre. På grunnlag av observasjonssettet D1, . . . , Dn skal vi teste (20.5). Dette er den samme situasjon som vi behandlet i 16.1.3c. Går vi fram som vi gjorde der, skal vi anvende en Students t-test med forkastingsområdet
(20'6)
D • x/iT /S(Dj-D)2 V n-1
a’n-1
Eks. 20.8. Vi tar for oss den samme situasjon som vi behandlet i Eks. 20.7, men antar at de forutsetninger vi gjorde innledningsvis i dette avsnitt, holder. I vårt tilfelle blir (20.7)
= 2 28
V S(Dj-D)2 og siden 5%-kvantilen i en t-fordeling med 7 frihetsgrader er lik 1.89, ledes vi (med 5% signifikansnivå) til at Ho må forkastes.
oooOOOooo Det som her er sagt, må ikke misforståes dit hen at statistikeren i alminnelig het selv kan velge den analysemåte han ønsker. (Derved ville han jo i vårt ek sempel (Eks. 20.6, 20.7, 20.8) også kunne velge konklusjon!!!) Det vi ønsker å understreke er at statistikeren først må gi en matematisk formulering av den forhåndsinnsikt han sitter inne med, og deretter foreta den statistiske analyse på best mulig måte i henhold til den stokastiske modell han er kommet fram til.
Eksemplet illustrerer imidlertid også et annet forhold. Om vi tenker oss den situasjon at statistikeren har tilstrekkelig a priori viten til å kunne nytte t-test (Eks. 20.8), men likevel nøyer seg med å nytte tegn-test (Eks. 20.6), utnytter
190
han ikke den informasjon han sitter inne med og risikerer at han ikke opp dager” at observasjonsmaterialet (med 5% signifikansnivå) gir grunnlag for å forkaste Ho.
20.3. Regresjonsanalyse
20.3.1. Innledning. Formålet med et forsøk er ofte å finne ut hvilken effekt visse faktorer har på én (eller flere) bestemt(e) størrelser. Som eksempel vil vi tenke oss en kjemisk prosess der en er interessert i å finne ut hvordan endringer i forsøksbetingel sene: tj (temperatur), t2 (trykk), t3 , . . . , tk vil påvirke utbyttet, Y, av pro sessen. Slike forsøk utføres ved å la prosessen løpe for visse valgte verdikombinasjoner av (tj, t2,. . . , tk) og hver gang registrere det tilhørende utbytte (Y). Etter at dette er gjort n ganger, disponerer en over et observasjonsmateriale bestående av n vektorer: (Yi , ti i , ti 2 , • •
’ ^1 k)
(Y2 > *2 1 > * 22 ’ • •
’ *2k)
(Yn 5 tn 1 •> tn 2 » • •
> tnk)
(20.8)
j-te gang forsøket utføres, gis tt verdien t^ , t2 verdien tj2, osv., og utbyttet betegnes Yj,j = 1, 2, ..., n.
Om forsøket gjentas under de samme forsøksbetingelser, vil vanligvis utbyttet (Y) likevel variere. Denne variasjon i Y er imidlertid underlagt statistisk regel messighet, og det er derfor naturlig å oppfatte Y som en stokastisk variabel. Verdiene av t'ene velger vi selv, og de oppfattes derfor som „sikre” variable (valgte konstanter). Sannsynlighetsfordelingen for Y vil nå kunne avhenge av de valgte forsøksbetingelser. (20.9)
E(Yj) = M(tjl,tj2,...,tjk)
(20.10)
Var(Yj) = o2(tjl,tj2, . . . ,tjk)
M(ti> ^2, • • • , tk) kalles responsfunksjonen. Når en på grunnlag av observa sjonsmaterialet (20.8) skal uttale noe om g(tj, t2,. . . , tk), sier en at en ut fører en regresjonsanalyse. ,. . . , tk betegnes regresjonsvariable.
Statistisk forsøksplanlegging (Eksperimenteringsteori)
20.3.2. En regresjonsvariabel. p.(t) = (30
+ Øi
191
t-
Vi skal her først og fremst ta for oss den enklest mulige situasjon, nemlig en situasjon med bare én regresjonsvariabel. Observasjonsmaterialet består altså av n tallpar (Yj, tj), j = 1,2,. . . , n.
Videre skal vi tenke oss at det er realistisk å gjøre følgende forutsetninger: i) Yj,. . . , Yn er uavhengige og normalfordelte
ii) Var(Yj) er uavhengig av t, ): o2(t) = n2
(20.11)
iii) M(t) =Po + Øi t, ):E(Yj) = 00 +0j tj Selv om dette nok kan sies å være en temmelig spesiell situasjon, finnes det en rekke situasjoner av praktisk interesse der forutsetningene i alle fall er tilnær met oppfylt innenfor et begrenset variasjonsområde i t. P(t)
Fig. 20.1. Den Yj vi observerer når t er valgt lik tj, er altså en stokastisk variabel med sannsynlighetstetthet 1
(20.12)
f (y)= YJ
x/2F
2
j=l,2,...,n
le 2” °
Siden Yx,. . . , Yn er antatt uavhengige, vil den simultane sannsynlighets tetthet for Y'ene være gitt ved
(20.13)
f(yi,... ,yn) = (2tt)
- y
-n - 9
o
e 2"
2
1
192
Po, og o2 er nå vanligvis ukjente konstanter, og det vi ønsker å finne ut ved hjelp av forsøksresultatene, kan uttrykkes ved hjelp av disse størrelsene. Er vi f.eks. interessert i hvordan regresjonslinjen ju(t) = p0 + Pi t ser ut, må vi skaffe oss estimatorer for p0 og pj. Vil vi vite om en endring av t vil influere på forventet utbytte eller ikke, formuleres problemet som testing av hypote sen Ho : Pj =0 mot Hi : f 0. Vi skal i det etterfølgende ta for oss noen slike situasjoner.
a) Punktestimering. Estimatorer for p0 og Pt kan vi f.eks. skaffe oss ved minste kvadratsums prin sipp (13.3.2, s. 13). Vi betrakter da funksjonen
Q(Po,Pi) = X(Yj -/30 -j3ltj)2 j J og minimaliserer Q(P0,Pi) m.h.p. Po ogfa . M.K.E. forp0 ogP15P0 ogp15 blir da
(20.15)
fa=Y-fat
der Y = 1 SY. og E = - St. n j J 6 n j J
Den estimerte regresjonslinje blir derfor
(20.16)
^(t)= Y + 6,(t-t)
Fig. 20.2.
Statistisk forsøksplanlegging (Eksperimenteringsteori)
193
Av fig. 20.2 ser vi at (Yj -3o -3i tj) angir ,,avstanden målt langs Y-aksen” fra Yj til den estimerte regresjonslinjen. n
(20.17)
Q(Mi) = S(Yj-Øo-M) j=i
angir altså kvadratsummen av alle slike „avstander” i observasjonsmaterialet, og størrelsen av QQ30 ) forteller i hvilken grad Yj'ene ligger samlet om den estimerte regresjonslinjen. Vi føler intuitivt at det må være en sammenheng mellom Q(3o ) og a2. La oss se litt nærmere på dette. Av forutsetningene (20.11) følger det at n
(20.18)
Q(3o A) cr2
S (Yj - Po ~Pi tj)2 j=l J_______ __ a2
er x2-fordelt med n frihetsgrader. /30 og betegner i (20.18) de ukjente konstantene i ligningen for den ,,teoretiske” regresjonslinjen (20.11) iii).
Nå kan det vises at om en i (20.18) erstatter parametrene 00 og
estimatorer j30 og (f, vil
med deres
fortsatt være x2 -fordelt, men med (n-2)
frihetsgrader. Som i avsnitt 17.4.2 mister vi én frihetsgrad for hver parameter i E(Yj) som estimeres. Ved å nytte dette resultatet sammen med (10.5) og (10.6), Del I, s. 141, får vi at
E[ og
] = (n-2)
Var(Q(&ÆL)= 2(n-2) o2
Av dette ser vi at (20.19)
32 = -L S (Yj -ft, -3i tj)2 = n - 2 j=l J J
n-2
er en forventningsrett estimator for o2 og at Var(u2)=-^n -2 Estimatorene 3o og 3i, gitt i (20.14) og (20.15) er begge forventningsrette henholdsvis for j30 °8 0i (vis dette), og
(20.20)
.
(20.21) (20.22)
Var((30) =
y t2
nS(tj-t)2
S(tj-t)2
a2
194
Øving 20.1. Det kan vises at Y og er stokastisk uavhengige. Nytt dette resultatet til å vise (20.21). Vis også (20.22).
b) Intervallestimering. Den av de tre parametre 00, fa og u som vanligvis er av størst interesse, er fa , som angir stigningsgraden for regresjonslinjen. Vi skal derfor først og fremst ta for oss problemstillinger der denne inngår. Av (20.14) ser en at fa er en lineær funksjon av uavhengige og normalfordelte 2
variable. Øx er altså selv normalfordelt (/?t,---- . S(tj-t)2 Er a2 kjent og lik n02, kan en på dette grunnlag utlede et (1 - a)-konfidensintervall for fa ved å gå fram på samme måte som vi gjorde i Eks. 14.4, s. 21. Vi får da (1 -a)-konfidensintervallet (20.23)
gp
(Øi -u
S(tj-T)2'
Når o2 er ukjent, tar vi utgangspunkt i TtF
(20.24)
For å komme videre trenger vi et resultat som vi ikke har vist i denne boka, nemlig at Q(fa, fa) og fa er stokastisk uavhengige. Utnytter vi dette, ser vi >5 _ o at —1 j ~y/ S(tj-t)2' er Student t-fordelt med (n - 2) frihetsgrader. Altså er
(20.25)
PHa n-2
(1 -a)-konfidensintervallet for o2 blir da
(—n z
6 2 ,———— d 2) z 1-| ,n-2
,n-2
Av (20.31) følger også at
(20.32)
P(a x/ n——* < o < o yj -n ~ v z z
-1) = 1 - a
1-I>n"2
J >n-2
som direkte gir et (1 - a)-konfidensintervall for standardavviket o.
oooOOOooo
196
La oss til slutt i dette avsnittet se på hvordan en kan estimere
(20.33)
/z(t0) = Po + Pi to
som er forventningsverdien for Y når t = t0. En naturlig estimator er
(20.34) derpo og
P(t0) = P0 +0i to = Y + Pi(t0-t)
er gitt ved (20.15) og (20.14).
Det følger umiddelbart at også denne estimatoren er forventningsrett, dvs. (20.35)
E(g(t0)) = M(t0) =Øo+P! t0
Og at
(20.36)
Var(p(t0)) = ( 1 + ------ ~ )or S(t-t)2
Som nevnt i Øving 20.1 er Y og pj stokastisk uavhengige, og dette resultatet vil vi utnytte i det etterfølgende.
Av (20.34) ser vi at p (t0) er en lineær funksjon av to uavhengige normalfordelte variable. Derfor er p (t0) selv normalfordelt (Setning 9.3, Del I, s. 137). Forventningsverdien og variansen til p(t0) er allerede funnet i (20.35) og (20.36). Ønsker en et konfidensintervall for ju(to) = Po + Pi to der t0 er en gitt t-verdi, kan dette utledes på samme måte som vi nettopp utledet konfidens intervallet (20.27) for Pj. Som resultat får vi da (1 -a)-konfidensintervallet
Øving 20.2. Vis riktigheten av (20.36). Øving 20.3. Utled et (1-a)-konfidensintervall forg(t0) i (20.33) når a2 er kjent og lik o02 , mens p0 og pi fortsatt antas ukjente.
c) Hypotesetesting. Vi nevnte innledningsvis at dersom en ønsker å finne ut om E(X) i det hele tatt avhenger av t, kan spørsmålet formuleres som et hypotesetestingsproblem der en skal teste
(20.38)
Ho:Pi=O
mot
H^PitO
Dersom a2 er kjent og lik a02 , er det naturlig å nytte den testen som har forkastingsområde
Statistisk forsøksplanlegging (Eksperimenteringsteori)
197
der er gitt ved (20.14) og der k er valgt som det minste reelle tall som tilfredsstiller (20.39)
P( løi I > k l/3i=0) < a
(signifikansnivået)
Når Ho er riktig, er
= 0 og Var(3i)= —~~—• I så fall er altså-^- \/S(tj-t )2' S(tj-t)2 ° normalfordelt (0,1). (20.39) fører da til at (20.40)
V.
_ go 7 sdj-t)2'
ua 2
Vanligvis er imidlertid o ukjent, og ovennevnte fremgangsmåte kan da ikke nyttes. Det synes imidlertid rimelig å nytte den testen som har forkastings området
(20.41)
—x/ S(tj -1 )2‘ > ki o J
der , som før, er gitt ved (20.14) og 6 er gitt ved (20.19), og der ki er valgt som det minste reelle tall som tilfredsstiller
(20.42)
P(
S(t -t)2' > kj I Ho) = a J
a
(signifikansnivået)
S(t -t)2' være o J Student t-fordelt med (n-2) frihetsgrader. (20.42) fører da til at
Det følger av (20.24) at når Ho er riktig, ): fa =0, vil
ki -
ta 2
,n-2
Ho skal altså forkastes når
(20.43)
oooOOOooo Hypoteser angående verdien av fa kan behandles på samme måte.
oooOOOooo Til slutt skal vi se på hvordan en på grunnlag av det foreliggende observasjonsmateriale kan teste
(20.44)
H0:a2a02
198
der n02 er en oppgitt størrelse.
Det synes naturlig å nytte den testen som har forkastingsområde d2 > k der d2, som før, er gitt ved (20.19), og k er valgt som det minste positive tall slik at
P(cr2 > k I Ho) < a
(20.45) Nå er —
(20.46)
oz
x2 -fordelt med (n - 2) frihetsgrader og derfor
P(o2 > k) = P( (n~ 2)0 2 > o
o
k) = 1 - r , ((n',2)k) z a2
Av (20.46) ser vi at P(a2 > k) er en voksende funksjon av o2 . Vi sikrer derfor at (20.45) er oppfylt om vi velger k som det minste positive tall slik at P(a 2 > k I a2 = cr02) < a
Dette medfører at k må velges slik at ° (20.47)
Oq
2
= z a,n-2 ’ dvs.
„ 2 0
k= —-z n , n-2 a’n'2 oooOOOooo
Eks. 20.9. For å undersøke sammenhengen mellom tettheten (t) og slagbøyeseigheten (Y) av en viss type plast, ble slagbøyeseigheten bestemt for 9 pres sede plaststaver med utvalgte tettheter. Resultatet av forsøket var: stav nr. j
tetthet tj
slagbøyeseighet Yj
1 2 3 4 5 6 7 8 9
1.13 1.15 1.17 1.19 1.21 1.23 1.25 1.27 1.29
8.91 10.21 9.64 11.27 11.45 13.61 13.17 14.57 15.04
Vi går ut fra at Yi, Y2,. . . , Y9 er uavhengige og normalfordelte med samme ukjente varians cr2 og forventningsverdier
Statistisk forsøksplanlegging (Eksperimenteringsteori)
199
E(Yj)= Øo+Øitj
La oss først tenke oss at hensikten med undersøkelsen er å estimere j30 og P i og tegne opp den estimerte regresjonslinje. Vi finner her at 2Yj = 107.87, L(yj-y)2 =38.9628, S(tj-t)Yj = 0.94 og S(tj-t)2 =0.024. Ved innsetting i (20.14), (20.15) og (20.16) får en
0! = 39.17,
Øo = -35.41 og
M(t)= -35.41 + 39.17t
Fig. 20.3. La oss så anta at vi på grunnlag av det samme observasjonsmateriale skal teste Ho^^SO
mot
HiiØi+SO
Signifikansnivået skal være 0.10. Dette er den samme situasjonen vi drøftet ovenfor og der vi kom fram til en test med forkastingsområde (20.43), som alternativt kan skrives
1^-30 1 x/sCtj-O2' o
2
,n-2
200
I vårt tilfelle er n = 9, a = 0.10, og t0.0 5 j7 = 1.89. Av observasjonsmaterialet finner vi o = 0.55, og videre ^1~30,Q -0.155= 2.56 0.55 Det foreliggende materiale tyder altså på at (3i +30.
20.3.3. Flere regresjonsvariable. Lineær regresjonsmodell. Vi skal til slutt nøye oss med summarisk å antyde hvordan mer generelle situa sjoner enn den vi behandlet i 20.3.2, kan analyseres. La oss fortsatt anta at
i) Yx, Y2 , . . . , Yn er uavhengige og normalfordelte. (20.48) ii) Var(Yj) = o2,
j = 1, 2, . . . , n.
men endrer forutsetning iii) i (20.11) slik at den nå lyder: (20.49)
iii) E(Yj) = j30 Xj0 + k
= S Xjift, i=0 J
Xji + . . . + |3k xjk j = 1, . . . ,n, k • • • > Pk)
cr2
X2-fordelt med (n-k-1) frihetsgrader og dessuten
uavhengig av hver enkelt av jS/ene. Av dette følger det at
(20.55)
y .2. (n-k-l)u2 a2(n-k-l)
i=o,i,...,k
er Student t-fordelt med (n-k-1) frihetsgrader.
202
På dette grunnlag kan en nå, på samme måte som i 20.3.2, etablere konfidens intervall for de enkelte regresjonskoeffisienter og teste hypoteser om verdien av én enkelt fy.
oooOOOooo Uttrykt ved hjelp av matriser kan (20.51) skrives
(20.56)
eller kortere
(20.56)'
Y = Xj3 + U
Po,. . . , 3k bestemmes av ligningssystemet (20.57)
(X'X)3 = X'Y
Løsningen kan skrives (20.58)
3 = (X'X)-1X'Y
Variansene til j30 » 3i, • • • , 3k finner vi på diagonalen til matrisen (X'X)-1 ■ o2,og (20.59)
Q(3o ,. . • , 3k) = Y'Y - 3 'X'Y
oooOOOooo
Statistisk forsøksplanlegging (Eksperimenteringsteori)
203
20.4. Variansanalyse
20.4.1. Innledning. H. Scheffé gir i sin bok „The Analysis of Variance”, Wiley 1959, følgende definisjon av variansanalyse: „The analysis of variance is a statistical technique for analyzing measurements depending on several kinds of effects operating simultaneously, to decide which kinds of effects are important and to estimate the effects. The measurements of observations may be in an experimental science like genetics or a nonexperimental one like astronomy. A theory of analyzing measurements naturally has implications about how the experiment should be planned or the observations should be taken; i.e. experimental design.” Ovenstående definisjon er nokså generell og fører til at variansanalysen også vil omfatte regresjonsanalysen. Som det vil fremgå av det etterfølgende eksempel, skal vi her ta for oss variansanalyse i en litt snevrere mening. Eks. 20.10. For å forhindre forråtnelse impregneres telefonstolper før de settes ned i bakken. La oss anta at vi skal utføre forsøk for å undersøke hvilke faktorer som spiller størst rolle ved slik forråtnelse. Vi vil tenke oss at grunn forholdene (A) der stolpen settes ned, det benyttede impregneringsmiddel (B) og tresort (C) i stolpen vil være de viktigste faktorer som kan virke inn på grad av forråtnelse. Vi tenker oss videre at det er
r mulige grunnforhold Aj, . . . , Ar, s mulige impregneringsmidler Bt, . . . , Bs, og t mulige tresorter Cj , . . . , Ct. Når en stolpe av tresort Ck er impregnert med impregneringsmiddel Bj og der etter plassert i grunnforhold Ai5 har vi et forsøk der faktor A sies forekomme på nivå faktor B på nivå Bj og faktor C på nivå Ck. La oss tenke oss at vi utfører ett enkeltforsøk for hver faktornivåkombinasjon. Den grad av for råtnelse vi observerer i forbindelse med faktomivåkombinasjonen A^jC^ vil da bli betegnet med , i = 1,. . . , r, j = 1,. . ., s, k = 1,. .. , t.
Vi skal her nøye oss med å se på situasjoner der alle og normalfordelte med samme ukjente varians o2.
kan antas uavhengige
Når forsøkene er utført, tar vi sikte på å kunne besvare spørsmål som:
i) Tyder observasjonsmaterialet på at impregneringsmidlene Bj, B2,... , Bs ikke er like gode? ii) Tyder observasjonsmaterialet på at noen av tresortene
204
Ci,. . . , Ct er mer motstandsdyktige mot forråtnelse enn andre? iii) Er visse av impregneringsmidlene Bj,. . . , Bs særlig effek tive for bestemte tresorter?
Om vi oppfatter de forskjellige faktomivåkombinasjoner AjBjCk som ,be handlingsmåter”, ser vi at analysen av forsøket vil måtte bestå i å sammenligne forventet respons av forskjellige behandlingsmåter.
20.4.2. Variansanalyse av enveisgruppering. Som illustrasjon skal vi først ta for oss en situasjon der vi bare har å gjøre med én faktor (B) som forekommer på s nivåer Bj, . . . , Bs. For å konkretisere Vil vi tenke oss at vi skal sammenligne de s nevnte impregneringsmidlene, brukt på én og samme tresort og under „identiske” grunnforhold. Anta at vi impreg nerer nj tilfeldig valgte stolper med Bj, j = 1, 2, . . . , s, og registrerer grad av forråtnelse på hver stolpe etter en viss tid. Observasjonsmaterialet stilles så opp i en tabell: Bi
b2
. . .
Bs
Y11
Y12
•
•
•
Yi,
^2 1
^22
.
.
.
Y2s
Yn,l
Y„22
.
.
Y„ss
Tabell 20.3.
der Yjj betegner grad av forråtnelse på i-te stolpe som er impregnert med Bj, i= 1,2,. . . , nj, j = 1,2,.. . , s, der s>3. (Tilfellet s = 2 er behandlet i 16.2.2c.) s
S m settes lik n.
j=l J
Som allerede nevnt, forutsetter vi at alle Yjj er uavhengige og normalfordelte med samme ukjente varians u2 . La £j betegne forventet forråtnelsesgrad når en nytter impregneringsmiddel Bj, j = 1, 2,. . . , s. Dette impliserer at Y^, Y2j, . . . , Yn.j er uavhengige og normal fordelte ($j ,u2), j = 1,..., s. At impregneringsmidlene er like ,,gode”, er nå ensbetydende med at = £2 = = £s. De variasjoner vi observerer i Y'ene skyldes da bare tilfeldigheter.
La oss tenke oss at hensikten med å utføre forsøket er å avgjøre om det er grunn
Statistisk forsøksplanlegging (Eksperimenteringsteori)
205
til å tro at impregneringsmidlene ikke er like gode. Vi kan da formulere vårt problem som et hypotesetestingsproblem der vi på grunnlag av observasjons materialet skal ta stilling til
H0:Ji=h=
= «,
Alternativet til Ho er at minst en av £'ene er forskjellig fra de øvrige. Det synes her naturlig å ta utgangspunkt i gjennomsnittlig observert forråtnel se for hver av de s impregneringsmidler,
Yj = J- S Ylj; j = l,2,...,s nj i=1 Er Yx, Y2, . . . , Ys svært forskjellige, tyder dette på at Ho er gal. Hvor store disse forskjeller skal tillates å være før vi bør forkaste Ho, vil selvsagt måtte avhenge av de tilfeldige variasjoner som er til stede i materialet,): av o2. Vi skal derfor først skaffe oss en anslagsverdi for a2. Ved å gå fram på samme måte som vi gjorde i 16.2.2a, s. 60, kan vi vise at 1 s nj — -E 2 2 (Yh - Y)2 er x2 -fordelt med (n-s) frihetsgrader. Av dette følger O2 j = l i=l J J 1 s nJ — det at —— S 2 (Yu - Y)2 er en forventningsrett estimator for oz, uansett n-sj=ii=i 1J J om Ho er riktig eller ikke. nj
S
—
Videre er det lett å se at den totale variasjon i materialet 2 2 (Y:; - Y)2 J
j=ii=i
kan skrives som en sum av to kvadratsummer på følgende måte: s
(20.60)
—
ni
s
nj
—
s
—
— ,
S X(Yh-Y)2s S S(Yii-Y)2 + SnYYj-Y)2
j=li=l
j=li=l
J
J
J
j=l J
- = A1 2s 2 Yn . der Y nj=ii=i
u
Den første kvadratsummen på høyre side av (20.60), (Qo), ,,måler” variasjon innenfor grupper og er, som vist ovenfor, dividert med (n-s), et anslag for o2.
(20.61)
E(-5o-) = a2 uansett om Ho er riktig eller ikke. n—s
Den andre kvadratsummen på høyre side av (20.60), (Qx ), ,,måler” variasjon mellom grupper. Når vi skal ta stilling til om Ho er riktig eller ikke, synes det naturlig å sammenligne Qx med Qo. Videre kan en vise at
(20.62)
E(-51)= S-1
o2
+ -i- Lft -£)2 s-1 j=l J
J
206
—
1
s
dere = £ Sn^j. nJ=1 J J
Qo Qi Herav ser vi at vi kan vente at ----- og---- vil være omtrent like store derq n-s s-1 som Ho er riktig, og at —y vil kunne ventes større enn —- dersom Hn er s-1 n-s u gal. Det synes altså naturlig å forkaste Ho når Qi
(20.63)
> k Qo n-s
der k er en konstant tilpasset det ønskede signifikansnivå.
Ved å resonnere på samme måte som vi gjorde i 16.2.2c, s. 62, kan vi vise at Qo er uavhengig av YT, Y2,. . . , Ys, og Qo er derfor uavhengig av . Videre kan det vises at når Ho er riktig, er QT /o2 x2 -fordelt med (s-1) frihetsgrader. Fra før vet vi at Qq/o2 er x2 -fordelt med (n-s) frihetsgrader. Ved bruk av Setning 10.10, Del I, s. 147, får vi da at — • er (Fisher) F-fordelt med Qo s"1 (s -1) og (n-s) frihetsgrader når Ho er riktig. Ønsker en at testen skal ha signi fikansnivå a, velger en altså k = f' _ < „ „. Cx j o
.L • 11
□
Eks. 20.11. Anta at en skal sammenligne Cu-innholdet i 4 forskjellige bronselegeringer: Bj, B2 , B3 og B4. Etter at en har foretatt Cu-bestemmelser i til feldig utvalgte prøver, hver på 100 gram, har en fått observasjonsmaterialet (Cu-innhold i gram):
Bi
b2
B3
b4
83.09 83.04 83.06 83.04 83.05 83.03 83.05 82.98
83.01 82.96 82.99 83.03 83.00 82.97 82.99
83.02 83.10 83.05 83.04 83.08
83.01 82.99 83.04 83.01 82.96
Her er nj - 8, n2 = 7, n3 = 5, n4 = 5, n = 25, s = 4. Velger vi signifikansnivå cl = 0.01, finner vi av tabellene f0.01,3,21 = 4.87. Av tallmaterialet beregnes Qo = 176.5 • 10'4,0! = 177.3 • 10’4’, og vi får Qt/Qo -21/3 = 7.03.
Statistisk forsøksplanlegging (Eksperimen teringsteori)
207
Denne er klart større enn f0,01,3,2 i» °g vi konkluderer med at observasjons materialet tyder på at bronselegeringene har forskjellig Cu-innhold.
20.4.3. Variansanalyse av toveisgruppering. Vi skal vende tilbake til Eks. 20.10 og tenke oss at det bare er én tresort som er aktuell, men at vi skal sammenligne de s impregneringsmidlene Bx,. . . , Bs under r forskjellige grunnforhold, Ai, . . . , Ar.
a) Toveisgruppering uten samspill. La oss først tenke oss at effektene av de to faktorer er rent additiv. Hvis et impregneringsmiddel er bedre enn et annet, går vi ut fra at det er like meget bedre hva enten grunnforholdene er av den ene eller annen type. Vi sier da at det ikke er samspill mellom faktorene. I dette tilfelle viser det seg å være til strekkelig med ett forsøk for hver faktomivåkombinasjon AjBj, så vi skal nøye oss med det. Den tilhørende forråtnelsesgrad betegnes Y^. Resultatene kan da stilles opp i en tabell på følgende måte: Bi
b2
A1
Yn
Y12
A2
Y21
Y22
• • •
Bs
Yis •
.
y2s
.
•
•
•
•
•
•
•
•
Yri
Ar
Yr2
•
•
Yrs
•
_ Y-2
—
Y-l
—
Y.s
_ Yj—y2.
Yr. — Y
Tabell 20.4. Her betegner Y1.,..., Yr. rekkemiddeltall; Yq,. . . , Y.s kolonnemiddeltall og — 1 r s Y= S SYH rs i=ij=i
La oss i analogi med hva vi gjorde i (20.60) prøve å „bryte opp” den totale variasjon SS(Yjj - Y)2, og få „skilt ut” S(Yit - Y)2 og S(Y,. - Y)2. Vi får da at (20.64)
s
—
r
s
_
—
r
2 2 (Yy - Y)2 = 2 2 (Yif - Y.. - Y . + Y)2 1
j=li=l
s
j=li=l
—
—
r
—
'
1
—
+ rS(Y. -Y)2 + sS(Y. - Y)2 j=l
J
i=l
1
J
208
Som før antar vi at alle Yjj er uavhengige og normalfordelte med samme ukjente varians a2 . At effekten av de to faktorer er rent additiv, kan vi uttryk ke ved å sette
(20.65)
E(Yij) = ^ + ai+/3j ,
i=l,...,r j = 1,... ,s
der £ er en ,,gjennomsnittseffekt”, skyldes at faktor A er på nivå Ai? og skyldes at faktor B er på nivå Bj. Vi kan åpenbart innrette oss slik at S ax = S j3j = 0. Påstanden at alle impregneringsmidlene er like gode, kan nå uttryk kes ved: (20.66)
Ho:01=/32 =
=M=0)
La oss anta at vi skal ta stilling til denne hypotese. Alternativet er at ikke alle /3j, j = 1,2,... , s, er lik 0. Vi tar nå for oss de 3 kvadratsumavvik:
(20.67)
QR = Z2(YrY.-Y +Y)2 i j J Qa = sS(Y. -Y)2
Qb = rS(Y - Y)2 J J
Det kan nå vises at (20.68) E[ z *Q „ ] = a2 hva enten Ho er riktig eller ikke (r-1)(s-1) (20.69)
E| -^ ] = a2 + s— Saj2 r-1 r-1
(20.70)
E[ -51 ] = a2 + J_ SØj2 s-1 s-1
Ved samme type resonnement som vi nyttet i 20.4.2, ser vi at det er naturlig å sammenligne QB /(s-1) og QR /(r-1) (s-1) når vi skal ta stilling til Ho (20.65), og forkaste Ho når (20.71)
Qb fcl)---- > k Qr (r-D(s-l)
der k er en konstant tilpasset det ønskede signifikansnivå a. Det viser seg også her at testobservatoren er (Fisher) F-fordelt når Ho er riktig, denne gang med (s-1) og (r-1) (s-1) frihetsgrader, k velges derfor lik fa s l (r_1)(s_1)5 dersom en ønsker at testen skal ha signifikansnivå a.
Statistisk forsøksplanlegging (Eksperimenteringsteori)
209
b) Toveisgruppering med samspill. Hvis en på forhånd ikke kan si om effektene av de to faktorer er rent additiv, og at det er tenkelig at visse impregneringsmidler er særlig gunstige for visse av grunnforholdene, og mindre gunstige for andre, kan ikke modellen i (20.65) nyttes. Vi sier da at det er samspill mellom faktorene. I dette tilfelle viser det seg at det er nødvendig med flere enn ett forsøk for minst én av faktomivåkombinasjonene for å kunne gjennomføre analysen. Har en bare én observa sjon for hver faktomivåkombinasjon, er det ikke mulig å anslå de tilfeldige variasjoner (o2). For å få enkle formler vil vi her anta at vi utfører det samme antall m (> 1) forsøk for hver faktomivåkombinasjon og betegner den for råtnelse vi observerer i forsøk nr. g ved faktorkombinasjon AjBj med Y^g, g = 1,2,. . . , m. Resultatene kan da stilles opp i en tabell på følgende måte:
f
Tabell 20.5. , Yr
der Yi ,
, Y.s. betegner kolonnemiddeltall,
Y.i.,
betegner cellemiddeltall, i = 1,... , r, j = 1,. . ,s
ij
og Y =
betegner rekkemiddeltall,
1 rsm
1 J
g
210
La oss nå i analogi, med hva vi har gjort tidligere „bryte opp” den totale varia sjon SSSCYijg - Y)2. Vi får da at
SLS(Yijg-Y)2 = SSS (Yijg - Yj.-)2+mSS(Yii ij g i j g i j J‘
(20.72)
Qr
-Y.- +Y)2+ Qab
+ msL(Yi - Y)2 +mrS(Yj -Y)2
"
i
j
Qb
Qa
Som før antar vi at alle Yijg er uavhengige og normalfordelte med samme ukjente varians o2. At det muligens er samspill mellom de to faktorene, kan vi uttrykke ved å sette at E(Yijg) = ^ + a, +
(20.73)
+ 7jj
i = 1,.. . , r; j = 1,.. ., s g= 1,. . . , m
der 7jj skyldes samspill ved at faktor A er på nivå Aj samtidig med at B er på nivå Bj. Vi kan alltid innrette oss slik at
= S7ij = S7ii = 0
(20.74)
i
j
i
j
J
Om vi bestemmer forventningsverdiene til de 4 kvadratsummene på høyre side av (20.72), finner vi at E[ —] = a2 rs(m-l) J
E[—---- ] = a2 +----- m------ SS7..2 (r-D(s-l) (r-l)(s-l) j i71J « ] = a2 + mil 2 2 r-1 r-1 i
(20.75)
.
E[—y ] = a2 + ES-HS/V s-1 s-1 j J
Det spørsmål som vil være av størst interesse i denne situasjon, er oftest om det er samspill eller ikke. Vi får i så fall å teste hypotesen (20.76)
Ho 17^ = 0 for alle i og j
Alternativet er at ikke alle 7^ er lik 0.
Ved samme type resonnement som vi nyttet i forrige avsnitt, ser vi at det er naturlig å sammenligne
Statistisk forsøksplanlegging (Eksperimenteringsteori)
Qab og (r-1) (s-1)
211
Qr (m-l)rs
og forkaste Ho dersom
Qab (r-D(s-l) >k Qr (m-l)rs der k er en konstant tilpasset det ønskede signifikansnivå a. Det viser seg også her at testobservatoren er (Fisher) F-fordelt når Ho er riktig, denne gang med (r-1) (s-1) og (m-l)rs frihetsgrader, k velges derfor lik );(m_i)rs-
oooOOOooo Det er etter dette ikke vanskelig å tenke seg variansanalyse av flerveisgrupperinger der flere enn to faktorer er med. I så fall må en være forberedt på å innføre samspillseffekter av høyere orden, f.eks. mellom Ab Bj og Ck (y^k), osv. Ved analoge resonnementer til dem vi har antydet, ledes en i alle slike situasjoner til F-tester.
21.
PRINSIPPER FOR KONSTRUKSJON AV TESTMETODER
21.1. Innledning I 13.3 pekte vi på at det ikke alltid er lett å stille opp estimatorer ved hjelp av intuisjon, og vi drøftet noen prinsipper som kunne nyttes til å konstruere forslag til estimatorer. I de testproblemer vi har tatt for oss, har det stort sett vært mulig å stille opp testobservatorer på intuitivt grunnlag („rimelige” tester), men det er åpenbart lett å finne situasjoner der intuisjon ikke fører fram. Vi skal derfor ta for oss noen prinsipper som kan nyttes til å konstruere forslag til tester.
21.2. Neyman-Pearsons lemma I forbindelse med den generelle formulering av hypotesetestingsproblemet (s. 35) nevnte vi at det i visse situasjoner kan konstrueres testmetoder som er uniformt like gode eller bedre enn en hvilken som helst annen test med samme nivå. Ved konstruksjon av slike tester spiller følgende hjelpesetning som skri ver seg fra 1933 og skyldes J. Neymanx-) og E.S. Pearson*xx\ en fundamental rolle. Neyman-Pearsons lemma. La Xlf . . . , Xn være n stokastiske variable med simultan sannsynlighetstett het (punktsannsynlighet) f(xlf . . . , xn;0), der 6 er en reell parameter. Vi ønsker å teste Ho : 0
= Oq
mot
H1:0 = 01
der 0o og 6j er to bestemte reelle tall. Anta at en kan finne et område S i utfallsrommetfor(X1, . . . , Xn) slik at
i) P((X15...,Xn)eS I 0 = 00) = a, og
ii) S = {(x15. . . , xn)
f(xx,... ,xn;Øx) f(x1;.. . , xn;00)
der k er en passende valgt positiv konstant. x) Jerzy Neyman (1894 -198.1)
xx) Egon S. Pearson (1895 -1980)
214
Den testx> som er definert ved forkastingsområdet S, har da en styrke i alter nativet 07, som er minst like stor som styrken til en hvilken som helst annen a-nivåtest for H0 mot H7.
Bevis: Vi skal her nøye oss med å se på det tilfelle at (X!, . . . , Xn) er konti nuerlig fordelt. For korthets skyld vil vi i beviset erstatte f . . ./f(x15 . . . ,xn;0)dx1 . . . dxn med f f(x;0)dx A A La T være forkastingsområdet for en vilkårlig test for Ho mot Hj, der P{(X1,. . . , Xn) e T I 6 = 00 }= a' < a. Vi har da at Jf(x,Øo)dx = J f(x,Øo)dx + f f(x,Øo)dx S SAT *SAT
a=
(21.1)
mens
a' = Jf(x,Øo)dx = / f(x,Øo)dx+ f f(x,Øo)dx T SAT s*AT Siden a' < a, følger av (21.1) og (21.2) at
(21.2)
(21.3)
f f(x,Øo)dx> / f(x,Øo)dx * SAT *AT S For alle (xj, . . . , xn) e S er f(x,02) > kf(x, 00). Derfor er (21.4)
p
f
ksat*
f(x,Øj)dx> f
f(x,Øo)dx
sat*
For alle (xx, . . . , xn) e S* er f(x, Øj)< kf(x, 00). Derfor er (21.5)
1
f
ks*at
f(x,Øj)dx < f
f(x,Øo)dx
s*at
Av (21.3), (21.4) og (21.5) følger nå at f f(x,01)dx> f f(x,Øo)dx> f * SAT * SAT AT * S
f(x,Øo)dx>£ f KS *AT
f(x,Øj)dx
Altså er (21.6)
f f(x,00dx> f f(x,01)dx * SAT S*AT
Ved å addere f f(x, 0i )dx på begge sider av ulikhetstegnet i (21.6) får en at SAT /f(x,01)dx> Jf^Ø^dx s T ____________ oooOOOooo
(21.7)
q.e.d.
7 Siden testen er entydig definert ved S, nytter en ofte S som navn på testen.
Prinsipper for konstruksjon av testmetoder
215
Eks. 21.1. La Xi, . . . , Xn være uavhengige og normalfordelte N(ju, 1), der p er en ukjent konstant. Vi ønsker en test for (21.8)
Ho:g = O
: p= 1
mot
basert på X2,.. . , Xn, og skal nytte Neyman-Pearsons lemma til å konstruere den sterkeste (beste) test for (21.8).
I dette tilfelle er n
1 y* z
x2
f(x1;...,Xn;M) = W * e’5 f(Xj , . . . , Xn , 1) _ g~ 2 . gn^
f(xt, . . . , xn;0)
Altså er
S = {(x15. . . , xn);
> k}= {(x13. . . ,xn);x>c}
der c er en konstant tilpasset k. Dersom vi bestemmer c slik at
P(X> c IHO)= a tilfredsstiller S kravene i) og ii) i Neyman-Pearsons lemma, og den sterkeste test for (21.8) er definert ved forkastingsområdet X > c.
Siden X under Ho er N(0, -), finner vi lett at c = —— ua. n x/n-1 Øving 21.1. La Xj^, . . . , Xn være uavhengige og eksponensialfordelte med samme sannsynlighetstetthet f(x;Å) = Åe'Xx, x> 0 ellers ; Å > 0
= 0
Nytt Neyman-Pearsons lemma til å konstruere den sterkeste testen for Ho : Å = 1
mot
Hj: Å = 2 oooOOOooo
Nå er det relativt sjelden at en står overfor et hypotesetestingsproblem der så vel Ho som H1 fullstendig spesifiserer verdien av parametervektoren. Langt vanligere er situasjoner som
216
(21.9)
Ho: 0=00
mot
Hi: 0 > ØQ
H o : 0 = 00
mot
Hi: 0 < ØQ
eller (21.10)
Også i disse tilfellene er det av og til mulig å konstruere optimale tester ved hjelp av lemmaet. For å konkretisere skal vi holde oss til (21.9). Vi velger da først et hjelpealtemativ 6 = 0' (>00). Deretter prøver vi å finne en a-nivåtest S som ifølge Neyman-Pearsons lemma har maksimal teststyrke i hjelpealtemativet 0'. Undertiden er en så heldig at testen S ikke avhenger av hjelpealtemativet 0'. Testen S har i så fall maksimal teststyrke i ethvert punkt 0' > 00, og sies være en uniformt sterkeste test blant alle a-nivåtester for (21.9). Eks. 21.2. La XT, . . . , Xn være uavhengige og normalfordelte (ju,a02) der u02 er kjent. Vi skal etablere en test for
(21.11)
Ho: M = Mo
mot
H1:m>m0
Den simultane sannsynlighetstetthet for Xj, . . . , Xn blir da " .-L-SCx..,,)2 (21.12) f(X!,... ,xn;M,cr0) = (2iro02) e 2oo
Vi velger nå et hjelpealtemativ m = M' (>Mo)- Definerer vi S som i lemmaet, får vi at - -^2 S(Xj-M’)2+ S= {(X1,...,xn);e 2ffo 2o0 > k'}
dvs. S = {(xx,. . . , xn); S(Xj -M0)2- S(Xj -m')2 > k" }
eller S = {(x15. . . ,xn);EXj > k'" }
som også kan skrives
(21.13)
S = {(x15...,xn);x> k}
Velges nå k slik at P(X> k I m = Mo) = a tilfredsstiller S kravene i) og ii) i lemmaet. Siden X, når Ho er riktig, er Ug2 N(m° betyr dette at vi må velge k = Mo + ua • a0 ly/n
.Prinsipper for konstruksjon av testmetoder
217
Den test som er definert ved forkastingsområdet S= {(x1,...,xn);x>g0 + ua-a0/x/F}
har altså ifølge Neyman-Pearsons lemma maksimal teststyrke i hjelpealtemativetg = g' (>g0).
I dette spesielle tilfellet ser vi at testen ikke avhenger av hvordan g' er valgt, såsant g' bare er valgt > g0. Derfor er testen en a-nivåtest med maksimal teststyrke i samtlige alternativer g' > g0, og sies derfor å være en uniformt sterkeste a-nivåtest for (21.11). Øving 21.2. La Xj,. . . , Xn være uavhengige og eksponensialfordelte med sannsynlighetstetthet
f(x;X) = Xe = 0
,x>0 ellers ; X > 0
Nytt Neyman-Pearsons lemma til å finne en uniformt sterkeste 0.05-nivåtest for
Ho : X = 1
H] : X > 1
mot
Øving 21.3. La X være binomisk fordelt (17,p). Nytt Neyman-Pearsons lem ma til å finne en uniformt sterkeste 0.10-nivåtest for Ho : p = 0.15
mot
Hj : p>0.15.
oooOOOooo At det er lett å finne situasjoner der det ikke fins noen uniformt sterkeste test, viser følgende eksempel:
Eks. 21.3. La Xx,..., Xn være uavhengige og normalfordelte (g,a02), der o02 er kjent. Vi ønsker en test for
(21.14)
Ho : g = g0
mot
Hi: g 4 g0
Om vi prøver å gå fram som tidligere og velger et hjelpealtemativ g" < g0, finner vi at den test som er definert ved forkastingsområdet:
S'={(xj,. . . , xn): x ki
der kx er bestemt slik at testen får det ønskede nivå a. Intuitivt burde alltid k! være større enn 1, og en slik verdi av kx vil vi også få ved ,,rimelig” valg av signifikansnivå a. I den spesielle situasjonen at co0 og er to bestemte punkter i det r-dimensjonale rom, vil ovennevnte fremgangsmåte, ifølge Ney man-Pearsons lemma, lede til en optimal a-nivåtest. Testen som er definert ved forkastingsområdet (21.17), vil vi kalle sannsynlighetskvotetesten (Likelihood ratio test) ) *
Det som i vanlig statistisk terminologi kalles sannsynlighetskvoten (likelihood ratio) er imidlertid ikke L^X), men (21.18)
L (X) = sup(f(X; 0eæQ^ sup(f(X; 0); OeSl)
Sannsynlighetskvotetesten defineres tilsvarende ved forkastingsområdet L2(X) k
Siden
L(X) = max (Lj (X), 1) (Verifiser) vil for alle rimelige valg av a, testene definert ved forkastingsområdene (21.17) og (21.20) være ekvivalente (med rimelig valg av a, forståes et valg som fører til at kj >1). x) I vår terminologi burde vi kalt testen rimelighetskvotetesten, men vi skal ikke avvike fra vanlig termi nologi her og kaller den derfor sannsynlighetskvotetesten.
220
I de vanligst forekommende situasjoner, som vi skal holde oss til, er rimelighetsfunksjonen en kontinuerlig funksjon av 6, og co0 er av lavere dimensjon enn £2. Da er som oftest L(X) lettere å bestemme enn Lx (X), og det er derfor vi foretrekker å basere testen på L(X) i stedet for på Lj (X). Fremgangsmåten ved konstruksjon av sannsynlighetskvotetesten for (21.15) er da følgende: a) Still opp rimelighetsfunksjonen 9(6; x) = 9(6 j,. . . , 0r; xx,. . . , xn).
b) Bestem S.M.E. *0
forØ.
c) Bestem S.M.E. 00* for 6 når 0 bare tillates variere i co0. d) Dann
og forkast Ho når L(X) > k, der k bestemmes slik at testen får det ønskede nivå. I forbindelse med punktene b) og c) vil det ofte være mest hensiktsmessig å se på logaritmen til rimelighetsfunksjonen slik vi gjorde det i 13.3.1, s. 11.
I forbindelse med punkt d), vil en om mulig prøve å finne en strengt voksende funksjon av L(X), T(L(X)), med kjent og helst tabellert fordelingsfunksjon når Ho er riktig. Lykkes det å finne en slik funksjon, kan k bestemmes ut fra u-kvantilen i denne kjente fordelingen. For å illustrere bruken av sannsynlighetskvoteprinsippet skal vi ta for oss noen eksempler.
Eks. 21.4. La Xj, . . . , Xn være uavhengige og N(m, o2 ) der n og o2 begge er ukjente. Vi skal nytte sannsynlighetskvoteprinsippet til å konstruere en test for (21.21)
Ho:
m
=
mot
+
Her er rimelighetsfunksjonen (21.22)
n
-
1
S(Xj-M)2
C(ju, a2; Xi,. . . , xn) = (2tt) 2 o'n e
Ifølge 16.1.3 er S.M.E. forp og o2 henholdsvis
(21.23)
*M = X, (a2 *) = ± S (X - X)2 11
J
I 16.1.2 a) fant vi S.M.E. for a2 underHo: (21.24)
(ø2)q = ls(Xj -Mo)2
Setter vi (21.23) og (21.24) inn i (21.22), får vi at forkastingsområdet for
Prinsipper for konstruksjon av testmetoder
221
sannsynlighetskvotetesten her blir (a2)*
> c " 1
dvs. ?(Xj -Po)2
(21.25)
j----------- =— > C] XX
X
O
1
J
men siden S(Xj - g0 )2 = S (Xj - X)2 + n(X -
)2
kan (21.25) skrives
n(X-g0)2
1 -f- ----------- —— s?5 Ci
s (Xj - X)2
som igjen er ekvivalent med
(21.26)
/S(Xj -X)2 V n-1
Bruk av sannsynlighetskvoteprinsippet har altså ledet oss til en vanlig tosidig Students t-test. Dersom c velges lik t_ , får testen nivå a. (Se 16.1.3.c.) j.n-l Eks. 21.5. La Xj i, . . . , Xn i i, Xj 2 , • • • , Xn22 være uavhengige og normal fordelte med forventningsverdier og varianser
(21.27)
E(Xij)=Mj, Var(Xij) = Oj2, i = 1, 2, . . . , nj? j = 1, 2
der (gx, p2 > ai2 > °22 ) er en ukjent parametervektor. Vi skal nytte sannsynlig hetskvoteprinsippet til å konstruere en test for (21.28)
Ho: ox2 = o2
mot
4= o22
Hi:
I dette tilfelle er rimelighetsfunksjonen 2
(21.29)
ni 1 -yJ -_L_
e(Mi,M2,u12,a22;x115 . . . ,xn 2)= n(27raj2) 2
som vi for korthets skyld skriver
_
j 9 L (Xjj-Mj)2
e 2aj 1 1
J=1
, p2 , (Jr2 , o22 ;xr,x2)
Videre er (21.30)
£2 =
{(M1,M2)U12,(J22); -oo
0, j = 1,2 }
222
og
(21.31)
WO = {(Mi,M2j CT12 , cr22); —^ < Mj < + oo,n12 =(j22 5 j= lj2}
Først bestemmer vi S.M.E. for Mi, M2, ai2 °g i
__
og finner
nj
gf = Xj = -±- S Xy
(21.32)
*J 1-1 nj
1
__
= A ^(Xy-Xj)2 ■ j= 1,2
(o/) *
(21.33)
Så bestemmer vi S.M.E. for iii, n2 , a/ , a22 når parametervektoren bare til lates variere i gj0 , dvs. når o^2 = a22, og finner da (se 16.2.2, s. 59)
(21.34)
*Mjo = X, ; j= 1,2
(21.35)
(ai2)0* =(a 22)0* =lirL-(iJi(Xil -XO2 + .S (Xi2-X2)2)
Ved innsetting av (21.32) og (21.33) i (21.29) får vi
sup(£(Mi, M2, a? , a22; Xj, x2 ) ; tøi, /z2, a2, n22 )e £2) =
(21.36)
n2
nl
----- ii 1
——
n
_
ni
n2
(«i+n2)
____— ________
112
= (2jr/ni) 2 (2jr/n2) 2 ( S (Xn -Xj)2] 2 [ S (Xi2-X2)2] 2e i=l
i=l
Ved innsetting av (21.34) og (21.35) i (21.29) får vi (21.37)
sup(£(Mi, M2, Oi2 , o22; x15 x2) ; (n1 , g2, ov2, a22)eoj0) = nl + n2
= [(2!r)/(ni + n2)]
2
n - ----------
„
ii i
(nj + n2) (n1 + n2) - ________ -________
ii2
[S (Xj! -Xj)2+ S (Xi2-X2)2]
2
e
i=l
i=l
Herav finner vi n,
(21.38) L(X15X2) = lnj+n2
n-,
—
„
[S(xil-X1)2+£(X,2-X2)2] _
Si!+n2
21
nl + n2 —----------
2 ”2
[S(Xil-X1)2]2-[L(Xi2-X2)2p ni
ni+ n2 der vi har innført
)2 (
n2
ni + n2
22
ni
22
)2 (1 + Z)2 -(1 + -)2 z
Prinsipper for konstruksjon av testmetoder
223
S(Xi2 -X2)2
(21.39)
S(Xn - Xi)2
Vi legger merke til at L/Xj, X2) bare avhenger av Xj j,... , X„22 gjennom Z, og at testkriteriet derfor kan uttrykkes ved Z alene. Fra 16.2.3 vet vi at (21.40)
er Fisher-F-fordelt med (n2 - 1) og (nT -1) frihetsgrader når Ho er riktig. Siden F har en kjent fordeling under Ho , innfører vi F i ,X2), og får n।
(21.41)
L(Xj ,X2) = (—"in] + n2
112
i
ni
(-!£—)T • (1 + F)t (1 + nj + n2 n, -1 n2-l F
Sannsynlighetskvotetesten for (21.38) er nå definert ved forkastingsområdet
der k er bestemt slik at testen får nivå a.
Vi ser at L(XT ,X2) bare avhenger av Xj j,. . . , Xna2 gjennom F, gitt ved (21.40) og erstatter derfor ,X2) med L * (F).
Studerer vi L * (F) som funksjon av F, ser vi at sannsynlighetskvotetesten for (21.28) forkaster Ho når enten F < cx eller F > c2 (>0}), der Cj og c2 er be stemt av at (21.43)
( L *
c1)
=* ( L
c2)=
k
og k er bestemt av det nivå a vi har valgt for testen.
Bruk av sannsynlighetskvoteprinsippet har altså ledet oss til en F-test, der observatoren F gitt ved (21.40) under Ho er (Fisher-) F-fordelt med (n2-1) og (nj-1) frihetsgrader.
Å bestemme Cj og c2 (og k) ut fra (21.42) og (21.43) krever tabeller over fordelingsfunksjonen i (Fishers) F-fordeling med (n2- 1) og (n^ 1) frihets grader, og kan føre til endel regnearbeid. I praksis vil en som oftest nøye seg med å velge c1 og c2 henholdsvis som (1- |)- og ^-kvantilen i F-fordelingen med (n2-l) og (nj -1) frihetsgrader. En slik fremgangsmåte er altså ikke helt i overensstemmelse med sannsynlighetskvoteprinsippet.
224
Øving 21.4. Ta for deg situasjonen i Eks. 21.5 på nytt, men velg m=n. Vis at en nå får c2 = —, og bestem testkriteriet i dette tilfellet. C1
Eks. 21.6. La (X! ,Yj.), . . . , (Xn ,Yn) være uavhengige og identisk binormalt fordelte med simultan sannsynlighetstetthet /--------- 1
(21.44)
-i
f(x,y; p19 p2, Qi, a2, p) = (27ro1a2X/l-P2 )
- |Qi(x,y)
e
der Q1(x,y)=
1 [(2^ 1-p2 Uj
oro2
+(2^)2] o2
Vi ønsker på grunnlag av et observasjonssett av (Xj, Yj),.. . , (Xn ,Yn) å ta stilling til om X og Y er uavhengige. Siden det dreier seg om en binormal for deling, er dette ensbetydende med at vi ønsker en test for (21.45)
Ho: p = 0
mot
Hj: p f 0
Rimelighetsfunksjonen blir i dette tilfelle: (21.46)
£(p1,p2,o1,o2,p;x, y) = (2?ra1a2)
n
-5 -hcx.y) (1-p2) 2e 2
der (21.47)
Q(x,y) =
1-P
of
o1o2
+
o22
Vi bestemmer nå S.M.E. for de forskjellige parametre og finner
* = X, (Oj2)* = ls(Xi-X)2 M (21.48)
p *
= Y, (a22*) = iz(Yj-Y)2
p*
=
S(Xi-X)(Yj-Y) = S(Xj - X)(Yj - Y) V/X(XI-X)2X1Y1-Y)2' * nofoj
Så bestemmes S.M.E. for de forskjellige parametre under Ho, og vi finner
* M10 = X, (o,2)J = IsiXj-X)2 (21.49)
M20* = Y, (a22)0* = jsiYi-Y)2
Ved innsetting av (21.48) i rimelighetsfunksjonen (21.46) får vi *, e(M!
n * ,o M * , a2* , p * ) = (2irc * 0)
Når sx2 skal beregnes, nytter en oftest beregningsformelen (23.3)
s/ =
I vårt eksempel blir sx 2 = 2951.21.
Om en innfører nye variable ved lineærtransformasjonen (23.4)
yj=a(Xj-b)
der a og b er to vilkårlige reelle konstanter, er det lett å vise at
(23.5)
s 2 = ^S(Yj -y)2 = a2sx2 J
11
J
sx2 er altså invariant overfor translasjon, (a = 1) Ofte presenteres observasjonsmaterialet i en frekvenstabell. Variasjonsområdet deles da inn i et passende antall delintervaller, som velges slik at midtpunktene i intervallene blir „pene tall” å regne med. Så teller en opp hvor mange obser vasjoner som faller i hvert av delintervallene. Øvre endepunkt regnes med til delintervallet, nedre endepunkt ikke.
I vårt eksempel har vi delt inn variasjonsområdet i delintervaller som angitt i Tabell 23.2, og får da følgende frekvenstabell:
240
Midt punkt
Delinter vall
Relativ hyppighet
Rei.kum. hyppighet
11
.02
.02
Før opptelling
2.5 -
7.5
5
7.5 -
12.5
10
111
.03
.05
12.5 -
17.5
15
im. rtii rtii rtti i
.21
.26
17.5 -
22.5
20
rtii rt-ii
.10
. 36
22.5 -
27.5
25
.06
. 42
27.5 -
32.5
30
rtn in
.08
.50
32.5 -
37.5
35
in
.03
. 53
37.5 -
42.5
40
rtii ii
.07
.60
42.5 -
47.5
45
TtUL
.05
.65
47.5 -
52.5
50
.05
.70
52.5 -
57.5
55
in
.03
.73
57.5 -
62.5
60
i
.01
.74
62.5
67.5
65
mi
.04
.78
67.5 -
72.5
70
i
.01
.79
72.5 -
77.5
75
ii
.02
.81
77.5 -
82.5
80
in
.03
.84
82.5 -
87.5
85
in
.03
.87
87.5 -
92.5
90
i
.01
.88
92.5 -
97.5
95
.00
.88
97.5 - 102.5
100
i
.01
.89
102.5 - 197.5
150
rtii ii
.07
.96
197.5 - 402.5
300
mi
.04
1.00
i
Tabell 23.2. Frekvenstabell.
I siste kolonne i frekvenstabellen er angitt den relative kumulative hyppighet, dvs. det relative antall observasjoner som er mindre enn eller lik de respektive øvre endepunkter av delintervallene. Den relative hyppighet fremstilles ofte grafisk. En danner da rektangler over de enkelte delintervaller og tilpasser høyden slik at arealet tilsvarer den rela tive hyppighet av observasjoner i intervallet. Den grafiske fremstilling en på denne måte får, kalles et histogram.
Deskriptiv statistikk
241
Fig. 23.1. Histogram.
Den empiriske (kumulative) fordelingsfunksfon H(n)(x) for den størrelse (X) som observeres, defineres slik: (23 6) H(n)(x) = (AntaU observasjoner < x) Vi ser at (23.7) 0 < H(n)(x) < 1 og at H(n)(x) er en ikkeavtagende, ren trappefunksjon i x med sprang i de observerte x-verdiene. Dersom akkurat mj av de observerte X'ene er lik a^, blir spranget i a,- lik nij/n, j = 1, . . . .
Når observasjonsmaterialet er stort, er vanligvis det grafiske bildet av den empiriske fordelingsfunksjonen unødig detaljert. Istedet utarbeider en da en frekvenstabell over observasjonsmaterialet slik vi gjorde det i Tabell 23.2, plotter punktene (Cj, Hn^oMooommoo
x(y)
2 3 21 10 6 8 3 7 5 5 3 1 4 1 2 3 3 1 0 1 7 4
OmOC1Hk£>iDOkDOOl£>NCOOin
r—