31 0 355KB
TEMA 10 – TESTE DE CONCORDANŢĂ Obiective Cunoaşterea conceptelor referitoare la testele de concordanţă Analiza principalelor teste de concordanţă Aplicaţii rezolvate Aplicaţii propuse
Cuprins 10.1 Concepte referitoare la testele de concordanţă
10.2
10.2 Testul χ2
10.2
10.3 Testul Henry
10.7
10.4 Testul Kolmogorov-Smirnov
10.9
10.5 Testul Grubbs
10.12
10.6 Concepte cheie
10.13
10.2
MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ
10. TESTE DE CONCORDANŢĂ 10.1 Concepte referitoare la testele de concordanţă Testele de concordanţă (în engleză goodness of fit test) ne arată modul în care un anumit model statistic (o anumită distribuţie statistică) “se potriveşte” cu o anumită mulţime de date. Aceste teste pun în evidenţă “concordanţa” dintre modelul empiric, furnizat de histogramă, şi modelul teoretic pe care îl considerăm adecvat pentru populaţia din care provin datele statistice observate. Un test de concordanţă constă din verificarea ipotezei nule: H 0 : X ∈ F ( x) , cu ipoteza alternativă: H1 : X ∉ F ( x) ,
unde F(x) este o anumită funcţie de distribuţie cumulativă. În continuare se calculează statistica testului. La pasul următor se determină, în funcţie de efectivul eşantionului n şi de nivelul sau pragul de încredere α, valoarea critică a testului. Decizia de acceptare/respingere a ipotezei H0 se ia prin compararea dintre statistica testului şi valoarea critică a testului Vom analiza în continuare cele mai uzuale teste de concordanţă, dintre care unele sunt generale (aplicabile pentru mai multe distribuţii statistice), iar altele sunt specifice (aplicabile numai pentru anumite distribuţii statistice). Dintre testele de concordanţă specifice, vom analiza testele pentru verificarea ipotezei normalităţii.
10.2 Testul χ2 Testul de concordanţă χ2 (“hi-pătrat”) este un test general, care poate fi aplicat oricărei distribuţii statistice căreia putem sa îi calculăm funcţia de distribuţie cumulativă. Testul χ2 se aplică datelor grupate (sau datelor de frecvenţă). Dacă datele sunt negrupate, atunci le putem grupa cu ajutorul unei histograme. Pentru testul χ2 se aplică următorul algoritm. Algoritm pentru testul χ2 [1]: Se construieşte o histogramă cu nc clase, în care faj, j = 1,2,...,nc sunt frecvenţele absolute observate. [2]: Se calculează frecvenţele medii estimate fej:
[
]
fe j = n ⋅ F (lc j +1 ) − F (lc j ) ,
unde: n este efectivul eşantionului; F este funcţia de distribuţie cumulativă testată; lcj şi lcj+1 sunt limitele clasei j. [3]: Se calculează statistica testului
χ
2 calculat
nc
=∑ j =1
( fa
− fe j )
2
j
fe j
.
TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE
10.3
[4]: Se determină valoarea critică a testului 2 (α ; nc − c + 1) , χ critic
unde: α este nivelul (pragul) de semnificaţie al testului; c este numărul de parametri ai distribuţiei F; nc−c+1 numărul de grade de libertate ale distribuţiei χ2. [5]: Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel: Dacă 2 2 (α ; nc − c + 1) , χ calculat ≤ χ critic
atunci se acceptă ipoteza nulă, respectiv datele provin din distribuţia testată. Dacă 2 2 (α ; nc − c + 1) , χ calculat > χ critic
atunci se respinge ipoteza nulă, respectiv datele nu provin din distribuţia testată. Valorile critice ale testului χ2 pentru nivelul (pragul) de semnificaţie α = 0,05 şi un număr de 1 ÷ 10 grade de libertate sunt date în tabelul următor: α = 0,05 Grade de libertate
α = 0,05
χ2
Grade de libertate
χ2
1
3,841
6
12,592
2
5,991
7
14,067
3
7,815
8
15,507
4
9,488
9
16,919
5
11,070
10
18,307
Exemplul 10.1 Să se aplice testul χ2 pentru verificarea ipotezei normalităţii pentru eşantionul de date şi tabelul de frecvenţă din Exemplul 2.9, pentru care avem media 10,632 şi abaterea standard 4,28843. Rezolvare: Aplicăm paşii algoritmului descris anterior. [1] Utilizăm tabelul de frecvenţă din Exemplul 2.9, pentru frecvenţele absolute observate. [2] Pentru frecvenţele medii estimate, standardizăm mai întâi valorile lc1=0; lc2=4,0; lc3=8,0; lc4=12,0; lc5=16,0; lc6=20,0 şi obţinem:
z1 =
0 − 10,632 0 − 10,632 = −2,48 ; z2 = = −2,48 ; 4,28843 4,28843
z3 =
8,0 − 10,632 12,0 − 10,632 = −0,61 ; z4 = = 0,32 ; 4,28843 4,28843
z5 =
16,0 − 10,632 20,0 − 10,632 = 1,25 ; z6 = = 2,18 . 4,28843 4,28843
10.4
MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ
Atunci din tabelul distribuţiei normale standardizate obţinem: fe1 = 25 ⋅ [F ( z2 ) − F ( z1 )] = 25 ⋅ [F (− 1,55) − F (− 2,48)] = = 25 ⋅ [0,0606 − 0,0066] = 25 ⋅ 0,0540 = 1,4.
fe2 = 25 ⋅ [F ( z3 ) − F ( z2 )] = 25 ⋅ [F (− 0,61) − F (− 1,55)] = = 25 ⋅ [0,2709 − 0,0606] = 25 ⋅ 0,2103 = 5,3.
fe3 = 25 ⋅ [F ( z 4 ) − F ( z3 )] = 25 ⋅ [F (0,32 ) − F (− 0,61)] = = 25 ⋅ [0,6255 − 0,2709] = 25 ⋅ 0,3546 = 8,9.
fe4 = 25 ⋅ [F (z5 ) − F ( z 4 )] = 25 ⋅ [F (1,25) − F (0,32)] = = 25 ⋅ [0,8944 − 0,6255] = 25 ⋅ 0,2689 = 6,7.
fe5 = 25 ⋅ [F ( z6 ) − F ( z5 )] = 25 ⋅ [F (2,18) − F (1,25)] = = 25 ⋅ [0,9854 − 0,8944] = 25 ⋅ 0,0910 = 2,3.
[3] Statistica testului este calculată în tabelul de frecvenţă următor: Clase
Intervale de clasă
1
0
fej
(faj – fej)2
(faj – fej)2/fej
4,0
faj 2
1,36
0,4093
0,3009
2
4,0
8,0
5
5,22
0,0473
0,0091
3
8,0
12,0
8
8,89
0,7852
0,0884
4
12,0
16,0
7
6,74
0,0685
0,0102
5
16,0
20,0
3
2,27
0,5304
0,2335
25
-
-
0,6419
Σ
Rezultă statistica calculată a testului: 2 χ calculat = 0,6419 .
[4] Pentru α = 0,05, nc = 5, c = 2 rezultă valoarea critică a testului: 2 2 (α ; nc − c + 1) = χ critic (0,05;5 − 2 + 1) = χ critic
2 (0,05;4) = 9,488. = χ critic
[5] Decizia, ţinând cont de relaţia: 2 2 (0,05; 4) = 9,488 , χ calculat = 0,6419 < χ critic
este normalitate confirmată. Exemplul 10.2 Un zar este aruncat de 600 de ori, în tabelul următor fiind înregistrate numărul de apariţii (faj, j = 1,2,...,6) ale fiecărei feţe nj a zarului: nj
1
2
3
4
5
6
faj
119
104
84
99
90
104
Să se aplice testul χ2 pentru verificarea ipotezei uniformităţii, respectiv pentru a verifica dacă zarul este “echilibrat”.
TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE
10.5
Rezolvare: Experimentul aruncării unui zar este modelat de distribuţia uniformă. Rezultă frecvenţele estimate fej = 100, j = 1,2,...,6. Statistica testului:
χ
6
=∑
2 calculat
( fa
j =1
− fe j )
2
j
fe j
,
este calculată cu ajutorul tabelului următor. nj
1
2
3
4
5
6
Total
faj
119
104
84
99
90
104
600
fej
100
100
100
100
100
100
600
faj−fej
19
4
-16
-1
-10
4
-
−
361
16
256
1
100
16
-
(faj fej)2/fej
3,61
0,16
2,56
0,01
1
0,16
7,50
(faj fej)2
−
Rezultă statistica calculată: 2 χ calculat = 7,50 .
Numărul de grade de libertate al distribuţiei χ2 este numărul de clase − 1, adică 6 – 1 = 5. 2 (0,05;5) = 11,070 şi are loc relaţia: Valoarea critică a testului, pentru α = 0,05 este χ critic 2 2 (0,05;5) = 11,070 > χ calc χ critic = 7,50 .
Rezultă decizia de acceptare a ipotezei uniformităţii, adică zarul este “echilibrat”.
Testul χ2 se aplică şi pentru tabelele de contingenţă, pentru a stabili dacă există o legătură între variabilele calitative (nominale) conţinute în aceste tabele. Ipoteza nulă specifică faptul că nu există o relaţie între cele două variabile, adică H0: Cele două variabile sunt independente.
Ipoteza alternativă specifică faptul că o variabilă este influenţată de cealaltă: H1: Cele două variabile sunt dependente. Algoritmul testului χ2 pentru tabele de contingenţă p×q [1]: Se construieşte tabelul de contingenţă cu p coloane şi q linii, în care pe coloane înregistrăm valorile variabilei A, A1, A2,..., Ap, iar pe linii înregistrăm valorile variabilei B, B1, B2,..., Aq. În celulele tabelului avem frecvenţele absolute faij, i = 1,..., q, j = 1,..., p . În ultima coloană avem sumele pe linie ni, iar în ultima linie sumele pe coloană mj. [2]: Se calculează frecvenţele medii estimate feij:
feij =
ni ⋅ m j n
, i = 1, q, j = 1, p ,
unde n este totalul general al tabelului de contingenţă. [3]: Se calculează statistica testului
10.6
MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ
χ
2 calculat
q
p
= ∑∑
( fa
− feij )
2
ij
.
feij
i =1 j =1
[4]: Se determină valoarea critică a testului: 2 (α ;ν ) , χ critic
unde: α este nivelul (pragul) de semnificaţie al testului; n este numărul de grade de libertate ale distribuţiei χ2, calculat cu relaţia:
ν = ( p − 1) ⋅ (q − 1) . [5]: Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel: Dacă 2 2 (α ;ν ) , χ calculat ≤ χ critic
atunci se acceptă ipoteza nulă, respectiv cele două variabile sunt independente. Dacă 2 2 (α ;ν ) , χ calculat > χ critic
atunci se respinge ipoteza nulă, respectiv cele două variabile sunt dependente, una fiind influenţată de cealaltă. Exemplul 10.3 Un distribuitor, care primeşte un anumit produs de la doi furnizori, F1 şi F2, a înregistrat reclamaţiile primite în termen de garanţie (TG) pentru produsele livrate. Datele obţinute sunt în tabelul de contingenţă următor:
Reclamaţii în TG Fără reclamaţii în TG
Furnizor F1
Furnizor F2
500 46.250
1.500 123.750
Să se aplice testul χ2 pentru a verifica dacă reclamaţiile depind de furnizorii de produse. Rezolvare: Aplicăm paşii algoritmului descris anterior. [1]: Avem tabelul de contingenţă 2×2 următor, în care p = 2 şi q = 2, iar în celulele tabelului avem frecvenţele absolute:
Reclamaţii în TG Fără reclamaţii în TG mj
Furnizor F1
Furnizor F2
ni
500 46.250
1.500 123.750
2.000 170.000
46.750
125.250
172.000
[2]: Calculăm frecvenţele medii estimate şi obţinem valorile din tabelul următor:
fe11 =
n1 ⋅ m1 2.000 ⋅ 46.750 = = 544 , n 172.000
TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE
fe12 =
fe21 = fe22 =
n1 ⋅ m2 2.000 ⋅125.250 = = 1.456 , n 172.000
n2 ⋅ m1 170.000 ⋅ 46.750 = = 46.206 , n 172.000
n2 ⋅ m2 170.000 ⋅125.250 = = 123.794 . n 172.000
Reclamaţii în TG Fără reclamaţii în TG mj
10.7
Furnizor F1
Furnizor F2
ni
544 46.206
1.456 123.794
2.000 170.000
46.750
125.250
172.000
[3]: Calculăm statistica testului organizând datele în tabelul următor: i, j 1, 1 1, 2 2, 1 2, 2
faij 500 1.500 46.250 123.750
feij 544 1.456 46.206 123.794
(faij−feij)2/feij 3,559 1,330 0,042 0,016
Σ
172.000
172.000
4,946
2 Am obţinut χ calculat = 4,946 . [4]: Determinăm valoarea critică a testului pentru α = 0,05 şi n = (2−1)·(2−1) = 1. Rezultă:
2 2 (α ;ν ) = χ critic (0,05;1) = 3,841 . χ critic
[5]: Am obţinut: 2 2 χ calculat = 4,946 > χ critic = 3,841 ,
şi în consecinţă decidem asupra respingerii ipotezei nule şi acceptării ipotezei alternative, adică reclamaţiile depind de furnizorii de produse.
10.3 Testul Henry Unul din testele de concordanţă cele mai uzuale şi mai simple pentru verificarea ipotezei normalităţii este aşa-numita “dreaptă a lui Henry”. Metoda se bazează pe “liniarizarea” valorilor eşantionului sau a valorilor distribuţiei frecvenţei relative. Testul Henry se poate aplica atât pentru date negrupate, cât şi pentru date grupate. Vom prezenta în continuare algoritmul de aplicare a testului Henry pentru date grupate. În acest scop vom utiliza gruparea datelor de frecvenţă obţinută ca urmare a construcţiei histogramei frecvenţei relative, precum şi grila de probabilitate normală standardizată prezentată în Tema 6.
10.8
MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ
Algoritm pentru testul Henry – date grupate [1]: Se determină limitele intervalelor de clasă (lcj) şi frecvenţa absolută (faj), j = 1,2,...,nc, conform algoritmului histogramei frecvenţei relative [2]: Se determină mijloacele intervalelor de clasă (mj) cu relaţia:
mj =
lc j + lc j +1 2
.
[3]: Se determină frecvenţa cumulată estimată (fcej) cu relaţiile:
fce1 = fa1 fce j +1 = fce j + fa j + fa j +1 , j = 1, K, nc − 1. [4]: Se determină frecvenţa cumulată estimată procentuală (fcej(%)) cu relaţia:
fce j
fce j (%) =
2n
⋅100(%), j = 1,K, nc .
Elementele de la paşii [1] - [4] ai algoritmului se calculează într-un tabel de frecvenţă cumulată estimată de forma: Clase
Intervale de clasă
mj
faj
fcej
fcej(%)
1
lc1
lc2
m1
fa1
fce1= fa1
fce1/2n·100
2
lc2
lc3
m2
fa2
fce2= fce1+ fa1+ fa2
fce2/2n·100
...
...
...
...
...
...
...
k
lck
lck+1
mk
fak
fcek= fcek-1+ fak-1+ fak
fcek/2n·100
...
...
...
...
...
...
...
nc
lcnc
lcnc+1
mnc
fanc
fcenc= fcenc-1+ fanc-1+ fanc
fcenc/2n·100
n
(fcenc + fanc = 2n)
-
Σ
[5]: Se reprezintă pe grila de probabilitate normală punctele de coordonate:
(m ; fce (%)), j
j
j = 1,2,..., nc .
[6]: Se trasează o dreaptă care să treacă prin (apropierea a) cât mai multe puncte. [7]: Decizia asupra ipotezei normalităţii:
Dacă toate punctele se situează în proximitatea dreptei trasate, atunci se acceptă ipoteza normalităţii; Dacă există unul sau mai multe puncte sensibil depărtate de dreapta trasată, atunci se respinge ipoteza normalităţii.
Exemplul 10.4 Se consideră eşantionul de date şi tabelul de frecvenţă din Exemplul 2.9. Să se aplice testul Henry pentru verificarea ipotezei normalităţii, având în vedere forma aproximativă de “clopot” a histogramei frecvenţei relative. Rezolvare: În tabelul de frecvenţă cumulată estimată următor au fost determinate elementele de la paşii 1 – 4 ai algoritmului, calculându-se mai întâi mijloacele intervalelor de clasă. După aceea a fost calculată frecvenţa cumulată estimată a fiecărei clase, iar în final frecvenţa cumulată estimată procentuală prin împărţire la 2n şi apoi înmulţire cu 100.
TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE
Clase
Intervale de clasă
mj
faj
fcej
fcej(%)
1
0
4,0
2,0
2
2
4,0%
2
4,0
8,0
6,0
5
2+2+5=9
18,0%
3
8,0
12,0
10,0
8
9 + 5 + 8 = 22
44,0%
4
12,0
16,0
14,0
7
22 + 8 + 7 = 37
74,0%
5
16,0
20,0
18,0
3
37 + 7 + 3 = 47
94,0%
Σ
25
(47 + 3 = 50)
-
10.9
În continuare, va trebui să reprezentăm pe grila de probabilitate normală standardizată valorile pentru (mj; fcej(%)) (Figura 10.1). Pentru reprezentarea pe ordonată, va trebui să ţinem cont că grila este simetrică numai pe ordonata dreaptă, pe ordonata stângă ea având intervale de valori diferite, respectiv între două valori (linii) ale grilei fiind valori diferite de la un interval la altul. Pentru o reprezentare corectă şi proporţională va trebui să facem o interpolare între valoarea fcej(%)şi limitele între care reprezentăm această valoare.
F(z) % 99,87% 99,38% 97,72% 93,32% 84,13% 69,15% 50,00% 30,85% 15,87% 6,68% 2,28% 0,62% 0,13% mj
1
2
3
4
5
2,0
6,0
10,0
14,0
18,0
z 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5 -3,0
Decizie: Normalitate confirmată
Figura 10.1 – Dreapta lui Henry
Se observă că toate punctele reprezentate pe grilă sunt situate pe dreapta trasată. În aceste condiţii decizia testului este de normalitate confirmată, ceea ce înseamnă că acceptăm ipoteza că datele eşantionului provin dintr-o populaţie modelată de distribuţia normală.
10.4 Testul Kolmogorov-Smirnov Testul Kolmogorov – Smirnov este un test de normalitate foarte răspândit,bazat pe prorietăţile matematice demonstrate de cei doi mari matematicieni ruşi. Testul Kolmogorov – Smirnov este un test util, datorită faptului că oferă posibilitatea de decizie asupra ipotezei normalităţii atât analitic, cât şi grafic. Testul utilizează date negrupate, fiind relativ dificil de aplicat fără utilizarea unui calculator electronic.
10.10
MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ
Algoritm pentru testul Kolmogorov – Smirnov – date negrupate [1]: Se calculează media şi dispersia eşantionului de date negrupate x1 , x2 ,..., xn : n
n
x=
∑x i =1
n
i
, s=
∑ (x − x) i =1
2
i
n −1
.
[2]: Se ordonează crescător valorile eşantionului de date şi se obţine eşantionul ordonat:
x(1) ≤ x( 2) ≤ ... ≤ x( n ) . [3]: Se calculează funcţia de distribuţie cumulativă empirică a eşantionului ordonat crescător:
Fn ( x) =
i , i = 1, 2,..., n . n
[4]: Se calculează statistica testului:
Dn = max Fn ( x j ) − F0 ( x j ) , unde F0(xj) este funcţia de distribuţie cumulativă normală. [5]: Decizia asupra ipotezei normalităţii se ia în funcţie de valoarea critică a testului d1−α,n (unde α este eroarea, iar 1−α nivelul de încredere al testului) astfel:
Dacă Dn ≤ d1−α ,n , atunci se acceptă ipoteza normalităţii;
Dacă Dn > d1−α ,n , atunci se respinge ipoteza normalităţii.
[6]: Pentru reprezentarea grafică, se calculează două limite, inferioară şi superioară, astfel:
LI = F0 ( xi ) − d1−α ,n , LS = F0 ( xi ) + d1−α ,n . Decizia grafică de respingere a normalităţii se adoptă atunci când funcţia de distribuţie cumulativă empirică iese în afara limitelor inferioară şi superioară. Valorile critice aproximative ale testului Kolmogorov – Smirnov sunt date în tabelul următor, în funcţie de efectivul eşantionului n şi nivelul de încredere 1−α:
1−α
d 1−α ,n
0,80
0,85
0,90
0,95
0,99
1,07
1,14 n
1,22
1,36 n
1,63
n
n
n
Exemplul 10.5 Se consideră eşantionul de date negrupate din Exemplul 2.9. Să se aplice testul Kolmogorov-Smirnov pentru verificarea ipotezei normalităţii, având în vedere forma aproximativă de “clopot” a histogramei frecvenţei relative. Rezolvare: Pentru eşantionul dat, avem media 10,632 şi abaterea standard 4,28843.
TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE
10.11
În tabelul următor sunt calculate, pe fiecare linie, pentru valorile ordonate ale eşantionului, funcţia de distribuţie cumulativă empirică şi teoretică, statistica testului şi limitele inferioară şi superioară. i
xi
x(i)
Fn(xi)
F0(xi)
|F0(xi)-Fn(xi)|
LI
LS
1
10,1
2,0
0,040
0,0221
0,0179
0,000
0,2941
2
12,2
3,5
0,080
0,0481
0,0319
0,000
0,3201
3
14,3
4,2
0,120
0,0668
0,0532
0,000
0,3388
4
6,4
5,7
0,160
0,1251
0,0349
0,000
0,3971
5
9,2
6,4
0,200
0,1619
0,0381
0,000
0,4339
6
16,6
7,5
0,240
0,2326
0,0074
0,000
0,5046
7
15,5
7,6
0,280
0,2398
0,0402
0,000
0,5118
8
11,8
8,3
0,320
0,2933
0,0267
0,021
0,5653
9
12,3
9,2
0,360
0,3692
0,0092
0,097
0,6412
10
13,2
10,1
0,400
0,4506
0,0506
0,179
0,7226
11
11,2
10,3
0,440
0,4691
0,0291
0,197
0,7411 0,7504
12
10,4
10,4
0,480
0,4784
0,0016
0,206
13
7,5
10,5
0,520
0,4877
0,0323
0,216
0,7597
14
5,7
11,2
0,560
0,5527
0,0073
0,281
0,8247
15
13,1
11,8
0,600
0,6073
0,0073
0,335
0,8793
16
18,0
12,2
0,640
0,6427
0,0027
0,371
0,9147 0,9233
17
2,0
12,3
0,680
0,6513
0,0287
0,379
18
14,9
13,1
0,720
0,7175
0,0025
0,446
0,9895
19
17,0
13,2
0,760
0,7254
0,0346
0,453
0,9974
20
3,5
14,3
0,800
0,8038
0,0038
0,532
1,0000
21
8,3
14,9
0,840
0,8402
0,0002
0,568
1,0000
22
10,3
15,5
0,880
0,8718
0,0082
0,600
1,0000
23
10,5
16,6
0,920
0,9180
0,0020
0,646
1,0000
24
7,6
17,0
0,960
0,9312
0,0288
0,659
1,0000
25
4,2
18,0
1,000
0,9571
0,0429
0,685
1,0000
Rezultă statistica testului (valoarea maximă a diferenţei dintre funcţiile de distribuţie empirică şi teoretică) Dn = 0,0532. Pentru n = 25 şi nivelul de încredere 1−α = 0,95, avem valoarea critică d1−α,n = d0,95;25 = 0,272. Atunci, conform criteriului de decizie al testului, se adoptă decizia normalitate confirmată. Reprezentarea grafică a testului este redată în Figura 10.2. Se observă că funcţia de distribuţie empirică se apropie de funcţia teoretică şi nu depăşeşte limitele critice.
1,00 0,80 Fn(xi) 0,60
F0(xi) LI LS
0,40 0,20 0,00 0,00
5,00
10,00
15,00
20,00
Figura 10.2 – Testul Kolmogorov-Smirnov
10.12
MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ
10.5 Testul Grubbs Testul Grubbs este cel mai des folosit test pentru verificarea existenţei valorilor extreme (denumite şi valori aberante – în engleză outliers), respectiv a valorilor care se îndepărtează de restul populaţiei şi care nu caracterizează din punct de vedere statistic acea populaţie. Aceste valori trebuie eliminate („discardate”), pentru a nu influenţa rezultatele analizei şi ale inferenţei statistice. Algoritm pentru testul Grubbs [1]: Se ordonează crescător valorile x1 , x2 ,..., xn ale eşantionului de date şi se obţine eşantionul ordonat crescător x(1) ≤ x( 2) ≤ ... ≤ x( n ) , urmând a se decide asupra eliminării
eventuale a valorilor xmax = x( n ) ca valoare extremă maximă, respectiv xmin = x(1) ca valoare extremă minimă. [2]: Se calculează media şi abaterea standard ale eşantionului de date: n
n
x=
∑ xi i =1
n
, s=
∑ (x − x)
2
i
i =1
.
n −1
[3]: Se calculează statistica testului:
v=
x( n ) − x s
, v′ =
x − x(1) s
.
[4]: Decizia de păstrare/îndepărtare a valorii xmax = x( n ) (sau xmin = x(1) ) ca valoare extremă
(aberantă) maximă (sau minimă) se ia astfel:
Dacă v > ξ j (n;1 − α ) (sau v′ > ξ j (n;1 − α ) ), atunci xmax = x( n ) (sau xmin = x(1) ) se elimină ca fiind valoare extremă (aberantă) maximă (sau minimă)
Dacă v ≤ ξ j (n;1 − α ) (sau v′ ≤ ξ j (n;1 − α ) ), atunci xmax = x( n ) (sau xmin = x(1) ) se păstrează.
Valorile critice ale testului Grubbs ξ j (n;1 − α ) în funcţie de efectivul eşantionului n şi nivelul de încredere 1−α sunt date în tabelul următor. 1−α n
0,900
0,950
0,975
0,990
0,995
1,000
15
2,25
2,41
2,55
2,71
2,81
3,00
25
2,49
2,66
2,82
3,01
3,14
3,39
50
2,77
2,96
3,13
3,34
3,48
3,79
100
3,02
3,21
3,38
3,60
3,75
4,08
Exemplul 10.6 Să se aplice testul Grubbs pentru eliminarea valorilor aberante pentru eşantionul de 25 de valori din Exemplul 2.9. Rezolvare: Aplicăm paşii algoritmului.
TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE
10.13
[1]: Ordonăm crescător eşantionul. Obţinem:
xmax = x( 25) = 18,0 , xmin = x(1) = 2,0 . [2]: Pentru eşantionul dat, avem media x = 10,632 şi abaterea standard s = 4,28843. [3]: Se calculează statisticile testului. Obţinem: v=
x( 25) − x
v′ =
s x − x(1) s
=
18,0 − 10,632 = 1,7181 , 4,28843
=
10,632 − 2,0 = 2,0129 . 4,28843
[4]: Pentru n = 25 şi nivelul de încredere 1 – α = 0,95 rezultă din tabelul valorilor critice:
v = 1,7181 < ξ j (n;1 − α ) = ξ j (25;0,95) = 2,66 , v′ = 2,0129 < ξ j (n;1 − α ) = ξ j (25;0,95) = 2,66 , ceea ce ne duce la concluzia că nu există valori extreme maxime (sau minime) care să fie eliminate.
10.6 Concepte cheie
Test de concordanţă Statistica testului Valoare critică Nivel (prag) de semnificaţie Nivel de încredere Frecvenţă cumulată estimată
Testul χ2 Testul Henry Deapta lui Henry Testul Kolmogorov -Smirnov Valoare extremă (aberantă) Testul Grubbs
10.14
MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ