Tema 10 - Teste de Concordanta - Note de Curs [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

TEMA 10 – TESTE DE CONCORDANŢĂ Obiective ƒ Cunoaşterea conceptelor referitoare la testele de concordanţ㠃 Analiza principalelor teste de concordanţ㠃 Aplicaţii rezolvate ƒ Aplicaţii propuse

Cuprins 10.1 Concepte referitoare la testele de concordanţă

10.2

10.2 Testul χ2

10.2

10.3 Testul Henry

10.7

10.4 Testul Kolmogorov-Smirnov

10.9

10.5 Testul Grubbs

10.12

10.6 Concepte cheie

10.13

10.2

MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ

10. TESTE DE CONCORDANŢĂ 10.1 Concepte referitoare la testele de concordanţă Testele de concordanţă (în engleză goodness of fit test) ne arată modul în care un anumit model statistic (o anumită distribuţie statistică) “se potriveşte” cu o anumită mulţime de date. Aceste teste pun în evidenţă “concordanţa” dintre modelul empiric, furnizat de histogramă, şi modelul teoretic pe care îl considerăm adecvat pentru populaţia din care provin datele statistice observate. Un test de concordanţă constă din verificarea ipotezei nule: H 0 : X ∈ F ( x) , cu ipoteza alternativă: H1 : X ∉ F ( x) ,

unde F(x) este o anumită funcţie de distribuţie cumulativă. În continuare se calculează statistica testului. La pasul următor se determină, în funcţie de efectivul eşantionului n şi de nivelul sau pragul de încredere α, valoarea critică a testului. Decizia de acceptare/respingere a ipotezei H0 se ia prin compararea dintre statistica testului şi valoarea critică a testului Vom analiza în continuare cele mai uzuale teste de concordanţă, dintre care unele sunt generale (aplicabile pentru mai multe distribuţii statistice), iar altele sunt specifice (aplicabile numai pentru anumite distribuţii statistice). Dintre testele de concordanţă specifice, vom analiza testele pentru verificarea ipotezei normalităţii.

10.2 Testul χ2 Testul de concordanţă χ2 (“hi-pătrat”) este un test general, care poate fi aplicat oricărei distribuţii statistice căreia putem sa îi calculăm funcţia de distribuţie cumulativă. Testul χ2 se aplică datelor grupate (sau datelor de frecvenţă). Dacă datele sunt negrupate, atunci le putem grupa cu ajutorul unei histograme. Pentru testul χ2 se aplică următorul algoritm. Algoritm pentru testul χ2 [1]: Se construieşte o histogramă cu nc clase, în care faj, j = 1,2,...,nc sunt frecvenţele absolute observate. [2]: Se calculează frecvenţele medii estimate fej:

[

]

fe j = n ⋅ F (lc j +1 ) − F (lc j ) ,

unde: ƒ n este efectivul eşantionului; ƒ F este funcţia de distribuţie cumulativă testată; ƒ lcj şi lcj+1 sunt limitele clasei j. [3]: Se calculează statistica testului

χ

2 calculat

nc

=∑ j =1

( fa

− fe j )

2

j

fe j

.

TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE

10.3

[4]: Se determină valoarea critică a testului 2 (α ; nc − c + 1) , χ critic

unde: ƒ α este nivelul (pragul) de semnificaţie al testului; ƒ c este numărul de parametri ai distribuţiei F; ƒ nc−c+1 numărul de grade de libertate ale distribuţiei χ2. [5]: Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel: ƒ Dacă 2 2 (α ; nc − c + 1) , χ calculat ≤ χ critic

atunci se acceptă ipoteza nulă, respectiv datele provin din distribuţia testată. ƒ Dacă 2 2 (α ; nc − c + 1) , χ calculat > χ critic

atunci se respinge ipoteza nulă, respectiv datele nu provin din distribuţia testată. Valorile critice ale testului χ2 pentru nivelul (pragul) de semnificaţie α = 0,05 şi un număr de 1 ÷ 10 grade de libertate sunt date în tabelul următor: α = 0,05 Grade de libertate

α = 0,05

χ2

Grade de libertate

χ2

1

3,841

6

12,592

2

5,991

7

14,067

3

7,815

8

15,507

4

9,488

9

16,919

5

11,070

10

18,307

‰ Exemplul 10.1 Să se aplice testul χ2 pentru verificarea ipotezei normalităţii pentru eşantionul de date şi tabelul de frecvenţă din Exemplul 2.9, pentru care avem media 10,632 şi abaterea standard 4,28843. Rezolvare: Aplicăm paşii algoritmului descris anterior. [1] Utilizăm tabelul de frecvenţă din Exemplul 2.9, pentru frecvenţele absolute observate. [2] Pentru frecvenţele medii estimate, standardizăm mai întâi valorile lc1=0; lc2=4,0; lc3=8,0; lc4=12,0; lc5=16,0; lc6=20,0 şi obţinem:

z1 =

0 − 10,632 0 − 10,632 = −2,48 ; z2 = = −2,48 ; 4,28843 4,28843

z3 =

8,0 − 10,632 12,0 − 10,632 = −0,61 ; z4 = = 0,32 ; 4,28843 4,28843

z5 =

16,0 − 10,632 20,0 − 10,632 = 1,25 ; z6 = = 2,18 . 4,28843 4,28843

10.4

MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ

Atunci din tabelul distribuţiei normale standardizate obţinem: fe1 = 25 ⋅ [F ( z2 ) − F ( z1 )] = 25 ⋅ [F (− 1,55) − F (− 2,48)] = = 25 ⋅ [0,0606 − 0,0066] = 25 ⋅ 0,0540 = 1,4.

fe2 = 25 ⋅ [F ( z3 ) − F ( z2 )] = 25 ⋅ [F (− 0,61) − F (− 1,55)] = = 25 ⋅ [0,2709 − 0,0606] = 25 ⋅ 0,2103 = 5,3.

fe3 = 25 ⋅ [F ( z 4 ) − F ( z3 )] = 25 ⋅ [F (0,32 ) − F (− 0,61)] = = 25 ⋅ [0,6255 − 0,2709] = 25 ⋅ 0,3546 = 8,9.

fe4 = 25 ⋅ [F (z5 ) − F ( z 4 )] = 25 ⋅ [F (1,25) − F (0,32)] = = 25 ⋅ [0,8944 − 0,6255] = 25 ⋅ 0,2689 = 6,7.

fe5 = 25 ⋅ [F ( z6 ) − F ( z5 )] = 25 ⋅ [F (2,18) − F (1,25)] = = 25 ⋅ [0,9854 − 0,8944] = 25 ⋅ 0,0910 = 2,3.

[3] Statistica testului este calculată în tabelul de frecvenţă următor: Clase

Intervale de clasă

1

0

fej

(faj – fej)2

(faj – fej)2/fej

4,0

faj 2

1,36

0,4093

0,3009

2

4,0

8,0

5

5,22

0,0473

0,0091

3

8,0

12,0

8

8,89

0,7852

0,0884

4

12,0

16,0

7

6,74

0,0685

0,0102

5

16,0

20,0

3

2,27

0,5304

0,2335

25

-

-

0,6419

Σ

Rezultă statistica calculată a testului: 2 χ calculat = 0,6419 .

[4] Pentru α = 0,05, nc = 5, c = 2 rezultă valoarea critică a testului: 2 2 (α ; nc − c + 1) = χ critic (0,05;5 − 2 + 1) = χ critic

2 (0,05;4) = 9,488. = χ critic

[5] Decizia, ţinând cont de relaţia: 2 2 (0,05; 4) = 9,488 , χ calculat = 0,6419 < χ critic

este normalitate confirmată. ‰ ‰ Exemplul 10.2 Un zar este aruncat de 600 de ori, în tabelul următor fiind înregistrate numărul de apariţii (faj, j = 1,2,...,6) ale fiecărei feţe nj a zarului: nj

1

2

3

4

5

6

faj

119

104

84

99

90

104

Să se aplice testul χ2 pentru verificarea ipotezei uniformităţii, respectiv pentru a verifica dacă zarul este “echilibrat”.

TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE

10.5

Rezolvare: Experimentul aruncării unui zar este modelat de distribuţia uniformă. Rezultă frecvenţele estimate fej = 100, j = 1,2,...,6. Statistica testului:

χ

6

=∑

2 calculat

( fa

j =1

− fe j )

2

j

fe j

,

este calculată cu ajutorul tabelului următor. nj

1

2

3

4

5

6

Total

faj

119

104

84

99

90

104

600

fej

100

100

100

100

100

100

600

faj−fej

19

4

-16

-1

-10

4

-



361

16

256

1

100

16

-

(faj fej)2/fej

3,61

0,16

2,56

0,01

1

0,16

7,50

(faj fej)2



Rezultă statistica calculată: 2 χ calculat = 7,50 .

Numărul de grade de libertate al distribuţiei χ2 este numărul de clase − 1, adică 6 – 1 = 5. 2 (0,05;5) = 11,070 şi are loc relaţia: Valoarea critică a testului, pentru α = 0,05 este χ critic 2 2 (0,05;5) = 11,070 > χ calc χ critic = 7,50 .

Rezultă decizia de acceptare a ipotezei uniformităţii, adică zarul este “echilibrat”. ‰

Testul χ2 se aplică şi pentru tabelele de contingenţă, pentru a stabili dacă există o legătură între variabilele calitative (nominale) conţinute în aceste tabele. Ipoteza nulă specifică faptul că nu există o relaţie între cele două variabile, adică H0: Cele două variabile sunt independente.

Ipoteza alternativă specifică faptul că o variabilă este influenţată de cealaltă: H1: Cele două variabile sunt dependente. Algoritmul testului χ2 pentru tabele de contingenţă p×q [1]: Se construieşte tabelul de contingenţă cu p coloane şi q linii, în care pe coloane înregistrăm valorile variabilei A, A1, A2,..., Ap, iar pe linii înregistrăm valorile variabilei B, B1, B2,..., Aq. În celulele tabelului avem frecvenţele absolute faij, i = 1,..., q, j = 1,..., p . În ultima coloană avem sumele pe linie ni, iar în ultima linie sumele pe coloană mj. [2]: Se calculează frecvenţele medii estimate feij:

feij =

ni ⋅ m j n

, i = 1, q, j = 1, p ,

unde n este totalul general al tabelului de contingenţă. [3]: Se calculează statistica testului

10.6

MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ

χ

2 calculat

q

p

= ∑∑

( fa

− feij )

2

ij

.

feij

i =1 j =1

[4]: Se determină valoarea critică a testului: 2 (α ;ν ) , χ critic

unde: ƒ α este nivelul (pragul) de semnificaţie al testului; ƒ n este numărul de grade de libertate ale distribuţiei χ2, calculat cu relaţia:

ν = ( p − 1) ⋅ (q − 1) . [5]: Decizia asupra acceptării sau respingerii ipotezei H0 se ia astfel: ƒ Dacă 2 2 (α ;ν ) , χ calculat ≤ χ critic

atunci se acceptă ipoteza nulă, respectiv cele două variabile sunt independente. ƒ Dacă 2 2 (α ;ν ) , χ calculat > χ critic

atunci se respinge ipoteza nulă, respectiv cele două variabile sunt dependente, una fiind influenţată de cealaltă. ‰ Exemplul 10.3 Un distribuitor, care primeşte un anumit produs de la doi furnizori, F1 şi F2, a înregistrat reclamaţiile primite în termen de garanţie (TG) pentru produsele livrate. Datele obţinute sunt în tabelul de contingenţă următor:

Reclamaţii în TG Fără reclamaţii în TG

Furnizor F1

Furnizor F2

500 46.250

1.500 123.750

Să se aplice testul χ2 pentru a verifica dacă reclamaţiile depind de furnizorii de produse. Rezolvare: Aplicăm paşii algoritmului descris anterior. [1]: Avem tabelul de contingenţă 2×2 următor, în care p = 2 şi q = 2, iar în celulele tabelului avem frecvenţele absolute:

Reclamaţii în TG Fără reclamaţii în TG mj

Furnizor F1

Furnizor F2

ni

500 46.250

1.500 123.750

2.000 170.000

46.750

125.250

172.000

[2]: Calculăm frecvenţele medii estimate şi obţinem valorile din tabelul următor:

fe11 =

n1 ⋅ m1 2.000 ⋅ 46.750 = = 544 , n 172.000

TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE

fe12 =

fe21 = fe22 =

n1 ⋅ m2 2.000 ⋅125.250 = = 1.456 , n 172.000

n2 ⋅ m1 170.000 ⋅ 46.750 = = 46.206 , n 172.000

n2 ⋅ m2 170.000 ⋅125.250 = = 123.794 . n 172.000

Reclamaţii în TG Fără reclamaţii în TG mj

10.7

Furnizor F1

Furnizor F2

ni

544 46.206

1.456 123.794

2.000 170.000

46.750

125.250

172.000

[3]: Calculăm statistica testului organizând datele în tabelul următor: i, j 1, 1 1, 2 2, 1 2, 2

faij 500 1.500 46.250 123.750

feij 544 1.456 46.206 123.794

(faij−feij)2/feij 3,559 1,330 0,042 0,016

Σ

172.000

172.000

4,946

2 Am obţinut χ calculat = 4,946 . [4]: Determinăm valoarea critică a testului pentru α = 0,05 şi n = (2−1)·(2−1) = 1. Rezultă:

2 2 (α ;ν ) = χ critic (0,05;1) = 3,841 . χ critic

[5]: Am obţinut: 2 2 χ calculat = 4,946 > χ critic = 3,841 ,

şi în consecinţă decidem asupra respingerii ipotezei nule şi acceptării ipotezei alternative, adică reclamaţiile depind de furnizorii de produse. ‰

10.3 Testul Henry Unul din testele de concordanţă cele mai uzuale şi mai simple pentru verificarea ipotezei normalităţii este aşa-numita “dreaptă a lui Henry”. Metoda se bazează pe “liniarizarea” valorilor eşantionului sau a valorilor distribuţiei frecvenţei relative. Testul Henry se poate aplica atât pentru date negrupate, cât şi pentru date grupate. Vom prezenta în continuare algoritmul de aplicare a testului Henry pentru date grupate. În acest scop vom utiliza gruparea datelor de frecvenţă obţinută ca urmare a construcţiei histogramei frecvenţei relative, precum şi grila de probabilitate normală standardizată prezentată în Tema 6.

10.8

MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ

Algoritm pentru testul Henry – date grupate [1]: Se determină limitele intervalelor de clasă (lcj) şi frecvenţa absolută (faj), j = 1,2,...,nc, conform algoritmului histogramei frecvenţei relative [2]: Se determină mijloacele intervalelor de clasă (mj) cu relaţia:

mj =

lc j + lc j +1 2

.

[3]: Se determină frecvenţa cumulată estimată (fcej) cu relaţiile:

fce1 = fa1 fce j +1 = fce j + fa j + fa j +1 , j = 1, K, nc − 1. [4]: Se determină frecvenţa cumulată estimată procentuală (fcej(%)) cu relaţia:

fce j

fce j (%) =

2n

⋅100(%), j = 1,K, nc .

Elementele de la paşii [1] - [4] ai algoritmului se calculează într-un tabel de frecvenţă cumulată estimată de forma: Clase

Intervale de clasă

mj

faj

fcej

fcej(%)

1

lc1

lc2

m1

fa1

fce1= fa1

fce1/2n·100

2

lc2

lc3

m2

fa2

fce2= fce1+ fa1+ fa2

fce2/2n·100

...

...

...

...

...

...

...

k

lck

lck+1

mk

fak

fcek= fcek-1+ fak-1+ fak

fcek/2n·100

...

...

...

...

...

...

...

nc

lcnc

lcnc+1

mnc

fanc

fcenc= fcenc-1+ fanc-1+ fanc

fcenc/2n·100

n

(fcenc + fanc = 2n)

-

Σ

[5]: Se reprezintă pe grila de probabilitate normală punctele de coordonate:

(m ; fce (%)), j

j

j = 1,2,..., nc .

[6]: Se trasează o dreaptă care să treacă prin (apropierea a) cât mai multe puncte. [7]: Decizia asupra ipotezei normalităţii: ƒ ƒ

Dacă toate punctele se situează în proximitatea dreptei trasate, atunci se acceptă ipoteza normalităţii; Dacă există unul sau mai multe puncte sensibil depărtate de dreapta trasată, atunci se respinge ipoteza normalităţii.

‰ Exemplul 10.4 Se consideră eşantionul de date şi tabelul de frecvenţă din Exemplul 2.9. Să se aplice testul Henry pentru verificarea ipotezei normalităţii, având în vedere forma aproximativă de “clopot” a histogramei frecvenţei relative. Rezolvare: În tabelul de frecvenţă cumulată estimată următor au fost determinate elementele de la paşii 1 – 4 ai algoritmului, calculându-se mai întâi mijloacele intervalelor de clasă. După aceea a fost calculată frecvenţa cumulată estimată a fiecărei clase, iar în final frecvenţa cumulată estimată procentuală prin împărţire la 2n şi apoi înmulţire cu 100.

TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE

Clase

Intervale de clasă

mj

faj

fcej

fcej(%)

1

0

4,0

2,0

2

2

4,0%

2

4,0

8,0

6,0

5

2+2+5=9

18,0%

3

8,0

12,0

10,0

8

9 + 5 + 8 = 22

44,0%

4

12,0

16,0

14,0

7

22 + 8 + 7 = 37

74,0%

5

16,0

20,0

18,0

3

37 + 7 + 3 = 47

94,0%

Σ

25

(47 + 3 = 50)

-

10.9

În continuare, va trebui să reprezentăm pe grila de probabilitate normală standardizată valorile pentru (mj; fcej(%)) (Figura 10.1). Pentru reprezentarea pe ordonată, va trebui să ţinem cont că grila este simetrică numai pe ordonata dreaptă, pe ordonata stângă ea având intervale de valori diferite, respectiv între două valori (linii) ale grilei fiind valori diferite de la un interval la altul. Pentru o reprezentare corectă şi proporţională va trebui să facem o interpolare între valoarea fcej(%)şi limitele între care reprezentăm această valoare.

F(z) % 99,87% 99,38% 97,72% 93,32% 84,13% 69,15% 50,00% 30,85% 15,87% 6,68% 2,28% 0,62% 0,13% mj

1

2

3

4

5

2,0

6,0

10,0

14,0

18,0

z 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 -2,5 -3,0

Decizie: Normalitate confirmată

Figura 10.1 – Dreapta lui Henry

Se observă că toate punctele reprezentate pe grilă sunt situate pe dreapta trasată. În aceste condiţii decizia testului este de normalitate confirmată, ceea ce înseamnă că acceptăm ipoteza că datele eşantionului provin dintr-o populaţie modelată de distribuţia normală. ‰

10.4 Testul Kolmogorov-Smirnov Testul Kolmogorov – Smirnov este un test de normalitate foarte răspândit,bazat pe prorietăţile matematice demonstrate de cei doi mari matematicieni ruşi. Testul Kolmogorov – Smirnov este un test util, datorită faptului că oferă posibilitatea de decizie asupra ipotezei normalităţii atât analitic, cât şi grafic. Testul utilizează date negrupate, fiind relativ dificil de aplicat fără utilizarea unui calculator electronic.

10.10

MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ

Algoritm pentru testul Kolmogorov – Smirnov – date negrupate [1]: Se calculează media şi dispersia eşantionului de date negrupate x1 , x2 ,..., xn : n

n

x=

∑x i =1

n

i

, s=

∑ (x − x) i =1

2

i

n −1

.

[2]: Se ordonează crescător valorile eşantionului de date şi se obţine eşantionul ordonat:

x(1) ≤ x( 2) ≤ ... ≤ x( n ) . [3]: Se calculează funcţia de distribuţie cumulativă empirică a eşantionului ordonat crescător:

Fn ( x) =

i , i = 1, 2,..., n . n

[4]: Se calculează statistica testului:

Dn = max Fn ( x j ) − F0 ( x j ) , unde F0(xj) este funcţia de distribuţie cumulativă normală. [5]: Decizia asupra ipotezei normalităţii se ia în funcţie de valoarea critică a testului d1−α,n (unde α este eroarea, iar 1−α nivelul de încredere al testului) astfel: ƒ

Dacă Dn ≤ d1−α ,n , atunci se acceptă ipoteza normalităţii;

ƒ

Dacă Dn > d1−α ,n , atunci se respinge ipoteza normalităţii.

[6]: Pentru reprezentarea grafică, se calculează două limite, inferioară şi superioară, astfel:

LI = F0 ( xi ) − d1−α ,n , LS = F0 ( xi ) + d1−α ,n . Decizia grafică de respingere a normalităţii se adoptă atunci când funcţia de distribuţie cumulativă empirică iese în afara limitelor inferioară şi superioară. Valorile critice aproximative ale testului Kolmogorov – Smirnov sunt date în tabelul următor, în funcţie de efectivul eşantionului n şi nivelul de încredere 1−α:

1−α

d 1−α ,n

0,80

0,85

0,90

0,95

0,99

1,07

1,14 n

1,22

1,36 n

1,63

n

n

n

‰ Exemplul 10.5 Se consideră eşantionul de date negrupate din Exemplul 2.9. Să se aplice testul Kolmogorov-Smirnov pentru verificarea ipotezei normalităţii, având în vedere forma aproximativă de “clopot” a histogramei frecvenţei relative. Rezolvare: Pentru eşantionul dat, avem media 10,632 şi abaterea standard 4,28843.

TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE

10.11

În tabelul următor sunt calculate, pe fiecare linie, pentru valorile ordonate ale eşantionului, funcţia de distribuţie cumulativă empirică şi teoretică, statistica testului şi limitele inferioară şi superioară. i

xi

x(i)

Fn(xi)

F0(xi)

|F0(xi)-Fn(xi)|

LI

LS

1

10,1

2,0

0,040

0,0221

0,0179

0,000

0,2941

2

12,2

3,5

0,080

0,0481

0,0319

0,000

0,3201

3

14,3

4,2

0,120

0,0668

0,0532

0,000

0,3388

4

6,4

5,7

0,160

0,1251

0,0349

0,000

0,3971

5

9,2

6,4

0,200

0,1619

0,0381

0,000

0,4339

6

16,6

7,5

0,240

0,2326

0,0074

0,000

0,5046

7

15,5

7,6

0,280

0,2398

0,0402

0,000

0,5118

8

11,8

8,3

0,320

0,2933

0,0267

0,021

0,5653

9

12,3

9,2

0,360

0,3692

0,0092

0,097

0,6412

10

13,2

10,1

0,400

0,4506

0,0506

0,179

0,7226

11

11,2

10,3

0,440

0,4691

0,0291

0,197

0,7411 0,7504

12

10,4

10,4

0,480

0,4784

0,0016

0,206

13

7,5

10,5

0,520

0,4877

0,0323

0,216

0,7597

14

5,7

11,2

0,560

0,5527

0,0073

0,281

0,8247

15

13,1

11,8

0,600

0,6073

0,0073

0,335

0,8793

16

18,0

12,2

0,640

0,6427

0,0027

0,371

0,9147 0,9233

17

2,0

12,3

0,680

0,6513

0,0287

0,379

18

14,9

13,1

0,720

0,7175

0,0025

0,446

0,9895

19

17,0

13,2

0,760

0,7254

0,0346

0,453

0,9974

20

3,5

14,3

0,800

0,8038

0,0038

0,532

1,0000

21

8,3

14,9

0,840

0,8402

0,0002

0,568

1,0000

22

10,3

15,5

0,880

0,8718

0,0082

0,600

1,0000

23

10,5

16,6

0,920

0,9180

0,0020

0,646

1,0000

24

7,6

17,0

0,960

0,9312

0,0288

0,659

1,0000

25

4,2

18,0

1,000

0,9571

0,0429

0,685

1,0000

Rezultă statistica testului (valoarea maximă a diferenţei dintre funcţiile de distribuţie empirică şi teoretică) Dn = 0,0532. Pentru n = 25 şi nivelul de încredere 1−α = 0,95, avem valoarea critică d1−α,n = d0,95;25 = 0,272. Atunci, conform criteriului de decizie al testului, se adoptă decizia normalitate confirmată. Reprezentarea grafică a testului este redată în Figura 10.2. Se observă că funcţia de distribuţie empirică se apropie de funcţia teoretică şi nu depăşeşte limitele critice.

1,00 0,80 Fn(xi) 0,60

F0(xi) LI LS

0,40 0,20 0,00 0,00

5,00

10,00

15,00

20,00

Figura 10.2 – Testul Kolmogorov-Smirnov

‰

10.12

MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ

10.5 Testul Grubbs Testul Grubbs este cel mai des folosit test pentru verificarea existenţei valorilor extreme (denumite şi valori aberante – în engleză outliers), respectiv a valorilor care se îndepărtează de restul populaţiei şi care nu caracterizează din punct de vedere statistic acea populaţie. Aceste valori trebuie eliminate („discardate”), pentru a nu influenţa rezultatele analizei şi ale inferenţei statistice. Algoritm pentru testul Grubbs [1]: Se ordonează crescător valorile x1 , x2 ,..., xn ale eşantionului de date şi se obţine eşantionul ordonat crescător x(1) ≤ x( 2) ≤ ... ≤ x( n ) , urmând a se decide asupra eliminării

eventuale a valorilor xmax = x( n ) ca valoare extremă maximă, respectiv xmin = x(1) ca valoare extremă minimă. [2]: Se calculează media şi abaterea standard ale eşantionului de date: n

n

x=

∑ xi i =1

n

, s=

∑ (x − x)

2

i

i =1

.

n −1

[3]: Se calculează statistica testului:

v=

x( n ) − x s

, v′ =

x − x(1) s

.

[4]: Decizia de păstrare/îndepărtare a valorii xmax = x( n ) (sau xmin = x(1) ) ca valoare extremă

(aberantă) maximă (sau minimă) se ia astfel: ƒ

Dacă v > ξ j (n;1 − α ) (sau v′ > ξ j (n;1 − α ) ), atunci xmax = x( n ) (sau xmin = x(1) ) se elimină ca fiind valoare extremă (aberantă) maximă (sau minimă)

ƒ

Dacă v ≤ ξ j (n;1 − α ) (sau v′ ≤ ξ j (n;1 − α ) ), atunci xmax = x( n ) (sau xmin = x(1) ) se păstrează.

Valorile critice ale testului Grubbs ξ j (n;1 − α ) în funcţie de efectivul eşantionului n şi nivelul de încredere 1−α sunt date în tabelul următor. 1−α n

0,900

0,950

0,975

0,990

0,995

1,000

15

2,25

2,41

2,55

2,71

2,81

3,00

25

2,49

2,66

2,82

3,01

3,14

3,39

50

2,77

2,96

3,13

3,34

3,48

3,79

100

3,02

3,21

3,38

3,60

3,75

4,08

‰ Exemplul 10.6 Să se aplice testul Grubbs pentru eliminarea valorilor aberante pentru eşantionul de 25 de valori din Exemplul 2.9. Rezolvare: Aplicăm paşii algoritmului.

TEMA 10 – VERIFICAREA IPOTEZELOR STATISTICE

10.13

[1]: Ordonăm crescător eşantionul. Obţinem:

xmax = x( 25) = 18,0 , xmin = x(1) = 2,0 . [2]: Pentru eşantionul dat, avem media x = 10,632 şi abaterea standard s = 4,28843. [3]: Se calculează statisticile testului. Obţinem: v=

x( 25) − x

v′ =

s x − x(1) s

=

18,0 − 10,632 = 1,7181 , 4,28843

=

10,632 − 2,0 = 2,0129 . 4,28843

[4]: Pentru n = 25 şi nivelul de încredere 1 – α = 0,95 rezultă din tabelul valorilor critice:

v = 1,7181 < ξ j (n;1 − α ) = ξ j (25;0,95) = 2,66 , v′ = 2,0129 < ξ j (n;1 − α ) = ξ j (25;0,95) = 2,66 , ceea ce ne duce la concluzia că nu există valori extreme maxime (sau minime) care să fie eliminate.

10.6 Concepte cheie

ƒ ƒ ƒ ƒ ƒ ƒ

Test de concordanţă Statistica testului Valoare critică Nivel (prag) de semnificaţie Nivel de încredere Frecvenţă cumulată estimată

ƒ ƒ ƒ ƒ ƒ ƒ

Testul χ2 Testul Henry Deapta lui Henry Testul Kolmogorov -Smirnov Valoare extremă (aberantă) Testul Grubbs

10.14

MODULUL 3 – METODE DE INFERENŢĂ STATISTICĂ