Cours Echantillonnage Et Estimation S3 [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Probablit´ es et Statistiques Ann´ee Universitaire

2020-2021

************** Polycopi´ e du cours par Raby GUERBAZ

**************

Chapitre 1 Loi Normale et applications 1.1

Loi Normale (ou de Laplace-Gauss)

D´ efinition 1. Une variable al´eatoire est dite Normale (ou parfois normalement distribu´ee) de param`etres µ et σ si sa densit´e est donn´ee par : 2 1 (x−µ) 1 f (x) = √ e− 2 σ2 , ∀ x ∈ R. 2πσ

La loi Normale est not´ee N (µ, σ) ; Si X suit une loi N (µ, σ) alors E(X) = µ et V ar(X) = σ 2 . Le graphe de la densit´e d’une loi Normale est une courbe en cloche ( voir la figure qui suit). La courbe de f est sym´etrique par rapport a` l’axe x = µ.

1.1.1

Loi Normale centr´ ee r´ eduite

D´ efinition 2. Une variable al´eatoire est dite centr´ee et r´eduite si sa moyenne est nulle est sa variance est 1. C `a d X ∼ N (0, 1). L’usage s’est ´etabli de noter la fonction de r´epartition d’une variable normale centr´ee r´eduite par le symbole Φ. En clair Z a Φ(a) = P(X ≤ a) = f (x)dx. −∞

Remarque : Comme la loi Normale est continue alors, Φ(a) = P(X ≤ a) = P(X < a). Calclul de probabilit´ e pour la loi N(0,1) Proposition 3. Soit X une variable al´eatoire de loi normale N (0, 1), alors P(a ≤ X ≤ b) = Φ(b) − Φ(a). 1

Pr. Raby Guerbaz

Universit´e Hassan II

Figure 1.1 – Courbe de la densit´e de la loi Normale

Figure 1.2 – Densit´e de la loi Normale N(0,1)

2

Pr. Raby Guerbaz

Universit´e Hassan II

Figure 1.3 – Fonction de r´epartition de la loi Normale

Figure 1.4 – P(Z < −1) = φ(−1) est l’aire sous la courbe de f Ceci est vrai pour les in´egalit´es strictes ( < au lieu ≤) car la loi N(0,1) est continue. La fonction de r´epartition de la loi normale est d´eficile `a exploit´e sous sa forme int´egral, par suite on fait recourt a` l’utilisation des tables statistiques. Remarque : φ(a) = P(Z < a) est l’aire comprit entre la courbe de la densit´e f de Z, l’axe des absisses et la droite v´erticale x = a. Propri´ et´ es : – La loi normale N (0, 1) est sym´etrique autour de 0. C a` d φ(−a) = 1 − φ(a) – Soit X de loi normale N (µ, σ), alors le mode=mediane = moyenne=µ. – 95% des valeurs de la loi normale N (0, 1) sont concentr´ees dans l’intervalle [µ − 3σ, µ + 3σ]. 3

Pr. Raby Guerbaz

Universit´e Hassan II

Calcul de probabilit´ e pour la loi N (µ, σ). Proposition 4. Si X est une variable al´eatoire Normale N (µ, σ) alors la variable Z = X−µ suit une loi Normale N (0, 1). σ Par cons´equent, on peut exprimer la fonction de r´epartition de X de la mani`ere suivante : FX (a) = P(X ≤ a) a−µ X −µ )≤ ) = P( σ σ a−µ = Φ( ) σ Application : Soit X une variable al´eatoire de loi N (3, 2). Pour calculer la probabilit´e P(3 ≤ X ≤ 7), on proc`ede comme suit : Soit Z la variable al´eatoire Z = X−3 . Comme 2 X ∼ N (µ, σ) alors par la proposition pr´ec´edente Z ∼ N (0, 1). En plus X −3 7−3 3−3 ≤ ≤ ) 2 2 2 = P(0 ≤ Z ≤ 2)

P(3 ≤ X ≤ 7) = P(

= φ(2) − φ(0). On utilise maintenant la table de la loi centr´ee et r´eduite qui donne les valeurs de φ. Th´ eor` eme central limite On a vu dans le chapitre pr´ec´edent que les lois discr`etes tendent les une vers les autres sous certaines conditions de type la taille de la population est grande. Proposition 5. Soient X1 , ..., Xn des variables al´eatoires ( discr`etes ou continues) ind´ependantes, de mˆeme loi, d’esp´erance µ et de variance σ. Alors lorsque la taille de l’´echantillon n devient grande X1 + X2 + ... + Xn − nµ √ suit approximativement une loi N (0, 1). σ n Application 1 : Approximation normale de la loi Binomiale : Soit X une variable al´eatoire de loi Binomiale B(n, p), alors si n ≥ 18 la loi de X peut ˆetre approch´ee par une loi Normale de la mani`ere suivante X − np p suit une loi normale N (0, 1) np(1 − p) p on peut aussi ´ecrire X ∼ N (np, np(1 − p)).

4

Pr. Raby Guerbaz

Universit´e Hassan II

Application 2 : Approximation normale de la loi de Poisson : Soit X une variable al´eatoire de loi de Poisson P(λ), alors si λ ≥ 30 la loi de X peut ˆetre approch´ee par une loi Normale de la mani`ere suivante X −λ √ suit une loi normale N (0, 1) λ √ on peut aussi ´ecrire X ∼ N (λ, λ).

1.2

Lois issues de la loi Normale

1.2.1

Loi Khi-deux ` a n degr´ e de libert´ e χ2(n)

Cette loi joue un rˆole important dans la th´eorie des tests statistiques. La loi Khi-deux est obtenue en additions des carr´ees de variables al´eatoires Gaussiennes, alors elle ne prend que des valeurs positives. D´ efinition 6. Soient X1 , ..., Xn n variables al´eatoires ind´ependantes de loi normale N (0, 1). Alors X12 + X22 + X32 + ... + Xn2 suit une loi Khi-deux de n degr´es de libert´e. Cette loi est not´ee χ2(n) , et elle poss`ede la fonction de densit´e suivante f (x) = Cn xn/2−1 e−x/2 , R ou Cn est telle que R f (x)dx = 1. Propri´ et´ es : 1. Si n > 2, alors le mode de la loi χ2(n) est ´egal a` n − 2. 2. E(X) = n et V ar(X) = 2n. 3. Additivit´ es : Soient X1 ∼ χ2(n1 ) ,...,Xk ∼ χ2(nk ) k variables al´eatoires ind´ependantes, alors X = X1 + X2 + ... + Xk suit une χ2(n) de degr´e de lib´ert´e n = n1 + n2 + ... + nk . Proposition 7. Soit X une variable al´eatoire de loi χ2(n) , alors, quand n devient grand (n → +∞), X −n √ −→ N (0, 1), 2n 5

Pr. Raby Guerbaz

Universit´e Hassan II

ou bien X ≈ N (n,



2n).

(en pratique l’approximation est satisfaisante quand n > 30)

1.2.2

Loi de Student ` a n degr´ e de libert´ e T (n)

Cette loi joue un rˆole important dans l’estimation par intervalle de confiance. Elle est sym´etrique, de moyenne nulle et d´epend d’un seul param`etre n appel´e nombre de degr´es de libert´e. L’aspect de la courbe variera selon le nombre de degr´es de libert´e n (de fa¸con g´en´erale, elle est plus aplatie que N (0, 1) et quand n augmente (n > 30) les 2 courbes se confondent) D´ efinition 8. Soit X ∼ N (0, 1) et Y ∼ χ2(n) , alors la variable X , T =p Y /n suit une loi dite de Student, not´ee tn , de fonction densit´e t2 − n+1 ftn (x) = cn (1 + ) 2 , n o` u cn est telle que

R R

ftn (x)dx = 1.

Propri´ et´ es : 1. Si X suit une loi de Student tn . Alors E(X) = 0 si n > 1. 2. V ar(X) =

n , n−2

si n > 2

Proposition 9. Soit X une variable al´eatoire de loi tn , alors, quand n devient grand (n → +∞), X −→ N (0, 1), (en pratique l’approximation est satisfaisante quand n > 30)

1.2.3

La loi de Fischer-Snedecor (F (n1 , n2 ))

D´ efinition 10. Soient Y1 ∼ χ2(n1 ) et Y2 ∼ χ2(n2 ) deux variables al´eatoires ind´ependantes. Alors Y1 /n1 F = , Y2 /n2 suit une loi de Fischer-Snedecor not´ee F (n1 , n2 ), de fonction de densit´e fF (n1 ,n2 ) (x) = cn1 ,n2 tn1 /2−1 (n1 t + n2 )(n1 +n2 )/2 , t > 0. Les param`etres n1 et n2 de loi F (n1 , n2 ) sont appel´e aussi degr´es de libert´e. 6

Pr. Raby Guerbaz

Universit´e Hassan II

Propri´ et´ es : Si X suit une loi de Fischer-Snedecor, alors 1. E(X) =

n1 , n2 −2

2. V ar(X) =

si n2 > 2.

2n22 (n1 +n2 −2) , n1 (n2 −2)2 (n2 −4)

si n > 4

7

Chapitre 2 Echantillonnage et Estimation : 2.1 2.1.1

Techniques d’´ echantillonnage Echantillonnage non al´ eatoire

Ces m´ethodes sont beaucoup moins coˆ uteuses, plus rapides et plus simples. Il est par contre, peu recommand´e de g´en´eraliser les r´esultats provenant de ces m´ethodes `a l’ensemble de la population, puisque toutes les unit´es statistiques n’ont pas la mˆeme chance d’ˆetre choisi ce qui influence la repr´esentativit´e de l’´echantillon. Exemples de m´ethodes d’´echantillonnage non al´eatoire : L’ ´ echantillonnage ` a l’aveuglette est une technique simple et peu coˆ uteuse. Cet ´echantillonnage n’est pas normalement repr´esentatif de la population cible, parce qu’on ne s´electionne des unit´es d’´echantillonnage dans son cas que si on peut y avoir facilement et commod´ement acc`es. Les reporters des stations de t´el´evision sont, en outre, souvent a` la recherche de soi-disant  interviews de gens de la rue  pour d´eterminer comment la population per¸coit un enjeu ou une question. Au volentariat C’est une des m´ethodes les plus utilis´ees actuellement sur le march´e des m´edicaments. Les compagnies pharmaceutiques sont les pionni`eres en la mati`ere. Les unit´es statistiques d´ecident de faire partie de l’´etude de leur propre gr´e.

2.1.2

Echantillonnage al´ eatoire

Pour qu’un ´echantillon soit repr´esentatif de la population, il faut que chaque individus de la population ait la mˆeme chance d’ˆetre choisit dans cet ´echantillon. On dit que dans 8

Pr. Raby Guerbaz

Universit´e Hassan II

Figure 2.1 – Echantillonnage al´eatoire ce cas on a un ´echantillonnage al´eatoire. D´ efinition 11. Une base de sondage est une liste des individus `a partir de laquelle on pr´el`eve un ´echantillon. Cette liste d´etermine la population observ´ee. L’annuaire t´el´ephonique est un bon exemple de base de sondage. D´ efinition 12. Un ´echantillonnage est dit non exhaustif si tout ´el´ement extrait de la population, pour effectuer l’´echantillonnage, est remis dans cette population apr`es avoir relev´e de ses caract´eristiques. Sinon l’´echantillonnage est exhaustif. Remarque 2.1.1. Notez qu’en pratique, il est plus courant de pr´elever un ´echantillon sans remise mais dans la plupart des applications, on a affaire `a de tr`es grandes populations. En pareil cas, la probabilit´e que la mˆeme unit´e statistique soit s´electionn´ee plus d’une fois est tr`es faible. Il n’y aura alors pratiquement plus de diff´erence entre les deux m´ethodes On distingue g´en´eralement quatre techniques d’´echantillonnage al´eatoire diff´erentes. Nous verrons pour chacune d’entre elles la proc´edure `a employer afin de constituer un ´echantillon repr´esentatif. Echantillonnage al´ eatoire simple Il consiste simplement a` choisir des individus au hasard parmi ceux de la base de sondage. Les ´etapes sont les suivantes 1. Num´eroter les unit´es statistiques de 1 `a N. 2. Tirer au hasard des unit´es statistiques de la population qui feront partie de l’´echantillon.

9

Pr. Raby Guerbaz

Universit´e Hassan II

Echantillonnage syst´ ematique C’ est une technique o` u les unit´es statistiques sont choisis a` intervalle r´egulier dans la base de sondage. 1. Num´eroter les unit´es statistiques de 1 `a N. 2. Calculer l’intervalle de s´election que l’on appelle aussi le pas de sondage. On le calcule en divisant la taille totale de la population obs´erv´ee par la taille de l’´echantillon recherch´ee k = Nn . 3. Tirer au hasard une unit´e statistique entre la premi`ere et la k ime unit´e. Par exemple la ieme unit´e avec 1 ≤ i ≤ k. 4. Pour compl`eter l’´echantillon, on choisit la (i+k)ime unit´e, et la (i+2k)ime .....jusqu’a (i + (n − 1)k)ime . On constitut ainsi un ´echantillon de taille (n-1+1=n) unit´es. Echantillonnage par grappe Il consiste a` choisir des groupes (toute une grappe de raisin) plutˆot que de choisir des unit´es statistiques isol´ees (un seul raisin). D´ efinition 13. Une grappe est un sous-ensemble non homog`enes de la population d´efini selon la proximit´e. Il est plus facile de faire une liste des groupes et de choisir au hasard parmi ces dizaines de groupes et d’interroger toutes les unit´es statistiques du groupe. Par exemple : un groupe d’´el`eves faisant partie de la mˆeme classe, des habitants du mˆeme immeuble, des habitants du mˆeme quartier ou mˆeme des ´equipes sportives d’une ligne amateur. Cette m´ethode permet de sauver beaucoup de temps en d´eplacement. 1. Diviser la population en grappes. 2. Dresser la liste la plus compl`ete possible (base de sondage) des unit´es statistiques formant chacune des grappes. 3. Choisir de fa¸con al´eatoire simple un certain nombre de grappes. 4. L’´echantillon sera alors compos´e de toutes les unit´es statistiques appartenant aux grappes choisies Echantillonnage statifi´ e On segmente la population en des groupes distincts selon un crit`ere ( Caract`ere qualitatif ou quantitatif : le sexe, l’ˆage, l’ethnie, chiffre d’affaire, secteur d’activit´e .... ) li´e a` la nature et aux objetifs de l’´etude. Ces diff´erents groupes sont appel´es des strates. 10

Pr. Raby Guerbaz

Universit´e Hassan II

D´ efinition 14. Les startes sont des sous-ensembles de la population ayant des caract´eristiques communes. Donc ce sont des groupes homog`enes. Par exemple, on peut classer des individus par leurs ˆages , regrouper des produits par leur types, des ´etudiants par diplˆome pr´epar´e, des entreprises pas secteur d’activit´e. 1. Diviser la population en strates. 2. Dresser la liste la plus compl`ete possible (base de sondage) constituant chacune des strates. 3. Pour chaque strate, choisir de fa¸con al´eatoire simple un nombre d’unit´es statistiques pour constituer l’´echantillon de telle sorte que le pourcentage d’unit´es dans chacune des strates de l’´echantillon soit le plus pr`es possible du pourcentage d’unit´es dans chacune des strates de la population.

2.2

Distributions d’´ echantillonnage

L’objectif de cette partie est de r´epondre a` la probl´ematique suivante : comment, a` partir d’informations ( moyenne-´ecart-type ou proportion) connues sur une population, peut-on pr´evoir celles d’un ´echantillon ?

2.2.1

Mod` elisation d’´ echantillonnage al´ eatoire simple

Dans la suite du chapitre, on traite le cas de l’´echantillonnage al´eatoire simple, car les concepts fondamentaux et les formules importantes d´ecoulent de cette m´ethode. Ce type d’´echantillonnage consiste a` extraire un ´echantillon de taille n dans une population de taille N par des tirages al´eatoires ´equiprobables et ind´ependants (tirages avec remise). On introduit le mod`ele suivant : Soit Ω = {w1 , ..., wN } la population constitu´ee d’´el´ements appel´es unit´es d’observation. Soit X le caract`ere que l’on voudrait ´etudier sur l’ensemble de cette population. Xk , le r´esultat al´eatoire du k i`em tirage, est une v.a qui suit la mˆeme loi que X. On note xk le r´esultat du k i`em tirage. On note (X1 , ..., Xn ) les r´esultats al´eatoires de ces tirages. D´ efinition 15. X1 , ..., Xn sont n v.a. ind´ependantes et de mˆeme loi (celle de X) ; il est appel´e n-´echantillon ou ´echantillon de taille n de X. Apr`es tirage au sort, (X1 , ..., Xn ) prend les valeurs (x1 , ..., xn ). La r´ealisation unique (x1 , ..., xn ) de l’´echantillon (X1 , ..., Xn ) est l’ensemble des valeurs observ´ees.

11

Pr. Raby Guerbaz

Universit´e Hassan II

D´ efinition 16. Une statistique Y sur un ´echantillon (X1 , ..., Xn ) est une v.a., fonction mesurable des Xk ; Y = f (X1 , ..., Xn ). Apr`es r´ealisation, la v.a. Y (statistique) prend la valeur f (x1 , ..., xn ). La principale statistique connue est la moyenne de l’´echantillon, Pn Xi X = i=1 . n Cette moyenne est appel´ee moyenne empirique. Sa r´ealisation sur un ´echantillon particulier lors d’une ´etude statistique est appel´ee moyenne observ´ee. Remarque 2.2.1. La moyenne empirique est une variable al´eatoire qui prend des valeurs diff´erentes sur chaque ´echantillon. Ces valeurs sont dites : moyennes observ´ ees.

2.2.2

Distribution d’´ echantillonnage d’une moyenne

Propri´ et´ es : Soit X le caract`ere quantitatif que l’on voudrait ´etudier sur l’ensemble de cette population. Si E(X) = µ ( la moyenne de X est µ), et V ar(X) = σ 2 , alors – E(X) = µ, ( la moyenne de la moyenne empirique X est exactement celle de la population. 2 – V ar(X) = σn , si la taille de la population est tr`es grande (cas non exhaustif) Proposition 17. La distribution d’´echantillonnage de la moyenne est donn´ee par – Si X suit une loi normale N (µ, σ), alors X ∼ N (µ, √σn ). – Si n ≥ 30, par le th´eor`eme central limite, X suit approximativement une N (µ, √σn ). Exemple : 1) La taille des marocains suit une loi normale N (1, 6; 0, 2). Alors la taille 0,2 moyenne de 8 personnes prise au hasard X suit une loi normale N (1, 6; √ ). 8 2) Dans une entreprise A, les salaires sont distribu´es suivant une loi inconnue de moyenne 10000 et d’´ecart type 1200 DH. Alors la moyenne des salaires de 150 salari´es pris au hasard suit une loi normale N (10000, √1200 ). 150

2.2.3

Distribution d’´ echantillonnage d’une proportion

Soit une population comportant deux modalit´es A et B. Soit p la proportion d’individus de la population poss´edant la modalit´e A. 1 − p est donc la proportion des individus de la population poss´edant la modalit´e B. On extrait de la population un ´echantillon de taille n. Soit Kn la v.a qui repr´esente le nombre d’individus dans l’´echantillon ayant la modalit´e A. 12

Pr. Raby Guerbaz

Universit´e Hassan II

D´ efinition 18. La variable al´eatoire pb = Knn s’appelle la fr´equence empirique. Sa r´ealisation f est la proportion d’individus dans l’´echantillon ayant la modalit´e A. Proposition 19. La distribution d’´echantillonnage de la proportion est d´et´ermin´ee comme suit – Si n ≥ 30, np ≥ 5, et n(1 − p) ≥ 5, alors par le th´eor`eme central limite r p(1 − p) ). pb ∼ N (p, n – Sinon ( le cas ou n < 30), la variable Kn suit une loi binomiale B(n, p), et les calculs pour pb Exemple : On suppose que la distribution des salaires dans une entreprise est telle que 20 % touchent moins que 2000 DH. On tire un ´echantillon de 1000 salari´es, alors par le th´eor`eme central limite ( comme n > 30, np > 5, et n(1 − p) > 5) la proportion pb des salari´ q es parmi les 1000 qui touchent moins que 2000 DH suit une loi Normale ). N (0, 2, 0,2×0,8 1000

2.2.4

Distribution d’´ echantillonnage d’une variance

On d´efinit la variable al´eatoire n

S2 =

1X (Xi − X)2 , n i=1

Cette statistique d´esigne la variance dans l’´echantillon. On remarque que n

E(S 2 ) = E

1X (Xi − X)2 n i=1

!

n

1 X 2 = E X − E(X)2 n i=1 i n

=

1X E(Xi2 ) − E(X)2 n i=1

On utilise le fait que E(Xi2 ) = V ar(Xi ) + (E(Xi ))2 , et E(X)2 = V ar(X) + (E(X))2 , On obtient E(Xi2 ) = σ 2 + µ2 , et E(X)2 = 13

σ2 + µ2 , n

Pr. Raby Guerbaz

Universit´e Hassan II

On remplace en haut, 1 σ2 n(σ 2 + µ2 ) − ( + µ2 ) n n 1 2 = (1 − )σ . n

E(S 2 ) =

Comme 1 − n1 < 1 ; alors E(S 2 ) < σ 2 . Interpr´ etation : En moyenne, la variance dans l’´echantillon est plus faible que dans la population-m`ere. 2

Proposition 20. Si le caract`ere X `a ´etudier suit une loi normale N (µ, σ) alors n Sσ2 suit une loi de khi-deux `a (n-1) degr´es de libert´e, not´ee χ2(n−1) . 2

Attention, si X n’est pas normale, il n’est pas du tout sˆ ur que n Sσ2 suive, mˆeme approximativement, une loi du khi-deux. Nous n’avons pas ici l’analogue du th´eor`eme central limite.

2.2.5

Cas exhaustif ( Taille de la population connue :

Dans le cas exhausutif, l’echantillon est obtenu par un tirage sans remise dans une population de taille N finie et connue. On peut ´etablire des formules analogues aux cas non exhaustif : σ2 N − n E(X) = µ et V ar(X) = × . n N −1 N −n Le facteur appel´ e facteur d’exhaustivit´ e est inf´erieur a` 1. Alors la variance N −1 σ2 N − n σ2 dans le cas exhaustif × est plus faible que celle dans le cas non exhaustif . n N −1 n Interpr´ etation : Le fait que la taille de la population est petite et le tirage est effectu´e sans remise rend les r´esultats plus pr´ecis car la variance est plus petite.

2.3

Estimation ponctuelle

Nous nous int´eresserons dans la suite `a l’estimation des principales caract´eristiques (ou param`etres) d’un caract`ere dans une population, a` savoir la moyenne, la variance et la fr´equence, a` partir des valeurs calcul´ees sur les ´echantillons. Cependant un mˆeme param`etre peut ˆetre estim´e de diff´erentes mani`eres. Par exemple on sait que pour une variable al´eatoire de Poisson, la moyenne est λ et la variance est λ. Donc on peut estimer le param`etre λ, en utilisant la moyenne ou la variance dans 14

Pr. Raby Guerbaz

Universit´e Hassan II

l’´echnatillon. Une question naturelle se pose : Quelle est l’estimation la plus bonne ? Et bonne dans quel sense ? Les param`etres a` estimer seront not´es les par des lettres grecques minuscules – µ pour la moyenne de la population. – σ pour l’´ecart type de la population. – σ 2 pour la variance de la population. – p pour la proportion dans la population. Les estimateurs ( v.a. ou statistiques) seront not´es par des majuscules – X pour la moyenne empirique. – S 2 pour la variance de la population. – pb pour la proportion empirique. Les r´ealisations d’´echantillon seront not´ees par des lettres latines minuscules – x pour la moyenne de l’´echantillon. – s pour l’´ecart type de l’´echantillon. – σ 2 pour la variance de l’´echantillon. – f pour la proportion dans l’´echantillon. D´ efinition 21. Un estimaeur T = f (X1 , ..., Xn ) d’un param`etre θ est une statistique, et sa r´ealisation f (x1 , ..., xn ) sera appel´ee estimation ponctuelle de θ. D´ efinition 22. On appelle erreur d’estimation la diference entre l’etimateur et le param`etre : Erreur = T − θ. Cette Erreur peut ˆetre d´ecomposer de la fa¸con suivante : fluctuation autour de la moyenne z }| { T −θ = T − E(T ) + E(T ) − θ | {z } Biais 1. Le terme T − E(T ) traduit la fluctuation de T autour de son esp´erance. 2. Le terme E(T ) − θ = B(T ) repr´esente l’erreur syst´ematique et s’appelle BIAIS de l’ESTIMATEUR D´ efinition 23. 1. Si le biais B(T ) est nul ( E(T ) = θ), alors on dit que T est un estimateur sans biais. 2. Si le biais B(T ) est positif, ( E(T ) > θ), alors l’estimateur surestime la valeur du param`etre. 3. Si le biais B(T ) est n´ egatif, ( E(T ) < θ), alors l’estimateur sousestime la valeur du param`etre.

15

Pr. Raby Guerbaz

Universit´e Hassan II

Exemple : Soit X une variable al´eatoire qui suit une loi de Poisson de param`etre λ, alors E(X) = V ar(X) = λ. On d´esire estimer λ, on tire un ´echantillon (X1 , X2 , ..., Xn ) de taille n de mˆeme loi que X. 1. Nous avons E(X) = E(X) = λ, alors la moyenne empirique X est un estimateur sans biais du param`etre λ d’une loi de Poisson. 2. Cependant E(S 2 ) = (n−1) V ar(X) = (n−1) λ < λ. Par suite la variance empirique S 2 n n est estimateur biais´e du mˆeme param`etre. Le biais est n´egatif (B(S 2 ) = − n1 ,) alors l’estimateur sousestime la valeur du param`etre.

2.3.1

Estimation ponctuelle d’une moyenne

Soit X une caract`ere ( une variable al´eatoire) dont on veut estimer la moyenne µ a` partir d’un ´echantillon (X1 , ..., Xn ) de mˆeme loi que X. La loi de X est inconnue. Th´ eor` eme 24. La moyenne empirique X = cace de la moyenne µ.

X1 + X2 + ... + Xn est un estimateur effin

En effet, l’etimateur X est sans biais car E(X) = µ. De plus il est convergeant car V ar(X) V ar(X) = → 0, quand n tend vers l’infinit. n On peut montrer qu’il est de variance minimale.

2.3.2

Estimation ponctuelle d’une variance

Soit X une vairable al´eatoire qui suit une loi normale N (µ, σ). On veut estimer la variance de X. Deux cas de figure se pr´esentent : La moyenne µ de la population est connue : Si la moyenne de la population est connue alors n

1X Proposition 25. La statistique T = (Xi − µ)2 est un estimateur efficace de la n j=1 2

variance σ 2 .

16

Pr. Raby Guerbaz

Universit´e Hassan II

En effet, T 2 est un estimateur sans biais, car n 1 X E(T ) = E (Xi − µ)2 n j=1 2

n

1X = E(Xi − µ)2 , n j=1 =

avec E(Xi ) = µ,

σ 2 + ... + σ 2 = σ2 n

On rappel que V ar(Xi ) = E(Xi − µ)2 = σ 2

On peut aussi montrer que l’estimateur est convergeant et de variance minimale. (Ceci reste en dehors du cadre de ce cours) La moyenne µ est inconnue : Si la moyenne de la population est inconnue alors n

1X (Xi − X)2 est un estimateur biais´e de la Proposition 26. La statistique Se2 = n j=1 variance σ 2 . En effet, n

E(Se2 ) =

n−1 2 1X σ . E(Xi − X)2 = n j=1 n

Alors pour corriger le biais on prend l’estimateur S2 = On remarque que E(S 2 ) =

n e2 S . n−1

n n−1 2 n E(S 2 ) = σ = σ2. n−1 n−1 n

Proposition 27. La statistique ( la variance corrig´ee ) n

S´2 =

n 1 X S2 = (Xi − X)2 n−1 n − 1 j=1

est un estimateur de la variance σ 2 qui est sans biais et convergeant.

2.3.3

Estimation ponctuelle d’une proportion

Soit une population ayant des individus poss´edant une certaine caract´eristique A. On veut estimer a` partir d’un ´echantillon de taille n la proportion d’individus poss´edant cette caract´eristique A. Soit K la v.a qui repr´esente le nombre d’individus dans l’´echantillon poss´edant la caract´eristique A. 17

Pr. Raby Guerbaz

Universit´e Hassan II

Proposition 28. La fr´equence empirique pb =

K n

est l’estimateur efficace de p.

En effet, pb = Kn est un estimateur sans biais car, comme X1 , X2 , ..., Xn sont des variables de Bernoulli, alors E(X1 ) + E(X2 ) + ... + E(Xn ) n p + p + ... + p = n n×p = = p. n En plus pb est un estimateur convergeant, car E(b p) =

V ar(X1 ) + V ar(X2 ) + ... + V ar(Xn ) n2 p(1 − p) + p(1 − p) + ... + p(1 − p) = n2 p(1 − p) . = n alors V ar(b p) −→ 0, quand n → +∞. Exemple d’application : On s’interesse `a la proportion p des ´etudiants ayant un Baccalaur´eat Sciences-´economiques inscrit en S4 a` la FSJES A¨ın Sebaˆa. On a pr´elev´e ind´ependamment deux ´echantillons de tailles n1 = 120 et n2 = 150. On constate que 48 ´etudiants du premier ´echantillon et 66 du second ont une un bac Sciences ´economiques. Calculer 3 estimations ponctuelles de p. Solution : Une premi`ere estimation utilise le premier ´echantillon de taille 120. Comme 48 ´etudiants parmi les 120 sont scientifiques, alors une premi`ere estimation ponctuelle de la 48 proportion est f1 = 120 = 0, 4. La deuxi`eme estimation est calcul´ee a` partir du deuxi`eme 66 ´echantillon f2 = 150 =. Maintenant, en regroupant les deux ´echantillons, on construit un ´echantillon de taille 270. Sur cet ´echantillon on trouve 114 ´etudiants Scientifiques, alors 48+66 la fr´equence des scientifiques dans l’´echantillon global est f3 = 120+150 = 114 . 270 V ar(b p) =

2.4

Estimation par intervalle de confiance

L’estimation d’un param`etre inconnu par une seule valeur est quelque fois insuffisante, on prefere souvent donner un intervalle de valeurs. On cherche des intervalles dit ”intervalle de confiance” qui, generalement, a 95% ou 99% des cas, contiennent la moyenne µ inconnue ou le pourcentage p d’une certaine propri´et´e que poss`ede la population. D´ efinition 29. Soit X une v.a. dont la loi d´epend d’un param`etre inconnu θ ; on appelle INTERVALLE DE CONFIANCE pour un de niveau 1 − α (ou de seuil α), un intervalle qui a la probabilit´e 1 − α de contenir la vraie valeur de θ. 18

Pr. Raby Guerbaz

Universit´e Hassan II

Dire qu’on aie sur `a 95 % que la dur´ee moyenne d’attente des clients dans une grande distribution est entre 1 minute et 3 minutes, revient `a dire que [1 ; 3] est un intervalle de confiance pour la dur´ee moyenne d’attente avec un niveau de confiance de 95 %. Autrement dit, P(1 < µ < 3) = 0, 95). Comment construire un intervalle de confiance ? Remarque 2.4.1. Plus le niveau de confiance est ´elev´e, plus la certitude est grande que la m´ethode d’estimation produira une estimation contenant la vraie valeur de θ). – Les niveaux de confiance les plus utilis´es sont 90%, 95% et 99%. – α est appel´e le seuil ou le risque, et 1 − α est le niveau de confiance.

2.4.1

Intervalle de confiance pour une moyenne

Nous avons vu que la moyenne X d’un ´echantillon al´eatoire permet d’estimer la vraie moyenne de la population. Nous voudrions estimer ´egalement la pr´ecision de cette moyenne, c’est-`a-dire donner une marge d’erreur ou un intervalle de confiance Si la taille de l’´ echantillon est petite n < 30 Il faut que le caract`ere quantitatif X ´etudi´e ( Salaire, loyer, PIB,...) suit une loi normale N (µ, σ). On distingue de cas : a) L’´ ecart type σ est connu : On se fixe le risque α et on cherche dans la table de la loi normale la valeur u1−α , telle que   X −µ √ ≤ u1− α2 = 1 − α, P −u1− α2 ≤ σ/ n Ceci est ´equivalent a`   σ σ α α P X − u1− 2 √ ≤ µ ≤ X + u1− 2 √ = 1 − α, n n u1− α2 est le fractile d’ordre 1 − α2 de la loi normale centr´ee r´eduite. R´ esultat : Si x est une r´ealisation de X, l’intervalle de confiance de la moyenne µ de seuil 1 − α est   σ σ IC = x − u1− α2 √ ≤ µ ≤ x + u1− α2 √ n n b) L’´ ecart type σ est inconnu : Si l’´ecart type σ est inconnu, alors on l’estime par celui de l’´echantillon corrig´ e not´e s. Mais dans ce cas on a recours a` une nouvelle loi de probabilit´e : La loi de Student. 19

Pr. Raby Guerbaz

Universit´e Hassan II

Figure 2.2 – Echantillonnage al´eatoire Th´ eor` eme 30. Dans le cas d’un ´echantillon Gaussien, X −µ √S n

suit une loi de Student de degr´e de lib´ert´e n − 1 En appelant tn−1 le fractile d’ordre 1 − α2 , on peut ´ecrire ! X −µ P −tn−1 ≤ S ≤ tn−1 = 1 − α. √

Par suite

n



S S P X − tn−1 √ ≤ µ ≤ X + tn−1 √ n n

 = 1 − α.

En rempla¸cant x et S par leurs valeurs calcul´ees sur l’´echantillon, on obtient l’intervalle de confiance sur la moyenne µ :   s s IC = x − tn−1 √ , x + tn−1 √ n n

Cas ou n ≥ 30, et X de loi quelconque Lorsque la taille n de l’´echantillon est grande (pratiquement d`es que n > 30), on appliquera les formules de l’intervalle de confiance sur µ, mˆeme si l’´echantillon n’est pas issu d’une population normale. En effet, le th´eor`eme central limite nous permet de dire 20

Pr. Raby Guerbaz

Universit´e Hassan II

Figure 2.3 – Echantillonnage al´eatoire que X est approximativement de loi N (µ, √σn ) lorsque n est grand. Dans ce cas, un intervalle de confiance de la moyenne est donn´e par   σ σ IC = x − u √ , x + u √ si σ est connu, et n n   s s IC = x − u √ , x + u √ si σ est inconnu, sest l’´ecart type corrig´e n n Remarque 2.4.2. Dans le cas ou n > 30, on fait recours `a la loi Normale dans les deux cas σ connu et inconnu. Exemple : La taille moyenne d’un ´echantillon de 51 filles de S4 est de 167,9 cm. L’´ecart type de cet ´echantillon est de 5,3 cm. Si nous supposons que cet ´echantillon est repr´esentatif de la taille des filles belges aˆg´ees d’une vingtaine d’ann´ees, nous pouvons calculer la taille moyenne de cette population, avec sa marge d’erreur : s e = u√ . n Cas d’un tirage exhaustif Dans une population de N individus (taille de la population est connue), dont la moyenne est µ et l’´ecart-type σ, nous utilisant les mˆemes formules pour les intervalles

21

Pr. Raby Guerbaz

Universit´e Hassan II

σ de confiance on multiplie seulement √ et n C’est `a dire " r N −n σ x − u√ n N −1 " r N −n s x − u√ n N −1 " r s N −n x − tn−1 √ n N −1

q s −n √ par le facteur N . N −1 n # r N −n σ , x + u√ n N −1 # r N −n s , x + u√ n N −1 # r s N −n , x + tn−1 √ n N −1

N −n devient N −1 proche de 1, donc on le n´eglige. On principe, on juge N grand par rapport `a n, si le taux de sondage n/N < 5% ; c’est `a dire si l’´echantillon constitue moins de 5% de la population. Remarque 2.4.3. Si N est tr`es grand devant n, le facteur d’exhaustivit´e

2.4.2

Intervalle de confiance pour la variance d’une variable Gaussienne

On d´esire estimer la variance σ 2 d’un caract`ere quantitatif X, qui suit une loi normale de moyenne µ et de variance σ 2 . D’apr`es le chapitre pr´ec´edent, S 2 est un estimateur sans biais de la variance σ 2 , c a` d n

1 X E(S ) = E(Xi − X)2 = σ 2 . n − 1 i=1 2

En plus

(n−1)×S 2 σ2

suit une loi khi-deux de (n-1) degr´es de lib´ert´e. On ´ecrit (n − 1) × S 2 ∼ χ2n−1 . σ2

Soient k1− α2 et k α2 les quantiles d’ordre 1 − α/2 et α/2 de la loi χ2n−1 . C’est a` dire  P

(n − 1) × S 2 ≤ k α2 σ2



 = α/2,

et

P

(n − 1) × S 2 ≤ k1− α2 σ2

Alors   (n − 1)S 2 P k α2 < < k1− α2 = F (k1− α2 ) − F (k α2 ) σ2 = 1 − α/2 − α/2 = 1 − α.

22

 = 1 − α/2

Pr. Raby Guerbaz

Universit´e Hassan II

Ceci est ´equivalent a` P

(n − 1)S 2 (n − 1)S 2 < σ2 < k1− α2 k α2

! = 1 − α.

Alors l’intervalle de confiance pour la variance σ 2 de la population est de la forme " # (n − 1)s2 (n − 1)s2 ; k1− α2 k α2 et par suite un intervalle de confiance pour l’ecart type σ est donn´e par # " √ √ s n−1 s n−1 p . ; p k1− α2 k α2

2.4.3

Intervalle de confiance pour une proportion

Si n est grand (et f pas trop proche de ou 1),  en pratique n ≥ 30, nf > 5 et  0q n(1−f ) > 5, alors pb suit une loi normale N p, p(1−p) . Alors un intervalle de confiance n de risque α pour une proportion p inconnue est donn´e par " # r r f (1 − f ) f (1 − f ) f −u , f +u , ou f est la fr´equence obs´erv´ee n n Exemple : Si 37 personnes ont vot´e pour le candidat aux ´elections, sur 136 ´electeurs sond´e, les bornes d’un intervalle de confiance sur p la proportion des ´el´ecteurs dans tout le pays qui voteront pour ce candidat, au niveau de confiance 0.95, est dans comprie entre " # r r f (1 − f ) f (1 − f ) f −u , f +u n n avec u = 1, 96, et f =

2.4.4

37 . 136

Taille d’´ echantillon

Durant la pr´eparation de l’enquˆete, le chercheur doit `a un moment d´ecider de la taille de l’´echantillon. Cette d´ecision est importante car elle a une incidence sur – Les coˆ uts de l’´etude. – La pr´ecision des r´esultats. Une premi`ere approche consiste `a utiliser le Budget disponible : Budget= Coˆ uts fixes + taille de l’´echantillon x Coˆ ut d’un Questionnaire 23

Pr. Raby Guerbaz

Universit´e Hassan II

On trouve ainsi la taille de l’´echantillon n impos´ee par la contrainte budg´etaire. Mais est ce que cet ´echantillon est suffisant pour repr´esenter la population enti`ere ? ? ? ! ! ! !. Aucun moyen de r´epondre. Cependant une deuxi`eme approche ( Plus rationnelle) consiste a` utiliser la marge d’erreur tol´er´ee ( la pr´ecision de l’´etude) pour calculer la taille minimale de l’´echantillon afin qu’il repr´esente la population. Taille d’´ echantillon pour estimer une moyenne On distigue deux cas : a) Ecart type connu : Pour trouver la taille d’´echantillon in faut r´esoudre l’´equation σ u √ ≤ e, n ou e est la marge d’erreur fix´e a` l’avance, u le fractile d’ordre 1 − α2 de la loi normale et σ l’´ecart type de la population. Ceci peut ˆetre ´ecrit √ σu n≥ , e alors  uσ 2 n≥ . e b) Ecart type inconnu : Solution 1 : On utilise une ´etude pilote. On distribut un questionnaire d’essai et on calcul l’´ecart type corrig´e sur l’´echantillon. Ensuite, on fixe la marge d’erreur qu’on peut tol´er´ee et le reste resemble au premier cas : s u √ ≤ e, n ou e est la marge d’erreur fix´e a` l’avance, u le fractile d’ordre 1 − s l’estimation de l’´ecart type. Ceci peut ˆetre ´ecrit √ s×u n≥ , e alors  2 u×s n≥ . e

α 2

de la loi normale et

Solution 2 : On utilise le fait que les valeur de la loi normale ne s’´etendent pas plus loin que 4σ ; alors ´ etendu des donn´ ees σ= . 4 24

Pr. Raby Guerbaz

Universit´e Hassan II

Exemple : Un magasin r´ealise un chiffre d’affaire d’au moins 1000 euros et d’au plus 2000 euros par jour. Pour estimer le chiffre d’affaire moyen on peut utiliser un ´ecart type de 2000 − 1000 = 250 euros σ= 4 Donc pour une marge erreur maximale e = 25 euros et un niveau de confiance de 95%, la taille de l’´echantillon doit ˆetre 2  1, 96 × 250 = 384, 16. n≥ e Alors il faut ´effectuer l’´etude sur 385 jours pour estimer le chiffre d’affaire moyen avec une marge d’erreur petite e=25 euros. Une ´etude tr`es pr´ecise demande une taille d’´echantillon tr`es grande. Remarque 2.4.4. La marge d’erreur e est toujours donn´ee par σ e = u√ , n

ou

σ e = u√ n

(si l’´ecart type est inconnu)

Alors si je veux diminuer la marge d’erreur il suffit d’augmenter la taille de l’´echantillon. Ce qui est naturel ! ! Cependant, si on augmente 4 fois la taille de l’´echantillon l’erreur est r´eduite seulement `a la moiti´e. En effet, si on utilise un ´echantillon 4 fois plus grand pour l’enquˆete. Alors au lieu de n on travail sur n0 = 4n individus, la nouvelle marge d’erreur est maintenant σ e σ σ e0 = u √ = u √ = u √ = . 2 2 n 4n n0 On augmente 4 fois les d´epences et on r´ecup`ere un l´eger gain en erreur, ceci montre que l’augmentation de la taille de l’´echantillon n’est pas la meilleur mani`ere d’augmenter la pr´ecision. Taille d’´ echantillon pour estimer une proportion De la mˆeme mani`ere que dans le cas de la moyenne, si l’on se fixe la marge d’erreur e a` ne pas d´epasser (avec une probabilit´e 1 − α), on cherche n tel que r f (1 − f ) = e. u n ou bien

u2 f (1 − f ) . e2 Mais comme on n’a pas encore tir´e l’´echantillon, la fr´equence dans l’´echantillon est inconnue. Alors comment peut-on proc´eder ? n=

25

Pr. Raby Guerbaz

Universit´e Hassan II

Premier cas : Si l’on n’a au pr´ealable aucune information sur f, on prend la valeur de f qui nous donne la plus grande taille d’´echantillon n. Ceci est r´ealis´e si f (1 − f ) prend sa valeur maximale qui est 0,25. En effet, pour chercher la valeur de f qui maximise la fonction g(f ) = f (1 − f ) = f − f 2 , on d´erive la focntion g, on obtient g 0 (f ) = 1 − 2f , et g 0 (f ) = 0 si f = 1/2 = 0, 5 En conclusion, la valeur maximale de f (1 − f ) est atteinte en f = 0, 5. ( f (1 − f ) = 0, 25 = 1/4) R´ esultat : La taille d’´echantillon est donn´ee par la formule n=

u2 × 0, 25 u2 = . e2 4e2

Exemple : Pour mener une enquˆete ( un sondage ) tel que le pourcentage soit connu (estim´e) avec une marge d’erreur maximale de 10%, et ce pour un niveau de confiance de 95%, il faut interroger au moins n≥

1, 96 × 0, 25 = 96 (0, 1)2

Deuxi` eme cas : Si on sait `a l’avance que la proportion qu’on d´esir estimer est inf´erieur a` 0,5. Par si on sait que la proportion ne peut pas d´epasser 23%, alors la taille de l’´echantillon qu’il faut prendre est n≥

1, 96 × 0, 23 × 0, 77 (0, 1)2

Troisi` eme cas : Si on sait a` l’avance que la proportion qu’on d´esir estimer est supperieur a` 0,5. Par si on sait que la proportion d´epasse 80 %, alors la taille de l’´echantillon qu’il faut prendre est 1, 96 × 0, 8 × 0, 2 n≥ (0, 1)2

2.4.5

Cas exhaustif (taille de la population connue)

On sait que q dans le cas exhaustif, l’intervalle de confiance change par l’ajout du facteur −n d’exhaustivit´e N . N −1 C’est a` dire que la recherche d’un intervalle de pr´ec´edemment, q confiance se qfait alors comme q mais en rempla¸cant dans la marge d’erreur :

f (1−f ) n

par

f (1−f ) n

×

N −n N −1

Exemple : Un contrˆoleur de r´eception a re¸cu un lot de 5000 pi`eces. Pour estimer le diam`etre moyen d’une pi`ece, il utilise un ´echantillon de 60 pi`eces. Sur l’´echantillon il trouve un diam`etre moyen de 2 cm. Supposons que la loi du diam`etre est normale d’´ecart 26

Pr. Raby Guerbaz

Universit´e Hassan II

type σ = 0, 1 cm. Un intervalle de confiance de risque 5% est donn´ee par : " # r r 0, 1 5000 − 60 5000 − 60 0, 1 2 − 1, 96 √ × ; 2 + 1, 96 √ × 5000 − 1 5000 − 1 60 60 Si la proportion des pi`eces d´efectueuses dans l’´echantillon de taille 60 est de 77%, alors un intervalle de confiance pour la proportion dans la population de taille 5000 est " # r r r r 0, 77 × 0, 23 5000 − 60 0, 77 × 0, 23 5000 − 60 0, 77 − 1, 96 × ; 0, 77 + 1, 96 × × 60 5000 − 1 60 5000 − 1 A partir de la marge d’erreur e on calcul toujours les tailles d’´echantillons. Dans le cas de la moyenne la marge d’erreur est : r N −n σ e = u√ n N −1 La formule de n en fonction de σ, N, e, et u sera d´eficile a` retenir. Mais heureusement, il y a une astuce simple : – On calcul la taille de l’´echantillon n en faisant comme si la taille de la population n’est pas donn´ee. – Puis on calcul la vraie taille d’´echantillon n’ qu’on cherche avec une petite correction n0 =

N +1

N −1 n

Exemple : Sur une population de 5000 habitant, on veut estimer une proportion avec une marge d’erreur de 10% et un niveau de confiance de 95%. Donnez la taille de l’´echantillon n´ecessaire ? Solution : On calcul la taille de l’´echantillon sans prendre en compte la taille de la population u2 (1, 96)2 n= 2 = = 97 4e 4(0, 1)2 et maintenant on corrige n = ...

27

Chapitre 3 Tests d’hypoth` ese : Un test statistique est un m´ecanisme visant `a trancher entre deux hypoth`eses `a partir de r´esultats observ´es sur un ou plusieurs ´echantillon(s). On formule une hypoth`ese de d´epart, appel´ee hypoth`ese nulle et souvent not´ee (H0 ) et il s’agit de d´ecider si on rejette ou non cette hypoth`ese par opposition a` une contre-hypoth`ese appel´ee hypoth`ese alternative et souvent not´ee (H1 ). Exemple : Un contrˆoleur de r´eception a re¸cu un lot de pi`eces sens´ees ˆetre de 5 mm de diam`etre ; mais il se demande si, par suite d’un ´etiquetage douteux, on ne lui a pas livr´e par erreur des pi`eces de 6 mm de diam`etre. On sait que la machine fournie une l´eg`eres variation et que le diam`etre des pi`eces est en fait distribu´e selon une loi normale N(m ; 0, 6). Le probl`eme est de savoir si on a bien m = 5, et pas plutˆot m = 6. 1. Si une pi`ece prise au hasard dans le lot mesure exactement 5 mm, est-on sˆ ur que le lot est bon ? 2. Si elle fait exactement 5.8 mm, est-on sˆ ur que le lot est mauvais ? 3. Est-ce la mˆeme chose si, sur 10 pi`eces prises au hasard, on a un diam`etre moyen de 5.8 mm ? 4. A partir de quelle valeur du diam`etre moyen peut on dire que le lot est mauvais ? Proc´ edure des tests d’hypoth` ese Pour r´ealiser un test d’hypoth`ese, il y a un enchainement strict d’actions a` effectuer. Cela commence par la formulation de l’hypoth`ese dans le domaine consid´er´e (m´edical, ´economique, social...) et sa traduction en ´ev´en`ements probabilistes li´es `a H0 . On doit ensuite consid´erer la statistique d’´ecart (la loi th´eorique de la diff´erence) et choisir un seuil (alpha) de d´ecision. On calcule la valeur de la statistique d’´ecart pour nos valeurs puis il faut la comparer `a la valeur th´eorique de la statistique d’´ecart pour le seuil choisi ( α = 5% par exemple )et en d´eduire si on accepte H0 ou non. Enfin, le calcul (ou la lecture) de la ”p-value” associ´e au d´epassement de la valeur 28

Pr. Raby Guerbaz

Universit´e Hassan II

de la statistique d’´ecart permet de conclure de fa¸con fine sur le fait que la diff´erence est significative ou non.

3.1

Tests de conformit´ e

Les tests de conformit´e sont destin´es a` v´erifier si un ´echantillon peut ˆetre consid´er´e comme extrait d’une population donn´ee ou repr´esentatif de cette population, vis-`a-vis d’un param`etre comme la moyenne, la variance ou la fr´equence observ´ee. Ceci implique que la loi th´eorique du param`etre est connue au niveau de la population. Les ´etapes d’un test : 1. Il s’agit d’abord de formuler les hypoth`eses (H0 ) et (H1 ). 2. On choisit en g´en´eral le risque de type I ( le seuil ), α. (souvent donn´e dans l’´enonc´e). 3. On d´etermine la variable de d´ecision Z ou T (qui est une statistique) dont on connaˆıt la loi si (H0 ) est vraie. 4. On d´et´ermine la r´egion critique ou r´egion de rejet Irejet qui est l’ensemble des valeurs de Z qui conduiront a` rejeter (H0 ). 5. Le compl´ementaire de Irejet est appel´e r´egion d’acceptation Iaccept . Les points de jonction entre les deux r´egions sont les points critiques. 6. On calcul la valeur de Z a` partir de l’observation de l’´echantillon. 7. Conclusion du test : acceptation ou rejet de (H0 ) selon que la valeur de Z est ou non dans la r´egion d’acceptation.

3.1.1

Les diff´ erentes cat´ egories d’hypoth` eses

3.1.2

Test de conformit´ e sur une moyenne

Cas d’une variable Normale On suppose que X suit une loi normale de moyenne µ et d’´ecart type σ. A) Cas ou σ est connu : La variable X ´etudi´ee au niveau de la population suit une loi normale N (µ, σ) avec σ connu. Ainsi la distribution de X au niveau de l’´echantillon sera : σ X ∼ N (µ, √ ), n

on peut aussi ´ecrire Z =

a) Test Unilateral ` a droite : Les hypoth`eses du test se pr´esentent sous la forme : 29

X −µ √σ n

∼ N (0, 1).

Pr. Raby Guerbaz

Universit´e Hassan II

(

H0 : µ = µ0 H1 : µ > µ0

On consid`ere comme variable de d´ecision X. La r´egion critique ( de rejet ) du test est de la forme : Irejet =]c, +∞[, ou la fronti`ere de la r´egion critique aura pour expression : σ c = µ0 + z1−α √ . n et on d´etermine la valeur de z1−α a` partir de la table de la loi normale centr´ee et r´eduite tel que φ(z1−α ) = 1 − α. Conclusion du test : Si x, la valeur de la moyenne sur l’´echantillon, appartient a` la zone de rejet, alors on rejette (H0 ), sinon, on ne la rejette pas (on accepte H0 ). Remarque 3.1.1. Si on prend comme variable de d´ecision Z=

X − µ0 √σ n

alors la r´egion de rejet sera de la forme : Ierejet = [z1−α , +∞[. c’est `a dire on rejette H0 si la valeur observ´ee z=

x − µ0 √σ n

∈ Ierejet .

avec x la valeur de la moyenne obs´erv´ee sur l’´echantillon. a) Test Unilateral ` a gauche : Les hypoth`eses du test se pr´esentent sous la forme : (

H0 : µ = µ0 H1 : µ < µ0

On consid`ere comme variable de d´ecision X. La r´egion critique ( de rejet ) du test est de la forme : Irejet =] − ∞, c[, ou la fronti`ere de la r´egion critique aura pour expression : σ c = µ0 − z1−α √ . n 30

Pr. Raby Guerbaz

Universit´e Hassan II

et on d´etermine la valeur de z1−α a` partir de la table de la loi normale centr´ee et r´eduite tel que φ(z1−α ) = 1 − α. Conclusion du test : Si x, la valeur de la moyenne sur l’´echantillon, appartient a` la zone de rejet, alors on rejette (H0 ), sinon, on ne la rejette pas (on accepte H0 ). Remarque 3.1.2. Si on prend comme variable de d´ecision Z=

X − µ0 √σ n

,

alors la r´egion de rejet sera de la forme : Ierejet =] − ∞, −z1−α [. c’est `a dire on rejette H0 si la valeur observ´ee z=

x − µ0 √σ n

∈ Ierejet .

avec x la valeur de la moyenne obs´erv´ee sur l’´echantillon. a) Test bilateral : Les hypoth`eses du test se pr´esentent sous la forme : (

H0 : µ = µ0 H1 : µ 6= µ0

On consid`ere comme variable de d´ecision X. La r´egion d’acceptation du test comme un intervalle sym`etrique autour de µ0 de la forme : Iaccept = [c1 , c2 ], ou :

La marge d0 erreur e

c1 = µ 0 −

z }| { σ z1− α2 √ n

e

z }| { σ et c2 = µ0 + z1− α2 √ n

et on d´etermine la valeur de z1− α2 a` partir de la table de la loi normale centr´ee et r´eduite iance+1 tel que φ(z1− α2 ) = 1 − α2 = N iveau de conf comme dans les intervalles de confiance. 2 Conclusion du test : Si x, la valeur de la moyenne sur l’´echantillon, appartient a` la zone d’acceptation ( x ∈ [c1 , c2 ],) alors on accepte (H0 ), sinon, on rejette H0 . Remarque 3.1.3. Si on prend comme variable de d´ecision Z=

X − µ0 √σ n

31

Pr. Raby Guerbaz

Universit´e Hassan II

alors la r´egion d’acceptation est : Ieaccept = [−z1− α2 , +z1− α2 ]. c’est `a dire on accept H0 si la valeur observ´ee z=

x − µ0 √σ n

∈ Ieaccept .

avec x la valeur de la moyenne obs´erv´ee sur l’´echantillon. A) Cas ou σ est inconnu : La d´emarche est la mˆeme que pour le test pr´ec´edent mais la variance de la population n’´etant pas connue, elle est estim´ee par la variance corrig´ee S 2 . La variable X ´etudi´ee au niveau de la population suit une loi normale N (µ, σ) avec σ inconnu. T =

X − µ0 √S n

suit une loi de Student de (n-1) degr´es de libert´e.

a) Test Unilateral ` a droite : Les hypoth`eses du test se pr´esentent sous la forme : (

H0 : µ = µ0 H1 : µ > µ0

On consid`ere comme variable de d´ecision X. La r´egion critique ( de rejet ) du test est de la forme : Irejet =]c, +∞[, ou la fronti`ere de la r´egion critique aura pour expression : s c = µ0 + t(n−1,1−α) √ . n | {z } e

ou s est l’´ecart type corrig´e et et on d´etermine la valeur de t(n−1,1−α) a` partir de la table de la loi de Student. Conclusion du test : Si x, la valeur de la moyenne sur l’´echantillon, appartient a` la zone de rejet ( c`ad x ≥ c), alors on rejette (H0 ), sinon, on ne la rejette pas (on accepte H0 ). Remarque 3.1.4. Si on prend comme variable de d´ecision T =

X − µ0 √S n

32

Pr. Raby Guerbaz

Universit´e Hassan II

alors la r´egion de rejet sera de la forme : Ierejet =]t(n−1,1−α) , +∞[. c’est `a dire on rejette H0 si la valeur observ´ee x − µ0

t=

∈ Ierejet .

√s n

avec x la valeur de la moyenne obs´erv´ee sur l’´echantillon et s l’´ecart type corrig´e. a) Test Unilateral ` a gauche : Les hypoth`eses du test se pr´esentent sous la forme : (

H0 : µ = µ0 H1 : µ < µ0

On consid`ere comme variable de d´ecision X. La r´egion critique ( de rejet ) du test est de la forme : Irejet =] − ∞, c[, ou la fronti`ere de la r´egion critique aura pour expression : σ c = µ0 − e = µ0 − t(n−1,1−α) √ . n Conclusion du test : Si x, la valeur de la moyenne sur l’´echantillon, appartient a` la zone de rejet, alors on rejette (H0 ), sinon, on ne la rejette pas (on accepte H0 ). Remarque 3.1.5. Si on prend comme variable de d´ecision T =

X − µ0 √S n

alors la r´egion de rejet sera de la forme : Ierejet = [−t(n−1,1−α) , +∞[. c’est `a dire on rejette H0 si la valeur observ´ee z=

x − µ0 √s n

∈ Ierejet .

avec x la valeur de la moyenne obs´erv´ee sur l’´echantillon.

33

Pr. Raby Guerbaz

Universit´e Hassan II

c) Test bilateral : Les hypoth`eses du test se pr´esentent sous la forme : (

H0 : µ = µ0 H1 : µ 6= µ0

On consid`ere comme variable de d´ecision X. La r´egion d’acceptation du test comme un intervalle sypetrique autour de µ0 de la forme : Iaccept = [c1 , c2 ], ou :

La marge d0 erreur e

e

}| { z s c1 = µ0 − t(n−1,1− α2 ) √ n

z }| { s et c2 = µ0 + t(n−1,1− α2 ) √ n

et on d´etermine la valeur de t(n−1,1− α2 ) a` partir de la table de Student comme pour les intervalles de confiance. Conclusion du test : Si x, la valeur de la moyenne sur l’´echantillon, appartient a` la zone d’acceptation ( x ∈ [c1 , c2 ],) alors on accepte (H0 ), sinon, on rejette H0 . Remarque 3.1.6. Si on prend comme variable de d´ecision T =

X − µ0 √S n

alors la r´egion d’acceptation est : h i e α α Iaccept = −t(n−1,1− 2 ) , +t(n−1,1− 2 ) . c’est `a dire on accept H0 si la valeur observ´ee t=

x − µ0 √s n

∈ Ieaccept .

avec x la valeur de la moyenne obs´erv´ee sur l’´echantillon. Cas d’un ´ echantillon de grande taille Si la taille de l’´echantillon est grande en pratique n ≥ 30, alors a) Si σ est connu : Les r´esultats du paragraph pr´ec´edent restent valables. b) Si σ est inconnu, alors on l’estime par s, mais les r´esultats du paragraph pr´ec´edent restent valables en rempla¸cant tn−1 par z le fractile de la loi normale.

34

Pr. Raby Guerbaz

3.2

Universit´e Hassan II

Tests de conformit´ e sur une variance d’une v.a Gaussienne

Si X suit une loi normale N (µ, σ), alors on peut les tests suivants ( ( ( H0 : σ 2 = σ02 H0 : σ 2 = σ02 H0 : σ 2 = σ02 ou ou H1 : σ 2 < σ02 H1 : σ 2 > σ02 H1 : σ 2 6= σ02 On se fixe α, le risque de type I et on connaˆıt la taille de l’´echantillon. A) cas ou la moyenne µ est connue : On prend comme variable de d´ecision : n

T2 =

1X (Xi − µ)2 n i=1

2

si σ 2 = σ02 , alors (n−1)T suit une loi χ2n de n degr´es de libert´e. σ2 D´et´emination de la r´egion critique : a) Pour le test bilat´ eral H1 de la forme σ 6= σ02 : On cherche la r´egion d’acceptation sous la forme [c1 , c2 ]. Soient kn ( α2 ) et kn les r´eels d´etermin´es dans la table de la loi χ2n , tels que     P nT22 < kn(1−α/2) = 1 − α/2 σ  2   P nT < k n(α/2) = α/2 σ2 si σ 2 = σ02 , alors

  nT 2 P kn(α/2) < 2 < kn(1−α/2) = 1 − α σ0

Alors

 P

σ02 kn(α/2) σ 2 kn(1−α/2) < T2 < 0 n n

 = 1 − α.

L’intervalle d’acceptation pour T 2 au risque α est  2  σ0 kn(α/2) σ02 kn(1−α/2) Iaccept = , n n Conclusion : Si t2 , la r´ealisation de T 2 ∈ Iaccept , on accept (H0 ), sinon, on rejette (H0 ). a) Pour Unilat´ eral ` a droite : H1 de la forme σ > σ02 . On cherche la r´egion critique sous la forme ]t1 , +∞[. Soit kn,(1−α) le r´eel d´etermin´e dans la table de la loi χ2n par  2  nT < kn,(1−α) = 1 − α. P σ02 35

Pr. Raby Guerbaz

Universit´e Hassan II

La r´egion critique (ou intervalle de rejet) pour T 2 au risque α est  2  σ0 kn,(1−α) Irejet = , +∞ . n Conclusion : Si t2 , la r´ealisation de T 2 ∈ Irejet , on rejette (H0 ), sinon on ne rejette pas H0 . Remarque : Si on choisit comme variable de d´ecision Z, l’intervalle d’acceptation pour Z au risque α pour un test bilat´eral est   Irejet = kn,(α) , kn,(1−α) . L’intervalle de rejet pour Z au risque α, pour une test unilateral `a droite et a` gauche est respectivement [kn,(1−α) , +∞[ et ] − ∞, kn,α ]. B ) cas ou la moyenne µ est inconnue : On a (n − 1)S 2 ∼ χ2n−1 . σ2 On reprend les r´esultats de a) en rempla¸cant T 2 par S 2 et χ2n par χ2n−1 . R´ esum´ e: Intervalle d’acceptation pour S 2 dans un test bilat´eral :  2  σ0 σ02 Iaccept = kn−1, α2 ; kn−1,1− α2 . n−1 n−1 Intervalle de rejet pour S 2 dans un test unilat´eral a` droite :  2  σ0 Irejet = kn−1,1−α ; +∞ . n−1 Intervalle de rejet pour S 2 dans un test unilat´eral a` gauche :   σ02 Irejet = −∞, kn−1,α . n−1

3.3

Tests de conformit´ e sur une proportion

Soit p la proportion de la population poss´edant le caract`ere consid´er´e. On veut effectuer un test ( H0 : p = p0 H1 : p > p0 , p 6= p0 , p < p0 . 36

Pr. Raby Guerbaz

Universit´e Hassan II

On q prend comme variable de d´ecision pb. Si p = p0 , alors la loi de pb est normale

0) ). N (p0 , p0 (1−p n On se fixe α, le risque de type 1 et on connait la taille de l’´echantillon. On d´et´ermine la r´egion critique du test : (a) Test bilateral p 6= p0 L’intervalle d’acceptation pour pb au risque α est " # r r p0 (1 − p0 ) p0 (1 − p0 ) Iaccept = p0 − u1−α/2 ; p0 + u1−α/2 . n n

Conclusion : Si la fr´equence f sur l’´echantillon, appartient a` Iaccept , on accept (H0 ), sinon, on rejette (H0 ). (a) Test Unilateral ` a droite p > p0 L’intervalle de rejet de pb au risque α est # # r p0 (1 − p0 ) Irejet = p0 + u1−α ; 1 . n Conclusion : Si la fr´equence f sur l’´echantillon, appartient `a Irejet , on rejette (H0 ) en faveur de H1 , sinon, on accepte (H0 ). (a) Test Unilateral ` a gauche p < p0 L’intervalle de rejet de pb au risque α est " " r p0 (1 − p0 ) Irejet = 0, p0 − u1−α . n Conclusion : Si la fr´equence f sur l’´echantillon, appartient `a Irejet , on rejette (H0 ) en faveur de H1 , sinon, on accepte (H0 ). Tests de choix entre deux valeurs du param` etre Ce type de test est appel´e souvent : test d’une hypoth` ese simple contre une hypoth` ese simple. Soit X une variable al´eatoire qui d´epend d’un param`etre θ inconnu. Le probl`eme est de choisir entre deux valeurs num´eriques θ0 et θ1 du param`etre θ. ( H0 : θ = θ0 H1 : θ = θ1 37

Pr. Raby Guerbaz

Universit´e Hassan II

Le risque de type I est donn´e, ainsi que la taille de l’´echantillon. Calcul de la r´egion critique W, Z ´etant la variable de d´ecision. Si θ1 > θ0 le test est trait´e le la mˆeme mani`ere qu’un test unilateral a` droite. Alors la r´egion de rejet est de la forme Irejet = [θ0 + e, ∞[. Conclusion : Si θ1 ∈ Irejet , alors on rejette (H0 ) en faveur de H1 et on dit que θ = θ1 . Sinon on accepte (H0 ) est on d´ecide que θ = θ0 .

3.3.1

Notion d’erreur et de puissance de test :

Lorsqu’on effectue un test d’hypoth`ese, deux types d’erreur sont susceptibles de survenir : Risque d’erreur de type I : (ou Erreur de premi`ere esp`ece) α = P(rejeter H0 avec le test|H0 vraie dans la r´ealit´e). Risque d’erreur de type II ( ou erreur de deuxi` eme esp` ece) : β = P(ne pas rejeter H0 avec le test |H1 vraie) La puissance d’un test statistique est : Puissance = 1-Risque de deuxi`eme esp`ece=1-β. Le seuil de signification d’un test statistique est le plus petit risque pour lequel la valeur observ´ee de la statistique du test permet le rejet de H0 . En anglais, le seuil de signification se nomme ”p-value”. Il s’agit d’une quantit´e qui est toujours calcul´ee dans les logiciels sp´ecialis´es qui permettent d’effectuer des tests d’hypoth`eses. R`egle de d´ecision en fonction du seuil de signification αs : Si le risque supp´erieur au seuil de signification, alors on rejette H0 . (Voir la solution de l’examen de l’ann´ee derni`ere) 38

Pr. Raby Guerbaz

Universit´e Hassan II

Remarque 3.3.1. Il n’est pas possible de calculer la puissance d’un test si on ne sp´ecifie pas pr´ecis´eement H1 . Par exemple, on ne peut pas effectuer des calculs sous l’alternative µ > 11000. Il faut sp´ecifier une valeur simple, par exemple µ = 13000F r.

3.4

Tests de comparaison

Soient X1 et X2 deux variables al´eatoires d´efinies sur deux populations m`eres comparables (´eventuellement ´egales). La loi de X1 (resp. X2 ) d´epend d’un param`etre inconnu θ1 (resp. θ2 ). On souhaite tester l’hypoth`ese ”ces deux param`etres sont ´egaux” contre l’hypoth`ese compl´ementaire ”ces deux param`etres son diff´erents”, soit (

H0 : θ1 = θ2 H1 : θ1 6= θ2 ou θ1 > θ2 ouθ1 < θ2 .

Pour effectuer ce test, on dispose d’un ´echantillon de taille n1 (resp. n2 ) de X1 (resp. X2 ) permettant une estimation ponctuelle Tn1 (resp. Tn2 ) de θ1 (resp. θ2 ). On suppose de plus que les v.a. X1 et X2 sont normales ou approximativement normales. En supposant vraie, on d´etermine un risque de premi`ere esp`ece α, une zone de rejet associ´ee aux valeurs critiques.

3.4.1

Test de comparaison de deux moyennes :

Soient deux populations P1 et P2 et deux v.a X1 et X2 d´efinies respectivement sur P1 et P2 , X1 et X2 ´etant ind´ependantes. On pose µ1 = E(X1 ), µ2 = E(X2 ), σ1 = V ar(X1 ), et σ22 = V ar(X2 ) On veut tester l’hypoth`ese ( H0 : µ1 = µ2 H1 : µ1 6= µ2 ou µ1 > µ2 ouµ1 < µ2 . On dispose d’un ´echantillon de taille n1 issu de la population 1 qui donne une moyenne x1 et un ´ecart type s1 et un deuxi`eme ´echantillon de taille n2 de la population 2 qui donne une moyenne x2 et un ´ecart type s2 .

39

Pr. Raby Guerbaz

Universit´e Hassan II

Cas ou σ1 et σ2 sont connus On supposera que X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ) et que n1 , n2 > 30. La variable de d´ecision est la suivante X1 − X2 . Z=q 2 σ22 σ1 + n2 n1 Si µ1 = µ2 , alors X − X2 q1 2 ∼ N (0, 1) σ1 σ22 + n1 n2 (a) test bilat´ eral µ1 6= µ2 : Soit u1−α/2 le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle d’acceptation pour Z au risque α est   Iaccept = −u1−α/2 ; +u1−α/2 Conclusion : Si

x1 − x2 z=q 2 ∈ Iaccept . σ1 σ22 + n2 n1

on accepte H0 , sinon on rejette H0 en faveure de H1 . (b) test Unilat´ eral ` a droite µ1 > µ2 : Soit u1−α le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle de rejet est de la forme Irejet = [u1−α ; ∞[ Conclusion : Si

x −x q 1 2 2 2 ∈ Irejet . σ1 σ + n22 n1

on rejette H0 , sinon on accepte H0 . (c) test Unilat´ eral ` a gauche µ1 < µ2 : Soit u1−α le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle de rejet est de la forme Irejet = ]−∞, −u1−α ] Conclusion : Si

x −x q 1 2 2 2 ∈ Irejet . σ1 σ + n22 n1

on rejette H0 , sinon on accepte H0 . 40

Pr. Raby Guerbaz

Universit´e Hassan II

Cas o` u σ1 et σ2 sont inconnus et n1 et n2 > 30 On supposera que X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ) et que n1 , n2 > 30. La variable de d´ecision est la suivante X1 − X2 . Z=q 2 s1 s22 + n1 n2 Si µ1 = µ2 , alors X − X2 q 12 ∼ N (0, 1) s1 s22 + n1 n2 (a) test bilat´ eral µ1 6= µ2 : Soit u1−α/2 le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle d’acceptation pour Z au risque α est   Iaccept = −u1−α/2 ; +u1−α/2 Conclusion : Si

x1 − x2 z=q 2 ∈ Iaccept . s1 s22 + n1 n2

on accepte H0 , sinon on rejette H0 en faveure de H1 . (b) test Unilat´ eral ` a droite µ1 > µ2 : Soit u1−α le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle de rejet est de la forme Irejet = [u1−α ; ∞[ Conclusion : Si

x −x q 1 2 2 2 ∈ Irejet . s1 s + n22 n1

on rejette H0 , sinon on accepte H0 . (c) test Unilat´ eral ` a gauche µ1 < µ2 : Soit u1−α le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle de rejet est de la forme Irejet = ]−∞, −u1−α ] 41

Pr. Raby Guerbaz

Universit´e Hassan II

Conclusion : Si

x −x q 1 2 2 2 ∈ Irejet . s s1 + n22 n1

on rejette H0 , sinon on accepte H0 . Cas o` u σ1 et σ2 sont inconnus avec σ1 = σ2 et n1 et n2 < 30 On supposera que X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ) et que n1 , n2 > 30. La variable de d´ecision est la suivante Z=q

X1 − X2 q 2 2

n1 s1 +n2 s2 n1 +n2 −2

.

1 n1

+

1 n2

Si µ1 = µ2 , alors q

X1 − X2 q

n1 s21 +n2 s22 n1 +n2 −2

1 n1

+

1 n2

∼ tn1 +n2 −1

(a) test bilat´ eral µ1 6= µ2 : Soit u1−α/2 le r´eel d´etermin´e comme habituellement dans la table de la loi de Student de degr´es de libert´e n1 + n2 − 1. L’intervalle d’acceptation pour Z au risque α est   Iaccept = −t1−α/2 ; +t1−α/2 Conclusion : Si z=q

x1 − x2 q 2

n1 s21 +n2 s2 n1 +n2 −2

∈ Iaccept .

1 n1

+

1 n2

on accepte H0 , sinon on rejette H0 en faveure de H1 . (b) test Unilat´ eral ` a droite µ1 > µ2 : Soit t1−α le r´eel d´etermin´e comme habituellement dans la table de la loi de Student de degr´es de libert´e n1 + n2 − 1 L’intervalle de rejet est de la forme Irejet = [t1−α ; ∞[ Conclusion : Si q

x1 − x2 q

n1 s21 +n2 s22 n1 +n2 −2

1 n1

on rejette H0 , sinon on accepte H0 . (c) test Unilat´ eral ` a gauche µ1 < µ2 : 42

∈ Irejet . +

1 n2

Pr. Raby Guerbaz

Universit´e Hassan II

Soit u1−α le r´eel d´etermin´e comme habituellement dans la table de la loi de Student de degr´es de libert´e n1 + n2 − 1 L’intervalle de rejet est de la forme Irejet = ]−∞, −t1−α ] Conclusion : Si q

x1 − x2 q 2

n1 s21 +n2 s2 n1 +n2 −2

∈ Irejet .

1 n1

+

1 n2

on rejette H0 , sinon on accepte H0 .

3.5

Tests de comparaison de deux variances

On supposera que X1 ∼ N (µ1 , σ1 ) et X2 ∼ N (µ2 , σ2 ) et que n1 , n2 > 30. On dispose d’un n1 -´echantillon de X1 qui donne un ´ecart type corrig´e s1 et d’un n2 ´echantillon de X2 qui donne un ´ecart type corrig´e s2 . On veut tester l’hypoth`ese ( H0 : σ1 = σ2 H1 : σ1 6= σ2 ou σ1 > σ2 ouσ1 < σ2 . La variable de d´ecision est la suivante F =

s22 . s22

Si σ12 = σ22 , alors F ∼ F(n1 − 1, n2 − 1) Pour calculer la r´egion critique, on d´etermine dans la table de la loi de Fischer-Snedecor F(n1 − 1, n2 − 1) les r´eels fα/2 et f1−α/2 tels que (  P F < fα/2 = α/2  P F < f1−α/2 = 1 − α/2. L’intervalle d’acceptation pour F au risque α est   Iaccept = f1−α/2 ; fα/2 Conclusion : Si f=

s21 ∈ Iaccept . s22 43

Pr. Raby Guerbaz

Universit´e Hassan II

on accepte H0 , sinon on rejette H0 en faveure de H1 . Remarque importante Si α est tel que l’on ne puisse pas lire dans la table de Fischer-Snedecor les valeurs f1−α/2 et fα/2 , on cherchera un intervalle d’acceptation pour F de la forme [fα1 , fα2 ], fα1 ´etant d´efinie par P(F < fα1 ) = α1 et fα2 ´etant d´efinie par P(F > fα2 ) = α2 avec α = α1 + α2 .

3.6

test de comparaison de deux proportions

Soient p1 la proportion d’individus poss´edant le caract`ere consid´er´e A dans la population I et p2 la proportion d’individus poss´edant le mˆeme caract`ere dans la population II. On dispose d’un n1 -´echantillon de I et un n2 -´echantillon de II. Soient F1 la fr´equence empirique associ´ee a` l’´echantillon de I et F2 la fr´equence empirique associ´ee a` l´echantillon de II. On veut tester l’hypoth`ese (

H0 : p1 = p2 H1 : p1 6= p2 ou p1 > p2 ou p1 < p2 .

On note le risque de type I par α. Dans le cas ou p1 = p2 = p, on consid`ere la variable de d´ecision : F1 − F2  Z=p p(1 − p) n11 +

1 n2

 ∼ N (0, 1).

Pour r´ealiser le test on remplace p (inconnue) par son estimation f=

n1 f 1 + n2 f 2 . n1 + n2

Alors, la statistique de test devient Z=p

F1 − F2  f (1 − f ) n11 +

1 n2

 ∼ N (0, 1).

(a) test bilat´ eral p1 6= p2 : Soit u1−α/2 le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle d’acceptation pour Z au risque α est   Iaccept = −u1−α/2 ; +u1−α/2

44

Pr. Raby Guerbaz

Universit´e Hassan II

Conclusion : Si z=p

f1 − f2  f (1 − f ) n11 +

1 n2

 ∈ Iaccept .

on accepte H0 , sinon on rejette H0 en faveure de H1 . (b) test Unilat´ eral ` a droite p1 > p2 : Soit u1−α le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle de rejet est de la forme Irejet = [u1−α ; ∞[ Conclusion : Si

f1 − f2  p f (1 − f ) n11 +

1 n2

 ∈ Irejet .

on rejette H0 , sinon on accepte H0 . (c) test Unilat´ eral ` a gauche p1 < p2 : Soit u1−α le r´eel d´etermin´e comme habituellement dans la table de la loi centr´ee r´eduite N (0, 1). L’intervalle de rejet est de la forme Irejet = ]−∞, −u1−α ] Conclusion : Si

f1 − f2  p f (1 − f ) n11 +

on rejette H0 , sinon on accepte H0 .

45

1 n2

 ∈ Irejet .