50 2 599KB
SERIE DE TD N° 1
UNIVERSITE HADJ LAKHDAR BATNA
BIOSTATISTIQUE 2014/2015
FACULTE DE MEDECINE Département de MEDECINE
Rappel de cours : Définir les notions suivantes en donnant des exemples : – – – –
Population statistique Individu statistique Caractère qualitatif et caractère quantitatif. Variable discrète et variable continue.
Exemples sur les variables discrètes et variables continues Exemple 1 : Une enquête réalisée dans un village porte sur le nombre d’enfants à charge par famille. Chaque famille interrogée a donc donné un chiffre correspondant au nombre d’enfants qu’elle possède. Les résultats sont donnés dans la liste ci-dessous : 2 3 0 1 0 1 4 2 2 0 1 6 2 3 0 7 1 0 3 2 1 3 3 1 1 0 7 2 1 5 0 3 2 2 6 1 1 0 2 1 2 1 2 4 1 1 La présentation brute des résultats n’est guère exploitable, il est donc usuel de regrouper les résultats dans un tableau statistique. Compléter le tableau suivant : Nb d’enfants
0 1 2 3 4 5 6 7 Total
Nb de familles 1) 2) 3) 4)
46
Représenter graphiquement la série statistique. Calculer le mode Mo, la médiane Me et la moyenne m. Calculer la variance et l’écart-type. Déterminer l’écart interquartile IQ et le coefficient de variation v.
Solution : Soit le tableau suivant : xi
0
1
2
3
4
5
6
7
Total
ni
8
14
11
6
2
1
2
2
46
ni.xi
0
14
22
18
8
5
12
14
93
ni.xi²
0
14
44
54
32
25
72
98
339
nicum
8
22
33
39
41
42
44
46
Le mode Mo est la variable qui se répète le plus, donc Mo = 1 La médiane Me est la variable qui partage la série ordonnée en deux parties égales, d’où Me = 2 La moyenne m = 93/46 = 2.022 et comme c’est une caractéristique calculée, on laisse m = 2.022 La variance est donnée par la formule 𝜎𝑥2 =
∑ 𝑛𝑖 .𝑥𝑖2 ∑ 𝑛𝑖
− 𝑚2 =
339 46
93 2
− (46) = 3.282
L’écart-type est la racine carrée de la variance : 𝜎𝑥 = √3.282 = 1.8 Les quartiles sont Q1 = 1 et Q3 = 3 et l’écart inter quartile IQ = Q3 – Q1 = 3 – 1 = 2 Le coefficient de variation CV = σx/m = 89.61 % 1
Exemple 2 : Voici les notes obtenues par des élèves lors d’un examen : 15 10.2 17.5 14.6 16.3 8.8 12 7.7 7 15.1 5.9 19.3 6.2 10.6 5 8.4 7.1 12 9.5 2.3 13 10.5 17.2 14.2 8 3.1 10.5 11.1 18.1 3.4 12 9.3 4.3 13.3 11.5 13.8 14.9 5.2 6.4 10.8 11 11.7 16.4 7.6 4 Pour cet exemple, il n’est pas pratique de prévoir une case par note ! Les variables continues sont donc « toujours » regroupées par classes d’amplitudes égales. Compléter le tableau suivant : Note obtenue
[0 ; 4[
[4 ; 8[
[8 ; 12[
[12 ; 16[
[16 ; 20[
Total
Effectifs 1) 2) 3) 4)
Représenter graphiquement la série statistique. Calculer le mode Mo, la médiane Me (par interpolation linéaire). Calculer la moyenne, la variance et l’écart-type. Déterminer l’écart interquartile IQ et le coefficient de variation v.
Solution : Soit le tableau suivant : ci
2
6
10
14
18
Total
ni
3
11
14
11
6
45
nicum
3
14
28
39
45
ni.ci
6
66
140
154
108
474
ni.ci²
12
396
1 400
2 156
1 944
5 908
Le mode Mo est la variable qui se répète le plus, donc pour ni = 14 et pour une série classée, la classe modale = [8 ; 12[ et par interpolation on trouve Mo = 10 car les 2 classes adjacentes ont le même effectif partiel de 11. La médiane Me est la variable qui partage la série ordonnée en deux parties égales, comme on a une série classée, on a donc une classe médiane = [8 ; 12[ ; et par interpolation linéaire on a : En utilisant la formule du cours : Me = xi + k 𝑛
𝑁 − 𝑛(𝑖−1)𝑐𝑢𝑚 2
𝑖𝑐𝑢𝑚 − 𝑛(𝑖−1)𝑐𝑢𝑚
22.5−14
En utilisant le graphe (histogramme cumulé) :
28−14
=
= 10.429
𝑀𝑒−8 12−8
→ 𝑀𝑒 = 10.429
Comme la variable statistique est quantitative continue alors on prend pour médiane la valeur 10.43 (note d’un étudiant à un examen, donc 2 décimales). La moyenne m = 474/45 = 10.53 et c’est une variable continue. La variance est donnée par la formule 𝜎𝑥2 =
∑ 𝑛𝑖 .𝑥𝑖2 ∑ 𝑛𝑖
− 𝑚2 =
5 908 45
474 2
− ( 45 ) = 20.3378
L’écart-type est la racine carrée de la variance : 𝜎𝑥 = √20.337778 = 4.509743, alors on prendra 4.56 pour écart-type car 2 décimales suffisent pour une note d’un étudiant. Le coefficient de variation CV = σx/m = 42.81 % Les quartiles sont Q1 = 7 et Q3 = 14.09 et l’écart inter quartile IQ = Q3 – Q1 = 14.09 – 7 = 7.09 Interpolation de Q1 et Q3 : 𝑄1 = 𝑥𝑖 + 𝑘. 𝑛
𝑁 −𝑛(𝑖−1)𝑐𝑢𝑚 4
𝑖𝑐𝑢𝑚 −𝑛(𝑖−1)𝑐𝑢𝑚
Q1 [4 ; 8 [
11.25−3
𝑄1 −4
= 8−4 𝑄1 14−3 33.75 −28 𝑄3 −12
Q3 [12 ; 16 [
39 −28
=
16−12
= 7 et
𝑄3 = 14.09 2
et 𝑄3 = 𝑥𝑖 + 𝑘. 𝑛
3𝑁 −𝑛(𝑖−1)𝑐𝑢𝑚 4
𝑖𝑐𝑢𝑚 −𝑛(𝑖−1)𝑐𝑢𝑚
Exercice n° 01 : Les grenouilles hébergent divers parasites, en particulier des vers trématodes. On prélève au hasard des grenouilles dans un étang et on compte les trématodes que chacune héberge. On a obtenu les résultats suivant : Nombre de trématodes….
0
Nombre de ….
11 22 45 40 19 11 2
– – – – –
1
2
3
4
5
6
Quelle est la population étudiée ? Quel est le caractère étudié et sa nature ? Représenter la distribution par le graphe adéquat. Déterminer le mode (Mo) et la médiane (Me) par le calcul et le graphe. Calculer la moyenne, la variance et l’écart type. Calculer l’intervalle interquartile IQ ainsi que le coefficient de variation.
Solution de l’exercice n° 01 : La population étudiée sera : les vers trématodes sont « un type particulier de parasites » ; dans le texte on a : « les grenouilles hébergent divers parasites » : donc ces grenouilles constituent la population. Le caractère étudié sera : « le nombre de parasites dans chaque individu » La nature du caractère étudié : variable statistique quantitative Le type de la variable : c’est une quantité discrète ; il y a 7 modalités qui sont : x1 = 0 ; x2 = 1 ; x3 = 2 ; x4 = 3 ; x5 = 4 ; x6 = 5 ; x7 = 6 L’effectif partiel (et cumulé) de chaque modalité est donné dans le tableau suivant : Nombre de trématodes…. : modalité xi 0 1 2 3 4 5 6 Nombre de …. : effectif partiel ni 11 22 45 40 19 11 2 11 33 78 118 137 148 150 Effectif partiel cumulé L’effectif total est donné par la somme de tous les effectifs partiels (11 + 22 + … + 2 = 150 =N) Le mode : c’est la modalité la plus fréquente et elle est égale à Mo = 2 La médiane : c’est la modalité de l’individu du centre de la série après avoir ordonné les modalités ; dans ce cas la Médiane Me = 2 (valeur comprise entre les 75ème et 76ème individus) 1
La moyenne : m = 𝑁 ∑ 𝑥𝑖 𝑛𝑖 = La variance : 𝜎𝑥2 =
∑ 𝑛𝑖 𝑥𝑖2 𝑁
375 150
= 2.5 trématodes (caractéristique calculée).
– 𝑥̅ ² =
1213 150
− 2.52 = 1.83667 ≅ 1.84
L’écart-type : c’est la racine carrée de la variance ; σx = 1.355, (caractéristique calculée). Les quartiles Q1 et Q3 : ce sont les valeurs correspondant le quart et le trois-quarts de la série ordonnée et on a : Q1 = 2 et Q3 = 3 L’écart-interquartile IQ : c’est la différence Q3 – Q1 = IQ = 3 – 2 = 1 Le coefficient de variation : CV =
𝜎𝑥 𝑥̅
=
1.355236757 2.5
= 0.5421
Solution avec changement de variable Calcul de moyenne par changement de variable / moyenne provisoire. Au lieu d’utiliser xi, on utilise ui t.q : ui = xi – m0 Où m0 : constante appelée moyenne provisoire, et après multiplication par ni on a : 3
ni.ui = ni.xi – ni m0 et après sommation ∑ , on aura : ∑ 𝒏𝒊. 𝒖𝒊 = 𝒙̅ = 𝒖̅ + 𝒎𝟎 =
∑ 𝒏𝒊 .(𝒙𝒊 − 𝒎𝟎 ) ∑ 𝒏𝒊
∑ 𝒏𝒊 . 𝒙𝒊 − 𝒎𝟎 . ∑ 𝒏𝒊 → ∑ 𝒏𝒊 . (𝒙𝒊 − 𝒎𝟎 )
+ m0 = moyenne m
Le changement de variable étant le suivant : ui = xi – 3 t.q. m0 = 3 Le tableau des données sera le suivant : xi
0
1
2
3
4
5
6
Total
ui
–3
–2
–1
0
1
2
3
ni
11
22
45
40
19
11
2
150
ni.ui
– 33
– 44
– 45
0
19
22
6
– 75
ni.ui²
99
88
45
0
19
44
18
313
Alors avec N = 150 on aura pour calcul de la moyenne : 𝒙̅ = 𝒖̅ + 𝟑 La moyenne est : ∑ 𝑛𝑖 . 𝑢𝑖 = −75 → : 𝒙̅ = ∑ 𝑛𝑖 .𝑢𝑖2
Le calcul de la variance est : 𝜎𝑢2 = 313
𝜎𝑥2 = 𝜎𝑢2 ; d’où la variance =
150
∑ 𝑛𝑖
− 𝟕𝟓 𝟏𝟓𝟎
+ 𝟑 = 2.5
− 𝑢̅ 2 avec ui² = (xi – 3)², et 𝒖̅ = 𝒙̅ – 𝟑, donc on a :
− 0.52 = 1.8366667 → 𝜎𝑢 = 1.355 = 𝜎𝑥
Exercice n° 02 : On désigne par X la variable statistique « mesure du taux de cholestérol ». Sur une population de 300 personnes bien portantes issues d’une certaine région, on a dosé le taux de cholestérol, exprimé en cg/l (xi) et on a obtenu les résultats suivants : Classes xi
80-120
120-160
160-200
200-240
240-280
280-320
320-360
Effectifs ni
n1
54
110
72
46
8
n7
1) Sachant que le taux de cholestérol moyen sur cette population est égal exactement à 197,6 cg/l, déterminer les deux effectifs partiels manquants (n1 et n7). 2) Déterminer (graphes et calculs) le mode Mo et la médiane Me. 3) Calculer la moyenne (avec la moyenne provisoire), la variance et l’écart-type (par deux méthodes différentes). 4) Déterminer l’intervalle interquartile IQ (graphe et calcul) et le coefficient de variation.
Solution de l’exercice n° 02 : Soit le tableau suivant : ci
100
140
180
220
260
300
340
ni
n1 = 7
54
110
72
46
8
n7 = 3
300
nicum
7
61
171
243
289
297
300
ni.ci
100n1
7 560
19 800
15 840
11 960
2 400
340n7
59 280
ni.ci²
70 000
1 058 400
3 564 000
3 484 800
3 109 600
720 000
346 800
12 353 600
La détermination des 2 inconnues n1 et n7 nécessitent 2 équations à 2 inconnues. ∑ 𝑛𝑖 = 𝑛1 + 𝑛7 + 290 = 300 n1 + n7 = 10 (équation n° 1) 100n1 + 340n7 + (57 560) = ∑ 𝑛𝑖 . 𝑐𝑖 = 59 280 car on sait que m = 197.6 = 4
∑ 𝑛𝑖 .𝑐𝑖 300
100 n1 + 340 n7 = 1720 5n1 + 17n7 = 86 (équation n° 2). A partir des deux équations (1) et (2) on tire : n1 = 7 et n7 = 3 Le mode Mo est la variable qui se répète le plus, donc pour ni = 110 et pour une série classée, la classe modale = [160 ; 200[. Par interpolation on trouve : 𝑛 − 𝑛𝑖−1 𝑖 𝑖+1 +𝑛𝑖−1 )
𝑖 Par la formule donnée au cours : Mo = xi + k 2𝑛 −(𝑛
= 183.83
Par le graphique de l’histogramme : 110 −54 110 −72
=
𝑀𝑜−160 200 −𝑀𝑜
56
=
→ 𝑀𝑜 = 183.83
38
La médiane Me est la variable qui partage la série ordonnée en deux parties égales, comme on a une série classée, on a donc une classe médiane = [160 ; 200[. Par interpolation linéaire on a : En utilisant la formule du cours : Me = xi + k
𝑁 − 𝑛(𝑖−1)𝑐𝑢𝑚 2
= 192.36
𝑛𝑖𝑐𝑢𝑚 − 𝑛(𝑖−1)𝑐𝑢𝑚
Par le graphe de l’histogramme cumulé : 150 −61 171 −61
𝑀𝑒−160
=
200 −160
→ 𝑀𝑒 = 192.363636 192.36
La variance est donnée par la formule 𝜎𝑥2 =
∑ 𝑛𝑖 .𝑥𝑖2 ∑ 𝑛𝑖
− 𝑚2 =
12 353 600 300
− (197.6)2 =
2132.9067 donc : 𝜎𝑥2 = 2132.9067 L’écart-type : 𝜎𝑥 = √2132.9067 = 46.1834 Le coefficient de variation CV = σx/m = 23.37 % Les quartiles sont Q1 = 165.1 et Q3 = 230 et l’écart inter quartile IQ = Q3 – Q1 = 230 – 165.1 = 64.9 Interpolation de Q1 et Q3 : 𝑄1 = 𝑥𝑖 + 𝑘. 𝑛
𝑁 −𝑛(𝑖−1)𝑐𝑢𝑚 4
et 𝑄3 = 𝑥𝑖 + 𝑘. 𝑛
𝑖𝑐𝑢𝑚 −𝑛(𝑖−1)𝑐𝑢𝑚
75 −61
𝑄1 −160
Q1 [160 ; 200 [ 171 −61 =
200 −160
225 −171
Q3 [200 ; 240 [ 243 −171 =
3𝑁 −𝑛(𝑖−1)𝑐𝑢𝑚 4
𝑖𝑐𝑢𝑚 −𝑛(𝑖−1)𝑐𝑢𝑚
𝑄1 = 165.1 et
𝑄3 − 200 240 − 160
𝑄3 = 230
Exercice n° 03 : On a effectué un examen biologique donné chez un groupe de sujets. Le tableau suivant indique les résultats des dosages obtenus (en cg/litre). Dosage xi
6
10
14
18
22
26
30 34 38
ni cum décroissant …. 200 191 182 170 136 107 66 42 12 1) Reconstituer le tableau statistique. 2) Calculer les caractéristiques de tendance centrale et de dispersion.
Solution de l’exercice n° 03 : Soit le tableau suivant : Classes
[4 ;8[
[8 ;12[
[12 ;16[
[16 ;20[
[20 ;24[
[24 ;28[
[28 ;32[
[32 ;36[
[36 ;40[
ci = xi
6
10
14
18
22
26
30
34
38
∑
ni
9
9
12
34
29
41
24
30
12
200
nixi
54
90
168
612
638
1066
720
1020
456
4824
𝒏𝒊 . 𝒙𝟐𝒊
324
900
2352
11016
14036
27716
21600
34680
ni ↑
9
18
30
64
93
134
158
188
5
17328 129952 200
Les différentes formules vues au cours nous donnent : Moyenne : m = 𝑥̅ = Variance : 𝜎𝑥2 =
1 𝑁
1 𝑁
∑ 𝑛𝑖 . 𝑥𝑖 =
4824 200
= 24.12
∑ 𝑛𝑖 . 𝑥𝑖2 − 𝑥̅ 2 = 67.9856 → 𝜎𝑥 = 8.245338
Interpolation du Mode, de la Médiane, et des quartiles Q1 et Q3 : 𝑛 − 𝑛𝑖−1 𝑖 𝑖+1 +𝑛𝑖−1 )
𝑖 Le Mode Mo ∈ [24 ; 28[. Mo = xi + k 2𝑛 −(𝑛
L’histogramme des fréquences absolues donne : La Médiane Me ∈ [24 ; 28[. Me = xi + k 𝑛
= 25.66
𝑀𝑜 −24 28− 𝑀𝑜
𝑁 − 𝑛(𝑖−1)𝑐𝑢𝑚 2
𝑖𝑐𝑢𝑚 − 𝑛(𝑖−1)𝑐𝑢𝑚
L’histogramme cumulé :
100−93 134−93
Le 1er quartile Q1 ∈ [16 ; 20 [ Le 3eme quartile Q3 ∈ [28 ; 32 [
=
t.q : t.q :
𝑀𝑒 −24 28−24 50−30
=
=
7
=
41−29 41−24
17
→ 𝑀𝑜 = 25.66
→ 𝑀𝑒 = 24.68
41 𝑄1 −16
=
12
= 24.68
=
20
→ 𝑄1 = 18.35
64−30 20−16 34 150−134 𝑄3 −28 16 158−134
=
32−28
=
→ 𝑄3 = 30.67
24
L’écart interquartile IQ = Q3 – Q1 = 12.31 Le coefficient de variation CV = 0.34
Questions diverses : Trouver dans chacune des questions la ou les erreurs de calculs de paramètres suivants : 1) 2) 3) 4) 5) 6)
E = 12 E = 14.2 m = – 10.25 E = 14 m = 10 Me = 15
m = 18 σx = 8.1 σx² = – 9 m = 124 σx = 0 Q1 = 15
Me = 5 IQ = 15.3 E = – 12 IQ = 15 E=4 Q3 = 16
Réponses : 1) F
2) F
3) F
4) F
5) F
6
6) V