48 0 429KB
Chapitre I Statistique descriptive 1 1.1
Introduction Statistique descriptive :
C’est l’ensemble des outils qui permet de résumer l’information contenue dans les données de façon synthétique et efficace à travers : — Tableaux — Représentations graphique. — Indicateur de position/dispersion.
1.2
Statistique inférentielle :
C’est l’ensemble des techniques qui permet de généraliser des conclusions relatives à la population entière, à partir d’un sous ensemble tiré selon une méthode scientifique. Elle permet également de prendre des décisions pour les hypothèses imposées sur les paramètres d’une population d’une population. Remarque: Les méthodes statistiques : repose sur l’observation des phénomènes concrets et utile les probabilités comme outils d’analyse et de généralisation. La théories des probabilité : permet de modéliser efficacement certains phénomènes aléatoires et d’en faire l’étude théorique.
2
Vocabulaire-Définitions
a) Individu C’est l’unité statistique faisant l’objet d’une observation (exemples : les banques, les pays . . . ) ; cette unité statistique est l’entité abstraite qui représente un consommateur, un logement ou un produit. b) Populationl’ensemble des individus ou des unités statistiques qui font l’objet d’une étude (exemples : ensemble des habitants d’un pays, l’ensemble des navires d’une flotte navale) ; dans la plupart des études l’observation de tout les individus de la 1
2
Statistique descriptive population pourrait être difficile et trop couteuse, dans ce cas on peut sélectionner un sous ensemble représentatif de cette population appelé : échantillon.
c) Echantillon un sous-ensemble tiré de la population mère dont les individus sont concernés par une étude. Le choix de l’échantillon se fait en respectant certaines règles qui permettent d’assurer la représentativité de l’échantillon par rapport à la population mère. Exemple 1 Si l’échantillon est un groupe TD de L2 Info : — individu : un étudiant. — population :l’ensemble des étudiants de L2 Info/ de l’ISIMM/ de la Tunisie. — les variables : — le sexe des étudiants. — La taille. — La moyenne/ la mention
2.1 a
Les types d’un caractère statistique
Caractère statistique
Le caractère est le phénomène étudié en statistique, il représente l’objet de l’observation statistique auprès des individus. Exemple 2 L’âge, la taille, le revenu d’un salarié, la couleur des yeux, la localisation géographique sont des caractères. b
Modalité
Les modalités d’une variable sont les valeurs ou les positions que peut prendre celle ci. Exemple 3 Les modalités de la variable situation amoureuse sont célibataire, marié, divorcé, veuf. Les modalités de la variable moyenne sont 0,..,20. c
caractère qualitatif
un caractère qualitatif ou variable qualitative est une variable qui possèdes des modalités sans unité de mesure ni orientation. Exemple : la région géographique, la nationalité. . . d
caractère quantitatif discrèt (nominal)
les modalités d’un caractère quantitatif discret son mesurables et peuvent êtres ordonnées. Les modalités sont finies et dénombrables et elles sont en général des entiers naturels. Exemple : le nombre des pièces d’un logement, le salaire des employés d’une usine...
3
3. Répresentation des données statistiques e
caractère quantitatif continu (métrique)
les modalités d’un caractère quantitatif continu son mesurables et peuvent êtres ordonnées. Les modalités sont infinies et leur représentation nécessite le recours à des intervalles ou classes. Exemple : le revenu du chef du ménage. f
série de données statistique
l’ensemble des modalités observées auprès des individus constitue une série de données statistiques. Cette série est l’objet de l’analyse descriptive, qui à pour objectif de la résumer par des tableaux des graphiques et des indicateurs.
3
Répresentation des données statistiques
On distingue les méthodes de représentation d’une variable statistique en fonction de la nature de cette variable (qualitative ou quantitative). Les représentations recommandées et les plus fréquentes sont les tableaux et les diagrammes (graphe). Le graphique est un support visuel qui permet : ‚ la synthèse :visualiser d’un seul coup d’œil les principales caractéristiques. ‚ la découverte : : met en évidence les tendances. ‚ Le contrôle : on aperçoit mieux les anomalies sur un graphique que dans un tableau. ‚ La recherche des régularités :régularité dans le mouvement, répétition du phénomène. Pour un groupe de 15 étudiants, on a observé les valeurs des variables Couleurs des yeux, Sexe,Mention au Bac et Note à l’examen de Statistiques . On a le tableau des données suivant qui sera souvent utilisé dans la suite Etudiants couleur des yeux 1 V 2 B 3 N 4 M 5 B 6 V 7 N 8 M 9 B 10 V 11 N 12 B 13 V 14 N 15 M
Sexe Mention au Bac Note/Stat H P 12 H AB 8 H P 13 H P 11 F AB 10 H P 9 H B 16 F AB 14 F P 11 F B 15 F P 4 H TB 18 H AB 12 H P 6 F P 2
4
Statistique descriptive
3.1
Tableau statistique
Le tableau statistique permet de résumer la série statistique en faisant un regroupement des individus associés aux modalités auxquelles ils appartiennent. La représentation générale d’un tableau statistique est la suivante : a
caractère qualitatif
De façon générale, la fréquence d’une modalité "M" d’une variable qualitative se calcule au moyen de la formule suivante : effectif correspondant à "M" . effectif total On a de plus, le pourcentage de cette modalité, fM “
pM “ fM ˆ 100. Modalités m1 m2 .. . mk Total
Effectifs Fréquences n1 f1 n2 f2 .. .. . . nk fk n
Exemple 4 Tableau de la répartition de la variable Mention au Bac Mention au bac P AB B TB Total b
Effectifs n1 =8 n2 =4 n3 =2 n4 =1 n=15
Fréquence f1 =8/15=0.53 0.26 0.13 0.06 1
Pourcentage 53% 26.1% 13.3% 6.7% 100%
caractère quantitatif discrèt
De façon général, à chaque valeur k d’une variable quantitative discrète correspond un effectif, noté par nk , il s’agit en fait du nombre des individus pour lesquels on abservée la valeur k. La fréquence fk de la valeur k se calcul au moyen de la formule : nk fk “ . n Xi X1 X2 .. .
Effectif (fréquence absolue) n1 n2 .. .
Xk Total
nk n
5
3. Répresentation des données statistiques
Exemple 5 Tableau de la répartition de la variable "Note à l’examen de statistique" Note à l’examen Effectifs Fréquence k=0 0 0 k=1 0 0 k=2 1 1/15 k=3 0 0 k=4 1 1/15 k=5 0 0 k=6 1 1/15 k=7 0 0 k=8 1 1/15 k=9 1 1/15 k=10 1 1/15 k=11 2 2/15 k=12 2 2/15 k=13 1 1/15 k=14 1 1/15 k=15 1 1/15 k=16 1 1/15 k=17 0 0 k=18 1 1/15 k=19 0 0 k=20 0 0 Total n=15 1
c
caractère quantitatif continu
L’infinité des valeurs observables d’une variable quantitative continue ne rend pas possible la généralisation d’un diagramme en bâtons. L’établissement d’un tableau de répartition exige que l’on découpe l’intervalle de variation d’une telle variable, en k sous-intervalles re0 , e1 s, re1 , e2 s, ..., rek´1 , ek s. Chacun de ces intervalles est appelé classe. L’amplitude de la classe rei´1 , ei s est égale à ai “ ei ´ ei´1 . Classes re1 , e2 r re2 , e2 r .. .
Effectif (fréquence absolue) n1 n2 .. .
rek´1 , ek r Total
nk n
Remarque: Les classes peuvent être construites ? avec des amplitudes inégales, et le nombre total des classes peut être approximé par n.
6
Statistique descriptive
Exemple 6 La répartition des employés suivant les salaires annuels. Modalités r1500, 2000r r2000, 2500r r2500, 3000r r3000, 3500r r3500, 4000r r4000, 4500r r4500, 5000r Total
3.2 a
Effectifs 2 5 4 1 3 2 3 20
Fréquences 0.1 0.25 0.2 0.05 0.15 0.1 0.15 1
Représentation graphique
caractère qualitatif
A partir de l’observation d’une variable qualitative, deux diagrammes permettent de représenter cette variable : le diagramme en bandes (dit tuyaux d’orgue) et le diagramme à secteurs angulaires (dit camembert). Etudions le caractère couleur des yeux. On a couleur Bleu Marron Noir Vert Effectif 4 3 4 4 Tuyaux d’orgues On porte en abscisses les modalités, de façon arbitraire. Nous portons en ordonnées des rectangles dont la longueur est proportionnelle aux effectifs, ou aux fréquences, de chaque modalité.
Diagramme en secteurs (camembert) Les diagrammes circulaires, ou semi-circulaires, consistent à partager un disque ou un demi-disque, en tranches, ou secteurs, correspondant aux modalités observées et dont la surface est proportionnelle à l’effectif, ou à la fréquence, de la modalité. Remarque: Le degré d’un secteur est déterminé au moyen de la formule αi “ fi ˆ 360.
7
3. Répresentation des données statistiques
b
Caractère quantitatif discrèt
De façon génèrale, à chaque valeur k d’un caractère quantitatif discrèt correspond un effectif noté par nk ; il s’agit en fait du nombre des individus pour lesquels on a observé la valeur k. La fréquence fk de la valeur k, se calcule au moyen de la formule : fk “
nk , N
où nk désigne l’effectif correspondant à la valeur k et N l’effectif total, en multipliant les fréquences par 100, on obtient les pourcentages correspondantes. Diagramme en batôns Les modalités de la variable sont portées sur l’axe des abscisses et les fréquences absolues ou relatives sont portées sur l’axe des ordonnées. Le principe de construction de ce diagramme est basé sur le fait qu’à partir de chaque modalité on trace un segment de droite et la hauteur de chaque segment est proportionnelle aux fréquences.
Exemple 7 On considère la variable quatitative ’Note à l’examen de statistique’, alors sa représentation graphique en bâton est donnée par
8
Statistique descriptive
Cette forme se prête difficile pour l’interprétation, pour y remédier il faut créer des classes de notes. variable classée Effectifs Fréquences r0, 4s 2 2/15 r4, 8s 2 2/15 r8, 12s 6 6/15 r12, 16s 4 4/15 r16, 20s 1 1/15 Sous cette répartition la représentation graphique sera de la forme suivante :
c
Caractère quatitatif continu
Histogramme : L’histogramme des fréquences est un graphique qui permet de représenter un caractère quantitatif continu, il est constitué de rectangles juxtaposés dont les surfaces sont proportionnelles aux fréquences des classes et par conséquent à leurs effectifs. Remarque: ‚ Lorsque les classes ont toutes la même amplitude, les hauteurs des rectangles sont proportionelles à leurs surfaces, par conséquent les hauteurs des rectangles sont proportionnelles aux fréquences et aux effectifs. ‚ Dans le cas où les classes sont d’amplitudes inégales, la hauteur du rectangle correspondant à la ième classe sera hi “ afii (c’est à dire la fréquence par unité d’amplitude) ou encore Hi “ naii (c’est à dire l’effectif par unité d’amplitude).
Exemple 8 On considère la variable quatitative continu dans l’exemple 6, la représentation graphique est la suivante :
4. Fonction cumulative (de répartition) d’un caractère quantitatif
4
9
Fonction cumulative (de répartition) d’un caractère quantitatif
La fonction de répartition est une fonction qui permet de calculer la proportion des individus ayant une modalité inferieur à une modalité donnée. Définition 1 La fonction de répartition d’un caractère X est définie par F : R Ñ r0, 1s x Ñ PpX ď xq. C’est la proportion des individus ayant des modalités inférieures ou égale à x.
4.1
Effectifs cumulés
On considère X une variable quantitative continue ou encore discrète classée. Les effectifs correspondant à ces classes sont notés n1 , .., nk . L’effectif cumulé de la première classe est le nombre N1 d’individus pour lesquels la variable X prend une valeur au plus égale à e1 , donc N1 “ n1 . L’effectif cumulé de la deuxième classe est le nombre N2 d’individus pour lesquels la variable X prend une valeur au plus égale à e2 , donc N2 “ n1 ` n2 . Plus généralement, l’effectif cumulé de la ième classe est le nombre Ni d’individus pour lesquels la variable X prend une valeur au plus égal à ei , on a donc Ni “
i ÿ l“1
nl .
10
Statistique descriptive
4.2
Fréquences cumulées
La fréquence cumulées de la ième classe est définie par
Fi “
i Ni ÿ “ fl , n l“1
où fl est la fréquence cumulée de la lème classe. Ainsi on a
k ÿ
nl “ n et
l“1
X(modalité) x1 x2 .. . xk
4.3 a
k ÿ
fl “ 1.
l“1
Ni (effectif) fi (fréquence) Fi (fréquence cumulée) n1 f1 F 1 “ f1 n2 f2 F 2 “ f1 ` f2 .. .. .. . . . řk nk fk Fk “ i“1 fk “ 1
Représentation graphique de la foction cumulative
Caractère quantitatif discrèt
Pour tout i P t1, ..., nu, on a Fx pxi q “ Fi Ainsi la courbe de FX passe par les points px1 , F1 q, px2 , F2 q, ... et pxn , Fn q.
Proposition 1 La fonction de répartition satisfait, pour i P t1, .., nu — L’égalité, FX pxi q “ Fi . $ 0, si x ă x1 ; ’ ’ ’ ’ & F1 , si x1 ď x ă x2 ; F2 , si x2 ď x ă x3 ; — L’expression de FX est donnée par FX pxq “ ’ ’ Fi , si xi ď x ă xi`1 ; ’ ’ % 1, si x ě xn .
La représentation graphique de la fonction de répartition doit passer par une courbe en escalier. On considère l’exemple 5, alors la fonction cumulative /de répartition est donnée par :
5. Indicateur de position
b
11
caractète quantitatif continu
La courbe de FX est nulle avant x1 , constante égale à 1 après xn et joint les points px0 , 0q, px1 , F1 q, ..., pxn , 1q par des segments de droites. On considère l’exemple 6, alors la fonction de répartition est donnée par :
5
Indicateur de position
Ces indicateurs sont des paramètres calculés à partir de la série statistique dans le but de donner un résumé interprétable et exhaustif de l’information contenue dans cette série.
5.1
Les moyennes
La moyenne est un indicateur de tendance centrale qui permet de déterminer le centre de la distribution, la moyenne arithmétique est la moyenne est la plus utilisée, mais il existe d’autres types de moyennes utilisées dans le calcul de la tendance centrale de distributions statistiques telles que la moyenne géométrique et la moyenne quadratique.
12 a
Statistique descriptive moyenne arithmetique
La moyenne arithmétique est la somme de toutes les données observées divisées par le nombre des individus de l’échantillon. n 1ÿ x“ xi n i“1
si les données sont représentés dans un tableau statistique dans le quel chaque modalité est associée à fréquence absolue ou relative alors on calcule la moyenne arithmétique pondérée ainsi : k k ÿ 1ÿ x“ ni xi , ou X “ f i xi . n i“1 i“1 Remarque: Dans le cas d’une variable continu on remplace xi par ci le centre de la classe rei , ei`1 r.
b
Moyenne géométrique
la moyenne géométrique d’une série statistique brute est donnée par xG “
d n ź n
xi .
i“1
Pour les données groupés, elle est calculée au moyen de a xG “ n xn1 1 xn2 2 ...xnk k . c
Moyenne harmonique
La moyenne harmonique est la moyenne de l’inverse de la variable x, ou bien l’inverse de la moyenne arithmétique, elle est calculée ainsi pour des données brutes : xh “
n 1ÿ 1 . n i“1 xi
Pour les données groupées, elle est calculée au moyen de la formule suivante : xh “
k 1ÿ ni . n i“1 xi
La moyenne harmonique permet de calculer la moyenne des grandeurs obtenues à partir d’un rapport de deux variables tels que le taux de change, l’indice du prix le taux de chômage. . .
13
5. Indicateur de position d
Moyenne quadratique
La moyenne quadratique permet de calculer la moyenne des carrés des caractères, pour une série de données brute elle est calculée au moyen de la formule suivante n 1ÿ xq “ x2 . n i“1 i
Pour les données groupés, elle est calculée au moyen de la formule suivante : xq “
k 1ÿ ni x2i . n i“1
Remarque: L’ensemble des moyennes calculées pour un caractère doivent vérifier l’inégalité suivante : min xi ď xh ď xg ď x ď xq ď max xi .
Exemple 9 On considère la distribution des logements suivant les nombres de pièces donnée par le tableau suivant : xi 1 2 3 4 5 Total
ni 5 9 3 7 2 n “ 26
ni xi 5 18 9 28 10 70
1 xni i xi 1 1 512 0.5 27 0.33 16384 0.25 25 0.2 / /
x2i 5 36 27 112 50 /
Dans cet exemple on a x “ 2.3 xg “ 1.45 xh “ 0.08 xq “ 8.84
5.2
Mode
Le mode correspond à la modalité la plus fréquente, il est noté M0 . Pour un caractère continu ou discrèt pour le quel les données sont groupées en classes, la classe modale correspond à celle associée à l’effectif le plus élevé ou graphiquement au plus haut rectangle de l’histogramme. Dans ce cas le mode est calculé à partir du centre de la classe modale selon la méthode suivante :
14
Statistique descriptive
si le mode appartient à la classe rei , ei`1 r alors M0 “ ei `
`
˘ d1 ˆ ai d1 ` d2
Remarque: On peut avoir plus qu’un mode ou rien
5.3
Médiane
La médiane, notée Me est la modalité qui divise la série des données statistiques en deux parties égales après avoir ranger ces données en ordre croissant (ou décroissant). Plus précisément, il y a autant d’individus pour lesquels on a observé une valeur supérieure à Me que d’individus pour lesquels on a observé une valeur inférieure à Me .
a
Caractère discrèt
Lorsqu’on possède la série des données brutes et distribution (non classeé), on doit ranger les n observations en ordre croissant. ˘ème ` observation. ‚ si n est impair, la médiane est n`1 2 ‚ si n est pair, la médiane est habituellement définie comme étant le point milieu entre ` n ˘ème ` ˘ème et n2 ` 1 observation. 2 b
Caractère continu
C’est la modalité x tel que F pMe q “ 0.5. Pour calculer la médiane on doit déterminer la classe médiane à partir des fréquences cumulées croissant, puis on calcule la valeur ponctuelle de la médiane selon l’hypothèse de l’uniformité de la répartition des individus à l’intérieur de la classe médiane. Si Me appartient à la classe rei , ei`1 r alors Me “ ei `
` 0.5 ´ Fi´1 Fi ´ Fi´1
˘ ˆ ai .
15
6. Indicateur de dispersion
Exemple 10 Exemple 11 On considère le caractère de l’exemple 9, alors ‚ le mode correspond à 2. ‚ la médiane correspond à 1.
5.4
Les quantiles
Ce sont les indicateurs qui divisent la distribution en quatre parties égales. ‚ Le premier quantile est indicateur noté Q1 tel que PpX ď Q1 q “ 0.25. ‚ Le troisième quatile est noté Q3 , PpX ď Q3 q “ 0.75.
6
Indicateur de dispersion
Pour analyser une distribution on peut utiliser en plus des indicateurs de tendance centrale, telles que la médiane ou la moyenne, d’autres indicateurs qui permettent de mesurer la dispersion ou l’éparpillement de la série dans le but de bien décrire la distribution d’une variable. Par exemple, les deux séries d’observations suivantes : ‚ -20,-10,0,10,20 ‚ -2000,-1000,0,1000,2000. Possèdent la même moyenne et la même médiane (0) mais se diffèrent selon un autre indicateur qui mesure l’écart des ses observations par rapport à la valeur centrale. On va présenter dans cette partie les mesures de dispersion les plus utilisées : l’étendue, l’écart interquartile, la variance, l’écart-type et le coefficient de variation.
6.1
L’étendu
L’étendue est un paramètre qui mesure l’écart entre la valeur la plus élevée et la valeur la plus faible de la distribution e “ xmax ´ xmin .
16
6.2
Statistique descriptive
Variance, écart-type
L’écart type est l’indicateur de dispersion le plus utilisé et le plus simple à interpréter. Il permet de comparer les distributions dont la tendance centrale est identique. Il donne la variation moyenne de la distribution autour de la moyenne arithmétique. Pour calculer l’écart type on doit d’abord calculer la variance de X qui est égale à la somme des carrés des écarts à la moyenne divisée par l’effectif n, par la suite l’écart-type est égal à la racine de la variance. n 1ÿ V arpXq “ pxi ´ xq2 , n i“1 cette forme peut égaelement s’écrire sous la forme : k 1ÿ V arpXq “ ni pxi ´ xq2 , n i“1
où k désigne le nombre de valeurs distinctes de X et fi “ nn1 est la fréquence de la valeur xi . Une autre formule importante permettant de calculer la variance est : V arpXq “ σX “
6.3
n 1ÿ x2 ´ pxq2 . n i“1 i
a V arpXq.
Le coefficient de variation
Lorsqu’on veut comparer la dispersion ou l’étalement de deux séries d’observations qui n’ont pas le même ordre de grandeur ou qui portent sur des variables différentes, on ne peut pas utiliser directement les écarts types. Le coefficient de variation se définit comme le rapport de l’écart type divisé par la moyenne, exprimé en pourcentage. Cv “
σx . x
Exemple 12 On considère le caractère étudié dans l’exemple 9, alors on a xi ´ x pxi ´ xq2 -1.3 1.69 -0.3 0.09 0.7 0.49 1.7 2.89 2.7 7.29
ni pxi ´ xq2 8.45 0.18 1.47 11.56 36.45
Ainsi VarpXq “ 2.235 σX “ 1.49 et Cv “ 0.64.
Chapitre II Statistiques bivariées 1
Introduction
Dans le chapitre précédent, on a présenté présenté les méthodes qui permettent de résumer et représenter les informations relatives à une variable. Un même individu peut être étudié à l’aide de plusieurs caractères (ou variables). Par exemple ‚ On observe simultanément sur un échantillon de 200 foyers, le nombre d’enfants X et le nombre de chambre Y . ‚ On observe sur un échantillon de 20 foyers, le revenu mensuel X en Dinars et les dépenses mensuelles Y . ‚ Une entreprise mène une étude sur la liaison entre les dépenses mensuelles en publicité X et le volume des ventes Y qu’elle réalise. ‚ Une entreprise mène une étude sur les salaries en regardant l”ancienneté et le niveau d’étude des salariés. ‚ On observe la croissance d’un enfant en regardant son poids et sa taille. Dans la suite, On introduit l’étude globale des relations entre deux variables.
2 2.1
Distribution jointe-Distribution marginales Le tableau de contingence
Soit X une variable statistique pouvant prendre K modalités x1 , ..., xK et Y une variable statistique pouvant prendre L modalités y1 , ..., yL . On construit le tableau suivant appelé tableau de contingence : 17
18
Statistiques bivariées X/Y x1 .. .
y1 n11 ou f11 .. .
.... .... .. .
xi .. .
ni1 ou fi1 .. .
.. .
xK Total
nK1 ou fK1 n.1 ou f.1
n1L
nKL n.L
Total n1. ou f1. .. .
yL ou f1L .. . .. . ou fKL ou f.L
ni. ou fi. .. . nK. ou fK. n (1)
Dans cette présentation on a : A chaque couple pxi , yj q on a nij est l’effectif qui représente le nombre d’individus qui prennent en même temps la valeur xi et yj . On note fij “ nnij . nk. “
L ÿ
nkl
K ÿ
n.l “
l“1
nkl
k“1
n“
K ÿ L ÿ
nkl
k“1 l“1
Exemple 13 La distribution des logements : nombre de pièces (X) en fonction de la superficie en m2 (Y ) : X/Y r10, 30r r30, 50r 1 3 1 2 1 14 3 0 1 4 0 0 Total 4 16
2.2
r50, 70r r70, 90r Total 0 0 4 3 0 18 7 4 12 10 7 17 20 11 51
Les distributions marginales
Sur la marge du tableau de contingence, on peut extraire les données seulement par rapport à X et seulement par rapport à Y . On appelle distribution marginale des fréquences (des effectifs) la distribution des fréquences (effectifs) obtenue dans la marge d’un tableau de contingence, en ajoutant les fréquences (effectifs) ligne par ligne, ou colonne par colonne. a
Loi marginale par rapport à Y K ÿ n.j “ fij . n.j “ nij , f.j “ n i“1 i“1 K ÿ
b
Loi marginale par rapport à X
ni. “
L ÿ j“1
nij fi. “
L ni. ÿ “ fij . n i“1
19
2. Distribution jointe-Distribution marginales Remarque: On a K ÿ L ÿ
nij “
i“1 j“1
j“1 i“1
K ÿ L ÿ
L ÿ K ÿ
fij “
i“1 j“1
2.3
L ÿ K ÿ
nij “ n.
fij “ 1.
j“1 i“1
La distribution jointe PpX “ i, Y “ jq “ fij “
nij . n
Remarque: Dans le cas continu, xi et yj représentent respectivement le centre des classes de X et Y , c’est à dire ei`1 ´ ei ej`1 ´ ej xi “ et yj “ . 2 2
Exercice 1 On considère 10 salariés qui sont observés à l’aide de deux variables "age" et "salaire". Les informations brutes sont données dans le tableau suivant :
Age salaire
15 26 6000 7400
20 43 7500 8200
47 37 8207 8900
52 34 9100 9900
50 44 9950 10750
1. Déterminer le tableau de contingence (X âge et Y salaire). Pour l’âge et le salaire former respectivement des classes de pas de 10 et de 1000). 2. Calculer f21 , f12 , et f33 . 3. Déterminer les effectifs marginaux de X et de Y . Tracer le nuages de points. 4. Déterminer le tableau statistique de deux séries marginales X et Y .
2.4 a
La distribution conditionelle
Série conditionelle par rapport à X
Elle st notée X|yj , on dit que c’est la série conditionelle de X sachant que Y “ yj . On calcule dans ce cas
fi|j “ PpX “ k|Y “ lq “
nij fij “ . n.j fij
20
Statistiques bivariées
On a aussi la moyenne conditionnelle xj , qui est définit par xj “
K ÿ
fi|j xi .
i“1
Pour l’écart type conditionnelle on a σXj “ K ÿ
VarpXj q “
a V arpXj q avec “ fi|j pxi ´ xj q2 .
i“1
b
Série conditionelle par rapport à Y
Elle est otée Y |xj on dit que c’est la série conditionelle de Y par rapport à X “ xj . On calcule dans ce cas fj|i “ PpY “ j|X “ iq “
3 3.1
fij . fi.
Notion de covariance et correlation Covariance
La covariance entre deux variables X et Y notée CovpX, Y q est le paramètre qui donne la variabilité de X par rapport à Y .
La covariance se calcule au moyen de la formule suivante CovpX, Y q “ xy ´ xy “
3.2
K ÿ L 1ÿ nij xi yj ´ xy. n i“1 j“1
Indépendance
Définition 2 On dit que deux variables statistiques X et Y sont indépendantes si et seulement si, pour tout i et j, fij “ fi. ˆ f.j
21
3. Notion de covariance et correlation
Il suffit que cette égalité ne soit pas vérifiée dans une seule cellule pour que les deux variables ne soient pas indépendantes.. De manière équivalente, pour tout i et j, n ˆ nij “ ni. ˆ n.j . Dans ce cas, si X et Y sont indépendantes alors (réciproque est fausse) CovpX, Y q “ 0. Cette définition donne une interprétation intéressante de d’indépendance ; elle signifie que dans ce cas, les effectifs des modalités conjointes peuvent se calculer uniquement à partir des distributions marginales, supposées « identiques » aux distributions de X et Y dans la population ; en d’autres termes, si X et Y sont indépendantes, les observations séparées de X et de Y donnent la même information qu’une observation conjointe.
3.3
Coefficient de correlation
Les coefficients de corrélation permettent de donner une mesure synthétique de l’intensité de la relation entre deux caractères et de son sens lorsque cette relation est monotone. Le coefficient de corrélation de Pearson permet d’analyser les relations linéaires (voir cidessous). Il existe d’autres coefficients pour les relations non-linéaires et non-monotones, mais ils ne seront pas étudiés dans le cadre de ce cours. Définition 3 La quantité ρXY “
CovpX, Y q , σX σY
s’appelle le coefficient de corrélation. Proposition 2 Le coefficient de corrélation ρXY est compris entre r´1, 1s |ρXY | ď 1. Le coefficient ρXY mesure le degré de liaison linéaire entre X et Y . Nous avons les deux caractéristiques suivantes : ‚ Plus le module de ρXY est proche de 1 plus X et Y sont liées linéairement. ‚ Plus le module de ρXY est proche de 0 plus il y absence linéaire entre X et Y .
22
Statistiques bivariées
Remarque: Par définition si ρXY “ 0 alors X et Y sont indépendantes. Exercice 2 Nous considérons 10 joueurs et soient : — Y la variable qui représente le nombre de jeux auquel un joueur joue. — X la variable qui représente le gain ou perte (+1 s’il gagne 10 Dinars et 1 s’il perd 10 Dinars et 0 sinon). Nous avons le tableau de contingence suivant, X|Y -1 0 1 n.j 1. Compléter le tableau. 2. Calculer CovpX, Y q, conclure.
1 0 1 0
2 1 1 1
3 2 0 1
4 2 1 0
ni.“