Examen Corrigé Analyse de Données [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Analyse de donn´ ees — examen (correction) mardi 3 janvier 2017 — dur´ee : 2 heures — documents non autoris´es

Note : les parties 1, 2 et 3 sont ind´ependantes. On s’attachera `a justifier autant que possible les r´eponses, tout en ´evitant de faire du « remplissage » ; la note tiendra compte de la qualit´e de la r´edaction.

1

ACP : Psychologie des utilisateurs de smartphones (total 7 points)

On s’int´eresse aux donn´ees issues de l’article « Predicting smartphone operating system from personality and individual differences », paru en d´ecembre 2016 dans le journal Cyberpsychology, Behavior, and Social Networking. Cette ´etude consiste en un questionnaire rempli par 528 personnes utilisatrices soit d’un iPhone soit d’un smartphone sous Android. Le but de l’´etude est de comprendre les diff´erences entre ces personnes. Les variables mesur´ees sont : le type de smartphone (iPhone/Android), le sexe (H/F), l’ˆ age (Age), le souhait de ne pas avoir le mˆeme t´el´ephone que tout le monde (PasMeme), le fait que le t´el´ephone soit une marque de statut (Statut), le statut ` cela s’ajoute les 6 facteurs du mod`ele HEXACO socio-´economique (SSE), la dur´ee de possession du t´el´ephone (Duree). A utilis´e par les psychologues pour d´ecrire la personnalit´e : – Honnˆetet´e-humilit´e (Honet) : sinc´erit´e, ´equit´e, ´evitement de la cupidit´e, modestie ; ´ – Emotivit´ e (Emot) : appr´ehension, anxi´et´e, d´ependance, sensibilit´e ; – Etraversion (Extra) : amour propre social, audace sociale, sociabilit´e, vitalit´e ; – Agr´eabilit´e (Agrea) : indulgence, gentillesse, flexibilit´e, patience ; – Conscience (Cons) : organisation, diligence, perfectionnisme, prudence ; – Ouverture (Ouvert) : appr´eciation esth´etique, curiosit´e, cr´eativit´e, non-conventionnalit´e.

1.1

Premier regard sur les donn´ ees (2 points)

On donne ci-dessous le tableau des corr´elations des donn´ees quantitatives et le tableau de contingence des variables qualitatives. Corr´elation des variables quantitatives Age PasMeme Statut SSE Duree Honet Emot Extra Age 1.00 0.09 -0.25 0.07 0.09 0.26 -0.22 0.11 PasMeme 0.09 1.00 -0.13 0.00 0.01 0.03 -0.14 0.01 Statut -0.25 -0.13 1.00 0.09 -0.16 -0.43 0.17 0.05 SSE 0.07 0.00 0.09 1.00 0.06 0.02 -0.08 0.30 Duree 0.09 0.01 -0.16 0.06 1.00 0.08 -0.07 0.08 Honet 0.26 0.03 -0.43 0.02 0.08 1.00 0.04 0.04 Emot -0.22 -0.14 0.17 -0.08 -0.07 0.04 1.00 -0.15 Extra 0.11 0.01 0.05 0.30 0.08 0.04 -0.15 1.00 Agrea 0.05 -0.11 -0.13 -0.05 0.04 0.34 0.01 0.09 Cons 0.08 0.00 -0.16 0.19 0.00 0.29 0.09 0.05 Ouver 0.17 0.07 -0.23 0.00 0.09 0.06 -0.14 0.16

Table de contingence des variables qualitatives Agrea Cons Ouver 0.05 0.08 0.17 -0.11 0.00 0.07 -0.13 -0.16 -0.23 -0.05 0.19 0.00 0.04 0.00 0.09 0.34 0.29 0.06 0.01 0.09 -0.14 0.09 0.05 0.16 1.00 0.10 0.14 0.10 1.00 0.08 0.14 0.08 1.00

F Android 126 iPhone 233

H 92 77

Question 1: Que peut-on dire des corr´elations en g´en´eral ? Expliquez en particulier pourquoi il est souhaitable que les 6 facteurs du mod`ele HEXACO aient cette propri´et´e. Les corr´elations sont en g´en´eral tr`es faibles puisque la plus grande en valeur absolue (Statut, Honet) vaut −0.43, la seconde ´etant (Agrea, Honet)=0.34. C’est donc en particulier le cas pour les variables du groupe HEXACO qui ont entre elle des corr´elations plus petites que 0.34. Cette propri´et´e est en fait souhaitable dans ce cas, puisqu’on cherche autant que possible un ensemble de traits de caract`ere ind´ependants entre eux. Question 2: Peut-on dire ` a partir de ces donn´ees qu’il y a un lien net entre le type de smartphone et le sexe ? La valeur de la statistique du χ2 pour la table ci-dessus est 16.94. On pourra se reporter ` a la table de χ² ` a la fin du sujet. S’il n’y a pas de lien entre le type de smartphone et le sexe, alors on peut supposer que la statistique du χ2 sera distribu´ee comme une variable du χ2 ` a (2 − 1)(2 − 1) = 1 degr´e de libert´e. Dans ce cas, on cherche la valeur critique ` a 1%, qui est d’apr`es la table 6.635, c’est-` a-dire P (χ21 ≥ 6.635) = 0, 01. Comme la valeur mesur´ee 16.94 est beaucoup plus grande, on peut dire que l’hypoth`ese d’ind´ependance est fausse ` a 1%. On en d´eduit qu’il y a un lien entre le type de smartphone et le sexe. En pratique, les femmes sont plus souvent utilisatrices d’un iPhone que les hommes. J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

1

1.2

Analyse en composantes principales (5 points)

On obtient les donn´ees suivantes par ACP centr´ee-r´eduite des variables quantitatives (5 premiers axes seulement) : corr´elations avec les axes, valeurs propres, valeurs test pour les variables Sexe et System. Corr´elations

Valeurs propres

Comp1 Comp2 Comp3 Comp4 Age 0.57 -0.18 0.17 0.11 PasMeme 0.18 -0.26 0.43 0.49 Statut -0.68 -0.23 -0.34 -0.11 SSE 0.15 -0.51 -0.59 0.26 Duree 0.30 -0.16 0.07 -0.24 Honet 0.68 0.44 -0.14 0.14 Emot -0.31 0.54 -0.36 0.11 Extra 0.28 -0.56 -0.43 -0.24 Agrea 0.41 0.38 -0.25 -0.51 Cons 0.40 0.20 -0.48 0.46 Ouver 0.46 -0.18 0.13 -0.36

Comp5 0.05 0.15 0.11 -0.10 -0.87 -0.02 -0.14 0.13 0.22 0.03 0.27

lambda

Axis1 Axis2 Axis3 Axis4 Axis5 2.11 1.45 1.33 1.08 0.96

Valeurs test pour variables suppl´ementaires Axis1 Axis2 Axis3 Axis4 Axis5 System.Android 5.55 0.35 4.48 1.34 0.50 System.iPhone -5.55 -0.35 -4.48 -1.34 -0.50 Sexe.F -2.66 5.33 -4.70 1.90 -1.15 Sexe.H 2.66 -5.33 4.70 -1.90 1.15

Question 3: Commentez la r´epartition de l’inertie. Combien d’axes principaux voudrait-t-on retenir ? Quelle alors est la qualit´e globale de repr´esentation ? On sait d’apr`es la r`egles de Kaiser qu’on peut conserver les axes associ´es aux valeurs propres sup´erieures ` a 1. On a ici a priori trois axes acceptables, le quatri`eme ´etant tr`es proche de 1. L’inertie expliqu´ee vaut alors 4, 89, soit 44%Ig (l’inertie totale est 11). Cette valeur est assez mauvaise, ce qui n’est pas surprenant au vu des corr´elations mesur´ees. Question 4: Quelles sont les variables qui d´eterminent les axes que l’on retient ? Pr´ecisez les crit`eres utilis´es. Pour rendre la correction plus claire, on donne ici les cercles des corr´elations pour les deux premiers plans principaux, c’est `a-dire (1,2) et (3,4). Il n’est bien sˆ ur pas demand´e de faire cette repr´esentation.

Emot

PasMeme Agrea

Honet

Cons SSE

Cons Emot Honet

Statut

DureeOuver Age PasMeme

Age

Statut Extra

Duree Ouver

SSE Extra

Agrea

On propose de se limiter aux variables pr´esentant une corr´elation sup´erieure ` a 0, 50 pour tout les axes. Cette valeur est plutˆ ot faible, mais peut convenir pour deux raisons – il y a 350 r´epondants ` a l’´etude, ce qui signifie que les corr´elations sont significatives ; – le niveau global de qualit´e est faible, nous ne devons pas nous attendre `a de tr`es bonnes corr´elations. Ceci nous donne les tableaux suivants Axe 2 Axe 3 Axe 1 + + + Statut (−0, 68) Honet (0, 68) Extra (−0, 56) Emot (0, 54) SSE (−0, 59) SSE (−0, 51) Age (0, 57) [Cons (−0, 48)] [Ouver (0, 46)] On remarquera que le choix de retenir Ouver est ici subjectif. Question 5: Comment peut-on interpr´eter les axes ` a partir de la question pr´ec´edente ? L’interpr´etation des axes est plutˆ ot une ´enum´eration des variables, ce qui est normal quand les variables d’origine sont peu corr´el´ees entre elles – L’axe 1 oppose des personnes plus ˆag´ees, honnˆetes/humbles et ouvertes (curieuses, cr´eatives) `a des personnes pour qui le t´el´ephone est une marque de statut social. – L’axe 2 oppose des personnes extraverties au statut socio-´economique ´elev´e `a d’autres ayant une ´emotivit´e forte. – finalement, l’axe 3 est caract´eris´e par des personnes organis´ees `a statut socio ´economique ´elev´e. J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

2

On remarquera que les axes 2 et 3 se ressemblent mais ne contiennent pas exactement les mˆemes personnes. Question 6: est-il possible d’utiliser les valeurs test pour les variables suppl´ementaires ? Avec quels axes les modalit´es sont elles li´ees ? On peut tout `a fait utiliser les valeurs test, puisque les effectifs fournis pour les deux variables sont sup´erieurs `a 30. Les valeurs sup´erieures ` a 2 ou 3 sont celles qui sont int´eressantes. Ici on garde (les valeurs entre 2 et 3 sont gard´ees « `a la limite ») : Axe 1 Axe 2 Axe 3 + + + iPhone (−5.55) Android (5.55) H (−5.33) F (5.33) iPhone (−4.48) Android (4.48) [H (2.66)] H (4.70) [F (−2.66)] F (−4.70) On remarquera d’une part que H/F est peu li´e `a l’axe 1 et d’autre part que le type de smartphone n’est pas li´e `a l’axe 2. Question 7: Que peut-on dire des utilisateurs d’iPhone et de smartphone Android a ` partir de toutes ces informations ? On peut d´ecrire les utilisateurs d’iPhone (par opposition aux utilisateurs de smartphone Android) comme ´etant – plus souvent des femmes, et plutˆ ot plus jeunes – des personnes pour qui le t´el´ephone est une marque de statut social, moins honnˆetes et ouvertes que la moyenne – des personnes plus organis´ees que la moyenne, de SSE plus ´elev´e

2

ACM : histoires de vies 2003 (total 9 points)

De f´evrier ` a avril 2003, l’Insee a r´ealis´e une enquˆete sur la construction des identit´es, appel´ee « Histoire de vie ». 8403 personnes de 18 ans et plus ont ´et´e interrog´ees ` a cet effet. On ne conserve ici que 1880 personnes et 5 variables. Les variables utilis´ees sont – sexe (sex) : femme (f), homme (h) ; – niveau d’´etudes (etud) : aucun (non), primaire (prim), 1er cycle (coll), 2e cycle (lycee), technique ou professionnel court (techc) ou long (techl), sup´erieur (sup) ; – occupation (occup) : exer¸cant une profession (prof), chˆ omeur (chom), retrait´e (retr), au foyer (foyer), autre inactif (inac) ; – qualification (qual) : ouvrier qualifi´e (ouvq) ou sp´ecialis´e (ouvs), technicien (tech), employ´e (empl), profession interm´ediaire (inter), cadre (cadr), autre (autr), sans objet (NA) ; – satisfaction au travail (satis) : oui (oui), non (non), ´equilibr´e (equ), sans objet (NA).

2.1

´ Etude rapide des donn´ ees (1,5 points)

On donne ci-dessous un tableau de Burt partiel (variables qual et satis) avec des valeurs manquantes (marqu´ees NA). qual.autr qual.cadr qual.empl qual.inter qual.NA qual.ouvq qual.ouvs qual.tech satis.equ satis.NA satis.non satis.oui

qual.autr qual.cadr qual.empl qual.inter qual.NA qual.ouvq qual.ouvs qual.tech satis.equ satis.NA satis.non satis.oui 51 0 0 0 0 0 0 0 10 20 1 20 0 256 0 0 0 0 0 0 58 88 12 98 0 0 583 0 0 0 0 0 151 254 35 143 0 0 0 160 0 0 0 0 43 53 11 53 0 0 0 0 257 0 0 0 41 162 7 47 0 0 0 0 0 288 0 0 71 129 24 64 0 0 0 0 0 0 199 0 37 123 15 24 0 0 0 0 0 0 0 NA NA 22 10 26 10 58 151 43 41 71 37 NA NA NA 0 0 20 88 254 53 162 129 123 22 NA NA 0 0 1 12 35 11 7 24 15 10 0 0 115 0 20 98 143 53 47 64 24 26 0 0 0 475

Question 8: Calculez les valeurs manquantes du tableau de Burt. La premi`ere chose `a remarquer est que le tableau de Burt est sym´etrique. On peut donc se contenter de regarder les cases en dessous de la diagonale (diagonale comprise) – (satis.NA, satis.equ) = 0, puisqu’il s’agit d’un terme hors-diagonal de la matrice d’effectifs – on peut obtenir (satis.NA, satis.NA) en sommant toutes les valeurs crois´ees de cette variable, c’est ` a-dire 20 + 88 + 254 + 53 + 162 + 129 + 123 + 22 = 851 – La premi`ere vraie difficult´e est que, comme il n’y a que 2 variables et que ces variables sont toutes les deux incompl`etes, il est n’est pas possible de d´eduire directement la valeur de (qual.tech, qual.tech). Pour y arriver, il faut utiliser le fait que l’effectif total est 1880. On calcule alors l’effectif comme 1880 − 51 − 256 − 583 − 160 − 257 − 288 − 199 = 86 – on d´eduite facilement que (satis.equ, qual.tech) = 86 − 26 − 10 − 22 = 28 – finalement (satis.equ, satis.equ) = 1880 − 851 − 115 − 475 = 439. Finalement, le tableau de Burt est : qual.autr qual.cadr

qual.autr qual.cadr qual.empl qual.inter qual.NA qual.ouvq qual.ouvs qual.tech satis.equ satis.NA satis.non satis.oui 51 0 0 0 0 0 0 0 10 20 1 20 0 256 0 0 0 0 0 0 58 88 12 98

J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

3

qual.empl qual.inter qual.NA qual.ouvq qual.ouvs qual.tech satis.equ satis.NA satis.non satis.oui

0 0 0 0 0 0 10 20 1 20

0 0 0 0 0 0 58 88 12 98

583 0 0 0 0 0 151 254 35 143

0 160 0 0 0 0 43 53 11 53

0 0 257 0 0 0 41 162 7 47

0 0 0 288 0 0 71 129 24 64

0 0 0 0 199 0 37 123 15 24

0 0 0 0 0 86 28 22 10 26

151 43 41 71 37 28 439 0 0 0

254 53 162 129 123 22 0 851 0 0

35 11 7 24 15 10 0 0 115 0

143 53 47 64 24 26 0 0 0 475

a partir de la description des donn´ees, quelle hypoth`ese pouvez vous faire sur les personnes pour lesquelles Question 9: ` satis=NA ? Seules les personnes qui travaillent peuvent ˆetre satisfaites (ou pas) de leur travail. Les autres ne peuvent pas r´epondre ` a cette question de satisfaction. C’est justement `a cela que servent les r´eponses NA (non applicable). Une grande partie de ces personnes sont donc les personnes pour qui occup 6= prof.

2.2

Analyse des correspondances multiples (5,5 points)

On r´ealise une ACM sur les donn´ees compl`etes. On fournit ci-dessous les valeurs propres ainsi que, pour 3 axes, les coordonn´ees sur les axes, les contributions aux axes et la qualit´e de la repr´esentation par les sous-espaces factoriels (en 10000e pour ces deux derniers) pour les cat´egories. Valeurs propres 0.49 0.32 0.30 0.23 0.23 0.22 0.21 0.21 0.20 0.20 0.20 0.19 0.19 0.18 0.18 0.17 0.17 0.14 0.10 0.07 0.00

Coordonn´ees sex.f sex.h etud.coll etud.lycee etud.non etud.prim etud.sup etud.techc etud.techl occup.chom occup.foyer occup.inac occup.prof occup.retr qual.autr qual.cadr qual.empl qual.inter qual.NA qual.ouvq qual.ouvs qual.tech satis.equ satis.NA satis.non satis.oui

Contribution aux axes

Comp1 -0.21 0.26 -0.43 0.23 -1.28 -1.04 0.75 0.29 0.59 -0.76 -1.18 -1.24 0.83 -0.97 0.22 0.73 -0.05 0.57 -0.65 -0.03 -0.75 0.80 0.78 -1.00 0.75 0.90

Comp2 0.68 -0.84 0.08 0.58 -0.15 -0.29 0.61 -0.54 -0.07 0.12 1.27 -0.40 0.00 -0.43 0.63 0.44 0.73 -0.03 0.01 -1.48 -0.36 -0.84 -0.13 0.00 -0.47 0.23

Comp3 0.25 -0.31 0.54 0.12 -0.27 -0.16 -1.09 0.79 0.46 0.49 0.36 0.40 0.19 -0.75 0.09 -1.67 0.71 -0.45 -0.40 0.39 0.39 0.00 0.54 -0.23 0.65 -0.25

sex.f sex.h etud.coll etud.lycee etud.non etud.prim etud.sup etud.techc etud.techl occup.chom occup.foyer occup.inac occup.prof occup.retr qual.autr qual.cadr qual.empl qual.inter qual.NA qual.ouvq qual.ouvs qual.tech satis.equ satis.NA satis.non satis.oui

Comp1 Comp2 Comp3 95 1584 231 118 1962 285 83 5 212 21 208 10 137 3 10 993 121 37 526 536 1851 86 453 1016 99 2 97 163 7 109 514 924 80 274 44 47 1533 0 126 946 286 930 5 67 1 294 169 2532 3 1042 1028 114 0 116 237 0 149 1 2108 152 244 88 106 119 204 0 571 23 447 1853 0 155 141 83 171 829 81 102

Qualit´es de repr´esentation sex.f sex.h etud.coll etud.lycee etud.non etud.prim etud.sup etud.techc etud.techl occup.chom occup.foyer occup.inac occup.prof occup.retr qual.autr qual.cadr qual.empl qual.inter qual.NA qual.ouvq qual.ouvs qual.tech satis.equ satis.NA satis.non satis.oui

Comp1 Comp2 Comp3 525 6180 6956 525 6180 6956 228 237 594 57 425 441 345 350 366 3162 3412 3484 1688 2802 6434 279 1235 3260 263 266 423 430 441 617 1392 3012 3145 706 779 852 8345 8345 8764 3095 3701 5563 13 123 126 838 1150 5563 12 2421 4665 305 306 496 677 677 937 2 3972 4243 672 829 1008 308 648 648 1835 1884 2762 8335 8335 8761 369 511 785 2732 2904 3110

Question 10: Parmi les donn´ees ci-dessus, quelles sont celles pour lesquelles vous pouvez donner les sommes en colonne sans calcul num´erique ? On regarde les 4 familles de donn´ees – les valeurs propres ont pour somme q/p, ou p = 5 est le nombre de variables et q = 26 − 5 = 21 est le nombre de cat´egories mois ne nombre de variables ; la somme vaut donc 21/5 = 4.2 ; – la somme des coordonn´ees n’est pas connue ici ; si chaque ligne avait le mˆeme poids (comme c’est le cas en g´en´eral pour les individus en ACP), alors la somme serait 0, puisque les variables sont centr´ees ; – la somme des contributions aux axes est ´egale `a 1 (ou ici `a 10000 dix-milli`emes) ; – la somme des qualit´es de repr´esentation n’est pas connue. Question 11: Combien d’axes propres faut-il normalement conserver ? Quelle proportion de l’inertie est expliqu´ee par le sous-espace propre correspondant ?

J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

4



pca1$eig

1.5

2.0





1.0

● ● ● ● ● ●

0.5





2

4

6

8

10

Index

La r`egle la plus classique consiste ` a conserver les axes associ´es aux valeurs propres sup´erieures `a 1/p, o` u p est le nombre de variables actives (5 ici, d’o` u une limite de 0.20). On serait amen´e ` a conserver jusqu’` a 11 axes ! Toutefois, on voit bien ici que la d´ecroissance des valeurs propres est tr`es lente. Comme on peut constater un d´ecrochement visible apr`es la troisi`eme valeur propre, il est raisonnable de se contenter de ces 3 premiers axes. Comme on l’a vu plus en question 10, l’inertie totale est Ig = 4.2. En gardant 3 axes, on d´ecrit 0.49 + 0.32 + 0.30 = 1.11 = 26%Ig , ce qui est tr`es faible. Question 12: Quelles sont les cat´egories qui d´eterminent les 3 premiers axes principaux ? (on d´etaillera les crit`eres et on cherchera ` a ˆetre pr´ecis dans la r´eponse). On va raisonner ici en fonction des coordonn´ees. L’analyse ´etant de mauvaise qualit´e, on se restreindra aux cat´egories dont la contribution d´epasse 2 fois le poids. Comme expliqu´e dans le cours, on s’int´eresse aux axes dont la coordonn´ee v´erifie p |aik | > 2 × µk Les limites sur les axes seront respectivement 0.99, 0.80, et 0.78. On classe les ´el´ements par coordonn´ee d´ecroissante. Axe 2 Axe 1 ⊕ ⊕ etud.non (−1.28) qual.ouvq (−1.48) occup.foyer (1.27) occup.inac (−1.24) qual.tech (−0.84) occup.foyer (−1.18) sexe.h (−0.84) etud.prim (−1.04) satis.NA (−1.00) [occup.retr (−0.97)] Axe 3 ⊕ qual.cadre (−1.67) etud.techc (0.79) etud.sup (−1.09) [occup.retr (−0.75)] Question 13: Quelles sont les cat´egories qui sont bien repr´esent´ees sur le sous-espace principal consid´er´e ? Expliquez pourquoi il est logique que ces variables soient bien repr´esent´ees ensemble. La repr´esentation des cat´egories par le premier plan principal peut ˆetre lue dans la troisi`eme colonne du dernier tableau de donn´ees fournie. La repr´esentation est mauvaise, ce qui est coh´erent avec ce que l’on a trouv´e dans la question 11. Les seules variables bien repr´esent´ees (> 8000) sont occup.prof (8764) et statis.NA (8761). On a vu dans la question 9 que ces deux cat´egories sont en quelque sorte oppos´ees, c’est-` a-dire que les gens qui n’ont pas rempli satis sont probablement ceux qui ne travaillent pas. Dans ce sens, comme d´ecrire les gens qui travaillent est ´equivalent ` a d´ecrire les gens qui ne travaillent pas (par d´efaut), ces deux cat´egories de personnes auront tendance ` a ˆetre repr´esent´ees avec la mˆeme qualit´e. Question 14: Comment peut-on d´ecrire et interpr´eter les 3 premiers axes ? – Le premier axe d´ecrit en n´egatif des personnes qui sont en dehors du march´e du travail (inactif, au foyer ou retrait´e) et qui n’ont pour ainsi dire pas fait d’´etudes ; – Le second axe oppose des hommes ouvriers qualifi´es ou techniciens `a (des femmes ?) au foyer ; – le troisi`eme axe oppose des cadres ayant fait des ´etudes sup´erieures (et ´etant ´eventuellement `a la retraite) `a des personnes ayant fait des ´etudes techniques courtes.

J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

5

2.3

Cat´ egories suppl´ ementaires (2 points)

On cherche `a pr´eciser les caract´eristiques des axes en termes d’activit´es ou loisirs. La question pos´ee est : « En dehors du cadre scolaire ou professionnel, au cours des 12 derniers mois, avez-vous pratiqu´e alors que vous n’y ´etiez pas oblig´e(e), l’activit´e ... ». Les activit´es retenues (parmi une liste bien plus grande) sont arbitrairement : ´ecouter du hard-rock (hardrock), lire des bandes dessin´ees (lecture.bd), aller a` la pˆeche ou `a la chasse (peche.chasse), faire la cuisine pour le plaisir (cuisine), bricoler (brico), aller au cin´ema (cinema) et faire du sport (sport). Par ailleurs on mesure le nombre d’heures pass´ees par jour ` a regarder la t´el´evision dans la variable quantitative heures.tv. Les effectifs des cat´egories suppl´ementaires et les valeurs test correspondantes sont donn´ees ci-dessous, ainsi que les corr´elations de heures.tv avec les composantes. Effectifs hardrock.non hardrock.oui lecture.bd.non lecture.bd.oui peche.chasse.non peche.chasse.oui cuisine.non cuisine.oui bricol.non bricol.oui cinema.non cinema.oui sport.non sport.oui

Eff 1868 12 1837 43 1666 214 1054 826 1062 818 1150 730 1246 634

Valeurs test

Corr´elation avec les composantes

Axis1 Axis2 Axis3 hardrock.non -1.05 -0.28 -1.36 hardrock.oui 1.05 0.28 1.36 lecture.bd.non -4.29 -4.04 4.46 lecture.bd.oui 4.29 4.04 -4.46 peche.chasse.non -1.91 9.18 0.22 peche.chasse.oui 1.91 -9.18 -0.22 cuisine.non -0.75 -8.97 -5.73 cuisine.oui 0.75 8.97 5.73 bricol.non -11.18 8.14 2.36 bricol.oui 11.18 -8.14 -2.36 cinema.non -17.76 -8.49 2.21 cinema.oui 17.76 8.49 -2.21 sport.non -13.91 -3.34 4.69 sport.oui 13.91 3.34 -4.69

Axis1 Axis2 Axis3 heures.tv -0.33 -0.09 0.09

Question 15: Justifiez l’utilisation des valeurs-test. Quelles cat´egories suppl´ementaires sont significatives sur les 3 premiers axes ? Comment les interpr´eter ? Les valeurs test permettent de savoir si des cat´egories suppl´ementaires sont corr´el´ees de mani`ere significatives avec les axes principaux. On peut les utiliser si – on les utilise sur des variables qui n’ont pas pris part `a l’analyse : c’est le cas ici ; – les effectifs des cat´egories sont assez importants (> 30) : la seule petite cat´egorie est hardrock.oui (12), mais de toute fa¸con la valeur test associ´ee est trop faible pour ˆetre utile. – on consid`ere une valeur comme significative si elle est sup´erieure `a 2 ou 3 en valeur absolue. Ici, comme les valeurs test sont probantes, on se limitera ` a celles qui sont sup´erieures `a 3. On remarque (ou on sait parce qu’on l’a vu en TD) que les valeurs test relatives ` a oui et non sont identiques au signe pr`es. C’est parce que d´ecrire les gens qui ont une activit´e est ´equivalent `a d´ecrire les gens qui n’ont pas cette activit´e. On reportera donc uniquement les cat´egories oui dans les tableaux ci-dessous, ´etant entendu que les non leur sont oppos´ees. Axe 1 Axe 2 ⊕ ⊕ cinema.oui (17.76) peche.chasse.oui (−9.18) cuisine.oui (8.97) sport.oui (13.91) bricol.oui (−8.14) cinema.oui (8.49) bricol.oui (11.18) lecture.bd.oui (4.04) lecture.bd.oui (4.29) sport.oui (3.34)

Axe 3 ⊕ sport.oui (−4.69) cuisine.oui (5.73) lecture.bd.oui (−4.46) L’interpr´etation peut ˆetre faite de la mani`ere suivante : – axe 1 : les personnes ` a faible niveau d’´etudes et hors du march´e du travail, ne pratiquent pas le cin´ema, le sport, le bricolage et la lecture de bandes dessin´ees. Il est notable qu’aucun des loisirs test´es n’apparaˆıt ici, alors que ces personnes ont du temps libre. – axe 2 : les hommes ouvriers qualifi´es et techniciens pratique la chasse et la pˆeche ainsi que le bricolage, en opposition aux personnes au foyer (peut-ˆetre des femmes), qui elles pr´ef`erent la cuisine, le cin´ema la lecture de BD et le sport. – axe 3 : les cadres ayant fait des ´etudes sup´erieures pratiquent le sport et la lecture de BD bien plus que les personnes qui ont fait des ´etudes techniques courtes, qui elles s’adonnent `a la cuisine. On voit que l’interpr´etation du troisi`eme axe est un peu fragile ici, on aurait peut ˆetre pu se contenter des deux premiers. Question 16: Que peut-on dire de la variable heures.tv ? On peut remarquer que le seul axe avec lequel heures.tv est un peu corr´el´e est le premier. La faiblesse de la corr´elation est beaucoup moins grave que pour des variables actives d’ACP, qui sont sens´ees par construction ˆetre corr´el´ees avec les axes. De plus, le fait que l’effectif total soit tr`es ´elev´e rend les corr´elations exploitables (mˆeme pour les axes 2 et 3, en fait). On peut s’en persuader avec un test statistique, mais nous n’avons pas vu ¸ca en cours. J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

6

On peu interpr´eter ces corr´elations en disant que les personnes inactives identifi´ees sur l’axe 1 ` a la question pr´ec´edente regardent plus que la moyenne la t´el´evision au lieu de pratiquer d’autres activit´es.

3

Calcul direct de l’inertie totale (4 points)

On cherche ` a ´etablir quelques formules pour l’inertie totale d’un nuage de n points de p variables,P sans utiliser la notion p de matrice ou de trace de matrice comme dans le cours. On d´efinit la norme k · kM comme kvk2M = j=1 mj vj2 , pour tout vecteur v = (v1 , . . . , vp )0 . L’inertie totale est alors Ig =

n X

pi kei − gk2M

i=1

o` u ei = (x1i , . . . , xpi )0 repr´esente l’individu i de poids pi et g = (¯ x1 , . . . , x ¯p )0 le centre de gravit´e du nuage. On rappelle qu’il est demand´ e de ne pas faire appel ` a du calcul matriciel dans les d´ emonstrations. Les 2 questions sont ind´ ependantes. Pn Question 17: On rappelle que que la variance σj2 de la variable xj s’´ecrit σj2 = i=1 pi (xji − x ¯j )2 . Montrer que Ig =

p X

mj σj2 .

j=1

En utilisant la d´efinition de la norme, on peut r´ecrire l’inertie totale comme Ig =

n X

n X

pi kei − gk2M =

i=1

pi

i=1

p X

mj (xji − x ¯j )2 .

j=1

En ´echangeant les deux sommes, on obtient Ig =

p X

mj

j=1

n X

pi (xji

j 2

−x ¯ ) =

i=1

p X

mj σj2 .

j=1

a l’axe k ; on peut ´ecrire ei − g = Question 18: Soit c0k = (c1k , . . . , cnk ) la composante principale (de variance λk ) associ´ee ` Pp u les vecteurs ak sont M-orthonorm´es. On admettra que pour tout vecteur v, kv1 a1 +· · ·+vp ap k2M = v12 +· · ·+vp2 . k=1 cik ak , o` Montrer que p X Ig = λk . k=1

On proc`ede comme dans la question pr´ec´edente, mais en repr´esentant chaque individu par ses composantes principales Ig =

n X

pi kei − gk2M =

i=1

n X i=1

pi

p X

c2ik .

k=1

Ici encore, en ´echangeant les sommes, on ´ecrit Ig =

p X n X k=1 i=1

pi c2il =

p X k=1

V(ck ) =

p X

λk .

k=1

J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

7

χ 2

TABLE DU CHI-DEUX : χ2(n)

n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

p

p

0.90

0.80

0.70

0.50

0.30

0.20

0.10

0.05

0.02

0.01

0,0158 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865

0,0642 0,446 1,005 1,649 2,343 3,070 3,822 4,594 5,380 6,179

0,148 0,713 1,424 2,195 3,000 3,828 4,671 5,527 6,393 7,267

0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342

1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781

1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442

2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987

3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307

5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19,679 21,161

6,635 9,210 11,341 13,277 15,086 16,812 18,475 20,090 21,666 23,209

5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443

6,989 7,807 8,634 9,467 10,307 11,152 12,002 12,857 13,716 14,578

8,148 9,034 9,926 10,821 11,721 12,624 13,531 14,440 15,352 16,266

10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337

12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775

14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038

17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412

19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410

22,618 24,054 25,472 26,873 28,259 29,633 30,995 32,346 33,687 35,020

24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566

13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599

15,445 16,314 17,187 18,062 18,940 19,820 20,703 21,588 22,475 23,364

17,182 18,101 19,021 19,943 20,867 21,792 22,719 23,647 24,577 25,508

20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336

23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530

26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250

29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256

32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773

36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962

38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892

Pour n > 30, on peut admettre que

2χ2 -

2n-1 ≈ N(0,1)

J.-M. Lasgouttes — Cours d’analyse de donn´ees 2016-2017 — Universit´e Paris I

8