26 0 3MB
Analyse de données multidimensionnelles (ACP + AFC) Driss BARI
PhD, Ingénieur de R & D Maroc Météo www.baridriss.com [email protected]
1/182
Analyse de données multidimensionnelles (ACP + AFC)
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles
Caractéristiques et Finalités Familles des méthodes
3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP 2/182
Analyse de données multidimensionnelles (ACP + AFC)
Outline 4 Analyse Factorielle de Correspondance (AFC)
But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats
5 Démarche pratique sous SPSS (v25)
Analyse en Composantes Principales Analyse Factorielle de Correspondance
3/182
Analyse de données multidimensionnelles (ACP + AFC) Références bibliographiques
Rèférences bibliographiques GILBERT, Saporta
.
Probabilités, analyse des données et statistique
Editions Technip, Paris, 2006. JOLLIFFE, Ian.
. In : International encyclopedia of statistical science. Springer, Berlin, Heidelberg, 2011. p. 1094-1096..
Principal component analysis
HUSSON, François, LÊ, Sébastien, et PAGÈS, Jérome. Analyse de données avec R. Presses universitaires de Rennes, 2016. Ludovic Lebart, Marie Piron, Alain Morineau Statistique exploratoire multidimensionnelle. Dunod. 1995 EL KHATRI, Said.
.
Analyse descriptive des données multidimensionnelle (ACP + AFC)
Manuel de cours. EHTP. 2016.
4/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles
Caractéristiques et Finalités Familles des méthodes
3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)
5/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Caractéristiques
1
Systématise les démarches de la statistique descriptive unidimensionnelle et bidimensionnelle Lois de probabilité, Calculs statistiques usuels Hypothèses, Tests statistiques, Courbes, Projections planes,
6/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Caractéristiques
2
Utilise un grand nombre d'informations pour expliquer ou prévoir le comportement d'un phénomène x1 = f (y1 , ..., yp ) (x1 , ..., xq ) = f (y1 , ..., yp )
Règle décisionnelle pour prévoir la modalité d'une variable qualitative à l'aide de plusieurs variables quantitatives
7/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Caractéristiques
3
Permet la description synthétique d'un phénomène (déni par plusieurs paramètres) Décomposition élémentaire du phénomène Rendre plus facile par la réduction du nombre de données et d'équations Par l'interprétation de graphes simples (projection planes, courbes, etc.).
8/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Caractéristiques
4
Utilise les techniques multidimensionnelles de l'algèbre linéaire en raison du volume de données à analyser Traitement des vecteurs, matrices, géométrie ....
9/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Caractéristiques
5
Ne peut se faire, à priori, sans l'aide des moyens informatiques logiciels statistiques (R, SPSS, SAS, etc.),
librairies mathématiques (Factominer, etc.), logiciels graphiques (R, etc.)
10/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Caractéristiques
6
Nécessite l'interprétation, l'analyse du professionnel connaisseur des données à traiter
11/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités
Finalités de l'analyse des données multidimensionnelles
Finalité
Avec l'analyse multidimensionnelle, on accepte une légère perte en information an d'obtenir un grand gain en signication
12/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles
Caractéristiques et Finalités Familles des méthodes
3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)
13/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Familles des méthodes d'analyse des données multidimensionnelles
Analyse inférentielle (ou décisionnelle) Analyse descriptive
14/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Analyse inférentielle (ou décisionnelle)
Rôle :
Etendre les propriétés constatées sur un échantillon à toute la population et vérier, éventuellement, l'adéquation des hypothèses
Méthodes décisionnelles classiques multidimensionnelles : La Régression Multiple : Une variable quantitative à expliquer par p autres variables quantitatives
L'Analyse Discriminante : Une variable qualitative à expliquer à l'aide de p variables quantitatives.
15/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Analyse statistique descriptive Rôle :
Ressortir des propriétés de l'échantillon étudié Suggérer des hypothèses sur les données.
Méthodes multidimensionnelles :
Méthodes factorielles: pour réduire le nombre de variables
à analyser
Analyse en Composantes Principales ACP :
Description de la variabilité de p variables quantitatives
Analyse Factorielle des Correspondances AFC:
Description de la liaison entre 2 ou plusieurs variables qualitatives
Classication Automatique : pour réduire le
à analyser (Répartition de n individus en k classes tel que dans chaque classe, les individus se ressemblent ) nombre d'individus
16/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Rappel de statistique de base Notions de base Deux types de variables : Population (limitée ou de grande taille) : ensemble des individus à étudier.
Echantillon : partie de la population (n individus) sur laquelle est eectuée l'étude.
Individus : appartenant à la population Variable (caractère) : caractéristique des individus, dénie sur la population.
17/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Rappel de statistique de base
Notions de base
Variable quantitative : valeurs réelles discrète
(exemple : âge, nombre d'enfants) (exemple : taille, température)
continue
Variable qualitative :
(exemple: couleur [jaune, vert, ..], type de brouillard [radiatif, evaporation, mélange, ...]) ordinale (exemple: taille de voiture [petite, moyenne, grande]). nominale
18/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Rappel de statistique de base Moyenne :
Variable centrée : x=
n 1X
n
xi
i=1
xc = x − x avec xc = 0
Variable normée (réduite) :
Variance : sx2 =
1 n
y= n X
(xi − x)2
i=1
Ecart type :
x avec sy = 1 sx
Variable centrée-réduite : y=
x −x avec y = 0 et sy = 1 sx
v u n u1 X (xi − x)2 sx = t n i=1
19/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Rappel de statistique de base Variable quantitative
Exemple de représentation graphique
20/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Rappel de statistique de base Analyse de la liaison entre 2 variables quantitatives Covariance : sxy =
n 1X
n
(xi − x)(yi − y )
i=1
Corrélation : r (x, y ) =
sxy sx sy
−1 ≤ r (x, y ) ≤ 1
L'équation de régression linéaire liant deux variables x et y s'écrit sous la forme s y=
y
sx
r (x, y ).x + b
Le carré du coecient de corrélation r (x, y )exprime le pourcentage de variance expliquée 2
21/182
Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes
Rappel de statistique de base Analyse de la liaison entre 2 variables quantitatives Représentation graphique
22/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
23/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP
But de l'ACP
But de l'ACP
descriptive qui permet de résumer, synthétiser ou condenser le comportement de p variables quantitatives (observées n L'ACP est une méthode
fois).
24/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP
Exemple élémentaire On considère l'échantillon constitué par : 16 pays (ou individus) sur lesquels on a relevé les valeurs de deux variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA) en 1970
25/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP
Exemple élémentaire On considère l'échantillon constitué par : 16 pays (ou individus) sur lesquels on a relevé les valeurs de deux variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA) en 1970
25/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP
Exemple élémentaire On considère l'échantillon constitué par : 16 pays (ou individus) sur lesquels on a relevé les valeurs de deux variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA) en 1970
26/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP
Exemple élémentaire Transformation linéaire et orthogonale
Repère initial = (ANA,EVI) =⇒ Nouveau repère = (progrès, déphasage entre ANA et EVI)
27/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
28/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données
Tableau de données L'ACP s'intéresse à des tableaux de données rectangulaires avec des individus en lignes et des variables quantitatives en colonnes.
x11 . X = . . xn 1 xij xj X t X P
= n1 Xt X
p variables . . . . . xij . . . .
. x1 p . . . . . . . xnp
n Individus
est la i observation ( individu) de la j variable est la j variable quantitative avec j = 1, p est la matrice des individus (observations) est la matrice transposée de X est la matrice de variance-covariance entre les variables 29/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données
Caractéristiques d'un ensemble de modèles de voitures Modèle
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
Honda Civic
1396
90
174
850
369
166
Renault19
1721
92
180
965
415
169
Fiat Tipo
1580
83
170
970
395
170
Peugeot 405
1769
90
180
1080
440
169
Renault21
2068
88
180
1135
446
170
Citroen BX
1769
90
182
1060
424
168
BMW530i
2986
188
226
1510
472
175
Rover827i
2675
177
222
1365
469
175
Renault25
2548
182
226
1350
471
180
Opel Oméga
1998
122
190
1255
473
177
Peugeot 405 Break
1905
125
194
1120
439
171
Ford sierra
1993
115
185
1190
451
172
BMW325iX
2494
171
208
1300
432
164
Audi 90 quattro
1994
160
214
1220
439
169
Ford Scorpio
2933
150
200
1345
466
176
Renault Espace
1995
120
177
1265
436
177
Nissan Vanette
1952
87
144
1430
436
169
VW Caravelle
2109
112
149
1320
457
184
FORd Fiesta
1117
50
135
810
371
162
Fiat Uno
1116
58
145
780
364
155
Peugeot 205
1580
80
159
880
370
156
Peugeot205 Rallye
1294
103
189
805
370
157
Seat Lbiza SXI
1461
100
181
925
363
161
Citroen AX sport
1294
95
184
730
350
160
30/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données
Caractéristiques d'un ensemble de modèles de voitures On dispose ainsi de :
24 individus (lignes) : modèles de voitutres
6 variables (colonnes) : Cylindrée, Puissance, Vitesse (km/h), Poids (kg), Longueur (cm) et Largeur (cm) =⇒ Tableau de données est de la forme 24 x 6 (individus x variables).
Question
Analyser les caracteristiques de cet ensemble de 24 modèles de voitures selon les 6 critères ? 31/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données
Caractéristiques d'un ensemble de modèles de voitures On pourrait penser à : Analyser la variation d'un critère à l'autre pour chaque modèle de voitures i (i = 1, 24) Modèle Honda Civic
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
1396
90
174
850
369
166
Analyser la variation d'un modèle de voiture à l'autre pour chaque critère j (j = 1, 6) Modèle Cylindrée
Honda Civic
Renault19
Fiat Tipo
...
Seat Ibiza SXI
Citroen AX
1396
1721
1580
...
1461
1294
32/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données
Caractéristiques d'un ensemble de modèles de voitures On pourrait penser à : Analyser la variation d'un critère à l'autre pour chaque modèle de voitures i (i = 1, 24) Modèle Honda Civic
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
1396
90
174
850
369
166
Analyser la variation d'un modèle de voiture à l'autre pour chaque critère j (j = 1, 6) Modèle Cylindrée
Honda Civic
Renault19
Fiat Tipo
...
Seat Ibiza SXI
Citroen AX
1396
1721
1580
...
1461
1294
Question Pourquoi faut il éviter cette méthode ?
32/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données
Caractéristiques d'un ensemble de modèles de voitures On pourrait penser à : Analyser la variation d'un critère à l'autre pour chaque modèle de voitures i (i = 1, 24) Modèle Honda Civic
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
1396
90
174
850
369
166
Analyser la variation d'un modèle de voiture à l'autre pour chaque critère j (j = 1, 6) Modèle Cylindrée
Honda Civic
Renault19
Fiat Tipo
...
Seat Ibiza SXI
Citroen AX
1396
1721
1580
...
1461
1294
Question Pourquoi faut il éviter cette méthode ? si p et/ou n est grand, la méthode devient complexe et lourde si des couples de variables sont corrélés ou anti-corrélés, l'analyse sera redondante 32/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
33/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Problématique et Objectifs de l'ACP Le tableau de données est vu comme un ensemble de lignes ou de colonnes.
Etude des individus (lignes)
Quand dit-on que 2 individus se ressemblent du point de vue de l'ensemble des variables ? Est-il possible de mettre en évidence une typologie des individus ?
Etude des variables (colonnes)
Quand dit-on que 2 variables sont liées (positivement ou négativement) entre elles ? Est-il possible de mettre en évidence une typologie des variables ?
Typologie ≡ construction d'une partition (groupe) d'individus homogènes du point de vue l'ensemble des variables. 34/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Problèmatique et Objectifs de l'ACP Tenant compte des ressemblances des individus et des liaisons entre variables, l'ACP tente de répondre à la question :
Est-il possible de résumer toutes les données par un nombre restreint de valeurs sans perte d'information importante ? Objectifs de l'ACP 1
2
Descriptif - exploratoire : Rendre l'information plus facile à
analyser. Ceci par visualtion des données par des graphes simples
Synthèse : Condenser l'information contenue dans de grands
tableaux individus x variables (en réduisant le nomnbre de données à analyser)
35/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Nuage des Individus 1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions
36/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Nuage des Individus 1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions Notion de ressemblance Deux individus se ressemblent, ou sont proches, s'ils possèdent des valeurs proches pour l'ensemble des variables. Cette proximité ou cette ressemblance se traduit par une distance entre deux individus i et i 0 . Dans le cas d'une métrique euclidienne : d 2 (i, i 0 ) =
X (xij − xi 0 j )2 j
Dans le cas général, d 2 (i, i 0 ) = (Ai − Ai 0 )t M(Ai − Ai 0 )
où M est une matrice symétrique dénie positive de taille p 37/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Centrage - réduction des données Centrer les données ne modie pas la forme du nuage ⇒ Toujours centrer
Réduire les données est indispensable si les unités de mesure sont diérentes d'une variable à l'autre xij −→
xij − x¯j sj
La réduction conduit à accorder la même importance à chaque variable. Son importance est proportionnelle à son écart-type. Notation :
38/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Ajustement du nuage des individus
L'ACP vise à fournir une image simpliée du nuage des individus la plus dèle possible ⇐⇒ Trouver le sous-espace qui résume au mieux les données.
Qualité de l'image :
Restitue dèlement la forme générale du nuage Meilleure représentation de la diversité et de la variabilité Ne perturbe pas les distances entre individus
39/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Ajustement du nuage des individus : Exemple Approche de réponse (par analogie)
Devinez quels sont les objets dont la projection plane est :
40/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Ajustement du nuage des individus : Exemple Réponse
41/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Ajustement du nuage des individus : Exemple Approche de réponse (par analogie)
Pour décrire l'allongement d'un objet : L'espace de dimension 1 peut être susant : (tuyau)
L'espace de dimension 2 est nécessaire et susant : (feuille de papier)
L'espace de dimension 2 est acceptable mais pas très susant : (bateau)
42/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Ajustement du nuage des individus : Exemple Approche de réponse (par analogie)
Devinez sachant que la projection plane est :
43/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Ajustement du nuage des individus : Exemple Réponse : Un chameau
44/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Notion d'inertie
L'information donnée sur la dispersion des points constituant un objet dans un espace de dimension p est : très lisible lorsqu'on projette cet objet sur les axes (ou plans) de plus grand allongement, et très peu importante en projection sur les axes de très faible allongement.
45/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Notion d'inertie L'objet décrit dans l'exemple d'analogie est, dans notre cas, un nuage de n points dans l'espace de dimension inférieur à p
La dispersion du nuage de points est mesurée par son inertie par rapport au centre de gravité : In =
n 1X
n
i=1
n X 1X p
~ i ||2 = ||OA
n
i=1 j=1
xij2 =
p X
sj2
j=1
allongement ≡ dispersion ≡ variance ≡ inertie
46/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP
Ajustement du nuage des individus Comment trouver la meilleure image approchée du nuage ? 1
2
Trouver l'axe (facteur) qui déforme le moins possible le nuage
Tourver le meilleur plan : maximiser i (OHi ) avec Hi ∈ plan . Le meilleur planPcontient le meilleur axe ; on cherche u ⊥ u et maximisant i (OHi ) . P
2
2
1
2
3
On peut chercher un 3eme axe, etc. d'inertie maximum 47/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
48/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Principe de l'ACP
Le principe de l'ACP consiste à représenter le nuage des n points dans un espace (O, u~1 , u~2 , ..., u~p )
qui permettra, en des projections dans l'espace engendré par un nombre réduit de vecteurs , de montrer les plus grands allongements de ce nuage. (O, u~1 , u~2 , ..., u~q )
avec
qp
49/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthode de détermination des CP On travaille sur des données centrées :
50/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthode de détermination des CP On cherche des transformations linéaires orthogonales entre elles sur la base du critère de la maximisation de la variance. Etape 1: Recherche de l'axe u~ (unitaire) tel que le nuage des points a une variance (allongement) maximale sur cet axe 1
51/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthode de détermination des CP Etape 2:
Recherche de l'axe u~ (unitaire) tel que : 2
u~1 ⊥ u~2
le nuage de point a le plus grand allongement sur u~
2
Etape k:
Recherche de l'axe u~k (unitaire) tel que : u~k ⊥ u~l ∀l ≤ k − 1 le nuage de point a le plus grand allongement sur u~k
52/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthode de détermination des CP Les vecteurs directeurs des axes recherchés sont les vecteurs propres P de la matrice de variance covariance (i.e. matrice d'inertie). Ces vecteurs unitaires sont rangés dans l'ordre décroissant des valeurs propres associées : u~1 , u~2 , ..., et u~p
avec
λ1 > λ2 > ... > λp
Rappel Le calcul des valeurs propres et des vecteurs propres peut s'eectuer en résolvant les sytèmes suivants : P Valeurs propres λ : det( − λI) = 0 P Vecteurs propres U ; U = λU 53/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthode de détermination des CP
Remarque : La nouvelle base est orthonormée.
54/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthode de détermination des CP
55/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Formule de changement de base
Les composantes principales sont des combinaisons linéaires des variables initiales:
56/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Propriétés des composantes principales Propriété de la moyenne : zk =
p X
ajk x j =
j=1
p X
ajk x j = 0 car x j = 0
j=1
Les composantes prinicpales sont centrées.
Propriété de la variance :
Soit Dλ la matrice diagonale des valeurs propres. La matrice de variance-covariance des composantes principales est : X 1 t 1 t t t n
On en déduit :
Z Z=
n
U X XU = U
var (z k ) = λk
Propriété de la corrélation :
U = Dλ
∀k = 1, p
r (z l , z k ) = 0 ∀ l 6= k
Les composantes principales ne sont pas corrélées entre elles.
57/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Variance totale
58/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Variance expliquée : Qualité d'ajustement du nuage
59/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Variance expliquée : Qualité d'ajustement du nuage Sous SPSS : Total = Valeur propre
60/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Variance résiduelle
61/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Approximation de la reconstitution des variables initiales
62/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthodes pour déterminer q 1. Critère de la valeur propre moyenne (mean eigenvalue): Ne garder que les axes tel que : p 1 1 1X λk > ⇐⇒ λk > tr (D) = λj tr (D) p p p j=1
p=6 ←→
1
p
= 16.6%
λ1 = 4.656 ←→
λ1 tr (D)
= 77.6%
λ2 = 0.915 ←→
λ2 tr (D)
= 15.254%
Une seule composante à retenir !!! 63/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthodes pour déterminer q 2. Critère de variance expliquée (variance explained criteria): On se xe un maximum de perte d'information : exemple 5% ou 10% de variance résiduelle. On retiendra par exemple les q premières composantes principale tel que Q = 90% On retient dans notre exemple DEUX composantes principale.
64/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthodes pour déterminer q 3. Critère de KAISER : Lorsque les données sont centrées réduites, on retient les composantes principales tel que λk > 1 pour k ≤ q Une seule composante à retenir !!!
65/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés
Méthodes pour déterminer q 4. Critère de CATTEL (critère de coude - the scree plot) : On retient les q premières CP tel que l'apport en variance des dernières CP est remarquablement plus faible par rapport aux premières. On retient dans notre exemple DEUX composantes principale.
66/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
67/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Projections planes Nécessité d'utiliser plusieurs projections planes sur R . On se limite souvent aux plans (O, u~ , u~ ), (O, u~ , u~ ), et (O, u~ , u~ ). 2
1
1
3
2
2
3
Les points Aj et Ak paraissent très proches sur le plan (O, u~ , u~ ). Mais en réalité, ils sont très éloignés dans l'espace. 1
3
La projection sur le plan (O, u~ , u~ ) le montre facilement. 1
2
L'analyse est meilleure lorsque les contributions sont élevées. 68/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Projection plane des individus (observations)
Qualité de représentation d'un individu sur un plan Il ne faut commenter la position d'un individu sur un plan que s'il est bien représenté sur ce plan. Mais, Comment peut-on juger la qualite de représentation d'un individu sur un plan ?
69/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Qualité de représentation d'un individu sur un plan
70/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Qualité de représentation d'un individu sur un plan Modèle
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
CP1
CP
Honda Civic
-0,97
-0,61
-0,36
-1,13
-1,27
-0,37
-0,92
0,3
Renault19
-0,35
-0,56
-0,12
-0,63
-0,16
0,02
-0,35
-0,1
Fiat Tipo
-0,62
-0,79
-0,52
-0,61
-0,64
0,15
-0,59
-0,4
Peugeot 405
-0,26
-0,61
-0,12
-0,13
0,45
0,02
-0,12
-0,4
Renault21
0,31
-0,66
-0,12
0,10
0,59
0,15
0,08
-0,6
Citroen BX
-0,26
-0,61
-0,04
-0,22
0,06
-0,11
-0,23
-0,2
BMW530i
2,05
1,92
1,70
1,73
1,22
0,81
1,79
0,8
Rover827i
1,46
1,63
1,54
1,10
1,15
0,81
1,45
0,7
Renault25
1,22
1,76
1,70
1,04
1,20
1,46
1,56
0,6
Opel Oméga
0,17
0,21
0,27
0,63
1,24
1,07
0,68
-0,7
Peugeot Break
0,00
0,29
0,43
0,04
0,42
0,28
0,27
0,1
Ford sierra
0,16
0,03
0,08
0,34
0,71
0,41
0,34
-0,4
BMW325iX
1,11
1,48
0,99
0,82
0,25
-0,63
0,77
1,3
Audi 90 quattro
0,17
1,19
1,23
0,47
0,42
0,02
0,64
1,1
Ford Scorpio
1,95
0,94
0,67
1,02
1,07
0,94
1,27
-0,1
Renault Espace
0,17
0,16
-0,24
0,67
0,35
1,07
0,42
-0,9
Nissan Vanette
0,09
-0,69
-1,55
1,39
0,35
0,02
-0,01
-1,8
VW Caravelle
0,38
-0,04
-1,35
0,91
0,86
1,98
0,55
-2,4
FORd Fiesta
-1,49
-1,64
-1,91
-1,31
-1,22
-0,89
-1,59
-0,9
Fiat Uno
-1,50
-1,44
-1,51
-1,44
-1,39
-1,81
-1,70
-0,0
Peugeot 205
-0,62
-0,87
-0,96
-1,00
-1,25
-1,68
-1,19
0,4
Peugeot Rallye
-1,16
-0,28
0,23
-1,33
-1,25
-1,55
-1,04
1,5
Seat Lbiza SXI
-0,84
-0,35
-0,08
-0,81
-1,42
-1,02
-0,88
0,9
Citroen sport
-1,16
-0,48
0,04
-1,65
-1,73
-1,15
-1,20
1,3 71/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Qualité de représentation d'un individu sur un plan
72/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Qualité de représentation d'un individu sur un plan Le but de l'ACP est de trouver la meilleure image approchée du nuage : en cherchant la premier axe factoriel qui déforme le moins possible le nuage (OHi ) est grand ⇐⇒ (AHi ) est petit ~ i , OH ~ i ) est petit. (Pythagore) ⇐⇒ l'angle (OA 1
2
2
2 2 ~ i , OH ~ i ) = OHi = Pzik cos 2 (OA 2 OA2i k zik
=
L'inertie totale du nuage s'écrit In =
n X i=1
Inertie de Ai suivant l 0 axe Fk Inertie de Ai
p n n X n X X 1 2 X 1 2 X Ink (i) In(i) = OAi = z = n n ik i=1
i=1 k=1
i=1 k=1
avec In(i) est l'inertie de l'individu Ai et Ink (i) est l'inertie de Ai suivant l'axe Fk
73/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Qualité de représentation d'un individu sur un plan 2
puis trouver P le meilleur plan contenant le premier axe factoriel maximisant i (OHi ) . Par analogie, on trouve facilement : 2
2 ~ i , plan(Fk , Fl )) = OHi cos 2 (OA OA2i
=
Inertie de Ai suivant le plan (Fk , Fl ) Inertie de Ai zik2 + zil2 = P 2 k zik ~ i , Fk ) + cos 2 (OA ~ i , Fl ) = cos 2 (OA
3
On peut chercher un 3eme axe, etc. d'inertie maximum 74/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Qualité de représentation d'un individu sur un plan Régle empirique du seuil de la qualité de représentation Il faut commenter la position d'un individu sur un plan (Fk , Fl ) que s'il ~ i , plan(Fk , Fl )) n'est est bien représenté sur ce plan ⇐⇒ cos (OA pas faible (au delà de 0.25). 2
~ i , plan(Fk , Fl )) = Par rapport à un plan (Fk , Fl ) on a : cos(OA
OHi OAi
.
~ i , plan(Fk , Fl )) = 1 ⇐⇒ l'angle est nul ⇐⇒ Ai est sur le Pour un cos(OA plan (Fk , Fl ) ⇐⇒ aucune perte d'information (100%) . ~ i , OH ~ i ) = 0.5 ⇐⇒ angle=60o ⇐⇒ 50% de l'information. Pour un cos(OA 75/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Qualité de représentation d'un individu sur un plan cos 2 /F1
cos 2 /F2
Qualité
Honda Civic
0,88
0,02
0,90
Renault19
0,66
0,02
0,68
Fiat Tipo
0,76
0,09
0,85
Peugeot 405
0,11
0,31
0,42
Renault21
0,03
0,42
0,45
Citroen BX
0,48
0,08
0,56
BMW530i
0,94
0,04
0,98
Rover827i
0,94
0,06
1,00
Renault25
0,94
0,03
0,97
Opel Oméga
0,67
0,18
0,85
Peugeot 405 Break
0,62
0,04
0,66
Ford sierra
0,63
0,22
0,85
BMW325iX
0,50
0,32
0,82
Audi 90 quattro
0,57
0,34
0,91
Ford Scorpio
0,92
0,00
0,92
Renault Espace
0,45
0,42
0,86
Nissan Vanette
0,00
0,64
0,64
VW Caravelle
0,19
0,73
0,92
FORd Fiesta
0,93
0,06
1,00
Fiat Uno
0,98
0,00
0,98
Peugeot 205
0,89
0,02
0,91
Peugeot205 Rallye
0,70
0,29
0,99
Seat Lbiza SXI
0,79
0,17
0,96
Citroen AX sport
0,78
0,19
0,96
Modèle
76/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus
Contribution d'un individu à la construction d'un plan La contribution d'un individu i à la construction d'un axe Fk est donnée par z2 CTRk (i) = Pn ik
2
i=1 zik
(x 100)
Ainsi, les éléments ayant une forte coordonnée contribuent le plus. Remarque pratique Les observations projetées loin du centre (O ) qui méritent plus d'attention car leur contribution au calcul de la variance est grande
77/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
78/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation Notion de Laision entre variables Deux variables sont liées si elles ont un fort coecient de corrélation linéaire (positive ou négatif) r (x k , x l ) =
cov (x k , x l ) sx k sx l
1 variable ≡ 1 point dans un espace de n dimensions cos(θkl ) =
P < xk, xl > i xik xil p pP = P k l 2 2 ||x ||.||x || i xik i xil
Comme les variables sont centrées :
cos(θkl ) = cos(x k , x l ) = r (x k , x l ) Si variables réduites ⇒ points sur une
de rayon 1.
hypersphère 79/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation cos(θ(A, B)) = r (A, B) vrai dans l 0 espace cos(θ(A, B)) ≈ r (A, B) si les variables sont bien projet e´es
Seules les variables bien projetées peuvent être interprétées !
80/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation
La qualité de représentation d'une variable sur un plan Fkxl est mesurée par le cosinus carré de l'angle fait par la variable avec ce plan : r (x j , z k ) + r (x j , z l ) 2
2
81/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation Si la variable x est sur le cercle de corrélation sur le plan (F , F ), elle est dite qu'elle est parfaitement représentée. D'après Pythagore 1
1
2
2 2 x11 + x12 = 1 = ||x1 || =
X
x12j
j
on déduit ainsi que x1j = 0 ∀j > 2
82/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation
83/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation
Projection des variables La corrélation entre deux variables x m et x j est donnée par la lecture ~ m ; OA ~ j ) à condition que les points graphique du cosinus de l'angle (OA kl kl j Am et A soient proches du cercle de corrélation . kl kl Quelques exemples : θ=0 θ = π/2 θ=π
variables parfaitement corrélées variables parfaitement décorrélées variables parfaitement anti-corrélées
r (x m , x j ) = 1 r (x m , x j ) = 0 r (x m , x j ) = −1
84/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées X 2 et X 3
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées X 2 et X 4
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées X 6 et X 7
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire X 1 et z k
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire X 1 et z k sont corrélées
X 4 et z k
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire X 1 et z k sont corrélées
X 4 et z k sont anti-corrélées X 6 et z k
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées
X 2 et X 3 sont non corrélées
X 2 et X 4 sont anti-corrélées
X 6 et X 7 on ne peut rien dire X 1 et z k sont corrélées
X 4 et z k sont anti-corrélées X 6 et z k sont non corrélées
85/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation Jeu des corrélations entre variables de l'exemple du cours
86/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables
Projection des variables : Cercle de correlation
87/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
88/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Interprétation des CP 1
Donner un sens à chaque axe factoriel en étudiant les variables initiales fortement corrélées (positivement ou négativement) avec cet axe. Recherche lexicale (ou recherche de mots) qui peut résumer un ou des groupe(s) de variables initiales . . . Ce sont les éléments extrêmes, éventuellement opposés, qui concourent à l'élaboration des axes L'interprétation est parfois compliquée à cause de la combinaison de plusieurs variables initiales; d'où la nécessité de bien connaitre les données de base Si l'interprétation des variables n'est pas évidente, il faut alors donner un sens à l'axe à partir des individus qui ont les coordonnées extrêmes.
2
Interpréter la position des individus par rapport aux sens des axes.
89/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Interprétation des CP Toutes les variables sont corrélées à F . Comment interpréter le premier axe ? Comment interpréter le deuxième axe ? 1
90/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Interprétation des CP
Eet de taille
Les variables sont toutes de même côté de l'axe. Elles contribuent toutes dans le même sens à la construction de l'axe
Eet de forme
Deux groupes de variables opposées : celles qui contribuent positivement à l'axe, et celles qui contribuent négativement
91/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Interprétation des CP Qualité d'ajustement par le meilleur plan (F , F ) est 92.85% 1
2
92/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Interprétation des CP
Sens des axes factoriels :
Premier Axe Factoriel :
La performance générale du modèle de voiture Deuxième Axe Factoriel :
Opposition entre la puissance du moteur et la forme du modèle de voiture
93/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Interprétation des individus grâce aux variables
94/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP
Interprétation des CP
Analyse des individus grâce aux variables et leur possible typologie :
les berlines, grosses puissantes et de grandes dimensions et les citadines de faible dimensions et peu puissantes
Axe 1 : Opposition entre
les voitures familiales volumineuses mais lentes et les voitures sportives moins larges et roulant vite et puissante
Axe 2 : Opposition entre
95/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
96/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP
Les données sont-elles factorisables ?
1
Plusieurs variables sont corrélées (ou anti-corrélées) ? Analyse de la matrice de corrélation.
97/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP
Les données sont-elles factorisables ? 2
L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ? C'est le rapport :
somme des corr e´lations au carr e´ somme des corr e´lations partielles au carr e´ 0,50 et moins =⇒ misérable entre 0,60 et 0,70 =⇒ médiocre entre 0,70 et 0,80 =⇒ moyen entre 0,80 et 0,90 =⇒ méritoire plus que 0,9 =⇒ merveilleux.
98/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP
Les données sont-elles factorisables ? 3
La signication de Bartlett tend vers 0 ?
(test de sphéricité) Comparer la matrice de corrélation à la matrice identité à l'aide de Khi2. Si la signication de Bartlett : tend vers 0 =⇒ c'est très signicatif, inférieur à 0.05 =⇒ signicatif, entre 0.05 et 0.10 =⇒ acceptable au dessus de 0.10 =⇒ on rejette.
99/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP
Les données sont-elles factorisables ? Pratique 1
2
3
Plusieurs variables continues sont corrélées (ou anti-corrélées) ? (linear relationship) L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ? (sampling adequacy) La signication de Bartlett tend vers 0 ? (suitable for data reduction)
En pratique: Les données sont factorisables si au moins 2 conditions parmi ces 3 conditions sont favorables. 100/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP
Choix de la matrice Ω ou
P
?
101/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP
Diagonalisation de
P
pour p n?
102/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Quelques exemples d'application de l'ACP
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)
But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP
4 Analyse Factorielle de Correspondance (AFC)
103/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Quelques exemples d'application de l'ACP
Quelques exemples d'application de l'ACP
Lissage des données initiales Xe =
q X
z k Uk
k=1
Reconstitution des données manquantes Aide à alléger les modèles de prévision statistique
104/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) But de l'AFC
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)
But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats
5 Démarche pratique sous SPSS (v25) 105/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) But de l'AFC
But de l'AFC
But de l'AFC L'AFC est une méthode qui permet de décrire entre
descriptive
la liaison (ou correspondance)
deux variables qualitatives.
106/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Tableau de données
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)
But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats
5 Démarche pratique sous SPSS (v25) 107/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Tableau de données
Tableau de données : Contingence L'AFC s'intéresse à des tableaux de données rectangulaires avec : n modalités en lignes d'une variable qualitative I p modalités en colonnes de la deuxième variables qualitative J décrivant un ensemble de k individus. kij : l'eectif de la classe (I = i, J = j) P ki. = j kij : Total marginal de I = i P k.j = i kij : Total marginal de J = j
108/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Tableau de données
Appréciation d'un lm selon l'âge des spectateurs
Analyse de l'appréciation d'un lm selon l'âge de 1357 individus : I = âge avec n = 7 modalités (16-24,25-34,35-44,45-54,55-64,65-74,75+) J = appréciation avec p = 4 modalités (mauvais,moyen,bon,très bon)
109/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)
But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats
5 Démarche pratique sous SPSS (v25) 110/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC
Problématique et Objectifs de l'AFC Objectif : Analyse du tableau de contingence Analyser la liaison entre l'âge et l'appréciation ? Analyser le lien entre une classe d'âge et une classe d'appréciation ? Analyser les diérentes modalités de l'âge ? et celles de l'appréciation ?
111/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC
Problématique et Objectifs de l'AFC
Question : Que peut-on dire des eectifs 41 (i=16-24 et j=très bon) et 40 (i=75+ et j=Mauvais) ?
112/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC
Problématique et Objectifs de l'AFC
Question : Que peut-on dire des eectifs 41 (i=16-24 et j=très bon) et 40 (i=75+ et j=Mauvais) ? Une analyse visuelle des chires du tableau de contingence peut induire alors en erreur. 112/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC
Tableau des fréquences fij = kij : fréquence de la classe (I = i, J = j) fi. : fréquence marginale de (I = i) = poids de la ligne i f.j : fréquence marginale de (J = j) = poids de la colonne j k
113/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC
Tableau des fréquences : Notion de poids Le poids des lignes varie de 4.6% pour [75+] à 20.3% pour [35-44] Le poids des colonnes varie de 7.2% pour [Bon] à 60% pour [Mauvais]
114/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC
Objectif de l'AFC
Objectif Tenant compte de la variabilité des poids de lignes et de colonnes dans le tableau des fréquences, l'AFC vise à étudier
la liaison entre les variables qualitatives I et J en étudiant l'écart entre les données observées et le modèle d'indépendance
115/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)
But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats
5 Démarche pratique sous SPSS (v25) 116/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Modèle d'indépendance Rappel Deux événements A et B indépendants : P(A et B) = P(A) × P(B)
Deux variables qualitatives indépendantes : ∀i, ∀j, fij = fi. × f.j ⇐⇒
Probabilité conjointe = produit des probabilités marginales.
Autres écritures : f.j = ⇐⇒
fij fi.
fi. =
fij f.j
Probabilité conditionnelle = probabilité marginale 117/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Liaison entre deux variables qualitatives L'écart entre les données observées (fij ) et le modèle d'indépendance (fi. f.j ) se mesure par ϕ2 =
X (fij − fi. f.j )2 fi. f.j i,j
ϕ2 mesure l'intensité de la liaison et
ne dépend pas de l'eectif total
des individus mais uniquement des probabilités (fréquences observées et théoriques). Les variables qualitatives I et J sont indépendantes si et seulement si ϕ2 = 0
118/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Liaison entre deux variables qualitatives En utilisant les eectifs observés, l'écart entre les données observées et le modèle d'indépendance se mesure par D2 =
X (eff . observ e´ − eff . the´orique)2 eff . the´orique i,j
D2 =
X (n.fij − n.fi. f.j )2 n.fi. f.j
car kij = n.fij
i,j
D 2 = n.ϕ2
Lorsque I et J sont indépendantes, on montre que D suit une loi de χ à (n − 1) × (p − 1) degrès de liberté. 2
=⇒ test de χ2 nous donne une idée sur la signicativité l'écart) et ϕ2 mesure l'intensité de la liaison.
2
de liaison (de 119/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Liaison entre deux variables qualitatives Pratique : Test de χ Soit T . tel que P(χ < T . ) = 0.95. T . est donnée par les logiciels et les tables statistiques . 2
2
0 95
0 95
0 95
Si D > T . alors D est vraisemblablement non nulle à 95% de conance =⇒ la liaison entre I et J est signicative. 2
0 95
2
120/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Liaison entre deux variables qualitatives Pratique : Test de χ Certains logiciels statistiques fournissent aussi le degré de signication α de D : 2
2
P(D 2 < χ2 ) = α
Si α tend vers 0 (inférieur à 0.05), on peut accepter que D est non nulle (la liaison entre I et J est signicative au risque α =seuil de risque). 2
121/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Liaison entre deux variables qualitatives Sous l'hypothèse d'indépendance, les eectifs théoriques se calculent grâce à la formule : 0
kij =
ki. × k.j k
122/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Liaison entre deux variables qualitatives
123/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Liaison entre deux variables qualitatives
Si :
Khi2 observée > Khi2 critique ou Le degré de signication < 0.05
Alors :
L'âge et l'appréciation sont bien liés. 124/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Comment l'AFC appréhende l'écart à l'indépendance ?
125/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Comment l'AFC appréhende l'écart à l'indépendance ? Le tableau des prols-lignes représente les répartitions en pourcentage à l'intérieur d'une ligne. Ces prols-lignes sont en somme les probabilités conditionnelles d'avoir la modalité j de l'Appréciation sachant que les spectateurs ont la modalité i de l'âge.
La dernière ligne représente le prol-ligne moyen.
126/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Comment l'AFC appréhende l'écart à l'indépendance ?
127/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Comment l'AFC appréhende l'écart à l'indépendance ?
128/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance
Comment l'AFC appréhende l'écart à l'indépendance ?
129/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)
But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats
5 Démarche pratique sous SPSS (v25) 130/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Le nuage des (prols) lignes
131/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Le nuage des (prols) colonnes
132/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Que se passe-t-il s'il y a indépendance ?
133/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Ecart à l'indépendance et inertie Plus les données s'écartent de l'indépendance et plus les prols s'écartent de l'origine. Inertie(NI /GI ) =
X
Inertie(i/GI ) =
i
=
X i
X
fi. dχ2 (i, GI ) 2
i
2 X 1 fij fi. − f.j f.j f.j j
X X (fij − fi. f.j )2 D2 = = = ϕ2 fi. f.j n i
j
ϕ mesure l'intensité de la liaison et qui est indépendante de l'eectif 2
total du tableau.
Etudier l'inertie des nuages des prols lignes (NI ) revient à étudier l'écart à l'indépendance. Idem pour le nuage des prols colonnes (NJ ) : Inertie(NJ /GJ ) = Inertie(NI /GI )
(dualit e´)
134/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Nuage de prols dans un hyperplan Les points existent dans un espace de dimension r = min(p − 1, n − 1) Les points appartiennent à l'hyperplan x + x + ... + x p = 1 1
2
135/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Analogie entre ACP et AFC ACP
l'ACP permet de décrire la variabilité de p variables quantitatives en étudiant la structure de la variance totale via la recherche de nouveaux axes qui expliquent le maximum d'inertie ⇐⇒
Maximum de variance
AFC
l'AFC permet de décrire la liaison entre I et J en étudiant la structure de ϕ via la recherche de nouveaux axes qui expliquent le maximum d'inertie ⇐⇒ 2
Maximum de liaison ϕ2 mesure
la liaison entre les deux variables qualitatives l'inertie totale du nuage de points l'écart à l'indépendance 136/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Analogie entre ACP et AFC L'idée de l'AFC, comme en ACP, est de déterminer un nouveau repère qui permettra, en des projections bidimensionnelles, de montrer les plus grands allongements de ce nuage au tour de son centre de gravité.
ACP Les point Ii sont munis du même poids pi = 1/n La distance utilisée est la distance euclidienne les colonnes (variables) sont centrées Les points existent dans un espace de dimension r = min(p, n)
AFC Chaque point Ii est muni d'un poids pi = fi. La distance utilisée est la distance de Khi2 ni les lignes ni les colonnes ne sont centrées Les points existent dans un espace de dimension r = min(p − 1, n − 1) 137/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Analogie entre ACP et AFC Les directions d'inertie priviligiées sont trouvées de la même manière qu'en ACP, sauf qu'avec l'AFC Les prols lignes et les prols colonnes ont chacun un poids la distance utilisée est de Khi2 (χ ) ni les colonnes ni les lignes ne sont centrées : on analysera le nuage de points à partir de son centre de gravité On obtient : r axes factoriels avec r = min(p − 1, n − 1) le premier axe a le le maximum d'inertie λ le dernier axe a le le minimum d'inertie λr 2
1
λ1 ≥ λ2 ≥ ... ≥ λr
L'inertie totale ϕ = λ + λ + ... + λr 2
1
2
138/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Qualité d'ajustement La qualité de représentation d'un axe =? = le pourcentage d'inertie expliqué par l'axe = inertie de l'axe / inertie totale λ Pk k λk
La qualité de représentation d'un plan =?
= le pourcentage d'inertie expliqué par le plan = (la somme des inerties des 2 axes)/ inertie totale λk + λl P k λk
N.B.: En général, les 2 premiers axes susent pour expliquer plus de 70% de l'inertie initiale. Lorsque ce n'est pas le cas, on utilise les 3 premiers axes en les étudiant deux par deux.
139/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Qualité d'ajustement
Les deux premiers axes factoriels expliquent 97.3% de l'inertie totale.
140/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Qualité de représentation d'une modalité Sur un axe =? Carré du cosinus de l'angle fait par la modalité et l'axe
Sur un plan =? Carré du cosinus de l'angle fait par la modalité et le plan
141/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Contribution d'une modalité La contribution d'une modalité à l'inertie totale : = inertie de la modalité / inertie totale = pi
GA2i ϕ2
Indique quelles modalités sont les plus diérentes de la moyenne dans l'ensemble du nuage. 142/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Contribution d'une modalité
La contribution d'une modalité à l'inertie d'un axe : = inertie de la modalité sur l'axe / inertie de l'axe = pi
GA2i λk
Permet (pour les grandes valeurs) de donner un sens à l'axe.
143/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Contribution d'une modalité La contribution d'une modalité à l'inertie d'un axe :
144/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Contribution d'une modalité
145/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Contribution d'une modalité
146/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement
Contribution d'une modalité Pratique La contribution d'une modalité est un compromis opérationnel entre distance à l'origine et poids Les contributions des modalités indiquent dans quelle mesure on peut considérer qu'un axe est dû à un élément ou à quelques éléments L'interprétation des graphese est basée sur les points remarquables ayant une bonne qualité de représentation La qualité de représentation indique dans quelle mesure l'écart d'un prol au prol moyen est complétement représenté par l'axe ou par un plan Les points extrêmes ne sont pas nécessairement ceux qui contribuent le plus à la construction des axes 147/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)
But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats
5 Démarche pratique sous SPSS (v25) 148/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats Les deux nuages : des prols-lignes des prols-colonnes sont projetés successivement sur des plans factoriels et interprétés. En Pratique On peut projeter simultanément les deux nuages sur un même plan.
149/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats L'interprétation de l'AFC consistera à :
Donner un sens aux axes en étudiant les contributions de chaque prol (modalité) : Les prols ayant les plus fortes
contributions sur un axe, permettront de donner un sens à cet axe
Interpréter la position des prols (modalités) par rapport au sens donné aux axes : L'étude des signes des coordonnées des prols permet de mettre en valeur des oppositions.
Interpréter la proximité des prols-lignes Interpréter la proximité des prols-colonnes 150/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats
Au sein d'une même variable
Au sein d'une même variable, la proximité de deux modalités est
signicative Deux points prols proches sur le graphe représenteront deux modalités de I ayant des distributions (répartitions) suivant les modalités de J assez semblables. Deux points prols éloignés représenteront deux modalités de I dont les distributions suivant les modalités de J sont très diérentes.
151/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats
Entre deux variables diérentes Entre variables diérentes, on jauge l'angle formé entre les deux modalités et l'origine Un angle proche de zéro, implique une liaison Un angle proche de π/2, implique pas liaison Un angle proche de π , implique une liaison inverse
152/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats : projection de l'appréciation
153/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats : projection de l'âge
154/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats : sens des axes
155/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats : sens des axes
Sens des axes factoriels :
Premier Axe Factoriel :
Etre plus vieux et ne pas aimer le lm et Etre jeune et aimer le lm
Opposition entre
Deuxième Axe Factoriel :
Etre d'un age moyen et dire que le m est moyen et Etre très vieux et bien aimer ce lm
Opposition entre
156/182
Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats
Interprétation des résultats
157/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)
Analyse en Composantes Principales Analyse Factorielle de Correspondance
158/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
1. Ouverture du chier de données Démarrer IBM Statistics SPSS 25 Ouvrir une source de données existante Fichier de type : Excel Choisir le chier : data-acp.xlsx
159/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
1. Ouverture du chier de données Laisser active l'option : lire les noms des variables à partir de la première ligne de données Cliquer sur OK Enregistrer votre chier en format donnée de SPSS : data-acp.sav
160/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
2. Statistiques descriptives Analyse Statistiques descriptives Descriptives
161/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
2. Statistiques descriptives La boîte de dialogue Descriptives apparaît alors : On choisit les variables adaptées à l'analyse en les sélectionnant dans la partie gauche puis en cliquant sur la èche qui pointe vers la droite. Cliquer sur options et cocher moyenne, écart type, variance, mini et max
162/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
3. Exécution de l'ACP Analyse Réduction des dimensions Analyse factorielle :
163/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
3. Exécution de l'ACP La boîte de dialogue Analyse factorielle apparaît alors : De même qu'en haut, sélectionner les variables adaptées à l'analyse Sur votre gauche il y a 5 boites de dialogue d'options à examiner une à une.
164/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
3. Exécution de l'ACP La boîte de dialogue Analyse factorielle : Caractéristiques apparaît. Dans Statistiques, cliquer sur Structure initiale Dans Matrice de corrélation, cliquer sur Coecients et indice de
KMO et test de sphéricité de Bartlett Ensuite, cliquer sur poursuivre
165/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
3. Exécution de l'ACP La boîte de dialogue Analyse
factorielle : Extraction
apparaît. Choisir entre matrice de corrélation ou matrice de covariance ? Cocher Structure
factorielle sans rotation et Diagramme des valeurs propres. Extraire Nombre xe de facteurs =3 ( ?) Ensuite, cliquer sur
poursuivre
166/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
3. Exécution de l'ACP La boîte de dialogue Analyse factorielle : Rotation apparaît. Garder l'option Aucun dans un premier temps Cocher l'option Cartes factorielles. Cette option permet d'avoir une représentation des diérents axes. Ensuite, cliquer sur
poursuivre
167/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
3. Exécution de l'ACP La boîte de dialogue Analyse factorielle : facteurs apparaît. L'option Enregistrer dans des variables permettra d'attribuer à chaque individu ses coordonnées factorielles une fois l'analyse terminée (garder le choix régression) Cocher l'option Acher la
matrice des coecients factoriels Ensuite, cliquer sur
poursuivre
168/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
4. Projection des Variables Le diagramme de composantes montre une projection sur l'espace dirigé par les 3 premiers axes factoriels. Pour revenir à des projections en 2 dimensions, cliquer 2 fois sur l'image diagramme de composantes puis cliquer sur édition
169/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
4. Projection des Variables puis sur propriétés puis variables, puis cliquer sur l'axe à exclure : exemple Axe des Z puis Exclure puis appliquer
170/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
5. Projection des Individus Pour projeter les observations sur les espaces factoriels : Remarquer que l'option
enregistrer dans des variables sous facteurs a permis
d'enregistrer dans le chier de données les facteurs comme de nouvelles variables à la n sous des noms : REGR factor score 1 for analysis 1 : c'est la CP No 1 de la 1ère analyse ! Ensuite tracer à partir de la fenêtre des données : Graphiques puis
Boîte de dialogue ancienne version , ensuite cliquez sur Dispersion des Points
171/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
5. Projection des Individus Choisir diagramme de dispersion simple puis cliquer sur dénir.
172/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
5. Projection des Individus Choisir diagramme de dispersion simple puis cliquer sur dénir. Placez la variable CP2 c.a.d REGR factor score 2 for analysis 1 sur l'axe des y et la variable CP1 c.a.d REGR factor score 1 for analysis 1 sur l'axe des x. Puis glisser la variable modèle dans cette case : Etiqueter les observations par. Cliquer sur options.
173/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales
5. Projection des Individus Cocher Acher le graphique avec les libellés des observations puis cliquer sur Poursuivre.
174/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)
Analyse en Composantes Principales Analyse Factorielle de Correspondance
175/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
1. Ouverture du chier de données Démarrer IBM Statistics SPSS 25 Ouvrir une source de données existante Choisir le chier : Appreciation-Age.sav
176/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
2. Exécution de l'AFC Analyse Réduction des dimensions Analyse des correspondances
177/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
2. Exécution de l'AFC La fenêtre Analyse des correspondances apparait : 1. Sélectionnez une variable de Ligne. (cliquer sur la èche) 2. Sélectionnez une variable de Colonne. (cliquer sur la èche) 3. Cliquer sur dénir intervalle ( pour la Ligne puis pour la Colonne): valeur mini = 1 ; valeur maxi = 4 dans le cas des variables à 4 modalités, puis Cliquer sur mettre à jour 4. Contrainte de modalité : aucun puis cliquer sur Poursuivre
178/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
2. Exécution de l'AFC Cliquer sur Modèle, la fenêtre : Analyse des correspondances : Modèle apparait : * Dimensions de la solution : 2 ? * Mesure de distance : choisir Khi-deux * Méthode de standardisation : Moyennes de lignes et de colonnes sont supprimées et Symétrique Poursuivre
179/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
2. Exécution de l'AFC Cliquer sur Statistiques, la fenêtre : Analyse des correspondances : Statistiques apparait, alors Cochez : 1. Tableau des correspondances 2. Caractéristiques des points lignes 3. Caractéristiques des points colonnes 4. Prols lignes 5. Prols colonnes puis cliquer sur Poursuivre
180/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
2. Exécution de l'AFC Cliquer sur Tracés, la fenêtre : Analyse des correspondances : Tracés
apparait, alors Cochez : 1. Nuages de points : Tracé double 2. Courbes : rien 3. Dimension des tracés : Acher
toutes les dimensions dans la solution puis cliquer sur Poursuivre
181/182
Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance
MERCI
MERCI N.B.: C'est la première version des mes slides de cours, si vous notez quelques erreurs de frappe ou d'autres anomalies, n'hésitez pas à me les communiquer par mail sur [email protected]
182/182