Analyse de Donnees [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Analyse de données multidimensionnelles (ACP + AFC) Driss BARI

PhD, Ingénieur de R & D Maroc Météo www.baridriss.com [email protected]

1/182

Analyse de données multidimensionnelles (ACP + AFC)

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités Familles des méthodes

3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP 2/182

Analyse de données multidimensionnelles (ACP + AFC)

Outline 4 Analyse Factorielle de Correspondance (AFC)

But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats

5 Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales Analyse Factorielle de Correspondance

3/182

Analyse de données multidimensionnelles (ACP + AFC) Références bibliographiques

Rèférences bibliographiques GILBERT, Saporta

.

Probabilités, analyse des données et statistique

Editions Technip, Paris, 2006. JOLLIFFE, Ian.

. In : International encyclopedia of statistical science. Springer, Berlin, Heidelberg, 2011. p. 1094-1096..

Principal component analysis

HUSSON, François, LÊ, Sébastien, et PAGÈS, Jérome. Analyse de données avec R. Presses universitaires de Rennes, 2016. Ludovic Lebart, Marie Piron, Alain Morineau Statistique exploratoire multidimensionnelle. Dunod. 1995 EL KHATRI, Said.

.

Analyse descriptive des données multidimensionnelle (ACP + AFC)

Manuel de cours. EHTP. 2016.

4/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités Familles des méthodes

3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)

5/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Caractéristiques

1

Systématise les démarches de la statistique descriptive unidimensionnelle et bidimensionnelle Lois de probabilité, Calculs statistiques usuels Hypothèses, Tests statistiques, Courbes, Projections planes,

6/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Caractéristiques

2

Utilise un grand nombre d'informations pour expliquer ou prévoir le comportement d'un phénomène x1 = f (y1 , ..., yp ) (x1 , ..., xq ) = f (y1 , ..., yp )

Règle décisionnelle pour prévoir la modalité d'une variable qualitative à l'aide de plusieurs variables quantitatives

7/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Caractéristiques

3

Permet la description synthétique d'un phénomène (déni par plusieurs paramètres) Décomposition élémentaire du phénomène Rendre plus facile par la réduction du nombre de données et d'équations Par l'interprétation de graphes simples (projection planes, courbes, etc.).

8/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Caractéristiques

4

Utilise les techniques multidimensionnelles de l'algèbre linéaire en raison du volume de données à analyser Traitement des vecteurs, matrices, géométrie ....

9/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Caractéristiques

5

Ne peut se faire, à priori, sans l'aide des moyens informatiques logiciels statistiques (R, SPSS, SAS, etc.),

librairies mathématiques (Factominer, etc.), logiciels graphiques (R, etc.)

10/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Caractéristiques

6

Nécessite l'interprétation, l'analyse du professionnel connaisseur des données à traiter

11/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Caractéristiques et Finalités

Finalités de l'analyse des données multidimensionnelles

Finalité

Avec l'analyse multidimensionnelle, on accepte une légère perte en information an d'obtenir un grand gain en signication

12/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles

Caractéristiques et Finalités Familles des méthodes

3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)

13/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Familles des méthodes d'analyse des données multidimensionnelles

Analyse inférentielle (ou décisionnelle) Analyse descriptive

14/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Analyse inférentielle (ou décisionnelle)

Rôle :

Etendre les propriétés constatées sur un échantillon à toute la population et vérier, éventuellement, l'adéquation des hypothèses

Méthodes décisionnelles classiques multidimensionnelles : La Régression Multiple : Une variable quantitative à expliquer par p autres variables quantitatives

L'Analyse Discriminante : Une variable qualitative à expliquer à l'aide de p variables quantitatives.

15/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Analyse statistique descriptive Rôle :

Ressortir des propriétés de l'échantillon étudié Suggérer des hypothèses sur les données.

Méthodes multidimensionnelles :

Méthodes factorielles: pour réduire le nombre de variables

à analyser

Analyse en Composantes Principales ACP :

Description de la variabilité de p variables quantitatives

Analyse Factorielle des Correspondances AFC:

Description de la liaison entre 2 ou plusieurs variables qualitatives

Classication Automatique : pour réduire le

à analyser (Répartition de n individus en k classes tel que dans chaque classe, les individus se ressemblent ) nombre d'individus

16/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Rappel de statistique de base Notions de base Deux types de variables : Population (limitée ou de grande taille) : ensemble des individus à étudier.

Echantillon : partie de la population (n individus) sur laquelle est eectuée l'étude.

Individus : appartenant à la population Variable (caractère) : caractéristique des individus, dénie sur la population.

17/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Rappel de statistique de base

Notions de base

Variable quantitative : valeurs réelles discrète

(exemple : âge, nombre d'enfants) (exemple : taille, température)

continue

Variable qualitative :

(exemple: couleur [jaune, vert, ..], type de brouillard [radiatif, evaporation, mélange, ...]) ordinale (exemple: taille de voiture [petite, moyenne, grande]). nominale

18/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Rappel de statistique de base Moyenne :

Variable centrée : x=

n 1X

n

xi

i=1

xc = x − x avec xc = 0

Variable normée (réduite) :

Variance : sx2 =

1 n

y= n X

(xi − x)2

i=1

Ecart type :

x avec sy = 1 sx

Variable centrée-réduite : y=

x −x avec y = 0 et sy = 1 sx

v u n u1 X (xi − x)2 sx = t n i=1

19/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Rappel de statistique de base Variable quantitative

Exemple de représentation graphique

20/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Rappel de statistique de base Analyse de la liaison entre 2 variables quantitatives Covariance : sxy =

n 1X

n

(xi − x)(yi − y )

i=1

Corrélation : r (x, y ) =

sxy sx sy

−1 ≤ r (x, y ) ≤ 1

L'équation de régression linéaire liant deux variables x et y s'écrit sous la forme s y=

y

sx

r (x, y ).x + b

Le carré du coecient de corrélation r (x, y )exprime le pourcentage de variance expliquée 2

21/182

Analyse de données multidimensionnelles (ACP + AFC) Généralités de l'analyse des données multidimensionnelles Familles des méthodes

Rappel de statistique de base Analyse de la liaison entre 2 variables quantitatives Représentation graphique

22/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

23/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP

But de l'ACP

But de l'ACP

descriptive qui permet de résumer, synthétiser ou condenser le comportement de p variables quantitatives (observées n L'ACP est une méthode

fois).

24/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP

Exemple élémentaire On considère l'échantillon constitué par : 16 pays (ou individus) sur lesquels on a relevé les valeurs de deux variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA) en 1970

25/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP

Exemple élémentaire On considère l'échantillon constitué par : 16 pays (ou individus) sur lesquels on a relevé les valeurs de deux variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA) en 1970

25/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP

Exemple élémentaire On considère l'échantillon constitué par : 16 pays (ou individus) sur lesquels on a relevé les valeurs de deux variables: l'espérance de vie (EVI), et le taux d'analphabétisme (ANA) en 1970

26/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) But de l'ACP

Exemple élémentaire Transformation linéaire et orthogonale

Repère initial = (ANA,EVI) =⇒ Nouveau repère = (progrès, déphasage entre ANA et EVI)

27/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

28/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données

Tableau de données L'ACP s'intéresse à des tableaux de données rectangulaires avec des individus en lignes et des variables quantitatives en colonnes.



x11  .  X =  .  . xn 1 xij xj X t X P

= n1 Xt X

p variables . . . . . xij . . . .

 . x1 p . .   . .   . .  . xnp

n Individus

est la i observation ( individu) de la j variable est la j variable quantitative avec j = 1, p est la matrice des individus (observations) est la matrice transposée de X est la matrice de variance-covariance entre les variables 29/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données

Caractéristiques d'un ensemble de modèles de voitures Modèle

Cylindrée

Puissance

Vitesse

Poids

Longueur

Largeur

Honda Civic

1396

90

174

850

369

166

Renault19

1721

92

180

965

415

169

Fiat Tipo

1580

83

170

970

395

170

Peugeot 405

1769

90

180

1080

440

169

Renault21

2068

88

180

1135

446

170

Citroen BX

1769

90

182

1060

424

168

BMW530i

2986

188

226

1510

472

175

Rover827i

2675

177

222

1365

469

175

Renault25

2548

182

226

1350

471

180

Opel Oméga

1998

122

190

1255

473

177

Peugeot 405 Break

1905

125

194

1120

439

171

Ford sierra

1993

115

185

1190

451

172

BMW325iX

2494

171

208

1300

432

164

Audi 90 quattro

1994

160

214

1220

439

169

Ford Scorpio

2933

150

200

1345

466

176

Renault Espace

1995

120

177

1265

436

177

Nissan Vanette

1952

87

144

1430

436

169

VW Caravelle

2109

112

149

1320

457

184

FORd Fiesta

1117

50

135

810

371

162

Fiat Uno

1116

58

145

780

364

155

Peugeot 205

1580

80

159

880

370

156

Peugeot205 Rallye

1294

103

189

805

370

157

Seat Lbiza SXI

1461

100

181

925

363

161

Citroen AX sport

1294

95

184

730

350

160

30/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données

Caractéristiques d'un ensemble de modèles de voitures On dispose ainsi de :

24 individus (lignes) : modèles de voitutres

6 variables (colonnes) : Cylindrée, Puissance, Vitesse (km/h), Poids (kg), Longueur (cm) et Largeur (cm) =⇒ Tableau de données est de la forme 24 x 6 (individus x variables).

Question

Analyser les caracteristiques de cet ensemble de 24 modèles de voitures selon les 6 critères ? 31/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données

Caractéristiques d'un ensemble de modèles de voitures On pourrait penser à : Analyser la variation d'un critère à l'autre pour chaque modèle de voitures i (i = 1, 24) Modèle Honda Civic

Cylindrée

Puissance

Vitesse

Poids

Longueur

Largeur

1396

90

174

850

369

166

Analyser la variation d'un modèle de voiture à l'autre pour chaque critère j (j = 1, 6) Modèle Cylindrée

Honda Civic

Renault19

Fiat Tipo

...

Seat Ibiza SXI

Citroen AX

1396

1721

1580

...

1461

1294

32/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données

Caractéristiques d'un ensemble de modèles de voitures On pourrait penser à : Analyser la variation d'un critère à l'autre pour chaque modèle de voitures i (i = 1, 24) Modèle Honda Civic

Cylindrée

Puissance

Vitesse

Poids

Longueur

Largeur

1396

90

174

850

369

166

Analyser la variation d'un modèle de voiture à l'autre pour chaque critère j (j = 1, 6) Modèle Cylindrée

Honda Civic

Renault19

Fiat Tipo

...

Seat Ibiza SXI

Citroen AX

1396

1721

1580

...

1461

1294

Question Pourquoi faut il éviter cette méthode ?

32/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Tableau de données

Caractéristiques d'un ensemble de modèles de voitures On pourrait penser à : Analyser la variation d'un critère à l'autre pour chaque modèle de voitures i (i = 1, 24) Modèle Honda Civic

Cylindrée

Puissance

Vitesse

Poids

Longueur

Largeur

1396

90

174

850

369

166

Analyser la variation d'un modèle de voiture à l'autre pour chaque critère j (j = 1, 6) Modèle Cylindrée

Honda Civic

Renault19

Fiat Tipo

...

Seat Ibiza SXI

Citroen AX

1396

1721

1580

...

1461

1294

Question Pourquoi faut il éviter cette méthode ? si p et/ou n est grand, la méthode devient complexe et lourde si des couples de variables sont corrélés ou anti-corrélés, l'analyse sera redondante 32/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

33/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Problématique et Objectifs de l'ACP Le tableau de données est vu comme un ensemble de lignes ou de colonnes.

Etude des individus (lignes)

Quand dit-on que 2 individus se ressemblent du point de vue de l'ensemble des variables ? Est-il possible de mettre en évidence une typologie des individus ?

Etude des variables (colonnes)

Quand dit-on que 2 variables sont liées (positivement ou négativement) entre elles ? Est-il possible de mettre en évidence une typologie des variables ?

Typologie ≡ construction d'une partition (groupe) d'individus homogènes du point de vue l'ensemble des variables. 34/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Problèmatique et Objectifs de l'ACP Tenant compte des ressemblances des individus et des liaisons entre variables, l'ACP tente de répondre à la question :

Est-il possible de résumer toutes les données par un nombre restreint de valeurs sans perte d'information importante ? Objectifs de l'ACP 1

2

Descriptif - exploratoire : Rendre l'information plus facile à

analyser. Ceci par visualtion des données par des graphes simples

Synthèse : Condenser l'information contenue dans de grands

tableaux individus x variables (en réduisant le nomnbre de données à analyser)

35/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Nuage des Individus 1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions

36/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Nuage des Individus 1 individu ≡ 1 ligne du tableau ⇒ 1 point dans un espace à p dimensions Notion de ressemblance Deux individus se ressemblent, ou sont proches, s'ils possèdent des valeurs proches pour l'ensemble des variables. Cette proximité ou cette ressemblance se traduit par une distance entre deux individus i et i 0 . Dans le cas d'une métrique euclidienne : d 2 (i, i 0 ) =

X (xij − xi 0 j )2 j

Dans le cas général, d 2 (i, i 0 ) = (Ai − Ai 0 )t M(Ai − Ai 0 )

où M est une matrice symétrique dénie positive de taille p 37/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Centrage - réduction des données Centrer les données ne modie pas la forme du nuage ⇒ Toujours centrer

Réduire les données est indispensable si les unités de mesure sont diérentes d'une variable à l'autre xij −→

xij − x¯j sj

La réduction conduit à accorder la même importance à chaque variable. Son importance est proportionnelle à son écart-type. Notation :

38/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Ajustement du nuage des individus

L'ACP vise à fournir une image simpliée du nuage des individus la plus dèle possible ⇐⇒ Trouver le sous-espace qui résume au mieux les données.

Qualité de l'image :

Restitue dèlement la forme générale du nuage Meilleure représentation de la diversité et de la variabilité Ne perturbe pas les distances entre individus

39/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple Approche de réponse (par analogie)

Devinez quels sont les objets dont la projection plane est :

40/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple Réponse

41/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple Approche de réponse (par analogie)

Pour décrire l'allongement d'un objet : L'espace de dimension 1 peut être susant : (tuyau)

L'espace de dimension 2 est nécessaire et susant : (feuille de papier)

L'espace de dimension 2 est acceptable mais pas très susant : (bateau)

42/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple Approche de réponse (par analogie)

Devinez sachant que la projection plane est :

43/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Ajustement du nuage des individus : Exemple Réponse : Un chameau

44/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Notion d'inertie

L'information donnée sur la dispersion des points constituant un objet dans un espace de dimension p est : très lisible lorsqu'on projette cet objet sur les axes (ou plans) de plus grand allongement, et très peu importante en projection sur les axes de très faible allongement.

45/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Notion d'inertie L'objet décrit dans l'exemple d'analogie est, dans notre cas, un nuage de n points dans l'espace de dimension inférieur à p

La dispersion du nuage de points est mesurée par son inertie par rapport au centre de gravité : In =

n 1X

n

i=1

n X 1X p

~ i ||2 = ||OA

n

i=1 j=1

xij2 =

p X

sj2

j=1

allongement ≡ dispersion ≡ variance ≡ inertie

46/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problématique et Objectifs de l'ACP

Ajustement du nuage des individus Comment trouver la meilleure image approchée du nuage ? 1

2

Trouver l'axe (facteur) qui déforme le moins possible le nuage

Tourver le meilleur plan : maximiser i (OHi ) avec Hi ∈ plan . Le meilleur planPcontient le meilleur axe ; on cherche u ⊥ u et maximisant i (OHi ) . P

2

2

1

2

3

On peut chercher un 3eme axe, etc. d'inertie maximum 47/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

48/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Principe de l'ACP

Le principe de l'ACP consiste à représenter le nuage des n points dans un espace (O, u~1 , u~2 , ..., u~p )

qui permettra, en des projections dans l'espace engendré par un nombre réduit de vecteurs , de montrer les plus grands allongements de ce nuage. (O, u~1 , u~2 , ..., u~q )

avec

qp

49/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP On travaille sur des données centrées :

50/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP On cherche des transformations linéaires orthogonales entre elles sur la base du critère de la maximisation de la variance. Etape 1: Recherche de l'axe u~ (unitaire) tel que le nuage des points a une variance (allongement) maximale sur cet axe 1

51/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP Etape 2:

Recherche de l'axe u~ (unitaire) tel que : 2

u~1 ⊥ u~2

le nuage de point a le plus grand allongement sur u~

2

Etape k:

Recherche de l'axe u~k (unitaire) tel que : u~k ⊥ u~l ∀l ≤ k − 1 le nuage de point a le plus grand allongement sur u~k

52/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP Les vecteurs directeurs des axes recherchés sont les vecteurs propres P de la matrice de variance covariance (i.e. matrice d'inertie). Ces vecteurs unitaires sont rangés dans l'ordre décroissant des valeurs propres associées : u~1 , u~2 , ..., et u~p

avec

λ1 > λ2 > ... > λp

Rappel Le calcul des valeurs propres et des vecteurs propres peut s'eectuer en résolvant les sytèmes suivants : P Valeurs propres λ : det( − λI) = 0 P Vecteurs propres U ; U = λU 53/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

Remarque : La nouvelle base est orthonormée.

54/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthode de détermination des CP

55/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Formule de changement de base

Les composantes principales sont des combinaisons linéaires des variables initiales:

56/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Propriétés des composantes principales Propriété de la moyenne : zk =

p X

ajk x j =

j=1

p X

ajk x j = 0 car x j = 0

j=1

Les composantes prinicpales sont centrées.

Propriété de la variance :

Soit Dλ la matrice diagonale des valeurs propres. La matrice de variance-covariance des composantes principales est : X 1 t 1 t t t n

On en déduit :

Z Z=

n

U X XU = U

var (z k ) = λk

Propriété de la corrélation :

U = Dλ

∀k = 1, p

r (z l , z k ) = 0 ∀ l 6= k

Les composantes principales ne sont pas corrélées entre elles.

57/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Variance totale

58/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Variance expliquée : Qualité d'ajustement du nuage

59/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Variance expliquée : Qualité d'ajustement du nuage Sous SPSS : Total = Valeur propre

60/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Variance résiduelle

61/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Approximation de la reconstitution des variables initiales

62/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q 1. Critère de la valeur propre moyenne (mean eigenvalue): Ne garder que les axes tel que : p 1 1 1X λk > ⇐⇒ λk > tr (D) = λj tr (D) p p p j=1

p=6 ←→

1

p

= 16.6%

λ1 = 4.656 ←→

λ1 tr (D)

= 77.6%

λ2 = 0.915 ←→

λ2 tr (D)

= 15.254%

Une seule composante à retenir !!! 63/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q 2. Critère de variance expliquée (variance explained criteria): On se xe un maximum de perte d'information : exemple 5% ou 10% de variance résiduelle. On retiendra par exemple les q premières composantes principale tel que Q = 90% On retient dans notre exemple DEUX composantes principale.

64/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q 3. Critère de KAISER : Lorsque les données sont centrées réduites, on retient les composantes principales tel que λk > 1 pour k ≤ q Une seule composante à retenir !!!

65/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Composantes principales (CP) : Détermination et Propriétés

Méthodes pour déterminer q 4. Critère de CATTEL (critère de coude - the scree plot) : On retient les q premières CP tel que l'apport en variance des dernières CP est remarquablement plus faible par rapport aux premières. On retient dans notre exemple DEUX composantes principale.

66/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

67/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Projections planes Nécessité d'utiliser plusieurs projections planes sur R . On se limite souvent aux plans (O, u~ , u~ ), (O, u~ , u~ ), et (O, u~ , u~ ). 2

1

1

3

2

2

3

Les points Aj et Ak paraissent très proches sur le plan (O, u~ , u~ ). Mais en réalité, ils sont très éloignés dans l'espace. 1

3

La projection sur le plan (O, u~ , u~ ) le montre facilement. 1

2

L'analyse est meilleure lorsque les contributions sont élevées. 68/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Projection plane des individus (observations)

Qualité de représentation d'un individu sur un plan Il ne faut commenter la position d'un individu sur un plan que s'il est bien représenté sur ce plan. Mais, Comment peut-on juger la qualite de représentation d'un individu sur un plan ?

69/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Qualité de représentation d'un individu sur un plan

70/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Qualité de représentation d'un individu sur un plan Modèle

Cylindrée

Puissance

Vitesse

Poids

Longueur

Largeur

CP1

CP

Honda Civic

-0,97

-0,61

-0,36

-1,13

-1,27

-0,37

-0,92

0,3

Renault19

-0,35

-0,56

-0,12

-0,63

-0,16

0,02

-0,35

-0,1

Fiat Tipo

-0,62

-0,79

-0,52

-0,61

-0,64

0,15

-0,59

-0,4

Peugeot 405

-0,26

-0,61

-0,12

-0,13

0,45

0,02

-0,12

-0,4

Renault21

0,31

-0,66

-0,12

0,10

0,59

0,15

0,08

-0,6

Citroen BX

-0,26

-0,61

-0,04

-0,22

0,06

-0,11

-0,23

-0,2

BMW530i

2,05

1,92

1,70

1,73

1,22

0,81

1,79

0,8

Rover827i

1,46

1,63

1,54

1,10

1,15

0,81

1,45

0,7

Renault25

1,22

1,76

1,70

1,04

1,20

1,46

1,56

0,6

Opel Oméga

0,17

0,21

0,27

0,63

1,24

1,07

0,68

-0,7

Peugeot Break

0,00

0,29

0,43

0,04

0,42

0,28

0,27

0,1

Ford sierra

0,16

0,03

0,08

0,34

0,71

0,41

0,34

-0,4

BMW325iX

1,11

1,48

0,99

0,82

0,25

-0,63

0,77

1,3

Audi 90 quattro

0,17

1,19

1,23

0,47

0,42

0,02

0,64

1,1

Ford Scorpio

1,95

0,94

0,67

1,02

1,07

0,94

1,27

-0,1

Renault Espace

0,17

0,16

-0,24

0,67

0,35

1,07

0,42

-0,9

Nissan Vanette

0,09

-0,69

-1,55

1,39

0,35

0,02

-0,01

-1,8

VW Caravelle

0,38

-0,04

-1,35

0,91

0,86

1,98

0,55

-2,4

FORd Fiesta

-1,49

-1,64

-1,91

-1,31

-1,22

-0,89

-1,59

-0,9

Fiat Uno

-1,50

-1,44

-1,51

-1,44

-1,39

-1,81

-1,70

-0,0

Peugeot 205

-0,62

-0,87

-0,96

-1,00

-1,25

-1,68

-1,19

0,4

Peugeot Rallye

-1,16

-0,28

0,23

-1,33

-1,25

-1,55

-1,04

1,5

Seat Lbiza SXI

-0,84

-0,35

-0,08

-0,81

-1,42

-1,02

-0,88

0,9

Citroen sport

-1,16

-0,48

0,04

-1,65

-1,73

-1,15

-1,20

1,3 71/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Qualité de représentation d'un individu sur un plan

72/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Qualité de représentation d'un individu sur un plan Le but de l'ACP est de trouver la meilleure image approchée du nuage : en cherchant la premier axe factoriel qui déforme le moins possible le nuage (OHi ) est grand ⇐⇒ (AHi ) est petit ~ i , OH ~ i ) est petit. (Pythagore) ⇐⇒ l'angle (OA 1

2

2

2 2 ~ i , OH ~ i ) = OHi = Pzik cos 2 (OA 2 OA2i k zik

=

L'inertie totale du nuage s'écrit In =

n X i=1

Inertie de Ai suivant l 0 axe Fk Inertie de Ai

p n n X n X X 1 2 X 1 2 X Ink (i) In(i) = OAi = z = n n ik i=1

i=1 k=1

i=1 k=1

avec In(i) est l'inertie de l'individu Ai et Ink (i) est l'inertie de Ai suivant l'axe Fk

73/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Qualité de représentation d'un individu sur un plan 2

puis trouver P le meilleur plan contenant le premier axe factoriel maximisant i (OHi ) . Par analogie, on trouve facilement : 2

2 ~ i , plan(Fk , Fl )) = OHi cos 2 (OA OA2i

=

Inertie de Ai suivant le plan (Fk , Fl ) Inertie de Ai zik2 + zil2 = P 2 k zik ~ i , Fk ) + cos 2 (OA ~ i , Fl ) = cos 2 (OA

3

On peut chercher un 3eme axe, etc. d'inertie maximum 74/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Qualité de représentation d'un individu sur un plan Régle empirique du seuil de la qualité de représentation Il faut commenter la position d'un individu sur un plan (Fk , Fl ) que s'il ~ i , plan(Fk , Fl )) n'est est bien représenté sur ce plan ⇐⇒ cos (OA pas faible (au delà de 0.25). 2

~ i , plan(Fk , Fl )) = Par rapport à un plan (Fk , Fl ) on a : cos(OA

OHi OAi

.

~ i , plan(Fk , Fl )) = 1 ⇐⇒ l'angle est nul ⇐⇒ Ai est sur le Pour un cos(OA plan (Fk , Fl ) ⇐⇒ aucune perte d'information (100%) . ~ i , OH ~ i ) = 0.5 ⇐⇒ angle=60o ⇐⇒ 50% de l'information. Pour un cos(OA 75/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Qualité de représentation d'un individu sur un plan cos 2 /F1

cos 2 /F2

Qualité

Honda Civic

0,88

0,02

0,90

Renault19

0,66

0,02

0,68

Fiat Tipo

0,76

0,09

0,85

Peugeot 405

0,11

0,31

0,42

Renault21

0,03

0,42

0,45

Citroen BX

0,48

0,08

0,56

BMW530i

0,94

0,04

0,98

Rover827i

0,94

0,06

1,00

Renault25

0,94

0,03

0,97

Opel Oméga

0,67

0,18

0,85

Peugeot 405 Break

0,62

0,04

0,66

Ford sierra

0,63

0,22

0,85

BMW325iX

0,50

0,32

0,82

Audi 90 quattro

0,57

0,34

0,91

Ford Scorpio

0,92

0,00

0,92

Renault Espace

0,45

0,42

0,86

Nissan Vanette

0,00

0,64

0,64

VW Caravelle

0,19

0,73

0,92

FORd Fiesta

0,93

0,06

1,00

Fiat Uno

0,98

0,00

0,98

Peugeot 205

0,89

0,02

0,91

Peugeot205 Rallye

0,70

0,29

0,99

Seat Lbiza SXI

0,79

0,17

0,96

Citroen AX sport

0,78

0,19

0,96

Modèle

76/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des individus

Contribution d'un individu à la construction d'un plan La contribution d'un individu i à la construction d'un axe Fk est donnée par z2 CTRk (i) = Pn ik

2

i=1 zik

(x 100)

Ainsi, les éléments ayant une forte coordonnée contribuent le plus. Remarque pratique Les observations projetées loin du centre (O ) qui méritent plus d'attention car leur contribution au calcul de la variance est grande

77/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

78/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation Notion de Laision entre variables Deux variables sont liées si elles ont un fort coecient de corrélation linéaire (positive ou négatif) r (x k , x l ) =

cov (x k , x l ) sx k sx l

1 variable ≡ 1 point dans un espace de n dimensions cos(θkl ) =

P < xk, xl > i xik xil p pP = P k l 2 2 ||x ||.||x || i xik i xil

Comme les variables sont centrées :

cos(θkl ) = cos(x k , x l ) = r (x k , x l ) Si variables réduites ⇒ points sur une

de rayon 1.

hypersphère 79/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation cos(θ(A, B)) = r (A, B) vrai dans l 0 espace cos(θ(A, B)) ≈ r (A, B) si les variables sont bien projet e´es

Seules les variables bien projetées peuvent être interprétées !

80/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation

La qualité de représentation d'une variable sur un plan Fkxl est mesurée par le cosinus carré de l'angle fait par la variable avec ce plan : r (x j , z k ) + r (x j , z l ) 2

2

81/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation Si la variable x est sur le cercle de corrélation sur le plan (F , F ), elle est dite qu'elle est parfaitement représentée. D'après Pythagore 1

1

2

2 2 x11 + x12 = 1 = ||x1 || =

X

x12j

j

on déduit ainsi que x1j = 0 ∀j > 2

82/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation

83/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation

Projection des variables La corrélation entre deux variables x m et x j est donnée par la lecture ~ m ; OA ~ j ) à condition que les points graphique du cosinus de l'angle (OA kl kl j Am et A soient proches du cercle de corrélation . kl kl Quelques exemples : θ=0 θ = π/2 θ=π

variables parfaitement corrélées variables parfaitement décorrélées variables parfaitement anti-corrélées

r (x m , x j ) = 1 r (x m , x j ) = 0 r (x m , x j ) = −1

84/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées X 2 et X 3

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées

X 2 et X 3 sont non corrélées X 2 et X 4

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées

X 2 et X 3 sont non corrélées

X 2 et X 4 sont anti-corrélées X 6 et X 7

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées

X 2 et X 3 sont non corrélées

X 2 et X 4 sont anti-corrélées

X 6 et X 7 on ne peut rien dire X 1 et z k

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées

X 2 et X 3 sont non corrélées

X 2 et X 4 sont anti-corrélées

X 6 et X 7 on ne peut rien dire X 1 et z k sont corrélées

X 4 et z k

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées

X 2 et X 3 sont non corrélées

X 2 et X 4 sont anti-corrélées

X 6 et X 7 on ne peut rien dire X 1 et z k sont corrélées

X 4 et z k sont anti-corrélées X 6 et z k

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation X 1 et X 2 sont corrélées

X 2 et X 3 sont non corrélées

X 2 et X 4 sont anti-corrélées

X 6 et X 7 on ne peut rien dire X 1 et z k sont corrélées

X 4 et z k sont anti-corrélées X 6 et z k sont non corrélées

85/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation Jeu des corrélations entre variables de l'exemple du cours

86/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Etude du comportement des variables

Projection des variables : Cercle de correlation

87/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

88/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Interprétation des CP 1

Donner un sens à chaque axe factoriel en étudiant les variables initiales fortement corrélées (positivement ou négativement) avec cet axe. Recherche lexicale (ou recherche de mots) qui peut résumer un ou des groupe(s) de variables initiales . . . Ce sont les éléments extrêmes, éventuellement opposés, qui concourent à l'élaboration des axes L'interprétation est parfois compliquée à cause de la combinaison de plusieurs variables initiales; d'où la nécessité de bien connaitre les données de base Si l'interprétation des variables n'est pas évidente, il faut alors donner un sens à l'axe à partir des individus qui ont les coordonnées extrêmes.

2

Interpréter la position des individus par rapport aux sens des axes.

89/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Interprétation des CP Toutes les variables sont corrélées à F . Comment interpréter le premier axe ? Comment interpréter le deuxième axe ? 1

90/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Interprétation des CP

Eet de taille

Les variables sont toutes de même côté de l'axe. Elles contribuent toutes dans le même sens à la construction de l'axe

Eet de forme

Deux groupes de variables opposées : celles qui contribuent positivement à l'axe, et celles qui contribuent négativement

91/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Interprétation des CP Qualité d'ajustement par le meilleur plan (F , F ) est 92.85% 1

2

92/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Interprétation des CP

Sens des axes factoriels :

Premier Axe Factoriel :

La performance générale du modèle de voiture Deuxième Axe Factoriel :

Opposition entre la puissance du moteur et la forme du modèle de voiture

93/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Interprétation des individus grâce aux variables

94/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Aides à l'interprétation des CP

Interprétation des CP

Analyse des individus grâce aux variables et leur possible typologie :

les berlines, grosses puissantes et de grandes dimensions et les citadines de faible dimensions et peu puissantes

Axe 1 : Opposition entre

les voitures familiales volumineuses mais lentes et les voitures sportives moins larges et roulant vite et puissante

Axe 2 : Opposition entre

95/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

96/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ?

1

Plusieurs variables sont corrélées (ou anti-corrélées) ? Analyse de la matrice de corrélation.

97/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ? 2

L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ? C'est le rapport :

somme des corr e´lations au carr e´ somme des corr e´lations partielles au carr e´ 0,50 et moins =⇒ misérable entre 0,60 et 0,70 =⇒ médiocre entre 0,70 et 0,80 =⇒ moyen entre 0,80 et 0,90 =⇒ méritoire plus que 0,9 =⇒ merveilleux.

98/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ? 3

La signication de Bartlett tend vers 0 ?

(test de sphéricité) Comparer la matrice de corrélation à la matrice identité à l'aide de Khi2. Si la signication de Bartlett : tend vers 0 =⇒ c'est très signicatif, inférieur à 0.05 =⇒ signicatif, entre 0.05 et 0.10 =⇒ acceptable au dessus de 0.10 =⇒ on rejette.

99/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP

Les données sont-elles factorisables ? Pratique 1

2

3

Plusieurs variables continues sont corrélées (ou anti-corrélées) ? (linear relationship) L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ? (sampling adequacy) La signication de Bartlett tend vers 0 ? (suitable for data reduction)

En pratique: Les données sont factorisables si au moins 2 conditions parmi ces 3 conditions sont favorables. 100/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP

Choix de la matrice Ω ou

P

?

101/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Problème de mise en oeuvre de l'ACP

Diagonalisation de

P

pour p  n?

102/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Quelques exemples d'application de l'ACP

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP)

But de l'ACP Tableau de données Problématique et Objectifs de l'ACP Composantes principales (CP) : Détermination et Propriétés Etude du comportement des individus Etude du comportement des variables Aides à l'interprétation des CP Problème de mise en oeuvre de l'ACP Quelques exemples d'application de l'ACP

4 Analyse Factorielle de Correspondance (AFC)

103/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse en Composantes Principales (ACP) Quelques exemples d'application de l'ACP

Quelques exemples d'application de l'ACP

Lissage des données initiales Xe =

q X

z k Uk

k=1

Reconstitution des données manquantes Aide à alléger les modèles de prévision statistique

104/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) But de l'AFC

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)

But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats

5 Démarche pratique sous SPSS (v25) 105/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) But de l'AFC

But de l'AFC

But de l'AFC L'AFC est une méthode qui permet de décrire entre

descriptive

la liaison (ou correspondance)

deux variables qualitatives.

106/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Tableau de données

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)

But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats

5 Démarche pratique sous SPSS (v25) 107/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Tableau de données

Tableau de données : Contingence L'AFC s'intéresse à des tableaux de données rectangulaires avec : n modalités en lignes d'une variable qualitative I p modalités en colonnes de la deuxième variables qualitative J décrivant un ensemble de k individus. kij : l'eectif de la classe (I = i, J = j) P ki. = j kij : Total marginal de I = i P k.j = i kij : Total marginal de J = j

108/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Tableau de données

Appréciation d'un lm selon l'âge des spectateurs

Analyse de l'appréciation d'un lm selon l'âge de 1357 individus : I = âge avec n = 7 modalités (16-24,25-34,35-44,45-54,55-64,65-74,75+) J = appréciation avec p = 4 modalités (mauvais,moyen,bon,très bon)

109/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)

But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats

5 Démarche pratique sous SPSS (v25) 110/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC

Problématique et Objectifs de l'AFC Objectif : Analyse du tableau de contingence Analyser la liaison entre l'âge et l'appréciation ? Analyser le lien entre une classe d'âge et une classe d'appréciation ? Analyser les diérentes modalités de l'âge ? et celles de l'appréciation ?

111/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC

Problématique et Objectifs de l'AFC

Question : Que peut-on dire des eectifs 41 (i=16-24 et j=très bon) et 40 (i=75+ et j=Mauvais) ?

112/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC

Problématique et Objectifs de l'AFC

Question : Que peut-on dire des eectifs 41 (i=16-24 et j=très bon) et 40 (i=75+ et j=Mauvais) ? Une analyse visuelle des chires du tableau de contingence peut induire alors en erreur. 112/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC

Tableau des fréquences fij = kij : fréquence de la classe (I = i, J = j) fi. : fréquence marginale de (I = i) = poids de la ligne i f.j : fréquence marginale de (J = j) = poids de la colonne j k

113/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC

Tableau des fréquences : Notion de poids Le poids des lignes varie de 4.6% pour [75+] à 20.3% pour [35-44] Le poids des colonnes varie de 7.2% pour [Bon] à 60% pour [Mauvais]

114/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Problématique et Objectifs de l'AFC

Objectif de l'AFC

Objectif Tenant compte de la variabilité des poids de lignes et de colonnes dans le tableau des fréquences, l'AFC vise à étudier

la liaison entre les variables qualitatives I et J en étudiant l'écart entre les données observées et le modèle d'indépendance

115/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)

But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats

5 Démarche pratique sous SPSS (v25) 116/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Modèle d'indépendance Rappel Deux événements A et B indépendants : P(A et B) = P(A) × P(B)

Deux variables qualitatives indépendantes : ∀i, ∀j, fij = fi. × f.j ⇐⇒

Probabilité conjointe = produit des probabilités marginales.

Autres écritures : f.j = ⇐⇒

fij fi.

fi. =

fij f.j

Probabilité conditionnelle = probabilité marginale 117/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Liaison entre deux variables qualitatives L'écart entre les données observées (fij ) et le modèle d'indépendance (fi. f.j ) se mesure par ϕ2 =

X (fij − fi. f.j )2 fi. f.j i,j

ϕ2 mesure l'intensité de la liaison et

ne dépend pas de l'eectif total

des individus mais uniquement des probabilités (fréquences observées et théoriques). Les variables qualitatives I et J sont indépendantes si et seulement si ϕ2 = 0

118/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Liaison entre deux variables qualitatives En utilisant les eectifs observés, l'écart entre les données observées et le modèle d'indépendance se mesure par D2 =

X (eff . observ e´ − eff . the´orique)2 eff . the´orique i,j

D2 =

X (n.fij − n.fi. f.j )2 n.fi. f.j

car kij = n.fij

i,j

D 2 = n.ϕ2

Lorsque I et J sont indépendantes, on montre que D suit une loi de χ à (n − 1) × (p − 1) degrès de liberté. 2

=⇒ test de χ2 nous donne une idée sur la signicativité l'écart) et ϕ2 mesure l'intensité de la liaison.

2

de liaison (de 119/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Liaison entre deux variables qualitatives Pratique : Test de χ Soit T . tel que P(χ < T . ) = 0.95. T . est donnée par les logiciels et les tables statistiques . 2

2

0 95

0 95

0 95

Si D > T . alors D est vraisemblablement non nulle à 95% de conance =⇒ la liaison entre I et J est signicative. 2

0 95

2

120/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Liaison entre deux variables qualitatives Pratique : Test de χ Certains logiciels statistiques fournissent aussi le degré de signication α de D : 2

2

P(D 2 < χ2 ) = α

Si α tend vers 0 (inférieur à 0.05), on peut accepter que D est non nulle (la liaison entre I et J est signicative au risque α =seuil de risque). 2

121/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Liaison entre deux variables qualitatives Sous l'hypothèse d'indépendance, les eectifs théoriques se calculent grâce à la formule : 0

kij =

ki. × k.j k

122/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Liaison entre deux variables qualitatives

123/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Liaison entre deux variables qualitatives

Si :

Khi2 observée > Khi2 critique ou Le degré de signication < 0.05

Alors :

L'âge et l'appréciation sont bien liés. 124/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

125/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ? Le tableau des prols-lignes représente les répartitions en pourcentage à l'intérieur d'une ligne. Ces prols-lignes sont en somme les probabilités conditionnelles d'avoir la modalité j de l'Appréciation sachant que les spectateurs ont la modalité i de l'âge.

La dernière ligne représente le prol-ligne moyen.

126/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

127/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

128/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Modèle d'indépendance

Comment l'AFC appréhende l'écart à l'indépendance ?

129/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)

But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats

5 Démarche pratique sous SPSS (v25) 130/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Le nuage des (prols) lignes

131/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Le nuage des (prols) colonnes

132/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Que se passe-t-il s'il y a indépendance ?

133/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Ecart à l'indépendance et inertie Plus les données s'écartent de l'indépendance et plus les prols s'écartent de l'origine. Inertie(NI /GI ) =

X

Inertie(i/GI ) =

i

=

X i

X

fi. dχ2 (i, GI ) 2

i

  2 X 1  fij fi.  − f.j  f.j f.j j

X X (fij − fi. f.j )2 D2 = = = ϕ2 fi. f.j n i

j

ϕ mesure l'intensité de la liaison et qui est indépendante de l'eectif 2

total du tableau.

Etudier l'inertie des nuages des prols lignes (NI ) revient à étudier l'écart à l'indépendance. Idem pour le nuage des prols colonnes (NJ ) : Inertie(NJ /GJ ) = Inertie(NI /GI )

(dualit e´)

134/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Nuage de prols dans un hyperplan Les points existent dans un espace de dimension r = min(p − 1, n − 1) Les points appartiennent à l'hyperplan x + x + ... + x p = 1 1

2

135/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Analogie entre ACP et AFC ACP

l'ACP permet de décrire la variabilité de p variables quantitatives en étudiant la structure de la variance totale via la recherche de nouveaux axes qui expliquent le maximum d'inertie ⇐⇒

Maximum de variance

AFC

l'AFC permet de décrire la liaison entre I et J en étudiant la structure de ϕ via la recherche de nouveaux axes qui expliquent le maximum d'inertie ⇐⇒ 2

Maximum de liaison ϕ2 mesure

la liaison entre les deux variables qualitatives l'inertie totale du nuage de points l'écart à l'indépendance 136/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Analogie entre ACP et AFC L'idée de l'AFC, comme en ACP, est de déterminer un nouveau repère qui permettra, en des projections bidimensionnelles, de montrer les plus grands allongements de ce nuage au tour de son centre de gravité.

ACP Les point Ii sont munis du même poids pi = 1/n La distance utilisée est la distance euclidienne les colonnes (variables) sont centrées Les points existent dans un espace de dimension r = min(p, n)

AFC Chaque point Ii est muni d'un poids pi = fi. La distance utilisée est la distance de Khi2 ni les lignes ni les colonnes ne sont centrées Les points existent dans un espace de dimension r = min(p − 1, n − 1) 137/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Analogie entre ACP et AFC Les directions d'inertie priviligiées sont trouvées de la même manière qu'en ACP, sauf qu'avec l'AFC Les prols lignes et les prols colonnes ont chacun un poids la distance utilisée est de Khi2 (χ ) ni les colonnes ni les lignes ne sont centrées : on analysera le nuage de points à partir de son centre de gravité On obtient : r axes factoriels avec r = min(p − 1, n − 1) le premier axe a le le maximum d'inertie λ le dernier axe a le le minimum d'inertie λr 2

1

λ1 ≥ λ2 ≥ ... ≥ λr

L'inertie totale ϕ = λ + λ + ... + λr 2

1

2

138/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Qualité d'ajustement La qualité de représentation d'un axe =? = le pourcentage d'inertie expliqué par l'axe = inertie de l'axe / inertie totale λ Pk k λk

La qualité de représentation d'un plan =?

= le pourcentage d'inertie expliqué par le plan = (la somme des inerties des 2 axes)/ inertie totale λk + λl P k λk

N.B.: En général, les 2 premiers axes susent pour expliquer plus de 70% de l'inertie initiale. Lorsque ce n'est pas le cas, on utilise les 3 premiers axes en les étudiant deux par deux.

139/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Qualité d'ajustement

Les deux premiers axes factoriels expliquent 97.3% de l'inertie totale.

140/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Qualité de représentation d'une modalité Sur un axe =? Carré du cosinus de l'angle fait par la modalité et l'axe

Sur un plan =? Carré du cosinus de l'angle fait par la modalité et le plan

141/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Contribution d'une modalité La contribution d'une modalité à l'inertie totale : = inertie de la modalité / inertie totale = pi

GA2i ϕ2

Indique quelles modalités sont les plus diérentes de la moyenne dans l'ensemble du nuage. 142/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Contribution d'une modalité

La contribution d'une modalité à l'inertie d'un axe : = inertie de la modalité sur l'axe / inertie de l'axe = pi

GA2i λk

Permet (pour les grandes valeurs) de donner un sens à l'axe.

143/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Contribution d'une modalité La contribution d'une modalité à l'inertie d'un axe :

144/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Contribution d'une modalité

145/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Contribution d'une modalité

146/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Les nuages et leur ajustement

Contribution d'une modalité Pratique La contribution d'une modalité est un compromis opérationnel entre distance à l'origine et poids Les contributions des modalités indiquent dans quelle mesure on peut considérer qu'un axe est dû à un élément ou à quelques éléments L'interprétation des graphese est basée sur les points remarquables ayant une bonne qualité de représentation La qualité de représentation indique dans quelle mesure l'écart d'un prol au prol moyen est complétement représenté par l'axe ou par un plan Les points extrêmes ne sont pas nécessairement ceux qui contribuent le plus à la construction des axes 147/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC)

But de l'AFC Tableau de données Problématique et Objectifs de l'AFC Modèle d'indépendance Les nuages et leur ajustement Interprétation des résultats

5 Démarche pratique sous SPSS (v25) 148/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats Les deux nuages : des prols-lignes des prols-colonnes sont projetés successivement sur des plans factoriels et interprétés. En Pratique On peut projeter simultanément les deux nuages sur un même plan.

149/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats L'interprétation de l'AFC consistera à :

Donner un sens aux axes en étudiant les contributions de chaque prol (modalité) : Les prols ayant les plus fortes

contributions sur un axe, permettront de donner un sens à cet axe

Interpréter la position des prols (modalités) par rapport au sens donné aux axes : L'étude des signes des coordonnées des prols permet de mettre en valeur des oppositions.

Interpréter la proximité des prols-lignes Interpréter la proximité des prols-colonnes 150/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats

Au sein d'une même variable

Au sein d'une même variable, la proximité de deux modalités est

signicative Deux points prols proches sur le graphe représenteront deux modalités de I ayant des distributions (répartitions) suivant les modalités de J assez semblables. Deux points prols éloignés représenteront deux modalités de I dont les distributions suivant les modalités de J sont très diérentes.

151/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats

Entre deux variables diérentes Entre variables diérentes, on jauge l'angle formé entre les deux modalités et l'origine Un angle proche de zéro, implique une liaison Un angle proche de π/2, implique pas liaison Un angle proche de π , implique une liaison inverse

152/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats : projection de l'appréciation

153/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats : projection de l'âge

154/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats : sens des axes

155/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats : sens des axes

Sens des axes factoriels :

Premier Axe Factoriel :

Etre plus vieux et ne pas aimer le lm et Etre jeune et aimer le lm

Opposition entre

Deuxième Axe Factoriel :

Etre d'un age moyen et dire que le m est moyen et Etre très vieux et bien aimer ce lm

Opposition entre

156/182

Analyse de données multidimensionnelles (ACP + AFC) Analyse Factorielle de Correspondance (AFC) Interprétation des résultats

Interprétation des résultats

157/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales Analyse Factorielle de Correspondance

158/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

1. Ouverture du chier de données Démarrer IBM Statistics SPSS 25 Ouvrir une source de données existante Fichier de type : Excel Choisir le chier : data-acp.xlsx

159/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

1. Ouverture du chier de données Laisser active l'option : lire les noms des variables à partir de la première ligne de données Cliquer sur OK Enregistrer votre chier en format donnée de SPSS : data-acp.sav

160/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

2. Statistiques descriptives Analyse Statistiques descriptives Descriptives

161/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

2. Statistiques descriptives La boîte de dialogue Descriptives apparaît alors : On choisit les variables adaptées à l'analyse en les sélectionnant dans la partie gauche puis en cliquant sur la èche qui pointe vers la droite. Cliquer sur options et cocher moyenne, écart type, variance, mini et max

162/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

3. Exécution de l'ACP Analyse Réduction des dimensions Analyse factorielle :

163/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

3. Exécution de l'ACP La boîte de dialogue Analyse factorielle apparaît alors : De même qu'en haut, sélectionner les variables adaptées à l'analyse Sur votre gauche il y a 5 boites de dialogue d'options à examiner une à une.

164/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

3. Exécution de l'ACP La boîte de dialogue Analyse factorielle : Caractéristiques apparaît. Dans Statistiques, cliquer sur Structure initiale Dans Matrice de corrélation, cliquer sur Coecients et indice de

KMO et test de sphéricité de Bartlett Ensuite, cliquer sur poursuivre

165/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

3. Exécution de l'ACP La boîte de dialogue Analyse

factorielle : Extraction

apparaît. Choisir entre matrice de corrélation ou matrice de covariance ? Cocher Structure

factorielle sans rotation et Diagramme des valeurs propres. Extraire Nombre xe de facteurs =3 ( ?) Ensuite, cliquer sur

poursuivre

166/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

3. Exécution de l'ACP La boîte de dialogue Analyse factorielle : Rotation apparaît. Garder l'option Aucun dans un premier temps Cocher l'option Cartes factorielles. Cette option permet d'avoir une représentation des diérents axes. Ensuite, cliquer sur

poursuivre

167/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

3. Exécution de l'ACP La boîte de dialogue Analyse factorielle : facteurs apparaît. L'option Enregistrer dans des variables permettra d'attribuer à chaque individu ses coordonnées factorielles une fois l'analyse terminée (garder le choix régression) Cocher l'option Acher la

matrice des coecients factoriels Ensuite, cliquer sur

poursuivre

168/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

4. Projection des Variables Le diagramme de composantes montre une projection sur l'espace dirigé par les 3 premiers axes factoriels. Pour revenir à des projections en 2 dimensions, cliquer 2 fois sur l'image diagramme de composantes puis cliquer sur édition

169/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

4. Projection des Variables puis sur propriétés puis variables, puis cliquer sur l'axe à exclure : exemple Axe des Z puis Exclure puis appliquer

170/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

5. Projection des Individus Pour projeter les observations sur les espaces factoriels : Remarquer que l'option

enregistrer dans des variables sous facteurs a permis

d'enregistrer dans le chier de données les facteurs comme de nouvelles variables à la n sous des noms : REGR factor score 1 for analysis 1 : c'est la CP No 1 de la 1ère analyse ! Ensuite tracer à partir de la fenêtre des données : Graphiques puis

Boîte de dialogue ancienne version , ensuite cliquez sur Dispersion des Points

171/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

5. Projection des Individus Choisir diagramme de dispersion simple puis cliquer sur dénir.

172/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

5. Projection des Individus Choisir diagramme de dispersion simple puis cliquer sur dénir. Placez la variable CP2 c.a.d REGR factor score 2 for analysis 1 sur l'axe des y et la variable CP1 c.a.d REGR factor score 1 for analysis 1 sur l'axe des x. Puis glisser la variable modèle dans cette case : Etiqueter les observations par. Cliquer sur options.

173/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse en Composantes Principales

5. Projection des Individus Cocher Acher le graphique avec les libellés des observations puis cliquer sur Poursuivre.

174/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

Outline 1 Références bibliographiques 2 Généralités de l'analyse des données multidimensionnelles 3 Analyse en Composantes Principales (ACP) 4 Analyse Factorielle de Correspondance (AFC) 5 Démarche pratique sous SPSS (v25)

Analyse en Composantes Principales Analyse Factorielle de Correspondance

175/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

1. Ouverture du chier de données Démarrer IBM Statistics SPSS 25 Ouvrir une source de données existante Choisir le chier : Appreciation-Age.sav

176/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

2. Exécution de l'AFC Analyse Réduction des dimensions Analyse des correspondances

177/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

2. Exécution de l'AFC La fenêtre Analyse des correspondances apparait : 1. Sélectionnez une variable de Ligne. (cliquer sur la èche) 2. Sélectionnez une variable de Colonne. (cliquer sur la èche) 3. Cliquer sur dénir intervalle ( pour la Ligne puis pour la Colonne): valeur mini = 1 ; valeur maxi = 4 dans le cas des variables à 4 modalités, puis Cliquer sur mettre à jour 4. Contrainte de modalité : aucun puis cliquer sur Poursuivre

178/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

2. Exécution de l'AFC Cliquer sur Modèle, la fenêtre : Analyse des correspondances : Modèle apparait : * Dimensions de la solution : 2 ? * Mesure de distance : choisir Khi-deux * Méthode de standardisation : Moyennes de lignes et de colonnes sont supprimées et Symétrique Poursuivre

179/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

2. Exécution de l'AFC Cliquer sur Statistiques, la fenêtre : Analyse des correspondances : Statistiques apparait, alors Cochez : 1. Tableau des correspondances 2. Caractéristiques des points lignes 3. Caractéristiques des points colonnes 4. Prols lignes 5. Prols colonnes puis cliquer sur Poursuivre

180/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

2. Exécution de l'AFC Cliquer sur Tracés, la fenêtre : Analyse des correspondances : Tracés

apparait, alors Cochez : 1. Nuages de points : Tracé double 2. Courbes : rien 3. Dimension des tracés : Acher

toutes les dimensions dans la solution puis cliquer sur Poursuivre

181/182

Analyse de données multidimensionnelles (ACP + AFC) Démarche pratique sous SPSS (v25) Analyse Factorielle de Correspondance

MERCI

MERCI N.B.: C'est la première version des mes slides de cours, si vous notez quelques erreurs de frappe ou d'autres anomalies, n'hésitez pas à me les communiquer par mail sur [email protected]

182/182