Analyse en Composante Principale [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Analyse des données appliquée au marketing

Analyse en composante principale

1

Qu’est-ce que l’Analyse des Données ? A l’occasion de sa conférence donnée le 4 octobre 2006 à l’INA-PG en introduction au cycle Jean-Pierre Fénelon, Jean-Paul Benzécri nous fait l’honneur de confier à MODULAD le texte « In memoriam : Pierre Bourdieu », où il se propose de répondre à la question de son ami « Qu’est-ce que l’analyse des données ? ».

Jean-Paul Benzécri, octobre 2006,

Né en 1932, ancien élève de l'École normale supérieure (1950), professeur à l'Institut de Statistique de l'Université de Paris, statisticien français fondateur de l’école française d’analyse des données – 19602 1990

Analyse des données appliquée au marketing

Analyse Factorielle analyse en composante Principale ACP

Analyse en composante principale • L’ACP, introduite par K. Pearson et Thurston (années 20), est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles

4

Analyse en composante principale

PLAN • Objectifs. • Nuage des individus. • Ajustement du nuage des individus • Représentation des variables associés à la représentation des individus • Nuage des variables Nk

5

1. Les objectifs de l’analyse factorielle (option composantes principales) Décrire un tableau (individus)(variables) : - Résumer un tableau de données à l’aide d’un petit nombre de facteurs. - Visualiser le positionnement des individus les uns par rapport aux autres ( ressemblance ) ( Notion de distance entre individus ) - Visualiser les corrélations entre les variables ( Notion de corrélation entre variables ) rechercher des groupes de variables étroitement liées entre elles (Peut on simplifier les variables - Donner une interprétation aux facteurs. 6

Un exemple de positionnement de Produits Modèle Cylindrée(cm3) Puissance (Ch) Vitesse(Km/h) poids (Kg) Largeur(mm) Longueur(mm) Citroën C2 1.1 Base 1124 61 158 932 1659 3666 Smart Fortwo Coupé 698 52 135 730 1515 2500 Mini 1.6 170 1598 170 218 1215 1690 3625 Nissan Micra 1.2 65 1240 65 154 965 1660 3715 Renault Clio 3.0 V6 2946 255 245 1400 1810 3812 Audi A3 1.9 TDI 1896 105 187 1295 1765 4203 Peugeot 307 1.4 HDI 70 1398 70 160 1179 1746 4202 Peugeot 407 3.0 V6 BVA 2946 211 229 1640 1811 4676 Mercedes Classe C 270 CDI 2685 170 230 1600 1728 4528 BMW 530d 2993 218 245 1595 1846 4841 Jaguar S-Type 2.7 V6 Bi-Turbo 2720 207 230 1722 1818 4905 BMW 745i 4398 333 250 1870 1902 5029 Mercedes Classe S 400 CDI 3966 260 250 1915 2092 5038 Citroën C3 Pluriel 1.6i 1587 110 185 1177 1700 3934 BMW Z4 2.5i 2494 192 235 1260 1781 4091 Audi TT 1.8T 180 1781 180 228 1280 1764 4041 Aston Martin Vanquish 5935 460 306 1835 1923 4665 Bentley Continental GT 5998 560 318 2385 1918 4804 Ferrari Enzo 5998 660 350 1365 2650 4700 Renault Scenic 1.9 dCi 120 1870 120 188 1430 1805 4259 Volkswagen Touran 1.9 TDI 105 1896 105 180 1498 1794 4391 Land Rover Defender Td5 2495 122 135 1695 1790 3883 Land Rover Discovery Td5 2495 138 157 2175 2190 4705 7 4455 Nissan X-Trail 2.2 dCi 2184 136 180 1520 1765

Analyse Uni variée

8

4.

Résumé des données Descriptive Statistics N

Cy lindrée Puissance Vitess e Poids Largeur Longueur

24 24 24 24 24 24

Minimum 698 52 135 730 1515 2500

Max imum 5998 660 350 2385 2650 5038

Mean 2722.54 206.67 214.71 1486.58 1838.42 4277.83

Std. Dev iation 1516.445 155.721 56. 572 387.507 220.842 581.497

Formule utilisée pour l’écart-type :

1 n 2 s ( x  x )  i n  1 i 1 9

Analyse Bivarié

10

Tableau des corrélations Cylindrée Puissance Vitesse Poids Largeur Longueur

Cylindrée 1.000 0.954 0.885 0.692 0.706 0.664

Puissance 1.000 0.934 0.529 0.730 0.527

Vitesse

1.000 0.466 0.619 0.578

Poids

Largeur

1.000 0.477 0.795

Longueur

1.000 0.591

1.000

Toutes les corrélations sont positives. Toutes les corrélations sont significatives au risque 5%

( R  2 / n) 11

Graphique des liaisons inter-variables (la Ferrari est représentée par un disque plein)

Cylindrée

Puissance

Vitesse

Poids

Largeur

Longueur

12

Analyse Multivarié ACP

13

Visualiser

14

Visualisation des données X1 … Xp

F1 F2

F2(i)

*i

0

F1(i)

1  i

x1i … xpi



F1i F2i …

 n

Le plan factoriel Cor(Xj,F2) 0

Tableau des données

Facteurs centrés-réduits résumant les données

Xj Cor(Xj,F1)

La carte des variables

Fh   j1 u hjX j p

(non corrélés entre eux)

15

Rappel de quelques notions Distance Euclidienne

16

Notion de ressemblance Critère de la distance Euclidienne Cas de deux individus: X

Y

A

Xa

Ya

B

Xb

Yb

A

B

A

0

D (A, B)

B

D (B, A)

O

Distance Euclidienne

Ya Yb

A B Xb

Xa

Exemple: Distance entre deux individus ( Marques )A et B 17

Notion de ressemblance multidimensionnelle • Deux individus se ressemble s’il ont le même profil de réponse donc les mêmes coordonnées. Il sont proche l’un de l’autre.

. X1 … Xp 1  i

Critère de proximité : Notion de distance euclidienne multidimensionnelle

x1i … xpi

 n

p

d ( xi , xl )   (xik  xkl) 2

x1 ...

xp

2

k

18

Nuage de points

d 2 ( xi , p)

Variables quantitatives X1

Xk Xp …

RP

Mi

1

 

Individus



i

x1i

… xpi

 

xi 0



*G

Mp

Ni





XG

XP

n x1 ...

xp

G

p

d ( xi , xl )   (xik  xkl) 2 2

k

Individu Moyen N = {x1, …, xi, …, xp} = Nuage de points associé aux données

Centre de gravité du nuage N :G=

1 p xi  n i 1 19

Problèmes des unités de mesure Pour neutraliser le problème des unités on remplace les données d’origine par les données centrées-réduites

X1*

* Xp

RP

X1  x1  s1 

Xi

   

0

*G

XG

Mp 



XP

P

 Xp  xp sp

Ces nouvelles variables ont une moyenne 0 et un écart-type 1. Le nuage est harmonisé

20

Inertie Totale du nuage

1 n 2 IG   d ( Mi,0) n i 1 = Somme pondérée des carrées des distances des individus au centre de gravité G=0 L’inertie totale mesure la dispersion du nuage de points Elle est égale à la somme des variances des variables étudiées S11 -  -  - -

S12 S22 ---

S13 S33 --

S1n S2n   Snn 

=

Matrice de variance covariance

IG  i 1 S i  Tr ( MatriceVar Cov) n

2

21

Inertie du nuage (suite ) • On appelle inertie la quantité d’information contenue dans un tableau de données. • Une inertie nulle signifie que tous les individus sont presque identiques. • L’inertie du nuage sera égale à la somme des variances des j caractères. • Si les j caractères sont centrés-réduits, l’inertie sera égale à j.

22

Ajustement du nuage de points Objectif : Trouver la meilleure représentation axiale du nuage Ni Trouver une direction U telle que : Maximum 1 n 2 OH  i n i 1 ou

1 n 2 I ( N , U1 )   d (M i H i ) n i 1 *

Minimum

23

Recherche du premier axe principal U1 M i* u 1    

 

* 

*0 

U1



Hi



Objectif 1 : On cherche l’axe u1 passant le mieux possible au milieu du nuage N*. On cherche à minimiser l’inertie du nuage N* par rapport à l’axe U1 :

1 n 2 I ( N , U1 )   d (M i H i ) n i 1 *

24

Premier axe principal 1 Rp

U

Mi  

 

 

*0  

Hi



Objectif 2 : On cherche l’axe d’allongement 1 du nuage N*. On cherche à maximiser l’inertie du nuage N* projeté sur l’axe U1:

1 n 2 OH  i n i 1

25

Les objectifs 1 et 2 sont atteints simultanément

De :

d 2 (Mi,0)  d 2 ( H i ,0)  d 2 (M i , H i )

on déduit : 1 n 2 1 n 2 1 n 2 d ( Mi,0)   d ( H i ,0)   d ( M i , H i )  n i 1 n i 1 n i 1

Inertie totale = p = Inertie expliquée par U + Inertie résiduelle Minimiser 26 Maximiser

Résultats 1. L’axe U1 passe par le centre de gravité G du nuage de points N*.

1. L’axe u1 est engendré par le vecteur normé u1, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre 1. 1. L’inertie expliquée par l’axe u1 est égal à 1. 2. La part d’inertie expliquée par le premier axe principal 1 est égal à 1/p.

27

Ajustement du nuage sur un plan Chercher la meilleure représentation plane du nuage du point Ni 1 n 2 OH  i Objectif: Trouver P telle que n i 1 soit maximum(plan d’inertie maximum)

LES SOLUTIONS : Le meilleur plan contient la meilleure solutions ( les deux solutions sont emboitées):

•U1 appartient au Plan . •U2 d’inertie Maximale avec •U2 perpendiculaire à U1

U1 et U2 forment le même plan

Résultats 1. Le deuxième axe principal 2 orthogonal à 1 et passant le mieux possible au milieu du nuage. 2. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. 3. La deuxième composante principale est définie par projection des points sur le deuxième axe principal. 4. La deuxième composante principale est centrée, de variance 2, et non corrélée à la première composante principale Y1. 29

Suite d’axes de représentation du nuage Ni • Problème : Trouver une suite d’axes orthogonaux d’inertie maximum. • Trouver un vecteur Us de l’axe de rang s. • Soit s la projection de Mi sur Us 1 H i • Trouver Ut telle que n  OH soit maximale sous la contrainte Us est perpendiculaire à Ut t