38 2 930KB
Analyse des données appliquée au marketing
Analyse en composante principale
1
Qu’est-ce que l’Analyse des Données ? A l’occasion de sa conférence donnée le 4 octobre 2006 à l’INA-PG en introduction au cycle Jean-Pierre Fénelon, Jean-Paul Benzécri nous fait l’honneur de confier à MODULAD le texte « In memoriam : Pierre Bourdieu », où il se propose de répondre à la question de son ami « Qu’est-ce que l’analyse des données ? ».
Jean-Paul Benzécri, octobre 2006,
Né en 1932, ancien élève de l'École normale supérieure (1950), professeur à l'Institut de Statistique de l'Université de Paris, statisticien français fondateur de l’école française d’analyse des données – 19602 1990
Analyse des données appliquée au marketing
Analyse Factorielle analyse en composante Principale ACP
Analyse en composante principale • L’ACP, introduite par K. Pearson et Thurston (années 20), est une technique des statistiques descriptives destinée à l’analyse des données multidimensionnelles
4
Analyse en composante principale
PLAN • Objectifs. • Nuage des individus. • Ajustement du nuage des individus • Représentation des variables associés à la représentation des individus • Nuage des variables Nk
5
1. Les objectifs de l’analyse factorielle (option composantes principales) Décrire un tableau (individus)(variables) : - Résumer un tableau de données à l’aide d’un petit nombre de facteurs. - Visualiser le positionnement des individus les uns par rapport aux autres ( ressemblance ) ( Notion de distance entre individus ) - Visualiser les corrélations entre les variables ( Notion de corrélation entre variables ) rechercher des groupes de variables étroitement liées entre elles (Peut on simplifier les variables - Donner une interprétation aux facteurs. 6
Un exemple de positionnement de Produits Modèle Cylindrée(cm3) Puissance (Ch) Vitesse(Km/h) poids (Kg) Largeur(mm) Longueur(mm) Citroën C2 1.1 Base 1124 61 158 932 1659 3666 Smart Fortwo Coupé 698 52 135 730 1515 2500 Mini 1.6 170 1598 170 218 1215 1690 3625 Nissan Micra 1.2 65 1240 65 154 965 1660 3715 Renault Clio 3.0 V6 2946 255 245 1400 1810 3812 Audi A3 1.9 TDI 1896 105 187 1295 1765 4203 Peugeot 307 1.4 HDI 70 1398 70 160 1179 1746 4202 Peugeot 407 3.0 V6 BVA 2946 211 229 1640 1811 4676 Mercedes Classe C 270 CDI 2685 170 230 1600 1728 4528 BMW 530d 2993 218 245 1595 1846 4841 Jaguar S-Type 2.7 V6 Bi-Turbo 2720 207 230 1722 1818 4905 BMW 745i 4398 333 250 1870 1902 5029 Mercedes Classe S 400 CDI 3966 260 250 1915 2092 5038 Citroën C3 Pluriel 1.6i 1587 110 185 1177 1700 3934 BMW Z4 2.5i 2494 192 235 1260 1781 4091 Audi TT 1.8T 180 1781 180 228 1280 1764 4041 Aston Martin Vanquish 5935 460 306 1835 1923 4665 Bentley Continental GT 5998 560 318 2385 1918 4804 Ferrari Enzo 5998 660 350 1365 2650 4700 Renault Scenic 1.9 dCi 120 1870 120 188 1430 1805 4259 Volkswagen Touran 1.9 TDI 105 1896 105 180 1498 1794 4391 Land Rover Defender Td5 2495 122 135 1695 1790 3883 Land Rover Discovery Td5 2495 138 157 2175 2190 4705 7 4455 Nissan X-Trail 2.2 dCi 2184 136 180 1520 1765
Analyse Uni variée
8
4.
Résumé des données Descriptive Statistics N
Cy lindrée Puissance Vitess e Poids Largeur Longueur
24 24 24 24 24 24
Minimum 698 52 135 730 1515 2500
Max imum 5998 660 350 2385 2650 5038
Mean 2722.54 206.67 214.71 1486.58 1838.42 4277.83
Std. Dev iation 1516.445 155.721 56. 572 387.507 220.842 581.497
Formule utilisée pour l’écart-type :
1 n 2 s ( x x ) i n 1 i 1 9
Analyse Bivarié
10
Tableau des corrélations Cylindrée Puissance Vitesse Poids Largeur Longueur
Cylindrée 1.000 0.954 0.885 0.692 0.706 0.664
Puissance 1.000 0.934 0.529 0.730 0.527
Vitesse
1.000 0.466 0.619 0.578
Poids
Largeur
1.000 0.477 0.795
Longueur
1.000 0.591
1.000
Toutes les corrélations sont positives. Toutes les corrélations sont significatives au risque 5%
( R 2 / n) 11
Graphique des liaisons inter-variables (la Ferrari est représentée par un disque plein)
Cylindrée
Puissance
Vitesse
Poids
Largeur
Longueur
12
Analyse Multivarié ACP
13
Visualiser
14
Visualisation des données X1 … Xp
F1 F2
F2(i)
*i
0
F1(i)
1 i
x1i … xpi
F1i F2i …
n
Le plan factoriel Cor(Xj,F2) 0
Tableau des données
Facteurs centrés-réduits résumant les données
Xj Cor(Xj,F1)
La carte des variables
Fh j1 u hjX j p
(non corrélés entre eux)
15
Rappel de quelques notions Distance Euclidienne
16
Notion de ressemblance Critère de la distance Euclidienne Cas de deux individus: X
Y
A
Xa
Ya
B
Xb
Yb
A
B
A
0
D (A, B)
B
D (B, A)
O
Distance Euclidienne
Ya Yb
A B Xb
Xa
Exemple: Distance entre deux individus ( Marques )A et B 17
Notion de ressemblance multidimensionnelle • Deux individus se ressemble s’il ont le même profil de réponse donc les mêmes coordonnées. Il sont proche l’un de l’autre.
. X1 … Xp 1 i
Critère de proximité : Notion de distance euclidienne multidimensionnelle
x1i … xpi
n
p
d ( xi , xl ) (xik xkl) 2
x1 ...
xp
2
k
18
Nuage de points
d 2 ( xi , p)
Variables quantitatives X1
Xk Xp …
RP
Mi
1
Individus
i
x1i
… xpi
xi 0
*G
Mp
Ni
XG
XP
n x1 ...
xp
G
p
d ( xi , xl ) (xik xkl) 2 2
k
Individu Moyen N = {x1, …, xi, …, xp} = Nuage de points associé aux données
Centre de gravité du nuage N :G=
1 p xi n i 1 19
Problèmes des unités de mesure Pour neutraliser le problème des unités on remplace les données d’origine par les données centrées-réduites
X1*
* Xp
RP
X1 x1 s1
Xi
0
*G
XG
Mp
XP
P
Xp xp sp
Ces nouvelles variables ont une moyenne 0 et un écart-type 1. Le nuage est harmonisé
20
Inertie Totale du nuage
1 n 2 IG d ( Mi,0) n i 1 = Somme pondérée des carrées des distances des individus au centre de gravité G=0 L’inertie totale mesure la dispersion du nuage de points Elle est égale à la somme des variances des variables étudiées S11 - - - -
S12 S22 ---
S13 S33 --
S1n S2n Snn
=
Matrice de variance covariance
IG i 1 S i Tr ( MatriceVar Cov) n
2
21
Inertie du nuage (suite ) • On appelle inertie la quantité d’information contenue dans un tableau de données. • Une inertie nulle signifie que tous les individus sont presque identiques. • L’inertie du nuage sera égale à la somme des variances des j caractères. • Si les j caractères sont centrés-réduits, l’inertie sera égale à j.
22
Ajustement du nuage de points Objectif : Trouver la meilleure représentation axiale du nuage Ni Trouver une direction U telle que : Maximum 1 n 2 OH i n i 1 ou
1 n 2 I ( N , U1 ) d (M i H i ) n i 1 *
Minimum
23
Recherche du premier axe principal U1 M i* u 1
*
*0
U1
Hi
Objectif 1 : On cherche l’axe u1 passant le mieux possible au milieu du nuage N*. On cherche à minimiser l’inertie du nuage N* par rapport à l’axe U1 :
1 n 2 I ( N , U1 ) d (M i H i ) n i 1 *
24
Premier axe principal 1 Rp
U
Mi
*0
Hi
Objectif 2 : On cherche l’axe d’allongement 1 du nuage N*. On cherche à maximiser l’inertie du nuage N* projeté sur l’axe U1:
1 n 2 OH i n i 1
25
Les objectifs 1 et 2 sont atteints simultanément
De :
d 2 (Mi,0) d 2 ( H i ,0) d 2 (M i , H i )
on déduit : 1 n 2 1 n 2 1 n 2 d ( Mi,0) d ( H i ,0) d ( M i , H i ) n i 1 n i 1 n i 1
Inertie totale = p = Inertie expliquée par U + Inertie résiduelle Minimiser 26 Maximiser
Résultats 1. L’axe U1 passe par le centre de gravité G du nuage de points N*.
1. L’axe u1 est engendré par le vecteur normé u1, vecteur propre de la matrice des corrélations R associé à la plus grande valeur propre 1. 1. L’inertie expliquée par l’axe u1 est égal à 1. 2. La part d’inertie expliquée par le premier axe principal 1 est égal à 1/p.
27
Ajustement du nuage sur un plan Chercher la meilleure représentation plane du nuage du point Ni 1 n 2 OH i Objectif: Trouver P telle que n i 1 soit maximum(plan d’inertie maximum)
LES SOLUTIONS : Le meilleur plan contient la meilleure solutions ( les deux solutions sont emboitées):
•U1 appartient au Plan . •U2 d’inertie Maximale avec •U2 perpendiculaire à U1
U1 et U2 forment le même plan
Résultats 1. Le deuxième axe principal 2 orthogonal à 1 et passant le mieux possible au milieu du nuage. 2. Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u2, vecteur propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre 2. 3. La deuxième composante principale est définie par projection des points sur le deuxième axe principal. 4. La deuxième composante principale est centrée, de variance 2, et non corrélée à la première composante principale Y1. 29
Suite d’axes de représentation du nuage Ni • Problème : Trouver une suite d’axes orthogonaux d’inertie maximum. • Trouver un vecteur Us de l’axe de rang s. • Soit s la projection de Mi sur Us 1 H i • Trouver Ut telle que n OH soit maximale sous la contrainte Us est perpendiculaire à Ut t