36 0 274KB
Chapitre 7 : Analyse factorielle 7.1. Principe et conditions d’application 7.2. ACP 7.3. AFC M2 Marketing
Université Paris 1 Panthéon-Sorbonne
1 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Principe et historique : L’analyse factorielle est une méthode descriptive (par opposition aux méthodes explicatives que nous avons vu auparavant). Il n’y a plus de variables explicatives et à expliquer. On étudie l’ensemble des corrélations entre variables quantitatives pour l’ACP et qualitatives pour l’AFC. Historiquement, il s’agit de l’un des + anciennes méthodes d’analyse des données (Spearman, début 20ème). Mais les applications informatiques ont considérablement modifié les conditions et modalités d’application, en rendant notamment possible le traitement d’un très grand nombre de données. C’est enfin la méthode la plus connue et la plus utilisée en 2 sciences sociales. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Exemples d’utilisation marketing de l’analyse factorielle : • Dans la segmentation de marché, pour identifier les variables fondamentales à partir desquelles seront formés des groupes de clients. Par exemple, les acheteurs de voitures neuves seront ainsi regroupés en 5 segments selon leur sensibilité au prix, à la commodité, à la performance, au confort et au luxe. • En recherche produit, pour déterminer les caractéristiques d’1 marque qui influencent le choix des consommateurs. Les marques de dentifrice peuvent par exemple être évaluées selon des critères de protection contre les caries, la blancheur des dents, de goût, de rafraîchissement d’haleine ou de prix. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
3 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application • Lors d’études publicitaires, pour comprendre dans le marché cible les habitudes du consommateur moyen. Ceux qui achètent des plats surgelés peuvent aussi être de grands amateurs de télévision par câble, regarder beaucoup la télévision, etc. • Lors d’études de prix, pour identifier les caractéristiques de sensibilité au prix des consommateurs, ces derniers pouvant être « ordonnés », « économes » ou « tournés vers le foyer ».
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
4 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Objectifs et conditions d’utilisation : L’objectif principal est la structuration des variables, c’est-à-dire la réduction des colonnes de la matrices des données : on veut résumer l’information. Pour ce faire, on remplace les variables initiales par un nombre plus restreint de variables dites « composites » (ou « facteurs »), obtenues par « regroupement » des variables initiales les plus corrélées entre elles. Cela nécessite : 1. Un nombre d’individu supérieur à 15 2. Qu’il y ait plus d’individus que de variables M2 Marketing
Université Paris 1 Panthéon-Sorbonne
5 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Exemple : on mesure 40 variables d’attitudes sur 800 ménagères. Faut-il vraiment garder les 32 000 valeurs de la BDD ou ne peut-on pas résumer cette information par 1, 2 ou 3 variables de synthèse ? N’y-a-t-il pas redondances entre certaines variables initiales ? Ne peut-on pas en éliminer certaines qui n’apportent qu’1 information marginale et peu intéressante ? • Avoir moins de variables permet de faciliter l’interprétation et pouvoir dégager des implications managériales concrètes. • L’analyse factorielle peut aussi servir de phase intermédiaire de calcul avant d’utiliser d’autres méthodes. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
6 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Une autre utilisation fréquente de l’analyse factorielle concerne la démarche psychométrique de mesure de concepts non observables. Par exemple, si l’on souhaite développer, ou même reprendre une échelle de mesure d’attitude ou une échelle mesurant un trait de personnalité en particulier, il est en toute rigueur nécessaire de s’assurer de la validité et de la fiabilité de cet instrument. On réalise pour cela une analyse factorielle. S’il s’agit d’une échelle de mesure que l’on a créée, on mènera une analyse factorielle « exploratoire », s’il s’agit d’une échelle de mesure que l’on reprend de la littérature (qui a déjà fait l’objet de validations antérieures), on mènera une analyse factorielle « confirmatoire ». M2 Marketing
Université Paris 1 Panthéon-Sorbonne
7 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Exemple d’analyse factorielle exploratoire : l’image d’un magasin a été évaluée par un échantillon d’individus à partir d’une série d’items sur une échelle sémantique. On va analyser et regrouper ces items pour faire ressortir les facteurs fondamentaux.
Exemple d’analyse factorielle confirmatoire : s’assurer des bonnes qualités de l’échelle d’attitude en 4 items que l’on a repris de la littérature. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
8 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Approche R et Q de l’ACP : Lorsque l’on part d’une matrice de données (individus/variables), 2 types d’analyse factorielle peuvent être menés : • l’approche R (celle que nous allons traiter) : les facteurs sont des combinaisons linéaires de variables initiales • l’approche Q (rare) : les facteurs sont des combinaisons linéaires d’individus. Cela permet de regrouper les individus qui ont des réponses analogues sur les variables sur lesquelles portent l’analyse. Dans les 2 cas, les techniques de calcul sont identiques. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
9 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Types de variables de l’ACP : L’ACP consiste à regrouper des variables quantitatives (âge en années, salaire en euros, etc. ou en marketing, échelles de proportion ou d’intervalle). Ces variables sont : • Au moins centrées : dans ce cas l’analyse factorielle repose sur la matrice des variances-covariances on accordera alors beaucoup d’importance aux variables les plus dispersées • Ou centrées-réduites : dans ce cas l’analyse factorielle repose sur la matrice des corrélations r entre variables M2 Marketing
Université Paris 1 Panthéon-Sorbonne
10 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Dans le cas particulier de variables toutes mesurées sur des échelles à même nombre d’échelon, les données sont utilisées « telles quelles ». L’analyse factorielle reposera alors sur la matrice des corrélations, comme si les données étaient centrées-réduites. Remarque : En marketing, on réalise beaucoup d’ACP avec des BDD mesurant des scores. Pour ces échelles (d’intervalle ou de ratio), seules des variables mesurées sur un même nombre d’échellons peuvent être analysées simultanément, sinon, il faut au préalable centrer et réduire les données. Dans tous les cas, avec l’ACP, les données sont au moins centrées. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
11 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Les variables sont-elles factorisables ? Avant de réaliser une analyse factorielle, il faut s’interroger sur sa pertinence, d’un point de vue théorique bien sûr, mais ensuite d’un point de vue statistique. Statistiquement, on peut, de manière assez peu formelle, vérifier à l’aide de la matrice des corrélations que les coefficients sont assez élevés dans l’ensemble. On peut également mener une démarche plus rigoureuse, à l’aide de 2 tests, disponibles sous SPSS • le test de sphéricité de Barlett. • le test MSA (Measure of Sampling Adequacy - appelé aussi test de Kaiser, Meyer et Olkin) qui peut être effectué pour chaque variable ou directement pour l’ensemble. 12 M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application L’analyse en composante principale (ACP) consiste à résumer l’information contenue dans un tableau à 2 entrées, généralement les « individus » en lignes et les « variables » (quantitatives) en colonnes, en remplaçant les variables initiales par 1 plus petit nombre de nouvelles variables. L’analyse factorielle des correspondances (AFC) est une généralisation de l’A.C.P. adaptée au traitement de données qualitatives qui se présentent sous la forme d’un tableau de contingence (dont on peut sommer les effectifs en lignes et en colonne). Elle permet de visualiser les relations pouvant exister entre les modalités de 2 caractères (par exemple, la couleur des yeux et des cheveux). M2 Marketing
Université Paris 1 Panthéon-Sorbonne
13 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Présentation des BDD utilisées, pour l’ACP : en ligne, les individus et en colonne, les variables A chaque case du tableau correspond le score d’1 individu sur 1 variable. Variables 1
2
3
p
In d iv id u s o u o b je ts
1 2 3
xij Score individu i sur var. j
n M2 Marketing
Université Paris 1 Panthéon-Sorbonne
14 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application Présentation des BDD utilisées, pour l’AFC : Soient X et Y deux variables qualitatives ayant respectivement xn et ym modalités. Exemple : X : boissons consommées et Y : région d’habitation Le tableau de contingence K formé à partir de ces deux variables aura autant : • de lignes que la variable X a de modalités (n) (exemple : coca, jus de fruit, bière, vin, whisky, etc) • et autant de colonnes que la variable Y a de modalités (m) (exemple : Ile-de-France, Bretagne, etc.). M2 Marketing
Université Paris 1 Panthéon-Sorbonne
15 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.1. Principe et conditions d’application y1
x1 K x i ( n ,m ) xn
ym
ki , j
X possède n modalités (types de boissons) M2 Marketing
yj
Y possède m modalités (les régions)
Nombre d’individus qui consomment la boisson xi et qui habitent la région yi.
Les individus n’apparraissent qu’au travers de leurs effectifs. Chaque chiffre correspond à 1 individu.
Université Paris 1 Panthéon-Sorbonne
16 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Pour simplifier la démarche, nous pouvons la décomposer en 4 étapes (après avoir supprimé de l’analyse les éventuelles données aberrantes) : 1. Formulation du problème 2. Vérification des corrélations 3. Détermination du nombre d’axes à retenir 4. Interprétation des axes factoriels
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
17 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Etape 1 : Formuler le problème Il s’agit de déterminer les objectifs de l’analyse factorielle qui va être menée. Les variables considérées pour l’analyse doivent être choisies sur la base de recherches préalables (être justifiées, que ce soit par la littérature ou par une phase qualitative par exemple). On utilise des données quantitatives brutes ou des échelles d’intervalles ou de ratio (ayant même nombre d’échelons ou étant standardisées). Le nombre d’individus est généralement 4 à 5 fois + grand que le nombre de variables. Si l’échantillon est petit, ce rapport est + faible et les résultats doivent être interprétés avec prudence. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
18 Cours de M. Eric
Exemple : BDD SPSS « caractéristiques des dentifrices » Il s’agit d’1 étude qui porte sur les avantages fondamentaux recherchés par les consommateurs lors de l’acaht d’un dentifrice. Le sondage est réalisé dans 1 centre commercial auprès d’1 échantillon de 30 personnes, qui ont donné leur avis sur les affirmations suivantes, sur 1 échelle de 1 (en total désaccord) à 7 (entièrement d’accord) même nombre d’échelons V1 : Il est important d’utiliser 1 dentifrice qui prévient la formation des caries. V2 : Un dentifrice doit rendre les dents brillantes. V3 : Un dentifrice doit renforcer les gencives. V4 : Un dentifrice doit raffraîchir l’haleine. V5 : La prévention des caries n’est pas un avantage important du dentifrice (sic). 19
V6 : Un dentifrice doit avant tout donner de belles dents
Chapitre 7 : Analyse factorielle
7.2. ACP Etape 2 : Vérification des corrélations Le processus de l’ACP repose sur une matrice des corrélations (ou des covariances, selon que les données sont réduites ou non). Pour que l’analyse soit pertinente, il est nécessaire que les variables soient corrélées. Des variables qui sont fortement corrélées avec le(s) même(s) facteur(s) sont supposées être également fortement corrélées entre elles. Une première méthode consiste à examiner la matrice des corrélations. Analyse Factorisation Analyse factorielle Puis menu « caractéristiques » cliquez sur « matrice des corrélations – coefficients » M2 Marketing
Université Paris 1 Panthéon-Sorbonne
20 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Matrice de corrélation
Corrélation
caries brillance gencives haleine prévention caries belles dents
caries 1,000 -,053 ,873 -,086 -,858 ,004
brillance -,053 1,000 -,155 ,572 ,020 ,640
gencives ,873 -,155 1,000 -,248 -,778 -,018
haleine -,086 ,572 -,248 1,000 -,007 ,640
prévention caries -,858 ,020 -,778 -,007 1,000 -,136
belles dents ,004 ,640 -,018 ,640 -,136 1,000
De nombreux coefficients de corrélation (r) sont assez forts (>0,4 en v.a.) ce qui laisse supposer que l’analyse est pertinente. Les corrélations entre V1, V2, V3 et V5 sont relativement fortes : on peut s’attendre à ce que ces variables soient corrélées aux mêmes groupes de facteurs. Il en est de même pour V2, V4 et V6. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
21 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Pour être + rigoureux, il est utile de réaliser un test de sphéricité de Barlett et une mesure de l’indice d’adéquation de Kaiser-Meyer-Olkin. Dans le même menu « caractéristiques » cliquez sur « matrice des corrélations – indice KMO et test de Barlett » Indice KMO et test de Bartlett Mesure de précision de l'échantillonnage de Kaiser-Meyer-Olkin. Test de sphéricité de Bartlett
M2 Marketing
Khi-deux approché ddl Signification
Université Paris 1 Panthéon-Sorbonne
,660 111,314 15 ,000 22 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Le test de sphéricité de Barlett teste l’hypothèse nulle H0 selon laquelle les variables ne sont pas corrélées dans la population ( est-il possible de mener 1 ACP ?). Dans une matrice identité, tous les termes de la diagonales sont égaux à 1, et tous les autres à 0. CE test s’appuie sur 1 transformation du khi-2 du déterminant de la matrice des corrélations. Une valeur élevée au vu du nombre de ddl (ou plus simplement 1 probabilités associée faible c-a-d < 5%) permet de rejeter H0. Dans le tableau précédent, la valeur du khi-2 est de 111,314 pour 15 ddl, soit une probabilité d’erreur de 0,000 H0 est rejetée, il est pertinent de poursuivre l’analyse.
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
23 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Le test de Kaiser-Meyer-Olkin (KMO) compare les grandeurs des coefficients de corrélation observés aux grandeurs des coefficients de corrélation partielle. De petites valeurs de cet indice indiquent que les corrélations entre paires de variables ne peuvent pas être expliquées par d’autres variables et que l’analyse factorielle peut ne pas être pertinente ( est-il intéressant de mener 1 ACP ?). On estime généralement qu’une valeur > 0,5 est satisfaisante. La valeur du test KMO que nous avons obtenue est de 0,660, ce qui est suffisament élevé. L’analyse factorielle apparaît donc bien appropriée pour l’analyse de la matrice des corrélations (même nombre d’échelons pour chaque échelle). M2 Marketing
Université Paris 1 Panthéon-Sorbonne
24 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Etape 3 : Détermination du nombre d’axes à retenir Il est possible de calculer autant de composantes principales (ou « axes » ou « facteurs ») qu’il y a de variables, mais dans ce cas nous n’aboutirions à aucune synthèse de l’information. Rappel : le but est résumer l’information. Un petit nombre de facteurs doit donc être extrait. + on retient d’axes, plus la variance restituée est importante, mais moins l’analyse est synthétique et donc délicate à interprétée. En outre, le premier facteur est celui qui restitue le maximum de la variance totale des variables originales (ce qui fonde la différence entre les individus). Le deuxième facteur est celui qui restitue le maximum de variance restante, etc. Rapidement, l’ajout d’un axe supplémentaire présente un intérêt limité en terme d’apport d’information. 25 M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Cours de M. Eric
Rotation des axes factoriels (1/3) : Avant de poursuivre la démarche de détermination du nombre optimal d’axes à retenir (et lancer l’analyse), précisons qu’il est préférable de réaliser une rotation des axes factoriels. Cette rotation n’affecte ni les communalités, ni le pourcentage de la variance totale expliquée, mais modifie le % de variance correspondant à chaque facteur (et donc les valeurs propres). Le tableau des corrélations entre variables et facteurs (la matrice factorielle ou matrice des composantes) est au cœur de l’analyse factorielle. Il présente des coefficients qui expriment les variables centrées standardisées en fonction des facteurs. Ces coefficients (ou poids factoriels ou loadings) représentent les corrélations existantes entre les facteurs et les variables. Un coefficient élevé (en v.a.) indique que le facteur et la variable sont étroitement corrélés, ou encore que la variable apporte beaucoup de sens au facteur. Or, cette matrice factorielle, sans rotation, permet rarement d’aboutir à des facteurs pouvant être 26 interprétés, puisqu’ils son corrélés avec plusieurs variables.
Rotation des axes factoriels (2/3) : Matrice des composantesa
caries brillance gencives haleine prévention caries belles dents
Composante 1 2 ,928 ,253 -,301 ,795 ,936 ,131 -,342 ,789 -,869 -,351 -,177 ,871
Par exemple, si l’on retient 2 facteurs, il ressort que le facteur 1 est corrélé avec 5 variables (v.a. > 0,3) et le facteur 2 avec 4. Il serait très difficile avec 1 telle matrice d’interpréter les résultats…
Méthode d'extraction : Analyse en composantes principales. a. 2 composantes extraites.
La rotation permet de transformer la matrice factorielle en une matrice + simple et + facile à interpréter. L’objectif est que les facteurs aient 1 coefficient non nul ou significatif pour quelques variables. Dans le même temps, on voudrait que chaque variable ait une corrélation non nulle ou significative avec seulement quelques facteurs (1 seul si possible). La rotation maximise les saturations les plus fortes et minimise les plus faibles. 2 grans types sont utilisés en sciences sociales : 27
Rotation des axes factoriels (3/3) : - La rotation orthogonale (dont les plus fréquemment employées sont VARIMAX et QUARTIMAX ) est utilisée lorsque l’on pense déterminer des facteurs indépendants les uns des autres. Cette solution est préférable car elle indique que chaque facteur apporte une information unique, non partagée par un autre facteur. Cependant, cette solution est rarement possible en Sciences Sociales, car il existe généralement des liens conceptuels entre les facteurs. -La rotation oblique (OBLIMIN) permet une corrélation entre les facteurs. Comme elle correspond mieux à la réalité, c’est elle qui est généralement utilisée en Sciences Sociales. C’est aussi celle que nous avons retenue pour notre exemple. Sous SPSS, menu « rotation » choisir Oblimin directe, avec delta = 0
28
Chapitre 7 : Analyse factorielle
7.2. ACP Pour savoir combien d’axes retenir, plusieurs méthodes existent et sont complémentaires : • La détermination a priori : il arrive que le chargé d’étude sache à l’avance combien d’axes retenir, s’il s’agit par exemple d’une étude très « classique ». Dans ce cas là, sous SPSS, dans le menu « extraction », on peut spécifier directement le nombre d’axes à retenir.
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
29 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP • L’examen des valeurs propres : si le nuage de points initial n’avait pratiquement aucune direction privilégiée, la variance restituée par le premier facteur serait d’environ 100/p (où p est le nombre initial de variables). Pour conserver un facteur, il faut que la variance qu’il restitue soit nettement supérieure à cette restitution « au hasard ». Le seuil communément admis pour retenir un facteur est de deux fois la quantité 100/p. Le point de départ de l’analyse étant la matrice des corrélations, les facteurs retenus sont ceux dont les valeurs propres sont supérieures à 1. Cette règle de décision est également appelée « règle de Kaiser ». Cependant, cette méthode n’est pas satisfaisante lorsque le nombre de variables est inférieur à 20 (comme ici). La valeur « 1 » est plus un seuil en dessous duquel il ne faut pas descendre, mais qui ne signifie pas qu’une fois franchit l’axe ne doit nécessairement être retenu. 30 M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Variance expliquée totale
Composante 1 2 3 4 5 6
Valeurs propres initiales % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000
Sommes des carrés chargées % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000
Somme des carrés Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508
Méthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrélées, les sommes des carrés chargés ne peuvent pas être additionnés pour obtenir une variance totale.
Dans notre exemple, si l’on retient les valeurs propres > 1, alors nous devons retenir 2 axes factoriels. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
31 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP • L’examen de la courbe des valeurs propres : la variance restituée par chaque facteur va en diminuant. Cette règle de décision consiste à chercher le premier facteur dont l’élimination consiste à une perte d’information minimum. L’examen de la courbe des valeurs propres (fournie par SPSS) conduit à la recherche d’un point d’inflexion et à l’élimination des facteurs situés après ce point. Il est démontré de façon expérimentale que le point où commence le changement de concavité est révélateur du nombre de facteurs. Cette méthode peut aboutir à retenir + de facteurs qu’avec la méthode des valeurs propres. M2 Marketing
Université Paris 1 Panthéon-Sorbonne
32 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Graphique des valeurs propres 3,0
2,5
Le test de coude montre un net décrochement à partir de 3 facteurs. Il inciterait donc à retenir 3 axes factoriels.
2,0
Valeur propre
1,5
1,0
,5 0,0 1
2
3
4
5
6
Numéro de composant
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
33 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP • Le minimum de variance totale restituée : le chercheur fixe à l’avance un seuil de variance qu’il veut restituer. Il retient ensuite le nombre d’axes nécessaires pour atteindre ce seuil. Si, dans les sciences « dures » un seuil de 95 % est fixé, un seuil de 60 % est généralement accepté en marketing et plus largement en sciences sociales. Variance expliquée totale
Composante 1 2 3 4 5 6
Valeurs propres initiales % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000
Sommes des carrés chargées % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000
Méthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrélées, les sommes des carrés chargés ne peuvent pas être additionnés pour obtenir une variance totale.
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Somme des carrés Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508
2 facteurs = 82,488% de variance restituée
34 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP • Le minimum de variance totale restituée : le chercheur fixe à l’avance un seuil de variance qu’il veut restituer. Il retient ensuite le nombre d’axes nécessaires pour atteindre ce seuil. Si, dans les sciences « dures » un seuil de 95 % est fixé, un seuil de 60 % est généralement accepté en marketing et plus largement en sciences sociales. Variance expliquée totale
Composante 1 2 3 4 5 6
Valeurs propres initiales % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000
Sommes des carrés chargées % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000
Méthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrélées, les sommes des carrés chargés ne peuvent pas être additionnés pour obtenir une variance totale.
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Somme des carrés Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508
2 facteurs = 82,488% de variance restituée
35 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Etape 4 : Interprétation des axes factoriels Une fois les vérifications préalables opérées, le choix de rotation réalisé (oblimin) et le nombre d’axes factoriels déterminé (2), il reste à interpréter les axes factoriels. Ces variables composites sont les dimensions « latentes » du phénomène étudié. Pour l’interprétation, il est nécessaire de revenir aux items initiaux et de déterminer leur importance dans la formation des facteurs (et éventuellement de supprimer certains items de l’analyse). Les deux indicateurs utilisés sont les coefficients de corrélation et les communalités. Il est parfois nécessaire à ce stade de fixer sous SPSS le nombre d’axes factoriels (2) que l’on souhaite retenir, s’il ne s’agit pas de la solution proposée par défaut par le logiciel. 36 M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP • Les coefficients de corrélation entre variables initiales et facteurs (également appelés poids factoriels ou loadings) : plus la corrélation entre 1 variable et 1 facteur est élevée, plus ctte variable apporte du sens au facteur. Idéalement pour l’interprétation, une variable contribue fortement à un facteur (valeur > à 0,5 ou 0,6 en v.a.) et faiblement aux autres facteurs (valeurs < 0,3 en v.a). Remarque : puisqu’une rotation a été effectuée, on s’intéresse maintenant directement aux poids factoriels après rotation. Sous SPSS : matrice des types
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
37 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Matrice des typesa
caries brillance gencives haleine prévention caries belles dents
Composante 1 2 ,962 8,529E-05 -3,37E-02 ,848 ,931 -,120 -7,47E-02 ,852 -,937 -,110 ,108 ,888
Le facteur 1 oppose caries/gencives à prévention caries (qui est codée dans l’autre sens).
Le facteur 2 est représenté par Méthode d'extraction : Analyse en composantes principales. les variables brillance, haleine Méthode de rotation : Oblimin avec normalisation de Kaiser. et belles dents. a. La rotation a convergé en 3 itérations.
Un dentifrice semble a priori être acheté pour 2 raisons principales : soit « santé » (caries/gencives) soit pour des attentes plus « sociales » (brilance/belles dents ou haleine fraîche). 38 M2 Marketing
Université Paris 1 Panthéon-Sorbonne
Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP • Les communalités : elles évaluent la qualité de représentation des variables par les facteurs ( les variables sont-elles bien représentées dans la solution factorielle retenue ?). Les variables qui présentent des communalités faibles (moins de 0,5) sont supprimées de l’analyse (c’està-dire que moins de la moitié de la variance initiale de la variable est conservée par la solution factorielle). Qualité de représentation caries brillance gencives haleine prévention caries belles dents
Initial 1,000 1,000 1,000 1,000 1,000 1,000
Extraction ,926 ,723 ,894 ,739 ,878 ,790
Les différentes variables sont bien représentées par les facteurs.
Méthode d'extraction : Analyse des principaux composants.
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
39 Cours de M. Eric
Chapitre 7 : Analyse factorielle
7.2. ACP Il est fréquent, lorsque l’on mène 1 ACP de faire un tri dans les variables. On élimine celles qui ne répondent pas aux critères de corrélation et de qualité de représentation. On les supprime dans ce cas 1 par 1, en « refaisant tourner » l’analyse à chaque fois, jusqu’à obtention d’1 solution satisfaisante. L’analyse peut être complétée par 1 représentation graphique des différentes variables.
M2 Marketing
Université Paris 1 Panthéon-Sorbonne
40 Cours de M. Eric
Représentation graphique des variables : Diagramme de composantes dans l'espace après rès rotation 1,0
belles dents haleine brillance
,5
caries gencives
Composante 2
0,0 prévention caries
-,5
-1,0 -1,0
-,5
Composante 1
0,0
,5
1,0
41
En plus du simple diagramme permettant d’interpréter les axes factoriels, il est possible de représenter graphiquement les individus (colonne 1). Création de 2 nouvelles variables à partir des facteurs : Analyse > Factorisation > Analyse Factorielle Facteurs > Enregistrer dans les variables Création du graphe de dispersion : Graphes > Diagramme de dispersion > Définir REGR Factor Score 1 vers l’axe X REGR Factor Score 2 vers l’axe Y N° d’individu vers « Etiqueter les observations par » Options : « Afficher le diagramme avec les étiquettes » 42
2,0 18,00 13,00 8,00 3,00 11,001,00 6,00 27,00 25,00 16,00 17,00 22,00
REGR factor score 1 for analysis
1
1,5
1,0
7,00
,5
4,00 14,00
29,00 24,00 26,00
0,0
20,00 -,5
28,00
-1,0 5,00
9,00 23,00 19,00 12,00 2,00 21,00 15,00 30,00
10,00
-1,5 -2
-1
0
REGR factor score 2 for analysis
1
1
2
3 43
Dans notre exemple, ceci présente peu d’intérêt. Cependant, si l’on avait été renseigné sur la marque consommée par ces différents individus, ce graph complémentaire aurait été beaucoup plus intéressant. Ajoutons 1 colonne « conso » censée représentée la marque de dentifrice consommée par l’individu interrogée. On code (affichage des variables valeurs) 1:Sanogyl 2:parogencyl 3:fluocaril 4:tonigencil 5:colgate 6:signal
On réalise un nouveau graph, mais cette fois on va étiqueter les observations par marque consommée. Remarque : on peut de la même manière faire apparaître les variables de notre choix sur la graph.
7:rembrandt 8:ultrabrite
44
2,0 rembrandt rembrandt rembrandt rembrandt rembrandt Marques rembrandt rembrandt ultrabrite ultrabrite sociales ultrabrite ultrabrite ultrabrite
REGR factor score 1 for analysis
1
1,5
1,0
ultrabrite
,5
sanogyl parogencyl sanogyl parogencyl fuocaril
0,0
Marques généralistes
-,5
-1,0 signal
fuocaril tonigencil
colgate colgate colgate colgate signal colgate signal signal
Marques santé
tonigencil
-1,5 -2
-1
0
REGR factor score 2 for analysis
1
1
2
3 45