Chapitre ACP [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Chapitre 7 : Analyse factorielle 7.1. Principe et conditions d’application 7.2. ACP 7.3. AFC M2 Marketing

Université Paris 1 Panthéon-Sorbonne

1 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Principe et historique : L’analyse factorielle est une méthode descriptive (par opposition aux méthodes explicatives que nous avons vu auparavant). Il n’y a plus de variables explicatives et à expliquer. On étudie l’ensemble des corrélations entre variables quantitatives pour l’ACP et qualitatives pour l’AFC. Historiquement, il s’agit de l’un des + anciennes méthodes d’analyse des données (Spearman, début 20ème). Mais les applications informatiques ont considérablement modifié les conditions et modalités d’application, en rendant notamment possible le traitement d’un très grand nombre de données. C’est enfin la méthode la plus connue et la plus utilisée en 2 sciences sociales. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Exemples d’utilisation marketing de l’analyse factorielle : • Dans la segmentation de marché, pour identifier les variables fondamentales à partir desquelles seront formés des groupes de clients. Par exemple, les acheteurs de voitures neuves seront ainsi regroupés en 5 segments selon leur sensibilité au prix, à la commodité, à la performance, au confort et au luxe. • En recherche produit, pour déterminer les caractéristiques d’1 marque qui influencent le choix des consommateurs. Les marques de dentifrice peuvent par exemple être évaluées selon des critères de protection contre les caries, la blancheur des dents, de goût, de rafraîchissement d’haleine ou de prix. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

3 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application • Lors d’études publicitaires, pour comprendre dans le marché cible les habitudes du consommateur moyen. Ceux qui achètent des plats surgelés peuvent aussi être de grands amateurs de télévision par câble, regarder beaucoup la télévision, etc. • Lors d’études de prix, pour identifier les caractéristiques de sensibilité au prix des consommateurs, ces derniers pouvant être « ordonnés », « économes » ou « tournés vers le foyer ».

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

4 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Objectifs et conditions d’utilisation : L’objectif principal est la structuration des variables, c’est-à-dire la réduction des colonnes de la matrices des données : on veut résumer l’information. Pour ce faire, on remplace les variables initiales par un nombre plus restreint de variables dites « composites » (ou « facteurs »), obtenues par « regroupement » des variables initiales les plus corrélées entre elles. Cela nécessite : 1. Un nombre d’individu supérieur à 15 2. Qu’il y ait plus d’individus que de variables M2 Marketing

Université Paris 1 Panthéon-Sorbonne

5 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Exemple : on mesure 40 variables d’attitudes sur 800 ménagères. Faut-il vraiment garder les 32 000 valeurs de la BDD ou ne peut-on pas résumer cette information par 1, 2 ou 3 variables de synthèse ? N’y-a-t-il pas redondances entre certaines variables initiales ? Ne peut-on pas en éliminer certaines qui n’apportent qu’1 information marginale et peu intéressante ? • Avoir moins de variables permet de faciliter l’interprétation et pouvoir dégager des implications managériales concrètes. • L’analyse factorielle peut aussi servir de phase intermédiaire de calcul avant d’utiliser d’autres méthodes. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

6 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Une autre utilisation fréquente de l’analyse factorielle concerne la démarche psychométrique de mesure de concepts non observables. Par exemple, si l’on souhaite développer, ou même reprendre une échelle de mesure d’attitude ou une échelle mesurant un trait de personnalité en particulier, il est en toute rigueur nécessaire de s’assurer de la validité et de la fiabilité de cet instrument. On réalise pour cela une analyse factorielle. S’il s’agit d’une échelle de mesure que l’on a créée, on mènera une analyse factorielle « exploratoire », s’il s’agit d’une échelle de mesure que l’on reprend de la littérature (qui a déjà fait l’objet de validations antérieures), on mènera une analyse factorielle « confirmatoire ». M2 Marketing

Université Paris 1 Panthéon-Sorbonne

7 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Exemple d’analyse factorielle exploratoire : l’image d’un magasin a été évaluée par un échantillon d’individus à partir d’une série d’items sur une échelle sémantique. On va analyser et regrouper ces items pour faire ressortir les facteurs fondamentaux.

Exemple d’analyse factorielle confirmatoire : s’assurer des bonnes qualités de l’échelle d’attitude en 4 items que l’on a repris de la littérature. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

8 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Approche R et Q de l’ACP : Lorsque l’on part d’une matrice de données (individus/variables), 2 types d’analyse factorielle peuvent être menés : • l’approche R (celle que nous allons traiter) : les facteurs sont des combinaisons linéaires de variables initiales • l’approche Q (rare) : les facteurs sont des combinaisons linéaires d’individus. Cela permet de regrouper les individus qui ont des réponses analogues sur les variables sur lesquelles portent l’analyse.  Dans les 2 cas, les techniques de calcul sont identiques. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

9 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Types de variables de l’ACP : L’ACP consiste à regrouper des variables quantitatives (âge en années, salaire en euros, etc. ou en marketing, échelles de proportion ou d’intervalle). Ces variables sont : • Au moins centrées : dans ce cas l’analyse factorielle repose sur la matrice des variances-covariances  on accordera alors beaucoup d’importance aux variables les plus dispersées • Ou centrées-réduites : dans ce cas l’analyse factorielle repose sur la matrice des corrélations r entre variables M2 Marketing

Université Paris 1 Panthéon-Sorbonne

10 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Dans le cas particulier de variables toutes mesurées sur des échelles à même nombre d’échelon, les données sont utilisées « telles quelles ». L’analyse factorielle reposera alors sur la matrice des corrélations, comme si les données étaient centrées-réduites. Remarque : En marketing, on réalise beaucoup d’ACP avec des BDD mesurant des scores. Pour ces échelles (d’intervalle ou de ratio), seules des variables mesurées sur un même nombre d’échellons peuvent être analysées simultanément, sinon, il faut au préalable centrer et réduire les données.  Dans tous les cas, avec l’ACP, les données sont au moins centrées. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

11 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Les variables sont-elles factorisables ? Avant de réaliser une analyse factorielle, il faut s’interroger sur sa pertinence, d’un point de vue théorique bien sûr, mais ensuite d’un point de vue statistique. Statistiquement, on peut, de manière assez peu formelle, vérifier à l’aide de la matrice des corrélations que les coefficients sont assez élevés dans l’ensemble. On peut également mener une démarche plus rigoureuse, à l’aide de 2 tests, disponibles sous SPSS • le test de sphéricité de Barlett. • le test MSA (Measure of Sampling Adequacy - appelé aussi test de Kaiser, Meyer et Olkin) qui peut être effectué pour chaque variable ou directement pour l’ensemble. 12 M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application L’analyse en composante principale (ACP) consiste à résumer l’information contenue dans un tableau à 2 entrées, généralement les « individus » en lignes et les « variables » (quantitatives) en colonnes, en remplaçant les variables initiales par 1 plus petit nombre de nouvelles variables. L’analyse factorielle des correspondances (AFC) est une généralisation de l’A.C.P. adaptée au traitement de données qualitatives qui se présentent sous la forme d’un tableau de contingence (dont on peut sommer les effectifs en lignes et en colonne). Elle permet de visualiser les relations pouvant exister entre les modalités de 2 caractères (par exemple, la couleur des yeux et des cheveux). M2 Marketing

Université Paris 1 Panthéon-Sorbonne

13 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Présentation des BDD utilisées, pour l’ACP : en ligne, les individus et en colonne, les variables  A chaque case du tableau correspond le score d’1 individu sur 1 variable. Variables 1

2

3

p

In d iv id u s o u o b je ts

1 2 3

xij Score individu i sur var. j

n M2 Marketing

Université Paris 1 Panthéon-Sorbonne

14 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application Présentation des BDD utilisées, pour l’AFC : Soient X et Y deux variables qualitatives ayant respectivement xn et ym modalités. Exemple : X : boissons consommées et Y : région d’habitation Le tableau de contingence K formé à partir de ces deux variables aura autant : • de lignes que la variable X a de modalités (n) (exemple : coca, jus de fruit, bière, vin, whisky, etc) • et autant de colonnes que la variable Y a de modalités (m) (exemple : Ile-de-France, Bretagne, etc.). M2 Marketing

Université Paris 1 Panthéon-Sorbonne

15 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.1. Principe et conditions d’application y1

x1  K x i ( n ,m )  xn











ym



       ki , j          

X possède n modalités (types de boissons) M2 Marketing

yj

Y possède m modalités (les régions)

Nombre d’individus qui consomment la boisson xi et qui habitent la région yi.

 Les individus n’apparraissent qu’au travers de leurs effectifs. Chaque chiffre correspond à 1 individu.

Université Paris 1 Panthéon-Sorbonne

16 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Pour simplifier la démarche, nous pouvons la décomposer en 4 étapes (après avoir supprimé de l’analyse les éventuelles données aberrantes) : 1. Formulation du problème 2. Vérification des corrélations 3. Détermination du nombre d’axes à retenir 4. Interprétation des axes factoriels

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

17 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Etape 1 : Formuler le problème Il s’agit de déterminer les objectifs de l’analyse factorielle qui va être menée. Les variables considérées pour l’analyse doivent être choisies sur la base de recherches préalables (être justifiées, que ce soit par la littérature ou par une phase qualitative par exemple). On utilise des données quantitatives brutes ou des échelles d’intervalles ou de ratio (ayant même nombre d’échelons ou étant standardisées). Le nombre d’individus est généralement 4 à 5 fois + grand que le nombre de variables. Si l’échantillon est petit, ce rapport est + faible et les résultats doivent être interprétés avec prudence. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

18 Cours de M. Eric

Exemple : BDD SPSS « caractéristiques des dentifrices » Il s’agit d’1 étude qui porte sur les avantages fondamentaux recherchés par les consommateurs lors de l’acaht d’un dentifrice. Le sondage est réalisé dans 1 centre commercial auprès d’1 échantillon de 30 personnes, qui ont donné leur avis sur les affirmations suivantes, sur 1 échelle de 1 (en total désaccord) à 7 (entièrement d’accord)  même nombre d’échelons V1 : Il est important d’utiliser 1 dentifrice qui prévient la formation des caries. V2 : Un dentifrice doit rendre les dents brillantes. V3 : Un dentifrice doit renforcer les gencives. V4 : Un dentifrice doit raffraîchir l’haleine. V5 : La prévention des caries n’est pas un avantage important du dentifrice (sic). 19

V6 : Un dentifrice doit avant tout donner de belles dents

Chapitre 7 : Analyse factorielle

7.2. ACP Etape 2 : Vérification des corrélations Le processus de l’ACP repose sur une matrice des corrélations (ou des covariances, selon que les données sont réduites ou non). Pour que l’analyse soit pertinente, il est nécessaire que les variables soient corrélées. Des variables qui sont fortement corrélées avec le(s) même(s) facteur(s) sont supposées être également fortement corrélées entre elles. Une première méthode consiste à examiner la matrice des corrélations. Analyse  Factorisation  Analyse factorielle Puis menu « caractéristiques » cliquez sur « matrice des corrélations – coefficients » M2 Marketing

Université Paris 1 Panthéon-Sorbonne

20 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Matrice de corrélation

Corrélation

caries brillance gencives haleine prévention caries belles dents

caries 1,000 -,053 ,873 -,086 -,858 ,004

brillance -,053 1,000 -,155 ,572 ,020 ,640

gencives ,873 -,155 1,000 -,248 -,778 -,018

haleine -,086 ,572 -,248 1,000 -,007 ,640

prévention caries -,858 ,020 -,778 -,007 1,000 -,136

belles dents ,004 ,640 -,018 ,640 -,136 1,000

De nombreux coefficients de corrélation (r) sont assez forts (>0,4 en v.a.) ce qui laisse supposer que l’analyse est pertinente. Les corrélations entre V1, V2, V3 et V5 sont relativement fortes : on peut s’attendre à ce que ces variables soient corrélées aux mêmes groupes de facteurs. Il en est de même pour V2, V4 et V6. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

21 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Pour être + rigoureux, il est utile de réaliser un test de sphéricité de Barlett et une mesure de l’indice d’adéquation de Kaiser-Meyer-Olkin. Dans le même menu « caractéristiques » cliquez sur « matrice des corrélations – indice KMO et test de Barlett » Indice KMO et test de Bartlett Mesure de précision de l'échantillonnage de Kaiser-Meyer-Olkin. Test de sphéricité de Bartlett

M2 Marketing

Khi-deux approché ddl Signification

Université Paris 1 Panthéon-Sorbonne

,660 111,314 15 ,000 22 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Le test de sphéricité de Barlett teste l’hypothèse nulle H0 selon laquelle les variables ne sont pas corrélées dans la population ( est-il possible de mener 1 ACP ?). Dans une matrice identité, tous les termes de la diagonales sont égaux à 1, et tous les autres à 0. CE test s’appuie sur 1 transformation du khi-2 du déterminant de la matrice des corrélations. Une valeur élevée au vu du nombre de ddl (ou plus simplement 1 probabilités associée faible c-a-d < 5%) permet de rejeter H0. Dans le tableau précédent, la valeur du khi-2 est de 111,314 pour 15 ddl, soit une probabilité d’erreur de 0,000  H0 est rejetée, il est pertinent de poursuivre l’analyse.

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

23 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Le test de Kaiser-Meyer-Olkin (KMO) compare les grandeurs des coefficients de corrélation observés aux grandeurs des coefficients de corrélation partielle. De petites valeurs de cet indice indiquent que les corrélations entre paires de variables ne peuvent pas être expliquées par d’autres variables et que l’analyse factorielle peut ne pas être pertinente ( est-il intéressant de mener 1 ACP ?). On estime généralement qu’une valeur > 0,5 est satisfaisante. La valeur du test KMO que nous avons obtenue est de 0,660, ce qui est suffisament élevé. L’analyse factorielle apparaît donc bien appropriée pour l’analyse de la matrice des corrélations (même nombre d’échelons pour chaque échelle). M2 Marketing

Université Paris 1 Panthéon-Sorbonne

24 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Etape 3 : Détermination du nombre d’axes à retenir Il est possible de calculer autant de composantes principales (ou « axes » ou « facteurs ») qu’il y a de variables, mais dans ce cas nous n’aboutirions à aucune synthèse de l’information. Rappel : le but est résumer l’information. Un petit nombre de facteurs doit donc être extrait. + on retient d’axes, plus la variance restituée est importante, mais moins l’analyse est synthétique et donc délicate à interprétée. En outre, le premier facteur est celui qui restitue le maximum de la variance totale des variables originales (ce qui fonde la différence entre les individus). Le deuxième facteur est celui qui restitue le maximum de variance restante, etc. Rapidement, l’ajout d’un axe supplémentaire présente un intérêt limité en terme d’apport d’information. 25 M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Cours de M. Eric

Rotation des axes factoriels (1/3) : Avant de poursuivre la démarche de détermination du nombre optimal d’axes à retenir (et lancer l’analyse), précisons qu’il est préférable de réaliser une rotation des axes factoriels. Cette rotation n’affecte ni les communalités, ni le pourcentage de la variance totale expliquée, mais modifie le % de variance correspondant à chaque facteur (et donc les valeurs propres). Le tableau des corrélations entre variables et facteurs (la matrice factorielle ou matrice des composantes) est au cœur de l’analyse factorielle. Il présente des coefficients qui expriment les variables centrées standardisées en fonction des facteurs. Ces coefficients (ou poids factoriels ou loadings) représentent les corrélations existantes entre les facteurs et les variables. Un coefficient élevé (en v.a.) indique que le facteur et la variable sont étroitement corrélés, ou encore que la variable apporte beaucoup de sens au facteur. Or, cette matrice factorielle, sans rotation, permet rarement d’aboutir à des facteurs pouvant être 26 interprétés, puisqu’ils son corrélés avec plusieurs variables.

Rotation des axes factoriels (2/3) : Matrice des composantesa

caries brillance gencives haleine prévention caries belles dents

Composante 1 2 ,928 ,253 -,301 ,795 ,936 ,131 -,342 ,789 -,869 -,351 -,177 ,871

Par exemple, si l’on retient 2 facteurs, il ressort que le facteur 1 est corrélé avec 5 variables (v.a. > 0,3) et le facteur 2 avec 4. Il serait très difficile avec 1 telle matrice d’interpréter les résultats…

Méthode d'extraction : Analyse en composantes principales. a. 2 composantes extraites.

La rotation permet de transformer la matrice factorielle en une matrice + simple et + facile à interpréter. L’objectif est que les facteurs aient 1 coefficient non nul ou significatif pour quelques variables. Dans le même temps, on voudrait que chaque variable ait une corrélation non nulle ou significative avec seulement quelques facteurs (1 seul si possible). La rotation maximise les saturations les plus fortes et minimise les plus faibles. 2 grans types sont utilisés en sciences sociales : 27

Rotation des axes factoriels (3/3) : - La rotation orthogonale (dont les plus fréquemment employées sont VARIMAX et QUARTIMAX ) est utilisée lorsque l’on pense déterminer des facteurs indépendants les uns des autres. Cette solution est préférable car elle indique que chaque facteur apporte une information unique, non partagée par un autre facteur. Cependant, cette solution est rarement possible en Sciences Sociales, car il existe généralement des liens conceptuels entre les facteurs. -La rotation oblique (OBLIMIN) permet une corrélation entre les facteurs. Comme elle correspond mieux à la réalité, c’est elle qui est généralement utilisée en Sciences Sociales. C’est aussi celle que nous avons retenue pour notre exemple. Sous SPSS, menu « rotation » choisir Oblimin directe, avec delta = 0

28

Chapitre 7 : Analyse factorielle

7.2. ACP Pour savoir combien d’axes retenir, plusieurs méthodes existent et sont complémentaires : • La détermination a priori : il arrive que le chargé d’étude sache à l’avance combien d’axes retenir, s’il s’agit par exemple d’une étude très « classique ». Dans ce cas là, sous SPSS, dans le menu « extraction », on peut spécifier directement le nombre d’axes à retenir.

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

29 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP • L’examen des valeurs propres : si le nuage de points initial n’avait pratiquement aucune direction privilégiée, la variance restituée par le premier facteur serait d’environ 100/p (où p est le nombre initial de variables). Pour conserver un facteur, il faut que la variance qu’il restitue soit nettement supérieure à cette restitution « au hasard ». Le seuil communément admis pour retenir un facteur est de deux fois la quantité 100/p. Le point de départ de l’analyse étant la matrice des corrélations, les facteurs retenus sont ceux dont les valeurs propres sont supérieures à 1. Cette règle de décision est également appelée « règle de Kaiser ». Cependant, cette méthode n’est pas satisfaisante lorsque le nombre de variables est inférieur à 20 (comme ici). La valeur « 1 » est plus un seuil en dessous duquel il ne faut pas descendre, mais qui ne signifie pas qu’une fois franchit l’axe ne doit nécessairement être retenu. 30 M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Variance expliquée totale

Composante 1 2 3 4 5 6

Valeurs propres initiales % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000

Sommes des carrés chargées % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000

Somme des carrés Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508

Méthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrélées, les sommes des carrés chargés ne peuvent pas être additionnés pour obtenir une variance totale.

Dans notre exemple, si l’on retient les valeurs propres > 1, alors nous devons retenir 2 axes factoriels. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

31 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP • L’examen de la courbe des valeurs propres : la variance restituée par chaque facteur va en diminuant. Cette règle de décision consiste à chercher le premier facteur dont l’élimination consiste à une perte d’information minimum. L’examen de la courbe des valeurs propres (fournie par SPSS) conduit à la recherche d’un point d’inflexion et à l’élimination des facteurs situés après ce point. Il est démontré de façon expérimentale que le point où commence le changement de concavité est révélateur du nombre de facteurs. Cette méthode peut aboutir à retenir + de facteurs qu’avec la méthode des valeurs propres. M2 Marketing

Université Paris 1 Panthéon-Sorbonne

32 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Graphique des valeurs propres 3,0

2,5

Le test de coude montre un net décrochement à partir de 3 facteurs. Il inciterait donc à retenir 3 axes factoriels.

2,0

Valeur propre

1,5

1,0

,5 0,0 1

2

3

4

5

6

Numéro de composant

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

33 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP • Le minimum de variance totale restituée : le chercheur fixe à l’avance un seuil de variance qu’il veut restituer. Il retient ensuite le nombre d’axes nécessaires pour atteindre ce seuil. Si, dans les sciences « dures » un seuil de 95 % est fixé, un seuil de 60 % est généralement accepté en marketing et plus largement en sciences sociales. Variance expliquée totale

Composante 1 2 3 4 5 6

Valeurs propres initiales % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000

Sommes des carrés chargées % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000

Méthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrélées, les sommes des carrés chargés ne peuvent pas être additionnés pour obtenir une variance totale.

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Somme des carrés Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508

2 facteurs = 82,488% de variance restituée

34 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP • Le minimum de variance totale restituée : le chercheur fixe à l’avance un seuil de variance qu’il veut restituer. Il retient ensuite le nombre d’axes nécessaires pour atteindre ce seuil. Si, dans les sciences « dures » un seuil de 95 % est fixé, un seuil de 60 % est généralement accepté en marketing et plus largement en sciences sociales. Variance expliquée totale

Composante 1 2 3 4 5 6

Valeurs propres initiales % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000

Sommes des carrés chargées % de la Total variance == % cumulés 2,731 45,520 45,520 2,218 36,969 82,488 ,442 7,360 89,848 ,341 5,688 95,536 ,183 3,044 98,580 8,521E-02 1,420 100,000

Méthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrélées, les sommes des carrés chargés ne peuvent pas être additionnés pour obtenir une variance totale.

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Somme des carrés Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508

2 facteurs = 82,488% de variance restituée

35 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Etape 4 : Interprétation des axes factoriels Une fois les vérifications préalables opérées, le choix de rotation réalisé (oblimin) et le nombre d’axes factoriels déterminé (2), il reste à interpréter les axes factoriels. Ces variables composites sont les dimensions « latentes » du phénomène étudié. Pour l’interprétation, il est nécessaire de revenir aux items initiaux et de déterminer leur importance dans la formation des facteurs (et éventuellement de supprimer certains items de l’analyse). Les deux indicateurs utilisés sont les coefficients de corrélation et les communalités. Il est parfois nécessaire à ce stade de fixer sous SPSS le nombre d’axes factoriels (2) que l’on souhaite retenir, s’il ne s’agit pas de la solution proposée par défaut par le logiciel. 36 M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP • Les coefficients de corrélation entre variables initiales et facteurs (également appelés poids factoriels ou loadings) : plus la corrélation entre 1 variable et 1 facteur est élevée, plus ctte variable apporte du sens au facteur. Idéalement pour l’interprétation, une variable contribue fortement à un facteur (valeur > à 0,5 ou 0,6 en v.a.) et faiblement aux autres facteurs (valeurs < 0,3 en v.a). Remarque : puisqu’une rotation a été effectuée, on s’intéresse maintenant directement aux poids factoriels après rotation. Sous SPSS : matrice des types

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

37 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Matrice des typesa

caries brillance gencives haleine prévention caries belles dents

Composante 1 2 ,962 8,529E-05 -3,37E-02 ,848 ,931 -,120 -7,47E-02 ,852 -,937 -,110 ,108 ,888

Le facteur 1 oppose caries/gencives à prévention caries (qui est codée dans l’autre sens).

Le facteur 2 est représenté par Méthode d'extraction : Analyse en composantes principales. les variables brillance, haleine Méthode de rotation : Oblimin avec normalisation de Kaiser. et belles dents. a. La rotation a convergé en 3 itérations.

 Un dentifrice semble a priori être acheté pour 2 raisons principales : soit « santé » (caries/gencives) soit pour des attentes plus « sociales » (brilance/belles dents ou haleine fraîche). 38 M2 Marketing

Université Paris 1 Panthéon-Sorbonne

Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP • Les communalités : elles évaluent la qualité de représentation des variables par les facteurs ( les variables sont-elles bien représentées dans la solution factorielle retenue ?). Les variables qui présentent des communalités faibles (moins de 0,5) sont supprimées de l’analyse (c’està-dire que moins de la moitié de la variance initiale de la variable est conservée par la solution factorielle). Qualité de représentation caries brillance gencives haleine prévention caries belles dents

Initial 1,000 1,000 1,000 1,000 1,000 1,000

Extraction ,926 ,723 ,894 ,739 ,878 ,790

Les différentes variables sont bien représentées par les facteurs.

Méthode d'extraction : Analyse des principaux composants.

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

39 Cours de M. Eric

Chapitre 7 : Analyse factorielle

7.2. ACP Il est fréquent, lorsque l’on mène 1 ACP de faire un tri dans les variables. On élimine celles qui ne répondent pas aux critères de corrélation et de qualité de représentation. On les supprime dans ce cas 1 par 1, en « refaisant tourner » l’analyse à chaque fois, jusqu’à obtention d’1 solution satisfaisante. L’analyse peut être complétée par 1 représentation graphique des différentes variables.

M2 Marketing

Université Paris 1 Panthéon-Sorbonne

40 Cours de M. Eric

Représentation graphique des variables : Diagramme de composantes dans l'espace après rès rotation 1,0

belles dents haleine brillance

,5

caries gencives

Composante 2

0,0 prévention caries

-,5

-1,0 -1,0

-,5

Composante 1

0,0

,5

1,0

41

En plus du simple diagramme permettant d’interpréter les axes factoriels, il est possible de représenter graphiquement les individus (colonne 1). Création de 2 nouvelles variables à partir des facteurs : Analyse > Factorisation > Analyse Factorielle Facteurs > Enregistrer dans les variables Création du graphe de dispersion : Graphes > Diagramme de dispersion > Définir REGR Factor Score 1  vers l’axe X REGR Factor Score 2  vers l’axe Y N° d’individu  vers « Etiqueter les observations par » Options : « Afficher le diagramme avec les étiquettes » 42

2,0 18,00 13,00 8,00 3,00 11,001,00 6,00 27,00 25,00 16,00 17,00 22,00

REGR factor score 1 for analysis

1

1,5

1,0

7,00

,5

4,00 14,00

29,00 24,00 26,00

0,0

20,00 -,5

28,00

-1,0 5,00

9,00 23,00 19,00 12,00 2,00 21,00 15,00 30,00

10,00

-1,5 -2

-1

0

REGR factor score 2 for analysis

1

1

2

3 43

Dans notre exemple, ceci présente peu d’intérêt. Cependant, si l’on avait été renseigné sur la marque consommée par ces différents individus, ce graph complémentaire aurait été beaucoup plus intéressant. Ajoutons 1 colonne « conso » censée représentée la marque de dentifrice consommée par l’individu interrogée. On code (affichage des variables  valeurs) 1:Sanogyl 2:parogencyl 3:fluocaril 4:tonigencil 5:colgate 6:signal

On réalise un nouveau graph, mais cette fois on va étiqueter les observations par marque consommée. Remarque : on peut de la même manière faire apparaître les variables de notre choix sur la graph.

7:rembrandt 8:ultrabrite

44

2,0 rembrandt rembrandt rembrandt rembrandt rembrandt Marques rembrandt rembrandt ultrabrite ultrabrite sociales ultrabrite ultrabrite ultrabrite

REGR factor score 1 for analysis

1

1,5

1,0

ultrabrite

,5

sanogyl parogencyl sanogyl parogencyl fuocaril

0,0

Marques généralistes

-,5

-1,0 signal

fuocaril tonigencil

colgate colgate colgate colgate signal colgate signal signal

Marques santé

tonigencil

-1,5 -2

-1

0

REGR factor score 2 for analysis

1

1

2

3 45