Chapitre 2 L'Analyse en Composantes Principales (ACP) [PDF]

  • Author / Uploaded
  • ceiiz
  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

5ème année Economie et Prospective

Module d’Analyse des Données

Chapitre 2 : L’Analyse en Composantes Principales (ACP) 1. Introduction L’Analyse en Composantes Principales (ACP) est sans doute la méthode d’analyse de données la plus connue et la plus utilisée. Proposée dès les années 30 par HOTELLING (1933), mais nécessitant d’importants calculs numériques, L’ACP n’est devenue une technique opérationnelle qu’à partir des années 60, avec le développement des moyens de calculs informatique. Elle est la méthode de base en statistique exploratoire multidimensionnelle (ou analyse des données) -

Multidimensionnelle : l’analyse porte sur plusieurs variables

-

Exploratoire : descriptive (par opposition à inférentielle) Il s’agit de résumer l’information portant sur plusieurs variables en : - faisant émerger des liaisons entre variables - formant des groupes d’individus se ressemblant.

L’analyse en composantes principales présente de nombreuses variantes selon les transformations apportées au tableau de données : le nuage de points des individus peut être centré ou non, parmi ces variantes, l’analyse en composantes principales normée (nuage centréréduit) certainement la plus utilisée.

2. Les données en ACP En ACP les données se présentent dans un tableau X à n lignes et p colonnes où : -

Chaque ligne représente un individu

-

Chaque colonne représente une variable

Les variables sont quantitatives : la matrice X est constituée de valeurs numériques

Analyse des données

1

Module d’Analyse des Données

5ème année Economie et Prospective

X est une matrice (n × p) de valeurs numériques :

Un individu est un élément de

Le ième individu :

Une variable est un élément de La jème variable :

Analyse des données

2

Module d’Analyse des Données

5ème année Economie et Prospective

3. Principe de l’ACP Le principe de l’ACP est d’obtenir une représentation approchée du nuage des individus

N(I) dans un sous espace de faible dimension k inférieur ou égale à p et pour cela on projette les individus sur un sous espace de dimension faible, le choix de sous espace de projection s’effectue suivant le critère : « les distances en projection doivent être déformées le plus possible ».ce qui veut dire l’inertie du nuage projetée sur le sous espace (F) doit être maximale. On dispose des observations de p variables quantitatives sur n individus, on associe à chaque individu poids Pi. Les valeurs sont rangées dans un tableau à n lignes et p colonnes ; On note X la matrice associée à ce tableau :

est la valeur prise par la variable j sur l’individu i. (on peut écrire aussi



Une variable j sera identifié au vecteur

)

, et un individu i sera identifié au

.

Vecteur

3.1 Les Poids affectés aux Individus (Données Centrées Réduites) A) La Matrice des Poids Afin de calculer la distance entre deux variables, il est parfois nécessaire d’attribuer des poids

aux individus selon l’importance que l’on souhaite leur donner.

On appellera alors matrice des poids la matrice :

Analyse des données

3

5ème année Economie et Prospective

Module d’Analyse des Données

Souvent, on aura : D = (1/n) In où In est la matrice identité, c’est-à-dire que l’on affecte le même poids à chaque individu :

= (1/n)

B) Le Centre De Gravité du Tableau On appellera centre de gravité associé à la matrice des poids D le vecteur g défini par :

Est en fait la moyenne pondérée des valeurs de la variable j prises par l’ensemble des individus. C) Le Tableau De Données Centrées Réduites On note :



est la variance de la variable j. On note de même

variables j et et

la covariance entre les le coefficient de corrélation linéaire entre les variables j et .

Le tableau centré réduite associé à X, noté Z, est défini Par :



: la matrice associé à

Analyse des données

(Données Centrées)

4

Module d’Analyse des Données

5ème année Economie et Prospective

D) La Matrice de Variance-Covariance et La Matrice de Corrélation En utilisant les notions précédentes, la matrice de variance-covariance s’écrit :

La Matrice de Corrélation : R

En effet, R est la matrice de variance-covariance du tableau de données centrées réduites. Ainsi, R résume la structure des dépendances linéaires entre p variables.

E) La détermination des facteurs et des composantes principales (traitement géométrique) Lors de la projection, le nuage de points peut être déformé est donc serait différent de réel, alors les méthodes d’ajustement consistent a minimisé cette possible déformation et ce en maximisant les distances projetées. Comme la régression, l’analyse en composantes principales ACP peut être présentée dans deux espaces : celui des individus et celui des variables. La dispersion d’un nuage de points unidimensionnel par rapport à sa moyenne se mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuage par rapport à son barycentrese se mesure par l’inertie. On remarque que l’inertie est définie comme la somme des distances au carré des points à leur centre de gravité. Dans le cas où les variables sont quantitatives, c’est aussi la somme des variances empiriques de chacune des variables, c’est à dire la trace de la matrice de variance-covariance empirique L’inertie I : est une quantité réelle qui mesure la dispersion des individus dans l’espace à p dimensions. - Lorsque les variables sont centrées et réduites I = p - Une inertie nulle signifie que tous les individus sont identiques

Analyse des données

5

5ème année Economie et Prospective

Module d’Analyse des Données

Décomposition de l’inertie • L’Idée : construction d’une suite de p axes permettant de restituer la forme du nuage • Construction itérative • On en déduit des représentations planes simples à interpréter • Principe de réduction de la dimension • Basé sur la décomposition de l’inertie • 1er axe : Axe principal de variabilité du nuage p

• Direction de R qui maximise l’inertie projetée : On cherche

telle que

maximum.

• Projection orthogonale des points sur l’axe 1 :

• On cherche ensuite un axe

, orthogonal à

qui maximise l’inertie projetée

• C’est le second axe de variabilité du nuage • Ce second axe présente moins de variabilité que le précédent …etc.

Analyse des données

6

5ème année Economie et Prospective

Module d’Analyse des Données

1) Dans l’espace des individus N(I) L’objet de l’ACP est de décrire de façon synthétique la dispersion du nuage de points selon les étapes suivantes : - A l’étape 1, L’ACP détermine l’axe F1 passant par l’origine selon lequel la dispersion du nuage de points est maximale ; cet axe F1 passe au plus près du nuage de points, c'est-à-dire est tel que la moyenne des carrées des distances entre les n points et l’axe F1 est minimale. Soit

le vecteur directeur normé de F1 ;

est alors le vecteur propre normé associé à la

valeur propre la plus élevée de la matrice de corrélation entre les variables 2 3

- A l’étape p, L’ACP détermine l’axe Fp passant par l’origine, de vecteur directeur normé

orthogonal aux axes

(

) des étapes précédentes, selon lequel la

dispersion du nuage de points est maximales ; cet axe Fp passe au plus près du nuage de points, c'est-à-dire est tel que la moyenne des carrées des distances entre les n points et l’axe Fp est minimale. 2) Dans l’espace des variables N(J) - A l’étape 1, L’ACP détermine U1 le vecteur propre de :

associé à sa valeur

propre la plus élevée. 2 3

- A l’étape p, L’ACP détermine une variable synthétique Up

résumant le mieux

possible les variables de départ, et non corrélée aux (p-1) premières composantes principales c'est-à-dire détermine Up le vecteur propre de

associé à sa pième

valeur propre la plus élevée disponible. Analyse des données

7

5ème année Economie et Prospective

Module d’Analyse des Données

F) La Démarche de La Méthode (traitement algébrique) Algébriquement, il s’agit de chercher les valeurs propres maximales de la matrice des données et par conséquent ses vecteurs propres associés qui représenteront ces sous espaces vectoriels (axes factoriels ou principales). La démarche de l’ACP peut se résume donc dans l’algorithme suivant :  Calcul des moyennes des variables  Calcul de l’écart type des variables

tel que

Si les écarts types sont égaux alors les variables sont homogènes, et on utilise une ACP simple (non normée). Sinon les variables sont hétérogènes, on utilisera une ACP normée.  Calcul du tableau Z centré réduit.  Calcul de la matrice à diagonaliser R.

i = 1…p rangés par ordre décroissant

 Calcul des valeurs propres de la matrice R,

 Détermination des vecteurs propres associés aux valeurs propres le vecteur propre associé à la valeur propre

,

i= 1…p ou

=

 Calcul des composantes principales  Présentation des variables :

donne les coordonnées des p variables,

est aussi le

coefficient de corrélation entre les variables et la α ième composante principale . Ces coordonnées nous permettent de représenter les variables dans un cercle de corrélation.

Analyse des données

8

5ème année Economie et Prospective

Module d’Analyse des Données

4. Interprétation Pour interpréter les résultats fournis par une ACP, on procédera dans un premier temps à l’examen de l’inertie de chaque facteur puis on s’intéresse aux éléments contribuant à la construction et à la définition des facteurs. Parmi les règles pratiques les plus courantes on s’intéresse en générale aux axes ayant une inertie supérieure à la moyenne, qui vaut 1 dans le cas d’une ACP normée. On procède axe par axe pour définir les composantes, l’examen du plan factoriel permet de visualiser les corrélations entre les variables et identifier des groupes d’individus ayant pris les mêmes valeurs pour les mêmes variables.

Les variables fortement corrélées avec un axe vont contribuer à la définition de cet axe , on s’intéresse par conséquent aux variables présentant les fortes coordonnées (ce qui situent proche du cercle de corrélation) et l’on interprétera les composantes principales en fonction des groupements de certaines de ces variables et de l’opposition avec les autres, rappelons que le cosinus de l’angle sous lequel on voit deux variables actives dans le cercle n’est que le coefficient de corrélation de ces deux variables selon la qualité d’ajustement .

Cette propriété sera plus au moins bien conservées en projection, ou se gardera d’interprété la distance entre deux variables actives qui ne sont pas proches du cercle de corrélation. Ainsi l’examen du plan factoriel permet de visualiser les distances réelles et donc les corrélations entre les variables actives, et d’apprécier la qualité de leur représentation. Pour les individus, on s’intéresse à ceux participent à la formation des axes en calculant la contribution de chaque individus a l’inertie de l’axe α Où : : est l’inertie de l’axe , : Contribution de l’individu i à l’inertie de cet axe tel que

Analyse des données

9

5ème année Economie et Prospective

Module d’Analyse des Données

On s’intéressera surtout aux individus qui ont les plus fortes contributions relatives aux axes. La représentation des individus sur le plan factoriel permet d’apprécier leur répétition et de réparer des zones de densités plus ou moins fortes.

4-1) Nombre d’axes à retenir : Les critères les plus utilisables sont les suivantes :

1°) Interprétation des axes : On retient que les axes que l’on peut attribuer une forme d’interprétation économique, par exemple, soit directement, soit en terme des variables avec lesquelles ils sont très corrélés.

2°) Critère de Kaiser (variables centrées et réduites) : On ne retient que les axes associés aux valeurs propres supérieurs à 1, c'est-à-dire dont la variance est supérieure à celle des variables d’origine.

• Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles qui sont supérieures à cette moyenne.

4-2) La qualité d’explication des points et des axes a) Rappel : Produit scalaire Soient deux vecteurs

,

le produit scalaire de

,

noté

est défini par :

C'est donc une quantité qui tient compte à la fois de la norme des vecteurs ainsi que de l'angle qu'ils forment. Deux vecteurs formant un angle aigu donneront un produit scalaire positif alors que pour deux vecteurs formant un angle obtu, le produit scalaire sera négatif. Entre ces deux cas, notons que deux vecteurs orthogonaux auront un produit scalaire nul. On a une autre définition du produit scalaire de deux vecteurs en lien avec leurs coordonnées. Si l'on considère deux vecteurs et

,

, le produit scalaire

Analyse des données

de R3 repérés par leurs coordonnées peut s'écrire :

10

5ème année Economie et Prospective

Module d’Analyse des Données

Si l'on considère deux vecteurs et

et

de norme 1 et de coordonnées respectives

on a donc

Autrement dit, pour des vecteurs normés, le produit scalaire donne une mesure de l'angle qu'ils forment via le cosinus de cet angle et ce produit scalaire correspond à la somme du produit terme à terme de leurs coordonnées. Exemple : Pour des vecteurs de norme 1, le produit scalaire donne une mesure de l’angle (via le cosinus) :

Normé :

=1

b) Une mesure de liaison entre deux variables : le coefficient de corrélation linéaire Si l'on considère les observations de deux variables X et Y : (x1; _ _ _ ; xn) et (y1; _ _ _ ; yn), le coefficient de corrélation linéaire est défini par le rapport entre leur covariance empirique et le produit de leurs écart-types :

Si nous considérons deux variables j et j’ associées aux données que nous étudions, leur coefficient de corrélation linéaire s'écrit donc : Analyse des données

11

Module d’Analyse des Données

5ème année Economie et Prospective

C’est le produit scalaire des deux colonnes centrées-réduites associées (à 1/n près) :

Notons qu'un coefficient de corrélation est toujours compris entre -1 et 1. On voit par ailleurs, qu'au efficient 1/n prés,

rj j’ correspond au produit scalaire entre deux vecteurs

colonnes de la matrice X des données centrées réduites. Comme nous avons dit que les vecteurs colonnes j et j’ avaient tous les deux la même norme, ce coefficient donne en fait une mesure du cosinus de l'angle formé par ces vecteurs. Plus précisément,

correspond exactement au

cosinus de l'angle formé par ces deux. On peut interpréter assez facilement un coefficient de corrélation. Pour illustrer, on considère quelques vecteurs de R2 en figure 3. On dira que deux variables sont corrélées positivement si, lorsque l'une a tendance à prendre des valeurs supérieures à sa moyenne sur certains individus, l'autre à tendance à prendre également des valeurs supérieures à sa moyenne sur ces mêmes individus. Ainsi, géométriquement, lorsque les coordonnées de l'une seront grandes, les coordonnées de l'autre le seront aussi. On comprend donc que deux variables fortement corrélées pourront être représentées par des vecteurs presque colinéaires et de même sens comme les vecteurs U1 et U2. L'angle entre les deux étant de mesure presque nulle, le cosinus vaut presque 1. Si deux variables sont corrélées négativement c'est que quand l'une prend des valeurs supérieures à la moyenne sur certains individus, l'autre à tendance à prendre au contraire des valeurs inférieures à sa moyenne sur les mêmes individus.

Analyse des données

12

5ème année Economie et Prospective

Module d’Analyse des Données

Donc:

Qualité de représentation d'un élément (individu ou variable) par un axe : La qualité de représentation d'un élément i par l'axe α est donnée par le rapport de l'inertie de la projection de l'élément i sur l'axe α et de l'inertie totale de l'élément i :



Ainsi si

est l'angle entre (Oi) et l'axe α.

est proche de 1, alors i est proche de l'axe α et donc du plan de

projection contenant l'axe α. Cette qualité se généralise au plan. Si un individu i est proche du plan, sa distance à G (l'individu moyen) dans le plan est proche de la valeur réelle. De même les distances dans le plan entre deux individus bien représentés sont proches de la réalité.

Analyse des données

13

Module d’Analyse des Données

5ème année Economie et Prospective

4-3) Les Points Explicatifs On appelle point explicatif de l’axe de rang , les éléments j de N(J) dont la contribution est prépondérante par rapport a l’ensemble des contributions. C'est-à-dire, ceux dont la contribution est supérieure à la moyenne des contributions. On dresse un tableau à deux colonnes qui contiendra ces éléments selon leurs coordonnées (positives ou négatives).

4-4) Points Expliqués On appelle points expliqués par l’axe de rang α, les points j de N(J), dont la corrélation avec l’axe de rang est forte sans pour autant la contribution relative du point j a l’axe soit forte. De la même façon que précédemment, on se fixe un seuil de dépouillement des résultats (Cor (α) = 0.5) et on répartit les points j en deux colonnes selon leurs coordonnées.

Afin d’interpréter les points i de N(I), on utilise les mêmes règles d’interprétations que celles utilisées pour les points j de N(J).

Analyse des données

14

Module d’Analyse des Données

5ème année Economie et Prospective

5. Qualités et Limites de l’ACP : L'ACP est une méthode puissante pour synthétiser et résumer de vastes populations décrites par plusieurs variables quantitatives. Elle permet entre autre de dégager de grandes catégories d'individus et de réaliser un bilan des liaisons entre les variables. Par cette analyse nous pouvons mettre en évidence de grandes tendances dans les données telles que des regroupements d'individus ou des oppositions entre individus (ce qui traduit un comportement radicalement différent de ces individus) ou entre variables (ce qui traduit le fait que les variables sont inversement corrélées). Les représentations graphiques fournies par l'ACP sont simples et riches d'informations. L'ACP peut être une première analyse pour l'étude d'une population dont les résultats seront enrichis par une autre analyse factorielle ou encore une classification automatique des données. Par Contre d’un point de vue technique, L'ACP a pour objet l’étude de la structure de la matrice des variances-covariances ou de la matrice des corrélations. Mais, ce procédé est imparfait dans la mesure que le nuage est déformé par la projection, même si cette dernière est la plus idéale possible. Certains points sont plus altérés que d’autres par la transformation. Ainsi l’inconvénient majeur réside dans l’interprétation des axes. Parfois, l’explication est évidente et fait que l’analyse en composantes principales soit redondante ; ou bien elle est contingente pour l'analyste et dans ce dernier cas elle n'apporte pas des renseignements très convaincants pour l'analyse économétrique postérieure.

Analyse des données

15