37 0 3MB
Notes de cours d'analyse de données
Réalisé par : Pr. EN-NAIMANI Zakariae
École Natinale des Sciences Appliquées Université Mohammed Premier Oujda
1er avril 2020
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Pourquoi vouloir analyser les données ?
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Pourquoi analyser les données ?
Exemple introductif
Figure Réalisations manuscrites de chires
La gure montre des réalisations manuscrites aléatoires des chires. Chaque image numérique est de taille 64 × 64 pixels. Il est connu que les pixels voisins d'une image naturelle sont fortement corrélés. Cette dépendance statistique implique une forte redondance de l'information apportée par des pixels voisins. L'obligation de Réduire la dimension. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Pourquoi analyser les données ?
IRIS Dataset Comprend 50 échantillons de chacune des trois espèces (Iris setosa, Iris virginica et Iris versicolor). Quatre caractéristiques ont été mesurées à partir de chaque échantillon : la longueur et la largeur des sépales et des pétales, en centimètres. Figure (1)Setosa, (2)virginica et (3)versicolor
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Pourquoi analyser les données ?
L'analyse des données est une des branches les plus vivantes de la statistique. Elle a comme but est de synthétiser, structurer l'information contenue dans des données multidimensionnelles. Méthodes Méthodes factorielles : réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques. Dans ce cours, nous verrrons essentiellement :
Analyse en Composantes Principales, dans le cas ou les variables sont quantitatives. Analyse des Correspondances binaire et multiple si les variables sont qualitatives, où on cherchera les liens entre les modalités.
Méthodes de classication :
Elles visent à réduire la taille de l'ensemble des individus en formant des groupes homogènes d'individus ou de variables. Ces groupes on les appelle aussi des classes, ou familles, ou segments, ou clusters. La classication est appelée aussi Segmentation ou Clustering.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan
Chapitre 0 : Rappels Mathématiques Chapitre 1 : Analyse Factorielle Chapitre 2 : Analyse en Composantes Principales (ACP) Chapitre 3 : Analyse des Correspondances binaire (ACF) et multiple (ACM) Chapitre 4 : Classication Ascendante Hiérarchique Chapitre 5 : Méthode de K-Moyennes Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan
Chapitre 0 : Rappels Mathématiques Chapitre 1 : Analyse Factorielle Chapitre 2 : Analyse en Composantes Principales (ACP) Chapitre 3 : Analyse des Correspondances binaire (ACF) et multiple (ACM) Chapitre 4 : Classication Ascendante Hiérarchique Chapitre 5 : Méthode de K-Moyennes Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan
Chapitre 0 : Rappels Mathématiques Chapitre 1 : Analyse Factorielle Chapitre 2 : Analyse en Composantes Principales (ACP) Chapitre 3 : Analyse des Correspondances binaire (ACF) et multiple (ACM) Chapitre 4 : Classication Ascendante Hiérarchique Chapitre 5 : Méthode de K-Moyennes Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan
Chapitre 0 : Rappels Mathématiques Chapitre 1 : Analyse Factorielle Chapitre 2 : Analyse en Composantes Principales (ACP) Chapitre 3 : Analyse des Correspondances binaire (ACF) et multiple (ACM) Chapitre 4 : Classication Ascendante Hiérarchique Chapitre 5 : Méthode de K-Moyennes Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan
Chapitre 0 : Rappels Mathématiques Chapitre 1 : Analyse Factorielle Chapitre 2 : Analyse en Composantes Principales (ACP) Chapitre 3 : Analyse des Correspondances binaire (ACF) et multiple (ACM) Chapitre 4 : Classication Ascendante Hiérarchique Chapitre 5 : Méthode de K-Moyennes Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan
Chapitre 0 : Rappels Mathématiques Chapitre 1 : Analyse Factorielle Chapitre 2 : Analyse en Composantes Principales (ACP) Chapitre 3 : Analyse des Correspondances binaire (ACF) et multiple (ACM) Chapitre 4 : Classication Ascendante Hiérarchique Chapitre 5 : Méthode de K-Moyennes Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan
Chapitre 0 : Rappels Mathématiques Chapitre 1 : Analyse Factorielle Chapitre 2 : Analyse en Composantes Principales (ACP) Chapitre 3 : Analyse des Correspondances binaire (ACF) et multiple (ACM) Chapitre 4 : Classication Ascendante Hiérarchique Chapitre 5 : Méthode de K-Moyennes Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Chapitre 0 : Rappels mathématiques
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Rappels mathématiques
Algèbre linéaire : les données sont vues de manière abstraites comme un nuage de points dans un espace vectoriel. On utilise
Des matrices qui permettent de manipuler un ensemble de variables comme un objet mathématique unique ; Des valeurs et vecteurs propres qui permettent de décrire la structure d'une matrice. Des métriques : permettent de dénir la distance entre deux points de l'espace vectoriel ; on utilise aussi des produits scalaires.
Théorie des probabilités et Statistique descriptive : nécessaire en statistique inférentielle (estimation, tests, modélisation et prévision,...). Optimisation.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Statistique descriptive
Dénition est une science dont l'objectif est de recueillir les informations des données d'une propriété ou d'un caractère d'une population an de les analyser. Population groupe ou ensemble d'individus que l'on analyse. Recensement étude de tous les individus d'une population donnée. Sondage étude d'une partie seulement d'une population appelée échantillon. Variables ensemble de caractéristiques d'une population.
quantitatives : nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent être discrètes (ex : nombre d'éléments dans un ensemble) ou continues (ex : prix, taille) ; qualitatives : appartenance a une catégorie donnée ; elles peuvent être nominales (ex : sexe, situation familiale) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant).
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Les données
Dénition Variable : toute caractéristique d'une entité. Mesure : expression par une valeur numérique d'une variable. Attribut : expression par un code d'une variable. Modalité : ensemble des valeurs que peut prendre une variable. Individu : entité étudiée (observation).
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Exemple Simple
Patient 1 Patient 2 Patient 3 .. . Patient n
Genre Age Taille Fumeur F 59 140 oui M 73 178 non M 62 165 oui .. .. .. .. . . . . F 40 100 oui
Combien d'individus et des variables ? Trouver les diérent types de variables ?
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Base données académiques
La base des données IRIS est caractérisée par : IRIS Dataset Comprend 50 échantillons de chacune des trois espèces (Iris setosa, Iris virginica et Iris versicolor). Quatre caractéristiques ont été mesurées à partir de chaque échantillon : la longueur et la largeur des sépales et des pétales, en centimètres.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
IRIS Dataset
Figure (1)Setosa, (2)virginica et (3)versicolor
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
IRIS Dataset
Figure Caractéristique mesurées de Iris virginica
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Setosa
Les tableaux suivants illustrent les dix premiers individus dans chaque espèce. Longueur sépale
Largeur sépale
Longueur pétale
Largeur pétale
5.1
3.5
1.4
0.2
4.9
3.0
1.4
0.2
4.7
3.2
1.3
0.2
4.6
3.1
1.5
0.2
5.0
3.6
1.4
0.2
5.4
3.9
1.7
0.4
4.6
3.4
1.4
0.3
5.0
3.4
1.5
0.2
4.4
2.9
1.4
0.2
4.9
3.1
1.5
0.1
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Versicolor
Longueur sépale
Largeur sépale
Longueur pétale
Largeur pétale
7.0
3.2
4.7
1.4
6.4
3.2
4.5
1.5
6.9
3.1
4.9
1.5
5.5
2.3
4.0
1.3
6.5
2.8
4.6
1.5
5.7
2.8
4.5
1.3
6.3
3.3
4.7
1.6
4.9
2.4
3.3
1.0
6.6
2.9
4.6
1.3
5.2
2.7
3.9
1.4
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Virginica
Longueur sépale
Largeur sépale
Longueur pétale
Largeur pétale
6.3
3.3
6.0
2.5
5.8
2.7
5.1
1.9
7.1
3.0
5.9
2.1
6.3
2.9
5.6
1.8
6.5
3.0
5.8
2.2
7.6
3.0
6.6
2.1
4.9
2.5
4.5
1.7
7.3
2.9
6.3
1.8
6.7
2.5
5.8
1.8
7.2
3.6
6.1
2.5
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Description de données quantitatives
Dénition On appelle variable un vecteur X de taille n. Chaque coordonnée xi correspond a un individu. On s'intéresse ici a des valeurs numériques. Poids Chaque individu a éventuellement un poids pi , tel que On a souvent pi = n1 . Représentation histogramme en découpant les valeurs de la variable en classes. Résumes on dispose d'une série d'indicateurs qui ne donne qu'une vue partielle des données : eectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3eme quartile, ... Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera principalement la moyenne, la variance et l'écart type.
p1 + ... + pn = 1.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Moyenne arithmétique
Dénition On note x¯ =
ou pour des données pondérées x¯ =
n 1X
n
xi
i=1
n X
pi xi
i=1
Propriétés la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes propriétés mathématiques. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Variance et écart-type
Dénition La variance de Pn PnX est dénie par Var (X ) = n1 i=1 (xi − x¯)2 ou Var (X ) = i=1 pi (xi − x¯)2 L'écart type σx est la racine carrée de la variance. Propriétés La variance satisfait la formule suivante Var (X ) =
n 1X
n
pi xi2 − x¯2
i=1
La variance est la moyenne des carres moins le carré de la moyenne . L'écart-type, qui a la même unité que x , est une mesure de dispersion.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Notation matricielle
Matrice tableau de données carre ou rectangulaire. Vecteur matrice a une seule colonne. Cas particuliers 1 ... 0 1 . I = ... . . . ... et 1= .. 0 ... 1 1 Transposition de matrice échange des lignes et des colonnes d'une matrice ; on note M t la transposée de M.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
La matrice des poids
Pourquoi ? utile quand les individus n'ont pas la même importance Comment ? on associe aux individus un poids pi tel que n X i=1
pi = 1
et on représente ces poids dans la matrice diagonale de taille n p1 0 D=. ..
0
0 p2
.. . 0
0 0 . . . .. .
... ...
...
pn
Cas uniforme tous les individus ont le même poids pi = n1 et D = n1 I Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Forme générale de données
Tableau sous forme d'une matrice formée par p variables statistiques notée par C1 , C2 , ..., Cp et un échantillon L1 , ..., Ln de taille n. Pour n individus et p variables, on a le tableau X est une matrice rectangulaire a n lignes et p colonnes 1 x1 x21 X =. .. xn1
x12 x22
.. .
xn2
... ...
... ...
x1p p x2 .. . xnp
ou xij représente la valeur de Cj prise par l'individu Li .
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Vecteurs variable et individu
La Variable Cj : Une colonne du tableau j x1 x j 2 Cj = . ∈ Rn .. xnj
L'individu Li : Une ligne du tableau xi1 xi2 Li = . ∈ Rp .. xip
Les n individus sont décrits par un nuage de p variables. L'information représentée par un nuage correspond à la dispersion des n points. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Centre d'inertie et tableau centré
Point moyen : c'est le vecteur g des moyennes arithmétiques de chaque variable : c¯1 c¯2 g = . ∈ Rp .. c¯p
où : c¯j =
n 1X
n
xij
i=1
Vérier qu'on peut aussi écrire : g = X t D1
Tableau centré : il est obtenu en centrant les variables autour de leur moyenne : ¯ xij = xij − c¯j
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Représenter le nuage des individus
A chaque individu Li , on peut associer un point dans Rp = espace des individus. Les axes de ce sous-espace de dimension réduite sont dits " axes factoriels ". La gure suivante présente le nuage de points correspondant aux n individus. A chaque variable Cj du tableau est associé un axe de Rn .
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Exemple : p=3 et n=10
Individu Age (ans) Taille (cm) poids (kg) 1 25 169 64 2 24 180 82 3 19 172 69 4 22 175 68 5 26 182 78 6 25 178 80 7 24 179 75 8 23 174 76 9 21 178 72 10 24 176 75
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Exemple : p=3 et n=10
25 169 64 24 180 82 19 172 69 22 175 68 26 182 78 X = 25 178 80 24 179 75 23 174 76 21 178 72 24 176 75 La dispersion du nuage de points présente l'information de l'échantillon
c¯1
Le centre de gravité a comme coordonnées g = c¯2 ∈ R3 c¯3
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Matrice de variance covariance
On appelle matrice de covariance empirique de p variables quantitatives C1 , C2 , ..., Cj , ..., Cp
mesurées sur un ensemble de n individus, la matrice à p lignes et p colonnes contenant sur sa diagonale principale les variances empiriques des p variables, et ailleurs, les covariances empiriques de ces variables deux à deux :
Var (C1 ) Cov (C1 , C2 ) Cov (C2 , C1 ) Var (C2 ) . .. .. . Σ= Cov (Cj , C1 ) Cov (Cj , C2 ) .. .. . . Cov (Cp , C1 ) Cov (Cp , C2 )
avec Var (Cj ) =
1
n
Pn
j i=1 (xi
Réalisé par : Pr. EN-NAIMANI Zakariae
− c¯j )2
... ...
Cov (C1 , Cj ) Cov (C2 , Cj )
...
.. .
Var (Cj )
.. .
...
...
Cov (Cp , Cj )
...
...
.. .
et Cov (Cj , Ck ) = n1
Pn
... ...
.. .
...
j i=1 (xi
Cov (C1 , Cp ) Cov (C2 , Cp ) .. . Cov (Cj , Cp ) .. . Var (Cj )
− c¯j )(xik − c¯k )
Notes de cours d'analyse de données
Matrice de variance covariance
Si on considère
1 xi1 − c¯1 ui xi2 − c¯2 ui2 .. .. . . Uic = x j − c¯j = u j i i . . .. ..
uip
xip − c¯p
est le vecteur des valeurs centrées des individus, on peut voir que : 1 Pn
1 )2
i=1 (ui
.. . P n j 1 1 Uic (Uic )t = n i=1 ui ui n .. i=1 . P n p 1 1 i=1 ui ui n n
n 1X
p 1
variables mesurées sur la i-ème Pn
...
n
...
1 Pn
n
...
n
... .. .
1
i=1
.. .
ui1 uij
j 2 i=1 (ui )
Pn
.. .
i=1
uip ui1
1
n
...
1 Pn
n
...
n
.. .
...
1
On retrouve bien la matrice de covariance empirique Σ. Réalisé par : Pr. EN-NAIMANI Zakariae
Pn
...
Notes de cours d'analyse de données
i=1
.. .
ui1 uip
j p i=1 ui ui .. .
p 2 i=1 (ui )
Pn
Matrice de variance covariance
Si on considère
(U1c )t
.. . c t Xc = (Uj ) . .. (Unc )t
on peut aussi écrire : Σ=
1 n
Xct Xc
Cette matrice de covariance est une matrice symétrique. Elle est dénie positive si les p variables ne sont pas liées linéairement. On peut remarquer que sa trace est égale à la somme des variances empiriques des p variables. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Matrice des corrélations
Si on veut mesurer la liaison entre les variables, on utilise les coecients de corrélation. Dénition (Coecient de corrélation) le coecient de corrélation entre deux variables X et Y est donnée par ρX ,Y =
Cov (X , Y ) σX σY
Propriétés ((inégalité de Cauchy)) On a toujours l'inégalité de Cauchy −1 ρX ,Y 1. Si |ρX ,Y | 0.7, les variables X et Y sont fortement corrélées. Si |ρX ,Y | 0.5, les variables X et Y sont corrélées. Si |ρX ,Y | ≺ 0.5, les variables X et Y sont faiblement corrélées. Si |ρX ,Y | = 0, les variables X et Y sont non corrélées. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Matrice des corrélations
Si on veut travailler avec des variables centrées et réduites, on passe du tableau des valeurs centrées au tableau des valeurs centrées et réduites de la façon suivante : 1 Xcr = (DΣ )
Avec
−
2
Xc
0 ... ... 0 .. 0 ... ... . 1 .. . . 1 . . .. (DΣ ) 2 = . . . σ . . ... ... . . 0 0 ... ... 0 σ1 est la matrice diagonale qui a sur sa diagonale principale les inverses des écarts-type empirique des variables. Si on calcule la matrice de covariance à partir d'un tableau de données centrées et réduites, on obtient la matrice des corrélations empiriques : 1 1 1 t 2 2
1
σ1
−
j
p
R=
Réalisé par : Pr. EN-NAIMANI Zakariae
n
Xcr Xcr = (DΣ )
−
Σ(DΣ )
−
Notes de cours d'analyse de données
Décomposition de l'inertie totale
Dénition (Inertie totale) Soit un nuage de points Li i = 1, ..., n dans l'espace Rp . On dénie l'inertie totale par la mesure : Ig =
n 1X
n
d 2 (g , Li )
i=1
Si on pondère chaque point i par un poids pi , on a Ig
=
Pn
i=1
pi d 2 (g , Li )
Théorème (Décomposition de l'inertie) Si on décompose l'espace Rp comme la somme de sous-espaces de dimension 1 et orthogonaux entre eux : ∆1 ⊕ ∆2 ⊕ ... ⊕ ∆p Alors, Ig = I∆∗1 + I∆∗2 + ... + I∆∗p
avec ∆∗j le complémentaire de ∆j dans Rp . Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Méthode des multiplicateurs de Lagrange
Pour chercher les optimums d'une fonction f (x1 , x2 , ..., xn )
de p variables liées par une relation h(x1 , x2 , ..., xn ) = cte
on calcule les dérivées partielles de la fonction L(x1 , x2 , ..., xn ) = f (x1 , x2 , ..., xn ) − λ(h(x1 , x2 , ..., xn ) − cte)
par rapport à chacune des variables. En annulant ces n dérivées partielles et en ajoutant la contrainte, on obtient un système de n + 1 équations à n + 1 inconnues. Les n + 1 inconnues sont les valeurs des variables xi (i = 1, ..., n) et de λ appelé le "multiplicateur de Lagrange". L'existence de solutions à ce système est une condition nécessaire mais pas susante à l'existence d'un optimum pour la fonction f . Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Méthode des multiplicateurs de Lagrange
On peut généraliser ce problème au cas ou les n variables sont soumises à c contraintes. On construit la fonction L(x1 , x2 , ..., xn ) en rajoutant une combinaison linéaire des c contraintes, dont les coecients λ1 , λ2 , ..., λc sont les multiplicateurs de Lagrange. On doit alors résoudre un système de n + c équations à n + c inconnues.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Formulaire de dérivation matricielle
Proposition 1 Soit u ∈ Rn et a ∈ Rn , alors ∂at u ∂u t a = =a ∂u ∂u
Proposition 2 Soit u ∈ Rn et une matrice A ∈ Mn (R), alors Si A est symétrique, alors
∂u t Au = (A + At )u ∂u ∂u t Au = 2Au ∂u
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Chapitre 1 : Analyse Factorielle
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Principe général
Le principe général de l'analyse factorielle est fondé sur une double hypothèse :
Il existe un vecteur colonne u à p composantes et un vecteur colonne v à n composantes tel que le tableau X = {xij } s'écrive X = vu t , où u t est le vecteur transposé de u . Ainsi des n + p valeurs des vecteurs u et v , les np valeurs de X sont retrouvées.
Cette réduction devient vite intéressante dès lors que n et p sont assez grands. De plus elle n'entraîne aucune perte d'information. Cette hypothèse est malheureusement improbable en pratique.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Principe général
Exemple : Considérons l'ensemble des notes des élèves ingénieurs de l'ENSAO lière DSCC_3 durant une année. Le nombre d'élèves est environ de 40, et nous pouvons considérer qu'ils obtiennent environ 16 notes chacun. Ainsi le tableau représentant l'ensemble des notes est constitué de 640 valeurs. La réduction présentée ci-dessus permet de réduire ce nombre à 56 valeurs sans perte d'information si l'hypothèse est valide. Pour que l'hypothèse soit vériée, il faudrait pouvoir déduire les notes de l'ensemble des élèves à partir de celles d'un seul élève et d'un vecteur de pondération. Ceci signie que les notes sont dépendantes les unes des autres ou encore très fortement corrélées. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Principe général
En pratique, il faut donc chercher une approximation de rang k pour C'est-à-dire ces analyses cherchent à écrire le tableau X tel que :
X.
X = v1 u1t + v2 u2t + ... + vk ukt + E
Où E est une matrice de n lignes et p colonnes de termes négligeables dite matrice résiduelle. Ainsi les nk valeurs initiales de X sont reconstituées de façon satisfaisante par les k(n + p) valeurs des k vecteurs vl et ul . Les données sont donc soit considérées en tant qu'individus décrits par leurs k variables à l'aide des vecteurs ul à p composantes, soit en tant que variables décrites par les n individus à l'aide des vecteurs vl à n composantes.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Principe général
La résolution de ce problème passe donc par la considération des deux nuages de points ou encore des deux représentations géométriques associées.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Principe général
On remarque, après la représentation géométrique, qu'on peut obtenir plusieurs formes de nuages.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Principe général
On distingue des formes sphériques ne traduisant aucune direction privilégiée. Des formes allongées donnant une direction privilégiée des dépendances. Ou encore plusieurs sous-nuages faisant ainsi apparaître plusieurs sous-groupes de la population. D'autres formes sont remarquables telles que les formes triangulaires ou paraboliques. Le problème est de pouvoir rendre compte visuellement de la forme des nuages. Solution du problème L'idée de l'analyse factorielle est d'étudier des projections du nuage sur un axe, un plan, ou un hyperplan judicieusement déterminé. pour ce faire Mathématiquement l'analyse factorielle serait le meilleur ajustement du nuage des individus par un sous espace vectoriel de l'espace des variables (Rp ) puis le nuage des variables par un sous espace vectoriel de l'espace des individus (Rn ). Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Ajustement du nuage des individus
Le but est de fournir des images approchées du nuage des individus que nous noterons Nind - dans Rp . La visualisation des images planes de Nind . L'hypothèse que le nuage Nind est contenu dans un sous-espace vectoriel de dimension k inférieure à p, i.e. que nous supposons que la matrice E de est nulle. Le nuage Nind est reconstitué de manière satisfaisante dans un sous-espace de dimension k . On reconstruit les n individus, et donc l'ensemble de la population et du tableau X associé à partir des coordonnées des individus sur k nouveaux axes. Les np valeurs du tableau X sont donc remplacées par nk (coordonnées)+pk (composantes). Exemple Si nous considérons 1000 élèves qui obtiennent chacun 100 notes, et si S = 10, i.e. si les 1000 points-individus sont contenus dans un sous-espace de dimension 10, nous réduisons l'étude des X à
1000 × 10 + 100 × 10 = 11000 valeurs.
Réalisé par : Pr. EN-NAIMANI Zakariae
1000 × 100 = 105 valeurs de
Notes de cours d'analyse de données
Droite d'ajustement
Soit le nuage des n points L1 , L2 ,...,Ln en Rp . Soit la droite (D1 ) engendré par un vecteur colonne quelconque u1 de norme 1, passant par l'origine O, i.e. u t .u = 1
On cherche un sous-espace vectoriel à une dimension k = 1, i.e. une droite (D1 ) passant par l'origine, qui ajuste au mieux le nuage Nind . La projection sur la droite (D1 ) qui ajuste au mieux le nuage Nind donne la dispersion ou inertie maximale le long de la droite (D1 ). Proposition (D1 ) revient à minimiser (D1 ), c'est-à-dire que points du nuage Nind .
Maximiser la dispersion le long de la droite distances des points du nuage droite
(D1 )
Nind
à la droite
passe au plus près de tous les
Démonstration. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
les la
Droite d'ajustement
Proposition (D1 ) revient à maximiser (D1 ). En fait, nous avons
Maximiser la dispersion le long de la droite
u1t X t Xu1 ,
avec
u1
le vecteur unitaire de
l'égalité :
Max(
n X i=1
OHi2 ) = Max((Xu1 )t (Xu1 )) = Max(u1t X t Xu1 )
qui représente l'inertie le long de l'axe
(D1 ).
Démonstration.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
(1)
Droite d'ajustement : Résoudre le problème d'optimisation
Le problème revient donc à trouver u1 qui maximise la forme quadratique u1t X t Xu1 avec la contrainte u1t u1 = 1. Problème d'optimisation max u1t X t Xu1 s.c. P= t u1 u1 = 1
(2)
Le sous-espace à une dimension optimal au sens de l'inertie maximale est donc l'axe (D1 ) déni par le vecteur u1 solution de ce problème. Démonstration.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan d'ajustement
Cherchons maintenant à déterminer le sous-espace à deux dimensions k = 2 s'ajustant au mieux au nuage Nind . Proposition Le sous-espace à deux dimensions qui ajuste au mieux le nuage contient
u1 .
Démonstration.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Nind
Plan d'ajustement
le sous-espace à deux dimensions est donc caractérisé par l'axe (D1 ) et l'axe (D2 ) déni par le vecteur u2 orthogonal à u1 vériant donc : u2t X t Xu2 est maximal, u2t u2 = 1 (contrainte de normalité), u2t u1 = 0 (contrainte d'orthogonalité).
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Plan d'ajustement : Résoudre le problème d'optimisation
Le problème revient donc à trouver u2 qui maximise la forme quadratique u2t X t Xu2 avec les deux contraintes u2t u2 = 1 et u2t u1 = 0. Problème d'optimisation max u2t X t Xu2 s.c. P= u t u2 = 1 2t u2 u1 = 0
Démonstration.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
(3)
Sous-espace d'ajustement
Dans le cas où k 2, par récurrence, le sous-espace à k dimensions s'ajustant au mieux au nuage Nind contient les vecteurs u1 , u2 , ..., ul , ..., uk−1 . Ce sous-espace est engendré par le sous-espace (u1 , u2 , ..., ul , ..., uk−1 ) de dimension k − 1 et le vecteur uk orthogonal à ce sous-espace (i.e. à tous les ul ) et vériant : ukt X t Xuk est maximal, ukt uk = 1 (contrainte de normalité), ukt ul = 0 l = 1, ..., k − 1(contraintes d'orthogonalité).
Proposition k, Nind dans Rp
Une base orthonormée du sous-espace vectoriel de dimension s'ajustant au mieux au sens des moindres carrés, au nuage est constituée par les
k
k
(u1 , u2 , ..., uk ) correspondant (λ1 , λ2 , ..., λk ) de la matrice X t X .
vecteurs propres
plus grandes valeurs propres
aux
Remarques k
est au plus égal au rang de la matrice
X tX ,
et dans le cas de l'égalité
la matrice E est nulle. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Ajustement du nuage des variables dans l'espace des individus
De la même façon que pour le nuage des individus Nind , nous cherchons une image du nuage des variables, que nous noterons Nvar , dans Rn . L'approche est identique à celle du nuage des individus, il sut simplement de considérer X t au lieu de X. L'inertie le long de la droite (Dk0 ) s'écrit (X t vk )(X t vk ) = vkt XX t vk . L'axe factoriel (ou axe d'inertie) est déterminé par vk vériant : vkt XX t vk est maximal, vkt vk = 1 (contrainte de normalité), vkt vl = 0 pour tout l = 1, ..., k − 1 (contrainte d'orthogonalité).
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Sous-espace d'ajustement
Le sous-espace d'ajustement est obtenu de la même manière que dans le cas des individus, par la proposition suivante. Proposition k, Nvar dans Rn
Une base orthonormée du sous-espace vectoriel de dimension s'ajustant au mieux au sens des moindres carrés, au nuage est constituée par les
k
k
(v1 , v2 , ..., vk ) correspondant (ϕ1 , ϕ2 , ..., ϕK ) de la matrice XX t .
vecteurs propres
plus grandes valeurs propres
aux
Démonstration. Remarques k
est au plus égal au rang de la matrice
matrice
XX t ,
qui est égal au rang de la
t
X X.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Relation entre les axes d'inertie et les facteurs des deux nuages
On montre ici quelles sont les relations, dites relations de transition, entre les ajustements dans les deux espaces. Soit λD = ukt X t Xuk , respectivement λD = vkt XX t vk l'inertie le long de l'axe (Dk ), respectivement (Dk0 ). Fk = Xuk , respectivement Gk = X t vk le facteur d'ordre k de Nind , respectivement de Nvar . Fk est donc le vecteur issu de la projection du nuage Nind sur le k ème axe dans Rp , de même Gk est le vecteur issu de la projection du nuage Nvar sur le k ème axe dans Rn . k
Réalisé par : Pr. EN-NAIMANI Zakariae
0 k
Notes de cours d'analyse de données
Relation entre les axes d'inertie et les facteurs des deux nuages
Proposition L'inertie le long de l'axe
(Dk0 ), λDk0
(Dk ), λDk λk .
, est égale à l'inertie le long de l'axe
, nous la notons
Démonstration.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Relation entre les axes d'inertie et les facteurs des deux nuages
Proposition Les formules de transition entre les deux espaces
Rp
et
Rn
sont données
par les relations de fondamentales :
(
vk = uk =
√Fk λk √Gk λk
Démonstration.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Relation entre les axes d'inertie et les facteurs des deux nuages
Les relations de transition entre les deux espaces peuvent se représenter par un schéma de dualité qui représente les relations entre les axes d'inertie d'un nuage et les facteurs de l'autre nuage. Proposition Les relations de transitions entre les facteurs s'écrivent :
Pp j 1 xi gk (j) f (i) = Pp x j u (j) = j=√ k k j=1 i λ k P j g (j) = Pn x j v (i) = ni=√ 1 xi gk (i) k
i=1 i k
λk
Cette proposition montre que les facteurs des deux nuages doivent s'interpréter conjointement. L'analyse factorielle consiste donc à analyser simultanément le nuage Nind et le nuage Nvar .
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Reconstruction des données
Possible de reconstruire de manière exacte le tableau de données X par une décomposition en valeurs singulières de la matrice X . Puisque ul est le l ème vecteur propre de norme 1 de la matrice X t X , correspondant à la valeur propre λl et vl est le l ème vecteur propre de norme 1 de la matrice XX t , correspondant à la même valeur propre, nous avons : p Xul =
d'où X
p X
ul ult =
l=1
λ l vl
p X p λl vl ult l=1
Les vecteurs propres étant orthogonaux et de norme 1, nous obtenons : p X =
Xp
λl vl ult
l=1
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Reconstruction des données
Cette formule de reconstruction du tableau X est par décompositions en valeurs singulières à partir des valeurs propres λl (qui sont aussi les inerties), et des vecteurs propres associés ul et vl l = 1, ..., p. Cette reconstruction exacte suppose donc avoir np valeurs contenues dans les p vecteurs propres ul et vl . Nous avons vu précédemment que nous cherchons le sous-espace qui s'ajuste au mieux aux nuages de points. S'ajuster au mieux signie donc reconstituer au mieux les positions des points des nuages par un nouvel ensemble de coordonnées.
Premier droite d'ajustement
Si λ1 associée à u1 est grande par rapport aux autres valeurs propres, alors nous disons que la "reconstruction est bonne ". D'un point de vue géométrique ceci signie que le nuage de points s'allonge le long d'une droite. Lorsque le nuage est ainsi très étiré le long du premier axe, l'inertie du nuage de départ et la position des points sont bien reconstituée avec la seule information des coordonnées des projections des points du nuage.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Reconstruction des données
k premiers axes d'ajustement
Un repère formé par les k premiers axes factoriels permet de reconstituer les positions de départ avec une bonne précision, si λ1 + ... + λk représente une "bonne proportion" de la trace de la matrice X t X . Rappelons que t
tr (X X ) =
p X
λl =
p X n X
l=1
l=1 i=1
X u X∗ =
k p X λl vl ult
(xil )2
. Nous obtenons ainsi une reconstruction approchée X ∗ du tableau X en se limitant aux k premiers axes factoriels, nous avons : l=1
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
(4)
Reconstruction des données
Nous passons donc des np valeurs du tableau X à k(n + p) nombres pour reconstituer X . √ Ces nombres sont constitués par les k vecteurs λl vl ayant n composantes et les k vecteurs ul ayant p composantes. Toute la diculté réside dans le choix de K , c'est-à-dire à partir de quelle valeur a-ton une bonne reconstruction, ou encore une bonne proportion de la trace de X t X ? Nous voyons donc l'importance de dénir un indice de qualité de la reconstruction. La qualité globale de la reconstruction peut être mesurée par : τl =
Pk tr (X ∗t X ∗ ) l=1 λl P = p tr (X t X ) j=1 λj
(5)
Le coecient τl est encore appelé taux d'inertie ou pourcentage de la variance relatif aux k premiers facteurs. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Chapitre 2 : Analyse en Composantes principales
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Notions de base
On dispose d'un tableau de données numériques X où n individus sont décrits sur p variables.
= (xij )n×p
Nuage de n points-individus pondérés : Les n lignes de X dénissent un nuage de n points de Rp . On pondère chaque individu i par un poids wi . En pratique : wi = wi 6=
1 n
1 n
pour des tirage aléatoire par exemple. pour des échantillons redressés, des données regroupées,etc.
En ACP, on va s'intéresser au nuage centré des n points individus, au nuage centré-réduit des n points individus.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Notions de base
Le nuage centré des points-individus a pour centre de gravité l'origine du repère. Montrez que y¯j = 0 pour tout j = 1, ..., p .
Les distances entre les points-individus sont conservées. Montrez que d 2 (Li , Li 0 ) = d 2 (yi , yi 0 ).
La variance des variables centrées-réduites est égale à 1. Montrez que var (z j ) = 1 pour tout j = 1, ..., p .
Les distances entre les points-individus sont modiées. P Montrez que d 2 (zi , zi 0 ) =
Réalisé par : Pr. EN-NAIMANI Zakariae
p j 1 j=1 σ 2 (xi j
− xij0 )2 .
Notes de cours d'analyse de données
Notions de base
Distance entre deux individus. On munit l'espace Rp d'une métrique M (matrice p × p symétrique dénie positive). un produit scalaire : < x, y >M = x t My √ une norme : ||x||M = < x, x >M une distance : dM (x, y ) = ||x − y ||M
On utilise souvent une métrique diagonale M = diag (m1 , ..., mp ) an de pondérer les variables dans le calcul de la distance : 2
||Li ||M =
p X
mj (xij )2
j=1
2 dM (Li , Li 0 ) =
p X
mj (xij − xij0 )2
j=1
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Notions de base
Si on donne le même poids à toutes les variables, M = Ip et dI2p (Li , Li 0 ) =
p X (xij − xij0 )2 = dI2p (yi , yi 0 ) j=1
Si on donne moins de poids aux variables de forte variance, M = diag ( σ12 , ..., σ12 ) et 1 p
2
dM (Li , L ) = i0
p X j=1
1
σj2
(xij − xij0 )2 = dI2p (zi , zi 0 )
Centrer-réduire les données permet de donner le même poids à toutes les variables dans le calcul de la distance entre deux individus. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Notions de base
Inertie du nuage des individus. C'est une mesure de dispersion du nuage des n points-individus de Rp dénie par : I (X ) =
n X
2 w i dM (Li , g¯ )
i=1
Pour une métrique diagonale M = diag (m1 , ..., mp ) on a : I (X ) =
p X
mi var (Cj )
j=1
Et si M = Ip L'inertie I (Y ) du nuage centré des individus est égale à la somme des variances des p variables. L'inertie I (Z ) du nuage centré-réduit des individus est égal à p. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Notions de base
Nuage de p points-variables pondérés : Les p colonnes de X dénissent un nuage de p points de Rn . On pondère chaque variable j par un poids mj . En pratique : mj = 1 en ACP. mj 6= 1 en ACM (Analyse des Correspondances Multiples).
En ACP, on va s'intéresser au nuage des p variables centrées si on analyse Y. au nuage des p variables centrées-réduites si on analyse Z.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Variance et norme
Si on munit Rn de la métrique diagonale N = diag ( n1 , ..., n1 ) des poids des individus, on peut écrire var (Cj ) =
n 1X
n
(xij − c¯j )2 = ||y j ||2N
i=1
On en déduit que : La variance empirique d'une variable j est égale au carré de la norme de la variable centrée. La norme d'une variable centrée-réduite z j est égale à 1 : var (z j ) = ||z j ||2N = 1
Les variables centrées-réduites se trouvent sur l'hypersphère unité de Rn . Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Covariance et produit-scalaire
La covariance empirique Σjj mesure la liaison entre deux variables j et j 0 : n 1X j j 0
Σjj 0 =
0
n
(xi − c¯j )(xi − c¯j 0 )
i=1
On en déduit que : La covariance Σjj est le produit scalaire entre les variables centrées : 0
0
Σjj 0 =< y j , y j >N
La matrice p × p de covariance notée Σ se calcule matriciellement à partir de la matrice Y des données centrées : Σ = Y t NY
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Corrélation et cosinus
La corrélation rjj est une autre mesure de liaison entre deux variables j et j' qui prend ses valeurs dans [−1, 1] : 0
rjj 0 =
n 1X
n
i=1
0
(
xij − c¯j xij − c¯j 0 )( ) σj σj 0
On en déduit que : La corrélation est le cosinus de l'angle entre les variables centrées : 0
rjj 0 =
0 < y j , y j >N = cos(θN (y j , y j )) 0 j j ||y ||N ||y ||N
et le produit scalaire et le cosinus de l'angle entre les variables centrées-réduites : 0
0
rjj 0 =< z j , z j >N = cos(θN (z j , z j ))
La matrice p × p de corrélations notée R se calcule matriciellement à partir de la matrice Z des données centrées-réduites : R = Z t NZ Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
ACP normée ou non normée ?
En ACP on peut analyser : la matrice des données centrées Y. la matrice des données centrées-réduites Z. L'ACP consiste alors à analyser deux nuages de points : les n points-individus de Rp (les lignes) avec la métrique M = Ip . les p points-variables de Rn (les colonnes) avec la métrique N = n1 In . On distingue alors deux type d'ACP : l'ACP non normée (sur matrice des covariances) qui analyse Y, l'ACP normée (sur matrice des corrélations) qui analyse Z. Dans la suite du cours, on se place dans le cadre de l'ACP normée qui va analyser les lignes et le colonnes de la matrice des données centrées-réduites Z. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Analyse du nuage des individus en ACP normée
Exemple des 6 individus décrits sur 3 variables.
Objectif Trouver le plan de projection tel que les distances entre les individus soient les mieux conservées possible.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Projection d'un individu
La projection M-orthogonale d'un point zi ∈ Rp sur un axe ∆α de vecteur directeur uα de norme 1 (i.e. uαt Muα = 1) a pour coordonnée : fiα =< zi , uα >M = zit Muα
On notera f α ∈ Rn le vecteur des coordonnées des projections des n points du nuage des individus sur cet axe :
fα
Réalisé par : Pr. EN-NAIMANI Zakariae
f1α
.. . = fiα = ZMuα .. . fnα
Notes de cours d'analyse de données
Projection d'un individu
est une combinaison linéaire des colonnes de Z. Par exemple, avec M = Ip on a : fα
f
α
= Zuα =
p X
ujα z j
j=1
fα
est donc une variable synthétique centrée et donc var (f α ) =
Réalisé par : Pr. EN-NAIMANI Zakariae
n 1X
n
2 fiα = ||f α ||2N
i=1
Notes de cours d'analyse de données
Recherche des axes de projection des individus
On cherche d'abord l'axe ∆1 de vecteur directeur u1 ∈ Rp pour que la variance de la variable synthétique f 1 = Zu1 ∈ Rn (ici M = Ip ) soit maximale : u1 = arg
max
u∈Rp ,||u||=1
var (Zu)
On peut montrer que :
le problème d'optimisation s'écrit : max u t Ru
||u||=1
Avec R = 1n Z t Z la matrice des corrélations en les variables, la solution u1 est le vecteur propre associé à la plus grand valeur propre λ1 de la matrice matrice des corrélations avec λ1 = var (f 1 )
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Recherche des axes de projection des individus
On cherche ensuite l'axe ∆2 de vecteur directeur u2 ⊥ u1 qui maximise la variance de la variable synthétique f 2 = Zv2 : u2 = arg
max
u⊥u1 ,||u||=1
var (Zu)
On peut montrer que :
u2 est le vecteur propre associé à la seconde plus grand valeur propre λ2 de R avec λ2 = var (f 2 )
les nouvelles variables synthétiques f 1 et f 2 sont non corrélées.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Recherche des axes de projection des individus
Finalement, on construit q r (où r est le rang de Z) axes de vecteurs directeurs v1 , ..., vq et on obtient la matrice F de dimension n × q des coordonnées des individus sur ces axes : F = ZU
où U est la matrice des q premiers vecteurs propres de la matrice des corrélations R. Les éléments fiα sont appelés : coordonnées factorielles des individus, scores des individus sur les composantes principales,
Les colonnes f α = Zuα sont les nouvelles variables appelées les composantes principales.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Inertie des q premières composantes principales
Les composantes principales (colonnes de F) sont q nouvelles variables synthétiques non corrélées et de variance maximale avec var (f α ) = λα
On en déduit que l'inertie de la matrice F des q premières composantes principales vaut : I (F ) =
q X
λl
l=1
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Analyse du nuage des variables en ACP normée
Exemple des 3 variables centées-réduites décrivant les 6 patients. Nuage de 3 points de R6 sur l'hypersphère de rayon 1 .
Objectif Trouver le plan de projection tel que les angles entre les variables (et donc les corrélations) soient les moins déformés possible. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Projection d'une variable
La projection N-orthogonale d'un point z j ∈ Rn sur un axe Gα de vecteur directeur vα de norme 1 (i.e. vαt Nvα = 1) a pour coordonnée : ajα =< z j , vα >N = (z j )t Nvα
On notera aα ∈ Rp le vecteur des coordonnées des projections des p points-variable sur cet axe :
a1α
.. . α t a = ajα = Z Nvα .. . apα
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Recherche des axes de projection des variables
On cherche d'abord l'axe G1 de vecteur directeur v1 ∈ Rn qui maximise le carré de la norme du vecteur a1 = Z t Nv1 ∈ Rp : v1 = arg
max
||v ||N =1
||Z t Nv ||2
Avec N = n1 In et la solution v1 st le vecteur propre associé à la plus grand valeur propre λ1 de la matrice n1 ZZ t (qui est aussi la valeur propre de la matrice R = n1 Z t Z ). On cherche ensuite l'axe G2 de vecteur directeur v2 ⊥ v1 qui maximise le carré de la norme du vecteur a2 = Z t Nv2 : v2 = arg
max
||v ||N =1,v ⊥v1
||Z t Nv ||2
la solution v2 est le vecteur propre associé à la seconde plus grand valeur propre λ2 de la matrice n1 ZZ t . Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Recherche des axes de projection des variables
Finalement, on construit q axes de vecteurs directeurs v1 , ..., vq et on obtient la matrice A de dimension p × q des coordonnées des variables sur ces axes : A = Z t NV
où V est la matrice des q premiers vecteurs propres de la matrice des corrélations R. Les éléments ajα sont appelés : coordonnées factorielles des variables, loading des variables,
On démontrera la relation suivante qui est fondamentale pour interpréter les résultats : ajα = cor (x j , f α )
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Recherche des axes de projection des variables
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Interprétation des résultats Qualité de la réduction de dimension
On mesure la qualité des q premières composantes principales par le pourcentage de l'inertie des données qu'elles expliquent. Inertie des données : I (Z ) = λ1 + λ2 + ... + λr
Cette inertie vaut p en A.C.P. normée et σ12 + ... + σp2 en ACP non normée. Inertie des q r premières composantes principales : I (F ) = λ1 + λ2 + ... + λq I (Z )
Part d'inertie expliquée par la αème composante principale. λα λ1 + λ2 + ... + λr
Part d'inertie expliquée par les q premières composantes principales. λ1 + λ2 + ... + λq λ1 + λ2 + ... + λr Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Combien de composantes retenir ?
On peut choisir le nombre q de composantes à retenir en fonction d'un pourcentage d'inertie xé a priori. On peut choisir de retenir les composantes apportant une inertie λα supérieure à l'inertie moyenne par variable. En ACP normée, l'inertie moyenne par variable vaut 1, et on choisit q tel que λq 1 et λq+1 ≺ 1. C'est la règle de Kaiser. Visualiser l'histogramme des valeurs prores (qui n'est pas un histogramme) et chercher une "cassure". Pour quantier cette cassure, on peut utiliser la règle du coude : calculer les diérence premières : 1 = λ1 − λ2 , 2 = λ2 − λ3 , .... calculer les diérence secondes : δ1 = 1 − 2 , δ2 = 2 − 3 , .... retenir le nombre q tel que δ1 , ..., δq−1 soient toutes positives et que δq soit négative.
Choisir le nombre de composantes en fonction d'un critère de stabilité estimé par des approches bootstrap ou de validation croisée. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Interprétation des plans factorielles des individus Qualité de la projection des individus
Si deux individus sont bien projetés, alors leur distance en projection est proche de leur distance dans Rp . On mesure la qualité de la projection d'un individu i sur l'axe ∆α par le carré du cosinus de l'angle θiα entre le vecteur zi et l'axe ∆α : cos 2 (θiα ) =
2 fiα ||zi ||2
On mesure la qualité de la projection d'un individu i sur le plan (∆α , ∆α ) par le carré du cosinus de l'angle θi(α,α ) entre le vecteur zi et sa projection orthogonale sur (∆α , ∆α ) : 0
0
0
cos 2 (θi(α,α0 ) ) =
2 +f2 fiα iα0 ||zi ||2
Plus la valeur du cos 2 est proche de 1, meilleure est la qualité de la représentation de l'individu. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Interprétation des plans factorielles des individus
Exemple des 6 patients
Retrouver que le cos 2 entre "Marie" et le premier axe vaut 0.98. Calculer ensuite le cos 2 entre "Marie" le premier plan factoriel.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Interpréter les distances entre les patients sur le plan Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Contribution des individus
Les individus qui contribuent de manière excessive à la construction des axes sont source d'instabilité. Pour savoir si un individu contribue à un axe, on évalue la part de l'inertie de l'axe expliquée par cet individu. P L'inertie sur l'axe ∆α est λα = ni=1 wi fiα2 avec souvent wi = n1 . La contribution relative d'un individu i à l'axe ∆α est Ctr (i, α) =
2 wi fiα λα
La contribution relative d'un individu i au plan (∆α ,∆α ) est 0
Ctr (i, (α, α0 )) =
2 +w f2 wi fiα i iα0 λα + λα0
Si les poids wi des individus sont tous identiques (wi = les individus excentrés sont ceux qui contribuent le plus. Réalisé par : Pr. EN-NAIMANI Zakariae
1
n
par exemple),
Notes de cours d'analyse de données
Interpréter les distances entre les patients sur le plan
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Interprétation du cercle de corrélation
Si deux variables sont bien projetées, alors leur angle en projection est proche de leur angle dans Rn . Sachant que la corrélation entre deux variables est le cosinus de l'angle entre les variables centrées-réduites : un angle de 90◦ correspond à une corrélation nulle, un angle nul (res. de 180◦ ) correspond à une corrélation de 1 (res. de -1).
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Qualité de la projection des variables
On mesure la qualité de la projection d'une variable j sur l'axe Gα par le carré du cosinus de l'angle θjα entre le vecteur z j et l'axe Gα : cos 2 (θjα ) =
2 ajα 2 = ajα ||z j ||2
On mesure la qualité de la projection d'une variable j sur le plan (Gα ,Gα ) par le carré du cosinus de l'angle θj(α,α ) entre le vecteur z j et sa projection orthogonale sur (Gα ,Gα ) : 0
0
0
2 2 cos 2 (θj(α,α0 ) ) = ajα + ajα 0
est donc la "longueur de la èche". Plus la èche est proche du cercle, meilleur est la qualité de la représentation de la variable. p cos 2 (θj(α,α0 ) )
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Contribution des variables
Les contributions des variables aux axes permettent de donner une interprétation aux axes. Pour savoir si une variable contribue à un axe, on évalue la part de l'inertie de l'axe expliquée par la variable. P 2 . L'inertie sur l'axe Gα est λα = pi=1 ajα La contribution relative d'une variable j à l'axe Gα est Ctr (j, α) =
2 ajα λα
La contribution relative d'une variable j au plan (Gα ,Gα ) est 0
Ctr (j, (α, α0 )) =
Réalisé par : Pr. EN-NAIMANI Zakariae
2 + a2 ajα jα0 λα + λα0
Notes de cours d'analyse de données
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Interprétation du plan factoriel des individus à partir du cercle des corrélations
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Analyse en composantes principales sur R
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Objet
On va utiliser la fonction PCA du package FactoMineR plutôt que la fonction princomp qui est très simpliste. La fonction PCA permet l'ajout d'éléments supplémentaires et la construction simple et automatisée de graphiques. Elle est aussi accessible via une interface graphique disponible dans le package Factoshiny via la fonction PCAshiny. Cette interface permet de paramétrer la méthode et de construire des graphes interactifs. Exemple Le jeu de données concerne les résultats aux épreuves du décathlon lors de deux compétitions d'athlétisme. Ces dernières ont lieu un mois d'intervalle : les Jeux Olympiques d'Athènes (23 et 24 août 2004) et le Décastar (25 et 26 septembre 2004). Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Étapes
1 2 3 4 5 6 7
Importer le jeu de données Choisir les variables et les individus actifs Standardiser ou non les variables Choisir le nombre d'axes Analyser les résultats Décrire de façon automatique les principales dimensions de variabilité Retour aux données brutes.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Importer le jeu de données
La première colonne correspond aux noms des individus (row.names=1) On veut conserver le nom des variables tel que le tableau initial (check.names=FALSE) Exemple decath < − read.table("decathlon.csv",sep=" ;",dec=".",header=TRUE, row.names=1,check.names=FALSE) summary(decath) library(prettyR) describe(decth)
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Choisir les variables et les individus actifs
On met en actif les variables correspondants aux performances des athlètes (les 10 premières variables). Le choix des variables actives est très important. Ce sont ces variables, et uniquement ces variables, qui participent à la construction des axes de,l'A.C.P. Seules ces variables sont utilisées pour calculer les distances entre individus. On peut ajouter en variables supplémentaires les variables quantitatives nombres de points et classement, ainsi que la variable qualitative compétition. Les variables supplémentaires sont très utiles pour aider à interpréter les axes. On choisit aussi les individus actifs, i.e. ceux qui participent à la construction des axes. Ici, comme fréquemment, tous les individus sont considérés comme actifs. Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Standardiser ou non les variables
Lors d'une A.C.P. on peut centrer-réduire les variables ou seulement les centrer. Pour ce jeu de données, on n'a pas le choix, la réduction est indispensable car les variables ont des unités diérentes. Quand les variables ont les mêmes unités, les deux solutions sont envisageables et impliquent deux analyses diérentes. La réduction permet d'accorder la même importance à chacune des variables. Ne pas réduire donne à chaque variable un poids correspondant à son écart-type. Réaliser l'A.C.P. par la fonction PCA package FactoMineR. Exemple library(FactoMineR) res.acp < − PCA(decath,quanti.sup=11 :12,qual.sup=13) Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Standardiser ou non les variables
Exemple library(FactoMineR) res.acp < − PCA(decath,quanti.sup=11 :12,qual.sup=13) Les variables 11 et 12 sont quantitatives supplémentaires et la variables 12 est qualitative supplémentaire. Ces variables ne sont pas prises en compte dans la construction des axes. Par défaut, les variables sont centrées-réduites (A.C.P normée). Pour l'A.C.P. on utilise l'argument scale.unit=FALSE.
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Choisir le nombre d'axes
Plusieurs solutions existent pour déterminer le nombre d'axes à analyser en A.C.P. La plus courante consiste à représenter le diagramme en barres des valeurs propres ou des inerties associées à chaque axe. Exemple barplot(res.acp$eig[,2],names=paste("Dim",1 :nrow(res.acp$eig))) barplot(res.acp$eig$per,names=paste("Dim",1 :nrow(res.acp$eig))) barplot(res.acp$eig$cum, ylab = "Inertie cumulée expliquée (%)", xlab = "Composante") abline(h = 80, lty = 1, lwd = 2) On cherche une décroissance ou une cassure apparente sur le diagramme. Le tableau des pourcentages d'inertie expliquée par chaque axe est donné par la fonction summary.PCA. Exemple summary.PCA(res.acp) Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Analyser les résultats
Pour interpréter les résultats d'une A.C.P. l'usage est d'étudier simultanément les résultats sur les individus et sur les variables. La fonction PCA fournit par défaut le graphique des variables et celui des individus pour les deux premières dimensions. Exemple plot(res.acp, choix = "ind", habillage = 1) plot(res.acp, choix = "ind", habillage = 1, axes = c(3,4)) res.acp$var$coord res.acp$var$cor res.acp$var$cos2 res.acp$var$contrib
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données
Analyser les résultats
Exemple res.acp$ind$coord res.acp$ind$cos2 res.acp$ind$contrib plot(res.acp, choix = "var") plot(res.acp, choix = "var", axes = c(3, 4))
Réalisé par : Pr. EN-NAIMANI Zakariae
Notes de cours d'analyse de données