35 2 2MB
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Data Mining Analyse en Composantes Principales
W. Toussile [email protected] 1 Département MSP École Nationale Supérieure Polytechnique
W. Toussile [email protected] (ENSP)
20/07/2020
Data Mining
20/07/2020
1 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
1
Notions de base
2
Espace métrique des individus et inerties
3
Espace métrique des variables
4
Analyse en Composante Principales
5
ACP dans l’espace des variables
6
Les représentations graphiques
7
Pratique de l’ACP
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
2 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
W. Toussile [email protected] (ENSP)
Section 1 Introduction
Data Mining
20/07/2020
3 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Introduction
L’ACP fait partie des méthodes exploratoires multidimensionnelles dites factorielles, qui sont géométriques et non probabilistes. L’ACP permet de réduire la dimension de représentation des données numériques, en déformant le moins possible la réalité De telles méthodes servent à comprendre la structure des données et à formuler des hypothèses à étudier à l’aide d’outils de statistique inférentielle.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
4 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Les données Elles se présentent sous la forme d’une matrice X de dimensions n × p:
X = xij
1≤i≤n;1≤j≤p
,
(1)
où xij ∈ R est l’observation de la variable X j sur l’individu i, n la taille de l’échantillon et p le nombre de variables. Données de l’individu i : 1 xi .. xi = . ∈ Rp
xip
Données de la variable j :
W. Toussile [email protected] (ENSP)
j x .1 j n x = .. ∈ R
xnj
Data Mining
20/07/2020
5 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Les objectifs Les espaces des individus et des variables sont en général de grande dimension (p ≥ 3 ou n ≥ 3), rendant difficile toute représentation des nuages (individus ou variables) dans le plan. L’ objectif de l’ACP est de I
Condenser l’information contenu dans le tableau (de grandes dimensions) par une analyse des corrélations linéaires entre les variables et une visualisation graphique des distances entre les individus;
I
Dégager les liaisons entre variables et les ressemblances entre individus;
L’idée générale de l’ACP est de trouver un système d’axes orthogonaux dans un espace de plus petite dimension (par exemple 2) dans lequel le nuage projeté est de plus grande variance, correspondant ainsi à une perte minimale d’information.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
6 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Exemple (Cornillon et al. 2008) I Le fichier decathlon.csv contient les résultats d’athlètes aux 10 épreuves de décathlon. Ce jeu de données se trouve aussi dans le package factoextra. On souhaite I
Analyser les liaisons entre les performances aux différentes épreuves
I
Savoir si certaines épreuves se “ressemblent”
I
Déterminer des profils d’athlètes
I
On se doute par exemple que les performances au 100m, 110mhaies et saut en longueur soient corrélées. Est-il utile de garder les données des trois épreuves, ou d’en fabriquer une variable qui “résume” ces trois?
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
7 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Exemple (Cornillon et al. 2008) II Sous R # Se trouve dans le package factoextra require(factoextra) require(dplyr) # 1eres lignes decathlon2 %>% head() # Les dimensions du tableau dim(decathlon2)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
8 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Exemple (Cornillon et al. 2008) III
Sous Python import pandas as pd decathlon = pd.read_csv("decathlon.csv", sep=";", index_col = 0) print("Dimensions = ".format(decathlon.shape)) decathlon.head()
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
9 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Section 2 Notions de base
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
10 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Quelques définitions I Soit (ei )i la base canonique de Rp . Alors x j = X · ej Definition (Centre de gravité) Le centre de gravité du nuage des individus affectés des poids (ωi )ni=1 ∈ Sn est le point x = (x j )j =
X
ωi xi = t XD1n ∈ Rp
i
ωi > 0 et
P
i
ωi = 1 et en général, ωi =
1 n
Matrice des poids : D = diag(ω1 , · · · , ωn )
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
11 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Quelques définitions II Nuage des individus : I := {(xi , ωi )}i Données centrées : Y := (xij − x j )i,j = X − 1n t x Matrice des covariances empiriques : V = t XDX − x t x = t YDY avec [V]j,j 0 =
P
i
0
0
ωi (xij − x j )(xij − x j )
Remarque : I I
y = 0Rp kxi − xi 0 k2 = kyi − yi 0 k2
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
12 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Quelques définitions III Données centrées et réduites : Z :=
xij − x j sj
!
, où sj2 := i,j
X
ωi (xij − x j )2
i
Si on pose S−1 = diag( s1j )j , on a Z = YS−1 . Matrice des corrélations empiriques : R = S−1 VS−1 = S−1t YDYS−1 = t ZDZ Note : R est la matrice des covariances des données centrées-réduites, elle résume la structure des dépendances linéaires entre les p variables Xj
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
13 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Exemple I Sous R X = decathlon2[, 1:10] Y = scale(X, scale = FALSE) n = nrow(X) D = diag(rep(1/n, n)) S_1 = diag(1/sqrt(diag(V))) Z = Y%*%S_1 V = t(Y)%*%D%*%Y # Covariances R = t(Z)%*%D%*%Z # Corrélations M = diag(1/diag(V))
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
14 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Exemple II Sous Python import sklearn from sklearn.preprocessing import StandardScaler X Y Z n D M
= = = = = =
decathlon.iloc[:, 0:10] StandardScaler(with_std = False).fit_transform(X) StandardScaler(with_std = True).fit_transform(X) X.shape[0] (1/n)*np.diag(np.ones(n)) np.diag(1/X.std())
V = Y.T.dot(D).dot(Y) R = Z.T.dot(D).dot(Y)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
15 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Section 3 Espace métrique des individus et inerties
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
16 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Espace métrique des individus I Il est nécessaire de munir l’espace des individus d’une mesure de “proximité”. Quelle distance choisir? La distance euclidienne n’est pas forcément le plus adaptée, surtout lorsque les variables n’ont pas le même ordre de grandeur d 2 (xi , xi 0 ) =
X
(xij − xij0 )2 = t (xi − xi 0 )(xi − xi 0 ) =: kxi − xi 0 k2I
j
En général, on utilise une distance de la forme 2 (xi , xi 0 ) := t (xi − xi 0 )M(xi − xi 0 ) =: kxi − xi 0 k2M dM
où M est une matrice symétrique définie positive choisie de sorte à donner la même importance aux variables Remarque : d 2 = dI2
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
17 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Espace métrique des individus II On choisit très souvent M = S−2 = diag(
1 )j sj2
I
Ce choix revient à réduire chaque variable
I
La distance associée donne la même importance à toutes variables, au regard de leur dispersion
Remarque : dS2−2 (xi , xi 0 ) = dS2−2 (yi , yi 0 ) = d 2 (zi , zi 0 )
Ainsi, le choix de dS−2 consiste en celui de la distance euclidienne sur les données centrées réduites Z = (X − 1n t x )S−1
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
18 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Inertie totale du nuage des individus I Considérons un nuage des individus pondérés I = {(xi , ωi )}i et une distance dM Inertie totale : It =
X
2 ωi dM (xi , x ) =
i
I
X
ωi kxi − x k2M =
i
X
ωi kyi k2M
i
It mesure la dispersion du nuage des individus autour du centre de gravité x
Proposition It =
W. Toussile [email protected] (ENSP)
1 XX ωi ωi 0 kxi − xi 0 k2M . 2 i i0
Data Mining
20/07/2020
19 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Inertie totale du nuage des individus II
1 XX ωi ωi 0 kxi − xi 0 k2M 2 i i0
W. Toussile [email protected] (ENSP)
1 XX ωi ωi 0 kxi − x + x − xi 0 k2M 2 i i0 = ... =
Data Mining
20/07/2020
20 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Inertie totale du nuage des individus III Expression matricielle de l’inertie Proposition It = tr (MV ) = tr (VM) . Proof. It
=
X
ωi kyi k2M =
X
i
ωi
yi Myi =
i
X
ωi yi t yi
X
ωi tr yi t yi M
i
!
= tr
t
!
M
= tr (VM) = tr (MV ) .
i
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
21 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Inertie totale du nuage des individus IV
Rappels
tr (AB) = tr (BA) tr (A + B) = tr (A) + tr (B) tr (αA) = αtr (A) .
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
22 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Inertie totale du nuage des individus V Sous R my.norm λ2 > · · · > λr > 0 = λr +1 = · · · = λp , où r = rg (Y). Les axes principaux uj , vecteurs propres associés aux λj qui forment une base M-orthonormale de Rp : t
YDYMuj = λj uj , t uj Muj 0 = δj,j 0 .
Les composantes principales c j = t YMuj si j ≤ r et c j = 0 si j >r 1 Les facteurs principaux f j = p c j pour j ≤ r λj
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
47 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Résumé d’une ACP normée III
Sous R require(FactoMineR) out_pca = PCA(X, scale.unit = TRUE, ncp = ncol(X)) out_pca$eig # Valeurs propres summary(out_pca)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
48 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Résumé d’une ACP normée IV
Sous Python import numpy as np from sklearn.decomposition import PCA pca = PCA(n_components = 10) pca.fit(X) dir(pca)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
49 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Section 6 ACP dans l’espace des variables
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
50 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Le problème On s’intéresse au nuage y j dans Rn
Objectif : Trouver les sous-espaces principaux Fk qui conservent au mieux l’information liée à l’inertie contenu dans le nuage y j j . Les besoins : I I I
Les données t Y (matrice p × n) Une métrique sur Rn ; en général on choisit D= diag (ωi )i Une matrice des poids; en général M = diag s12 j
On fait alors l’ACP (t Y, M, D)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
51 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
ACP (t Y, M, D) Proposition 1
2
3
Les valeurs propres non nulles de l’ACP (t Y, M, D) sont les valeurs propres non nulles λ1 , · · · , λr de lACP (Y, D, M). Les axes principaux de l’ACP (t Y, M, D) correspondant aux valeurs propres λ1 , · · · , λr sont les facteurs principaux f 1 , · · · , f r de l’ACP (Y, D, M). t Les √ composantes √ principales de l’ACP ( Y, M, D) sont λ1 u1 , · · · , λr ur . Autrement dit, les facteurs principaux de l’ACP (t Y, M, D) sont les axes principaux u1 , · · · , ur de l’ACP (Y, D, M) correspondant aux valeurs propres non-nulles.
Proof.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
52 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Section 7 Les représentations graphiques
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
53 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des individus I
Rappelons qu’un des but de l’ACP est de fournir une représentation graphique du nuage des individus dans un espace de dimension k < p, typiquement 2 ou 3. On sait maintenant que la “meilleure” représentation graphique, au sens de l’inertie est donnée par la projection de nuage sur le sous-espace principal Ek
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
54 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des individus II Qualité de la représentation : Elle est mesurée par le pourcentage d’inertie expliquée par Ek IEk λ1 + · · · + λk Pp . = I j=1 λj Plus cette quantité est proche de 1, moins le nuage projeté est déformé. Qualité de représentation d’un individu i j 2 k kPEk yi k2M j=1 (ci ) cos (yi , PEk yi ) = = Pp j 2 kyi k2M j=1 (ci )
P
2
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
55 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des individus III
L’individu est d’autant bien représenté que cette quantité est proche de 1. Dans ce cas, les conclusions qu’on peut en tirer sont d’autant pertinentes.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
56 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des individus IV Contribution d’un individu i à un axe uk ωi (cik )2 ωi (cik )2 = ωi (fi k )2 . =P k )2 λk ω (c i i i ωi (cik )2 > ωi , on considère que la λk contribution de l’individu i est importante.
En général, lorsque
Il est conseillé de retirer les individus pour lesquels les contributions sont trop importantes, et de les réintégrer comme individus supplémentaires Les “outliers” peuvent être détectés sur les boîtes à moustaches des composantes principales c 1 , · · · , c p ou des facteurs principaux f 1, · · · , f p .
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
57 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des individus V
Contribution d’un individu i ωi ωi kyi k2M = I
W. Toussile [email protected] (ENSP)
Pp
k 2 k=1 (ci )
I
Data Mining
=
ωi
Pp
(c k )2 Pk=1 i k
λk
20/07/2020
58 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des individus VI
Individus supplémentaires Il s’agit des individus qui ne font pas partie de l’échantillon ayant servi pour l’ACP, et qu’on représente sur les axes principaux. Soit x ∈ Rp les données d’un individu supplémentaire. Ses coordonnées dans le repère (x , u1 , · · · , up ) sont données par
W. Toussile [email protected] (ENSP)
hx − x , uk iM .
Data Mining
20/07/2020
59 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des variables I Rappelons que les axes principaux de l’espace des variables sont les facteurs principaux f j , j = 1, · · · , r : PF k y j =
r X
hy j , f k iD · f k =
k=1
r X
cov y j , f k · f k =
k=1
r p X
λk ukj .
k=1
Qualité globale de représentation sur ∆f k : Pk
j=1 λj
Pp
j=1 λj
.
Qualité de représentation d’une variable :
cos2 y j , Pf k yi = car d k =
hy j , f k i2D kPf k y j k2D 2 j k 2 = = cor y , f = cor yj, c ky j k2D sj2
√1 c k . λk
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
60 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Représentation des variables II
Par exemple, la qualité de représentation sur le premier plan principal F2 est
cos2 y j , PF2 y j = cor 2 y j , c 1 + cor 2 y j , c 2
y j est d’autant bien représentée que cos2 y j , PF2 y j est proche de 1
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
61 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Cercle des corrélations I On suppose ici que M = diag
1 sj2
!
. j
Considérons les données centrées et réduites D. Rappelons que l’ACP (Y, D, M) correspond à ACP (Z , D, Id). Ainsi var z j = kz j k2Id = 1, toutes les variable se trouvent sur la sphère unité Sn de Rn .
L’intersection de cette sphère unité et le premier plan principal est dons un cercle unité appelé cercle des corrélations PF2 z j est un point à l’intérieur du cercle des corrélations, et la représentation est d’autant meilleure que PF2 z j est proche du cercle des corrélations.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
62 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Cercle des corrélations II
Note : 0
I
La proximité des projections de z j et z j une forte corrélation linéaire
I
Des projections diamétralement opposés indiquent une corrélation négative proche de −1
I
Des projections presque orthogonales indiquent une faible corrélation
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
63 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Reconstitution des données I À partir de la décomposition des yi dans la base des vecteurs propres u1 , · · · , up , on a yi =
Xq
λj fi j uj
X j
ci uj =
j
j
On en déduit la formule de reconstitution: Y=
r q X
λj f j t uj .
j=1
e k = Pk pλj f j t uj . Pour une dimension k fixé, posons Y j=1
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
64 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Reconstitution des données II e k de dimension n × p est de rang k. La matrice Y e k est la meilleure approximation de Y par une On montre que Y matrice de rang k au sens des “moindres carrés” : n
e k k2 = inf kY − Tk2 | T matrice n × p de rang k kY − Y M,D
où
kTkM,D := sup
W. Toussile [email protected] (ENSP)
v ∈Rp
Data Mining
kTv kD kv kM
o
.
20/07/2020
65 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Section 8 Pratique de l’ACP
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
66 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Nombre d’axes à retenir
Pb : Combien d’axes principaux retenir? De nombreux critères du nombre k ont été proposé dont les plus courants sont : I
I
I
o nP k La part d’inertie : kb = arg mink j=1 λj ≥ λseuil n o P La règle de Kaiser : kb = arg mink λk ≥ p1 j λj = pI Éboulis des valeurs propres : Sélectionner la plus grande valeur kb avant le “coude” dans le graphique des (j, λj ) présentant la décroissance des valeurs propres.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
67 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Interprétation I Carte des variables ou des individus Donner le pourcentage d’inertie expliqué par le plan et chacun des axes Indiquer les variables et individus mal représentés dans ce plan, pour les exclure de la description Utiliser les contributions : I
Des variables pour interpréter les axes en termes de variables de départ
I
Des individus pour identifier les plus influents pour l’orientation d’un axe et ceux qui ont une contribution excessive
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
68 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Interprétation II Pour une carte des variables : étudier les angles entre les projections des variables en termes de covariance ou de corrélation pour dégager éventuellement des groupes de variables. Pour les cartes des individus : étudier les proximités ou oppositions entre les points en termes de “comportement”, et dégager éventuellement des groupes d’individus et les comportement singuliers. Faire une synthèse des informations et hypothèses principales dégagées de la carte décrite.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
69 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Récapitulatif
Espace Données Poids
Individus Rp Y D = diag (ω i )
Variables Rn tY M
Métrique
M = diag
D
À diagonaliser Valeurs propres Axes principaux CP FP
VM = t YDYM λ1 ≥ λ2 ≥ · · · ≥ λr > 0 u1 , · · · , up c j = YMuj k f 1 , · · · , f k = √cλ k 2 (cik ) ωi λk
Contribution de yi
W. Toussile [email protected] (ENSP)
1 sj2
Data Mining
YMt YD λ1 ≥ λ2 ≥ · · · ≥ λr > 0 f 1, · · · , f p cek = t YDf k u1 , · · · , ur
20/07/2020
70 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
W. Toussile [email protected] (ENSP)
Section 9 Exemples
Data Mining
20/07/2020
71 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” I require(dplyr) ?iris iris %>% head() Sepal.Length
Sepal.Width
Petal.Length
Petal.Width
5.1 4.9 4.7 4.6 5.0 5.4
3.5 3.0 3.2 3.1 3.6 3.9
1.4 1.4 1.3 1.5 1.4 1.7
0.2 0.2 0.2 0.2 0.2 0.4
W. Toussile [email protected] (ENSP)
Data Mining
Species setosa setosa setosa setosa setosa setosa
20/07/2020
72 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” II require(FactoMineR) require(factoextra) acp_iris = PCA(iris, scale.unit = TRUE, ncp = 4, quali.sup = 5, graph = FALSE) names(acp_iris) # Le contenu ## [1] "eig"
"var"
"ind"
"svd"
"qual
as.data.frame(acp_iris$eig) # Les valeurs propres
comp comp comp comp
1 2 3 4
eigenvalue
percentage of variance
cumulative percentage of v
2.9184978 0.9140305 0.1467569 0.0207148
72.9624454 22.8507618 3.6689219 0.5178709
72 95 99 100
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
73 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” III Percentage of explained variances
# Éboulis des valeurs propres fviz_screeplot(acp_iris, ncp = 4) + theme_bw()
Scree plot 60 40 20 0
W. Toussile [email protected] (ENSP)
1
2
3
4
Dimensions
Data Mining
20/07/2020
74 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” IV
# Représentation des individus fviz_pca_ind(acp_iris, geom = "point", axes = c(1, 2), habillage = iris$Species, addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
75 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” V Individuals − PCA
Dim2 (22.9%)
2
Groups
1
setosa 0
versicolor
−1
virginica
−2 −2
0
2
Dim1 (73%)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
76 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” VI
# Représentation des variables plot.PCA(acp_iris, choix = "var")
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
77 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” VII Dim 2 (22.85%)
PCA graph of variables 1.0
Sepal.Width
0.5
Sepal.Length Petal.Width
0.0
Petal.Length
−0.5 −1.0
W. Toussile [email protected] (ENSP)
−1.0
−0.5
0.0
0.5
1.0
Dim 1 (72.96%)
Data Mining
20/07/2020
78 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” VIII
Détection des "outliers" boxplot.matrix(acp_iris$ind$coord)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
79 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
−3 0
3
“iris” IX
W. Toussile [email protected] (ENSP)
Dim.1
Dim.3
Data Mining
20/07/2020
80 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” X
−2
1
b = boxplot(acp_iris$ind$coord[, 2])
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
81 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” XI
i_outliers = as.numeric(names(b$out))
acp_iris2 = PCA(iris, scale.unit = TRUE, ind.sup = i_outlier ncp = 4, quali.sup = 5, graph = FALSE)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
82 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” XII
# Représentation des individus fviz_pca_ind(acp_iris2, geom = "point", axes = c(1, 2), habillage = iris$Species[-i_outliers], addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
83 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” XIII Individuals − PCA 3
Dim2 (21%)
2
Groups 1 setosa 0
versicolor
−1
virginica
−2 −3 −2
0
2
Dim1 (74.6%)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
84 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” XIV
# Représentation des variables plot.PCA(acp_iris2, choix = "var") #ou
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
85 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” XV Dim 2 (20.98%)
PCA graph of variables 1.0
Sepal.Width 0.5
Sepal.Length Petal.Width
0.0
Petal.Length
−0.5 −1.0 −1.0
−0.5
0.0
0.5
1.0
Dim 1 (74.64%)
#fviz_pca_var(acp_iris, col.var="steelblue")+theme_minimal()
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
86 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” XVI
# Biplot fviz_pca_biplot(acp_iris2, label = "var", axes = c(1, 2), habillage = iris$Species[-i_outliers], addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
87 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“iris” XVII PCA − Biplot
Sepal.Width 16 3
132 118
Dim2 (21%)
2
Sepal.Length
Groups Petal.Width setosa Petal.Length
1 0
versicolor
−1
virginica
−2
61 −3 −2
0
2
Dim1 (74.6%)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
88 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“decathlon” I Il s’agit d’un jeu de données décrivant les scores des 10 épreuves du décathlon de n = 41 athlètes. En plus de ces p = 10 scores, on a aussi le total des points, le rank et la compétition. Nous souhaitons découvrir les relations entres les scores des différentes épreuves. require(FactoMineR) require(factoextra) require(dplyr) data("decathlon") dim(decathlon) names(decathlon)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
89 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“decathlon” II L’ACP fit_acp = PCA(decathelon, scale.unit = TRUE, ncp = 5, quanti.sup = 11:12, quali.sup = 13, graph = FALSE) names(fit_acp) # Le contenu fit_acp$eig # Les valeurs propres # Éboulis des valeurs propres fviz_screeplot(fit_acp, ncp = 10) + theme_bw()
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
90 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“decathlon” III
Représentations graphiques
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
91 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
“decathlon” IV # Représentation des individus fviz_pca_ind(fit_acp, geom = "text", axes = c(1, 2), habillage = decathlon$Competition, addEllipses = TRUE, ellipse.level = 0.95) + theme_classic() # Représentation des individus fviz_pca_var(fit_acp, col.var="steelblue")+ theme_minimal()
# Biplot fviz_pca_biplot(fit_acp, label = "var", habillage = decathlon$Competition, addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
92 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
W. Toussile [email protected] (ENSP)
Section 10 Références
Data Mining
20/07/2020
93 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Biblio
Practical Guide To Principal Component Methods in R (Kassambara 2017)
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
94 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Références
Cornillon, Pierre-André, Arnaud Guyader, François Husson, Nicolas Jégou, Julie Josse, Maela Kloareg, Eric Matzner-Løber, and Laurent Rouviere. 2008. Statistique avec R. Presses Universitaires de Rennes. https://hal.archives-ouvertes.fr/hal-00382106. Kassambara, Alboukadel. 2017. Practical Guide to Principal Component Methods in R: PCA, M (ca), Famd, Mfa, Hcpc, Factoextra. Vol. 2. STHDA.
W. Toussile [email protected] (ENSP)
Data Mining
20/07/2020
95 / 94