Data Mining Acp-1 PDF [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Data Mining Analyse en Composantes Principales

W. Toussile [email protected] 1 Département MSP École Nationale Supérieure Polytechnique

W. Toussile [email protected] (ENSP)

20/07/2020

Data Mining

20/07/2020

1 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

1

Notions de base

2

Espace métrique des individus et inerties

3

Espace métrique des variables

4

Analyse en Composante Principales

5

ACP dans l’espace des variables

6

Les représentations graphiques

7

Pratique de l’ACP

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

2 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

W. Toussile [email protected] (ENSP)

Section 1 Introduction

Data Mining

20/07/2020

3 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Introduction

L’ACP fait partie des méthodes exploratoires multidimensionnelles dites factorielles, qui sont géométriques et non probabilistes. L’ACP permet de réduire la dimension de représentation des données numériques, en déformant le moins possible la réalité De telles méthodes servent à comprendre la structure des données et à formuler des hypothèses à étudier à l’aide d’outils de statistique inférentielle.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

4 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Les données Elles se présentent sous la forme d’une matrice X de dimensions n × p:  

X = xij

1≤i≤n;1≤j≤p

,

(1)

où xij ∈ R est l’observation de la variable X j sur l’individu i, n la taille de l’échantillon et p le nombre de variables. Données de l’individu i :  1 xi  ..  xi =  .  ∈ Rp

xip

Données de la variable j :

W. Toussile [email protected] (ENSP)

 j x  .1  j n  x =  ..  ∈ R

xnj

Data Mining

20/07/2020

5 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Les objectifs Les espaces des individus et des variables sont en général de grande dimension (p ≥ 3 ou n ≥ 3), rendant difficile toute représentation des nuages (individus ou variables) dans le plan. L’ objectif de l’ACP est de I

Condenser l’information contenu dans le tableau (de grandes dimensions) par une analyse des corrélations linéaires entre les variables et une visualisation graphique des distances entre les individus;

I

Dégager les liaisons entre variables et les ressemblances entre individus;

L’idée générale de l’ACP est de trouver un système d’axes orthogonaux dans un espace de plus petite dimension (par exemple 2) dans lequel le nuage projeté est de plus grande variance, correspondant ainsi à une perte minimale d’information.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

6 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple (Cornillon et al. 2008) I Le fichier decathlon.csv contient les résultats d’athlètes aux 10 épreuves de décathlon. Ce jeu de données se trouve aussi dans le package factoextra. On souhaite I

Analyser les liaisons entre les performances aux différentes épreuves

I

Savoir si certaines épreuves se “ressemblent”

I

Déterminer des profils d’athlètes

I

On se doute par exemple que les performances au 100m, 110mhaies et saut en longueur soient corrélées. Est-il utile de garder les données des trois épreuves, ou d’en fabriquer une variable qui “résume” ces trois?

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

7 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple (Cornillon et al. 2008) II Sous R # Se trouve dans le package factoextra require(factoextra) require(dplyr) # 1eres lignes decathlon2 %>% head() # Les dimensions du tableau dim(decathlon2)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

8 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple (Cornillon et al. 2008) III

Sous Python import pandas as pd decathlon = pd.read_csv("decathlon.csv", sep=";", index_col = 0) print("Dimensions = ".format(decathlon.shape)) decathlon.head()

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

9 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 2 Notions de base

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

10 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Quelques définitions I Soit (ei )i la base canonique de Rp . Alors x j = X · ej Definition (Centre de gravité) Le centre de gravité du nuage des individus affectés des poids (ωi )ni=1 ∈ Sn est le point x = (x j )j =

X

ωi xi = t XD1n ∈ Rp

i

ωi > 0 et

P

i

ωi = 1 et en général, ωi =

1 n

Matrice des poids : D = diag(ω1 , · · · , ωn )

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

11 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Quelques définitions II Nuage des individus : I := {(xi , ωi )}i Données centrées : Y := (xij − x j )i,j = X − 1n t x Matrice des covariances empiriques : V = t XDX − x t x = t YDY avec [V]j,j 0 =

P

i

0

0

ωi (xij − x j )(xij − x j )

Remarque : I I

y = 0Rp kxi − xi 0 k2 = kyi − yi 0 k2

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

12 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Quelques définitions III Données centrées et réduites : Z :=

xij − x j sj

!

, où sj2 := i,j

X

ωi (xij − x j )2

i

Si on pose S−1 = diag( s1j )j , on a Z = YS−1 . Matrice des corrélations empiriques : R = S−1 VS−1 = S−1t YDYS−1 = t ZDZ Note : R est la matrice des covariances des données centrées-réduites, elle résume la structure des dépendances linéaires entre les p variables Xj

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

13 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple I Sous R X = decathlon2[, 1:10] Y = scale(X, scale = FALSE) n = nrow(X) D = diag(rep(1/n, n)) S_1 = diag(1/sqrt(diag(V))) Z = Y%*%S_1 V = t(Y)%*%D%*%Y # Covariances R = t(Z)%*%D%*%Z # Corrélations M = diag(1/diag(V))

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

14 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple II Sous Python import sklearn from sklearn.preprocessing import StandardScaler X Y Z n D M

= = = = = =

decathlon.iloc[:, 0:10] StandardScaler(with_std = False).fit_transform(X) StandardScaler(with_std = True).fit_transform(X) X.shape[0] (1/n)*np.diag(np.ones(n)) np.diag(1/X.std())

V = Y.T.dot(D).dot(Y) R = Z.T.dot(D).dot(Y)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

15 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 3 Espace métrique des individus et inerties

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

16 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espace métrique des individus I Il est nécessaire de munir l’espace des individus d’une mesure de “proximité”. Quelle distance choisir? La distance euclidienne n’est pas forcément le plus adaptée, surtout lorsque les variables n’ont pas le même ordre de grandeur d 2 (xi , xi 0 ) =

X

(xij − xij0 )2 = t (xi − xi 0 )(xi − xi 0 ) =: kxi − xi 0 k2I

j

En général, on utilise une distance de la forme 2 (xi , xi 0 ) := t (xi − xi 0 )M(xi − xi 0 ) =: kxi − xi 0 k2M dM

où M est une matrice symétrique définie positive choisie de sorte à donner la même importance aux variables Remarque : d 2 = dI2

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

17 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espace métrique des individus II On choisit très souvent M = S−2 = diag(

1 )j sj2

I

Ce choix revient à réduire chaque variable

I

La distance associée donne la même importance à toutes variables, au regard de leur dispersion

Remarque : dS2−2 (xi , xi 0 ) = dS2−2 (yi , yi 0 ) = d 2 (zi , zi 0 )

Ainsi, le choix de dS−2 consiste en celui de la distance euclidienne sur les données centrées réduites Z = (X − 1n t x )S−1

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

18 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus I Considérons un nuage des individus pondérés I = {(xi , ωi )}i et une distance dM Inertie totale : It =

X

2 ωi dM (xi , x ) =

i

I

X

ωi kxi − x k2M =

i

X

ωi kyi k2M

i

It mesure la dispersion du nuage des individus autour du centre de gravité x

Proposition It =

W. Toussile [email protected] (ENSP)

1 XX ωi ωi 0 kxi − xi 0 k2M . 2 i i0

Data Mining

20/07/2020

19 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus II

1 XX ωi ωi 0 kxi − xi 0 k2M 2 i i0

W. Toussile [email protected] (ENSP)

1 XX ωi ωi 0 kxi − x + x − xi 0 k2M 2 i i0 = ... =

Data Mining

20/07/2020

20 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus III Expression matricielle de l’inertie Proposition It = tr (MV ) = tr (VM) . Proof. It

=

X

ωi kyi k2M =

X

i

ωi



yi Myi =

i

X

ωi yi t yi

X

ωi tr yi t yi M



i

!

= tr

t

!

M

= tr (VM) = tr (MV ) .

i

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

21 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus IV

Rappels

tr (AB) = tr (BA) tr (A + B) = tr (A) + tr (B) tr (αA) = αtr (A) .

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

22 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus V Sous R my.norm λ2 > · · · > λr > 0 = λr +1 = · · · = λp , où r = rg (Y). Les axes principaux uj , vecteurs propres associés aux λj qui forment une base M-orthonormale de Rp : t

YDYMuj = λj uj , t uj Muj 0 = δj,j 0 .

Les composantes principales c j = t YMuj si j ≤ r et c j = 0 si j >r 1 Les facteurs principaux f j = p c j pour j ≤ r λj

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

47 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Résumé d’une ACP normée III

Sous R require(FactoMineR) out_pca = PCA(X, scale.unit = TRUE, ncp = ncol(X)) out_pca$eig # Valeurs propres summary(out_pca)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

48 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Résumé d’une ACP normée IV

Sous Python import numpy as np from sklearn.decomposition import PCA pca = PCA(n_components = 10) pca.fit(X) dir(pca)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

49 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 6 ACP dans l’espace des variables

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

50 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Le problème On s’intéresse au nuage y j dans Rn 

Objectif : Trouver les sous-espaces principaux Fk qui conservent au mieux l’information liée à l’inertie contenu dans le nuage y j j . Les besoins : I I I

Les données t Y (matrice p × n) Une métrique sur Rn ; en général on choisit D= diag (ωi )i Une matrice des poids; en général M = diag s12 j

On fait alors l’ACP (t Y, M, D)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

51 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

ACP (t Y, M, D) Proposition 1

2

3

Les valeurs propres non nulles de l’ACP (t Y, M, D) sont les valeurs propres non nulles λ1 , · · · , λr de lACP (Y, D, M). Les axes principaux de l’ACP (t Y, M, D) correspondant aux valeurs propres λ1 , · · · , λr sont les facteurs principaux f 1 , · · · , f r de l’ACP (Y, D, M). t Les √ composantes √ principales de l’ACP ( Y, M, D) sont λ1 u1 , · · · , λr ur . Autrement dit, les facteurs principaux de l’ACP (t Y, M, D) sont les axes principaux u1 , · · · , ur de l’ACP (Y, D, M) correspondant aux valeurs propres non-nulles.

Proof.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

52 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 7 Les représentations graphiques

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

53 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus I

Rappelons qu’un des but de l’ACP est de fournir une représentation graphique du nuage des individus dans un espace de dimension k < p, typiquement 2 ou 3. On sait maintenant que la “meilleure” représentation graphique, au sens de l’inertie est donnée par la projection de nuage sur le sous-espace principal Ek

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

54 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus II Qualité de la représentation : Elle est mesurée par le pourcentage d’inertie expliquée par Ek IEk λ1 + · · · + λk Pp . = I j=1 λj Plus cette quantité est proche de 1, moins le nuage projeté est déformé. Qualité de représentation d’un individu i j 2 k kPEk yi k2M j=1 (ci ) cos (yi , PEk yi ) = = Pp j 2 kyi k2M j=1 (ci )

P

2

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

55 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus III

L’individu est d’autant bien représenté que cette quantité est proche de 1. Dans ce cas, les conclusions qu’on peut en tirer sont d’autant pertinentes.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

56 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus IV Contribution d’un individu i à un axe uk ωi (cik )2 ωi (cik )2 = ωi (fi k )2 . =P k )2 λk ω (c i i i ωi (cik )2 > ωi , on considère que la λk contribution de l’individu i est importante.

En général, lorsque

Il est conseillé de retirer les individus pour lesquels les contributions sont trop importantes, et de les réintégrer comme individus supplémentaires Les “outliers” peuvent être détectés sur les boîtes à moustaches des composantes principales c 1 , · · · , c p ou des facteurs principaux f 1, · · · , f p .

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

57 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus V

Contribution d’un individu i ωi ωi kyi k2M = I

W. Toussile [email protected] (ENSP)

Pp

k 2 k=1 (ci )

I

Data Mining

=

ωi

Pp

(c k )2 Pk=1 i k

λk

20/07/2020

58 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus VI

Individus supplémentaires Il s’agit des individus qui ne font pas partie de l’échantillon ayant servi pour l’ACP, et qu’on représente sur les axes principaux. Soit x ∈ Rp les données d’un individu supplémentaire. Ses coordonnées dans le repère (x , u1 , · · · , up ) sont données par

W. Toussile [email protected] (ENSP)

hx − x , uk iM .

Data Mining

20/07/2020

59 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des variables I Rappelons que les axes principaux de l’espace des variables sont les facteurs principaux f j , j = 1, · · · , r : PF k y j =

r X

hy j , f k iD · f k =

k=1

r X





cov y j , f k · f k =

k=1

r p X

λk ukj .

k=1

Qualité globale de représentation sur ∆f k : Pk

j=1 λj

Pp

j=1 λj

.

Qualité de représentation d’une variable : 



cos2 y j , Pf k yi = car d k =

   hy j , f k i2D kPf k y j k2D 2 j k 2 = = cor y , f = cor yj, c ky j k2D sj2

√1 c k . λk

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

60 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des variables II

Par exemple, la qualité de représentation sur le premier plan principal F2 est 









cos2 y j , PF2 y j = cor 2 y j , c 1 + cor 2 y j , c 2



y j est d’autant bien représentée que cos2 y j , PF2 y j est proche de 1

W. Toussile [email protected] (ENSP)



Data Mining

20/07/2020

61 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Cercle des corrélations I On suppose ici que M = diag

1 sj2

!

. j

Considérons les données centrées et réduites D. Rappelons que l’ACP (Y, D, M) correspond à ACP (Z , D, Id). Ainsi var z j = kz j k2Id = 1, toutes les variable se trouvent sur la sphère unité Sn de Rn . 

L’intersection de cette sphère unité et le premier plan principal est dons un cercle unité appelé cercle des corrélations PF2 z j est un point à l’intérieur du cercle des corrélations, et la représentation est d’autant meilleure que PF2 z j est proche du cercle des corrélations.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

62 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Cercle des corrélations II

Note : 0

I

La proximité des projections de z j et z j une forte corrélation linéaire

I

Des projections diamétralement opposés indiquent une corrélation négative proche de −1

I

Des projections presque orthogonales indiquent une faible corrélation

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

63 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Reconstitution des données I À partir de la décomposition des yi dans la base des vecteurs propres u1 , · · · , up , on a yi =

Xq

λj fi j uj

X j

ci uj =

j

j

On en déduit la formule de reconstitution: Y=

r q X

λj f j t uj .

j=1

e k = Pk pλj f j t uj . Pour une dimension k fixé, posons Y j=1

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

64 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Reconstitution des données II e k de dimension n × p est de rang k. La matrice Y e k est la meilleure approximation de Y par une On montre que Y matrice de rang k au sens des “moindres carrés” : n

e k k2 = inf kY − Tk2 | T matrice n × p de rang k kY − Y M,D

où 

kTkM,D := sup

W. Toussile [email protected] (ENSP)

v ∈Rp

Data Mining

kTv kD kv kM

o



.

20/07/2020

65 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 8 Pratique de l’ACP

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

66 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Nombre d’axes à retenir

Pb : Combien d’axes principaux retenir? De nombreux critères du nombre k ont été proposé dont les plus courants sont : I

I

I

o nP k La part d’inertie : kb = arg mink j=1 λj ≥ λseuil n o P La règle de Kaiser : kb = arg mink λk ≥ p1 j λj = pI Éboulis des valeurs propres : Sélectionner la plus grande valeur kb avant le “coude” dans le graphique des (j, λj ) présentant la décroissance des valeurs propres.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

67 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Interprétation I Carte des variables ou des individus Donner le pourcentage d’inertie expliqué par le plan et chacun des axes Indiquer les variables et individus mal représentés dans ce plan, pour les exclure de la description Utiliser les contributions : I

Des variables pour interpréter les axes en termes de variables de départ

I

Des individus pour identifier les plus influents pour l’orientation d’un axe et ceux qui ont une contribution excessive

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

68 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Interprétation II Pour une carte des variables : étudier les angles entre les projections des variables en termes de covariance ou de corrélation pour dégager éventuellement des groupes de variables. Pour les cartes des individus : étudier les proximités ou oppositions entre les points en termes de “comportement”, et dégager éventuellement des groupes d’individus et les comportement singuliers. Faire une synthèse des informations et hypothèses principales dégagées de la carte décrite.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

69 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Récapitulatif

Espace Données Poids

Individus Rp Y D = diag (ω  i )

Variables Rn tY M

Métrique

M = diag

D

À diagonaliser Valeurs propres Axes principaux CP FP

VM = t YDYM λ1 ≥ λ2 ≥ · · · ≥ λr > 0 u1 , · · · , up c j = YMuj k f 1 , · · · , f k = √cλ k 2 (cik ) ωi λk

Contribution de yi

W. Toussile [email protected] (ENSP)

1 sj2

Data Mining

YMt YD λ1 ≥ λ2 ≥ · · · ≥ λr > 0 f 1, · · · , f p cek = t YDf k u1 , · · · , ur

20/07/2020

70 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

W. Toussile [email protected] (ENSP)

Section 9 Exemples

Data Mining

20/07/2020

71 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” I require(dplyr) ?iris iris %>% head() Sepal.Length

Sepal.Width

Petal.Length

Petal.Width

5.1 4.9 4.7 4.6 5.0 5.4

3.5 3.0 3.2 3.1 3.6 3.9

1.4 1.4 1.3 1.5 1.4 1.7

0.2 0.2 0.2 0.2 0.2 0.4

W. Toussile [email protected] (ENSP)

Data Mining

Species setosa setosa setosa setosa setosa setosa

20/07/2020

72 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” II require(FactoMineR) require(factoextra) acp_iris = PCA(iris, scale.unit = TRUE, ncp = 4, quali.sup = 5, graph = FALSE) names(acp_iris) # Le contenu ## [1] "eig"

"var"

"ind"

"svd"

"qual

as.data.frame(acp_iris$eig) # Les valeurs propres

comp comp comp comp

1 2 3 4

eigenvalue

percentage of variance

cumulative percentage of v

2.9184978 0.9140305 0.1467569 0.0207148

72.9624454 22.8507618 3.6689219 0.5178709

72 95 99 100

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

73 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” III Percentage of explained variances

# Éboulis des valeurs propres fviz_screeplot(acp_iris, ncp = 4) + theme_bw()

Scree plot 60 40 20 0

W. Toussile [email protected] (ENSP)

1

2

3

4

Dimensions

Data Mining

20/07/2020

74 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” IV

# Représentation des individus fviz_pca_ind(acp_iris, geom = "point", axes = c(1, 2), habillage = iris$Species, addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

75 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” V Individuals − PCA

Dim2 (22.9%)

2

Groups

1

setosa 0

versicolor

−1

virginica

−2 −2

0

2

Dim1 (73%)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

76 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” VI

# Représentation des variables plot.PCA(acp_iris, choix = "var")

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

77 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” VII Dim 2 (22.85%)

PCA graph of variables 1.0

Sepal.Width

0.5

Sepal.Length Petal.Width

0.0

Petal.Length

−0.5 −1.0

W. Toussile [email protected] (ENSP)

−1.0

−0.5

0.0

0.5

1.0

Dim 1 (72.96%)

Data Mining

20/07/2020

78 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” VIII

Détection des "outliers" boxplot.matrix(acp_iris$ind$coord)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

79 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

−3 0

3

“iris” IX

W. Toussile [email protected] (ENSP)

Dim.1

Dim.3

Data Mining

20/07/2020

80 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” X

−2

1

b = boxplot(acp_iris$ind$coord[, 2])

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

81 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XI

i_outliers = as.numeric(names(b$out))

acp_iris2 = PCA(iris, scale.unit = TRUE, ind.sup = i_outlier ncp = 4, quali.sup = 5, graph = FALSE)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

82 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XII

# Représentation des individus fviz_pca_ind(acp_iris2, geom = "point", axes = c(1, 2), habillage = iris$Species[-i_outliers], addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

83 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XIII Individuals − PCA 3

Dim2 (21%)

2

Groups 1 setosa 0

versicolor

−1

virginica

−2 −3 −2

0

2

Dim1 (74.6%)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

84 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XIV

# Représentation des variables plot.PCA(acp_iris2, choix = "var") #ou

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

85 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XV Dim 2 (20.98%)

PCA graph of variables 1.0

Sepal.Width 0.5

Sepal.Length Petal.Width

0.0

Petal.Length

−0.5 −1.0 −1.0

−0.5

0.0

0.5

1.0

Dim 1 (74.64%)

#fviz_pca_var(acp_iris, col.var="steelblue")+theme_minimal()

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

86 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XVI

# Biplot fviz_pca_biplot(acp_iris2, label = "var", axes = c(1, 2), habillage = iris$Species[-i_outliers], addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

87 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XVII PCA − Biplot

Sepal.Width 16 3

132 118

Dim2 (21%)

2

Sepal.Length

Groups Petal.Width setosa Petal.Length

1 0

versicolor

−1

virginica

−2

61 −3 −2

0

2

Dim1 (74.6%)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

88 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” I Il s’agit d’un jeu de données décrivant les scores des 10 épreuves du décathlon de n = 41 athlètes. En plus de ces p = 10 scores, on a aussi le total des points, le rank et la compétition. Nous souhaitons découvrir les relations entres les scores des différentes épreuves. require(FactoMineR) require(factoextra) require(dplyr) data("decathlon") dim(decathlon) names(decathlon)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

89 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” II L’ACP fit_acp = PCA(decathelon, scale.unit = TRUE, ncp = 5, quanti.sup = 11:12, quali.sup = 13, graph = FALSE) names(fit_acp) # Le contenu fit_acp$eig # Les valeurs propres # Éboulis des valeurs propres fviz_screeplot(fit_acp, ncp = 10) + theme_bw()

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

90 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” III

Représentations graphiques

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

91 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” IV # Représentation des individus fviz_pca_ind(fit_acp, geom = "text", axes = c(1, 2), habillage = decathlon$Competition, addEllipses = TRUE, ellipse.level = 0.95) + theme_classic() # Représentation des individus fviz_pca_var(fit_acp, col.var="steelblue")+ theme_minimal()

# Biplot fviz_pca_biplot(fit_acp, label = "var", habillage = decathlon$Competition, addEllipses = TRUE, ellipse.level = 0.95) + theme_classic()

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

92 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

W. Toussile [email protected] (ENSP)

Section 10 Références

Data Mining

20/07/2020

93 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Biblio

Practical Guide To Principal Component Methods in R (Kassambara 2017)

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

94 / 94

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Références

Cornillon, Pierre-André, Arnaud Guyader, François Husson, Nicolas Jégou, Julie Josse, Maela Kloareg, Eric Matzner-Løber, and Laurent Rouviere. 2008. Statistique avec R. Presses Universitaires de Rennes. https://hal.archives-ouvertes.fr/hal-00382106. Kassambara, Alboukadel. 2017. Practical Guide to Principal Component Methods in R: PCA, M (ca), Famd, Mfa, Hcpc, Factoextra. Vol. 2. STHDA.

W. Toussile [email protected] (ENSP)

Data Mining

20/07/2020

95 / 94