Regression Lineaire Multiple Printable [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

. .

R´egression lin´eaire multiple Micha¨el Genin Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]

Plan

1.

Introduction `a l’´etude de deux variables quantitatives

2.

Coefficient de corr´elation (Rappels)

3.

R´egression lin´eaire simple (Rappels)

4.

R´egression lin´eaire multiple

5.

R´ef´erences

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

1 / 91

Introduction ` a l’´ etude de deux variables quantitatives

Introduction Croisement de deux variables quantitatives ˆ age et fr´equence cardiaque Consommation et poids d’un v´ehicule Capacit´e d’´epargne et revenus

Etude du lien entre ces deux variables Repr´esentation graphique Indicateur statistique (Coefficient de corr´elation) Mod`ele de pr´ediction (R´egression lin´eaire)

Notations On consid`ere n individus sur lesquels on mesure X et Y deux variables quantitatives. Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi ) qui repr´esente les valeurs prises par X et Y pour l’individu i. Remarque : les slides suivantes sont uniquement des rappels sur les principes de corr´elation et de r´egression lin´eaire simple et ne constituent en aucun cas un cours ! → Lien cours complet ← Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

3 / 91

Introduction ` a l’´ etude de deux variables quantitatives

1`ere ´ etape Repr´esentation graphique Graphique pour repr´esenter deux variables quantitatives ⇒ nuage de points 1`ere ´etape de toute analyse de liaison : appr´ecier la forme de la relation entre les deux variables

−500







● ●

−2000

● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●

0

20

40

X

liaison lin´eaire

Micha¨ el Genin (Universit´ e de Lille 2)

60

● ● ●



0







● ● ●●

● ●

●● ● ●



●● ● ●●









● ●



● ● ● ●

● ●●

● ●

● ● ● ● ●● ● ● ● ●



● ●





● ●

●●●



● ●



●● ● ●



● ● ● ●

● ●

●●

● ●

●●

● ●







● ● ●



● ● ● ● ● ● ● ●

● ● ●

● ●

●● ●



● ●

● ● ● ● ● ●



−2

● ●







● ● ●● ●●



−3000 −20











−50

−40

●● ● ● ●





●● ●

−60

● ● ● ● ● ● ● ● ● ● ●● ●



● ●







● ● ●● ● ● ● ●

● ● ●

● ● ● ● ●● ●● ●● ● ●









● ●



● ● ●

●● ●



●●



● ●





● ●

●●



Y





● ●

● ●



● ●

● ●





−1

● ●● ● ●● ●

−1500

Y

−1000









1

● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●

● ●● ● ●● ● ● ●● ●



● ●



−2500

0

Y

50

● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●●● ● ●● ●● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ●● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ●● ● ●● ● ●●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●

● ●● ● ● ●● ● ●● ● ●●● ●●●● ●●●●●● ●●●● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●●

2

0



● ●● ● ●●● ● ● ● ●●● ● ●● ●●●● ●●●● ● ●





−3



−60

−40

−20

0

20

40

60

X

liaison polynomiale

R´ egression lin´ eaire multiple

−40

−20

0

20

40

X

pas de liaison

Version - 19 f´ evrier 2015

4 / 91

Coefficient de corr´ elation (Rappels)

D´ efinition

Coefficient de corr´elation lin´eaire Coefficient de corr´ elation th´ eorique . ρXY =

.

σXY ∈ [−1; 1] σX σY

Coefficient de corr´ elation de Bravais-Pearson ρ est estim´e par . r= .

Micha¨ el Genin (Universit´ e de Lille 2)

∑n (xi − x¯)(yi − y¯ ) sxy = √∑ i=1 ∑n n sx sy ¯)2 i=1 (yi − y¯ )2 i=1 (xi − x

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

7 / 91

Coefficient de corr´ elation (Rappels)

Test du coefficient de corr´ elation

Test de la significativit´e de ρ Principe du test : Test de la nullit´e du coefficient de corr´elation. Si ρ = 0 alors il n’y a pas de liaison lin´eaire entre X et Y Si ρ ̸= 0 alors il existe une relation lin´eaire entre X et Y Condition d’application : X ∼ N (µ1 , σ1 ) et Y ∼ N (µ2 , σ2 ) En pratique : V´erification de X et Y ”a peu pr`es normales” (sym´etrique) car test robuste (n grand) Hypoth`eses du test

Statistique de test Sous H0 , . . Micha¨ el Genin (Universit´ e de Lille 2)

{

H0 : ρ = 0 H1 : ρ ̸= 0

√ R n−2 T = √ ∼ Tn−2 1 − R2 R´ egression lin´ eaire multiple

ddl

Version - 19 f´ evrier 2015

9 / 91

Coefficient de corr´ elation (Rappels)

Conclusions

Conclusions

Le coefficient de corr´elation permet de mesurer le lien lin´eaire entre deux variables quantitatives X et Y . On peut ´egalement cherche `a mod´eliser le lien entre X et Y afin de r´ealiser des pr´edictions : Exprimer Y en fonction de X Ex : Pr´edire la FCM d’un patient en ne connaissant que son ˆ age

Le coefficient de corr´elation n’est pas suffisant Recours `a la r´egression lin´eaire : Y = β1 X + β0 + ϵ O` u Y est la variable `a expliquer et X la variable explicative

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

11 / 91

R´ egression lin´ eaire simple (Rappels)

Cadre d’´ etude Y est un caract`ere non contrˆol´e (caract`ere expliqu´e) X est un caract`ere contrˆol´e (caract`ere explicatif) Consid´erons un ´echantillon de n observations i.i.d. : I = {1, . . . , n} yi est la valeur observ´ee pour l’individu i xi est la valeur fix´ee pour l’individu i Objectif : Exprimer le lien entre Y et X . Y = f (X ) + ϵ Il existe une infinit´e de liaisons fonctionnelles −→ la plus simple est lin´eaire R´ egression lin´ eaire simple 1. Mod` ele de r´egression . Droite de r´egression au sens des moindres carr´es

2

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

13 / 91

R´ egression lin´ eaire simple (Rappels)

Mod` ele de r´ egression lin´ eaire simple

Mod` ele de r´ egression lin´ eaire ∀i ∈ I , yi est la r´ealisation de la v.a.r. Yi telle que . Yi = β1 xi + β0 + ϵi . Avec ϵi : erreur du mod`ele (v.a.r.) (part de variabilit´e de Y qui n’est pas expliqu´ee par le lien fonctionnel lin´eaire) β0 , β1 : coefficients du mod`ele, constantes (valeurs fixes dans la population). Hypoth` eses du mod` ele E[ϵi ] = 0, V[ϵi ] = σ 2 (hypoth`ese d’homosc´edasticit´e) L’erreur est ind´ependante de X → Cov(xi , ϵi ) = 0 Les ϵi , 1 ≤ i ≤ n, sont mutuellement ind´ependantes (absence d’autocorr´elation des r´esidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j. ϵi ∼ N (0, σ 2 ) (normalit´e des r´esidus) → tests dans le mod`ele

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

15 / 91

R´ egression lin´ eaire simple (Rappels)

M´ ethode des moindres carr´ es ordinaires

Droite de r´ egression au sens des moindres carr´ es Objectif : estimer β0 et β1 grˆace `a leur estimateurs B0 et B1 et leur r´ealisations b0 et b1 sur un ´echantillon d’observations i.i.d. de taille n. Trouver b0 et b1 qui minimisent un crit`ere d’ajustement. ⇒ M´ethode des moindres carr´es ordinaires . n n ∑ ∑ 2 S(β0 , β1 ) = (ei )2 = (yi − (β1 xi + β0 )) i=1 i=1 . → min S(β0 , β1 ) D´eriv´ees partielles → Syst`emes aux ´equations normales . sxy Solutions : b1 = 2 et b0 = y¯ − b1 x¯ sx . .. D´ etails

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

17 / 91

R´ egression lin´ eaire simple (Rappels)

M´ ethode des moindres carr´ es ordinaires

Droite de r´ egression au sens des moindres carr´ es La droite de r´egression au sens des moindres carr´es a pour expression : . ybi = b1 xi + b0 . C’est une estimation du mod`ele de r´egression par la m´ethode des moindres carr´es. Les erreurs observ´ees sur l’´echantillon sont appel´es r´esidus. . ei = (yi − ybi ) = yi − b1 xi − b0 .

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

18 / 91

R´ egression lin´ eaire simple (Rappels)

Qualit´ e de l’ajustement

Qualit´e de l’ajustement Equation d’analyse de la variance yi − y¯ = (ybi − y¯ ) + (yi − ybi ) (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 n n n ∑ ∑ ∑ (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 i=1

.

n ∑ (yi − y¯ )2 i=1

.

| {z } Somme des carr´es totale SCT

Micha¨ el Genin (Universit´ e de Lille 2)

i=1

=

n ∑ (ybi − y¯ )2 i=1

| {z } Somme des carr´es expliqu´ee SCE

R´ egression lin´ eaire multiple

i=1

+

n ∑ (yi − ybi )2 i=1

| {z } Somme des carr´es r´esiduelle SCR

Version - 19 f´ evrier 2015

20 / 91

R´ egression lin´ eaire simple (Rappels)

Qualit´ e de l’ajustement

Qualit´e de l’ajustement Evaluation de la qualit´ e d’ajustement du mod` ele ⇒ Coefficient de d´etermination . R2 =

.

SCE ∈ [0, 1] SCT

Interpr´etation : Part de variabilit´e de Y expliqu´ee par le mod`ele de r´egression lin´eaire. Remarque importante : le carr´e du coefficient de corr´elation lin´eaire est ´egal au coefficient de d´etermination : r 2 = R2 Cons´equence : deux tests statistiques ´equivalents pour ´evaluer la liaison lin´eaire entre X et Y . Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

21 / 91

R´ egression lin´ eaire simple (Rappels)

Validit´ e du mod` ele

Etude de la validit´e du mod`ele Etude des r´ esidus : V´erification des hypoth`eses du mod`ele faites sur les erreurs V´erifier la normalit´e des r´esidus observ´es (Droite de Henry) V´erifier que les r´esidus ne contiennent pas d’information structur´ee (V[ϵ] = σ 2 ) Les r´esidus ne d´ependent pas de X (Graphiques) V´erifier que les r´esidus ne sont pas auto-corr´el´es entre eux (les ϵi sont mutuellement ind´ependantes) (Test de Durbin Watson) → Ces hypoth`eses vont permettre par la suite de r´ealiser des tests dans le mod`ele lin´eaire. Observations aberrantes / influentes Valeur aberrante de x (Descriptif univari´e) Observation i mal reconstitu´ee par la r´egression → (ei ´elev´e) (r´esidus studentis´es) Observation i pr´esentant un poids exag´er´e dans la r´egression (pr´ediction / coefficients) (distance de Cook) Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

23 / 91

R´ egression lin´ eaire simple (Rappels)

Validit´ e du mod` ele

Conclusion sur l’´etude de la validit´e du mod`ele

Etape tr`es importante !! . Descriptif univari´e 2. Estimation des coefficients du mod` ele 3. V´ erification des hypoth`eses sur les erreurs 4. D´ etection d’observations influentes 1

Si OUI : Correction ou suppression Nouvelle estimation des coefficients

Apr`es ces ´etapes : Inf´ erence statistique

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

24 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale R 2 permet d’´evaluer la qualit´e de l’ajustement. L’information emmen´ee par la r´egression de Y par X traduit-elle une relation qui existe vraiment dans la population ? Table : Tableau ANOVA Source de variation Expliqu´ee R´esiduelle Totale

Somme des carr´es ∑ SCE = i (ˆ y − y¯ )2 ∑ i SCR = i (yi − yˆi )2 ∑ SCT = i (yi − y¯ )2

DDL 1 n−2

Carr´es moyens CME = CMR =

n−1

SCE 1 SCR n−2

-

Degr´es de libert´e : SCT n´ecessite l’estimation y¯ → n − 1 ddl SCR n´ecessite l’estimation de β0 et β1 pour yˆi → n − 2 ddl SCE par d´eduction : (n − 1) − (n − 2) = 1 ddl Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

26 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale Le test F permet d’´evaluer la significativit´e globale de la r´egression. { H0 : La variabilit´e expliqu´ee est identique `a la variabilit´e r´esiduelle H1 : La variabilit´e expliqu´ee est sup´erieure `a la variabilit´e r´esiduelle Sous H0 . F =

. Interpr´etation :

CME ∼ F1,n−2 ddl CMR

{ H0 : ”Le mod`ele est non explicatif” H1 : ”Le mod`ele est explicatif”

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

27 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation des coefficients - β1 Test de significativit´ e de β1 Id´ee : tester la nullit´e de β1 . { H0 : β1 = 0 ”X n’a aucun pouvoir explicatif sur Y” H1 : β1 ̸= 0 ”X a un pouvoir explicatif sur Y” Nous savons que

B1 −β1 σ bB1

∼ Tn−2 , par cons´equent sous H0

. B1 ∼ Tn−2 σ bB1

. Intervalle de confiance de β1 .  1−α β1

IC



= b1 ± t(1−α/2;n−2) √∑

n i=1 (xi

. Micha¨ el Genin (Universit´ e de Lille 2)

sn−2

R´ egression lin´ eaire multiple

 − x¯)2 Version - 19 f´ evrier 2015

28 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation des coefficients - β1 Equivalence avec le test de significativit´ e globale Uniquement dans le cas de la r´egression lin´eaire simple, observons que ∑n ˆ ∑n ¯ 2 ¯ 2 SCE /1 i=1 (Yi − Y ) i=1 (B1 xi + B0 − Y ) F = = = 2 2 SCR/(n − 2) Sn−2 Sn−2 ∑n ∑ n (B1 xi + (Y¯ − B1 x¯) − Y¯ )2 B2 (xi − x¯)2 B12 F = i=1 = 1 i=12 = 2 S2 sn−2 sn−2 ∑n n−2 F =

B12 = σ bB2 1

(

B1 σ bB1

x )2 i=1 (xi −¯

)2 .

Note : Equivalence entre la loi de Student et la loi de Fisher. (

Micha¨ el Genin (Universit´ e de Lille 2)

T(n−2)

)2

≡ F(1,n−2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

29 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation des coefficients - β1 Equivalence avec le test de significativit´ e de ρ Observons que SCE /1 (n − 2)SCE (n − 2)SCE (n − 2)R 2 = = = SCR/(n − 2) SCR SCT − SCR 1 − R2 √ r n−2 T =√ 1 − r2 F =

or R 2 = r 2 donc 2

F = (T ) ( Et comme F =

B1 σ bB1

)2 , on conclue que ( 2

F = (T ) =

Micha¨ el Genin (Universit´ e de Lille 2)

B1 σ bB1

R´ egression lin´ eaire multiple

)2

Version - 19 f´ evrier 2015

30 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation des coefficients - β1 Dans le cas d’une r´egression lin´eaire simple de type : Y = β1 X + β0 + ϵ . Tester la significativit´e globale du mod`ele ≡ Tester la significativit´e de β1 ≡ Tester la significativit´e de ρ

.

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

31 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation des coefficients - β1

Lien entre test et intervalle de confiance 1−α

ICθ

= {θ0 /H0 = {θ = θ0 } est accept´e au niveau de confiance 1 − α}

Cons´equences : pour tester H0 : β1 = 0 au risque α, on peut simplement v´erifier si 0 appartient ou non `a l’intervalle de confiance : Si 0 ∈ IC alors on conserve H0 Si 0 ∈ / IC alors on rejette H0

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

32 / 91

R´ egression lin´ eaire simple (Rappels)

Inf´ erence statistique

Evaluation des coefficients - β0 Test de significativit´ e de β0 Id´ee : tester la nullit´e de β0 . { H0 : β0 = 0 ”L’ordonn´ee `a l’origine n’est pas significative” H1 : β0 ̸= 0 ”L’ordonn´ee `a l’origine est significative” Nous savons que

B0 −β0 σ bB0

∼ Tn−2 , par cons´equent sous H0

. B0 ∼ Tn−2 σ bB0

. Intervalle de confiance de β0 . [ 1−α β0

IC



= b0 ± t(1−α/2;n−2) sn−2

. Micha¨ el Genin (Universit´ e de Lille 2)

x¯2 1 + ∑n n ¯)2 i=1 (xi − x

R´ egression lin´ eaire multiple

]

Version - 19 f´ evrier 2015

33 / 91

R´ egression lin´ eaire simple (Rappels)

Pr´ ediction

Intervalle de pr´ediction d’une observation

Contexte : Le mod`ele de r´egression ayant ´et´e valid´e, il est possible d’estimer la valeur de yn+1 pour une observation xn+1 n’appartenant pas `a l’´echantillon : ybn+1 = b1 xn+1 + b0 Or ybn+1 n’est qu’une estimation de la ”vraie droite de r´egression” dans la population. Une estimation ponctuelle ne suffit pas, il faut lui associer un intervalle de confiance : . √ ] [ 1−α

IC

yn+1

= ybn+1 ± t(1−α/2;n−2) sn−2

1+

.

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

(xn+1 − x¯)2 1 + ∑n n ¯ )2 i=1 (xi − x

Version - 19 f´ evrier 2015

35 / 91

R´ egression lin´ eaire simple (Rappels)

Pr´ ediction

Intervalle de pr´ediction d’une observation . 1−α

IC

yn+1



[ = ybn+1 ± t(1−α/2;n−2) sn−2

.

1 (xn+1 − x¯)2 1 + + ∑n n ¯ )2 i=1 (xi − x

]

Quelques remarques La taille du rayon de l’intervalle de confiance sera d’autant plus faible que 2 sn−2 est faible → la r´egression est de bonne qualit´e n est ´elev´e x∑ ¯ ↔ (xn+1 − x¯)2 est faible n+1 est proche de x n 2 (x − x ¯ ) est ´ e lev´e → les xi sont bien dispers´es i i=1

Attention : utiliser des valeurs de x qui sont dans le cadre d’´etude (relativement proches de x¯ pour obtenir de bonnes pr´edictions.

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

36 / 91

R´ egression lin´ eaire simple (Rappels)

Mise en ´evidence d’un probl` eme

Mise en ´evidence d’un probl`eme Vente de CD et cas de grippe H1N1 en 2009 R´egion

Nb cas de grippe H1N1

Nb ventes CD M.J.

R´egion 1 R´egion 2 . . R´egion n

. . . . .

. . . . .

Il existe une liaison lin´eaire significative . . . Test de ρ : p < 1.10−4 , Test de β1 : p < 1.10−4

. . . mais pas de relation de cause `a effet ! Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

38 / 91

R´ egression lin´ eaire simple (Rappels)

Mise en ´evidence d’un probl` eme

Mise en ´evidence d’un probl`eme Existence de Facteurs de confusion (ici : la p´eriode de temps) Exemple : vente de CD de MJ les plus fortes en automne alors { ↗ ventes Pour la mˆeme p´eriode : ↗ cas de grippes

Temps

Grippe

Ventes

Figure : Diagramme de corr´elation Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

39 / 91

R´ egression lin´ eaire simple (Rappels)

Mise en ´evidence d’un probl` eme

Mise en ´evidence d’un probl`eme

N´ecessit´e de pouvoir ajuster sur des facteurs de confusion Dans de nombreuses situations, plusieurs facteurs peuvent expliquer un caract`ere Y = f (X1 , X2 , . . . , Xp ) R´egression lin´eaire multiple

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

40 / 91

R´ egression lin´ eaire multiple

Cadre d’´ etude Y est un caract`ere non contrˆol´e (caract`ere expliqu´e) X1 , X2 , . . . Xp sont des caract`eres contrˆol´es (caract`eres explicatifs) Consid´erons un ´echantillon de n observations i.i.d. : I = {1, . . . , n} yi est la valeur observ´ee pour l’individu i xij est la valeur fix´ee pour l’individu i et la variable j, j ∈ {1, 2, . . . , p} Objectif : Exprimer le lien entre Y et les Xj . Y = f (X1 , X2 , . . . , Xp ) + ϵ Il existe une infinit´e de liaisons fonctionnelles −→ la plus simple est lin´eaire R´ egression lin´ eaire multiple 1. Mod` ele de r´egression . Hyperplan de r´egression au sens des moindres carr´es

2

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

42 / 91

R´ egression lin´ eaire multiple

Mod` ele de r´ egression lin´ eaire multiple

Mod` ele de r´ egression lin´ eaire multiple ∀i ∈ I , yi est la r´ealisation de la v.a.r. Yi telle que . Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip + ϵi = β0 +

p ∑

βj xij + ϵi

j=1

.

Avec ϵi : erreur du mod`ele (v.a.r.) (part de variabilit´e de Y qui n’est pas expliqu´ee par le lien fonctionnel lin´eaire) β0 , β1 , . . . , βp : coefficients du mod`ele, constantes (valeurs fixes dans la population). Hypoth` eses du mod` ele E[ϵi ] = 0, V[ϵi ] = σ 2 (hypoth`ese d’homosc´edasticit´e) L’erreur est ind´ependantes des Xj → COV(xij , ϵi ) = 0 ϵi ∼ N (0, σ 2 ) (normalit´e des r´esidus) → tests dans le mod`ele Les ϵi , 1 ≤ i ≤ n, sont mutuellement ind´ependantes (absence d’autocorr´elation des r´esidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j. Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

44 / 91

R´ egression lin´ eaire multiple

Mod` ele de r´ egression lin´ eaire multiple

Ecriture du mod` ele Sur un ´echantillon de n observations i.i.d. : Y1 Y2

= β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2 .. .

Yn

= β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn

Ecriture matricielle    Y1    Y =  ... β =  Yn

 β0 ..  .  βp



1  .. X= . 1

Y= X. n × 1 n × (p + 1)

Micha¨ el Genin (Universit´ e de Lille 2)

x11 .. .

x12 .. .

xn1

xn2

··· .. . ···

  x1p .. ϵ =   .  xnp

 ϵ1 ..  .  ϵn

β +ϵ (p + 1) × 1 n × 1

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

45 / 91

R´ egression lin´ eaire multiple

M´ ethode des moindres carr´ es ordinaires

Hyperplan de r´ egression au sens des moindres carr´ es Objectif : estimer β0 , β1 , . . . , βp grˆace `a leur estimateurs B0 , B1 , B2 , . . . , Bp et leur r´ealisations b0 , b1 , b2 , . . . , bp sur un ´echantillon d’observations i.i.d. de taille n.       B0 b0 β0       β =  ...  B =  ...  b =  ...  βp

Bp

bp

Trouver b qui minimisent l’erreur : .

 2 p n n ∑ ∑ ∑ yi − β0 − S(β0 , . . . , βp ) = (ϵi )2 = βj xij  = ||ϵ||2 i=1

. .

i=1

j=1

( )−1 T Solution : b = XT X X Y

.

Remarque : B est appel´e estimateur des moindres carr´es de β. Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

.. D´ etails

Version - 19 f´ evrier 2015

47 / 91

R´ egression lin´ eaire multiple

M´ ethode des moindres carr´ es ordinaires

Hyperplan de r´ egression au sens des moindres carr´ es L’ hyperplan de r´egression au sens des moindres carr´es a pour expression : . p ∑ ybi = b0 + bj xij j=1 . C’est une estimation du mod`ele de r´egression multiple par la m´ethode des moindres carr´es. Les erreurs observ´ees sur l’´echantillon sont appel´es r´esidus. . p ∑ ei = (yi − ybi ) = yi − b0 − bj xij j=1 .

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

48 / 91

R´ egression lin´ eaire multiple

M´ ethode des moindres carr´ es ordinaires

Propri´ et´ es des estimateurs - Moments (1) . E[B] = β estimateur sans biais

. .

( )−1 V[B] = σ 2 XT X

.

.. D´ etails

V[B](p+1)×(p+1) est appel´ee matrice de variances - covariances des coefficients :   2 σ bB0 COV (B0 , B1 ) . . . COV (B0 , Bp )  · σ bB2 1 . . . COV (B1 , Bp )      ..   . · ... · ·

Micha¨ el Genin (Universit´ e de Lille 2)

·

...

R´ egression lin´ eaire multiple

σ bB2 p

Version - 19 f´ evrier 2015

49 / 91

R´ egression lin´ eaire multiple

M´ ethode des moindres carr´ es ordinaires

Propri´ et´ es des estimateurs - Moments (2) La matrice de variances - covariances V[B] fait intervenir la variance de l’erreur σ2 . Cette variance est inconnue 2 Elle est estim´ee par Sn−p−1 au moyen du tableau d’ANOVA. On montre que . 2 Sn−p−1

.

∑n 2 (Ei ) SCR = = i=1 n−p−1 n−p−1

est un estimateur non biais´e de σ 2 .

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

50 / 91

R´ egression lin´ eaire multiple

M´ ethode des moindres carr´ es ordinaires

Propri´ et´ es des estimateurs - Distributions d’´ echantillonnage De par les hypoth`eses du mod`ele et l’estimation de σ 2 , on montre que ∀j ∈ {0, 1, . . . , p} . Bj − βj ∼ Tn−p−1 d.d.l. σ bBj . avec σ bBj tir´e de la matrice de variances-covariances. Ces distributions vont nous permettre de r´ealiser une inf´erence statistique sur les coefficients (tests de nullit´e et intervalles de confiance).

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

51 / 91

R´ egression lin´ eaire multiple

Qualit´ e de l’ajustement

Qualit´e de l’ajustement Equation d’analyse de la variance yi − y¯ = (ybi − y¯ ) + (yi − ybi ) (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 n n n ∑ ∑ ∑ (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 i=1

.

n ∑ (yi − y¯ )2 i=1

.

| {z } Somme des carr´es totale SCT

Micha¨ el Genin (Universit´ e de Lille 2)

i=1

=

n ∑ (ybi − y¯ )2 i=1

| {z } Somme des carr´es expliqu´ee SCE

R´ egression lin´ eaire multiple

i=1

+

n ∑ (yi − ybi )2 i=1

| {z } Somme des carr´es r´esiduelle SCR

Version - 19 f´ evrier 2015

53 / 91

R´ egression lin´ eaire multiple

Qualit´ e de l’ajustement

Qualit´e de l’ajustement Evaluation de la qualit´ e d’ajustement du mod` ele ⇒ Coefficient de d´etermination . R2 =

.

SCE ∈ [0, 1] SCT

Interpr´etation : Part de variabilit´e de Y expliqu´ee par le mod`ele de r´egression lin´eaire multiple. Remarque importante : R 2 est fonction du nombre variables explicatives dans le mod`ele (mˆeme non pertinentes) p ↗ → R2 ↗ Aussi : tests de significativit´e des coefficients, s´election de variables (mod`ele parcimonieux) Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

54 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Etude de la validit´e du mod`ele Etude des r´ esidus : V´erification des hypoth`eses du mod`ele faites sur les erreurs V´erifier la normalit´e des r´esidus observ´es V´erifier que les r´esidus ne contiennent pas d’information structur´ee (V[ϵ] = σ 2 ) Les r´esidus ne d´ependent pas des Xj V´erifier que les r´esidus ne sont pas auto-corr´el´es entre eux (les ϵi sont mutuellement ind´ependantes) → Ces hypoth`eses vont permettre par la suite de r´ealiser des tests dans le mod`ele lin´eaire. Observations aberrantes / influentes Valeur aberrante d’une observation (diagnostic univari´e, multivari´e) Observation i mal reconstitu´ee par la r´egression → (ei ´elev´e) Observation i pr´esentant un poids exag´er´e dans la r´egression (pr´ediction / coefficients) Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

56 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Etude des r´esidus

V´ erification de la normalit´ e des r´ esidus histogramme ⇒ la distribution doit ˆetre unimodale et sym´etrique autour de 0. Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peu puissants (peu aptes `a rejeter H0 ) Droite de Henry ⇒ confronte les quantiles th´eoriques de la loi normale et la distribution cumul´ee estim´ee sur les donn´ees

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

57 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Etude des des r´ r´ sidus Etude eesidus V´erification de l’homosc´edasticit´e des r´esidus

V´ erification de l’homosc´ edasticit´ e des r´ esidus

Les r´esidus sont homosc´edastiques si leur r´epartition est homog`ene Les r´eetsidus sont ditspas homosc´ dastiques dispersion est homog` et ne ne d´ epend des evaleurs desilaleur variable explicative (etene donc pas d´epend pas des valeurs de la variable explicative xj (et donc pas non plus des non plus des valeurs pr´edites). valeurs pr´edites). On v´erifie que les r´esidus n’ont pas de structure particuli`ere en On v´erifie que les r´esidus n’ont pas de structure particuli`ere en tra¸cant un graphe cant: un graphe des r´esidus : des r´etra¸ sidus Residus correles

4

Residus non correles

● ●



2 ●

0

Residus

●● ● ● ● ● ●

−2

● ●● ●





● ●









●●

● ● ● ● ● ●

● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●

● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ● ● ●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ●



1

● ●● ●●●

●● ● ● ●

● ●●

● ●



● ●

●●



● ● ● ● ● ●●● ● ● ● ●● ●

0

● ●







● ●

● ●

● ● ● ● ●● ● ● ● ● ● ●● ●

●● ● ● ● ● ● ●● ● ●●● ●● ●● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ●● ●

● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ●●

● ●

●●



●● ●

Residus

2

●●







−1



●●





●● ● ●

● ●

●● ● ●



−2

−4



−40

−20

0

20



40

X

Micha¨ el Genin (Universit´ e de Lille 2)



−40

−20

0

20

40

X

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

58 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Etude des r´esidus

On peut localiser des points du nuage mal expliqu´es par la relation lin´eaire en tra¸cant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1 on peut consid´erer ces points, si ils ne sont pas trop nombreux, comme des points exceptionnels, les ´eliminer et recalculer b1 et b0 . on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindres 2 carr´es pond´er´es (fonction de l’´ecart |y − yˆ |/2sn−p−1 ). M´ethode plus robuste si il y a beaucoup de points mal expliqu´es (en dehors de la bande), c’est que le mod`ele est mal choisi.

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

59 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Etude des r´esidus

6

graphe des residus

4





2

● ●

0





−2

residus









−4





−6



25

30

35

40

45

50

55

age

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

60 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Etude des r´esidus V´ erification de l’ind´ ependance entre les r´ esidus Test de Durbin Watson { H0 : il n’y a pas de corr´elation entre ϵi et ϵi−1 H1 : il y a une corr´elation entre ϵi et ϵi−1 .

∑n

(e − ei−1 )2 i=2 ∑ni 2 i=1 ei

d= .

La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pas d’autocorr´elation. La loi de d est tabul´ee : DL et DU bornes au risque α. 0

DL

AC Positive Rejet H0

Micha¨ el Genin (Universit´ e de Lille 2)

DU ?

2

4-DU

Pas d’AC Non Rejet de H0

4-DL ?

R´ egression lin´ eaire multiple

4

AC Négative Rejet H0

Version - 19 f´ evrier 2015

61 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Observations aberrantes / influentes Valeur aberrante de xj (Univari´ e) → Boxplot Effet important sur l’estimation de l’hyperplan de r´egression

10

20

30

40

50

Mauvais ajustement aux donn´ees Solution : descriptif univari´e → boxplot



Probl`eme : Ne prend pas en compte les interactions possibles entre les Xj . Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

62 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Observations aberrantes / influentes

Valeur aberrante (Multivari´ e) → Levier Principe : Pour une observation i, mesure la distance avec le centre de gravit´e du nuage d´efini par les Xj , j ∈ {1, , . . . , p} Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) : ( )−1 T H = X XT X X En pratique . .

( )−1 T hii = hi = xi XT X xi

avec xi la i`eme ligne de la matrice X.

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

63 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Observations aberrantes / influentes

Valeur aberrante (Multivari´ e) → Levier R`egle de d´ecision . R.C . : hi > 2 ×

.

p+1 n

Permet de d´etecter des observations aberrantes / influentes d’un point de vue multivari´e Effet n´efaste sur l’estimation des βj par les MCO

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

64 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Observations aberrantes / influentes R´ esidus studentis´ es internes Id´ee : Mettre en ´evidence les observations dont le r´esidu ei est important Pour une observation i, le r´esidu studentis´e interne est d´efini par : . ei √ ti = sn−p−1 1 − hi . avec hi levier de l’observation i. On montre que Ti ∼ T(n−p−1) . D’o` u: 1−α/2

RC : |ti | > tn−p−1 Probl`eme : L’observation ´evalu´ee a particip´e `a la construction de la droite (Juge et partie).

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

65 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Observations aberrantes / influentes R´ esidus studentis´ es externes Id´ee : Estimer le mod`ele sans l’observation i (−i) et comparer la valeur observ´ee de yi `a celle pr´edite par le mod`ele (ˆ yi (−i) : pr´ediction pour une nouvelle observation). Pour une observation i, le r´esidu studentis´e externe est d´efini par : . yi − yˆi (−i) √ ti∗ = s n−p−1 (−i) 1 − hi (−i) . On montre que Ti∗ ∼ T(n−p−1) . D’o` u:

RC : |ti∗ | > tn−p−1 1−α/2



Remarque : ti∗

Micha¨ el Genin (Universit´ e de Lille 2)

=

n−p−2 n − p − 1 − ti2

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

66 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Observations aberrantes / influentes Distance de Cook Id´ee : Evaluer l’influence d’une observation i sur l’estimation des coefficients. Comparaison des pr´edictions du mod`ele complet et du mod`ele sans l’observation i. La distance de Cook pour une observation i est d´efinie par . ∑n 2 j=1 (yˆj − yˆj (−i)) Di = 2 (p + 1)sn−p−1 . R`egle de d´ecision RC : Di > 1 RC : Di >

4 n−p−1

(Ajustement sur le nombre de variables)

Si la diff´erence entre les pr´edictions est ´elev´ee, l’observations i joue un rˆole sur l’estimation des coefficients.

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

67 / 91

R´ egression lin´ eaire multiple

Validit´ e du mod` ele

Observations aberrantes / influentes DFBETAS Id´ee : Si la distance de COOK a identifi´e une observation ayant une influence sur l’estimation des coefficients, on peut aller plus loin pour d´eterminer quel coefficient est affect´e. Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, le DFBETAS est d´efini par : . bj − bj (−i) √ DFBETASi,j = −1 sn−p−1 (−i) (XT X)j . R`egle de d´ecision 2 RC : |DFBETASi,j | > √ n

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

68 / 91

R´ egression lin´ eaire multiple

Inf´ erence statistique

Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale R 2 permet d’´evaluer la qualit´e de l’ajustement. L’information emmen´ee par la r´egression de Y par les Xj traduit-elle une relation qui existe vraiment dans la population ? Table : Tableau ANOVA Source de variation Expliqu´ee R´esiduelle Totale

Somme des carr´es ∑ SCE = i (ˆ y − y¯ )2 ∑ i SCR = i (yi − yˆi )2 ∑ SCT = i (yi − y¯ )2

DDL

Carr´es moyens

p n−p−1

CME = CME p CMR CMR = n−p−1

n−1

-

Degr´es de libert´e : SCT n´ecessite l’estimation y¯ → n − 1 ddl SCR n´ecessite l’estimation des βj pour yˆi → n − (p + 1) ddl SCE par d´eduction : (n − 1) − (n − p − 1) = 1 ddl Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

70 / 91

R´ egression lin´ eaire multiple

Inf´ erence statistique

Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale Le test F permet d’´evaluer la significativit´e globale de la r´egression. { H0 : β1 = β2 = . . . = βp = 0 H1 : ∃j/βj ̸= 0 Sous H0 . F =

. Interpr´etation :

CME ∼ Fp,n−p−1 ddl CMR

{ H0 : ”Le mod`ele est non explicatif” H1 : ”Le mod`ele est explicatif”

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

71 / 91

R´ egression lin´ eaire multiple

Inf´ erence statistique

Evaluation des coefficients - βj Test de significativit´ e de βj Id´ee : tester la nullit´e de βj . { H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y” H1 : βj ̸= 0 ”Xj a un pouvoir explicatif sur Y” Nous savons que Sous H0 .

Bj −βj σ bBj

∼ Tn−p−1 , par cons´equent :

Bj ∼ Tn−p−2 σ bBj

. Intervalle de confiance de βj . 1−α

ICβ

. Micha¨ el Genin (Universit´ e de Lille 2)

j

[ ] = bj ± t(1−α/2;n−p−1) σ bBj R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

72 / 91

R´ egression lin´ eaire multiple

Pr´ ediction

Intervalle de pr´ediction d’une observation Contexte : Le mod`ele de r´egression ayant ´et´e valid´e, il est possible d’estimer la valeur de yn+1 pour une observation Xn+1 n’appartenant pas `a l’´echantillon : Xn+1 = (xn+1,1 , xn+1,2 , . . . , xn+1,p ) ybn+1 = b0 +

p ∑

bj xn+1,j

j=1

ybn+1 = Xn+1 .b Or ybn+1 n’est qu’une estimation du ”vrai hyperplan de r´egression” dans la population. Une estimation ponctuelle ne suffit pas, il faut lui associer un intervalle de confiance : . [ ] √ 1−α T X)−1 XT b y ± t s = 1 + X (X n+1 n+1 (1−αr ;n−p−1) n−p−1 yn+1 n+1 .

IC

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

74 / 91

R´ egression lin´ eaire multiple

D´ etection et traitement de la colin´ earit´ e

D´efinition et cons´equences de la colin´earit´e D´ efinition Une variable explicative Xj est colin´eaire `a une autre variable Xk lorsque rXj ,Xk > 0.8. Une variable explicative Xj est multicolin´eaire aux autres variables lorsque ′









Xj = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp , elle peut s’´ecrire comme une combinaison lin´eaire des autres variables explicatives. Cons´ equences Valeurs/Signes des coefficients contraires `a l’intuition Variances estim´ees des coefficients trop importantes Coefficients non significatifs (inf´erence statistique) Instabilit´e du mod`ele Risque de passer `a cˆot´e d’une variable importante (redondance) Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

76 / 91

R´ egression lin´ eaire multiple

D´ etection et traitement de la colin´ earit´ e

D´etection de la colin´earit´e Variance Inflation Factor - VIF Principe : Pour chaque Xj , r´ealisation de la r´egression de Xj avec les autres variables explicatives. On note Rj2 le coefficient de d´etermination associ´e `a cette r´egression. Pour une variable Xj , le VIF est d´efini par . 1 VIFj = 1 − Rj2 . La valeur du VIF sera d’autant plus forte que Xj est une combinaison lin´eaire des autres variables. R`egle de d´ecision VIFj ≥ 4 Rq : D´etermination des variables incrimin´ees dans la combinaison lin´eaire → Cercle des corr´elations (ACP) Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

77 / 91

R´ egression lin´ eaire multiple

D´ etection et traitement de la colin´ earit´ e

D´etection de la colin´earit´e

Variance Inflation Factor - VIF Remarque : σB2 j =

σ2 VIFj n

Donc : Plus la valeur de VIFj est importante plus σB2 j sera importante Estimation instable Probl`eme de significativit´e du coefficient

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

78 / 91

R´ egression lin´ eaire multiple

D´ etection et traitement de la colin´ earit´ e

Traitement de la colin´earit´e Approche ”m´ etier” Mise en ´evidence de plusieurs variables explicatives colin´eaires (VIF + ACP) Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pour l’analyse Approche statistique M´ethode de s´election de variables (Forward, Backward, Stepwise) Mais si toutes les variables sont pertinentes ? R´egression sur les composantes principales de l’ACP R´egression ridge R´egression PLS

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

79 / 91

R´ egression lin´ eaire multiple

S´ election de variables

Motivations - Crit`ere de s´election de variables Motivations S´election d’un sous-ensemble de Xj pertinentes et non redondantes qui expliquent au mieux Y Principe du rasoir d’Occam → Mod`eles parcimonieux Mod`ele plus simple, lisible, robuste, stable Nombre restreint de variables explicatives (collecte des donn´ees)

Traitement de la multicolin´earit´e Crit` ere de s´ election de variables Retrait ou ajout d’une variable Xj dans le mod`ele en fonction de sa valeur du Fj partiel de Fisher : . ( )2 Bj Fj = ∼ F1,n−p−1 σ bBJ . .. D´ etails

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

81 / 91

R´ egression lin´ eaire multiple

S´ election de variables

Motivations - Crit`ere de s´election de variables Autres crit` eres de s´ election de variables R 2 ajust´e

¯ 2 = 1 − SCR/(n − p − 1) R SCT /(n − 1)

AIC (`a minimiser)

( AIC = n ln

SCR n

) + 2(p + 1)

BIC de Schwartz (`a maximiser) ( BIC = n ln

SCR n

) + ln(n)(p + 1)

etc. . .

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

82 / 91

R´ egression lin´ eaire multiple

S´ election de variables

M´ethodes de s´election de variables M´ ethode ascendante (Forward) Principe : On part du mod`ele sans Xj . On ajoute successivement les Xj qui sont significatifs au sens du F partiel de Fisher et on s’arrˆete lorsqu’on ne peut plus ajouter de Xj (NS dans le mod`ele) TANT QUE Condition d’arrˆet = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrˆet) Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ < αsle ALORS Ajout de Xj au mod`ele

SINON Arrˆet Fin TANT QUE Remarques : Plus αsle est ´elev´e plus le nombre de variables dans le mod`ele sera important En pratique : αsle = 0.2 Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

83 / 91

R´ egression lin´ eaire multiple

S´ election de variables

M´ethodes de s´election de variables M´ ethode ascendante (Forward) - Exemple Soient Y et X1 , X2 , X3 sur un ´echantillon de n = 50 observations Etape

Mod`ele

ddl

F (p-value)

1

Y = β0

1 ;50-1-1

X1 → 43 (3, 51.10−8 ) X2 → 150 (2, 22.10−16 ) X3 → 12 (1, 11.10−3 )

2

Y = β0 + β2 X2

1 ;50-2-1

X1 → 9 (4, 31.10−3 ) X3 → 2 (0.1639)

3

Y = β0 + β2 X2 + β1 X1

1 ;50-3-1

X3 → 0.7 (0.4071)

X3 n’est plus significative dans le mod`ele. Mod`ele final : Y = β0 + β2 X2 + β1 X1

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

84 / 91

R´ egression lin´ eaire multiple

S´ election de variables

M´ethodes de s´election de variables M´ ethode descendante (Backward) Principe : On part du mod`ele satur´e (toutes les Xj ). On retire successivement les Xj qui sont non significatifves au sens du F partiel de Fisher et on s’arrˆete lorsqu’on toutes les Xj sont significatives. TANT QUE Condition d’arrˆet = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrˆet) Choix de Fj∗ tel que Fj∗ = min{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ > αsls ALORS Retrait de Xj du mod`ele

SINON Arrˆet Fin TANT QUE Remarques : Plus αsls est faible plus le nombre de variables dans le mod`ele sera faible En pratique : αsls = 0.2 Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

85 / 91

R´ egression lin´ eaire multiple

S´ election de variables

M´ethodes de s´election de variables M´ ethode Stepwise Principe : ”Mix” entre les m´ethodes ascendante et descendante. On d´ebut par le mod`ele sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher (αsle ). Dans les ´etapes suivantes, on v´erifie que l’ajout d’une variable de conduit pas `a la non significativit´e (αsls ) des autres d´ej`a pr´esentes dans le mod`ele (phase descendante). Le processus se termine quand aucune Xj n’est significative lors de la phase ascendante. Avantage : Contrairement la m´ethode ascendante, une Xj introduite dans le mod`ele peut ˆetre remise en cause lors des ´etapes suivantes. En pratique : αsle = αsls = 0.2

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

86 / 91

R´ egression lin´ eaire multiple

S´ election de variables

M´ethodes de s´election de variables M´ ethode Stepwise On part du mod`ele : Y = β0 TANT QUE Condition d’arrˆet = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrˆet) Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ < αsle ALORS Ajout de Xj du mod`ele POUR Chaque Xj inclue dans le mod`ele FAIRE Calcul de Fj pour chaque Xj ∗ Choix( de Fj∗ tel ) que Fj = min{F1 , . . . , Fp } ∗ ∗ SI P Fj > fj > αsls ALORS Retrait de Xj du mod` ele

FIN POUR

SINON Arrˆet Fin TANT QUE Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

87 / 91

R´ egression lin´ eaire multiple

Conclusions

Processus de mod´ elisation 1. Estimation des coefficients (MCO) 2. Mesure de la qualit´ e d’ajustement (R 2 ) 3. Etude la validit´ e du mod`ele Si hypoth`eses sur les erreurs non v´erifi´ees → STOP Si observations aberrantes/influentes → Correction/Suppression Retour ` a l’Etape 1

. Inf´erence statistique

4

Test de significativit´e globale Tests de significativit´e des coefficients

. Evaluation de la multicolin´earit´e 6. S´ election de variables (Mod`ele parcimonieux) 5

Mod`ele restreint R´eit´eration des Etapes 1, 2, 3, 4

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

89 / 91

R´ ef´ erences

R´ef´erences Livres Probabilit´es Analyses des donn´ees et Statistique, G. Saporta, TECHNIP Dodge, Y, Rousson, V., Analyse de r´egression appliqu´ee, Dunod, 2`eme ´edition, 2004. Supports en ligne Econom´etrie - R´egression lin´eaire simple et multiple, R. Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

Pratique de la r´egression lin´eaire multiple - Diagnostic et S´election de variables, R. Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

R´egression lin´eaire, A. Guyader http: //www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

91 / 91

Annexe 1 - Syst`eme aux ´equations normales

min S(β0 , β1 ) = min

n ∑

(yi − (β1 xi + β0 ))

2

i=1 n ∑ [ 2 ] = min yi − 2xi yi β1 − 2yi β0 + β12 xi2 + 2β0 β1 xi + β02 i=1

S(β0 , β1 ) est strictement convexe donc elle admet un minimum au point unique (b0 , b1 ) d´etermin´e en annulant les d´eriv´ees partielles de S : ∑ ∂S(β0 , β1 ) =0⇒ −2yi + 2b1 xi + 2b0 = 0 ∂β0

(1)

∑ ∂S(β0 , β1 ) =0⇒ −2xi yi + 2b1 xi2 + 2b0 xi = 0 ∂β1

(2)

n

i=1

n

i=1

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

1 / 11

Annexe 1 - Syst`eme aux ´equations normales De (1) on d´eduit que ∑n b0 =

i=1 yi

− b1 n

∑n

i=1 xi

= y¯ − b1 x¯

(3)

De (2) on d´eduit que b1

n ∑

xi2 + b0

i=1

n ∑

xi =

i=1

n ∑

xi yi

(4)

i=1

En utilisant (3) nous obtenons b1

n ∑ i=1

Micha¨ el Genin (Universit´ e de Lille 2)

xi2 + (¯ y − b1 x¯)

n ∑

xi =

i=1

R´ egression lin´ eaire multiple

n ∑

(5)

xi yi

i=1

Version - 19 f´ evrier 2015

2 / 11

Annexe 1 - Syst`eme aux ´equations normales En divisant par n les deux termes : b1

n n 1∑ 2 1∑ xi + (¯ y − b1 x¯)¯ x= xi yi n n i=1

[ b1

(6)

i=1

] n n 1∑ 2 1∑ 2 xi − x¯ = xi yi − x¯y¯ n n i=1

(7)

i=1

b1 =

sxy sx2

(8) .. Retour

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

3 / 11

Annexe 2 - RLM : MCO Observons que ||ϵ||2 = ||Y − Xβ||2 . Aussi T

||ϵ||2 = (Y − Xβ) (Y − Xβ) = YT Y − YT Xβ − β T XT Y + β T XT Xβ. Or comme la transpos´ee d’un scalaire est ´egale `a lui-mˆeme : ( T )T Y Xβ = β T XT Y, nous avons donc S(β0 , . . . , βp ) = ||ϵ||2 = YT Y − 2β T XT Y + β T XT Xβ Minimiser la fonction S revient `a annuler les d´eriv´ees diff´erentielles par rapport `a β. L’annulation de la d´erivation matricielle nous donne ( ) ( ) ∂S = −2 XT Y + 2 XT X b = 0 ∂β

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

4 / 11

Annexe 2 - RLM : MCO

Aussi

(

) ( ) XT X b = XT Y . ( ) Or rg(X) = p et p ≤ n donc XT X est inversible. Aussi ( )−1 ( T ) X Y b = XT X .. Retour

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

5 / 11

Annexe 3 - RLM : moments des estimateurs

Esp´erance [( )−1 T ] ( T )−1 T E[B] = E XT X X Y = X X X E[Y] ( )−1 T E[B] = XT X X E[X.β + ϵ] = β Variance

)−1 T ] ( )−1 ( )−1 T XT X X Y = X XT X V[Y] XT X X ( T )−1 T ( ) ( T )−1 −1 V[ϵ] X X X = σ 2 XT X V[B] = X X X V[B] = V

[(

.. Retour

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

6 / 11

Annexe 4 - F partiel de Fisher L’´egalit´e

( F =

Bj σ bBJ

)2 ∼ F1,n−p−1

se base sur un cas particulier du test de nullit´e d’un bloc de q coefficients. { H0 : Y = β0 + β1 X1 + . . . + βj Xj + βj+q+1 Xj+q+1 + . . . + βp Xp + ϵ H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ { H0 : Mod`ele sans les q variables (mod`ele restreint) H1 : Mod`ele complet Posons 2 : Coefficient de d´etermination du mod`ele restreint (H0 ) R(0) 2 : Coefficient de d´etermination du mod`ele complet (H1 ) R(1)

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

7 / 11

Annexe 4 - F partiel de Fisher

Notons F la statistique de test associ´ee. On montre que sous H0 , ( ) 2 2 R(1) − R(0) /q ) ∼ Fq,n−p−1 F =( 2 1 − R(1) /(n − p − 1) Autre interpr´etation : si l’accroissement ( ) 2 2 R(1) − R(0) >

q fq,n−p−1 n−p−1

alors la place des q variables dans le mod`ele est justifi´ee.

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

8 / 11

Annexe 4 - F partiel de Fisher Cas particulier quand q = 1 On veut tester la nullit´e d’un coefficient βj { H0 : Y = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp + ϵ H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ {

H0 : Mod`ele sans Xj (mod`ele restreint) H1 : Mod`ele complet

Posons 2 : Coefficient de d´etermination du mod`ele restreint (H0 ) R(0) 2 : Coefficient de d´etermination du mod`ele complet (H1 ) R(1)

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

9 / 11

Annexe 4 - F partiel de Fisher Cas particulier quand q = 1 Notons F la statistique de test associ´ee. On montre que sous H0 , ( ) 2 2 R(1) − R(0) /1 ) F =( ∼ F1,n−p−1 2 1 − R(1) /(n − p − 1) Or T =

Bj ∼ Tn−p−1 σ bBJ

Donc

( F = T2 =

Bj σ bBJ

)2

Remarque : test de la significativit´e du coefficient et son apport au R 2 .

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

10 / 11

Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1 Autre interpr´etation : si l’accroissement (

) 2 2 R(1) − R(0) >

1 f1,n−p−1 n−p−1

alors la place de Xj dans le mod`ele est justifi´ee. Note : Tests de type III sous SAS. .. Retour

Micha¨ el Genin (Universit´ e de Lille 2)

R´ egression lin´ eaire multiple

Version - 19 f´ evrier 2015

11 / 11