43 0 397KB
. .
R´egression lin´eaire multiple Micha¨el Genin Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]
Plan
1.
Introduction `a l’´etude de deux variables quantitatives
2.
Coefficient de corr´elation (Rappels)
3.
R´egression lin´eaire simple (Rappels)
4.
R´egression lin´eaire multiple
5.
R´ef´erences
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
1 / 91
Introduction ` a l’´ etude de deux variables quantitatives
Introduction Croisement de deux variables quantitatives ˆ age et fr´equence cardiaque Consommation et poids d’un v´ehicule Capacit´e d’´epargne et revenus
Etude du lien entre ces deux variables Repr´esentation graphique Indicateur statistique (Coefficient de corr´elation) Mod`ele de pr´ediction (R´egression lin´eaire)
Notations On consid`ere n individus sur lesquels on mesure X et Y deux variables quantitatives. Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi ) qui repr´esente les valeurs prises par X et Y pour l’individu i. Remarque : les slides suivantes sont uniquement des rappels sur les principes de corr´elation et de r´egression lin´eaire simple et ne constituent en aucun cas un cours ! → Lien cours complet ← Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
3 / 91
Introduction ` a l’´ etude de deux variables quantitatives
1`ere ´ etape Repr´esentation graphique Graphique pour repr´esenter deux variables quantitatives ⇒ nuage de points 1`ere ´etape de toute analyse de liaison : appr´ecier la forme de la relation entre les deux variables
−500
●
●
●
● ●
−2000
● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●
0
20
40
X
liaison lin´eaire
Micha¨ el Genin (Universit´ e de Lille 2)
60
● ● ●
●
0
●
●
●
● ● ●●
● ●
●● ● ●
●
●● ● ●●
●
●
●
●
● ●
●
● ● ● ●
● ●●
● ●
● ● ● ● ●● ● ● ● ●
●
● ●
●
●
● ●
●●●
●
● ●
●
●● ● ●
●
● ● ● ●
● ●
●●
● ●
●●
● ●
●
●
●
● ● ●
●
● ● ● ● ● ● ● ●
● ● ●
● ●
●● ●
●
● ●
● ● ● ● ● ●
●
−2
● ●
●
●
●
● ● ●● ●●
●
−3000 −20
●
●
●
●
●
−50
−40
●● ● ● ●
●
●
●● ●
−60
● ● ● ● ● ● ● ● ● ● ●● ●
●
● ●
●
●
●
● ● ●● ● ● ● ●
● ● ●
● ● ● ● ●● ●● ●● ● ●
●
●
●
●
● ●
●
● ● ●
●● ●
●
●●
●
● ●
●
●
● ●
●●
●
Y
●
●
● ●
● ●
●
● ●
● ●
●
●
−1
● ●● ● ●● ●
−1500
Y
−1000
●
●
●
●
1
● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●
● ●● ● ●● ● ● ●● ●
●
● ●
●
−2500
0
Y
50
● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●●● ● ●● ●● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ●● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ●● ● ●● ● ●●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●
● ●● ● ● ●● ● ●● ● ●●● ●●●● ●●●●●● ●●●● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●●
2
0
●
● ●● ● ●●● ● ● ● ●●● ● ●● ●●●● ●●●● ● ●
●
●
−3
●
−60
−40
−20
0
20
40
60
X
liaison polynomiale
R´ egression lin´ eaire multiple
−40
−20
0
20
40
X
pas de liaison
Version - 19 f´ evrier 2015
4 / 91
Coefficient de corr´ elation (Rappels)
D´ efinition
Coefficient de corr´elation lin´eaire Coefficient de corr´ elation th´ eorique . ρXY =
.
σXY ∈ [−1; 1] σX σY
Coefficient de corr´ elation de Bravais-Pearson ρ est estim´e par . r= .
Micha¨ el Genin (Universit´ e de Lille 2)
∑n (xi − x¯)(yi − y¯ ) sxy = √∑ i=1 ∑n n sx sy ¯)2 i=1 (yi − y¯ )2 i=1 (xi − x
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
7 / 91
Coefficient de corr´ elation (Rappels)
Test du coefficient de corr´ elation
Test de la significativit´e de ρ Principe du test : Test de la nullit´e du coefficient de corr´elation. Si ρ = 0 alors il n’y a pas de liaison lin´eaire entre X et Y Si ρ ̸= 0 alors il existe une relation lin´eaire entre X et Y Condition d’application : X ∼ N (µ1 , σ1 ) et Y ∼ N (µ2 , σ2 ) En pratique : V´erification de X et Y ”a peu pr`es normales” (sym´etrique) car test robuste (n grand) Hypoth`eses du test
Statistique de test Sous H0 , . . Micha¨ el Genin (Universit´ e de Lille 2)
{
H0 : ρ = 0 H1 : ρ ̸= 0
√ R n−2 T = √ ∼ Tn−2 1 − R2 R´ egression lin´ eaire multiple
ddl
Version - 19 f´ evrier 2015
9 / 91
Coefficient de corr´ elation (Rappels)
Conclusions
Conclusions
Le coefficient de corr´elation permet de mesurer le lien lin´eaire entre deux variables quantitatives X et Y . On peut ´egalement cherche `a mod´eliser le lien entre X et Y afin de r´ealiser des pr´edictions : Exprimer Y en fonction de X Ex : Pr´edire la FCM d’un patient en ne connaissant que son ˆ age
Le coefficient de corr´elation n’est pas suffisant Recours `a la r´egression lin´eaire : Y = β1 X + β0 + ϵ O` u Y est la variable `a expliquer et X la variable explicative
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
11 / 91
R´ egression lin´ eaire simple (Rappels)
Cadre d’´ etude Y est un caract`ere non contrˆol´e (caract`ere expliqu´e) X est un caract`ere contrˆol´e (caract`ere explicatif) Consid´erons un ´echantillon de n observations i.i.d. : I = {1, . . . , n} yi est la valeur observ´ee pour l’individu i xi est la valeur fix´ee pour l’individu i Objectif : Exprimer le lien entre Y et X . Y = f (X ) + ϵ Il existe une infinit´e de liaisons fonctionnelles −→ la plus simple est lin´eaire R´ egression lin´ eaire simple 1. Mod` ele de r´egression . Droite de r´egression au sens des moindres carr´es
2
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
13 / 91
R´ egression lin´ eaire simple (Rappels)
Mod` ele de r´ egression lin´ eaire simple
Mod` ele de r´ egression lin´ eaire ∀i ∈ I , yi est la r´ealisation de la v.a.r. Yi telle que . Yi = β1 xi + β0 + ϵi . Avec ϵi : erreur du mod`ele (v.a.r.) (part de variabilit´e de Y qui n’est pas expliqu´ee par le lien fonctionnel lin´eaire) β0 , β1 : coefficients du mod`ele, constantes (valeurs fixes dans la population). Hypoth` eses du mod` ele E[ϵi ] = 0, V[ϵi ] = σ 2 (hypoth`ese d’homosc´edasticit´e) L’erreur est ind´ependante de X → Cov(xi , ϵi ) = 0 Les ϵi , 1 ≤ i ≤ n, sont mutuellement ind´ependantes (absence d’autocorr´elation des r´esidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j. ϵi ∼ N (0, σ 2 ) (normalit´e des r´esidus) → tests dans le mod`ele
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
15 / 91
R´ egression lin´ eaire simple (Rappels)
M´ ethode des moindres carr´ es ordinaires
Droite de r´ egression au sens des moindres carr´ es Objectif : estimer β0 et β1 grˆace `a leur estimateurs B0 et B1 et leur r´ealisations b0 et b1 sur un ´echantillon d’observations i.i.d. de taille n. Trouver b0 et b1 qui minimisent un crit`ere d’ajustement. ⇒ M´ethode des moindres carr´es ordinaires . n n ∑ ∑ 2 S(β0 , β1 ) = (ei )2 = (yi − (β1 xi + β0 )) i=1 i=1 . → min S(β0 , β1 ) D´eriv´ees partielles → Syst`emes aux ´equations normales . sxy Solutions : b1 = 2 et b0 = y¯ − b1 x¯ sx . .. D´ etails
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
17 / 91
R´ egression lin´ eaire simple (Rappels)
M´ ethode des moindres carr´ es ordinaires
Droite de r´ egression au sens des moindres carr´ es La droite de r´egression au sens des moindres carr´es a pour expression : . ybi = b1 xi + b0 . C’est une estimation du mod`ele de r´egression par la m´ethode des moindres carr´es. Les erreurs observ´ees sur l’´echantillon sont appel´es r´esidus. . ei = (yi − ybi ) = yi − b1 xi − b0 .
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
18 / 91
R´ egression lin´ eaire simple (Rappels)
Qualit´ e de l’ajustement
Qualit´e de l’ajustement Equation d’analyse de la variance yi − y¯ = (ybi − y¯ ) + (yi − ybi ) (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 n n n ∑ ∑ ∑ (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 i=1
.
n ∑ (yi − y¯ )2 i=1
.
| {z } Somme des carr´es totale SCT
Micha¨ el Genin (Universit´ e de Lille 2)
i=1
=
n ∑ (ybi − y¯ )2 i=1
| {z } Somme des carr´es expliqu´ee SCE
R´ egression lin´ eaire multiple
i=1
+
n ∑ (yi − ybi )2 i=1
| {z } Somme des carr´es r´esiduelle SCR
Version - 19 f´ evrier 2015
20 / 91
R´ egression lin´ eaire simple (Rappels)
Qualit´ e de l’ajustement
Qualit´e de l’ajustement Evaluation de la qualit´ e d’ajustement du mod` ele ⇒ Coefficient de d´etermination . R2 =
.
SCE ∈ [0, 1] SCT
Interpr´etation : Part de variabilit´e de Y expliqu´ee par le mod`ele de r´egression lin´eaire. Remarque importante : le carr´e du coefficient de corr´elation lin´eaire est ´egal au coefficient de d´etermination : r 2 = R2 Cons´equence : deux tests statistiques ´equivalents pour ´evaluer la liaison lin´eaire entre X et Y . Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
21 / 91
R´ egression lin´ eaire simple (Rappels)
Validit´ e du mod` ele
Etude de la validit´e du mod`ele Etude des r´ esidus : V´erification des hypoth`eses du mod`ele faites sur les erreurs V´erifier la normalit´e des r´esidus observ´es (Droite de Henry) V´erifier que les r´esidus ne contiennent pas d’information structur´ee (V[ϵ] = σ 2 ) Les r´esidus ne d´ependent pas de X (Graphiques) V´erifier que les r´esidus ne sont pas auto-corr´el´es entre eux (les ϵi sont mutuellement ind´ependantes) (Test de Durbin Watson) → Ces hypoth`eses vont permettre par la suite de r´ealiser des tests dans le mod`ele lin´eaire. Observations aberrantes / influentes Valeur aberrante de x (Descriptif univari´e) Observation i mal reconstitu´ee par la r´egression → (ei ´elev´e) (r´esidus studentis´es) Observation i pr´esentant un poids exag´er´e dans la r´egression (pr´ediction / coefficients) (distance de Cook) Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
23 / 91
R´ egression lin´ eaire simple (Rappels)
Validit´ e du mod` ele
Conclusion sur l’´etude de la validit´e du mod`ele
Etape tr`es importante !! . Descriptif univari´e 2. Estimation des coefficients du mod` ele 3. V´ erification des hypoth`eses sur les erreurs 4. D´ etection d’observations influentes 1
Si OUI : Correction ou suppression Nouvelle estimation des coefficients
Apr`es ces ´etapes : Inf´ erence statistique
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
24 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale R 2 permet d’´evaluer la qualit´e de l’ajustement. L’information emmen´ee par la r´egression de Y par X traduit-elle une relation qui existe vraiment dans la population ? Table : Tableau ANOVA Source de variation Expliqu´ee R´esiduelle Totale
Somme des carr´es ∑ SCE = i (ˆ y − y¯ )2 ∑ i SCR = i (yi − yˆi )2 ∑ SCT = i (yi − y¯ )2
DDL 1 n−2
Carr´es moyens CME = CMR =
n−1
SCE 1 SCR n−2
-
Degr´es de libert´e : SCT n´ecessite l’estimation y¯ → n − 1 ddl SCR n´ecessite l’estimation de β0 et β1 pour yˆi → n − 2 ddl SCE par d´eduction : (n − 1) − (n − 2) = 1 ddl Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
26 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale Le test F permet d’´evaluer la significativit´e globale de la r´egression. { H0 : La variabilit´e expliqu´ee est identique `a la variabilit´e r´esiduelle H1 : La variabilit´e expliqu´ee est sup´erieure `a la variabilit´e r´esiduelle Sous H0 . F =
. Interpr´etation :
CME ∼ F1,n−2 ddl CMR
{ H0 : ”Le mod`ele est non explicatif” H1 : ”Le mod`ele est explicatif”
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
27 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation des coefficients - β1 Test de significativit´ e de β1 Id´ee : tester la nullit´e de β1 . { H0 : β1 = 0 ”X n’a aucun pouvoir explicatif sur Y” H1 : β1 ̸= 0 ”X a un pouvoir explicatif sur Y” Nous savons que
B1 −β1 σ bB1
∼ Tn−2 , par cons´equent sous H0
. B1 ∼ Tn−2 σ bB1
. Intervalle de confiance de β1 . 1−α β1
IC
= b1 ± t(1−α/2;n−2) √∑
n i=1 (xi
. Micha¨ el Genin (Universit´ e de Lille 2)
sn−2
R´ egression lin´ eaire multiple
− x¯)2 Version - 19 f´ evrier 2015
28 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation des coefficients - β1 Equivalence avec le test de significativit´ e globale Uniquement dans le cas de la r´egression lin´eaire simple, observons que ∑n ˆ ∑n ¯ 2 ¯ 2 SCE /1 i=1 (Yi − Y ) i=1 (B1 xi + B0 − Y ) F = = = 2 2 SCR/(n − 2) Sn−2 Sn−2 ∑n ∑ n (B1 xi + (Y¯ − B1 x¯) − Y¯ )2 B2 (xi − x¯)2 B12 F = i=1 = 1 i=12 = 2 S2 sn−2 sn−2 ∑n n−2 F =
B12 = σ bB2 1
(
B1 σ bB1
x )2 i=1 (xi −¯
)2 .
Note : Equivalence entre la loi de Student et la loi de Fisher. (
Micha¨ el Genin (Universit´ e de Lille 2)
T(n−2)
)2
≡ F(1,n−2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
29 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation des coefficients - β1 Equivalence avec le test de significativit´ e de ρ Observons que SCE /1 (n − 2)SCE (n − 2)SCE (n − 2)R 2 = = = SCR/(n − 2) SCR SCT − SCR 1 − R2 √ r n−2 T =√ 1 − r2 F =
or R 2 = r 2 donc 2
F = (T ) ( Et comme F =
B1 σ bB1
)2 , on conclue que ( 2
F = (T ) =
Micha¨ el Genin (Universit´ e de Lille 2)
B1 σ bB1
R´ egression lin´ eaire multiple
)2
Version - 19 f´ evrier 2015
30 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation des coefficients - β1 Dans le cas d’une r´egression lin´eaire simple de type : Y = β1 X + β0 + ϵ . Tester la significativit´e globale du mod`ele ≡ Tester la significativit´e de β1 ≡ Tester la significativit´e de ρ
.
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
31 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation des coefficients - β1
Lien entre test et intervalle de confiance 1−α
ICθ
= {θ0 /H0 = {θ = θ0 } est accept´e au niveau de confiance 1 − α}
Cons´equences : pour tester H0 : β1 = 0 au risque α, on peut simplement v´erifier si 0 appartient ou non `a l’intervalle de confiance : Si 0 ∈ IC alors on conserve H0 Si 0 ∈ / IC alors on rejette H0
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
32 / 91
R´ egression lin´ eaire simple (Rappels)
Inf´ erence statistique
Evaluation des coefficients - β0 Test de significativit´ e de β0 Id´ee : tester la nullit´e de β0 . { H0 : β0 = 0 ”L’ordonn´ee `a l’origine n’est pas significative” H1 : β0 ̸= 0 ”L’ordonn´ee `a l’origine est significative” Nous savons que
B0 −β0 σ bB0
∼ Tn−2 , par cons´equent sous H0
. B0 ∼ Tn−2 σ bB0
. Intervalle de confiance de β0 . [ 1−α β0
IC
√
= b0 ± t(1−α/2;n−2) sn−2
. Micha¨ el Genin (Universit´ e de Lille 2)
x¯2 1 + ∑n n ¯)2 i=1 (xi − x
R´ egression lin´ eaire multiple
]
Version - 19 f´ evrier 2015
33 / 91
R´ egression lin´ eaire simple (Rappels)
Pr´ ediction
Intervalle de pr´ediction d’une observation
Contexte : Le mod`ele de r´egression ayant ´et´e valid´e, il est possible d’estimer la valeur de yn+1 pour une observation xn+1 n’appartenant pas `a l’´echantillon : ybn+1 = b1 xn+1 + b0 Or ybn+1 n’est qu’une estimation de la ”vraie droite de r´egression” dans la population. Une estimation ponctuelle ne suffit pas, il faut lui associer un intervalle de confiance : . √ ] [ 1−α
IC
yn+1
= ybn+1 ± t(1−α/2;n−2) sn−2
1+
.
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
(xn+1 − x¯)2 1 + ∑n n ¯ )2 i=1 (xi − x
Version - 19 f´ evrier 2015
35 / 91
R´ egression lin´ eaire simple (Rappels)
Pr´ ediction
Intervalle de pr´ediction d’une observation . 1−α
IC
yn+1
√
[ = ybn+1 ± t(1−α/2;n−2) sn−2
.
1 (xn+1 − x¯)2 1 + + ∑n n ¯ )2 i=1 (xi − x
]
Quelques remarques La taille du rayon de l’intervalle de confiance sera d’autant plus faible que 2 sn−2 est faible → la r´egression est de bonne qualit´e n est ´elev´e x∑ ¯ ↔ (xn+1 − x¯)2 est faible n+1 est proche de x n 2 (x − x ¯ ) est ´ e lev´e → les xi sont bien dispers´es i i=1
Attention : utiliser des valeurs de x qui sont dans le cadre d’´etude (relativement proches de x¯ pour obtenir de bonnes pr´edictions.
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
36 / 91
R´ egression lin´ eaire simple (Rappels)
Mise en ´evidence d’un probl` eme
Mise en ´evidence d’un probl`eme Vente de CD et cas de grippe H1N1 en 2009 R´egion
Nb cas de grippe H1N1
Nb ventes CD M.J.
R´egion 1 R´egion 2 . . R´egion n
. . . . .
. . . . .
Il existe une liaison lin´eaire significative . . . Test de ρ : p < 1.10−4 , Test de β1 : p < 1.10−4
. . . mais pas de relation de cause `a effet ! Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
38 / 91
R´ egression lin´ eaire simple (Rappels)
Mise en ´evidence d’un probl` eme
Mise en ´evidence d’un probl`eme Existence de Facteurs de confusion (ici : la p´eriode de temps) Exemple : vente de CD de MJ les plus fortes en automne alors { ↗ ventes Pour la mˆeme p´eriode : ↗ cas de grippes
Temps
Grippe
Ventes
Figure : Diagramme de corr´elation Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
39 / 91
R´ egression lin´ eaire simple (Rappels)
Mise en ´evidence d’un probl` eme
Mise en ´evidence d’un probl`eme
N´ecessit´e de pouvoir ajuster sur des facteurs de confusion Dans de nombreuses situations, plusieurs facteurs peuvent expliquer un caract`ere Y = f (X1 , X2 , . . . , Xp ) R´egression lin´eaire multiple
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
40 / 91
R´ egression lin´ eaire multiple
Cadre d’´ etude Y est un caract`ere non contrˆol´e (caract`ere expliqu´e) X1 , X2 , . . . Xp sont des caract`eres contrˆol´es (caract`eres explicatifs) Consid´erons un ´echantillon de n observations i.i.d. : I = {1, . . . , n} yi est la valeur observ´ee pour l’individu i xij est la valeur fix´ee pour l’individu i et la variable j, j ∈ {1, 2, . . . , p} Objectif : Exprimer le lien entre Y et les Xj . Y = f (X1 , X2 , . . . , Xp ) + ϵ Il existe une infinit´e de liaisons fonctionnelles −→ la plus simple est lin´eaire R´ egression lin´ eaire multiple 1. Mod` ele de r´egression . Hyperplan de r´egression au sens des moindres carr´es
2
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
42 / 91
R´ egression lin´ eaire multiple
Mod` ele de r´ egression lin´ eaire multiple
Mod` ele de r´ egression lin´ eaire multiple ∀i ∈ I , yi est la r´ealisation de la v.a.r. Yi telle que . Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip + ϵi = β0 +
p ∑
βj xij + ϵi
j=1
.
Avec ϵi : erreur du mod`ele (v.a.r.) (part de variabilit´e de Y qui n’est pas expliqu´ee par le lien fonctionnel lin´eaire) β0 , β1 , . . . , βp : coefficients du mod`ele, constantes (valeurs fixes dans la population). Hypoth` eses du mod` ele E[ϵi ] = 0, V[ϵi ] = σ 2 (hypoth`ese d’homosc´edasticit´e) L’erreur est ind´ependantes des Xj → COV(xij , ϵi ) = 0 ϵi ∼ N (0, σ 2 ) (normalit´e des r´esidus) → tests dans le mod`ele Les ϵi , 1 ≤ i ≤ n, sont mutuellement ind´ependantes (absence d’autocorr´elation des r´esidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j. Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
44 / 91
R´ egression lin´ eaire multiple
Mod` ele de r´ egression lin´ eaire multiple
Ecriture du mod` ele Sur un ´echantillon de n observations i.i.d. : Y1 Y2
= β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2 .. .
Yn
= β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn
Ecriture matricielle Y1 Y = ... β = Yn
β0 .. . βp
1 .. X= . 1
Y= X. n × 1 n × (p + 1)
Micha¨ el Genin (Universit´ e de Lille 2)
x11 .. .
x12 .. .
xn1
xn2
··· .. . ···
x1p .. ϵ = . xnp
ϵ1 .. . ϵn
β +ϵ (p + 1) × 1 n × 1
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
45 / 91
R´ egression lin´ eaire multiple
M´ ethode des moindres carr´ es ordinaires
Hyperplan de r´ egression au sens des moindres carr´ es Objectif : estimer β0 , β1 , . . . , βp grˆace `a leur estimateurs B0 , B1 , B2 , . . . , Bp et leur r´ealisations b0 , b1 , b2 , . . . , bp sur un ´echantillon d’observations i.i.d. de taille n. B0 b0 β0 β = ... B = ... b = ... βp
Bp
bp
Trouver b qui minimisent l’erreur : .
2 p n n ∑ ∑ ∑ yi − β0 − S(β0 , . . . , βp ) = (ϵi )2 = βj xij = ||ϵ||2 i=1
. .
i=1
j=1
( )−1 T Solution : b = XT X X Y
.
Remarque : B est appel´e estimateur des moindres carr´es de β. Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
.. D´ etails
Version - 19 f´ evrier 2015
47 / 91
R´ egression lin´ eaire multiple
M´ ethode des moindres carr´ es ordinaires
Hyperplan de r´ egression au sens des moindres carr´ es L’ hyperplan de r´egression au sens des moindres carr´es a pour expression : . p ∑ ybi = b0 + bj xij j=1 . C’est une estimation du mod`ele de r´egression multiple par la m´ethode des moindres carr´es. Les erreurs observ´ees sur l’´echantillon sont appel´es r´esidus. . p ∑ ei = (yi − ybi ) = yi − b0 − bj xij j=1 .
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
48 / 91
R´ egression lin´ eaire multiple
M´ ethode des moindres carr´ es ordinaires
Propri´ et´ es des estimateurs - Moments (1) . E[B] = β estimateur sans biais
. .
( )−1 V[B] = σ 2 XT X
.
.. D´ etails
V[B](p+1)×(p+1) est appel´ee matrice de variances - covariances des coefficients : 2 σ bB0 COV (B0 , B1 ) . . . COV (B0 , Bp ) · σ bB2 1 . . . COV (B1 , Bp ) .. . · ... · ·
Micha¨ el Genin (Universit´ e de Lille 2)
·
...
R´ egression lin´ eaire multiple
σ bB2 p
Version - 19 f´ evrier 2015
49 / 91
R´ egression lin´ eaire multiple
M´ ethode des moindres carr´ es ordinaires
Propri´ et´ es des estimateurs - Moments (2) La matrice de variances - covariances V[B] fait intervenir la variance de l’erreur σ2 . Cette variance est inconnue 2 Elle est estim´ee par Sn−p−1 au moyen du tableau d’ANOVA. On montre que . 2 Sn−p−1
.
∑n 2 (Ei ) SCR = = i=1 n−p−1 n−p−1
est un estimateur non biais´e de σ 2 .
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
50 / 91
R´ egression lin´ eaire multiple
M´ ethode des moindres carr´ es ordinaires
Propri´ et´ es des estimateurs - Distributions d’´ echantillonnage De par les hypoth`eses du mod`ele et l’estimation de σ 2 , on montre que ∀j ∈ {0, 1, . . . , p} . Bj − βj ∼ Tn−p−1 d.d.l. σ bBj . avec σ bBj tir´e de la matrice de variances-covariances. Ces distributions vont nous permettre de r´ealiser une inf´erence statistique sur les coefficients (tests de nullit´e et intervalles de confiance).
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
51 / 91
R´ egression lin´ eaire multiple
Qualit´ e de l’ajustement
Qualit´e de l’ajustement Equation d’analyse de la variance yi − y¯ = (ybi − y¯ ) + (yi − ybi ) (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 n n n ∑ ∑ ∑ (yi − y¯ )2 = (ybi − y¯ )2 + (yi − ybi )2 i=1
.
n ∑ (yi − y¯ )2 i=1
.
| {z } Somme des carr´es totale SCT
Micha¨ el Genin (Universit´ e de Lille 2)
i=1
=
n ∑ (ybi − y¯ )2 i=1
| {z } Somme des carr´es expliqu´ee SCE
R´ egression lin´ eaire multiple
i=1
+
n ∑ (yi − ybi )2 i=1
| {z } Somme des carr´es r´esiduelle SCR
Version - 19 f´ evrier 2015
53 / 91
R´ egression lin´ eaire multiple
Qualit´ e de l’ajustement
Qualit´e de l’ajustement Evaluation de la qualit´ e d’ajustement du mod` ele ⇒ Coefficient de d´etermination . R2 =
.
SCE ∈ [0, 1] SCT
Interpr´etation : Part de variabilit´e de Y expliqu´ee par le mod`ele de r´egression lin´eaire multiple. Remarque importante : R 2 est fonction du nombre variables explicatives dans le mod`ele (mˆeme non pertinentes) p ↗ → R2 ↗ Aussi : tests de significativit´e des coefficients, s´election de variables (mod`ele parcimonieux) Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
54 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Etude de la validit´e du mod`ele Etude des r´ esidus : V´erification des hypoth`eses du mod`ele faites sur les erreurs V´erifier la normalit´e des r´esidus observ´es V´erifier que les r´esidus ne contiennent pas d’information structur´ee (V[ϵ] = σ 2 ) Les r´esidus ne d´ependent pas des Xj V´erifier que les r´esidus ne sont pas auto-corr´el´es entre eux (les ϵi sont mutuellement ind´ependantes) → Ces hypoth`eses vont permettre par la suite de r´ealiser des tests dans le mod`ele lin´eaire. Observations aberrantes / influentes Valeur aberrante d’une observation (diagnostic univari´e, multivari´e) Observation i mal reconstitu´ee par la r´egression → (ei ´elev´e) Observation i pr´esentant un poids exag´er´e dans la r´egression (pr´ediction / coefficients) Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
56 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Etude des r´esidus
V´ erification de la normalit´ e des r´ esidus histogramme ⇒ la distribution doit ˆetre unimodale et sym´etrique autour de 0. Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peu puissants (peu aptes `a rejeter H0 ) Droite de Henry ⇒ confronte les quantiles th´eoriques de la loi normale et la distribution cumul´ee estim´ee sur les donn´ees
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
57 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Etude des des r´ r´ sidus Etude eesidus V´erification de l’homosc´edasticit´e des r´esidus
V´ erification de l’homosc´ edasticit´ e des r´ esidus
Les r´esidus sont homosc´edastiques si leur r´epartition est homog`ene Les r´eetsidus sont ditspas homosc´ dastiques dispersion est homog` et ne ne d´ epend des evaleurs desilaleur variable explicative (etene donc pas d´epend pas des valeurs de la variable explicative xj (et donc pas non plus des non plus des valeurs pr´edites). valeurs pr´edites). On v´erifie que les r´esidus n’ont pas de structure particuli`ere en On v´erifie que les r´esidus n’ont pas de structure particuli`ere en tra¸cant un graphe cant: un graphe des r´esidus : des r´etra¸ sidus Residus correles
4
Residus non correles
● ●
●
2 ●
0
Residus
●● ● ● ● ● ●
−2
● ●● ●
●
●
● ●
●
●
●
●
●●
● ● ● ● ● ●
● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●
● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ● ● ●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
●
1
● ●● ●●●
●● ● ● ●
● ●●
● ●
●
● ●
●●
●
● ● ● ● ● ●●● ● ● ● ●● ●
0
● ●
●
●
●
● ●
● ●
● ● ● ● ●● ● ● ● ● ● ●● ●
●● ● ● ● ● ● ●● ● ●●● ●● ●● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ●● ●
● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ●●
● ●
●●
●
●● ●
Residus
2
●●
●
●
●
−1
●
●●
●
●
●● ● ●
● ●
●● ● ●
●
−2
−4
●
−40
−20
0
20
●
40
X
Micha¨ el Genin (Universit´ e de Lille 2)
●
−40
−20
0
20
40
X
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
58 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Etude des r´esidus
On peut localiser des points du nuage mal expliqu´es par la relation lin´eaire en tra¸cant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1 on peut consid´erer ces points, si ils ne sont pas trop nombreux, comme des points exceptionnels, les ´eliminer et recalculer b1 et b0 . on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindres 2 carr´es pond´er´es (fonction de l’´ecart |y − yˆ |/2sn−p−1 ). M´ethode plus robuste si il y a beaucoup de points mal expliqu´es (en dehors de la bande), c’est que le mod`ele est mal choisi.
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
59 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Etude des r´esidus
6
graphe des residus
4
●
●
2
● ●
0
●
●
−2
residus
●
●
●
●
−4
●
●
−6
●
25
30
35
40
45
50
55
age
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
60 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Etude des r´esidus V´ erification de l’ind´ ependance entre les r´ esidus Test de Durbin Watson { H0 : il n’y a pas de corr´elation entre ϵi et ϵi−1 H1 : il y a une corr´elation entre ϵi et ϵi−1 .
∑n
(e − ei−1 )2 i=2 ∑ni 2 i=1 ei
d= .
La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pas d’autocorr´elation. La loi de d est tabul´ee : DL et DU bornes au risque α. 0
DL
AC Positive Rejet H0
Micha¨ el Genin (Universit´ e de Lille 2)
DU ?
2
4-DU
Pas d’AC Non Rejet de H0
4-DL ?
R´ egression lin´ eaire multiple
4
AC Négative Rejet H0
Version - 19 f´ evrier 2015
61 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Observations aberrantes / influentes Valeur aberrante de xj (Univari´ e) → Boxplot Effet important sur l’estimation de l’hyperplan de r´egression
10
20
30
40
50
Mauvais ajustement aux donn´ees Solution : descriptif univari´e → boxplot
●
Probl`eme : Ne prend pas en compte les interactions possibles entre les Xj . Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
62 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Observations aberrantes / influentes
Valeur aberrante (Multivari´ e) → Levier Principe : Pour une observation i, mesure la distance avec le centre de gravit´e du nuage d´efini par les Xj , j ∈ {1, , . . . , p} Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) : ( )−1 T H = X XT X X En pratique . .
( )−1 T hii = hi = xi XT X xi
avec xi la i`eme ligne de la matrice X.
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
63 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Observations aberrantes / influentes
Valeur aberrante (Multivari´ e) → Levier R`egle de d´ecision . R.C . : hi > 2 ×
.
p+1 n
Permet de d´etecter des observations aberrantes / influentes d’un point de vue multivari´e Effet n´efaste sur l’estimation des βj par les MCO
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
64 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Observations aberrantes / influentes R´ esidus studentis´ es internes Id´ee : Mettre en ´evidence les observations dont le r´esidu ei est important Pour une observation i, le r´esidu studentis´e interne est d´efini par : . ei √ ti = sn−p−1 1 − hi . avec hi levier de l’observation i. On montre que Ti ∼ T(n−p−1) . D’o` u: 1−α/2
RC : |ti | > tn−p−1 Probl`eme : L’observation ´evalu´ee a particip´e `a la construction de la droite (Juge et partie).
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
65 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Observations aberrantes / influentes R´ esidus studentis´ es externes Id´ee : Estimer le mod`ele sans l’observation i (−i) et comparer la valeur observ´ee de yi `a celle pr´edite par le mod`ele (ˆ yi (−i) : pr´ediction pour une nouvelle observation). Pour une observation i, le r´esidu studentis´e externe est d´efini par : . yi − yˆi (−i) √ ti∗ = s n−p−1 (−i) 1 − hi (−i) . On montre que Ti∗ ∼ T(n−p−1) . D’o` u:
RC : |ti∗ | > tn−p−1 1−α/2
√
Remarque : ti∗
Micha¨ el Genin (Universit´ e de Lille 2)
=
n−p−2 n − p − 1 − ti2
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
66 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Observations aberrantes / influentes Distance de Cook Id´ee : Evaluer l’influence d’une observation i sur l’estimation des coefficients. Comparaison des pr´edictions du mod`ele complet et du mod`ele sans l’observation i. La distance de Cook pour une observation i est d´efinie par . ∑n 2 j=1 (yˆj − yˆj (−i)) Di = 2 (p + 1)sn−p−1 . R`egle de d´ecision RC : Di > 1 RC : Di >
4 n−p−1
(Ajustement sur le nombre de variables)
Si la diff´erence entre les pr´edictions est ´elev´ee, l’observations i joue un rˆole sur l’estimation des coefficients.
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
67 / 91
R´ egression lin´ eaire multiple
Validit´ e du mod` ele
Observations aberrantes / influentes DFBETAS Id´ee : Si la distance de COOK a identifi´e une observation ayant une influence sur l’estimation des coefficients, on peut aller plus loin pour d´eterminer quel coefficient est affect´e. Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, le DFBETAS est d´efini par : . bj − bj (−i) √ DFBETASi,j = −1 sn−p−1 (−i) (XT X)j . R`egle de d´ecision 2 RC : |DFBETASi,j | > √ n
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
68 / 91
R´ egression lin´ eaire multiple
Inf´ erence statistique
Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale R 2 permet d’´evaluer la qualit´e de l’ajustement. L’information emmen´ee par la r´egression de Y par les Xj traduit-elle une relation qui existe vraiment dans la population ? Table : Tableau ANOVA Source de variation Expliqu´ee R´esiduelle Totale
Somme des carr´es ∑ SCE = i (ˆ y − y¯ )2 ∑ i SCR = i (yi − yˆi )2 ∑ SCT = i (yi − y¯ )2
DDL
Carr´es moyens
p n−p−1
CME = CME p CMR CMR = n−p−1
n−1
-
Degr´es de libert´e : SCT n´ecessite l’estimation y¯ → n − 1 ddl SCR n´ecessite l’estimation des βj pour yˆi → n − (p + 1) ddl SCE par d´eduction : (n − 1) − (n − p − 1) = 1 ddl Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
70 / 91
R´ egression lin´ eaire multiple
Inf´ erence statistique
Evaluation globale de la r´egression Tableau d’analyse de variance - Test de significativit´ e globale Le test F permet d’´evaluer la significativit´e globale de la r´egression. { H0 : β1 = β2 = . . . = βp = 0 H1 : ∃j/βj ̸= 0 Sous H0 . F =
. Interpr´etation :
CME ∼ Fp,n−p−1 ddl CMR
{ H0 : ”Le mod`ele est non explicatif” H1 : ”Le mod`ele est explicatif”
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
71 / 91
R´ egression lin´ eaire multiple
Inf´ erence statistique
Evaluation des coefficients - βj Test de significativit´ e de βj Id´ee : tester la nullit´e de βj . { H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y” H1 : βj ̸= 0 ”Xj a un pouvoir explicatif sur Y” Nous savons que Sous H0 .
Bj −βj σ bBj
∼ Tn−p−1 , par cons´equent :
Bj ∼ Tn−p−2 σ bBj
. Intervalle de confiance de βj . 1−α
ICβ
. Micha¨ el Genin (Universit´ e de Lille 2)
j
[ ] = bj ± t(1−α/2;n−p−1) σ bBj R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
72 / 91
R´ egression lin´ eaire multiple
Pr´ ediction
Intervalle de pr´ediction d’une observation Contexte : Le mod`ele de r´egression ayant ´et´e valid´e, il est possible d’estimer la valeur de yn+1 pour une observation Xn+1 n’appartenant pas `a l’´echantillon : Xn+1 = (xn+1,1 , xn+1,2 , . . . , xn+1,p ) ybn+1 = b0 +
p ∑
bj xn+1,j
j=1
ybn+1 = Xn+1 .b Or ybn+1 n’est qu’une estimation du ”vrai hyperplan de r´egression” dans la population. Une estimation ponctuelle ne suffit pas, il faut lui associer un intervalle de confiance : . [ ] √ 1−α T X)−1 XT b y ± t s = 1 + X (X n+1 n+1 (1−αr ;n−p−1) n−p−1 yn+1 n+1 .
IC
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
74 / 91
R´ egression lin´ eaire multiple
D´ etection et traitement de la colin´ earit´ e
D´efinition et cons´equences de la colin´earit´e D´ efinition Une variable explicative Xj est colin´eaire `a une autre variable Xk lorsque rXj ,Xk > 0.8. Une variable explicative Xj est multicolin´eaire aux autres variables lorsque ′
′
′
′
′
Xj = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp , elle peut s’´ecrire comme une combinaison lin´eaire des autres variables explicatives. Cons´ equences Valeurs/Signes des coefficients contraires `a l’intuition Variances estim´ees des coefficients trop importantes Coefficients non significatifs (inf´erence statistique) Instabilit´e du mod`ele Risque de passer `a cˆot´e d’une variable importante (redondance) Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
76 / 91
R´ egression lin´ eaire multiple
D´ etection et traitement de la colin´ earit´ e
D´etection de la colin´earit´e Variance Inflation Factor - VIF Principe : Pour chaque Xj , r´ealisation de la r´egression de Xj avec les autres variables explicatives. On note Rj2 le coefficient de d´etermination associ´e `a cette r´egression. Pour une variable Xj , le VIF est d´efini par . 1 VIFj = 1 − Rj2 . La valeur du VIF sera d’autant plus forte que Xj est une combinaison lin´eaire des autres variables. R`egle de d´ecision VIFj ≥ 4 Rq : D´etermination des variables incrimin´ees dans la combinaison lin´eaire → Cercle des corr´elations (ACP) Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
77 / 91
R´ egression lin´ eaire multiple
D´ etection et traitement de la colin´ earit´ e
D´etection de la colin´earit´e
Variance Inflation Factor - VIF Remarque : σB2 j =
σ2 VIFj n
Donc : Plus la valeur de VIFj est importante plus σB2 j sera importante Estimation instable Probl`eme de significativit´e du coefficient
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
78 / 91
R´ egression lin´ eaire multiple
D´ etection et traitement de la colin´ earit´ e
Traitement de la colin´earit´e Approche ”m´ etier” Mise en ´evidence de plusieurs variables explicatives colin´eaires (VIF + ACP) Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pour l’analyse Approche statistique M´ethode de s´election de variables (Forward, Backward, Stepwise) Mais si toutes les variables sont pertinentes ? R´egression sur les composantes principales de l’ACP R´egression ridge R´egression PLS
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
79 / 91
R´ egression lin´ eaire multiple
S´ election de variables
Motivations - Crit`ere de s´election de variables Motivations S´election d’un sous-ensemble de Xj pertinentes et non redondantes qui expliquent au mieux Y Principe du rasoir d’Occam → Mod`eles parcimonieux Mod`ele plus simple, lisible, robuste, stable Nombre restreint de variables explicatives (collecte des donn´ees)
Traitement de la multicolin´earit´e Crit` ere de s´ election de variables Retrait ou ajout d’une variable Xj dans le mod`ele en fonction de sa valeur du Fj partiel de Fisher : . ( )2 Bj Fj = ∼ F1,n−p−1 σ bBJ . .. D´ etails
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
81 / 91
R´ egression lin´ eaire multiple
S´ election de variables
Motivations - Crit`ere de s´election de variables Autres crit` eres de s´ election de variables R 2 ajust´e
¯ 2 = 1 − SCR/(n − p − 1) R SCT /(n − 1)
AIC (`a minimiser)
( AIC = n ln
SCR n
) + 2(p + 1)
BIC de Schwartz (`a maximiser) ( BIC = n ln
SCR n
) + ln(n)(p + 1)
etc. . .
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
82 / 91
R´ egression lin´ eaire multiple
S´ election de variables
M´ethodes de s´election de variables M´ ethode ascendante (Forward) Principe : On part du mod`ele sans Xj . On ajoute successivement les Xj qui sont significatifs au sens du F partiel de Fisher et on s’arrˆete lorsqu’on ne peut plus ajouter de Xj (NS dans le mod`ele) TANT QUE Condition d’arrˆet = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrˆet) Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ < αsle ALORS Ajout de Xj au mod`ele
SINON Arrˆet Fin TANT QUE Remarques : Plus αsle est ´elev´e plus le nombre de variables dans le mod`ele sera important En pratique : αsle = 0.2 Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
83 / 91
R´ egression lin´ eaire multiple
S´ election de variables
M´ethodes de s´election de variables M´ ethode ascendante (Forward) - Exemple Soient Y et X1 , X2 , X3 sur un ´echantillon de n = 50 observations Etape
Mod`ele
ddl
F (p-value)
1
Y = β0
1 ;50-1-1
X1 → 43 (3, 51.10−8 ) X2 → 150 (2, 22.10−16 ) X3 → 12 (1, 11.10−3 )
2
Y = β0 + β2 X2
1 ;50-2-1
X1 → 9 (4, 31.10−3 ) X3 → 2 (0.1639)
3
Y = β0 + β2 X2 + β1 X1
1 ;50-3-1
X3 → 0.7 (0.4071)
X3 n’est plus significative dans le mod`ele. Mod`ele final : Y = β0 + β2 X2 + β1 X1
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
84 / 91
R´ egression lin´ eaire multiple
S´ election de variables
M´ethodes de s´election de variables M´ ethode descendante (Backward) Principe : On part du mod`ele satur´e (toutes les Xj ). On retire successivement les Xj qui sont non significatifves au sens du F partiel de Fisher et on s’arrˆete lorsqu’on toutes les Xj sont significatives. TANT QUE Condition d’arrˆet = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrˆet) Choix de Fj∗ tel que Fj∗ = min{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ > αsls ALORS Retrait de Xj du mod`ele
SINON Arrˆet Fin TANT QUE Remarques : Plus αsls est faible plus le nombre de variables dans le mod`ele sera faible En pratique : αsls = 0.2 Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
85 / 91
R´ egression lin´ eaire multiple
S´ election de variables
M´ethodes de s´election de variables M´ ethode Stepwise Principe : ”Mix” entre les m´ethodes ascendante et descendante. On d´ebut par le mod`ele sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher (αsle ). Dans les ´etapes suivantes, on v´erifie que l’ajout d’une variable de conduit pas `a la non significativit´e (αsls ) des autres d´ej`a pr´esentes dans le mod`ele (phase descendante). Le processus se termine quand aucune Xj n’est significative lors de la phase ascendante. Avantage : Contrairement la m´ethode ascendante, une Xj introduite dans le mod`ele peut ˆetre remise en cause lors des ´etapes suivantes. En pratique : αsle = αsls = 0.2
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
86 / 91
R´ egression lin´ eaire multiple
S´ election de variables
M´ethodes de s´election de variables M´ ethode Stepwise On part du mod`ele : Y = β0 TANT QUE Condition d’arrˆet = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrˆet) Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ < αsle ALORS Ajout de Xj du mod`ele POUR Chaque Xj inclue dans le mod`ele FAIRE Calcul de Fj pour chaque Xj ∗ Choix( de Fj∗ tel ) que Fj = min{F1 , . . . , Fp } ∗ ∗ SI P Fj > fj > αsls ALORS Retrait de Xj du mod` ele
FIN POUR
SINON Arrˆet Fin TANT QUE Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
87 / 91
R´ egression lin´ eaire multiple
Conclusions
Processus de mod´ elisation 1. Estimation des coefficients (MCO) 2. Mesure de la qualit´ e d’ajustement (R 2 ) 3. Etude la validit´ e du mod`ele Si hypoth`eses sur les erreurs non v´erifi´ees → STOP Si observations aberrantes/influentes → Correction/Suppression Retour ` a l’Etape 1
. Inf´erence statistique
4
Test de significativit´e globale Tests de significativit´e des coefficients
. Evaluation de la multicolin´earit´e 6. S´ election de variables (Mod`ele parcimonieux) 5
Mod`ele restreint R´eit´eration des Etapes 1, 2, 3, 4
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
89 / 91
R´ ef´ erences
R´ef´erences Livres Probabilit´es Analyses des donn´ees et Statistique, G. Saporta, TECHNIP Dodge, Y, Rousson, V., Analyse de r´egression appliqu´ee, Dunod, 2`eme ´edition, 2004. Supports en ligne Econom´etrie - R´egression lin´eaire simple et multiple, R. Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf
Pratique de la r´egression lin´eaire multiple - Diagnostic et S´election de variables, R. Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf
R´egression lin´eaire, A. Guyader http: //www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
91 / 91
Annexe 1 - Syst`eme aux ´equations normales
min S(β0 , β1 ) = min
n ∑
(yi − (β1 xi + β0 ))
2
i=1 n ∑ [ 2 ] = min yi − 2xi yi β1 − 2yi β0 + β12 xi2 + 2β0 β1 xi + β02 i=1
S(β0 , β1 ) est strictement convexe donc elle admet un minimum au point unique (b0 , b1 ) d´etermin´e en annulant les d´eriv´ees partielles de S : ∑ ∂S(β0 , β1 ) =0⇒ −2yi + 2b1 xi + 2b0 = 0 ∂β0
(1)
∑ ∂S(β0 , β1 ) =0⇒ −2xi yi + 2b1 xi2 + 2b0 xi = 0 ∂β1
(2)
n
i=1
n
i=1
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
1 / 11
Annexe 1 - Syst`eme aux ´equations normales De (1) on d´eduit que ∑n b0 =
i=1 yi
− b1 n
∑n
i=1 xi
= y¯ − b1 x¯
(3)
De (2) on d´eduit que b1
n ∑
xi2 + b0
i=1
n ∑
xi =
i=1
n ∑
xi yi
(4)
i=1
En utilisant (3) nous obtenons b1
n ∑ i=1
Micha¨ el Genin (Universit´ e de Lille 2)
xi2 + (¯ y − b1 x¯)
n ∑
xi =
i=1
R´ egression lin´ eaire multiple
n ∑
(5)
xi yi
i=1
Version - 19 f´ evrier 2015
2 / 11
Annexe 1 - Syst`eme aux ´equations normales En divisant par n les deux termes : b1
n n 1∑ 2 1∑ xi + (¯ y − b1 x¯)¯ x= xi yi n n i=1
[ b1
(6)
i=1
] n n 1∑ 2 1∑ 2 xi − x¯ = xi yi − x¯y¯ n n i=1
(7)
i=1
b1 =
sxy sx2
(8) .. Retour
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
3 / 11
Annexe 2 - RLM : MCO Observons que ||ϵ||2 = ||Y − Xβ||2 . Aussi T
||ϵ||2 = (Y − Xβ) (Y − Xβ) = YT Y − YT Xβ − β T XT Y + β T XT Xβ. Or comme la transpos´ee d’un scalaire est ´egale `a lui-mˆeme : ( T )T Y Xβ = β T XT Y, nous avons donc S(β0 , . . . , βp ) = ||ϵ||2 = YT Y − 2β T XT Y + β T XT Xβ Minimiser la fonction S revient `a annuler les d´eriv´ees diff´erentielles par rapport `a β. L’annulation de la d´erivation matricielle nous donne ( ) ( ) ∂S = −2 XT Y + 2 XT X b = 0 ∂β
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
4 / 11
Annexe 2 - RLM : MCO
Aussi
(
) ( ) XT X b = XT Y . ( ) Or rg(X) = p et p ≤ n donc XT X est inversible. Aussi ( )−1 ( T ) X Y b = XT X .. Retour
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
5 / 11
Annexe 3 - RLM : moments des estimateurs
Esp´erance [( )−1 T ] ( T )−1 T E[B] = E XT X X Y = X X X E[Y] ( )−1 T E[B] = XT X X E[X.β + ϵ] = β Variance
)−1 T ] ( )−1 ( )−1 T XT X X Y = X XT X V[Y] XT X X ( T )−1 T ( ) ( T )−1 −1 V[ϵ] X X X = σ 2 XT X V[B] = X X X V[B] = V
[(
.. Retour
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
6 / 11
Annexe 4 - F partiel de Fisher L’´egalit´e
( F =
Bj σ bBJ
)2 ∼ F1,n−p−1
se base sur un cas particulier du test de nullit´e d’un bloc de q coefficients. { H0 : Y = β0 + β1 X1 + . . . + βj Xj + βj+q+1 Xj+q+1 + . . . + βp Xp + ϵ H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ { H0 : Mod`ele sans les q variables (mod`ele restreint) H1 : Mod`ele complet Posons 2 : Coefficient de d´etermination du mod`ele restreint (H0 ) R(0) 2 : Coefficient de d´etermination du mod`ele complet (H1 ) R(1)
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
7 / 11
Annexe 4 - F partiel de Fisher
Notons F la statistique de test associ´ee. On montre que sous H0 , ( ) 2 2 R(1) − R(0) /q ) ∼ Fq,n−p−1 F =( 2 1 − R(1) /(n − p − 1) Autre interpr´etation : si l’accroissement ( ) 2 2 R(1) − R(0) >
q fq,n−p−1 n−p−1
alors la place des q variables dans le mod`ele est justifi´ee.
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
8 / 11
Annexe 4 - F partiel de Fisher Cas particulier quand q = 1 On veut tester la nullit´e d’un coefficient βj { H0 : Y = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp + ϵ H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ {
H0 : Mod`ele sans Xj (mod`ele restreint) H1 : Mod`ele complet
Posons 2 : Coefficient de d´etermination du mod`ele restreint (H0 ) R(0) 2 : Coefficient de d´etermination du mod`ele complet (H1 ) R(1)
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
9 / 11
Annexe 4 - F partiel de Fisher Cas particulier quand q = 1 Notons F la statistique de test associ´ee. On montre que sous H0 , ( ) 2 2 R(1) − R(0) /1 ) F =( ∼ F1,n−p−1 2 1 − R(1) /(n − p − 1) Or T =
Bj ∼ Tn−p−1 σ bBJ
Donc
( F = T2 =
Bj σ bBJ
)2
Remarque : test de la significativit´e du coefficient et son apport au R 2 .
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
10 / 11
Annexe 4 - F partiel de Fisher
Cas particulier quand q = 1 Autre interpr´etation : si l’accroissement (
) 2 2 R(1) − R(0) >
1 f1,n−p−1 n−p−1
alors la place de Xj dans le mod`ele est justifi´ee. Note : Tests de type III sous SAS. .. Retour
Micha¨ el Genin (Universit´ e de Lille 2)
R´ egression lin´ eaire multiple
Version - 19 f´ evrier 2015
11 / 11