32 0 494KB
Réalisé par : JABER YASSINE EXERCICE (1) : Le tableau suivant donne les résultats d’une étude transversale sur dix régions ; les ventes (Y) du produit sont mises en relation avec les dépenses (X1) de publicité-presse et les dépenses (X2) de publicité sur les lieux de vente (PLV). L’unité est 103 DH, Observation (i) 1 2 3 4 5 6 7 8 9 10
Le Modèle:
𝑌𝑡
Ventes (Y) 30 22 29 35 25 40 24 21 32 15
Publicité-presse (X1) 2 1 6 4 3 2 6 2 7 1
PLV (X2) 6 3 2 5 3 8 1 2 2 1
= 𝛼 0 +𝛽 1 𝑋1𝑡 +𝛽2 𝑋2𝑡 +𝜇 𝑡
1) 2) 3) 4) 5) 6)
Mettre le modèle sous-forme matricielle ? Estimer les paramètres du modèle ? Calculer les résidus puis en déduire l’estimation de la variance résiduelle 𝜎𝜇2 ? Estimer la matrice des variances-covariance des coefficients ? Quel est l’intervalle de confiance pour la variance de l’erreur ? Les variables explicatives sont-elles significativement contributives pour expliquer la variable endogène au risque de 5% ? 7) Les coefficients 𝛽1 et 𝛽2 sont-ils respectivement significativement différents de 1 et 0,5 ? 8) Dresser le tableau de l’analyse de la variance ? 9) Calculer 𝑅 2 , et déduire le coefficient de corrélation multiple et le coefficient de détermination corrigé, testé la validité du modèle ? 10) Calculer les prévisions pour les périodes 11 et 12, et son intervalle de 95% sachant que 𝑋1 11 = 2 ; 𝑋1 12 =3 ; 𝑋2 11 =4 ; 𝑋2 12 = 5 Solution : 1) Nous disposons de 10 observations et deux variables explicatives le modèle peut donc s’écrire comme suit :
𝑦1 1 𝑦2 1 ⋮ = ⋮ ⋮ ⋮ 𝑦10 1
𝑋11 𝑋12 ⋮ ⋮ 𝑋110
𝑋21 𝑋22 ⋮ ⋮ 𝑋210
𝛼 𝛽1 + 𝛽2
D’où 30 1 20 1 ⋮ = ⋮ ⋮ ⋮ 15 1
𝜇1 2 6 𝛼 𝜇 2 1 3 ⋮ ⋮ 𝛽1 + ⋮ ⋮ ⋮ ⋮ 𝛽2 𝜇10 1 1
Dimensions : 𝑌 10;1 = 𝑋(10;3) 𝛽(3;1) + 𝜇(10:1) 2) Estimation des paramètres 𝛽= 𝑋 𝑡 𝑋
On sait que 1 1 2 1 6 3
𝑋𝑡 𝑋 =
10 34 33
=
𝑡
𝑋 𝑋
−1
… … … … … … 34 160 97
1 1 1
−1
𝑋𝑡 𝑌
1 2 6 1 1 3 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 1 1 1
33 97 157
0,8248 = −0,1122 −0,10406
−0,1122 0,02525 0,007980
−0,10406 0,007980 0,02331
Calcul de 𝑋 𝑡 𝑌 𝑌(10) 𝑋(1,10) 𝑌10 𝑋(2,10) 𝑌10
=
273 976 1019
→
9,65 𝛽 = 2,15 3,13
3) Calcul de 𝜎𝜇2 On sait que : 𝜎𝜇2 =
𝑒𝑡𝑒 𝑛−𝑘
𝑒2
= 𝑛−𝑘
On a :
e =Y−𝑌 →
D’où
𝑒𝑡 = 𝑌𝑡 − 𝛼 + 𝛽1 𝑋1𝑡 + 𝛽2𝑡 𝑋2𝑡
e = Y− X𝛽
𝜇1 ⋮ ⋮ ⋮ 𝜇15
𝑒𝑡 = 𝑌𝑡 − 9,65 − 2,15𝑋1𝑡 − 3,13𝑋2𝑡 On peut donner les valeurs à 𝑒𝑡 de 1 jusqu’à 10 observation mais d’une manière générale : 𝑒 𝑡 𝑒 = 𝑌𝑡 𝑌 − 𝛽𝑡 𝑋 𝑡 𝑌
D’où
𝑒 𝑡 𝑒 = 7941− 9,15 2,15 3,13
273 976 1019
𝑒 𝑡 𝑒 = 155,18 𝜎𝜇2𝑡 =
155,18 10−3
= 22,17
4) La matrice des variances-covariances : avec 𝛽 − 𝛽 = 𝑋 𝑡 𝑋
Ω𝛽 = E (𝛽 − 𝛽)(𝛽 − 𝛽) Ω𝛽 = 𝜎𝜇2𝑡 𝑋 𝑡 𝑋
−1
XU
−1
Donc : 0,8248 Ω𝛽 = 22,17 −0,1122 −0,10406
18,28 Ω𝛽 = −2,49 −2,30
−0,1122 0,02525 0,007980
−2,49 −2,30 0,559 0,177 0,177 0,517
−0,10406 0,007980 0,02331
𝑉 𝛼 = 18,28 𝑉 𝛽1 = 0,559 𝑉 𝛽2 = 0,517
→
𝜎𝛼 = 4,27 𝜎𝛽1 = 0,75 𝜎𝛽2 = 0,72
5) L’intervalle de confiance de la variance de l’erreur est donnée par :
IC = P
(𝑛 −𝑘−1)𝜎𝜇2 (𝑛−𝑘−1)𝜎𝜇2 ; 𝑋2 𝑋𝛼2 𝛼 1−
2
avec X : loi de KH-deux
2
Dans notre exemple au risque 5% est de : IC =
(10−2−1)×22,17 (10−2−1)×22,17 16,01
;
1,69
IC = 9,70 91,83 Soit 9,70≤ 𝜎𝜀2 ≤ 91,83, la variance vraie (mais inconnue) 𝜎𝜀2 de l’erreur à 95% de chance de se situer à l’intervalle. 6) Il convient de calculer les deux ratios de student et de les comparer à la valeur lue dans la table pour un seuil de 5%
𝛽 𝑖− 𝛽 𝑖
On sait que
𝜎𝛽
~ une loi de student a n−𝑘 − 1 degré de liberté
𝑖
Les hypothèses à tester est suivant : 𝐻0 : 𝛽1 = 0 𝐻1 𝛽1 ≠ 0
Et
𝐻0 : 𝛽2 = 0 𝐻1 𝛽2 ≠ 0
Donc, sous 𝐻0 𝛽
2,15
𝑡𝑐∗ = 𝜎 1 = 0,75 = 2,867 𝛽1
𝛽
3,13
𝑡𝑐∗ = 𝜎 2 = 0,72 = 4,347 𝛽2
∝
∝
2 2 D’après la table de student, 𝑡𝑛−𝑘−1 = 𝑡10−3 = 2,365
On constate que les deux t-statistiques est supérieure à t-lu sur la table de student. On accepte 𝐻1 donc ; les variables publicité-presse et publicité sur les lieux de vente sont bien expliquer à la variable endogène qui est la consommation. Nous aurions pu tout aussi bien répondre à cette question en calculant les intervalles de confiance de chacun des coefficients : On sait que 𝛽 𝑖− 𝛽 𝑖 𝜎𝛽
𝑖
∝ 2
= ± 𝑡𝑛−𝑘 → 𝛽𝑖
−
∝ 2
𝛽𝑖 = ± 𝑡𝑛−𝑘 𝜎𝛽𝑖
∝ 2 → 𝛽𝑖 = ± 𝑡𝑛−𝑘 𝜎𝛽𝑖 + 𝛽𝑖
D’où l’intervalle de confiance est de : ∝ 2
∝ 2
P (𝛽𝑖 − 𝑡𝑛−𝑘 𝜎𝛽𝑖 ≤ 𝛽𝑖 ≤ 𝛽𝑖 + 𝑡𝑛−𝑘 𝜎𝛽𝑖 ) = 1− ∝ Pour 𝛽1 : On a: 𝜎𝛽1 = 0,75 ∝ 2
∝ 2
D’après la table de student : 𝑡𝑛−𝑘−1 = 𝑡10−3 = 2,365 Don : IC = P (0,4205≤ 𝛽1 ≤ 3,8795) = 0,95 De même pour
𝛽2 :
IC = P (1,47 ≤ 𝛽2 ≤ 4,79) = 0,95
Donc on constate que la valeur zéro n’appartient pas à l’intervalle de confiance à 95% de 𝛽1 et 𝛽2 , donc ces deux coefficients sont significativement différents de zéro. 7) La formulation des hypothèses est la suivante :
𝐻0 : 𝛽1 = 1 𝐻1 𝛽1 ≠ 1
Et
𝐻0 : 𝛽2 = −0,5 𝐻1 𝛽2 ≠ −0,5
Pour 𝛽1 : 𝑡𝑐∗ =
Sous 𝐻0 :
𝛽 1 −𝛽1 𝜎𝛽
=
2,15−1 0,75
1
= 1,53 < 2,365 = 𝑡70,05
On accepte 𝐻0 , 𝛽1 n’est pas significativement différent de 1. 𝑡𝑐∗ =
Pour 𝛽2 :
𝛽 2 −𝛽 2 𝜎𝛽
=
3,13−(−0,5)
2
0,72
= 5,04 > 2,365
On accepte 𝐻1 , le coefficient de régression 𝛽2 est significativement différent de −0,5 : 8) Le tableau de l’analyse de la variance est présent comme suit : Source de variance 𝑋1 , 𝑋2 Résidu Total
On a
𝑒𝑡2 = 155, 18
Sommes des carrés SCE= 332,92 SCR= 155,18 SCT= 488,1
SCT= 488,1
Degré de liberté 2 7 9
Carrés moyens 166,46 22,17
SCR= SCT – SCE = 332,92
9) Calcul du 𝑅 2 𝑆𝐶𝐸
𝑆𝐶𝑅
𝑅 2 = 𝑆𝐶𝑇 = 1− 𝑆𝐶𝐸 =
332,92 488,1
= 0, 68
Le coefficient du corrélation est de : r = 0,82
Le coefficient de détermination corrigé : 𝑅 2 = 1− 𝑛−𝑘−1(1−𝑅 2 )
𝑛−1
9
𝑅 2 = 1− 7(1− 0,68) = 0,58 Teste de
𝑅2 :
L’hypothèse est de : Calcule le teste de Fisher :
𝐻0 : 𝑅 2 = 0 𝐻1 𝑅 2 ≠ 0
𝐹∗ =
(𝑦 −𝑦)2 /𝑘−1 𝑒𝑡2 / 𝑛−𝑘
=
𝑅 2 /𝑘−1 (1−𝑅 2 )/𝑛−𝑘
d’où 𝐹 ∗ =
0,68
7
( ) = 7,4375
(1−0,68) 2
Or, d’après la table de FISHER SNEDECOR, F lu avec un risque de 5% et de degré de liberté 0,05 pour le numérateur = 2 et degré de liberté pour le dénominateur = 7. 𝐹2;7 = 4,74 0,05 Puisque 𝐹 ∗ > 𝐹2;7 = 4,74 donc on accepte 𝐻1 la régression est globalement significative.
10) La prévision pour les deux périodes est calculée à partir du modèle estimé : 𝑦11 = 9,65 + 2,15× 2 + 3,13× 4 = 26,47 𝑦12 = 9,65 + 2,15× 3 + 3,13× 5 = 31,75 La variance de l’erreur de prévision est donnée par : 𝜎𝑒2𝑛 +𝑘 = 𝜎𝜇2 (1+ 𝑥𝑛𝑡 +𝑘 (𝑋 𝑡 𝑋)−1 𝑥𝑛+𝑘 ) Soit 𝑥11
1 = 2 ; 4
𝑥12
1 = 3 5
On a 𝑡
(𝑋 𝑋)
−1
0,8248 = −0,1122 −0,10406
−0,1122 0,02525 0,007980
−0,10406 0,007980 0,02331
Donc : 2 𝜎11 = 22,17 1 + (1 2
2 𝜎12
= 22,17 1 + 1 3
1 4)(𝑋 𝑡 𝑋)−1 2 4
≈ 17,94
1 3 5
≈ 14,08
𝑡
5 (𝑋 𝑋)
−1
L’intervalle de prévision est donnée par : ∝ 2
𝑌𝑛+𝑘 = 𝑌𝑛+𝑘 ± 𝑡𝑛 −𝑘−1 𝜎𝑒 𝑛 +𝑘 Donc pour un seuil de 95% : 𝑌11 = 26,47 ± 2,365 17,94 → 𝑌11 = 16,45; 36,48 𝑌12 = 31,75 ± 2,365 14,08 → 𝑌12 = 22,87; 40,62
EXERCICE (2) : Sur n = 100 observations et pour trois séries (Y ; 𝑋1 𝑋2 ) nous avons les résultats suivants : V(y) = 1000 ; 𝑟𝑦2;𝑥 1 = 0,75 ; 𝑟𝑥21;𝑥 2 = 0,45 ; 𝑟𝑦2;𝑥 2 = 0,85 ; 𝑦 = 12 1) Nous avons effectué la régression : 𝑦 = 10𝑥1 − 6 Le coefficient de 𝑥1 est-il significativement différent de zéro ? 2) La régression de y sur 𝑥2 donnée 𝑦 = 4𝑥2 + 8 le coefficient de 𝑥2 est-il significativement différent de zéro ? 3) Calculer les coefficients du modèles : y = 𝛼0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝜇𝑡 et le coefficient de corrélation multiple ? 4) Les coefficients 𝛽1 et 𝛽2 sont-ils significativement différents de zéro ? 5) La régression est-elle globalement significative ?
Solution : 1) Détermination de l’écart-type de coefficient 𝛽 : On sait que, dans une régression simple la variance du coefficient de régression est donnée par : 𝜎𝛽21 =
𝜎𝜀2 (𝑥 1𝑡 −𝑥 )2
Nous savons que dans le cadre de régression simple, il ya égalité entre corrélation simple et corrélation multiple, soit : 𝑟𝑦2;𝑥 1 =
𝑐𝑜𝑣 (𝑦 ;𝑥 1𝑡 )2 𝑣 𝑦 𝑣(𝑥 1𝑡 )
Or v(y) =
=
(𝑦 −𝑦 )2 𝑛
𝑥 1𝑡 −𝑥 (𝑦− 𝑦 )2 (𝑦−𝑦 )2 (𝑥 1𝑡 −𝑥 )2
𝑆𝐶𝐸
𝑆𝐶𝑅
= 𝑅 2 = 𝑆𝐶𝑇 = 1− 𝑆𝐶𝐸 = 0,75
= (𝑦 − 𝑦 )2 = n v(y) →
(𝑦 − 𝑦 )2 = 100× 1000 =100000
Donc 𝑅 2 = 1−
𝑆𝐶𝑅 100000
= 0,75 → SCR = 25000
25000
𝜎𝜇2 = 100−2 = 255,1 Détermination de la variance de 𝑥1𝑡 : 𝑥 1𝑡 −𝑥 (𝑦− 𝑦 )2
On a : 𝛽 =
𝑥 1𝑡 −𝑥 (𝑦− 𝑦 )
D’où
𝑥1𝑡 − 𝑥 (𝑦 − 𝑦 ) = 10 (𝑥1𝑡 − 𝑥 )2
(𝑥 1𝑡 −𝑥 )2
(𝑦−𝑦 )2 (𝑥 1𝑡 −𝑥 )2
= 0,75
2 𝑟𝑦;𝑥 1𝑡
On remplace dans
10 2 (𝑥 1 − 𝑥 )4
0,75 =
2 𝑟𝑦;𝑥 = 1𝑡
= 10 et
(𝑦 −𝑦 )2 (𝑥 1𝑡 −𝑥 )2
→ 0,75 =
100 (𝑥 1𝑡 −𝑥 )2 (𝑦 𝑡 − 𝑦 )2
D’où 100 (𝑥1𝑡 – 𝑥)2 = 0,75×100000 (𝑥1𝑡 − 𝑥)2 = 750 et
𝑥1𝑡 − 𝑥 (𝑦 − 𝑦 ) = 10× 750 = 7500
V (𝑥1𝑡 ) = 7,5 et cov (𝑥1𝑡 ; 𝑦) = 75 Donc 𝜎𝜀2
𝜎𝛽21 =
(𝑥 1𝑡 −𝑥 )2
=
255,1 75𝑂
= 0,34 → 𝜎𝛽 = 0,58
Teste : 𝑡𝑐∗ =
10 0,58
0,05 = 17,24 > 𝑡𝑛>30 = 1,96
D’où le coefficient de régression de y sur 𝑥1𝑡 est significativement différent de zéro au risque de 5%. 2) De même pour 𝑥2𝑡 : SCR = (1− 0,85)100000 = 15000 → 𝜎𝜇2 =
15000 98
= 153,06
Détermination de la variance de 𝑥2𝑡 : 𝛽=
𝑥 2𝑡 −𝑥 (𝑦− 𝑦 ) (𝑥 2𝑡 −𝑥 )2
2 On a 𝑟𝑦;𝑥 = 2𝑡
=4 →
𝑥 2𝑡 −𝑥 (𝑦− 𝑦 )2 (𝑦−𝑦 )2 (𝑥 2𝑡 −𝑥 )2
V 𝑥2𝑡 = 53,125
et
𝑥2𝑡 − 𝑥 (𝑦 − 𝑦 ) = 4 (𝑥2𝑡 − 𝑥 )2 = 0, 85
→
(𝑥2𝑡 − 𝑥 )2 = 5312, 5
Cov (y; 𝑥2𝑡 ) = 212,5
Donc : 153,06
𝜎𝛽22 = 5312 ,5 = 0,0288 → 𝜎𝛽 = 0,17 Teste : sous 𝐻0 4
𝑡𝑐∗ = 0,17 = 23,53 > 𝑡 0,05 = 1,96
donc, le coefficient de régression de y sur 𝑥2𝑡 est
significativement différent de zéro.
3) Estimation des paramètres du modèle 𝑌𝑡 = 𝛼0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋2𝑡 𝜇𝑡 Nous raisonnons sur les données centrées, donc les paramètres à estimer peut s’écrire en fonction des matrices des variances-covariances 𝛽1 𝑣 𝑥1 = 𝑐𝑜𝑣 𝑥1 ; 𝑥2 𝛽2
𝑐𝑜𝑣 𝑥1 ; 𝑥2 𝑣 𝑥2
−1
𝑐𝑜𝑣 𝑦; 𝑥1 𝑐𝑜𝑣 𝑦; 𝑥2
Détermination 𝑐𝑜𝑣 𝑥1 ; 𝑥2 : On a:
𝑟𝑥21 𝑥 2 =
cov 𝑥 1 ;𝑥 2 2 𝑣 𝑥1 𝑣 𝑥2
𝑥1 − 𝑥 𝑥2 − 𝑥
2
= 0, 45
→
𝑥1 − 𝑥
= 0, 45
2
𝑥2 − 𝑥
2
= 0, 45 × 750 × 5312, 5 = 1792968, 75 𝑥1 − 𝑥 𝑥2 − 𝑥 = 1339, 01 Cov 𝑥1 ; 𝑥2 =
1339,01 100
= 13, 39
Nous connaissons donc: V 𝑥1 = 7,5 et V 𝑥2 = 53,125
Cov 𝑦 ; 𝑥1 = 75 et Cov 𝑥1 𝑥2 = 13,39 et Cov 𝑦; 𝑥2 = 212,5 et
D’où 𝛽1 7,5 13,39 = 13,39 53,125 𝛽2
−1
75 → 212,5
𝛽1 = 𝛽2
1 219,14
𝛽1 5,197 = 2,69 𝛽2 La constante est donné par
𝛼0 = 𝑦 − 𝛽1 𝑋1 − 𝛽2 𝑋2
53,125 −13,39 75 −13,39 7,5 212,5
𝑦 = 12 et
Or
𝑋1 =
12+6 10
𝑋2 =
= 1,8 et
12−8 4
=1
𝛼0 = 12 – 5,197× 1,8 – 2,69 × 1 = −0,032
Donc
Le modèle estimer est de : 𝑦𝑡 = −0,032 + 5,197𝑋1 + 2,69𝑋2 + 𝑒𝑡 Détermination de coefficient de détermination : 𝑌𝑇 𝑌
𝑅2 = 𝑌 𝑇 𝑌 =
𝑋𝛽
𝑋𝛽
𝑌𝑇 𝑌 2
𝑅 =
Donc
𝑇
=
5,197
𝛽 𝑇 𝑋 𝑇 𝑋𝛽 𝑌𝑇 𝑌 2,69
=
𝛽𝑇 𝑋𝑇 𝑋 𝑋𝑇 𝑋 𝑌−𝑌
7500 21250
−1
𝑋𝑇𝑌
2
=
𝛽𝑇 𝑋𝑇 𝑌 𝑌−𝑌 2
= 0,96
100000
4) Calcule des écart-types de chacun des coefficients : On sait que Ω𝛽 =
𝜎𝜇2
𝑇
𝑋 𝑋
−1
=
𝜎𝜇2
𝑣 𝑥1 𝑐𝑜𝑣 𝑥1 ; 𝑥2
𝑐𝑜𝑣 𝑥1 ; 𝑥2 𝑣 𝑥2
−1
Détermination de la variance de l’erreur : 𝑒2
𝜎𝜇2 = 𝑛−𝑘𝑡
or
𝑆𝐶𝑅
𝑅 2 = 1− 𝑆𝐶𝑇 = 0,96 → (1− 0,96)SCT = SCR
SCR = 4000 4000
𝜎𝜇2 = 100−3 = 41,24
Donc D’où
7,5 13,39 Ω𝛽 = 41,42 13,39 53,125
−1
→
Ω𝛽 = 41,42
0,2424 −0,0611
−0,0611 0,0342
D’où 𝜎𝛽21 = 41,42 × 0,2424 = 10 → 𝜎𝛽1 = 3,16 𝜎𝛽22 = 41,42 × 0,0342 = 1,41 → 𝜎𝛽2 = 1,18 Teste : sous 𝐻0 𝛽1
𝑡𝛽∗1 =
𝜎𝛽
𝑡𝛽∗2 =
𝜎𝛽
1
𝛽2 2
=
5,197 3,16
= 1,64 < 𝑡 0,05 = 1,96
2,69
= 1,18 = 2,27 > 𝑡 0,05 = 1,96
Le coefficient 𝛽1 n’est pas significativement différent de zéro donc la variable 𝑋1 n’est pas contributive à l’explication de y, il convient donc de la retirer de ce modèle et de procéder à une nouvelle estimation.
Alors que le coefficient 𝛽2 est bien explicatif à la variable endogène y Pour la régression en doit calculer F : 𝐹𝑐∗ =
𝑅2 1− 𝑅 2
𝑘−1 𝑛−𝑘−1
0,96
=
1−0,96
3−1 100−2−1
0,05 = 1164 > 𝐹2;97 = 3,10
F-calculer est largement supérieure à F lu sur la table FISHER-SNEDECOR Donc la régression est globalement significative.
EXERCICE 3 : Soit le modèle à trois variables explicatives suivant : 𝑌𝑡 = 𝛼0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋2𝑡 + 𝛽3 𝑋3𝑡 + 𝜇𝑡 Nous disposons des données du tableau : t 1 2 3 4 5 6 7 8 9 10 11 12 13 14
1) 2) 3) 4) 5)
Y 12 14 10 16 14 19 21 19 21 16 19 21 25 21
𝑋1 2 1 3 6 7 8 8 5 5 8 4 9 12 7
𝑋2 45 43 43 47 42 41 32 33 41 38 32 31 25 29
𝑋3 121 132 154 145 129 156 132 147 128 163 161 172 174 180
Mettre le modèle sous forme matricielle ? Estimer les paramètres du modèle ? Calculer les résidus puis en déduire l’estimation de la variance résiduelle 𝜎𝜇2𝑡 ? Estimer la matrice des variances-covariances des coefficients ? Tester, commenter et donner les probabilités critiques (p-valeur) des testes suivants au risque de 5% : 𝐻0 ∶ 𝛼0 = 0 𝐻0 ∶ 𝛽1 = 0 𝐻0 ∶ 𝛽2 = 0 𝐻0 ∶ 𝛽3 = 0 𝐻1 ∶ 𝛼0 ≠ 0 𝐻1 ∶ 𝛽1 ≠ 0 𝐻1 ∶ 𝛽2 ≠ 0 𝐻1 ∶ 𝛽3 ≠ 0 6) Dresser le tableau de l’analyse de la variance ? 7) Calculer le 𝑅 2 et le 𝑅 2 corrigé, effectuer le teste globale au risque de 5% ?
Solution : 1) Forme matricielle : Nous disposons de 14 observations et trois variables explicatives, le modèle peut donc s’écrire comme suit : Y = X𝛽 + U Donc en peut écrire : 𝑦1 1 2 45 ⋮ ⋮ ⋮ ⋮ = ⋮ ⋮ ⋮ ⋮ 𝑦14 1 7 29
𝛼0 𝜇1 𝛽1 ⋮ 𝛽2 + ⋮ 𝜇14 𝛽3
121 ⋮ ⋮ 180
Dimensions : 𝑌 14;1 = 𝑋 14;4 𝛽 4;1 + 𝜇 14;1 2) Estimation des paramètres : Soit le modèle sous forme matricielle, comme suit : Y = X𝛽 + U Et d’après la Méthode des Moindres Carrés Ordinaires (MCO), qui consiste à minimiser la somme des carrés des erreurs. 𝛽= 𝑋 𝑡 𝑋
Donc, on a :
𝑋𝑡 𝑋
Détermination de 1 2 𝑋 𝑋= 45 121 𝑡
14 85 𝑋 𝑋= 532 2094 𝑡
𝑋𝑡 𝑌
−1
et
⋯
1
⋱
⋮
⋯
180
1 2 ⋮ ⋮ ⋮ ⋮ 1 7
85 631 3126 13132
532 3126 13132 78683
20,168 0,015 𝑋 𝑡 𝑋 −1 = −0,231 −0,076
𝑋𝑡 𝑌 45 ⋮ ⋮ 29
121 ⋮ ⋮ 180
2094 13132 78683 317950
0,015 0,013 0,0011 −0,00094
−0,231 0,0011 0,00363 0,000575
𝑋𝑡 𝑌 :
Calcul de 𝑋𝑡 𝑌
−1
=
1 2 45 121
⋯
1
⋱
⋮
⋯
180
248 12 ⋮ 1622 = ⋮ 9202 21 37592
−0,076 −0,00094 0,000575 0,000401
Calcul de
𝛽
20,168 0,015 𝛽= −0,231 −0,076
0,015 0,013 0,0011 −0,00094
−0,231 0,0011 0,00363 0,000575
−0,076 −0,00094 0,000575 0,000401
248 1622 9202 37592
32,891 0,8019 = −0,3813 −0,0371
Donc : 𝑦 = 32,9 + 0,80𝑋1𝑡 – 0, 38𝑋2𝑡 – 0,037𝑋3𝑡 + 𝑒𝑡 3) Calcul des résidus et la variance résiduelle : On sait que : D’où
𝑒𝑡 = 𝑦𝑡 − 𝑦
→
𝑒𝑡 = 𝑦𝑡 − X𝛽
𝑒𝑡 = 𝑦𝑡 − 32,9 − 0,80𝑋1𝑡 + 0, 38𝑋2𝑡 + 0,037𝑋3𝑡
Par exemple pour 𝑒1 : 𝑒1 = 12 − 32,9 − 0,80×2 + 0, 38×45 + 0,037×121 = − 0,84 Ainsi de suite jusqu’à 𝑒14 . Mais d’une manière générale : 𝑒 𝑇 𝑒 = 𝑌𝑇 𝑌 − 𝛽𝑇 𝑋 𝑇 Y
Donc :
𝑒 𝑇 𝑒 = 4620 – 32,9 0,80 −0,381
−0,0371
248 1622 9202 37592
𝑒 𝑇 𝑒 = 67,45 Donc : 𝜎𝜇2𝑡 =
𝑒𝑇𝑒 𝑛−𝑘
67,45
= 14−4 = 6,745
4) Matrice variance-covariance : La matrice des variances-covariances est donnée par : Ω𝛽 = E (𝛽 − 𝛽)(𝛽 − 𝛽)
Ω𝛽 = 𝜎𝜇2𝑡 𝑋 𝑡 𝑋
−1
Donc : 20,168 0,015 Ω𝛽 = 6,745 −0,231 −0,076
0,015 0,013 0,0011 −0,00094
−0,231 0,0011 0,00363 0,000575
−0,076 −0,00094 0,000575 0,000401
Les variances des coefficients de régression se trouvent sur la première diagonale :
𝜎𝛼20 = 6,745 × 20,168 = 136,04 → 𝜎𝛼 0 = 11,66 𝜎𝛽21 = 6,745 × 0,0132 = 0,089
→ 𝜎𝛽1 = 0,29
𝜎𝛽22 = 6,745 × 0,00363 = 0,0245 → 𝜎𝛽2 = 0,15 𝜎𝛽23 = 6,745 × 0,000401 = 0,0027 → 𝜎𝛽3 = 0,05 5) Les testes : On sait que : 𝛽 𝑖− 𝛽 𝑖 𝜎𝛽
~ Une loi de student a n−𝑘 − 1 degré de liberté
𝑖
D’où le t-statistique est de : sous 𝐻0 𝑡𝛼∗ 0 = 𝑡𝛽∗1 = 𝑡𝛽∗2 = 𝑡𝛽∗3 =
𝛼0 𝜎𝛼 0 𝛽1 𝜎𝛽 1 𝛽2 𝜎𝛽 2 𝛽3 𝜎𝛽 3
= = = =
32,8913 11,66 0,8019 0,29
= 2,82
= 2,765
−0,38136 0,15 −0,03713 0,05
= 2,5424 = 0,7426
0,05 Le 𝑡10 lu sur la table de student avec un risque de 5% et de degré de liberté de 10 (14 –
4) est :
0,05 𝑡10 = 2,228
Règle de décision : 𝑡𝑐∗ > 𝑡𝑙 → On accepte 𝐻1 𝑡𝑐∗ < 𝑡𝑙 → On accepte 𝐻0 On voit bien que, 𝛽1 et 𝛽2 sont significativement différents de zéro, c’est-à-dire que les variables 𝑋1𝑡 et 𝑋2𝑡 sont contributive à l’explication de Y Alors que, 𝛽3 et non significativement différent de zéro, donc la variable 𝑋3𝑡 n’est pas contributive à l’explication de Y, il convient donc de la retirer de ce modèle et de procéder à une nouvelle estimation.
Détermination de p-valeur :
Dans notre cas, il s’agit ici d’un test bilatéral, donc p-valeur est donnée comme suit : p-valeur = 2 × 1 − 𝑝(𝑇 < 𝑡𝑐
= 2 × 1 − 𝐹𝑇(𝑛 −𝑘 ) 𝑡𝑐 Par exemple pour 𝛽2 On sait que
𝑡𝑐∗ = 2,54
On trouve d’après la table de student que les valeurs encadrent 𝑡𝑐∗ = 2,54, avec un DDL de 10 sont : 2,228 et 2,764. 𝑣 𝑝 ………………0,975……….x ?.....................0,99 ⋮
⋮
⋮
⋮
⋮
⋮
⋮
⋮
10 ……………..2,228 ………..2,54……………2,764 Donc en procède à une interpolation linéaire : x = 0,975 + (0,99 – 0,975)
2,54−2,228 2,764−2,228
= 0,9837
p-valeur = 2 × 1 − 0,9837 = 3,24%
Donc
Règle de décision
p-valeur < au risque ∝ → On accepte 𝐻1 p-valeur > au risque ∝ → On accepte 𝐻0
Donc, notre cas : p-valeur < au risque∝ , 0,0324 < 0,05 acceptation de 𝐻1 . Donc si la même décision par apport a la première de t-statistique.
6) Tableau de l’analyse de la variance : Source de variance 𝑋1 , 𝑋2 , 𝑋3 Résidu Total
Sommes des carrés SCE= 159,40 SCR= 67,45 SCT= 226,85
Degré de liberté 3 10 13
Carrés moyens 53,13 6,745
7) Calculer le 𝑅 2 et le 𝑅 2 corrigé, effectuer le teste globale au risque de 5% ? 𝑅2 =
𝑆𝐶𝐸 𝑆𝐶𝑇
𝑆𝐶𝑅
= 1- 𝑆𝐶𝑇
=1–
67,45 226,85
= 0,702 = 70,2%
𝑛 −1
𝑅 2 = 1 – 𝑛−𝑘−1(1 - 𝑅 2 ) 14−1
= 1 – 14−3−1 (1 – 0,702) = 61,3% Test : Pour tester le modèle ou bien le coefficient de détermination𝑅 2 , on utilise le test de FISHER SNEDECOR noté F. 𝐹𝑐∗
𝑅2
= (1− 𝑅 2𝑘−1 )
=
𝑛−𝑘
0,702
= (1−0,702) ×
10 3
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑛−𝑘
× 𝑘−1
= 7,85
Le F lu avec un risque de 5% et de degré de liberté pour le numérateur = 3 et de DDL pour le dénominateur = 10 est de 𝐹𝑙 = 3,71 On constate que 𝐹𝑐∗ > 𝐹𝑙 = 3,71. Donc on accepte𝐻1 , la régression est globalement significative.
Exercice 4 : On examine l’évolution d’une variable 𝑌𝑡 en fonction de deux exogènes 𝑋1𝑡 et 𝑋2𝑡 . on dispose de n observations de ces variables. On note X = 1 𝑋1 𝑋2 ou 1 est le vecteur constante et 𝑋1 et 𝑋2 sont les vecteurs des variables explicatives. 1) On obtenu les résultats suivants : 25 𝑋𝑇 𝑋 = ? ?
0 0 9,3 5,4 ? 12,7
𝑋𝑇 𝑋
−1
=
0,04 0 0 0,1428 0 −0,0607
0 −0,0607 0,1046
(a) Donner les valeurs manquantes ? (b) Que vaut n ? 2) La régression de Y sur la constante et les deux exogènes donne : 𝑌𝑡 = -1,61 + 0,61𝑋1𝑡 + 0, 46𝑋2𝑡 ; SCR =0,3 𝑌 𝑇 𝑌 = 73,48 et 𝑌 = -1,6 (a) Calculer la somme des carrés expliqués (SCE), la somme des carrés totale (SCT), le 𝑅 2 et le 𝑅 2 ajusté ? (b) Déduire la matrice variance-covariance, et tester la significativité individuelle de chaque paramètre ainsi que leur significativité conjointe ?
Solution : 1) 𝑛 𝑋1𝑡 𝑋2𝑡
On sait que 𝑋 𝑇 𝑋 = 𝑋1𝑡 = 0 et
On a
𝑋2𝑡 = 0
𝑋1𝑡 2 𝑋1𝑡 𝑋2𝑡 𝑋1𝑡
𝑋2𝑡 𝑋1𝑡 𝑋2𝑡 2 𝑋2𝑡
𝑋2𝑡 𝑋1𝑡 =
𝑋1𝑡 𝑋2𝑡 = 5,4
n = 25
2) a) On sait que SCT = SCE + SCR SCT = 𝑌 𝑇 𝑌 - n𝑌 2 = 73,48 – 25(−1,6)2 = 9,48 Donc SCE = SCT – SCR = 9,48 – 0,3 = 9,18 𝑆𝐶𝐸
9,18
𝑅 2 = 𝑆𝐶𝑇 = 9,48 = 0,968 𝑛 −1
24
𝑅 2 = 1- 𝑛 −𝑘 (1 - 𝑅 2 ) = 1 - 23 (1- 0,968) = 0,966 b) La matrice variance covariance : Ω𝛽 = 𝜎𝜇2𝑡 (𝑋 𝑇 𝑋)−1 𝑆𝐶𝑅
On sait que la 𝜎𝜇2𝑡 = 𝑛 −𝑘 = Donc
0,3 22
= 0,01363
0,04 0 0,1428 Ω𝛽 = 0,01363 0 0 −0,0607
0 −0,0607 0,1046
Les variances des coefficients de régression se trouvent sur la diagonale : 𝜎𝛼20 = 0,01363 × 0,04 = 5.452× 10−4 → 𝜎𝛼 0 = 0,0233 𝜎𝛽21 = 0,01363 × 0,1428 = 1.946364 × 10−3 → 𝜎𝛽1 = 0,0441 𝜎𝛽22 = 0,01363× 0,1046 = 1.425698× 10−3 Teste : sous 𝐻0
→
𝜎𝛽2 = 0,03778
𝑡𝛼∗ 0 = 𝑡𝛽∗1 = 𝑡𝛽∗2 =
𝛼0 𝜎𝛼 0 𝛽1 𝜎𝛽 1 𝛽2 𝜎𝛽 2
=
−1,61 0,0233
= 69,09
0,61
= 0,0441 = 13,83 0,42
= 0,03778 = 11,116
0,05 Le 𝑡𝑛0,05 −𝑘−1 = 𝑡22 = 2,074 lu sur la table de STUDENT FISHER. 0,05 On constate que 𝑡𝑐∗ est largement supérieure au 𝑡22 = 2,074. Donc les variables exogènes
sont contributive à l’explication de Y.