33 0 776KB
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 Problema rezolvata regresia liniara multifactoriala Pentru a decide în ce zonă să fie amplasat un magazin de casete video, managerul unei firme de comercializare şi închiriere de casete video realizează un studiu. Astfel, el consideră că succesul afacerii este cuantificat prin profitul anual brut obţinut (sute euro). Factorii, consideraţi determinanţi pentru succesul acestei afaceri, sunt: • numărul de locuitori pe o rază de un kilometru (mii loc.) • venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro) • numărul competitorilor pe o rază de un kilometru • preţul unei casete video la închiriere (euro) Sunt selectate aleator 15 de supermarket-uri şi sunt înregistrate valorile celor 5 variabile. Profit (sute Eur) 323.581 343.682 375.264 351.242 328.417 318.069 330.959 267.236 320.883 409.535 316.262 351.806 333.655 372.679 362.796
Numarul locuitorilor (mii loc.) 5.556 5.917 5.483 6.4 5.917 6.683 6.065 7.491 6.284 5.851 5.681 5.187 6.164 7.32 5.062
Venit (zeci Eur) 42.746 43.106 46.993 43.249 40.695 41.253 40.791 39.932 36.826 45.3 42.645 42.306 44.842 45.233 41.426
Competitori 3 2 5 2 3 3 2 3 1 3 3 2 3 3 3
Preţ (Eur) 2.49 2.99 2.99 1.99 2.49 2.49 2.49 2.49 2.99 2.99 2.49 2.99 1.99 2.99 2.99
a) Analizaţi dependenţa dintre profitul obţinut şi cei 4 factori de influenţă cu ajutorul unui model de regresie (nivel de semnificaţie de 5%). b) Analizaţi corelaţiile dintre variabile. Rezolvare: a) Variabilele modelului sunt: • variabila explicata sau dependenta Y - profitul anual brut obţinut (sute euro) • variabilele explicative sau independente: X 1 arata numărul de locuitori pe o rază de un kilometru (mii loc.); X 2 arata venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro); X 3 arata numărul competitorilor pe o rază de un kilometru; X 4 arata preţul unei casete video la închiriere (euro).
1
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
Modelul econometric este Y = β 0 + β1 ⋅ X 1 + β 2 ⋅ X 2 + β3 ⋅ X 3 + β 4 ⋅ X 4 + ε sau
yi = β 0 + β1 ⋅ xi ,1 + β 2 ⋅ xi , 2 + β3 ⋅ xi ,3 + β 4 ⋅ xi , 4 + ε i adica un model de regresie liniara multifactoriala cu k=4 variabile explicative. Modelul de regresie liniara multipla (multifactoriala) în eşantion este: yi = b0 + b1 ⋅ xi,1 + b2 ⋅ xi,2 + b3 ⋅ xi,3 + b4 ⋅ xi ,4 + ei , i = 1, n , volumul esantionului fiind n=15. Rezolvare folosind EXCEL: 1. Introduceţi datele din tabel începând, de exemplu, din celula B2. 2. Alegeţi Data-Data Analysis şi Regression, ca in Figura 1. 3. In fereastra de dialog ce va aparea (Figura 2), la Input Y Range selectaţi B2:B17. La Input X Range selectaţi C2:F17. Selectaţi Labels si Confidence Level 95%. 4. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele. 5. Dacă doriţi să obtineţi valorile reziduale, selectaţi Residuals. 6. Apăsaţi OK.
Figura 1. Introducerea datelor si fereastra Data Analysis din meniul Data, in Excel 2010.
2
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
Figura 2. Fereastra de dialog in vederea estimarii modelului multifactorial de regresie liniara.
Se obţin rezultatele: Ecuatia de regresie estimata este yˆ i = −136,286 − 9,7313 ⋅ xi ,1 + 11,3303 ⋅ xi , 2 − 14,4479 ⋅ xi ,3 + 35,3217 ⋅ xi , 4 , i = 1, n
3
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 SUMMARY OUTPUT
Regression Statistics Raportul de corelatie multipla (R) n
Multiple R
0,85879
R=
SSR = SST
n
∑ ( yˆ − y )
∑ ( y − yˆ )
2
i
i =1 n
= 1−
Adjusted R Square
Standard Error
i =1 n
∑ (y − y)
i =1
i =1
2
2
i
Coeficientul de determinaţie SSR SSE 0,737519 R2 = =1− SST SST Valoarea ajustată a coeficientului de determinaţie SSE 0,632527 R 2 = 1− n − k −1 SST n −1 Abaterea standard de selectie a variabilei reziduale sau Abaterea medie pătratică a erorilor în eşantion 19,95674
n
SSE SSE = = n − k −1 10 Volumul esantionului (n) se = se2 =
Observations
i
∑ (y − y) i
R Square
2
i
15
∑ (y
n
− yˆ i )
2
i
i =1
n − k −1
∑e =
2 i
i =1
n − k −1
Interpretare rezultate din tabelul SUMMARY OUTPUT:
R= 0,85879 (o valoare apropiata de 1) arată că între profitul anual şi cele 4 variabile luate în studiu (num. locuitori, venit, num. competitori, preţ) există o legătură puternică. R2=0,737519 arată că 73,75% din variaţia totala a profitului este explicată de influenţa celor 4 variabile (num. locuitori, venit, num. competitori, preţ), iar restul de 26,25 % din variatia totala a profitului este data de factorii reziduali. Abaterea standard de selectie a variabilei reziduale sau abaterea medie pătratică a erorilor se =19,95674. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe „planul” de regresie.
4
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
ANOVA
Sursa variaţiei variabilei dependente Y
df (grade de libertate)
Regression (variaţia Datorată regresiei)
n
4=k
SSR = ∑ ( yˆ i − y ) i =1
n
10=n-k-1
SSE = ∑ ( yi − yˆ i )2
(variaţia totală)
14 = n-1
MSR MSE =7,024515
Fcalc =
Significance F
0,0058
SSE n − k −1 =398,2716528
i =1
SST = ∑ ( yi − y )
2
s 2y =
i =1
=15173,37776 SST = SSR + SSE
F(calculat)
MSE = se2 =
=3982,716528 n
Total
2
=11190,66123
Residual (variaţia reziduală sau variatia erorilor)
SS (variaţia) (suma pătratelor)
MS (media patratelor) (dispersiile corectate cu gradele de libertate)) SSR MSR = k =2797,665307
SST , n −1
dar s 2y ≠ MSR + MSE
Interpretare rezultate din tabelul ANOVA: În acest tabel este calculat testul F pentru validarea modelului de regresie, adica atunci cand se testeaza H0: modelul de regresie nu este valid statistic cu alternativa H1: modelul de regresie este valid sau semnificativ statistic. Întrucât Fcalc=7,024515, iar Significance F este 0,00584031 (valoare mai mică decat 0,05= α nivelul de semnificatie considerat sau impus al testului), atunci respingem H0 si acceptam H1 adevarata, adica modelul de regresie construit este valid statistic, pentru o probabilitate de cel mult 100(1 − 0,0058)% = 99,42% > 95% , şi poate fi utilizat pentru analiza dependenţei dintre variabilele precizate.
5
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 Coefficients
Standard Error
t Stat
Estimatiile parametrilor modelului de regresie (Coeficientii ecuatiei de regresie in esantion)
P-value
(Eroarea standard sau Abaterea medie patratica a estimatorilor)
Valoarea calculata a testului t
Lower 95%
Upper 95%
Limita inf. a intervalului de incredere
Limita sup. a intervalului de incredere
Intercept
b0 = -136,286
sb0 =134,8104
t b0 (calc ) =
b0 − 0 = -1,0109 sb0
0,3359>0,05
b0 − t critic ⋅ sb0 = -436,6620
b0 + t critic ⋅ sb0 = 164,0904
Num. loc. (X1)
b1 = -9,7313
sb1 =8,0272
t b1 (calc ) =
b1 − 0 = -1,2123 sb1
0,2533>0,05
b1 − t critic ⋅ sb1 = -27,6172
b1 + t critic ⋅ sb1 = 8,1545
Venit (X2)
b2 = 11,3303
sb2 =2,8417
t b2 (calc ) =
b2 − 0 = 3,9871 sb2
0,00260,05
b3 − t critic ⋅ sb3 = -32,4709
b3 + t critic ⋅ sb3 = 3,5751
Preţ (X4)
b4 = 35,3217
sb4 =15,2601
t b4 (calc ) =
b4 − 0 = 2,3146 sb4
0,0432 0,05 = α înseamnă că parametrul β 0 este nesemnificativ. De altfel, faptul că limita inferioară a intervalului de încredere IC95% (β 0 ) = (− 36,6620; 164,0904 ) pentru acest parametru β 0 este negativă, iar limita superioară este pozitivă, arată că parametrul β 0 in colectivitatea generală este nesemnificativ statistic, adicanu difera semnificativ de zero.
6
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
Coeficientul b1 este -9,7313, ceea ce însemnă că la creşterea numărului de locuitori cu 1 unitate, adica 1000 de locuitori, mentinand nemodificat nivelul celorlate variabile explicative din model, profitul va scadea, in medie, cu 9,7313 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : β1 = 0 contra ipotezei H1 : β1 ≠ 0 este t b1 (calc ) = -1,2123, iar pragul de semnificaţie calculat (nu impus) al testului, P-value, este 0,2533 > 0,05 = α înseamnă că parametrul β1 este nesemnificativ statistic. De altfel, aceeasi concluzie se obtine observand ca intervalul de încredere IC95% (β1 ) = (− 27,6172; 8,1544 ) acopera valoarea 0.
Coeficientul b2 este 11,3303, ceea ce înseamnă că la creşterea venitului mediu al locuitorilor cu 1 unitate, adica cu 10 euro, mentinand nemodificat nivelul celorlate variabile expplicative din model, profitul va creşte, in medie, cu 11,3303 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : β 2 = 0 contra ipotezei H1 : β 2 ≠ 0 este t b (calc ) = 3,9871, iar 2
pragul de semnificaţie calculat (nu impus) al testului, P-value, este 0,0026 < 0,05= α , înseamnă că este semnificativ statistic (pentru o probabilitate de parametrul β2 100(1 − 0,0026)% = 99,74% > 95% ). Intervalul de încredere IC95% (β 2 ) = (4,9985; 17,6621) pentru acest parametru arată că dacă managerul respectiv îşi deschide o firmă de închiriere şi vânzare de casete video, atunci la o creştere a venitului mediu al unui locuitor din zonă cu 10 euro, profitul va creşte, in medie, cu o valoare cuprinsă între aproximativ 5 si 17,6 euro, interval garantat cu probabilitatea de 95%.
Coeficientul b3 este -14,4479, ceea ce înseamnă că la creşterea numărului de competitori cu 1 unitate, adica cu 1 competitor, mentinand nemodificat nivelul celorlalte variabile explicative din model, profitul va scadea, in medie, cu 14,4479 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : β3 = 0 contra ipotezei H1 : β3 ≠ 0 este t b (calc ) = -1,7862, iar 3 nivelul de semnificaţie calculat (nu impus) al testului, P-value, este 0,104378 > 0,05, înseamnă că parametrul β3 este nesemnificativ statistic. De altfel, intervalul de încredere IC95% (β3 ) = (− 32,4709; 3,5751) acopera valoarea 0, ceea ce arata că parametrul in colectivitatea generală nu difera semnificativ de zero.
Coeficientul b4 este 35,3217, ceea ce înseamnă că la creşterea preţului plătit pentru închirierea unei casete cu 1 euro, mentinand constant nivelul celorlalte variabile explicative, profitul va creşte, in medie, cu 35,3217 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : β 4 = 0 contra ipotezei H1 : β 4 ≠ 0 este t b (calc ) =2,3146, iar pragul de 4 semnificaţie calculat (nu impus) al testului, P-value, este 0,0432 < 0,05, înseamnă că acest parametru este semnificativ statistic (pentru o probabilitate de 100(1 − 0,0432)% = 95,68% > 95% stabilită în problemă). Intervalul de încredere 95% pentru acest parametru IC95% (β 4 ) = (1,3201; 69,3232 ) arată că dacă managerul respectiv îşi deschide o firmă de închiriere şi vânzare de casete video, atunci la o creştere a preţului plătit pentru închirierea unei casete cu un euro, profitul va creşte, in medie, cu o valoare cuprinsă între aproximativ 1,32 si 69 euro, interval garantat cu probabilitatea de 95%.
Observatie: pentru variabilele numar de locuitori, şi numar de competitori am obţinut coeficienţi de regresie nesemnificativi.
7
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 RESIDUAL OUTPUT Observation Predicted Profit 1 338.5796 2 371.2542 3 376.1748 4 332.8525 5 311.8281 6 310.6962 7 325.9235 8 287.8659 9 310.9763 10 382.3073 11 336.2188 12 369.2938 13 338.7504 14 367.2528 15 346.0917
Residuals -14.9986 -27.5722 -0.9108 18.3895 16.5889 7.3728 5.0355 -20.6299 9.9067 27.2277 -19.9568 -17.4878 -5.0954 5.4262 16.7043
b) Pentru calculul coeficientilor de corelaţie liniara Pearson dintre variabile se parcurg paşii: 1. 2. 3. 4. 5. 6.
Introduceţi datele din tabel începând din celula B2. Alegeţi Data-Data Analysis şi Correlation. La Input Range selectaţi B2:F17. Selectaţi Grouped by: Columns Selectaţi Labels in first row. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele. Apăsaţi OK.
Se obţin rezultatele următoare, sub forma matricei coeficientilor de corelatie liniara de selectie (Pearson) intre variabilele modelului: Yi
Yi Xi1 Xi2 Xi3 Xi4
1 -0,39738 0,654076 0,227572 0,448854
Xi1
Xi2
Xi3
1 -0,15141 1 -0,10321 0,665457 1 -0,25737 0,025395 0,037226
Xi4
1
Dacă studiem corelaţiile liniare existente între variabile observăm că cea mai puternică corelaţie (directă) este între Yi şi Xi2, adică între profit şi venitul mediu pe locuitor din zonă (coeficient de corelaţie: 0,665). Cea mai slabă corelaţie este între variabilele Yi şi Xi3, adică între profit şi numărul competitorilor (coeficientul de corelaţie: 0,22). De asemenea, se observă că profitul este invers corelat cu numărul de locuitori (coeficient de corelaţie între variabilele Yi şi Xi1 de -0,397).
8
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 TEMA 1. Perioada Sărbatorilor de iarnă este de o deosebită importanţă pentru industria turismului dintr-o staţiune turistică. Camera de Comerţ locală angajează un analist de marketing pentru studierea şi promovarea turismului din staţiunea respectivă. Acesta consideră că printre factorii importanţi ce influenţează gradul de ocupare al hotelurilor din regiune în perioada Sărbătorilor de iarnă se numără condiţiile meteorologice din anul precedent (temperatura aerului şi numărul de zile cu precipitaţii). Datele înregistrate pentru ultimii 12 ani sunt: Rata locurilor vacante in unit. hoteliere (%) 6 12 11 8 13 9 6 8 4 10 8 9
Temperatura medie zilnica (grade C) 8 4 3 7 2 6 7 7 8 7 5 6
Numarul de zile ploiase in perioada sarbatorilor de iarna 1 4 3 2 3 4 1 1 2 3 3 4
Cerinţe: a) Identificaţi ecuaţia de regresie liniară ce modelează legătura dintre cele trei variabile şi interpretaţi valorile coeficienţilor de regresie, b) Testaţi validitatea modelului găsit, nivel de semnificaţie de 5%, c) Testaţi semnificaţia statistică a parametrilor modelului, nivel de semnificaţie de 5%, d) Interpretaţi intervalele de încredere ale parametrilor modelului, e) Analizaţi sensul şi intensitatea legăturii dintre variabile folosind indicatori adecvaţi, f) În ce proporţie variaţia totală a ratei locurilor vacante este determinată de influenţa factorilor reziduali? g) Explicaţi semnificaţia celei de a şaptea valori din coloana “Predicted Rata locurilor vacante in unit. hoteliere (%)” şi arătaţi cum s-a obţinut, h) Previzionaţi rata locurilor vacante în condiţiile înregistrării unei temperaturi medii zilnice de 10 grade Celsius şi a unui număr de 7 zile ploioase. 2. Pentru a decide zona de amplasare a unui nou magazin, managerul unui lanţ de supermarketuri realizează un studiu pe următoarele variabile: profitul anual brut obţinut (sute euro), venitul mediu al locuitorilor din zonă (sute euro) şi numărul competitorilor pe o rază de un kilometru. În urma înregistrării şi prelucrării datelor înregistrate de la 15 supermarketuri şi în ipoteza unei dependenţe liniare între variabilele considerate, s-au obţinut următoarele rezultate: Regression Statistics Multiple R …. R Square …. Adjusted R Square 0,423 Standard Error …. Observations 15 9
Problema rezolvata – regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 ANOVA df
SS
MS
Regression Residual
… …
… …
Total
…
15173,378
Intercept Venit Competitori
F
… 625,607
…
Significance F 0,015
Coefficients …. ….
Standard Error 133,661 3,538
t Stat -0,899 3,316
P-value 0,386 0,006
Lower 95% -411,388 4,024
Upper 95% 171,056 19,442
-13,886
10,134
….
0,196
…
….
a) Scrieţi ecuaţia de regresie care modelează legătura dintre cele trei variabile şi interpretaţi valorile coeficienţilor de regresie; b) Testaţi semnificaţia statistică a ultimului parametru al modelului şi determinaţi şi interpretaţi intervalul său de încredere (valoare critică: 2,179); c) Analizaţi dacă modelul de regresie identificat este valid statistic, pentru un nivel de semnificaţie de 5% (valoare critică: 3,88); d) Măsuraţi intensitatea legăturii dintre cele trei variabile; testaţi semnificaţia statistică a indicatorului folosit.
10