Probleme Rezolvate Regresie Liniara Simpla [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Problema 1. Un analist doreşte să studieze legătura dintre cheltuielile pentru promovarea produselor şi nivelul vânzărilor realizate. În acest scop el sistematizează date pentru 15 mărfuri alimentare privind cheltuielile lunare cu promovarea produsului (mii lei) şi încasările lunare realizate (mii lei): Cheltuieli promovare (mii lei) 20,0 14,8 20,5 12,5 18,0 14,3 24,9 16,5 24,3 20,2 22,0 19,0 12,3 14,0 16,7

Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Încasări lunare (mii lei) 2190 1900 1990 1210 1500 1980 3340 1880 3100 2130 2880 3120 1860 1730 1740

a) Analiza legaturii pe baza metodei grafice: Pentru analiza de regresie liniară simplă vom construi corelograma: 3800

3400

Incasari (mil. lei)

3000

2600

2200

1800

1400

1000 10

12

14

16

18

20

22

24

26

Cheltuieli de promovare (mil. lei)

Figura 4.8 Distribuţia încasărilor în funcţie de cheltuieli

Analizând corelograma remarcăm că între cele două variabile există o legătură liniară directă ce poate fi descrisă printr-o ecuaţie de forma: yi = a + bxi + ei b) Determinam modelul de regresie liniara in esantion. Calculele necesăre estimării parametrilor ecuaţiei de regresie sunt redate în tabelul următor: Tabelul 4.2

Nr. crt.

Chelt. Încas. (X) (Y)

x2

y2

xy

) y

) y− y

) ( y − y )2

y− y

( y − y )2

Nr. Chelt. Încas.

xy y2 x2 (X) (Y) crt. 1 12,30 1860 151,29 3459600 22878 2 12,50 1210 156,25 1464100 15125 3 14,00 1730 196,00 2992900 24220 4 14,30 1980 204,49 3920400 28314 5 14,80 1900 219,04 3610000 28120 6 16,50 1880 272,25 3534400 31020 7 16,70 1740 278,89 3027600 29058 8 18,00 1500 324,00 2250000 27000 9 19,00 3120 361,00 9734400 59280 10 20,00 2190 400,00 4796100 43800 11 20,20 2130 408,04 4536900 43026 12 20,50 1990 420,25 3960100 40795 13 22,00 2880 484,00 8294400 63360 14 24,30 3100 590,49 9610000 75330 15 24,90 3340 620,01 11155600 83166 Total 270,00 32550 5086,00 76346500 614492

) y

) y− y

) ( y − y )2

y− y

( y − y )2

1448,83 1474,14 1663,90 1701,85 1765,11 1980,18 2005,48 2169,94 2296,45 2422,96 2448,26 2486,22 2675,98 2966,95 3042,86 32549,10

411,17 -264,14 66,10 278,15 134,89 -100,18 -265,48 -669,94 823,55 -232,96 -318,26 -496,22 204,02 133,05 297,14 0,90

169058,30 69767,30 4369,21 77365,75 18195,85 10035,03 70478,04 448819,60 678234,60 54270,36 101290,70 246229,33 41624,16 17701,50 88292,77 2095732,52

-310 -960 -440 -190 -270 -290 -430 -670 950 20 -40 -180 710 930 1170 0

96100 921600 193600 36100 72900 84100 184900 448900 902500 400 1600 32400 504100 864900 1368900 5713000

Sistemul de ecuaţii, pentru determinarea coeficienţilor a şi b este: = 32550  15a + 270b  270a + 5086b = 614492 

şi rezultă: a = -107,24 şi b = 126,51 Ecuaţia de regresie este:

) yi = −107 ,24 + 126,51xi Pe baza datelor din tabelul 4.1 putem determina coeficientul de corelaţie: 15 ⋅ 614492 − 270 ⋅ 32550

r=

(15 ⋅ 5086 − 270

2

)(15 ⋅ 76346500 − 32550 2 )

= 0,796 , ceea ce ne arată o legătură directă şi de

intensitate destul de puternică între cele două variabile. c) Vom valida modelul de regresie determinat mai sus: Sursă variaţiei

Suma pătratelor (SS-Sum of Squares)

Datorată regresiei

∆2y / x =3617268

Reziduală

∆2e =2095732

n – k – 1=152=13

∆2y =5713000

n – 1=15-1= 14

Totală

Grade de libertate (df- degree of freedom) k=1

Media pătratelor (MS- Mean of Squares)

s y2 / x =3617268

se2 =161210,2

Pentru testarea validităţii modelului se formulează cele două ipoteze: H0: model nevalid statistic, cu alternativa

Tabelul 4.4 Testul Fisher (testul F)

Fcalc =

3617268 =22,438 161210 ,2

H1: model valid statistic Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 13 grade de libertate, preluată din tabelul repartiţiei Fisher este Fα ;k ;n− k −1 =4,67. Întrucât Fcalc> Fα ;k ;n−k −1 se respinge H0, adică se concluzionează că modelul este valid. d) Pe baza datelor din exemplul de mai sus putem calcula şi testa: 1) Raportul de corelaţie

R = 1−

2095732 ,52 = 0 ,6332 = 0 ,796 ,ceea ce ne arată o legătură destul de puternică între 5713000

variabile.

F=

n − k −1 R2 ⋅ = 22 ,438 k 1 − R2

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 13 grade de libertate, preluată din tabelul repartiţiei Fisher este Fα ;k ;n−k −1 =4,67. Întrucât Fcalc> Fα ;k ;n−k −1 se respinge H0, adică se concluzionează că R este semnificativ statistic. 2) Coeficientul de determinaţie R2 = 0, 6332 ceea ce arată că 63,32% din variaţia încasărilor se explică prin variaţia cheltuielilor de promovare a produsului. Observăm, de asemenea, că r =R =0,796, ceea ce arată că modelul de regresie este liniar. e) Testarea semnificatiei parametrilor modelului de regresie si determinarea intervalelor lor de incredere. 1) parametrul β Ipotezele sunt: H0 : β = 0 (µb = β = 0), H1 : β ≠ 0. Deoarece volumul eşantionului este mic (ntα/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu β=0 ( adică β este semnificativ diferit de zero).

Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:

b − tα / 2 ,n − 2 ⋅ sb ≤ β ≤ b + tα / 2 ,n− 2 ⋅ sb , adică 68 ,81 ≤ β ≤ 184 ,21 2) parametrul a Ipotezele sunt: H0 : α = 0, H1 : α ≠ 0 Statistica t este:

t calc =

a − µa a − 0 = . sa sa

tcalc = -0,218, iar sa =491,8 Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα/2;13 = 2,16 . Deoarece

t calc Fα ;k ;n −k −1 se respinge H0, adică se concluzionează că modelul este valid. Calculele intermediare se găsesc în tabelul 4.5. d) Ecuaţia de regresie liniară la nivelul colectivităţii generale se scrie: yi = α + βxi + εi,

iar la nivelul eşantionului:

yi = a + bxi + ei Pentru testarea semnificaţiei parametrilor modelului de regresie liniară şi estimarea lor pe intervalele de încredere se procedează astfel: 1) pentru parametrul β Ipotezele testate sunt: H0 : β = 0 (µb = β = 0), H1 : β ≠ 0. Deoarece volumul eşantionului este mic (ntα/2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu β=0 ( adică β este semnificativ diferit de zero), deci parametrul β este semnificativ statistic. Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:

b − tα / 2 ,n − 2 ⋅ sb ≤ β ≤ b + tα / 2 ,n− 2 ⋅ sb , adică 4,1629 ≤ β ≤ 5,9876 2) pentru parametrul a Ipotezele testate sunt: H0 : α = 0,

H1 : α ≠ 0 Statistica t este:

t calc =

a − µa a − 0 = . sa sa n

∑x

2 i

i =1

Unde s a = se

= 5,046 ⋅

n

n∑ ( xi − x ) 2

763 = 3,0912 14 ⋅ 145,21

i =1

Se obţine t calc = 0,7394 Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα/2;13 = 2,179 . Deoarece

t calc tα ;n − 2 , deci coeficientul de corelaţie este semnificativ statistic

Un alt indicator utilizat atât în cazul legăturilor liniare, cât şi al celor neliniare este raportul de corelaţie R:

R = Ry / x = 1 −

∑ ( y − yˆ ) ∑ (y − y ) i

2

i

2

= 1−

i

305,53 = 0,9615 4046

Calculele necesăre determinării raportului de corelaţie sunt redate în 4.5 y=

∑ yi = 504 = 36 n

14

mii pers.

Ry/x = ry/x = 0,9615, deci există o legătură liniară, puternică şi directă între cele două variabile.

Testarea semnificaţiei raportului de corelaţie se face cu testul F:

F=

n − k −1 R2 ⋅ = 146,9 k 1− R2

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 12 grade de libertate, preluată din tabelul repartiţiei Fisher este Fα ;k ;n−k −1 =4,75. Întrucât Fcalc> Fα ;k ;n−k −1 se respinge H0, adică se concluzionează că R este semnificativ statistic. f) Pentru a determina în ce măsură variaţia numărului de vizitatori este explicată de influenţa numărului de spoturi publicitare difuzate zilnic, se calculează coeficientul de determinaţie: R y2 / x = 0 ,9615 2 = 0 ,9245 său 92,45% arată că aproximativ 92% din variaţia variabilei Y este

explicată de variabila X. g) Dacă numărul spoturilor publicitare difuzate va fi de 15, atunci numărul previzionat al vizitatorilor pe baza acestei ecuaţii de regresie este: ˆy / x =15 = 2 ,2858 + 5 ,0753 ⋅ 15 ≅ 78 mii pers. (estimare punctuală)

Pentru estimarea pe interval de încredere, trebuie să determinăm dispersia diferenţei

yˆ n +1 − y n +1,i , adică dispersia erorii de previzionare. Dispersia în eşantion este:    2   1 (15 − 6,64) 2  1 ( x − x)   = 39,534 . s(2yˆ n +1,i ) = s(2yˆ n +1 − yn +1,i ) = se2 1 + + n n+1 = 25,461⋅ 1+ +  n  14 145,21  2  ( xi − x)   ∑ i =1   Intervalul de încredere este:

yˆ n +1,i ± tα / 2,n − 2 s e 1 +

1 ( x n +1 − x ) 2 + n , adică (64,71; 92,11) mii persoane. n 2 ∑ ( xi − x) i =1

h) Suntem în cazul determinării intervalului de încredere pentru media de răspuns, când xn+1 ≠ x . Pentru aceasta se determină yˆ n +1 = y + b( x n +1 − x) = 36 + 5,0753 ⋅ (8 - 6,64) = 42,9

iar estimatorul dispersiei pentru yˆ n+1 este:

s(2yˆ n +1 )

  ( x − x) 2 2 1 = se + n n +1 n 2 xi − x  ∑ i =1 

(

)

  2  = 25,461 ⋅  1 + (8 − 6,64)  14  145,21   

  = 2,14 

Intervalul de încredere pentru media de răspuns este:

(

) )

x −x 1 + n n +1 n ∑ xi − x

yˆ n +1 ± tα / 2, n− 2 s e

(

2 2

, adică (39,71; 46,08) mii persoane

i =1

Se poate utiliza, însă, pentru rezolvarea problemei şi un pachet informatic specializat, în cazul nostru – EXCEL. În urma selectării, din meniul principal, a opţiunilor

++, s-au obţinut următoarele rezultate: SUMMARY OUTPUT Regression Statistics Multiple R 0,961501303 R Square 0,924484756 Adjusted R Square 0,918191819 Standard Error 5,045911528 Observations 14 ANOVA df

Regression Residual Total

Intercept Nr. spoturi

1 12 13

Coefficients 2,2858 5,0753

SS 3740,465 305,535 4046,000

Standard Error 3,0912 0,4187

MS 3740,465 25,461

F 146,908

Significance F 0,0000000433

t Stat 0,7394 12,1206

P-value 0,4738580696 0,0000000433

Lower 95% -4,4495 4,1629

Upper 95% 9,0210 5,9876

Problema 4. Un vânzător de automobile second hand ar dori să ştie dacă preţul de vânzare al acestora la licitaţie depinde de numărul de kilometri parcurşi de automobilul respectiv. Pentru aceasta el selectează 50 de automobile cu o vechime de 3 ani, aceeaşi marcă şi aceleaşi facilităţi. Pentru fiecare maşină a înregistrat preţul de vânzare la licitaţie şi numărul de kilometri de la bordul autoturismului. a)

Vânzătorul ar dori să ştie care este dependenţa dintre preţul de vânzare şi numărul de kilometri parcurşi.

b)

Testaţi semnificaţia parametrilor funcţiei de regresie şi validitatea modelului de regresie obţinut.

c)

Măsuraţi intensitatea legăturii dintre variabile. Preţul 37388 44758 45833 30862 31705 34010 45854 19057 40149 40237

Nr.Km 5318 5061 5008 5795 5784 5359 5235 5845 5536 5401

Preţul 32359 43533 32744 34470 37720 41350 24469 35781 48613 24188

Nr.Km 5595 5330 5806 5805 5317 5316 5870 5504 5333 5705

Preţul 38775 45563 28676 38231 36683 32517 39050 45251 34384 38383

Nr.Km 5150 5249 5775 5327 5192 5544 5054 5115 5410 5529

Preţul 32161 26561 33533 41849 36668 37495 25629 40099 31014 42233

Nr.Km 5507 5873 5303 5237 5383 5286 5827 5483 5440 5215

Preţul 37407 34356 30599 42485 38430 40452 26030 46296 34844 27379

Nr.Km 5105 5685 5788 5208 5168 5128 5750 4965 5238 5763

Rezolvare: a) Pentru determinarea dependenţei între cele două variabile se face un grafic pentru determinarea tipului legăturii. 6000 5800

Preţ

5600 5400 5200 5000 4800 0

10000

20000

30000

40000

50000

60000

Număr de kilometri parcurşi

Figura 4.12

Deoarece punctele reprezentate sunt grupate în jurul diagonalei secundare, există o dependenţă liniară, inversă între cele două variabile. Pentru determinarea modului în care preţul variază în funcţie de numărul de kilometri parcurşi se va folosi modelul de regresie liniară. Rezolvare folosind EXCEL:

1. Introduceţi datele astfel: în celula A1 tastaţi „Nr.Km.“ iar în B1 „Preţul“. În prima coloană, începând din A2 se vor introduce numărul de kilometri parcurşi, iar pe coloana a doua, începând din B2 se vor introduce preţurile. 2. Apăsăţi Tools-Data Analysis şi Regression. 3. La Input Y Range selectaţi B1:B51. La Input X Range selectaţi A1:A51. Selectaţi Labels. 4. Dacă doriţi să calculaţi valorile reziduale ( y i − yˆ i ), selectaţi Residuals. Apăsăţi OK. Se obţin rezultatele: SUMMARY OUTPUT Regression Statistics Multiple R 0.808922 R Square 0.654355 Adjusted R Square 0.647154 Standard Error 157.8984 Observations 50 ANOVA Df Regression Residual Total

1 48 49 Coefficients

Intercept Nr.Km.

SS 2265584 1196732 3462316

Standard Error 6598.34 124.3322 -0.03224 0.003382

MS 2265584 24931.91

t Stat 53.07024 -9.53262

F 90.87089

P-value

Significance F 1.19E-12

Lower 95% Upper 95%

2.78E-44 1.19E-12

6348.353 -0.03904

6848.326 -0.02544

Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.

Coeficientul b este – 0,03224, ceea ce însemnă că la creşterea distanţei parcurse cu 1 kilometru, preţul va descreşte cu 0,03224×104 lei (322,4 lei). Intercept este termenul liber, deci coeficientul a este 6598,34. Termenul liber este punctul în care dreapta de regresie intersectează axa y. Aceasta înseamnă că x=0, deci a reprezintă preţul unei maşini care nu a fost condusă. Dar, în cazul nostru acest punct nu are semnificaţie, deoarece toate maşinile sunt second hand. Interpretarea rezultatelor prezente în primul tabel din SUMMARY OUTPUT.

Este calculată eroarea standard, Standard Error, egală cu 157,9. În cazul în care această valoare este zero, înseamnă că toate punctele observate se află pe dreapta de regresie. Deci, bine este ca această valoare să fie cât mai apropiată de zero. Ce înseamnă mai apropiată de zero este greu de spus folosind doar eroarea standard. De aceea se calculează mărimi derivate din aceasta pentru a spune cât de apropiate sunt punctele de dreapta de regresie. Pentru a putea spune în ce măsură modelul liniar de regresie explică dependenţa dintre variabile se calculează coeficientul de determinaţie, R-square care în cazul nostru este 0,6544. Deci 65,44% din variaţia preţului este explicată de variaţia numărului de kilometri parcurşi de automobil. 2

Este calculat, de asemenea, coeficientul de determinaţie ajustat, R , egal cu 0,6472. În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate valorile reziduale şi valorile previzionate pe baza modelului de regresie.

RESIDUAL OUTPUT Observation 1 2 3 4 .....

Predicted Price Residuals 5392.879821 -74.8798 5155.257064 -94.2571 5120.597029 -112.597 5603.29042 191.7096

Rezolvare folosind STATISTICA: 1. Creaţi un fişier cu 2 variabile şi 50 de cazuri (File/New data). Introduceţi datele astfel: prima variabilă este numărul de kilometri parcurşi, a doua variabilă este preţul stabilit la licitaţie. 2. Selectaţi modulul General Linear Model. Selectaţi apoi Simple Regression. 3. În noua fereastră deschisă apăsăţi butonul Variables. Aici selectaţi la Dependent variable list a doua variabilă şi la Predictor prima variabilă. Apăsăţi OK. 4. Apăsăţi Summary. Apăsăţi Coefficients. Se obţine:

Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. 5. Apăsăţi Continue. Apăsăţi Whole model R. Se obţine:

Acest tabel se interpretează similar cu tabelul 1 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: 6. Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals. Se obţine:

Se observă că în tabelul anterior sunt afişate: - preţul observat; - preţul previzionat; - valoarea reziduală: preţul observat – preţul previzionat; - eroarea standard;

b) Rezolvare folosind EXCEL: Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.

În coloana a doua (Standard Error) sunt calculate, erorile standard ale parametrilor estimaţi: sa = 124,33 şi sb = 0,0034. Aceste erori sunt folosite pentru calculul statisticilor t pentru testarea

semnificaţiei estimatorilor. Acestea sunt calculate în coloana tStat, ta = 53,07 şi tb = - 9,53. Deoarece valorile p asociate sunt foarte apropiate de zero (în coloana P-value), se poate spune că estimatorii sunt semnificativi. Lower 95% şi Upper 95% sunt limitele inferioare, respectiv superioare ale coeficienţilor estimaţi. Interpretarea rezultatelor prezente în tabelul ANOVA.

Validitatea modelului de regresie se testează folosind testul F. În tabelul ANOVA sunt calculate cele trei variaţii: cea explicată de model, cea reziduală şi cea totală. Cu ajutorul acestora se calculează Statistica F. În cazul nostru aceasta este 90,87. Deaorece valoarea p asociată este foarte apropiată de zero (prag de semnificaţie scăzut), se poate valida modelul de regresie. În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate valorile reziduale şi valorile previzionate pe baza modelului de regresie. RESIDUAL OUTPUT Observation

1 2 3 4 .....

Predicted Price Residuals 5392.879821 -74.8798 5155.257064 -94.2571 5120.597029 -112.597 5603.29042 191.7096

Rezolvare folosind STATISTICA:

Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals.

Se obţine:

Se observă că în tabelul anterior sunt afişate: -

preţul observat;

-

preţul previzionat;

-

valoarea reziduală: preţul observat – preţul previzionat;

-

eroarea standard;

-

intervalul de previziune, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi număr de kilometri parcurşi, cu o probabilitate de 95%, preţul previzionat al acestuia va fi inclus în intervalul de previziune;

-

intervalul de încredere, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi număr de kilometri parcurşi, cu o probabilitate de 95%, preţul acestuia va fi inclus în intervalul de încredere. c) Deoarece datele sunt cantitative, pentru măsurarea intensităţii legăturii dintre două variabile

se calculează coeficientul de corelaţie liniară. Rezolvare folosind EXCEL: 1. Introduceţi datele ca în Exemplul 5.13. 2. Apăsăţi Tools-Data Analysis şi Correlation. 3. Specificaţi Input Range (A1:B51). Apăsăţi Labels in First Row. Apăsăţi OK. Se obţin rezultatele: Număr de kilometri parcurşi Număr de kilometri parcurşi Preţ

1 -0.808922247

Preţ

1

Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,809. Deoarece acesta este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile. Rezolvare folosind STATISTICA: 1. 2. 3. 4.

Introduceţi datele ca în Exemplul 5.13. Selectaţi modulul Basic Statistics and Tables. Selectaţi apoi Correlation Matrices. Apăsăţi butonul One variable list (square matrix). Selectaţi ambele variabile. Apăsăţi OK. La Display selectaţi Detailed table of results. Apăsăţi OK.

Se obţin rezultatele:

Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,81. Deoarece acesta este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile.