Ipoteze Rezolvat [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Ipotezele asupra componentei aleatoare (erorilor) 1. Media erorilor este nulă Ipoteze: H0: M(εi)=0 H1: M(εi)≠0

tcalc =

M ( ei ) sMˆ ( e )

din tabelul “one-sample statistics” (mean si std. error mean) sau pe baza de sig din tabelul “one-sample test”



dacă această ipoteză este încălcată, atunci se modifică proprietăţile estimatorilor parametrilor modelului de regresie (parametrii sunt estimaţi deplasat sau cu o eroare sistematică).  Modelul iniţial se corectează cu ajutorul estimaţiei erorilor calculate la nivelul eşantionului.  Modelul corectat este de forma:

y*i = b0 + bi xi + ui unde:

y*i = yi - M ( e i )

2. Erorile modelului sunt homoscedastice Ipoteze H0: V(εi)=σ2 (erori homoscedastice) / ipoteza de homoscedasticitate H1: V(εi)≠σ2 (erori heteroscedastice)/ ipoteza de heteroscedasticitate • •

ipoteza de homoscedasticitate presupune ca varianţa erorilor să fie constantă: V(εi)=σ2 această ipoteză presupune o varianţă constantă şi egală a erorilor la nivelul distribuţiilor condiţionate



i de forma efectele incalcarii ipotezei de homoscedasticitate: pierderea eficienţei estimatorilor parametrilor modelului de regresie (estimează parametrul cu o varianţă mai mare).

Y X =x

Corectarea heteroscedasticităţii 2 s i Dacă se cunosc parametrii

Corecţia heteroscedasticităţii este aplicată modelului de regresie liniară simplă:

yi = b0 + b1 xi + e i

Corectarea heteroscedasticităţii presupune ponderarea modelului iniţial cu variabila

yi

s

=

1 si

b0 x e + b1 i + i si si si

i Noul model de regresie (corectat) se obţine astfel: Estimarea parametrilor acestui model se realizează pe baza MCMMP ponderată (method of weighted least squares) 1

3. Erorile urmează o lege de distribuție normală Ipoteze H0:  i ~ N (0,  2 ) (Ipoteza de normalitate) H1: 𝜀𝑖 ! ∼ 𝑁(0, 𝜎 2 ) ( distribuția erorilor nu urmează o lege normal) Efectele încălcării acestei ipoteze - ipoteza de normalitate a erorilor este importantă pentru stabilirea proprietăților estimatorilor parametrilor modelului de regresie. 2 - dacă e i ~ N ( 0 ,s ) , atunci estimatorii parametrilor modelului de regresie urmează, de asemenea, o

bˆi ~ N ( b i , s b2ˆ )

-

i lege normală: dacă ipoteza de normalitate este încălcată, proprietăţile estimatorilor construiţi pe baza metodei celor mai mici pătrate au doar proprietăţi asimptotice, adică necesită eşantioane sau seturi mari de date.

4. Erorile nu sunt autocorelate (erorile sunt independente) Ipoteze H0: cov(εi, εi)=0 sau ( = 0) (Nu exista autocorelare a erorilor) (erorile sunt independente) H1: cov(εi, εi)≠0 sau ( ≠ 0)

Ipoteza de necoliniaritate a variabilelor independente Ipoteza de necoliniaritate presupune că între variabilele independente ale unui model de regresie linear multiplu nu există o legătură de tip liniar. Probleme: -

identificarea gradului de coliniaritate

-

stabilirea cauzelor încălcării ipotezei

-

stabilirea efectelor coliniarităţii

-

testarea ipotezei de coliniaritate şi

-

corectarea modelului în cazul existenţei

acesteia.

Ipoteza lipsei de coliniaritate a variabilelor independente Grade de coliniaritate: -

Coliniaritate perfectă dacă există p constante , nu toate nule,

l1 X 1 + l2 X 2 + ... + l p X p = 0 2

-

respectiv coliniaritate neperfectă dacă are loc relaţia:

l1 X 1 + l2 X 2 + ... + l p X p + u = 0 unde u este o variabilă aleatoare care respectă ipotezele modelului clasic de regresie. -

-

-

-

-

Cauzele încălcării necoliniarităţii: Tipul de model utilizat; Variabilele alese pentru a realiza modelarea etc. Efectele coliniarităţii: Varianţa estimatorilor parametrilor de regresie creşte, deci estimatorii nu vor mai fi eficienţi. Dacă există coliniaritate perfectă, varianţa estimatorilor este infinită, iar parametrii nu pot f estimaţi. Dacă există coliniaritate imperfectă, atunci varianţele estimatorilor parametrilor vor fi mari Identificarea coliniarităţii Testarea coeficienţilor de regresie în cazul unui model cu un coeficient de determinaţie ridicat (de obicei peste 0.8). • Dacă coeficienţii de regresie sunt nesemnificativ diferiţi de zero, atunci ipoteza de necoliniaritate este încălcată. Testarea coeficienţilor de corelaţie bivariaţi pentru variabilele independente din modelul de regresie • Dacă aceşti coeficienţi au valori ridicate (de regulă, peste 0.8), atunci există posibilitatea coliniarităţii între variabilele independente. Estimarea şi testarea parametrilor modelelor de regresie auxiliară dintre variabilele independente . • Ipoteza de necoliniaritate este încălcată dacă aceşti coeficienţi de regresie sunt semnificativ diferiţi de zero. Detectare a coliniarităţii pe baza a doi indicatori (aplicaţi în SPSS): • Tolerance (TOL) • VIF (Variance Inflation Factor). Corectarea coliniarităţii

-

Eliminarea din model a variabilei care induce coliniaritatea Construirea unui model de regresie cu variabile transformare folosind diverse funcţii sau operatori (decalaj, diferenţă etc.)

3

Exemplu Pentru un esantion de masini se considera legatura dintre variabilele Consum si Puterea motorului. Model Summaryb Model 1

R .771a

R Square .595

Adjusted R Square .594

Std. Error of the Estimate 4.974

DurbinWatson .964

a. Predictors: (Constant), Horsepower b. Dependent Variable: Miles per Gallon

Coeffi cientsa

Model 1

(Const ant) Horsepower

Unstandardized Coeffic ient s B St d. Error 39.855 .730 -.157 .007

St andardiz ed Coeffic ient s Beta

t 54.578 -23.931

-.771

Sig. .000 .000

a. Dependent Variable: Miles per Gallon

ANOV Ab Model 1

Regres sion Residual Total

Sum of Squares 14169. 756 9649.237 23818. 993

df 1 390 391

Mean S quare 14169. 756 24.742

F 572.709

Sig. .000a

a. Predic tors: (Constant), Hors epower b. Dependent Variable: Miles per Gallon

Se cere: 1. 2. 3. 4. 5. 6.

Să se scrie ecuaţia estimată a modelului. Să se verifice dacă influenţa variabilei independente asupra variabilei dependente este semnificativă. Să se verifice dacă parametrii modelului de regresie sunt semnificativi. Să se verifice dacă media erorilor este diferită semnificativ de zero, considerând un risc de 5%. Să se verifice homoscedasticitatea erorilor folosind coeficientul Spearman si Breusch-Pagan-Godfrey Să se verifice homoscedasticitatea erorilor folosind procedeul Glejser.

7. Să se verifice dacă erorile sunt normal distribuite, folosind curba frecvenţelor. 8. Să se verifice dacă erorile sunt normal distribuite, folosind procedeele QQ plot şi PP plot. 9. Să se verifice normalitatea erorilor folosind testul KS. 10. Să se verifice normalitatea erorilor folosind testul Jarque-Bera. 11. Să se verifice independenta erorilor folosind testul Runs 12. Să se verifice independenta erorilor folosind testul Durbin-Watson Testarea mediei erorilor in raport cu zero One-Sam ple Test Test Value = 0

t Unstandardized Residual

df .000

391

Sig. (2-tailed) 1.000

Mean Difference .00000000

95% Confidenc e Int erval of t he Difference Lower Upper -.4932982 .4932982

4

One-Sample Statistics N Unstandardized Res idual

Mean ,0000000

15

Std. Deviation 73271,63549

Std. Error Mean 18918,65

Residuals Statistics a Predicted Value Residual Std. Predicted Value Std. Residual

Minimum 58508,12 -98125,2 -,778 -1,290

Maximum 6084511 131202,7 2,300 1,725

Mean 1582428 ,00000 ,000 ,000

Std. Deviation 1957596,554 73271,63549 1,000 ,964

N 15 15 15 15

a. Dependent Variable: salariu

Verificarea homoscedasticităţii Testul Glejser  are la bază un model de regresie între variabila reziduală estimată şi variabila independentă. Etapele testării: 1. Se estimează modelul de regresie de forma: Y = b 0 + b1 × X + e 2. Se calculează erorile estimate ei. 3. Se construieşte un model de regresie pe baza erorilor estimate în valoare absolută

e i = a0 + a1 × xi + ui 4. Se testează (Sig sau t calc din tabel) parametrii acestui model: dacă parametrul α1 este semnificativ, atunci modelul iniţial este heteroscedastic. H0: α1 = 0 (parametrul nu este semificativ statistic – modelul este homoscedastic) H1: α1≠ 0 (parametrul este semificativ statistic – modelul este heterocedastic – trebuie corectat) Model Summary Model 1

R R Square .160a .026

Adjusted R Square .023

Std. Error of the Estimate 3.07770

a. Predictors: (Constant), Horsepower

ANOVAb Model 1

Regres sion Residual Total

Sum of Squares 96.886 3694.184 3791.070

df 1 390 391

Mean Square 96.886 9.472

F 10.228

Sig. .001a

t 11.559 -3. 198

Sig. .000 .001

a. Predic tors: (Constant), Hors epower b. Dependent Variable: modul_err

Coeffi cientsa

Model 1

(Const ant) Horsepower

Unstandardized Coeffic ient s B St d. Error 5.223 .452 -.013 .004

St andardiz ed Coeffic ient s Beta -.160

a. Dependent Variable: modul_err

5

Testul Breusch-Pagan-Godfrey -

Plecand de la ipoteza ca exista o legatura multipla liniara intre variabila Y si variabilele X1 si X2 descrisa de relatia: Y=β0+β1X1+β2X2+ε, testarea homoscedasticitatii presupune parcurgerea urmatoarilor pasi:

-

estimarea parametrilor modelului de regresie liniara multipla: β0;β1 si β2

-

pe baza modelului estimat se obtin valorile erorii de modelare;

-

construirea modelului auxiliar de regresie:

-

ei2=α0 +α1X1+ α2X2+u

-

se estimeaza raportul de determinatie a modelului auxiliar (Rα2).

-

Pe baza acestuia se caluleaza valoarea statisticii χ2 = n Rα2 care va fi comparata cu o valoare teoretica χ2α, k-1, unde k reprezinta numarul parametrilor din modelul auxiliar;

-

prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/ respinge ipoteza de homoscedasticitate a erorilor:

-

χ2 < χ2α, k-1=> Nu Respingem H0 χ2 ≥ χ2α, k-1=> Respingem H0

6

Verificarea normalităţii erorilor Verificarea normalităţii erorilor - legea normală este definită de funcţia de densitate de probabilitate care este reprezentată grafic prin curba densităţii de probabilitate, curbă cu alură de clopot. Procedee grafice - Histograma (curba frecvenţei); - Box-Plot. Reprezentarea histogramei şi a curbei frecvenţelor - se reprezintă curba frecvenţei sau histograma reziduurilor şi se observă dacă forma distribuţiei acestora are alură de clopot.

7

Histograma şi curba frecvenţelor 50

Frequency

40

30

20

10

Mean = 3.6082248E-16 Std. Dev. = 4.96773143 N = 392 0 -20.00000

-10.00000

0.00000

10.00000

20.00000

Unstandardized Residual

Diagrama PP-Plot

Diagrama QQ-Plot

Normal Q-Q Plot of Unstandardized Residual

Normal P-P Plot of Unstandardized Residual

15

1.0

10

Expected Normal Value

Expected Cum Prob

0.8

0.6

0.4

5

0

-5

0.2

-10

0.0

-15 0.0

0.2

0.4

0.6

0.8

1.0

Observed Cum Prob

-20

-10

0

10

20

Observed Value

Testul Kolmogorov Smirnov-Lilliefors (KSL) -

presupune compararea frecvenţelor cumulate (calculate) cu frecvenţele teoretice cumulate extrase din tabelul Gauss.

-

valoarea probabilităţii asociate statisticii test calculate (Sig.) se compară cu α (0,05): dacă Sig. Nu Respingem H0 JBcalc ≥ χ2α, 2=> Respingem H0 Valorile pentru calcul le luam din tabelul Statistics. sau se mai pot da si de forma tabelului de mai jos: (tabelul de mai jos nu are legatura cu exemplul nostru)

9

Verificarea autocorelării erorilor (Necorelarea erorilor) Testul Runs Calculul statisticii test

se foloseşte statistica t Student, calculată după relaţia: nn M( k ) = 2 1 2 +1 n1 + n2 caracterizat prin:

-

sk2 = 2n1n2

2n1n2 - n1 - n2 (n1 + n2 ) 2 (n1 + n2 - 1)

t calc =

k - M (k ) sk unde: k este numărul de runs

unde:

-

n1 este numărul de valori pozitive ale erorilor ei ;

-

n2 este numărul de valori negative ale erorilor ei,

-

s2k este o valoare calculată la nivelul eşantionului a estimatorului

cu n1 + n2 = n .

sˆ k2

Regula de decizie: dacă |tcalc|

-

ta/2,n-2 sau k Î [M (k ) ± 1,96 × s k ] , atunci nu se repinge ipoteza H0.

£

Runs Test Unstandardiz ed Res idual Test V aluea -.31137 Cases < Test V alue 195 Cases >= Test Value 197 Total Cases 392 Number of Runs 106 Z -9. 204 As ymp. Sig. (2-tailed) .000 a. Median

Testul Durbin-Watson Calculul statisticii test (dcalc):

å (eˆ -eˆ DW = d = å eˆ i

i =2

d=

å eˆ i

)2

2 i

i =1

Întrucât

i -1

e i = re i -1 + ui statistica DW se mai poate scrie astfel: 2 i

- 2å eˆ i eˆ i -1 + å eˆ i2-1 i

å eˆ i

i

2 i

å eˆ - å eˆ eˆ @2 å eˆ 2 i

i i -1

i

i

2 i

i

æ å eˆ i eˆ i -1 ö ç ÷ = 2ç 1 - i 2 ÷ = 2( 1 - rˆ ) eˆ i ÷ å ç i è ø 10

Deoarece

- 1 £ rˆ £ 1, valorile statisticii DW sunt date de intervalul: 0 £ d £ 4 rˆ = 1 Þ d = 0 , atunci există autocorelare pozitivă maximă a erorilor;

-

Dacă

-

Dacă rˆ = -1 Þ d = 4 , atunci există autocorelare negativă maximă a erorilor;

-

ˆ Dacă r = 0 Þ d = 2 , atunci nu există autocorelare. Regula de decizie

Valorile teoretice ale statisticii DW sunt calculate şi tabelate în funcţie de pragul de semnificaţie, de volumul eşantionului şi de numărul de parametri ai modelului. În tabele se determină două valori critice, notate cu d L (limita inferioară) şi dU (limita superioară). În funcţie de aceste valori critice se determină următoarele intervale, care permit luarea deciziei de respingere sau acceptare a ipotezei nule:

• • • •

(0