35 0 745KB
Ipotezele asupra componentei aleatoare (erorilor) 1. Media erorilor este nulă Ipoteze: H0: M(εi)=0 H1: M(εi)≠0
tcalc =
M ( ei ) sMˆ ( e )
din tabelul “one-sample statistics” (mean si std. error mean) sau pe baza de sig din tabelul “one-sample test”
•
dacă această ipoteză este încălcată, atunci se modifică proprietăţile estimatorilor parametrilor modelului de regresie (parametrii sunt estimaţi deplasat sau cu o eroare sistematică). Modelul iniţial se corectează cu ajutorul estimaţiei erorilor calculate la nivelul eşantionului. Modelul corectat este de forma:
y*i = b0 + bi xi + ui unde:
y*i = yi - M ( e i )
2. Erorile modelului sunt homoscedastice Ipoteze H0: V(εi)=σ2 (erori homoscedastice) / ipoteza de homoscedasticitate H1: V(εi)≠σ2 (erori heteroscedastice)/ ipoteza de heteroscedasticitate • •
ipoteza de homoscedasticitate presupune ca varianţa erorilor să fie constantă: V(εi)=σ2 această ipoteză presupune o varianţă constantă şi egală a erorilor la nivelul distribuţiilor condiţionate
•
i de forma efectele incalcarii ipotezei de homoscedasticitate: pierderea eficienţei estimatorilor parametrilor modelului de regresie (estimează parametrul cu o varianţă mai mare).
Y X =x
Corectarea heteroscedasticităţii 2 s i Dacă se cunosc parametrii
Corecţia heteroscedasticităţii este aplicată modelului de regresie liniară simplă:
yi = b0 + b1 xi + e i
Corectarea heteroscedasticităţii presupune ponderarea modelului iniţial cu variabila
yi
s
=
1 si
b0 x e + b1 i + i si si si
i Noul model de regresie (corectat) se obţine astfel: Estimarea parametrilor acestui model se realizează pe baza MCMMP ponderată (method of weighted least squares) 1
3. Erorile urmează o lege de distribuție normală Ipoteze H0: i ~ N (0, 2 ) (Ipoteza de normalitate) H1: 𝜀𝑖 ! ∼ 𝑁(0, 𝜎 2 ) ( distribuția erorilor nu urmează o lege normal) Efectele încălcării acestei ipoteze - ipoteza de normalitate a erorilor este importantă pentru stabilirea proprietăților estimatorilor parametrilor modelului de regresie. 2 - dacă e i ~ N ( 0 ,s ) , atunci estimatorii parametrilor modelului de regresie urmează, de asemenea, o
bˆi ~ N ( b i , s b2ˆ )
-
i lege normală: dacă ipoteza de normalitate este încălcată, proprietăţile estimatorilor construiţi pe baza metodei celor mai mici pătrate au doar proprietăţi asimptotice, adică necesită eşantioane sau seturi mari de date.
4. Erorile nu sunt autocorelate (erorile sunt independente) Ipoteze H0: cov(εi, εi)=0 sau ( = 0) (Nu exista autocorelare a erorilor) (erorile sunt independente) H1: cov(εi, εi)≠0 sau ( ≠ 0)
Ipoteza de necoliniaritate a variabilelor independente Ipoteza de necoliniaritate presupune că între variabilele independente ale unui model de regresie linear multiplu nu există o legătură de tip liniar. Probleme: -
identificarea gradului de coliniaritate
-
stabilirea cauzelor încălcării ipotezei
-
stabilirea efectelor coliniarităţii
-
testarea ipotezei de coliniaritate şi
-
corectarea modelului în cazul existenţei
acesteia.
Ipoteza lipsei de coliniaritate a variabilelor independente Grade de coliniaritate: -
Coliniaritate perfectă dacă există p constante , nu toate nule,
l1 X 1 + l2 X 2 + ... + l p X p = 0 2
-
respectiv coliniaritate neperfectă dacă are loc relaţia:
l1 X 1 + l2 X 2 + ... + l p X p + u = 0 unde u este o variabilă aleatoare care respectă ipotezele modelului clasic de regresie. -
-
-
-
-
Cauzele încălcării necoliniarităţii: Tipul de model utilizat; Variabilele alese pentru a realiza modelarea etc. Efectele coliniarităţii: Varianţa estimatorilor parametrilor de regresie creşte, deci estimatorii nu vor mai fi eficienţi. Dacă există coliniaritate perfectă, varianţa estimatorilor este infinită, iar parametrii nu pot f estimaţi. Dacă există coliniaritate imperfectă, atunci varianţele estimatorilor parametrilor vor fi mari Identificarea coliniarităţii Testarea coeficienţilor de regresie în cazul unui model cu un coeficient de determinaţie ridicat (de obicei peste 0.8). • Dacă coeficienţii de regresie sunt nesemnificativ diferiţi de zero, atunci ipoteza de necoliniaritate este încălcată. Testarea coeficienţilor de corelaţie bivariaţi pentru variabilele independente din modelul de regresie • Dacă aceşti coeficienţi au valori ridicate (de regulă, peste 0.8), atunci există posibilitatea coliniarităţii între variabilele independente. Estimarea şi testarea parametrilor modelelor de regresie auxiliară dintre variabilele independente . • Ipoteza de necoliniaritate este încălcată dacă aceşti coeficienţi de regresie sunt semnificativ diferiţi de zero. Detectare a coliniarităţii pe baza a doi indicatori (aplicaţi în SPSS): • Tolerance (TOL) • VIF (Variance Inflation Factor). Corectarea coliniarităţii
-
Eliminarea din model a variabilei care induce coliniaritatea Construirea unui model de regresie cu variabile transformare folosind diverse funcţii sau operatori (decalaj, diferenţă etc.)
3
Exemplu Pentru un esantion de masini se considera legatura dintre variabilele Consum si Puterea motorului. Model Summaryb Model 1
R .771a
R Square .595
Adjusted R Square .594
Std. Error of the Estimate 4.974
DurbinWatson .964
a. Predictors: (Constant), Horsepower b. Dependent Variable: Miles per Gallon
Coeffi cientsa
Model 1
(Const ant) Horsepower
Unstandardized Coeffic ient s B St d. Error 39.855 .730 -.157 .007
St andardiz ed Coeffic ient s Beta
t 54.578 -23.931
-.771
Sig. .000 .000
a. Dependent Variable: Miles per Gallon
ANOV Ab Model 1
Regres sion Residual Total
Sum of Squares 14169. 756 9649.237 23818. 993
df 1 390 391
Mean S quare 14169. 756 24.742
F 572.709
Sig. .000a
a. Predic tors: (Constant), Hors epower b. Dependent Variable: Miles per Gallon
Se cere: 1. 2. 3. 4. 5. 6.
Să se scrie ecuaţia estimată a modelului. Să se verifice dacă influenţa variabilei independente asupra variabilei dependente este semnificativă. Să se verifice dacă parametrii modelului de regresie sunt semnificativi. Să se verifice dacă media erorilor este diferită semnificativ de zero, considerând un risc de 5%. Să se verifice homoscedasticitatea erorilor folosind coeficientul Spearman si Breusch-Pagan-Godfrey Să se verifice homoscedasticitatea erorilor folosind procedeul Glejser.
7. Să se verifice dacă erorile sunt normal distribuite, folosind curba frecvenţelor. 8. Să se verifice dacă erorile sunt normal distribuite, folosind procedeele QQ plot şi PP plot. 9. Să se verifice normalitatea erorilor folosind testul KS. 10. Să se verifice normalitatea erorilor folosind testul Jarque-Bera. 11. Să se verifice independenta erorilor folosind testul Runs 12. Să se verifice independenta erorilor folosind testul Durbin-Watson Testarea mediei erorilor in raport cu zero One-Sam ple Test Test Value = 0
t Unstandardized Residual
df .000
391
Sig. (2-tailed) 1.000
Mean Difference .00000000
95% Confidenc e Int erval of t he Difference Lower Upper -.4932982 .4932982
4
One-Sample Statistics N Unstandardized Res idual
Mean ,0000000
15
Std. Deviation 73271,63549
Std. Error Mean 18918,65
Residuals Statistics a Predicted Value Residual Std. Predicted Value Std. Residual
Minimum 58508,12 -98125,2 -,778 -1,290
Maximum 6084511 131202,7 2,300 1,725
Mean 1582428 ,00000 ,000 ,000
Std. Deviation 1957596,554 73271,63549 1,000 ,964
N 15 15 15 15
a. Dependent Variable: salariu
Verificarea homoscedasticităţii Testul Glejser are la bază un model de regresie între variabila reziduală estimată şi variabila independentă. Etapele testării: 1. Se estimează modelul de regresie de forma: Y = b 0 + b1 × X + e 2. Se calculează erorile estimate ei. 3. Se construieşte un model de regresie pe baza erorilor estimate în valoare absolută
e i = a0 + a1 × xi + ui 4. Se testează (Sig sau t calc din tabel) parametrii acestui model: dacă parametrul α1 este semnificativ, atunci modelul iniţial este heteroscedastic. H0: α1 = 0 (parametrul nu este semificativ statistic – modelul este homoscedastic) H1: α1≠ 0 (parametrul este semificativ statistic – modelul este heterocedastic – trebuie corectat) Model Summary Model 1
R R Square .160a .026
Adjusted R Square .023
Std. Error of the Estimate 3.07770
a. Predictors: (Constant), Horsepower
ANOVAb Model 1
Regres sion Residual Total
Sum of Squares 96.886 3694.184 3791.070
df 1 390 391
Mean Square 96.886 9.472
F 10.228
Sig. .001a
t 11.559 -3. 198
Sig. .000 .001
a. Predic tors: (Constant), Hors epower b. Dependent Variable: modul_err
Coeffi cientsa
Model 1
(Const ant) Horsepower
Unstandardized Coeffic ient s B St d. Error 5.223 .452 -.013 .004
St andardiz ed Coeffic ient s Beta -.160
a. Dependent Variable: modul_err
5
Testul Breusch-Pagan-Godfrey -
Plecand de la ipoteza ca exista o legatura multipla liniara intre variabila Y si variabilele X1 si X2 descrisa de relatia: Y=β0+β1X1+β2X2+ε, testarea homoscedasticitatii presupune parcurgerea urmatoarilor pasi:
-
estimarea parametrilor modelului de regresie liniara multipla: β0;β1 si β2
-
pe baza modelului estimat se obtin valorile erorii de modelare;
-
construirea modelului auxiliar de regresie:
-
ei2=α0 +α1X1+ α2X2+u
-
se estimeaza raportul de determinatie a modelului auxiliar (Rα2).
-
Pe baza acestuia se caluleaza valoarea statisticii χ2 = n Rα2 care va fi comparata cu o valoare teoretica χ2α, k-1, unde k reprezinta numarul parametrilor din modelul auxiliar;
-
prin compararea valorii teoretice cu cea calculata a statisticii χ2 se va accepta/ respinge ipoteza de homoscedasticitate a erorilor:
-
χ2 < χ2α, k-1=> Nu Respingem H0 χ2 ≥ χ2α, k-1=> Respingem H0
6
Verificarea normalităţii erorilor Verificarea normalităţii erorilor - legea normală este definită de funcţia de densitate de probabilitate care este reprezentată grafic prin curba densităţii de probabilitate, curbă cu alură de clopot. Procedee grafice - Histograma (curba frecvenţei); - Box-Plot. Reprezentarea histogramei şi a curbei frecvenţelor - se reprezintă curba frecvenţei sau histograma reziduurilor şi se observă dacă forma distribuţiei acestora are alură de clopot.
7
Histograma şi curba frecvenţelor 50
Frequency
40
30
20
10
Mean = 3.6082248E-16 Std. Dev. = 4.96773143 N = 392 0 -20.00000
-10.00000
0.00000
10.00000
20.00000
Unstandardized Residual
Diagrama PP-Plot
Diagrama QQ-Plot
Normal Q-Q Plot of Unstandardized Residual
Normal P-P Plot of Unstandardized Residual
15
1.0
10
Expected Normal Value
Expected Cum Prob
0.8
0.6
0.4
5
0
-5
0.2
-10
0.0
-15 0.0
0.2
0.4
0.6
0.8
1.0
Observed Cum Prob
-20
-10
0
10
20
Observed Value
Testul Kolmogorov Smirnov-Lilliefors (KSL) -
presupune compararea frecvenţelor cumulate (calculate) cu frecvenţele teoretice cumulate extrase din tabelul Gauss.
-
valoarea probabilităţii asociate statisticii test calculate (Sig.) se compară cu α (0,05): dacă Sig. Nu Respingem H0 JBcalc ≥ χ2α, 2=> Respingem H0 Valorile pentru calcul le luam din tabelul Statistics. sau se mai pot da si de forma tabelului de mai jos: (tabelul de mai jos nu are legatura cu exemplul nostru)
9
Verificarea autocorelării erorilor (Necorelarea erorilor) Testul Runs Calculul statisticii test
se foloseşte statistica t Student, calculată după relaţia: nn M( k ) = 2 1 2 +1 n1 + n2 caracterizat prin:
-
sk2 = 2n1n2
2n1n2 - n1 - n2 (n1 + n2 ) 2 (n1 + n2 - 1)
t calc =
k - M (k ) sk unde: k este numărul de runs
unde:
-
n1 este numărul de valori pozitive ale erorilor ei ;
-
n2 este numărul de valori negative ale erorilor ei,
-
s2k este o valoare calculată la nivelul eşantionului a estimatorului
cu n1 + n2 = n .
sˆ k2
Regula de decizie: dacă |tcalc|
-
ta/2,n-2 sau k Î [M (k ) ± 1,96 × s k ] , atunci nu se repinge ipoteza H0.
£
Runs Test Unstandardiz ed Res idual Test V aluea -.31137 Cases < Test V alue 195 Cases >= Test Value 197 Total Cases 392 Number of Runs 106 Z -9. 204 As ymp. Sig. (2-tailed) .000 a. Median
Testul Durbin-Watson Calculul statisticii test (dcalc):
å (eˆ -eˆ DW = d = å eˆ i
i =2
d=
å eˆ i
)2
2 i
i =1
Întrucât
i -1
e i = re i -1 + ui statistica DW se mai poate scrie astfel: 2 i
- 2å eˆ i eˆ i -1 + å eˆ i2-1 i
å eˆ i
i
2 i
å eˆ - å eˆ eˆ @2 å eˆ 2 i
i i -1
i
i
2 i
i
æ å eˆ i eˆ i -1 ö ç ÷ = 2ç 1 - i 2 ÷ = 2( 1 - rˆ ) eˆ i ÷ å ç i è ø 10
Deoarece
- 1 £ rˆ £ 1, valorile statisticii DW sunt date de intervalul: 0 £ d £ 4 rˆ = 1 Þ d = 0 , atunci există autocorelare pozitivă maximă a erorilor;
-
Dacă
-
Dacă rˆ = -1 Þ d = 4 , atunci există autocorelare negativă maximă a erorilor;
-
ˆ Dacă r = 0 Þ d = 2 , atunci nu există autocorelare. Regula de decizie
Valorile teoretice ale statisticii DW sunt calculate şi tabelate în funcţie de pragul de semnificaţie, de volumul eşantionului şi de numărul de parametri ai modelului. În tabele se determină două valori critice, notate cu d L (limita inferioară) şi dU (limita superioară). În funcţie de aceste valori critice se determină următoarele intervale, care permit luarea deciziei de respingere sau acceptare a ipotezei nule:
• • • •
(0