34 0 232KB
Analiza multivariată a variaţiei
Analiza multivariată a variaţiei cuprinde un grup de metode aparţinând statisticii inferenţiale (deductive), utilizate mai ales pentru analiza datelor provenite din diferite tipuri de experimente, cu ajutorul cărora se poate face separarea şi testarea semnificaţiei efectelor cauzate de acţiunea simultană a mai multor factori. Numeroase tehnici de proiectare a experimentelor permit organizatorilor acestora să controleze variaţia mai multor variabile independente (factori) şi să estimeze efectele acestei variaţii asupra variabilelor dependente măsurate în scală metrică. Numele de “analiză a variaţiei” s-ar putea să conducă la impresia greşită că aceste tehnici s-ar putea folosi pentru testarea diferenţelor între dispersiile factorilor, nu între mediile acestora, aşa cum se întâmplă de fapt. Printre cele mai cunoscute metode cu ajutorul cărora se poate realiza analiza multivariată a variaţiei se pot menţiona: proiectările factoriale, pătratele latine, pătratele greco-latine. Indiferent de metoda folosită pentru analiza variaţiei, datele trebuie să îndeplinească anumite cerinţe. •
În primul rând, se presupune că datele culese provin de la grupuri experimentale a căror constituire din rândul unor populaţii statistice alcătuite conform repartiţiei normale s-a făcut după principii aleatoare. Mai precis, trebuie depuse eforturi pentru ca atât selecţia unităţilor experimentale cât şi aplicarea tratamentelor experimentale să aibă la bază selecţia aleatoare.
•
În al doilea rând, se face presupunerea că setul de date utilizate pentru a calcula variaţia aleatoare (eroarea experimentală) prezintă aceleaşi posibilităţi de a fi afectate de variaţia aleatoare întrucât are o abatere standard (şi deci o variaţie) constantă.
•
A treia presupunere consideră că variaţia aleatoare este independentă de la o observaţie la alta.
•
În al patrulea rând, se presupune că efectele diferitelor surse ale variaţiei (efectele factorilor
experimentali,
efectele
de
interacţiune
între
factori
şi
eroarea
experimentală) sunt aditive şi nu multiplicative. Dacă acest lucru nu ar fi adevărat, tehnicile utilizate pentru descompunerea variaţiei totale în componentele ei nu ar mai fi valide. 1
•
În al cincilea rând, categoriile variabilelor independente se presupune că sunt fixe. Există însă şi modele de analiză aplicabile unor definiri aleatoare a categoriilor (de regulă construite ca subşeantioane definite aleator).
•
În sfârşit, Cea mai importantă cerinţă este ca factorii să fie exprimaţi în formă discretă, nu în cea continuă.
Analiza variaţiei Analiza variaţiei (ANOVA) şi analiza covariaţiei (ANCOVA) sunt folosite pentru a examina diferenţele dintre valorile medii ale variabilei dependente sub efectul unor variabile independente controlate, după izolarea efectului unor variabile independente necontrolate. În esenţă, ANOVA este folosită pentru a testa diferenţele dintre mediile a două sau mai multe grupuri (populaţii). Mai precis, analiza variaţiei testează ipoteza nulă conform căreia nu există diferenţe între medii (altfel spus, toate mediile ar fi egale între ele). În forma cea mai simplă, analiza variaţiei necesită o variabilă dependentă măsurată pe o scală metrică (interval sau proporţională) şi una sau mai multe variabile independente măsurate pe o scală nemetrică (nominală sau ordinală). Aceste variabile independente de tip categorial sunt denumite, de obicei, factori. Modul în care nivelurile (categoriile) factorilor acţionează asupra variabilei dependente poartă denumirea de tratament 1 . Procedurile de analiză a variaţiei au la bază acelaşi principiu dar se diferenţiază (şi, ca urmare primesc denumirea corespunzătoare) prin numărul de factori şi numărul de variabile dependente analizate simultan în model. Vom distinge, pe de o parte, situaţiile în care este analizată o singură variabilă dependentă, iar în funcţie de numărul de factori putem realiza analiza variaţiei cu un factor (one-way analysis of variance) sau analiza variaţiei cu nfactori (n-way analysis of variance). Situaţiile în care sunt mai multe variabile dependente şi mai mulţi factori analizaţi simultan sunt cunoscute sub denumirea de analizei multivariată a variaţiei (MANOVA). În situaţia în care setul de variabile independente conţine atât variabile nemetrice (categoriale) cât şi metrice, tehnica poartă denumirea de analiză a covariatiei (ANCOVA). Rolul acestei forme a analizei variaţiei este de a izola influenţa unor variabile independente (metrice) asupra variabilelor dependente pentru a putea evalua efectul factorilor. 1
Malhotra N.K. - Marketing Research: An Applied Orientation, Prentice Hali, EngleWood Cliffs, 1993, p. 522
2
Aplicaţii în marketing ale analizei variaţiei Analiza variaţiei este utilizată în mod deosebit în experimentele de marketing, atunci când se evaluează influenţa unor variabile independente asupra altora, tratate ca dependente. Printre cele mai cunoscute utilizate în acest context se numără proiectările factoriale, pătratele latine, pătratele greco-latine etc. Mult mai frecvent însă cercetătorii urmăresc să analizeze, în studii pe care le realizează, diferenţele dintre valorile medii ale unei variabile independente pe care le ia la nivelul mai multor categorii ale uneia sau mai multor variabile independente (factori) pentru a putea concluziona dacă există sau nu diferenţe între grupurile respective. Mai precis, analiza variaţiei poate furniza răspunsuri la întrebări precum: •
există diferenţe în privinţa duratei totale lunare a convorbirilor telefonice între persoanele din diferite regiuni ale ţării sau pe categorii de educaţie şi venit?
•
care sunt diferenţele în privinţa intenţiilor de cumpărare la diferite niveluri ale preţurilor unui produs?
•
percepţiile privind diversitatea ofertei (categorii), interacţiunea cu vânzătorii (da/nu) şi modul în care au fost rezolvate plângerile (categorii) îşi pun amprenta asupra satisfacţiei clienţilor?
•
consumul de cafea este influenţat de vârstă (categorii) şi educaţie (categorii)?
Indicatori şi noţiuni asociate analizei variaţiei Prezentăm mai jos situaţia analizei variaţiei cu un factor. Indicatorii rămân valabili şi pentru celelalte forme ale analizei variaţiei. •
Variaţia dintre grupuri (between variation): notată, de obicei cu SSX (sau SSîntregrupuri)
reprezintă variaţia variabilei dependente corespunzătoare variaţiei mediei pe
categoriile variabilei independente. Ea reprezintă partea din suma pătratelor aferentă variabilei independente; •
Variaţia din interiorul grupurilor (within variation) notată, de obicei cu SSE (sau SSin-interior sau SSeroare) reprezintă variaţia variabilei dependente datorată variaţiei în
3
interiorul fiecărei categorii a variabilei independente. Această variaţie nu este generată de variabila independente; •
Variaţia totală (total variation): notată, de obicei cu SST (sau SStotală) reprezintă variaţia variabilei dependente corespunzătoare variaţiei mediei pe categoriile variabilei independente. Ea reprezintă partea din suma pătratelor abaterilor variabilei dependente aferentă variabilei independente;
•
Media pătrată (mean square): este suma pătratelor împărţită la numărul gradelor de libertate;
•
testul eta (TI2, eta2): măsoară efectul variabilei independente asupra celei dependente şi arată proporţia explicată de prima în variabilitatea celei de a doua. Ia valori între 0 şi 1;
•
testul F (F statistic): verifică ipoteza nulă (H0) că dispersiile categoriilor variabilei independente pentru variabila dependentă sunt egale; se calculează ca raport între media pătratelor aferentă variabilei independente şi media pătratelor aferente erorii.
Etapele realizării analizei variaţiei cu un singur factor Analiza variaţiei poate fi împărţită în trei paşi mari: identificarea variabilelor, efectuarea calculelor şi interpretarea rezultatelor. Astfel: Identificarea variabilelor: în această etapă trebuie ţinut cont de cerinţa acestui tip de analiză ca variabila dependentă să fie metrică iar cea independentă să fie nemetrică (categorială -măsurată pe scală nominală sau ordinală). Descompunerea variaţiei totale: în această etapă este examinată variabilitatea variaţiei din eşantion (variabila independentă) şi pe baza acestei variabilităţi se stabileşte dacă există motive de a considera că mediile categoriilor populaţiei diferă între ele. Variaţia totală a variabilei dependente (SST) este formată din variaţia explicată de variabila independentă (SSX sau SSîntre-grupuri) şi variaţia reziduală (SSeroare sau SSin-intenor) SST = SSîntre-grupuri + SSin-intenor sau SST = SSX + SSE unde: 4
n
SST = ∑ ( yi − y ) 2 i =1
k
SS X = ∑ ( y j − y ) 2 j =1
k
n
SS E = ∑∑ ( yij − yi ) 2 j =1 i =1
unde: yi - valoarea i a variabilei dependente y j - media variabilei dependente pentru categoria j a variabilei independente
y - media la nivelul întregului eşantion yij - valoarea i a variabilei dependente corespunzătoare categoriei j a variabilei independente Măsurarea efectelor: în această etapă este determinat efectul factorului asupra variabilei dependente date de SSX. Pentru măsurarea acestui efect se foloseşte testul eta 2 , calculat în modul următor:
η2 =
SS X SST
Eta2 ia valori între 0 şi 1. O valoarea apropiată de 0 indică faptul că nu există diferenţe între medii în timp ce o valoarea apropiată de 1 arată o variabilitate între grupuri. Testarea semnificaţiei statistice: se realizează cu ajutorul testului F prin verificarea ipotezei nulă (H0) confom căreia dispersiile variabilei dependente în cazul fiecărui grup (categorie) a variabilei independente sunt egale. Indicatorul testului F se calculează ca raport între variaţia pusă pe seama variabilei independente şi ajustată cu numărul gradelor de libertate aferente (SSx/(k-1)) şi variaţia corespondentă erorii ajustată şi ea cu numărul gradelor de libertate diferenţă (SSE/(n-k)). Interpretarea testului F poate fi făcută absolut, prin compararea cu valorile tabelate sau prin prisma nivelului de semnificaţie asociat. Un nivel de semnificaţie sub 0,05 (aferent unei probabilităţi de peste 95%) permite respingerea ipotezei nule a egalităţii dispersiilor.
2
Neter J., Wasserman W., Kutner M. - Applied Linear Statistical Models, Irwin, Homewood, 2nd edition , 1985
5
Interpretarea rezultatelor: în situaţia în care ipoteza nulă a egalităţii mediilor grupurilor a fost acceptată, variabila independentă nu are un efect semnificativ asupra variabilei dependente. În caz contrar, prin neacceptarea ipotezei nule se poate concluziona că grupurile diferă între ele din punct de vedere al caracteristicii studiate (variabila dependentă) şi că variabila independentă exercită un efect semnificativ asupra celei dependente. Mergând mai departe, o comparare a mediilor la nivelul grupurilor va da informaţii legate de natura efectului variabilei independente.
Analiza variaţiei cu n-factori Acest tip de analiză se aplică în situaţia în care există o variabilă dependentă şi mai mulţi (n) factori (variabile independente). Faptul că există o acţiune simultană a mai multor factori aduce în discuţie efectul generat de fiecare dintre factori şi cel produs de interacţiunile dintre ei. Procedura de aplicare a analizei variaţiei cu n-factori este similară cu cea în care avem un singur factor, dar modul de descompunere a variaţiei este unul care trebuie să ţină seama de toţi factorii implicaţi (şi de interacţiunile dintre ei). Pentru modelul cel mai simplu, cu 2 factori (X1 şi X2) variaţia totală se calculează astfel: SST = SSX1 + SSX2 + SSX1X2 + SSE Un efect mai puternic al variabilei X1 va fi reflectat printr-o diferenţă mai mare între medii la nivelul categoriilor acestei variabile şi sumă a pătratelor SSX1 mai mare, la fel în cazul celeilalte variabile independente. Pe de altă parte, cu cât există o interacţiune mai mare între factorii X1 şi X2 cu atât contribuţia comună la explicarea variaţiei (ca rezultat al acestei interacţiuni) va fi mai mare (relaţia funcţionează şi în sens invers, arătând că o o valoare mică a SSX1X2 arată o independenţă între cei doi factori (din acest punct de vedere). Testul F va ajuta, de data aceasta, la calcularea nu numai a efectului principal al fiecărui factor, ci va fi calculat câte un indicator atât pentru evaluarea efectului interacţiunii cât şi pentru a testa semnificaţia statistică a întregului model, deci efectul global al tuturor tratamentelor (factori, individual + interacţiunea dintre ele). Valorile calculate alte testului Fisher (Fc) sunt comparate cu cele din tabelele statistice Ft asociate acestui test (ultimul pe 6
baza nivelului de semnificaţie şi numărului gradelor de libertate). Dacă valorile calculate sunt mai mici decât cele tabelare (teoretice), atunci factorul respectiv nu are influenţă semnificativă asupra procesului analizat; dacă valorile calculate sunt mai mari decât cele tabelare (teoretice), atunci factorul respectiv are o influenţă importantă asupra procesului.
Analiza covariaţiei De multe ori atunci când se analizează efectul exercitat de variabilele independente controlate asupra valorilor medii ale unei variabile dependente apare necesitatea de a ţine cont şi izola influenţa altor variabile independente. Aceasta se rezolvă prin utilizarea analizei covariaţiei care include în model, pe lângă factorii măsuraţi pe scale nemetrice şi cel puţin o variabilă independentă de tip metric, denumită covariant Utilizarea acestui are rolul de a elimina variaţiile externe exercitate asupra variabilei dependente. La fel ca şi în celelalte cazuri, semnificaţia statistică a efectelor variabilelor covariante este testat cu ajutorul testului F. Analiza covariaţiei este utilă atunci când între variabilele covariante şi variabila dependentă există o relaţie liniară şi când acestea nu sunt corelate cu factorii 3 . Analiza covariatiei poate fi utilizata cu o singură alternantă, cu mai multe alternante, ca şi prin tehnicile multivariate ANOVA.
Specificitatea analizei multivariate a variaţiei Similară cu ANOVA, analiza multivariată a variaţiei (MANOVA) include în model cel puţin două variabile dependente metrice şi analizează efectele asupra acestora luate simultan. Obiectivul MANOVA este, la fel ca şi pentru ANOVA, examinarea şi testarea diferenţelor dintre medii, dar în acest caz calculele sunt făcute pe baza vectorilor mediilor variabilelor dependente multiple. Analiza multivariată a variaţiei se justifică atunci când variabilele dependente sunt corelate între ele, în caz contrar fiind mult mai potrivită procedura ANOVA pentru fiecare dintre variabilele dependente luate în considerare.
3
Wildt A. R., Ahtola O. T., Analysis of Covariance; Beverly Hills, CA, Sage, 1978, p. 48-50.
7
MANOVA compară grupurile şi explică diferenţele dintre grupuri. Pentru aceasta MANOVA creează un nou rezumat al variabilelor dependente, care este o combinaţie liniară a fiecărei variabile dependente iniţiale. MANOVA poate fi folosit într-un sens, două sensuri şi cu un nivel ridicat de proiectare (cu multiple variabile independente), ca şi în analizei covariaţiei (controlând variabilele suplimentare).
8