27 1 179KB
Analiza factorială
Tehnică statistico-matematică pentru reducerea datelor. Prin a.f. se determină factorii (variabilele latente) care pot explica variaţia unui set de variabile direct observabile (manifeste), corelaţiile dintre ele şi intensitatea legăturii dintre factori şi fiecare dintre variabilele manifeste. Factorii care explică variaţia a cel puţin două variabile se numesc factori comuni. Cei care explică variaţia tuturor variabilelor sînt denumiţi factori generali, iar cei limitaţi la numai un set de variabile factori de grup. În cazulîn care sînt asociaţi numai cu variaţia unei singure variabile se cheamă că sînt factori specifici. Orice variabilă x, standardizată, poate fi exprimată printr-o ecuaţie asemănătoare cu cea de regresie multiplă: xi = a1iF1 + a2i F2 +-... + aji Fj + akiFk + uj. Coeficienţii aij poartă numele de coeficienţi de saturaţie ai variabilei i în factorul j şi sînt o măsură a influenţei factorului j asupra variabilei i. În cazul în care a.f. este astfel realizată încît factorii obţinuţi sînt independenţi (a.f. ortogonală) între ei (precum în cazul metodei componentelor principale a lui Hetelling) a ij pot fi consideraţi coeficienţi de corelaţie simplă între indicatori şi factori. Dacă a.f. generează factori neindependenţi, atunci saturaţiiie pot fi interpretate ca echivalente cu coeficienţii de regresie parţială standardizată (beta). Suma pătratelor coeficienţilor de saturaţie pentru o variabilă dată în toţi factorii comuni poartă numele de comunalrtate şi semnifică proporţia din variaţia variabilei respective explicată de factorii comuni. Comunalitatea are aceeaşi semnificaţie ca şi coeficientul de determinaţie multiplă din analiza de regresie. Diferenţa constă doar în faptul că variabilele independente pentru calcularea comunalităţii sînt factori cu caracter latent. Coeficientul ui măsoară influenţa factorilor specifici şi a erorilor de măsurare asupra variabilei Xj. Pătratul coeficientului ui poartă numele de unicitate şi indică ponderea din variaţia lui Xj neexplicată de factorii comuni. Matricea în care sînt înscrişi pe coloane factorii obţinuţi iar pe linii saturaţiiie corespunzătoare fiecărei variabile poartă numele de matrice a factorilor sau a pattern-ului factorial. Dacă în a.f. sînt incluse p variabile atunci variaţia totală din matricea respectivă este egală cu suma variaţiilor specifice fiecărei variabile. În cazul în care se lucrează cu variabile normalizate, care au abaterea standard şi dispersia egală cu 1, dispersia totală din matricea datelor iniţiale este egală cu numărul de variabile (p x 1). Fiecare factor explică o anumită parte din această dispersie. Contribuţia factorului la explicarea dispersiei totale este dată de suma pătratelor saturaţiiior din factorul respectiv şi poartă numele de valoare proprie a factorului („eigen-valoare"). Aceasta poate fi exprimată ca cifră absolută sau relativă prin raportare la dispersia totală din matricea de date. Cei mai simplu model de a.f. este cel în care se presupune existenţa unui singur factor comun. Acesta este modelul pe care Charles Spearman (1904), fondatorul a.f., l-a folosit pentru analiza rezultatelor obţinute de către băieţii dintr-o şcoală din Anglia la şase tipuri de măsurători: notele la limbi clasice (C), engleză (E), franceză (F), matematică (M),
evaluarea talentului muzical (T) şi o măsurare a capacităţii sportive (P). Coeficienţii de corelaţie dintre cele şase măsurări sînt baza de pornire pentru a.f.: C
F
E
M
P
T
C
1,00
0,83
0,78
0,70
0,66
0,63
F
0,83
1,00
0,67
0,67
0,65
0,57
E
0,78
0,67
1,00
0,64
0,54
0,51
M 0,70
0,67
0,64 1,00
0,45
0,51
P
0,66
0,65
0,54
0,45
1,00
0,40
T
0,63
0,57
0,51
0,51
0,40 1,00
Prelucrînd aceste date cu ajutorul unei variante de a.f. (metoda centroidă propusă de Cyril Burt, 1917) se obţin următoarele rezultate: Factorul comun, inteligenţa generală, explică, deci, în principal, performanţele elevilor la C
F
E
M
P
T
saturaţie
0,962 0,883 0,815 0,743 0,662 0,645
comunalitate
0.92 0,78 0,66 0,55
unicitate
0,08 0,22 0,34 0,45
0,44 0,42
0,56
0,58
limbile clasice (92%), la franceză (78%) şi la engleză (66%), Performanţele lor muzicale şi sportive au, în schimb, determinări specifice puternice, independente de inteligenţa generală. Dacă modelul factorial adoptat este adecvat datelor, atunci este de aşteptat ca matricea coeficienţilor de corelaţie observaţi să poată fi cît mai fidel reconstituită pe baza coeficienţilor de saturaţie. În condiţiile în care diferenţele între corelaţiile empirice şi cele teoretice (reconstruite) sînt reduse, se poate considera că modelul factorial adoptat este concordant cu datele. Procedura de reconstruire a unei matrice de corelaţii din coeficienţii de saturaţie este extrem de simplă în cazul a.f. ortogonale (cu factori independenţi). Corelaţia teoretică dintre două variabile este egală, în astfel de cazuri, cu suma produselor dintre saturaţiile corespunzătoare acelor variabile pentru fiecare factor. În exemplul anterior, existînd un singur factor, corelaţia teoretică dintre notele la limbi clasice şi matematică, spre exemplu, este egală cu 0,962 x 0,743 = 0,71. Corelaţia
empirică dintre aceleaşi variabile este practic identică (0,70). În matricea de mai jos sînt date corelaţiile corespunzătoare exemplului menţionat şi, în paranteze, corelaţiile reziduale ca diferenţe între corelaţiile empirice şi cele teoretice:
Dacă valorile corelaţiilor reziduale sînt neglijabile, precum în exemplul menţionat, atunci modelul factorial adoptat poate fi considerat ca adecvat (testul X2 poate fi folosit pentru estimarea concordanţei modelului cu datele). Diferite tehnici factoriale au capacităţi diferite de identificare a modelului cel mai simplu, adecvat unui set de date. Pornind de la principiile structurii simple, formulate de Thurstone (1935, 1947), în practica statistică actuală (J. Loehlin, 1987) se consideră că un model factorial este cu atît mai simplu cu cît a. extrage un număr mai redus de factori (criteriul parcimoniei), b. conţine un număr mai redus de saturaţii cu valoare diferită de 0 sau are mai multe saturaţii cu valoare absolută foarte mică. Cu importanţă mai redusă în evaluarea simplităţii sînt şi cerinţele ca: c. factorii să fie independenţi şi d. saturaţiile să aibă o distribuţie egală pe factori sau pe variabile, în legătură cu primele două exigenţe se definesc secvenţele de bază în a.f. explo-ratorie (cea în care nu se porneşte de la un set de ipoteze iniţiale în legătură cu saturaţiile nule, precum în a.f. de confirmare): extragerea factorilor şi rotaţia factorilor. În cadrul primei secvenţe se determină cel mai mic număr de factori care explică o parte semnificativă din variaţia totală a indicatorilor folosiţi pentru analiză. Cele mai utilizate metode pentru aceasta sînt metoda centroidă (C. Burt, 1917), analiza componentelor principale (H. Hotelling, 1933), metoda factorilor canonici (Rao, 1955, Harris, 1962) şi cea a factorilor Alfa (Kaiser şi Caffrey, 1965). Analiza componentelor principale are un statut aparte în raport cu celelalte metode. Componentele principale sînt simple combinaţii liniare de variabile observabile şi nu factori propriu-zişi în sensul de variabile latente. Prin această metodă se transformă un set de p variabile observabile corelate într-un set de variabile necorelate (componente principale). Numărul de factori este egal cu numărul de variabile în acest caz. Dintre aceştia, pentru recalcularea comunalităţilor şi pentru interpretare se reţin numai cei cu valori proprii mari. Pentru a decide numărul de variabile latente (factori) care pot fi considerate ca semnificative pentru a explica intercorelaţiile dintre variabilele observabile, pot fi folosite mai multe procedee. Cel mai simplu este dat de regula Kaiser-Quttman prin care se indică reţinerea în model a tuturor factorilor
care au o valoare proprie mai mare decît 1. Testul „grohotişului" (scree test, denumit astfel de către R.B. Cattel, 1966) operează în baza unei diagrame în care se notează pe ordonată mărimea valorii proprii a factorilor iar pe abscisă numărul factorului. Tendinţa este ca după primele valori proprii de nivel ridicat să urmeze valori proprii cu nivel din ce în ce mai redus. Punctul de cotitură al liniei care poate fi trasată în funcţie de cele două axe indică numărul de factori care trebuie reţinuţi în model. După extragerea factorilor se procedează la aşa-zisa lor rotire, operaţie prin care se urmăreşte satisfacerea criteriului 2 de simplitate a modelului factorial. Practic, în urma unei astfel de rotiri rezultă cu mai multă claritate variabilele care definesc un anume factor (în cadrul aceluiaşi factor se accentuează decalajele dintre valorile saturaţiilor). Rotaţia de tip Quartimax (Neuhaus, Wrigley, 1954) este indicată în special în cazurile în care se presupune existenţa unui factor general, în schimb, analizele de tip Varimax (Kaiser, 1958) sînt mai potrivite în ipoteza existenţei unor factori de grup. Ambele variante de rotire a factorilor permit transformări ortogonale, în care factorii rămîn independenţi. A.f. oblice sînt indicate în situaţiile în care se poate susţine ipoteza că factorii nu sînt independenţi între ei. Ieşirile numerice din a.f. ortogonale sînt saturaţii le (a căror distribuţie pe factori poartă numele de pattern factorial), comunaiităţile, unicitatea şi valorile proprii. În plus faţă de acestea, a.f. oblice dau şi corelaţiile dintre factori (matricea intercorelaţiilor factoriale) şi corelaţiile dintre variabile şi factori (matricea structurii factoriale). Interpretarea factorilor se face în funcţie de saturaţiile maxime specifice fiecăruia dintre ei. Utilizarea a.f. În sociologie pune o serie de probleme legate în primul rînd de natura foarte diferită a variabilelor utilizate. Standardizarea variabilelor pentru a avea media 0 şi abaterea standard 1 atenuează oarecum această problemă dar nu o elimină. Pe cît posibil, este indicat, deci, ca în a.f. să fie incluse variabile măsurate cu aceleaşi unităţi (J. Torrens-lbern, 1972). Atunci cînd datele de intrare sînt coeficienţi de corelaţie, rezultatele a.f. au o valabilitate locală, dependentă de abaterile standard înregistrate pentru variabile în eşantionul folosit. Pentru a compara patternurile factoriale ale aceluiaşi model în eşantioane sau loturi diferite este mai indicată folosirea covariantelor în locul corelaţiilor ca date de intrare. În al doilea rînd, structura cauzală presupusă de modelul factorial este, se pare, mai puţin întîlnită în sociologie decît în psihologie. O astfel de structură are configuraţia dată de o variabilă latentă de la care pleacă influenţe spre variabilele măsurate. Între acestea din urmă se presupune că nu există relaţii cau zale directe. Or, o astfel de situaţie este destul de greu de întîlnlt în analizele de tip sociologic. Linearitatea relaţiilor dintre factori şi indicatori este o altă condiţie a aplicării tehnicilor obişnuite de a.f. Acestea sînt destul de „robuste" din acest punct de vedere. Folosirea cea mai frecventă a a.f. se face în cadrul modelelor de măsurare. Obiectivul acestora este de a determina cît de bine estimează anumiţi indicatori o variabilă latentă. Supraaprecierea importanţei sau relevanţei unor indicatori în raport cu o variabilă latentă se produce în baza unor erori de selectare a indicatorilor respectivi. Dacă alături de indicatori corelaţi moderat între ei se includ în a.f. şi indicatori cu grad foarte ridicat de intercorelare, interşanjabili între ei, atunci este de aşteptat ca saturaţiile şi respectiv comunalităţiie corespunzătoare acestora din urmă să fie foarte mari în detrimentul celorlalte. Omiterea unor indicatori cu relevanţă sporită pentru o anume variabilă latentă poate duce ia subestimarea saturaţiilor corespunzătoare respectivei variabile. Pe de altă parte, itemii care corelează foarte
slab în matricea de corelaţii iniţiale este indicat să fie eliminaţi din a.f. deoarece este puţin probabil ca ei să fie explicaţi prin factori comuni adecvaţi pe ansamblul matricei. Calitatea rezultatelor a.f. este influenţată şi de numărul de variabile şi de unităţi utilizate. Cu cît numărul de variabile observabile luate în consideraţie este mai mare, cu atît este mai mică eroarea posibilă asociată cu modul de estimare a comunalităţiior (La peste aproximativ 40 de variabile, o astfel de eroare are influenţe neglijabile asupra rezultatelor a.f.). În legătură cu numărul de unităţi, în mod relativ convenţional se consideră că acesta ar trebui să fie de aproximativ cinci ori mai multe decît numărul de variabile. În a.f. de confirmare sînt implicate atît un model de măsurare, care predetermină relaţiile dintre variabilele latente şi indicatori, cît şi un model structural prin care se specifică relaţiile dintre variabilele latente. De obicei, acesta din urmă este redus la simpla intercorelare dintre factori. În patternul factorial sînt înscrise de la începutul analizei saturaţiile cu valoarea zero în baza ipotezelor referitoare la raportul dintre variabilele latente şi indicatori. Restul saturaţiilor se determină astfel încît corelaţiile teoretice la care se ajunge pe baza lor să difere cît mai puţin de corelaţiile empirice. Metode iterative orientate de exigenţe ale metodei celor mai mici pătrate sînt folosite în acest sens. Modele de analiză cu variabile latente de mare complexitate, în care sînt implicate atît modele de măsură cît şi modele structurale, sînt abordate cu metode şi programe de tip LISREL (Linear structural relations, Joreskog şi Sorbom, 1084). D.S.
1.) La ce foloseşte analiza factorială 1.1 Utilizarea analizei factoriale De exemplu, dorim să intrepretăm 12 variabile extrase dintr-un chestionar cu 43 de întrebări. Chestionarul a fost administrat subiecţilor fumători care urmează un tratament anti-fumat. Câteva variabile reprezentau interogări cu privire la dorinţa respondentului de a fuma – “ După o masă bună, cât de mult doriţi să fumaţi o ţigară?”. Fiecare întrebare este plasată pe o scală de la 1 la 5, unde scorul inferior (1) reprezintă “mult” şi scorul superior(5) reprezintă “puţin”. Alte întrebări se referă la starea psihologică şi fizică a subiectului. Să ne imaginăm că am dori să studiem corelaţiile între toate cele 43 de variabile!!! Utilizând analiza factorială şi aplicând o rotaţie ortogonală se pot reordona întrebările pentru a produce o matrice de corelaţie. Este mai uşor să se observe din matrice că 4 articole cu privire la fumat au legătură mai mare între ele decât în cazul altor întrebări, iar articolele care au rămas se grupează în 2 grupuri. Pentru fiecare respondent, SPSS poate calcula un scor pentru fiecare din cele 3 grupuri (factori) de variabile nou formate care de fapt este o combinaţie liniară a variabilelor. Scorul pentru primul factor este, de exemplu, o măsură a “dorinţei de a fuma”. SPSS calculează utilizând valorile standardizate ale variabilelor iniţiale (scoruri factoriale). Scorurile celor 3 factori explică aproape tot totalul varianţei celor 12 variabile inţiale, deci se poate spune că prin folosirea a trei factori în loc de 12 variabile se
uşurează munca şi numărul de variabile de manipulat. Scorurile pot fi folosite în analize ulterioare împreună cu alte date colectate de la respondenţi. Analiza factorială este utilizată în următoarele situaţii: 1. Pentru identificarea dimensiunilor comune, sau a factorilor, care explică corelaţiile existente în cadrul unui set de variabile. De exemplu, un set de afirmaţii cu privire la stilul de viaţă sunt utilizate pentru a măsura profilul psihografic al consumatorilor. Aceste afirmaţii pot fi folosite intr-o analiză factorială pentru a identifica factorii psihografici care rezultă de aici. 2. Pentru identificarea unui set, mai mic, de variabile necorelate pentru a înlocui setul inţial de variabile într-o analiză ulterioară multivariată (analiză de regresie sau discriminantă). De exemplu, factorii psihografici identificaţi pot fi folosiţi drept variabile independente în explicarea diferentelor dintre consumatorii loiali si neloiali. 3. Pentru identificarea unui set mai mic de variabile dintr-un set mai mare de variabile pentru utilizarea lui în analize multivariate ulterioare. De exemplu, câteva din afirmaţiile cu privire la stilul de viaţă care sunt corelate puternic cu factorii identificaţi pot fi folosite drept variabile independente pentru a explica diferenţele între consumatorii loiali si neloiali. În analiza datelor procedurile analizei factoriale sunt utilizate astfel: 1. Pentru a studia corelaţiile între un număr mare de variabile cantitative care au legătură între ele prin gruparea variabilelor în câţiva factori; după grupare, variabilele din cadrul fiecărui factor au un înalt grad de corelare cu variabilele din acel factor decât cu variabilele din alţi factori, cu care sunt necorelate; 2. Pentru a intrerpreta fiecare factor în funcţie de înţelesul variabilelor. De exemplu, răspunsurile la un set de 6-7 întrebări care formează un factor/cluster ar putea măsura satisfacţia respondentului faţă de un produs. 3. Rezumarea mai multor variabile în câţiva factori. Programul SPSS poate calcula un scor pentru fiecare factor care este folosit drept variabilă de intrare pentru testele t, analiza de regresie, analiza varianţei, analiza discriminantă şi aşa mai departe.