38 0 2MB
PROIECTAREA ŞI ANALIZA BAZELOR DE DATE S.P.S.S.
Cornelia Mureşan
CUPRINS PROIECTAREA ŞI GESTIONAREA BAZELOR DE DATE ____________________________ 1
Modul 1. Aspecte elementare ___________________________________________ 4 1.1. Baze de date şi sistem de gestiune a bazelor de date (SGBD) ____________________ 4 1.2. Facilităţi oferite de un SGBD _____________________________________________ 5 1.3. Pachetul statistic SPSS __________________________________________________ 6 1.4. Procesul de analiză statistică a datelor ______________________________________ 8
Modul 2. Introducere în SPSS sub Windows _____________________________ 10 2.1. Pornirea SPSS ________________________________________________________ 10 2.2. Sistemul de meniuri ___________________________________________________ 11 2.3. Linia de pictograme ___________________________________________________ 12 2.4. Casetele de dialog _____________________________________________________ 12 2.5. Asistenţa “on-line” ____________________________________________________ 14
Modul 3. Proiectarea unei baze de date _________________________________ 15 3.1. Utilizarea Editorului de date SPSS ________________________________________ 15 3.2. Un exemplu__________________________________________________________ 15 3.3. Proiectarea schemei de codificare_________________________________________ 16 3.4. Definirea variabilelor __________________________________________________ 16 3.5. Atribuirea numelui variabilei ____________________________________________ 16 3.6. Schimbarea tipului variabilei ____________________________________________ 18 3.7. Adăugarea etichetelor descriptive pentru variabile şi valori _____________________ 20 3.8. Atribuirea valorilor omise_______________________________________________ 21 3.9. Valori omise sistem şi valori omise utilizator ________________________________ 23 3.10. Schimbarea formatului coloanei _________________________________________ 24 3.11. Definirea variabilelor adiţionale _________________________________________ 25 3.12. Introducerea datelor __________________________________________________ 25 3.13. Editarea datelor ______________________________________________________ 25 3.14. Examinarea informaţiilor în Editorul de date _______________________________ 25 3.15. Utilizarea etichetelor variabilelor în proceduri ______________________________ 26 3.16. Salvarea fişierului de date ______________________________________________ 27 3.17. Diferenţa dintre Save As şi Save ________________________________________ 28 3.18. Ieşirea din SPSS _____________________________________________________ 28
Modul 4. Utilizarea Editorului de date II. Facilităţi adiţionale ______________ 30 4.1. Utilizarea şabloanelor __________________________________________________ 30 4.2. Aplicarea unui dicţionar de date __________________________________________ 33 4.3. Obţinerea informaţiilor despre variabile ____________________________________ 34 4.4. Obţinerea unui catalog de coduri _________________________________________ 35
Modul 5. Căutarea erorilor şi analize statistice exploratorii_________________ 36 5.1. Procedura Frequencies _________________________________________________ 36 5.2. Procedura Crosstabs ___________________________________________________ 37 5.3. Procedura Descriptives _________________________________________________ 39 5.4. Procedura Means _____________________________________________________ 40 5.5. Procedura Explore ____________________________________________________ 42 5.6. Depistarea erorilor ____________________________________________________ 43
2
Modul 6. Gestionarea bazei de date_____________________________________ 47 6.1. Transformarea variabilelor cu procedura Recode _____________________________ 47 6.2. Recodificarea valorilor în aceeaşi variabilă _________________________________ 48 6.3. Căutarea datelor în Editorul de date _______________________________________ 50 6.4. Obţinerea unei variabile noi prin recodificare _______________________________ 51 6.5. Recodificarea automată_________________________________________________ 52 6.6. Obţinerea unor variabile noi prin calcul numeric _____________________________ 53 6.7. Obţinerea unor variabile noi prin calcul cu date calendaristice __________________ 56 6.8. Selectarea cazurilor după diverse criterii ___________________________________ 59 6.9. Împărţirea cazurilor în grupe de analizat ___________________________________ 60 6.10. Ordonarea cazurilor după diverse criterii __________________________________ 63 6.11. Ponderarea cazurilor __________________________________________________ 64
Modul 7. Întocmirea rapoartelor _______________________________________ 65 7.1. Rapoarte de tip listă ___________________________________________________ 66 7.2. Rapoarte cu informaţii rezumative pe linii __________________________________ 68 7.3. Rapoarte cu informaţii rezumative pe coloane _______________________________ 70
BIBLIOGRAFIE ____________________________________________________ 73
3
Modul 1. Aspecte elementare
1.1. Baze de date şi sistem de gestiune a bazelor de date (SGBD) În esenţă o bază de date reprezintă informaţii organizate pentru a putea fi uşor referite. Cărţile de telefon, mersul trenurilor, inventarele sunt baze de date. Ele pot fi întâlnite în orice domeniu unde se gestionează volume mari de date: în domeniul economic, cel ştiinţific sau în cel social. În domeniul informaticii, termenul de “bază de date” are un sens mai larg decât cel utilizat deja foarte curent în viaţa de zi cu zi. Aici, prin bază de date se înţelege ansamblul fişierelor de date, a programelor de prelucrare şi a altor tipuri de fişiere care acoperă necesităţile unei anumite aplicaţii. În cazul concret al unor aplicaţii de tip dBASE, sau FoxPro sau Access, categoria de „alte tipuri de fişiere” este reprezentată prin: -
fişiere de tip query (cerere), care permit realizarea unui view (vedere) sau operaţiuni de actualizare asupra unuia sau mai multor fişier de date,
-
fişiere de tip form (formular), care permit aranjarea într-o anumită formă, pe ecran, a setului de câmpuri ce defineşte structura unui fişier de date,
-
fişiere de tip report (raport), ce permit obţinerea unor rapoarte în formă convenabilă,
-
fişier de tip label (etichetă), ce permit obţinerea unor etichete folosind înregistrările unui fişier de date.
Conceptele de bază utilizate în legătură cu bazele de date informatice sunt: câmpul, data şi înregistrarea. Câmp – unitate elementară a structurii unei baze de date. Dată – valoarea introdusă într-un câmp. Înregistrare – setul de date ale diferitelor câmpuri definite în structura unui fişier de date, date care se referă la un anumit obiect. Bazele de date au fost iniţial gestionate manual, pe hârtie, ceea ce însemna completarea multor formulare şi organizarea acestora după anumite criterii (alfabetic, tematic etc.). Operaţia de căutare într-o astfel de bază de date era anevoioasă iar criteriile de căutare erau limitate la criteriile după care erau organizate informaţiile. Presupunând, de exemplu, că organizarea se făcea alfabetic, dacă criteriul de căutare era tematic nu se putea face o căutare eficientă. Aceste neajunsuri se soluţionează în cadrul unui sistem de gestiune a bazelor de date (SGBD) cum sunt dBASE şi Fox - sub DOS - sau Access sub 4
Windows, unde înregistrările pot fi introduse în baza de date, apoi organizate rapid după orice criteriu şi regăsite, într-un timp scurt. Calculatoarele au o capacitate foarte mare de a memora informaţii. O singură dischetă poate conţine informaţia din 20-40 de pagini de carte de telefon. Un disc poate înmagazina informaţia mai multor zeci de cărţi, iar un CD-ROM poate stoca o bibliotecă. Capacitatea de memorare nu este singurul aspect important care dă putere unui sistem de gestiune a bazelor de date. La fel de importantă este posibilitatea gestionării şi manipulării datelor (sortarea rapidă, căutarea după diverse criterii), precum şi viteza prelucrării. Sistem de gestiune a bazelor de date (SGBD) – totalitatea programelor utilizate pentru crearea, interogarea şi întreţinerea unei baze de date. Prelucrarea datelor stocate într-o bază de date se face sub controlul sistemului de gestiune a bazelor de date.
1.2. Facilităţi oferite de un SGBD În comparaţie cu bazele de date neinformatizate:
Capacitate mare de stocare
Putere şi viteză mare la regăsirea datelor
Ocupă loc puţin, în comparaţie cu mobilierul necesar stocării datelor
Ajutor oferit la:
Localizarea instantanee a informaţiei
Actualizarea datelor
Adăugarea unor înregistrări noi
Punerea în ordine alfabetică, în ordinea priorităţilor etc.
Adaptarea bazei de date la necesităţi şi / sau utilizatori noi
Integrarea rezultatelor în alte pachete software
Programe pentru:
Definirea unor forme (video-formulare) concepute de utilizator
Efectuarea unor calcule statistice, ştiinţifice sau financiare
Filtrarea datelor oferite unor categorii de utilizatori
Sortări
Obţinerea unor rapoarte
Obţinerea etichetelor pentru corespondenţă
5
1.3. Pachetul statistic SPSS În istoria dezvoltării sistemelor de gestiune a bazelor de date ultimele tipuri apărute, dar şi cele care au devenit cele mai populare, gestionează aşa-numitele “baze de date relaţionale”. Acestea se prezintă întotdeauna sub formă de tabele, în care înregistrările ocupă o linie, iar câmpurile ocupă o coloană. La intersecţia rândului cu coloana se va găsi data, sau valoarea particulară a unui un câmp pentru o anumită înregistrare. Bazele de date relaţionale seamănă mult cu tabelele ce s-ar putea construi într-o foaie de calcul, desigur respectând anumite structuri de date apriori definite. Pachetul statistic Statistical Package for Social Sciences (SPSS), în varianta lui sub Windows, aduce pentru prima dată un Editor pentru date care permite construirea unei baze de date relaţionale. Deşi acest produs software nu este un SGBD consacrat, el poate fi utilizat cu succes în aplicaţiile din domeniul ştiinţelor sociale. Aici volumul datelor nu este atât de impresionant ca în cazul domeniului economic, legăturile între diverse fişiere de date nu sunt chiar atât de complexe, problemele de securitate legate de accesul partajat între mai mulţi utilizatori în timp real nu se pun cu atâta acuitate, iar celelalte probleme legate de facilităţile oferite în mod tradiţional de un SGBD sunt şi de SPSS rezolvate cu succes. În plus, SPSS este dotat cu o serie de programe statistice extrem de puternice, special construite pentru analiza statistică a datelor din domeniul social. Iată de ce considerăm că pentru profesiunea de asistent social, unde se culeg, prelucrează şi interpretează date sociale, este mai avantajoasă însuşirea pachetului SPSS, chiar dacă pentru început suntem interesaţi doar de partea de management al datelor. Odată definite structurile necesare, apoi completate fişierele cu informaţiile adecvate, vom putea beneficia atât de partea de management al datelor oferite de Editorul de date cât şi de partea de analiză statistică atât de necesară în domeniul social. Terminologia folosită la SPSS diferă faţă de cea consacrată la un SGBD, dar diferenţele sunt doar formale, pentru că în esenţă conceptele sunt aceleaşi.
Tabel 1.1. Echivalenţa terminologiei utilizate într-un SGBD şi în SPSS un SGBD
SPSS (lb.română)
SPSS (lb.engleză)
Bază de date
Fişier de date
Data File
Înregistrare
Caz
Case
Câmp
Variabilă
Variable
Dată
Valoare
Value
6
Figura 1.1. Procesul de cercetare Teorie & Practică
Ipoteze
Conceptualizare Operaţionalizare
Selectarea subiecţilor
Anchetă/ Design corelaţional
Interviuri
Adminstrări de chestionare
Design experimental
Grupuri experimentale , grupuri de control
Observaţii/administrare teste sau chestionare
Colectare date
Analiză date (SPSS)
Interpretare rezultate
7
1.4. Procesul de analiză statistică a datelor
În principal, SPSS a fost conceput pentru duce la capăt un studiu de cercetare. Desigur, într-o cercetare analiza statistică intervine mult mai târziu. Înainte de a ne aşeza în faţa unui calculator şi a folosi un SGBD sau modulul Data Editor (Editorul de date) al SPSS pentru a introduce datele, se presupune că am parcurs paşi importanţi în procesul unei cercetări. Principalele faze ale unei cercetări sunt schiţate în Figura 1.1. Computerul şi pachetul de programe SPSS intervine doar în partea de analiză a datelor. În faţa calculatorului activitatea se desfăşoară practic în patru paşi care, de obicei, se reiau de mai multe ori (vezi figura 1.2).
Aducerea datelor în memoria internă
Pas 1
Selectarea unei proceduri
Pas 2
Selectarea variabilelor Transformări fişier de date
Pas 3
Interpretarea rezultatelor
Pas 4
Figura 1.2. Procesul de analiză a datelor
Pasul care ne interesează în prima fază este cel de introducere a datelor într-un fişier de date sau, după caz, de aducere al datelor în memoria internă.
8
1. Aducerea datelor în memoria internă
Datele de gestionat (sau, după caz, de analizat) pot fi date salvate anterior într-un fişier de date SPSS.
Se pot citi date din fişiere proprii altor produse software. Cele mai cunoscute sunt bazele de date dBASE, FoxPro sau Access; fişierele tip foaie de calcul produse cu tabelatorul Excel; sau fişiere simple de tip text ASCII, produse cu orice editoare de texte. Desigur, pentru a “importa” astfel de date, trebuie respectate nişte reguli clare şi trebuie furnizate informaţii suplimentare de conversie, în cadrul procedurilor iniţiate de SPSS.
Se pot introduce direct datele în formatul propriu fişierelor de date SPSS cu ajutorul modulului Data Editor.
2. Selectarea unei proceduri Sistemul de meniuri al SPSS oferă o gamă de comenzi care permit selectarea şi declanşarea a patru categorii de proceduri:
Proceduri de gestionare a datelor
Proceduri de obţinere a listelor şi rapoartelor
Proceduri de construire a tabelelor statistice, de calcul a unor indicatori statistici, de căutare a unor modele explicative
Proceduri pentru crearea unor grafice
3. Selectarea variabilelor Cele mai multe din procedurile SPSS cer precizarea variabilelor. Acestea sunt listate în casetele de dialog ale procedurilor, iar utilizatorul va trebui să indice variabilele care intră în analiză. 4. Interpretarea rezultatelor După ce toate elementele de informaţii necesare execuţiei unei proceduri au fost precizate de către utilizator, procedura se va declanşa şi va produce rezultatele. Ele trebuie privite cu atenţie şi interpretate. O şedinţă de lucru cu SPSS constă în mai multe reluări a celor patru faze: în mai multe operaţiuni de management al datelor, sau mai multe proceduri de analiză a datelor. De multe ori ceea ce hotărâm să facem în continuare depinde de rezultatele unei operaţiuni anterioare. Utilizatorul (sau după caz, cercetătorul) foloseşte SPSS ca un asistent docil, dar foarte puternic şi capabil, ale cărui performanţe depind de abilitatea cercetătorului de a lua deciziile cele mai potrivite.
9
Modul 2. Introducere în SPSS sub Windows
SPSS sub Windows funcţionează sub controlul unui mediu grafic GUI (Graphical User Interface), utilizând un sistem de meniuri descriptive şi casete de dialog care uşurează mult interfaţa om-calculator. Cele mai multe operaţiuni sunt declanşate şi duse la capăt prin punctare şi clic cu mouse-ul, chiar dacă lucrul cu tastatura este oricând o a doua alternativă.
2.1. Pornirea SPSS Ca orice produs sub Windows, SPSS se porneşte prin dublu-clic pe pictograma sa aflată fie pe ecranul dispay-ului, fie în lista de Programe al meniului Start.
Figura 2.1. Ferestrele Data Editor şi Output Navigator Ceea ce vom vedea prima dată va fi modulul Data Editor (vezi figura 2.1). În afara acestui modul, SPSS mai are încă trei: modulul Output Navigator – modul care se
10
ocupă de afişarea rezultatelor prelucrărilor, precum şi de modificarea aspectului lor - , modulul Chart Editor – modul care facilitează manipularea şi gestionarea graficelor obţinute prin SPSS – şi modulul Sintax - . pentru păstrarea comenzilor SPSS în vederea repetării lor într-o altă şedinţă de lucru. Fiecare fereastră are o linie de titlu. Sub ea se găseşte meniul principal al aplicaţiei. Fereastra Editorului de date conţine datele de analizat sub forma unui tabel asemănător unei foi de calcul, iar orice rezultat produs de o procedură SPSS se va introduce în fereastra Output al Navigatorului de rezultate. Iniţial se va deschide doar fereastra Editorului de date. Fereastra Navigatorului de rezultate se deschide îndată ce vreo procedură produce rezultate. In afara acestor două ferestre mai pot apare, la nevoie, alte două ferestre: fereastra Editorului de grafice sau fereastra Sintax .
2.2. Sistemul de meniuri SPSS v7.5 poate lucra într-o varietate de moduri, dar majoritatea procedurilor pot fi accesate făcând selecţii din meniuri. Meniul principal al Editorului de date, cea mai utilizată componentă a pachetului, conţine nouă meniuri: File. Se utilizează pentru a crea fişiere noi SPSS, pentru a deschide fişiere existente, pentru a citi fişiere de tip spreadsheet sau bază de date create cu alte programe software. Meniul File se mai utilizează pentru crearea şi deschiderea altor fişiere SPSS, adică fişiere de grafice, de rezultate sau de sintaxă. Edit. Se utilizează pentru a modifica sau copia texte din ferestrele de rezultate sau de sintaxă. View. Se utilizează pentru a modifica aspectul ecranului în funcţie de opţiunile utilizatorului. Data. Se utilizează pentru a face schimbări globale la fişierul de date, cum ar fi agregarea datelor din mai multe fişiere, împărţirea cazurilor în subseturi. Aceste schimbări sunt doar temporare şi nu afectează fişierul permanent cu excepţia cazului când se cere explicit acest lucru (prin salvare). Transform. Se utilizează pentru a face schimbări variabilelor selectate din fişierul de date şi pentru a calcula variabile noi pe baza valorilor existente în alte variabile. Nici aceste schimbări nu afectează fişierul permanent decât dacă schimbările se salvează în mod explicit. Statistics. Procedurile statistice se selectează din acest meniu. Cele mai comune proceduri statistice sunt: tabelele de frecvenţe, tabelele de asociere, calculul indicatorilor statistici descriptivi, analiza varianţei, corelaţia sau regresia liniară.
11
Graphs. Meniul Graphs se foloseşte pentru a crea diagrame de bare, diagrame circulare, histograme, diagrame de împrăştiere şi alte grafice în culori şi de mare rezoluţie. Chiar şi unele proceduri statistice pot genera grafice. Orice grafic poate fi îmbunătăţit cu ajutorul Editorului de grafice (Chart Editor). Utilities. Se foloseşte pentru a afişa informaţii despre variabilele din structura fişierului de date, pentru a defini şi utiliza seturi restrânse de variabile, sau pentru a deschide un index al comenzilor SPSS. Window. Se utilizează pentru a aranja, a selecta şi a controla atributele diverselor ferestre SPSS. Help. Acesta deschide ferestre de asistenţă “on-line” cu manuale electronice, demonstraţii, sfaturi contextuale şi programe de învăţare asistată de calculator de tip “tutorial”.
2.3. Linia de pictograme Cele mai comune comenzi SPSS, folosite în mod uzual, pot fi accesate prin intermediul unor pictograme situate imediat sub linia de meniuri, în linia de pictograme (Tool Bar). Această linie este prezentă la oricare din ferestrele modulelor SPSS, dar poate conţine pictograme diferite, adaptate situaţiei (vezi figura 2.1). Unele din pictograme s-ar putea întâmpla să nu fie eligibile în anumite situaţii chiar dacă apar pe ecran. O scurtă explicaţie a ceea ce reprezintă ele poate fi obţinută foarte simplu prin plasarea indicatorului mouse-ului pe ele.
2.4. Casetele de dialog Cele mai multe proceduri SPSS afişează casete de dialog prin intermediul cărora adună toate informaţiile necesare ducerii la bun sfârşit a operaţiunilor cerute de utilizator. Pentru că aceste casete oferă informaţii utile în alegerile pe care utilizatorul le are de făcut şi pentru că aceste casete sunt foarte asemănătoare între ele, să aruncăm o privire, de exemplu, pe cea folosită la deschiderea unui fişier: figura 2.2 Această casetă conţine o zonă etichetată Look in unde va apare directorul curent (BazeDate, în exemplu). Dacă fişierul căutat nu este în directorul curent, acesta poate fi schimbat cu ajutorul pictogramelor din această zonă. Fişierele sunt listate în zona cea mai întinsă a casetei de dialog. De exemplu, în figura 2.2 putem vedea patru fişiere. Oricare dintre ele poate fi deschisă. Alegerea se face prin pointare şi clic pe butonul stâng al mouse-ului.
12
Figura 2.2. Caseta de dialog Open File Numele fişierului selectat va apare in zona File name. Această informaţie poate fi şi tastată dacă se doreşte folosirea tastaturii şi nu a mouse-ului. Nu toate fişierele din directorul curent sunt listate în casetă. Ele sunt filtrate cu ajutorul extensiilor consacrate pentru diverse tipuri de fişiere. Observăm că în exemplu, toate cele trei fişiere au extensia .sav. Zona Files of type oferă însă posibilitatea selectării altor tipuri inclusiv a tuturor tipurilor, deci posibilitatea neutilizării filtrelor. În partea dreapta jos a casetei se găsesc “butoanele”, adică acele zone care declanşează acţiuni. Clic pe butonul Open produce deschiderea fişierului selectat. Clic pe butonul Paste produce doar un text cu comanda de deschidere a fişierului selectat, comandă ce se va scrie într-un fişier de tip sintaxă, în vederea folosirii lui ulterioare. Butonul Cancel anulează operaţiunea în curs, fără să declanşeze procedura pentru care se făceau pregătirile. După acţionarea butoanelor casetele de dialog dispar de pe ecran. În majoritatea casetelor de dialog apare şi butonul Reset. Selectarea lui va anula toate specificările făcute în caseta de dialog afişată, fără ca acesta să fie ştearsă de pe ecran. Utilizatorul va putea face deci alte selecţii. Unele casete de dialog pot conţine “butoane radio” şi / sau “căsuţe pentru bifare” (check box). Ele nu declanşează acţiuni imediate dar permit optarea pentru anumite 13
variante ale procedurilor. Butoanele radio se deosebesc de căsuţele pentru bifare prin faptul că numai unul dintr-o zonă poate fi ales şi una din alegeri este obligatorie. În cazul căsuţelor pentru bifare, acestea pot fi bifate sau nu, indiferent câte sunt într-o casetă de dialog. Butoanele radio au o aparenţă circulară iar opţiunea aleasă se marchează cu un punct (). Căsuţele pentru bifare au aparenţă pătratică şi opţiunile alese vor fi marcate cu o bifă [] .
2.5. Asistenţa “on-line”
Figura 2.3. Fereastra Tutorialului SPSS Meniul Help oferă multiple posibilităţi de a obţine ajutor interactiv. Procedura Topics permite accesul în manualul electronic pe baza unor opţiuni tematice, procedura Tutorial este indicată pentru un prin contact cu SPSS (vezi figura 2.3), iar procedura Statistics coach este un meditator pentru procedurile statistice. Unele din proceduri conţin demonstraţii interactive, cele mai multe conţin ilustraţii şi toate conţin explicaţii textuale în limba engleză.
14
Modul 3. Proiectarea unei baze de date
3.1. Utilizarea Editorului de date SPSS Editorul de date (Data Editor) este un modul SPSS care afişează o fereastră tip spreadsheet (foaie de calcul) utilizată la crearea şi editarea fişierelor de date SPSS. El se foloseşte atât la introducerea datelor direct de pe un chestionar cât şi la vizualizarea informaţiilor deja introduse, cum ar fi fişe medicale, baze de date cu angajaţii sau clienţii unor agenţii, rezultate obţinute în urma unor testări şi multe altele. Fereastra Editorului de date se deschide automat la începutul unei şedinţe de lucru SPSS, vezi figura 2.1. Dacă nu se deschide un alt fişier de date, Editorul de date rămâne gol. Înainte de a introduce date trebuie să avem în vedere câteva lucruri: Liniile reprezintă cazuri Fiecare linie reprezintă un caz, o observaţie sau un individ statistic. În fişierul de date folosit de noi ca exemplu, vezi fundalul figurii 2.3, fiecare linie reprezintă un respondent. Coloanele reprezintă variabile Fiecare coloană reprezintă o variabilă, o caracteristică sau o însuşire a individului statistic. În exemplul nostru chestionarul a avut 133 itemi de completat. De aceea Editorul de date va avea 133 de variabile. Celulele conţin valori O celulă conţine o singură valoare a unei variabile pentru un caz. De exemplu, prima celulă din exemplul nostru conţine numărul de identificare al primului respondent. Celulele conţin numai valori numerice, şiruri de caractere şi date calendaristice. Spre deosebire de foile de calcul, celulele din Editorul de date nu conţin formule.
3.2. Un exemplu Datele utilizate în acest curs aparţin bazei de date Martie97.sav. Ea conţine 1.298 cazuri, reprezentând un eşantion naţional al populaţiei României, iar variabilele conţinute se referă la întrebări de opinie legate de situaţia socială, economică, politică a României, reprezentând Barometrul de opinie editat de Fundaţia pentru o Societate Deschisă. Fişierul de date conţine şi câteva caracteristici de identificare a subiecţilor şi gospodăriilor din care fac parte (gen, vârstă, naţionalitate, domiciliu, nivel de educaţie etc.). Ancheta de teren a avut loc în martie 1997.
15
Variabilele din Barometru acoperă toate scalele nivelelor de măsură şi permit exemplificarea celor mai variaţi indicatori şi proceduri statistice.
3.3. Proiectarea schemei de codificare Răspunsurile la câteva întrebări sunt numere: de exemplu, vârsta, numărul de membrii în gospodărie, distanţa în kilometrii faţă de cel mai apropiat oraş, etc. Alte câteva întrebări cer alegerea unor opţiuni din mai multe posibile (de exemplu ultima şcoală absolvită, ocupaţia etc.) şi fac necesară întocmirea unei scheme de codificare. O schemă de codificare este un mod de a asocia anumite valori unor răspunsuri din chestionar. Codurile sunt ceea ce se introduce efectiv în fişierul de date. În general schemele de codificare sunt arbitrare. De exemplu pentru întrebarea “Sunteţi de sex masculin sau feminin?” codurile ar putea fi (1) pentru masculin şi (2) pentru feminin. O altă posibilitate ar putea fi “m” pentru masculin şi “f” pentru feminin. Ori de câte ori este posibil se recomandă folosirea codurilor numerice şi nu a caracterelor alfanumerice (de exemplu literele). Ar fi fără sens a cere obţinerea mediei unui grup de litere. (SPSS poate converti codurile alfabetice în coduri numerice prin utilizarea procedurii Automatic Recode din meniul Transform).
3.4. Definirea variabilelor Există 133 de itemi în chestionarul nostru. Aceasta înseamnă 133 de variabile pentru Editorul de date. Cu alte cuvinte 133 coloane. Primul item este codul de identificare (sau cod) şi constă în până la 4 caractere numerice. Al doilea item este genul respondentului (sau gen) şi constă într-un cod alfabetic “m” sau “f”. Al treilea item este vârsta respondentului (sau varsta) care constă în două cifre. Al patrulea item este nivelul şcolii absolvite (sau ulscoala) care, dat fiind că există doar 5 posibilităţi de răspuns, constă într-un caracter numeric. Al cincilea item este localitatea de domiciliu (sau localit). În caseta de dialog Define Variable din meniul Data putem gestiona 5 categorii de informaţii: numele variabilei, tipul variabilei, etichetele, valorile omise şi formatul coloanei. Aceste informaţii sunt tot atâtea aspecte ale structurii bazei de date şi se definesc pentru fiecare variabilă în parte.
3.5. Atribuirea numelui variabilei Înainte de a introduce informaţiile din chestionar în celulele Editorului de date, trebuie furnizate nume unice de maximum 8 caractere pentru fiecare coloană din fişier. Acesta va permite o referire uşor de memorat pentru fiecare coloană, sau variabilă, legată de un item de chestionar. Prima coloană din Editorul de date este legată de un item ce nu
16
este inclus în chestionar, dar care va fi utilă în identificarea respondenţilor – codul numeric al respondentului. Pentru a atribui un nume variabilei: -
faceţi clic pe orice celulă din prima coloană
-
faceţi clic pe meniul Data din meniul principal
-
faceţi clic pe Define Variable din meniul Data
Va apare o casetă de dialog ca în figura 3.1.
Figura 3.1. Caseta de dialog Define Variable SPSS arată definiţiile curente pentru variabilă; în acest caz numele implicit al variabilei este VAR00001. Până ce acesta este selectat se poate înlocui cu un nume nou, mai uşor de recunoscut, ca reprezentând numărul de identificare al respondentului. Tastaţi “cod” în căsuţa Variable Name. Există câteva reguli ce trebuie respectate atunci când se atribuie nume variabilelor. O parte din ele sunt:
17
Numele trebuie să înceapă cu o literă
Lungimea unui nume nu trebuie să depăşească 8 caractere
Utilizarea spaţiilor şi a caracterelor speciale (! ? “ *) este interzisă
Fiecare nume de variabilă trebuie să fie unic
Apoi se poate face clic pe butonul OK pentru a se schimba efectiv numele variabilei în Editorul de date. Urmează acum alte schimbări ale caracteristicilor implicite ale variabilei.
3.6. Schimbarea tipului variabilei Caseta de dialog folosită pentru schimbarea numelui variabilei (Define Variable) poate fi utilizată şi pentru specificarea tipului variabilei. Tipul variabilei se referă la forma în care apar valorile în coloană (de exemplu când o informaţie este de tip text sau una din formatele numerice) dar şi la dimensiunea memoriei alocată pentru stocarea informaţiei. În figura 3.2 putem vedea că tipul variabilei “cod” este Numeric8.2.
Figura 3.2 Caseta de dialog Define Variable Type
18
Acesta este formatul implicit, definit în SPSS, şi semnifică faptul că informaţiile sunt afişate numeric cu maximum 8 poziţii care includ un punct şi două cifre pentru partea zecimală. De exemplu “1” se va afişa ca “1.00”. Aceasta mai înseamnă şi că formatul de afişare a rezultatelor obţinute în urma procedurilor SPSS se vor afişa tot cu 8 poziţii şi 2 cifre pentru zecimale. Pentru a schimba formatul de afişare al variabilei se face clic pe căsuţa de dialog Type. Apoi se poate schimba lungimea variabilei cod la 4 poziţii, fără cifre zecimale, ca în figura 3.2. După schimbări se va acţiona butonul Continue, iar schimbarea poate fi acum sesizată în caseta Define Variable (vezi figura 3.3).
Figura 3.3. Definiţii modificate pentru variabila “cod”
19
3.7. Adăugarea etichetelor descriptive pentru variabile şi valori Adăugarea etichetelor descriptive este foarte utilă, chiar dacă se poate lucra şi fără ele. Etichetele adăugate variabilelor şi valorilor lor îmbunătăţesc mult listingurile cu rezultate şi uşurează analiza. Etichetele pentru variabile sunt extensii ale numelor variabilelor şi permit ataşarea unor informaţii mai descriptive decât permit cele maximum 8 caractere impuse pentru un nume de variabilă. Limita maximă pentru o etichetă de variabilă este de 120 caractere, dar trebuie să ţinem totuşi cont că multe proceduri afişează mai puţin de 120 caractere şi deci este bine să folosim o etichetă de o lungime cât mai scurtă. Etichetele de valori se ataşează valorilor specifice ale variabilelor. Acestea sunt avantajoase mai ales atunci când codurile valorilor nu au legături intrinseci cu categoriile reprezentate de acestea. De exemplu, trebuie să codificăm ultima şcoală absolvită de respondent utilizând coduri de la 1 la 5, dar fără utilizarea etichetelor pentru valori va fi dificil să ţinem minte ce grup am codificat cu un anume număr. Etichetele de valori trebuie să fie de maxim 60 caractere, dar şi aici este recomandabil să utilizăm denumiri mai scurte pentru că multe proceduri nu pot afişa aceste etichete în extenso. Tabelul 3.1 rezumă informaţiile descriptive pentru o parte a variabilelor din baza de date Martie97. Un astfel de tabel se numeşte catalog de coduri. Tabel 3.1. Catalog de coduri pentru câteva variabile ale Barometrului Variabila
Eticheta pentru variabilă
Etichete pentru valori
Tip variabilă
cod gen
Serie chestionar Genul
Numeric 4.0 String 1
varsta ulscoala
Varsta Ultima şcoală absolvită
localit
Localitatea de reşedinţă
nu m = masculin f = feminin x = non-raspuns Nu 1 = maxim şc. generală 2 = şc. profesională 3 = liceu 4 = şc. postliceală 5 = învăţământ superior nu
Numeric 2.0 Numeric 1.0
String 15
Adăugarea etichetelor pentru variabile şi valorile lor se face tot prin intermediul casetei de dialog Define Variable (figura 3.3), anume prin acţionarea butonului Labels. Se va deschide o nouă casetă de dialog, ca cea din figura 3.4. După specificarea valorii şi a etichetei corespunzătoare se utilizează butonul Add pentru a adăuga atribuirea în lista de
20
atribuiri. Se repetă adăugarea atribuirilor până se epuizează lista de valori, iar la urmă se acţionează butonul Continue.
Figura 3.4. Caseta de dialog Define Labels pentru variabila “ulscoala” Observaţie. Etichetarea se face de obicei la început, înainte de introducerea datelor în fişier, dar această operaţiune poate fi cerută oricând în cadrul unei şedinţe de lucru, fie pentru corectarea unor greşeli, fie pentru o etichetă mai grăitoare. Pentru a face astfel de schimbări se va selecta atribuirea în cauză prin clic, se vor face modificările în zonele Value sau Value Label , iar apoi se va acţiona butonul Change.
3.8. Atribuirea valorilor omise Una din consecinţele cele mai nedorite ale colectării datelor prin intermediul chestionarelor este lipsa unor informaţii sau incorectitudinea altora. Aceste situaţii pot apare din diverse motive printre care ar fi: incapacitatea subiectului de a răspunde la o întrebare, furnizarea unor răspunsuri inadecvate, omisiuni făcute de cei care codifică datele etc.
21
O altă situaţie in care lipsesc valori este cea în care chiar chestionarul permite răspunsuri ca “nu ştiu” sau “refuz să răspund” sau “nici unul din răspunsurile de mai sus”. Şi pentru astfel de informaţii trebuie prevăzute coduri care să servească introducerii în fişierul de date. Cu toate acestea vom dori să excludem aceşti subiecţi din anumite analize sau anumite tabele. De exemplu, se întâmplă deseori ca o anumită proporţie a respondenţilor să răspundă cu “nu ştiu” la o întrebare privind o opinie politică. Deşi această proporţie este interesantă prin ea însăşi, putem cere un tabel care să arate informaţii numai despre cei care şi-au exprimat o opinie. Indiferent din ce raţiune, avem nevoie să înregistrăm apariţia uneia din aceste situaţii prin atribuirea unei valori “omise”. O alternativă ar fi să lăsăm liberă celula Editorului de date, dar acesta va genera o altă problemă potenţială: aceea de a nu mai fi capabili să distingem între situaţiile ca cele descrise mai sus şi erorile făcute cu ocazia introducerii datelor. În exemplul nostru puteam să fi fost puşi în situaţia ca un respondent să nu-şi fi declarat genul. Vom atribui eticheta “non-raspuns” valorii “x” a variabilei gen pentru aceşti respondenţi şi vom face clic pe butonul Missing Values… a casetei de dialog Define Variable.
Figura 3.5. Declararea valorii omise prin caseta de dialog Define Missing Values
22
Caseta de dialog Define Missing Values prevede o mulţime de situaţii alternative pentru definirea valorilor omise. Implicit SPSS tratează toate valorile ca fiind valide. Putem declara până la trei valori distincte, discrete, ca fiind valori omise, sau putem specifica un interval (range în lb.engleză) de valori ca fiind omise, sau un interval şi o valoare discretă. În exemplul nostru avem o valoare omisă “x”, dar pentru că este o variabilă de tip şir (string în lb.engl.), este bine să atribuim şi valoarea blank (spaţiu) ca valori omise. Aceasta este necesară pentru că spaţiul (blankul) este un caracter legitim pentru variabilele de tip şir, spre deosebire de variabilele numerice, iar atribuirea lui ca valoare omisă va preveni situaţiile în care cazurile invalide vor fi incluse în tabelele de analiză. Observaţie. Valorile omise, ca şi etichetele variabilelor şi ale valorilor sunt senzitive la majuscule, aşa că o valoare “X” nu va fi recunoscută ca valoare omisă şi nici nu va purta eticheta “non-raspuns”.
3.9. Valori omise sistem şi valori omise utilizator Valorile omise pot fi de două tipuri diferite: sistem, care apar de fapt atunci când există omisiuni în setul de date, şi utilizator, care sunt declarate ca atare în Editorul de date. Nici una din ele nu sunt utilizate în analizele statistice.
Figura 3.6. Tabel de frecvenţe care arată tratarea valorilor omise sistem şi utilizator
23
Valori omise sistem Când o celulă dintr-o variabilă numerică este lăsată necompletată, SPSS plasează automat un punct zecimal în aceea celulă. Acest punct este referit întotdeauna ca valoare omisă sistem. Cazurile cu valori omise sistem sunt excluse din majoritatea procedurilor de analiză statistică şi de transformare a datelor. Valori omise utilizator Deseori este util a se face distincţia între motivele pentru care valorile sunt omise. De exemplu, pentru variabila “mservici” din Barometrul opiniei publice din Martie97 s-a atribuit valoarea omisă 0 , cu eticheta “NS / NR / NC” (abrevieri de la “nu ştiu”, “nonraspuns” si “nu comentez”). Aceste situaţii sunt bine determinate şi nu coincid cu acelea în care informaţia privind mulţumirea faţă de serviciu nu a fost în mod eronat introdusă în baza de date. În figura 3.6, care este listingul cu rezultate din fereastra Navigatorului de rezultate, putem vedea că sunt semnalate 643 cazuri de non-răspuns , dar şi 3 cazuri cu valori omise sistem, care au apărut cu siguranţă prin neatenţia celui care a introdus datele în calculator.
3.10. Schimbarea formatului coloanei Înainte de a termina definirea variabilei “gen” mai avem de explorat un ultim buton al casetei de dialog Define Variable, şi anume Column Format. Această opţiune controlează afişarea coloanei în Editorul de date. Fixând tipul variabilelor (deci şi lungimea lor) lăţimea coloanelor din Editorul de date se schimbă în mod automat, iar, de cele mai multe ori, numele variabilelor nu mai pot fi distinse din cauză că ele sunt de obicei mai lungi decât lungimea declarată a variabilei. Pentru a rectifica această situaţie, putem face următoarele:
Clic pe Column Format Schimbăm 1 în 7 Clic pe Continue
De regulă, cel mai bine este să declarăm lăţimea coloanei cu un caracter mai lung decât numele variabilei, sau cu un caracter mai lung decât valoarea cea mai lungă. Dacă avem variabile de tip şir lung (Long String), s-ar putea să nu dorim să vedem tot textul afişat, aşa că vom alege o lăţime a coloanei mai mică. Putem să schimbăm, pe această cale, inclusiv alinierea textului în coloană.
24
3.11. Definirea variabilelor adiţionale Înainte de a introduce datele va trebui să definim şi celelalte variabile. Pentru a defini celelalte 3 variabile din exemplul nostru (varsta, ulscoala şi localit) vom utiliza fie aceeaşi procedură utilizată până acum (adică clic pe Data, Define Variable…) fie vom putea alege o variantă mai rapidă, anume dublu-clic pe capul coloanei. Se va deschide caseta de dialog Define Variable, unde vom completa mai în întâi numele variabilei, apoi tipul, lungimea, etichetele pentru variabilă şi pentru valori, formatul coloanei, valorile omise. În cazul variabilei localit, care este de tip şir lung, vom vedea că butonul Missing Values pentru valoarea omisă nu este un buton eligibil. Există o regulă în SPSS şi anume că variabilele de tip şir lung (adică peste 8 caractere lungime) nu pot avea valori omise. În multe alte situaţii în care contextul este de aşa natură că anumite opţiuni nu au sens, SPSS face ineligibile anumite butoane şi zone din casetele de dialog, spre avantajul utilizatorului care astfel este împiedicat să facă declaraţii fără sens.
3.12. Introducerea datelor Odată ce variabilele au fost definite în concordanţă cu catalogul de coduri (tabelul 3.1), datele vor putea fi introduse fără nici o problemă. Cursorul se fixează pe celula ţintă şi se introduc date direct din chestionar. Pentru deplasarea la câmpul următor se poate folosi tasta Tab. Pentru un alt caz, procedeul se repetă. Dacă într-o celulă nu se introduce nimic, iar aceasta aparţine unei variabile numerice, va apare un punct zecimal şi se va atribui o valoare omisă sistem.
3.13. Editarea datelor SPSS nu previne utilizatorul când acesta introduce date eronate. Singura validare pe care totuşi o face este să nu permită introducerea caracterelor alfabetice în câmpurile numerice. Dacă observaţi o informaţie greşit introdusă puneţi cursorul pe celula în care apare acea informaţie şi retastaţi informaţia în mod corect. Dacă doriţi să faceţi o corectură celula trebuie deschisă iar corectura se face în linia de editare (echivalentă liniei pentru formule dintr-un tabelator). Deschiderea celulei active se face fie prin dublu-clic , fie prin apăsarea tastei F2.
3.14. Examinarea informaţiilor în Editorul de date Cea ce s-a introdus până acum în fişierul de date sunt codurile valorilor din chestionar. Etichetele, deşi definite, nu sunt de fapt afişate. Pentru a vedea etichete în loc de coduri se poate cere comanda Value Labels din meniul Utilities. 25
Chiar şi în această situaţie, trebuie să reţinem că pentru introducerea datelor noi folosim întotdeauna codurile şi nu etichetele. Avem însă o alternativă: să alegem o etichetă de valoare dintr-o listă afişată pe ecran după ce facem clic pe celula în care vrem să introducem informaţia cu butonul din dreapta al mouse-ului. Urmăriţi de exemplu lista afişată pentru o celulă din coloana ulscoala, în figura 3.7.
Figura 3.7. Etichete de valori în Editorul de date
3.15. Utilizarea etichetelor variabilelor în proceduri Etichetele pentru valori sunt utile nu numai în vizualizarea mai explicitată a semnificaţiei codurilor valorilor în Editorul de date ci şi în rezultatele procedurilor. În figura 3.6 aţi putut vedea cum etichetele pentru valorile variabilei mservici - mulţumirea faţă de locul de muncă al respondenţilor au apărut în locul codurilor în tabelul de frecvenţe produs de SPSS.
26
3.16. Salvarea fişierului de date Dacă părăsiţi SPSS în acest punct al şedinţei de lucru, toate datele şi informaţiile adiţionale atribuite variabilelor, valorilor variabilelor şi valorilor omise, se pierd. Toate aceste informaţii put lua însă o formă permanentă dacă salvaţi fişierul de date după ce aţi definit variabilele şi informaţiile adiţionale de descriere a lor. Pentru a salva un fişier de date, fereastra Editorului de date trebuie să fie fereastra activă. Salvarea pentru prima oară se face cu comanda Save As din meniul File, pentru că acesta permite specificarea numelui fişierului în caseta de dialog care se deschide (vezi figura 3.8). extensia implicită pentru un fişier de date SPSS este .sav. Ca să fim siguri că salvăm un fişier de date şi nu unul din celelalte tipuri permise de SPSS trebuie să ne asigurăm că zona Save as Type are ca şi conţinut SPSS (*.sav).
Figura 3.8. Caseta de dialog Save Data As Dacă dorim să salvăm fişierul într-un alt director decât cel curent, care apare în zona Save in, o putem face schimbând directorul prin intermediul butoanelor din partea de sus a casetei de dialog.
27
3.17. Diferenţa dintre Save As şi Save Comanda Save As a meniului File se utilizează când se doreşte schimbarea numelui fişierului afişat în linia de titlu al Editorului de date sau când se doreşte schimbarea formatului fişierului, de exemplu pentru a crea o versiune care să poată fi citită în Microsoft Excel. Deasemenea dacă se doreşte schimbarea directorului în care se salvează, altul decât cel definit implicit de SPSS se foloseşte tot Save As. Save se foloseşte pentru a salva o versiune îmbunătăţită a fişierului curent, adică cu ocazia actualizărilor bazei de date.
3.18. Ieşirea din SPSS Pentru a termina o şedinţă de lucru şi a părăsi SPSS se va alege comanda Exit SPSS din meniul File.
Figura 3.9. Cerere de salvare a fişierului cu rezultate Output1 SPSS ţine evidenţa ferestrelor deschise în timpul şedinţei. Dacă ceva din ceea ce s-a produs nu a fost salvat, SPSS întreabă explicit dacă se doreşte salvarea. De exemplu, 28
dacă am declanşat procedura Frequencies pentru a obţine o tabelă de frecvenţe, acesta s-a afişat în fereastra Output1al Navigatorului de rezultate. De aceea SPSS ne va întreba dacă dorim să salvăm fişierul cu rezultate, vezi figura 3.9. Extensia implicită pentru fişierele cu rezultate este .spo. Aceasta, împreună cu alte informaţii identice cu cele de la salvarea unui fişier de date pot fi văzute în caseta de dialog care se deschide în cazul unui răspuns afirmativ, ca în figura 3.10.
Figura 3.10. Caseta de dialog pentru salvarea fişierului de rezultate
29
Modul 4. Utilizarea Editorului de date II. Facilităţi adiţionale
4.1. Utilizarea şabloanelor În procesul de definire a datelor există situaţii când este posibil să salvăm un timp considerabil. O astfel de situaţie este cazul când avem mai multe variabile care au aceleaşi caracteristici (etichete, valori, valori omise etc.), şi în care se pot utiliza şabloanele pentru date. De exemplu, variabilele mmedic, mtranspo, mlocuit, mservici, mbanii, mtara, mcuraten din Barometru conţin răspunsuri codificate identic şi cu acelaşi cod pentru valoarea omisă pentru întrebări privind cât de mulţumit este respondentul în legătură cu asistenţa medicală, transportul în comun, locuinţa în care trăieşte, banii pe care îi are, viaţa politică sau curăţenia localităţii. Aceste variabile ar putea fi grupate în aşa-numitele “atitudini curente”.
Figura 4.1. Caseta de dialog Template Pentru a defini un şablon cu definiţiile comune, vom cere din meniul principal:
30
Data Templates Define Caseta de dialog ce se afişează pe ecran include butoane pentru definirea tipului informaţiei, a etichetelor pentru valori, a valorilor omise sau pentru formatul coloanelor, care, prin acţionare, deschid casete de dialog similare cu cele de la Define Variable. Primul pas în crearea unui şablon va fi selectarea şablonului DEFAULT (care de multe ori este deja selectat, fiind şablonul implicit) iar apoi se va furniza un nume şablonului, ca în figura 4.1. Prin acţionarea butonului Value Labels vom putea defini etichetele pentru valori, ca în figura 4.2, iar apoi valoarea omisă, ca în figura 4.3.
Figura 4.2. Definirea etichetelor valorilor pentru şablonul “ATIT.CURENTE” O dată ce elementele comune au fost definite se salvează şablonul acţionând butonul Add (vezi figura 4.1). Şabloanele definite sunt adăugate listei de şabloane a SPSS şi rămân eligibile şi pentru alte aplicaţii decât cea curentă.
31
Figura 4.3. Definirea valorii omise pentru şablonul “ATIT.CURENTE” Aplicarea unui şablon Pentru a aplica un şablon unui set de variabile, acestea trebuie mai întâi selectate. Vom ieşi deci din procedura de definire a şabloanelor, prin acţionarea butonului Close, apoi vom selecta cele 7 variabile din setul “atitudini curente” prin clic pe numele primei variabile din set şi extinderea selecţiunii prin tragere (drag, în lb.engleză). După ce variabilele au fost selectate (figura 4.4) : -
se cere din nou din meniu Data, Template
-
se selectează din lista de şabloane cel dorit (adică “ATIT.CURENTE”)
-
se bifează căsuţele Value Labels din zona Apply
-
se bifează căsuţe Missing values din zona Apply
-
se acţionează butonul OK
32
Figura 4.4. Aplicarea şablonului “ATIT.CURENTE”
4.2. Aplicarea unui dicţionar de date O altă situaţie în care procesul de definire a datelor poate fi accelerat este cea în care deţinem deja un fişier de date cu aceleaşi variabile, caz tipic pentru fişierele generate periodic, de exemplu lunar. Din moment ce procesul de definire a datelor este acelaşi ca pentru prima oară, informaţiile de dicţionar (adică, etichetele pentru variabile şi pentru valori, valorile omise, tipul variabilelor şi formatele de afişare în coloane) pot fi preluate de la un alt fişier. Informaţiile de dicţionar se aplică întotdeauna fişierului curent (cel deschis în Editorul de date) pe baza coincidenţei numelor de variabile. Variabilele nu trebuie să fie dispuse neapărat în aceeaşi ordine în ambele fişiere, iar variabilele care nu există în ambele fişiere rămân neafectate. Ceea ce este important de reţinut este că informaţiile de dicţionar aplicate se scriu peste (înlocuiesc) informaţiile de dicţionar existente până atunci.
33
Pentru aplicarea unui dicţionar de date fişierului curent de date, se va cere din linia de meniul File, Apply Data Dictionary, iar apoi se va alege fişierul sursă din lista de fişiere SPSS care vor apare într-o casetă de dialog.
4.3. Obţinerea informaţiilor despre variabile Fişierele de date reale, ca Martie97.sav, conţin de regulă foarte multe variabile. Nu este deloc uşor să ţinem minte numele tuturor variabilelor şi nici celelalte informaţii de dicţionar. SPSS are o procedură, din categoria utilitarelor, care afişează la cerere aceste informaţii. Este vorba de procedura Variables din meniul Utilities (vezi figura 4.5).
Figura 4.5. Caseta de dialog Variables Prin evidenţierea numelui variabilei în lista din partea stângă, apar informaţiile de dicţionar corespunzătoare în partea dreaptă. După ce am citit informaţiile dorite, putem ieşi acţionând butonul Close, putem copia informaţiile în fereastra de sintaxă cu butonul Paste, sau putem să ne întoarcem în Editorul de date unde variabila să fie selectată, acţionând butonul Go To.
34
4.4. Obţinerea unui catalog de coduri Un catalog de coduri se creează în procesul de proiectare a bazei de date. De obicei acesta are formă tabelară, ca exemplul din modulul 3 (Tabelul 3.1). Informaţiile de dicţionar ale unui fişier de date SPSS, aşa cum au fost ele definite cu ajutorul Editorului de date, pot fi obţinute şi prin procedura File Info din meniul Utilities. Ele nu mai au o formă tabelară, dar conţin acelaşi tip de informaţii (vezi figura 4.6).
Figura 4.6. Catalog de coduri în fereastra Navigatorului de rezultate Conţinutul acestui catalog de coduri, ca de altfel al oricărui rezultat din fereastra Output1 al Navigatorului de date, poate fi salvat într-un fişier sau imprimat. Pentru salvare se va alege comanda Save sau Save As, din meniul File, având fereastra Navigatorului activă, şi elementul de rezultat selectat în panoul din stânga. Şi pentru imprimare este necesar ca fereastra Navigatorului să fie activă şi elementul de rezultat ce se doreşte a fi imprimat să fie selectat în panoul din stânga. După aceea se va declanşa procedura Print din meniul File.
35
Modul 5. Căutarea erorilor şi analize statistice exploratorii
Vom explora în cele ce urmează câteva din cele mai comune căi de a descrie datele dintr-o bază de date prin intermediul procedurilor de statistică elementară Frequencies şi Descriptives. De foarte multe ori vom vedea că aceste două proceduri sunt suficiente pentru a răspunde la multe din întrebările cercetării. Procedurile Crosstabs şi Means sunt utile în investigarea unor posibile relaţii între două variabile. Aceste patru proceduri, la care se adaugă şi procedura Explore, nu sunt numai tehnici puternice descriptive, dar constituie tot atâtea mijloace de investigaţie necesare înaintea întreprinderii unor analize statistice mai sofisticate.
5.1. Procedura Frequencies
Figura 5.1. Procedura Frequencies Procedura Frequencies, furnizează tabele statistice şi reprezentări grafice. Implicit, ea va genera o distribuţie de frecvenţe sub formă de tabel, în care pentru fiecare
36
valoare distinctă a variabilei selectate, se va afişa numărul de apariţii, procentul pe care acesta-l reprezintă din întregul eşantion şi procentul cumulativ. Ca opţiuni, pot fi selectate grafice ca diagrama de bare, histograma (care vor fi alese în funcţie de tipul variabilei), valorile pentru anumite percentile sau indicatori statistici descriptivi. În tabela de frecvenţe sau în diagramele de bare, valorile distincte pot fi ordonate în ordine crescătoare sau descrescătoare. Generarea / afişarea tabelei de frecvenţe poate fi eliminată dacă variabila are prea multe valori distincte. Unităţile de măsură folosite în diagrame şi grafice pot fi sub formă de frecvenţe numerice (implicit) sau procente. Indicatori statistici ce pot fi ceruţi: media, mediana, modul, suma, abaterea standard, varianţa, amplitudinea, minimum şi maximum, eroarea standard a mediei, oblicitatea (skewness) şi ascuţimea (kurtosis) (cu erorile lor standard), cuartile şi percentile definite de utilizator, frecvenţe, procente, procente cumulate. Pentru declanşarea procedurii se va alege din meniu: Statistics Summarize Frequencies
5.2. Procedura Crosstabs În cazul în care dorim să studiem o relaţie de asociere între variabile categoriale, va fi utilă o tabelă care conţine frecvenţele combinaţiilor valorilor (categoriilor) celor două variabile. Acestea sunt tot tabele de frecvenţe, dar se generează nu doar pentru o variabilă, ci pentru combinaţia a două variabile. Vom numi o astfel de tabelă, tabelă de frecvenţe între două variabile, tabelă de asociere sau tabelă de contingenţă. Ea se obţine din meniu, alegând: Statistics Summarize Crosstabs… Pentru exemplificare, vom utiliza fişierul Martie97.sav, care conţine variabilele gen şi mservici (satisfacţia in munca). Putem studia relaţia între mservici şi venit, sau între orice alte variabile între care bănuim că ar putea exista o legătură.
37
Figura 5.2. Procedura Crosstabs
m
i
C
d e e t a p u l o r o t t t t u u u u t G m 2 1 0 6 9 f 0 0 8 5 3 T 2 1 8 1 2
Figura 5.3. Tabel de asociere între gen şi satisfacţia în muncă (frecvenţe absolute) Conţinutul celulelor aşa cum apare sub formă de frecvenţe absolute (figura 5.3) nu exprimă relaţia dintre cele două variabile. Pentru a putea compara diversele grupuri între ele, trebuie să folosim o măsură independentă de numărul cazurilor cuprinse în grupul respectiv; fiecare grup având un număr diferit de cazuri (359 persoane de sex masculin şi 293 persoane de sex feminin). O exprimare în procente a frecvenţelor din fiecare celulă permite comparaţiile dorite (figura 5.4).
38
m
i t
d e o s e a p t l u o r r T u l l l l t o t t t u u u u t G m C 2 1 0 6 9 % G % % % % % r e f C e 0 0 8 5 3 % G % % % % % r e T C o 2 1 8 1 2 % G % % % % % r e
Figura 5.4. Tabel de asociere între gen şi satisfacţia în muncă (frecvenţe procentuale) Procentajul pe coloane ne arată distribuţia variabilei de pe linii pentru fiecare categorie a variabilei de pe coloane (ce procent din totalul cazurilor de pe o coloană este distribuit pe fiecare linie). Tabelul din figura 5.4 nu afişează astfel de procente. Procentajul pe linii ne arată distribuţia variabilei de pe coloane pentru fiecare categorie a variabilei de pe linii (ce procent din totalul de cazuri de pe o linie este distribuit în fiecare coloană). În tabelul din figura 5.4 putem vedea, de exemplu, că 8,9% din persoanele de sex masculin (variabila gen este variabila de pe linii) se declară deloc mulţumite de serviciul pe care îl au (variabila de pe coloane), 17% nu sunt prea mulţumite, 52,9% sunt mulţumite şi 21,2% sunt foarte mulţumite. Observaţie: Cum putem spune dacă într-un astfel de tabel procentele din celule reprezintă procentajul pe linii sau pe coloane? Dacă în coloana numită Total procentul înscris în fiecare celulă este 100%, avem de-a face cu procente pe linii. Dacă pe linia numită Total procentul înscris în fiecare celulă este 100%, avem de-a face cu procente pe coloane.
5.3. Procedura Descriptives Această procedură calculează şi afişează indicatori statistici univariaţi (o variabilă la un moment dat) pentru diferite variabile şi poate calcula valorile standardizate (scoruri Z) pentru fiecare caz. Implicit, pentru fiecare variabilă ce se selectează se vor calcula media, abaterea standard, minimum, maximum (vezi căsuţele bifate din caseta de dialog Descriptives Options din figura 5.5.). Opţional mai pot fi cerute varianţa, amplitudinea, eroarea standard a mediei, oblicitatea şi ascuţimea.
39
Observaţie: Mediana, modul, cuartilele şi percentilele nu pot fi calculate aici, ele se determină cu procedura Frequencies. Declanşarea procedurii se face din linia de meniu cu: Statistics Summarize Descriptives
Figura 5.5. Procedura Descriptives
5.4. Procedura Means Într-un grup de subiecţi putem distinge subgrupuri de cazuri în funcţie de diverse criterii, subgrupuri între care este util să facem comparaţii în scopul stabilirii unor diferenţe ce merită exploatate mai îndeaproape.
40
Putem studia de exemplu media notelor la matematică obţinute într-o clasă, separat pentru fete şi băieţi. Sau putem studia diferenţele privind media de vârstă pentru femei şi bărbaţi într-un eşantion reprezentativ al populaţiei României (vezi figura 5.6). Subgrupurile pot fi formate atunci când cazurile pot fi divizate pe baza uneia sau mai multor variabile de grupare. Variabila sub studiu este deci de tip interval iar variabila de grupare este categorială. Declanşarea procedurii se face prin intermediul liniei de meniu: Statistics Compare Means Means
Figura 5.6. Procedura Means Rezultatul este o tabelă care afişează pentru variabila în cauză media, abaterea standard şi efectivul fiecărei categorii de grupare. În cazul în care se doreşte definirea grupurilor în funcţie de mai multe variabile de grupare, variabilele categoriale vor fi puse în “straturi” (Layers) diferite.
41
5.5. Procedura Explore
Figura 5.7. Caseta de dialog al procedurii Explore Poate fi folosită pentru a studia distribuţia unei variabile:
Calculează indicatori statistici descriptivi pentru toate cazurile sau pentru subgrupuri de cazuri.
Identifică valorile extreme. Acestea se datorează uneori introducerii greşite a datelor în calculator. Dacă sunt reale, atunci ele pot influenţa puternic deciziile pentru analiza statistică ulterioară, de aceea este util să fie depistate.
Calculează percentilele distribuţiei variabilei, atât pentru toate cazurile cât şi pentru subgrupuri de cazuri;
Generează o varietate de reprezentări grafice a datelor (stem and leaf, boxplot, histograme) care ne arată vizual cum se distribuie valorile datelor.
42
Pentru declanşare vom alege din linia de meniu: Statistics Summarize Explore În Dependent List se trece variabila pe care dorim s-o explorăm (variabilă tip interval). Variabila factor este o variabilă de grupare, care se alege în cazul în care dorim să calculăm statistici pentru subgrupuri de cazuri ale variabilei numerice studiate.
100
834 766
968 90
80
1105 1097
953 1117
1007 943
60
40
vârsta
20
0 N=
72
121
338
deloc multumit
121
destul de multumit nu prea multumit
foarte multumit
Multumit de - serviciu
Fig.5.8. Grafic boxplot pentru legătura dintre satisfacţia în muncă şi vârstă (Martie97) În figura 5.8 putem vedea o diagramă “boxplot” produsă de procedura Explore având ca şi variabilă factor mservici (satisfacţia în muncă) iar ca variabilă dependentă vârsta. Caseta de dialog al procedurii Explore a fost completată ca în figura 5.7.
5.6. Depistarea erorilor Este important să fim siguri că datele noastre sunt corecte. Avem aşadar interesul să căutăm cât mai multe tipuri de erori posibile. Câteva din cele mai des utilizate metode sunt tratate în cele ce urmează. Erorile pot apare din mai multe motive şi în mai multe faze ale unei cercetări. Cu cât există mai multe faze cu atât posibilitatea apariţiei unui nou tip de erori creşte. Erorile
43
pot apare încă din faza de aplicare a chestionarului: respondentul sau operatorul de interviu bifează o altă căsuţă decât cea corectă. În etapa de codificare a chestionarului, în cazurile când codificarea nu apare direct pe formularul chestionar, se pot introduce erori suplimentare. O altă sursă de erori este etapa de introducere a datelor în baza de date. Cele mai des utilizate proceduri de localizare a erorilor sunt Case Summaries, Frequencies şi Descriptives. Dar şi procedurile Crosstabs şi Explore pot fi utile. Comanda Frequencies poate fi utilizată pentru a localiza valori inadecvate pentru variabile cu un număr mic de categorii distincte (caz tipic pentru variabilele de tip nominal şi ordinal). În exemplul din figura 5.9 se poate vedea un tabel de frecvenţe pentru variabila temere1 (temerile românilor) unde apare un cod (9) care nu face parte din valorile prevăzute.
m
m a u l r r r u c c c e V 1 8 6 7 7 2 9 7 7 5 3 8 6 7 2 4 4 3 4 5 5 3 3 4 9 6 1 2 2 1 7 2 5 5 5 8 8 4 4 9 9 1 1 1 0 T 4 6 0 M 0 5 4 T 5 4 T o 9 0
Figura 5.9. Tabel de frecvenţe pentru ”temere1” Problema constă în faptul că în afara celor 8 valori admisibile (codificate de la 1 la 8) mai apar şi valorile 0 şi 9. Valoarea 0 este atribuită valorilor omise, deci este acceptabilă. În schimb valoarea 9 trebuie să fie o eroare de un fel sau altul. Soluţia ideală ar fi să se caute valorile şi să se înlocuiască valoarea eronată cu versiunea corectă. În multe cazuri acest lucru nu este posibil şi atunci se poate atribui codului 9 rolul valorii omise (vezi secţiunea 9 din modulul 3). Această valoare omisă poate fi una de tip utilizator sau una de tip sistem (vezi modulul 6). În acest mod valoarea incorectă va fi exclusă din majoritatea analizelor statistice care utilizează variabila temere1.
44
Comanda Descriptives este utilă pentru depistarea erorilor similare, dar pentru variabile continue, măsurate pe scale de nivel interval sau rapoarte. Această procedură furnizează valorile minime şi cele maxime întâlnite în baza de date şi astfel putem vedea dacă apar valori neplauzibile. De exemplu, dacă ştim că eşantionul era compus din indivizi majori (cum este cazul la Barometrul opiniei publice), o vârstă minimă de 10 ani nu putea să apară decât dintr-o eroare. Un nivel de educaţie de 0 ani este la fel de improbabil (deşi nu imposibil).
e
t d N e i i m m a V 8 8 2 0 5 N 9 0 4 4 8 8V
Figura 5.10. Indicatori statistici descriptivi pentru variabilele “vârsta” şi “nringosp”
În cazul exemplului din figura 5.10 vârstele minimă (18) şi maximă (92) întâlnite în eşantion sunt plauzibile, dar pentru variabila nringosp (număr de indivizi în gospodărie) valoarea zero (0) nu are sens.
Comanda Case Summaries este un instrument extrem de util prin faptul că permite listarea valorilor mai multor variabile pentru fiecare caz. Aceasta permite o abordare a căutării erorilor mai sofisticată, pentru găsirea cazurilor în care fiecare variabilă are valori perfect justificate, dar pentru care combinaţia de valori pentru două sau mai multe variabile este ridicolă. Aşa de exemplu, pentru cineva în vârstă de 10 ani ar fi ridicol să apară că ar conduce maşina 50.000 km pe an. Comanda Case Summaries permite detectarea erorilor de acest tip. Utilizarea acestei metode este mare consumatoare de timp, aşa că se preferă de multe ori listarea numai a anumitor părţi din baza de date. Pentru declanşarea procedurii se utilizează meniul principal: Statistics Summarize Case Summaries În figura 5.11 se poate vedea un exemplu de listare a variabilelor autoturi, mcuraten şi mtranspo pentru 15 cazuri.
45
u
a m
l t u v ne i a t o u c r 1 2 3 2 2 2 3 4 3 2 3 1 4 2 2 1 5 1 3 2 6 1 1 1 7 2 2 2 8 1 2 3 9 2 4 2 1 0 2 1 3 1 1 2 3 2 1 2 2 3 2 1 3 2 2 1 1 4 2 3 2 1 5 1 2 3 T N o 5 5 5 a L
Figura 5.11. Lista a 4 variabile pentru un set de 15 cazuri
Ce putem face dacă găsim erori Unele erori pot fi tratate mai uşor decât altele. În exemplul de la procedura Frequencies, dacă am fi găsit o vârstă de 99 ani, probabil că problema se putea rezolva prin declararea codului 99 ca valoare omisă. Acest tip de eroare este uşor de corectat. Erorile apărute în etapa de codificare sau în cea de introducere a datelor pot fi corectate prin reexaminarea chestionarelor originale, dacă ele mai există. Pentru aceste cazuri este importantă includerea unui număr de serie atât pe formularul de chestionar cât şi în fişierul de date, astfel ca valorile să poată fi controlate. Dacă nu avem un astfel de număr (sau cod) de identificare, localizarea formularelor pentru cazurile cu valori eronate este deosebit de dificilă. Dacă nu putem descoperi nicicum adevărata valoare care ar fi trebuit să fie în fişier, cea mai bună metodă este cea de introduce în locul ei valoarea omisă sistem (punctul zecimal) tuturor valorilor suspecte. Procedura folosită în acest caz este procedura Recode (vezi modulul 6).
46
. i
Modul 6. Gestionarea bazei de date
6.1. Transformarea variabilelor cu procedura Recode Datele cu care lucrăm pot proveni din surse diferite şi pot fi într-o stare care nu este perfectă pentru noi. Deseori există valori ne-valide, anumite valori vrem să le excludem din anumite calcule, sau vrem să creăm variabile noi pe bază de calcule. Aceste probleme pot fi soluţionate utilizând proceduri din meniul Transform (vezi figura 6.1).
Figura 6.1. Meniul Transform Când observăm erori în date (cum este codul 9 pentru variabila temere1 din vezi modulul 5) vom dori să corectăm valoarea eronată şi să o transformăm într-una corectă. Dacă altfel nu este posibil, poate vom dori să o transformăm în valoare omisă sistem. De multe ori avem variabile continue cu foarte multe valori distincte, cum este de exemplu vârsta. Pentru anumite proceduri grupele de vârstă, cu mai puţine clase, sunt
47
mai convenabile. Vom dori să obţinem o variabilă nouă grvârsta, prin conversia valorilor din variabila vârsta. Una din procedurile din meniul Transform este Recode. Scopul ei este să schimbe valorile existente într-o variabilă. Se pot schimba valorile existente într-o anumită variabilă şi înlocui valorile originale, sau se pot schimba valorile pentru o anumită variabilă într-o variabilă nouă. Totul depinde dacă avem interesul să păstrăm valorile “vechi” – caz în care vom folosi Recode into Diferent Variables -, sau nu avem acest interes (de exemplu datele care conţin erori) - caz în care vom utiliza varianta Recode into Same Variables.
6.2. Recodificarea valorilor în aceeaşi variabilă Setul de date poate conţine valori care nu corespund nici unuia din răspunsurile valide din chestionar, cum este cazul variabilei temere1. Putem corecta răspunsul, dacă avem datele originale, sau putem să transformăm codul invalid într-o valoare diferită.
Figura 6.2. Caseta de dialog Recode into Same Variables
48
După cererea Transform, Recode, Into Same Variable, vom trece variabila temere1 din lista din stânga în lista din dreapta numită Numeric Variables (vezi figura 6.2). Pentru a specifica valoarea care trebuie modificată vom acţiona butonul Old and New Values… . SPSS va deschide caseta de dialog corespunzătoare acestui buton (vezi figura 6.3) unde vom specifica valoarea pe care dorim să o schimbăm şi noua valoare care o va înlocui. Dacă avem mai multe astfel de valori le vom specifica pe toate şi le vom adăuga în lista transformări din dreapta casetei numită Old -> New, cu ajutorul butonului Add.
Figura 6.3. Caseta de dialog Old and New Values Putem alege şapte opţiuni diferite de tratare a valorilor “vechi”. Value
- pentru specificarea valorilor individuale de convertit
System-missing
- transformă valorile omise sistem
System- or user-missing
- transformă ambele tipuri de valori omise, de tip sistem sau utilizator
Range
- pentru specificarea unui interval de valori de convertit
49
Range, Lowest through
- pentru transformarea unui interval de valori de la valoarea întâlnită cea mai mică şi până la valoarea specificată
Range, Highest through
- pentru transformarea unui interval de valori de la valoarea specificată şi până la cea mai mare valoare întâlnită
All other values
- pentru conversia tuturor valorilor care nu au fost specificate altfel
De cealaltă parte a casetei de dialog există două opţiuni pentru valorile “noi”. Acestea sunt: Value
- toate valorile specificate în partea de valori “vechi” sunt convertite în această valoare
System-missing
- toate valorile specificate în partea de valori “vechi” sunt convertite în valori omise sistem
În exemplul nostru, pentru că am avut o singură valoare de convertit (9) lista conţine această unică transformare. Vom acţiona butonul Continue, apoi OK, şi transformarea se va efectua.
6.3. Căutarea datelor în Editorul de date Putem verifica dacă transformarea a avut loc, căutând codul 9 în variabila temere1. O putem face dând pagină de pagină în Editorul de date sau, mai elegant, cu ajutorul procedurii Find… din meniul Edit. Acesta permite specificarea valorii căutate şi poziţionarea cursorului de la un caz la altul înainte, sau înapoi, cum se vede şi în opţiunile din figura 6.4. Dacă transformarea din procedura Recode a avut loc cu succes, nici o valoare 9 nu ar trebui să mai existe în fişierul nostru de date, iar SPSS ar trebui să dea un mesaj care să indice că această valoare nu a fost găsită. Astfel, valoarea 13 va fi eliminată permanent din această versiune a fişierului. Pentru a scoate caseta de dialog Search for Data de pe ecran va trebui să acţionăm butonul OK pentru preluarea mesajului, iar apoi butonul Close pentru terminarea căutărilor.
50
Figura 6.4. Caseta de dialog Search for Data
6.4. Obţinerea unei variabile noi prin recodificare De foarte multe ori suntem în situaţia de a dori utilizarea uneia din variabilele noastre dar într-o formă diferită, cum ar fi grupele de vârstă în locul vârstei exacte. În loc să schimbăm valorile iniţiale în valori noi, putem crea o variabilă noua, adiţională, care să conţină noile coduri, şi în acelaşi timp să păstrăm şi valorile vechi în variabila originală. Vom utiliza o tehnică identică cu cea de mai sus, dar vom cere varianta Into Different Variables al procedurii Recode. Figura 6.5 arată cum putem transforma valorile variabilei vârsta în valorile variabilei noi grvarsta. După recodificare noua variabilă grvârsta se va adăuga la fişierul de date într-o coloană nouă, cea mai din dreapta. Pentru a defini etichete noilor valori se poate utiliza procedura Define Variabile din meniul Data (cum am văzut în modulul 3).
51
Figura 6.5. Caseta de dialog Recode into Different Variables şi caseta de dialog Old and New Variables pentru variabila nouă “grvarsta”
6.5. Recodificarea automată Procedura Automatic Recode se găseşte în acelaşi meniu Transform (figura 6.1). Ea face acelaşi lucru ca şi procedurile Recode, cu specificul de a transforma variabilele alfanumerice (de tip String) în variabile numerice. Procedura Automatic Recode va citi datele din variabila (variabilele) selectată, va ordona fiecare valoare găsită, apoi va atribui valori întregi (1, 2, 3, …) fiecărei valori originare şi le va plasa într-o variabilă nouă. Etichetele valorilor originare vor fi transferate noilor valori numerice, iar dacă nu existau astfel de etichete, atunci primele 20 de caractere din valorile datelor originare se vor utiliza pe post de etichete. Dacă se doreşte permanentizarea datelor obţinute prin recodificare fişierul trebuie salvat din nou fie cu comanda Save – dacă nu se doreşte păstrarea vechiului fişier -, fie cu Save As - în caz contrar – care permite specificarea unui nume nou pentru fişierul nou.
52
6.6. Obţinerea unor variabile noi prin calcul numeric De cele mai multe ori apare momentul în care manipularea datelor devine o chestiune esenţială. Trebuie introduse variabile noi, obţinute prin calcule mai mult sau mai puţin complexe, trebuie ordonate datele după diverse criterii, sau cazurile trebuie împărţite în grupuri care să fie examinate într-un mod asemănător, dar separat unele de altele. SPSS poate crea variabile noi ale căror valori să fie obţinute din valorile variabilelor deja existente, cu ajutorul unor formule de calcul. Aceste formule pot conţine operatori aritmetici şi logici, funcţii aritmetice, pentru şiruri, pentru date calendaristice sau de timp, şi o multitudine de funcţii statistice. În cele ce urmează vom compara funcţiile aritmetice şi cele statistice pentru a vedea diferenţele între ele. Fişierul de date pe care îl vom utiliza, Fracturi.sav, este un fişier care conţine informaţii privind internările într-un spital. Un pacient poate avea nevoie de mai mult decât o vizită, cum putem vedea în figura 6.6.
Figura 6.6. Fişierul de date Fracturi.sav
53
Calcule aritmetice Pentru a utiliza procedura de calcul vom selecta Compute din meniul Transform (figura 6.1). Acesta generează o casetă de dialog ca în figura 6.7. Aici vom specifica numele variabilei ţintă (care poate fi o variabilă nouă dar poate fi şi una deja existentă).
Figura 6.7. Procedura de calcul al numărului mediu de zile spitalizare “spitmed” Caseta de dialog mai are butoane pentru o serie de operaţii aritmetice, relaţionale şi logice. Semnele pentru operanţii sunt următoarele: + * / **
adunare scădere înmulţire împărţire ridicare la putere
= ~= |
mai mare mai mare sau egal diferit de sau
În urma executării procedurii din exemplu vom obţine o variabilă nouă spitmed, reprezentând numărul mediu de zile de spitalizare pentru fiecare caz internat (figura 6.8). Observăm că multe din cazuri nu au valori pentru variabila nouă. Acest lucru se datorează faptului că multe din cele trei variabile spitaliz_ conţin valori omise sistem, şi calculele nu pot fi efectuate. 54
Figura 6.8. Medii calculate cu operaţii aritmetice standard
Utilizarea funcţiilor SPSS Dacă dorim să obţinem numărul mediu de zile spitalizare, bazat numai pe valorile valide ale fiecărui caz, putem apela la funcţiile statistice ale SPSS. Procedura Compute permite accesul la o mare varietate de funcţii predefinite care lucrează cu variabile numerice, alfanumerice, date calendaristice sau care generează valori aleatoare după distribuţii statistice standard. Vom utiliza aici funcţia MEAN care calculează media zilelor de spitalizare ţinând cont de valorile efectiv existente pentru fiecare caz. Noua variabilă rezultată o vom numi spitmean, pentru a face distincţie de cea calculată înainte prin operaţii aritmetice. Funcţia MEAN poate fi găsită în lista de funcţii a casetei de dialog Compute Variable prin clic pe zona Functions, apoi prin defilare până la litera M. În final caseta de dialog va arăta ca în figura 6.9.
55
Figura 6.9. Calculul mediei “spitmean” cu funcţia MEAN
6.7. Obţinerea unor variabile noi prin calcul cu date calendaristice SPSS are o mare varietate de proceduri de calcul şi de funcţii destinate altor date decât cele numerice. Chiar dacă datele numerice sunt pe de departe cele mai cunoscute tipuri de date pentru majoritatea dintre noi, datele de tip text şi / sau dată calendaristică sunt foarte frecvent utilizate în seturile de date. Din acest motiv, este foarte util ca cel care gestionează fişierele de date să cunoască ceea ce poate face cu ele. Datele calendaristice pot fi afişate într-o varietate de forme, care sunt definite în caseta Define Variable Type din procedura Define Variable (vezi modulul 3). Aceste forme se referă la formatul în care vedem datele pe ecranul monitorului (de exemplu, ll/zz/aa, zz.ll.aaaa etc.) dar, intern, datele calendaristice sunt memorate sub forma unor numere întregi care reprezintă numărul de secunde scurse de la 14 octombrie 1582 (data introducerii calendarului Gregorian). Astfel, calculele cu datele calendaristice constau în calcule matematice cu secunde şi convertirea acestora în intervale de timp (minute, ore, zile etc.) după cum cere natura variabilei. Totodată există câteva funcţii predefinite, cu ajutorul cărora se pot extrage anumite informaţii (de exemplu, luna) din datele calendaristice.
56
Calculul duratelor pe baza a două date calendaristice În spitale se înregistrează în mod uzual informaţii ca data naşterii, data internării; iar vârsta în momentul internării sau durata spitalizării (când se cunoaşte deja data externării) pot fi calculate uşor cu SPSS. Pentru calculul duratei avem nevoie să facem o scădere, anume din data externării să scădem data internării, apoi să transformăm rezultatul în număr de zile, folosind o funcţie adecvată. Rezultatul, numărul de nopţi petrecute în spital, îl vom reţine într-o variabilă nou, să zicem “zilespit”. Vom folosi pentru exemplificare fişierul Spitaliz.sav. Primul pas în construirea formulei care calculează durata spitalizării va fi o scădere: dataext – dataint Dacă ne limităm doar la atât, noua variabilă va măsura durata spitalizării în secunde, ceea ce nu ne convine. Aşa că vom aplica funcţia CTIME.DAYS (din lista de funţii a SPSS) asupra rezultatului scăderii. În final caseta de dialog Compute Variable va fi completată ca în figura 6.10. Toate funcţiile care se aplică datelor calendaristice sunt prefixate cu CTIME şi urmate cu intervalul de dată dorit (CTIME.HOURS, CTIME.MINUTES, CTIME.SECONDS).
Figura 6.10. Pasul 2 în calculul duratei spitalizării şi variabila rezultat “zilespit”
57
Calculul vârstei pe baza a două date calendaristice Fişele pacienţilor unui spital conţin şi vârsta lor. Această informaţie poate fi şi ea calculată din data naşterii (datanas) şi data internării (dataint). Ca şi durata spitalizării, vârsta se calculează după formula: vârsta = CTIME.DAYS ( dataint – datanas) Problema e că vârsta nu dorim să o avem în număr de zile ci în ani împliniţi la ultima aniversare. De aceea vom avea nevoie să împărţim rezultatul la 365.24, câte zile sunt într-un an, iar apoi să reţinem doar partea întreagă a acestui rezultat. Vom aplica funcţia TRUNC (trunchiere) pentru a îndepărta partea fracţionară a rezultatului. În final formula va arăta ca în figura 6.11: vârsta = TRUNC ( CTIME.DAYS (dataint – datanas ) / 365.24 )
Figura 6.11. Calculul vârstei şi variabila rezultat
58
6.8. Selectarea cazurilor după diverse criterii Pentru anumite proceduri putem utiliza subseturi de cazuri, sau putem reţine doar anumite cazuri în Editorul de date. Acest procedeu de “filtrare” nu înlătură cazurile care nu ne interesează în momentul respectiv. Toate cazurile rămân în Editorul de date, dar numai cele care satisfac criteriile de filtrare sunt utilizate în analiză. Există bineînţeles şi opţiunea de “ştergere” a cazurilor înlăturate, dar acest lucru nu se face decât la o cerere explicită. Dacă dorim să analizăm un grup selectat de cazuri vom utiliza filtrarea, dacă dorim să lucrăm intensiv cu cazuri selectate, ştergerea este probabil mai eficientă. Filtrarea se poate cere prin intermediul comenzii Select Cases din meniul Data. Caseta de dialog Select Cases din figura 6.12 arată faptul că, iniţial, toate cazurile sunt selectate (All cases este ales). Prin alegerea butonului If condition is satisfied, numai cazurile care îndeplinesc criteriile din caseta If… vor fi selectate. Alegerea butonului Random sample of cases va permite formarea unui eşantion aleator dintre cazurile fişierului. Utilizarea unei variabile filtru Use filter variable permite reţinerea pentru analiză doar a cazurilor care au valori diferite de 0 pentru variabila specificată. Starea implicită este fără variabilă filtru, întrucât toate cazurile sunt selectate în mod curent (All cases este ales).
Figura 6.12. Caseta de dialog Select Cases
59
În zona Unselected cases putem indica dacă dorim să filtrăm doar cazurile (Filtered) sau dorim să ştergem cazurile neselectate (Deleted). În figura 6.13 putem vedea cum în fişierul Martie97.sav s-au selectat numai respondenţii de genul feminin de vârstă sub 30 ani.
Figura 6.13. Caseta de dialog If… şi cazurile filtrate
6.9. Împărţirea cazurilor în grupe de analizat Dacă dorim să repetăm aceleaşi analize pentru subgrupuri separate de cazuri, o metodă ar fi aplicarea unei serii de filtre asupra fişierului de date. Această metodă este mare consumatoare de timp, iar SPSS oferă o soluţie mai simplă. Opţiunea Split Files din meniul Data poate împărţii cazurile în subgrupe de analizat, cu condiţia ca aceste subgrupe să fie mutual exclusive. Dacă desemnăm o variabilă ca variabilă de grupare toate tabelele şi graficele vor fi generate de atâtea ori câte valori distincte are acea variabilă în fişier.
60
De exemplu, dacă dorim să generăm tabele de frecvenţe pentru variabila mtrai, care exprim cât de mulţumiţi sunt respondenţii Barometrului opiniei publice de traiul lor, dar separat pentru fiecare gen, vom împărţi fişierul Martie97 în subgrupe determinate de variabila gen, apoi vom cere generarea tabelului de frecvenţe pentru variabila mtrai.
Figura 6.14. Caseta de dialog Split File
Cele două tabele de frecvenţe vor apare în fereastra Navigatorului de rezultate. Examinându-le (vezi tabelele de mai jos) mai cu atenţie vom vedea ca femeile sunt în general mai puţin mulţumite.
61
Frequencies Genul respondentului = masculin Statisticsa N Valid Missing 624 0
Multumit de felul in care trãieste a. Genul respondentului = 1 mas culin
a Multumit de felul in care trã ieste
Valid
0 NS / NR 1 deloc multumit 2 nu prea multumit 3 des tul de multumit 4 foarte multumit Total
Total
Frequency 2 61 250 293 18 624 624
Percent .3 9.8 40.1 47.0 2.9 100.0 100.0
Valid Percent .3 9.8 40.1 47.0 2.9 100.0
Cumulative Percent .3 10.1 50.2 97.1 100.0
a. Genul respondentului = 1 mas culin
Genul respondentului = feminin Statisticsa
Valid 674
Multumit de felul in care trãieste
N Missing 0
a. Genul respondentului = 2 feminin
a Multumit de felul in care trã ieste
Valid
Total
0 NS / NR 1 deloc multumit 2 nu prea multumit 3 des tul de multumit 4 foarte multumit Total
Frequency 2 87 295 267 23 674 674
a. Genul respondentului = 2 feminin
62
Percent .3 12.9 43.8 39.6 3.4 100.0 100.0
Valid Percent .3 12.9 43.8 39.6 3.4 100.0
Cumulative Percent .3 13.2 57.0 96.6 100.0
6.10. Ordonarea cazurilor după diverse criterii Procedura Sort cases din meniul Data permite ordonarea cazurilor din fişierul de date după diverse criterii, în ordine ascendentă sau descendentă. Dacă dorim să punem respondenţii în ordine alfabetică după judeţul de domiciliu, câmpul de sortare va fi judeţ. Dacă dorim să-i punem în ordinea descrescătoare a vârstei, câmpul de sortare va fi vârsta, dar va mai trebui să bifăm şi căsuţa Descending. Dacă dorim să-i aşezăm în ordine alfabetică după judeţul în care locuiesc şi, în acelaşi timp după vârsta pe care o au, vom avea două criterii de sortare: primul va fi variabila judeţ, iar al doilea variabila vârsta (ca în figura 6.15).
Figura 6.15. Alegerea criteriilor de sortare în caseta de dialog
63
6.11. Ponderarea cazurilor Dacă fiecare linie din baza de date reprezintă mai multe cazuri cu aceleaşi valori pentru fiecare variabilă, putem specifica acest lucru prin intermediul procedurii Weight Cases din meniul Data. Prin ponderare cazurile sunt tratate diferit. Unele sunt luate în considerare de mai multe ori, altele de mai puţine ori. Ponderarea se utilizează pentru a obţine estimaţii ale unei populaţii când unele categorii au fost sub-reprezentate în eşantion. Ponderarea se mai poate utiliza în raportări despre o populaţie pe baza unui eşantion. O situaţie frecventă în care trebuie utilizată ponderarea este atunci când dorim să introducem date în fişier nu pe baza unor cazuri individuale, ci din tabele de frecvenţe. Fiecare linie valoare posibilă a variabilei se va introduce o singură dată, apoi se va introduce frecvenţa cu care apare. După aceea urmează o declarare a câmpului cu frecvenţele ca variabilă ce serveşte pentru ponderare. De exemplu, figura 6.16 arată cum s-au atribuit valorile ratelor de fertilitate (fx) realizate de fiecare grupă de vârstă fertilă (grvr), în diverşi ani calendaristici (an), populaţiei feminine a judeţelor din România (judeţ).
Figura 6.16. Ponderarea fişierului Fertjud.sav
64
Modul 7. Întocmirea rapoartelor
Nu putem încheia seria de module SPSS fără să vedem cum se întocmesc rapoartele. Spre deosebire de procedurile de analiză statistică care urmăresc să surprindă generalul, ceea ce este comun tuturor cazurilor statistice; rapoartele furnizează mai degrabă informaţii despre cazurile individuale combinate cu informaţii rezumative la nivel de subgrupuri. Am văzut deja în modulul 3, secţiunea despre depistarea erorilor, că putem obţine o listă a cazurilor, completă sau nu, cu ajutorul comenzii Case Summaries, din meniul Statistics, Summarize (vezi figura 7.1).
Figura 7.1. Alegerea procedurilor de întocmire a rapoartelor Deşi util din multe puncte de vedere, mai ales pentru căutarea erorilor, procedura Case Summaries este restricţionară într-un anumit sens: ea nu permite controlul cazurilor afişate. Pentru a deţine un astfel de control trebuie să utilizăm una din procedurile Report Summaries in Row sau Report Summaries in Columns, ale aceluiaşi meniu (figura 7.1). În
65
definirea unui raport se utilizează două categorii de variabile: variabile de raportare şi variabile de întrerupere. Variabile de raportare Sunt variabilele care se doresc a fi listate şi pentru care se cer satisticile. Aceste variabile sunt afişate în coloane separate. Variabile de întrerupere Aceste variabile împart datele în grupe şi sunt afişate in coloanele de întrerupere din partea stângă a raportului.
7.1. Rapoarte de tip listă Rapoartele de tip listă sunt similare celor obţinute cu procedura Case Summaries. Lista cazurilor afişează valorile variabilelor sau etichetele lor, iar cazurile pot fi aşezate în altă ordine decât cea existentă în fişier.
Figura 7.2. Caseta de dialog Report Summaries in Row – raport listă
66
De exemplu, pentru a produce o listă a internărilor pacienţilor din fişierul Fracturi.sav vom trece în zona variabilelor de întrerupere Break Columns variabila după care dorim să ordonăm cazurile. Este vorba de variabila care identifică pacienţii “id”. Observăm că valorile acestui câmp se repetă, pentru că un acelaşi pacient a fost internat de mai multe ori şi fiecare internare a fost însoţită de o nouă înregistrare în baza de date. Vom dori să avem toate datele legate de un pacient grupate în raport şi nu disparate aşa cum ele apar în fişierul de date. Paranteza (A) care însoţeşte numele variabilei id(A) se referă la ordinea de sortare: dacă este (A) cazurile vor apare în ordine crescătoare a valorilor (Ascending), iar dacă este (D) cazurile vor apare în ordine descrescătoare a valorilor (Descending). În exemplul nostru pacienţii nu vor fi puşi în ordine alfabetică de la A la Z cum ar trebui să fie ordonarea crescătoare a câmpurilor de tip text, pentru că id este de fapt un câmp numeric, iar numele pacienţilor sunt doar etichetele valorilor numerice. În zona Data Columns, vom trece variabilele de raportare, adică, în exemplul nostru data internării dataint şi durata totală a spitalizării spitot. Ceea ce este esenţial în producerea unui raport de tip listă este alegerea bifarea căsuţei Display Cases din partea stângă jos a casetei de dialog. Apoi se acţionează butonul OK. Raportul obţinut este ilustrat în figura 7.3.
Figura 7.3. Raport listă în fereastra Navigatorului de rezultate
67
7.2. Rapoarte cu informaţii rezumative pe linii Informaţiile rezumative, ca de exemplu totalul general al zilelor de internare sau numărul de internări ale unui pacient, se pot obţine utilizând opţiunile oferite de butoanele din categoria Summary de pe caseta Report Summaries in Row. Observăm în figura 7.2 că există două butoane Summary: unul aparţine zonei variabilelor de întrerupere Break Columns, iar celălalt, din partea dreaptă, aparţine zonei Report valabil la nivelul întregului raport. Dacă statisticile rezumative dorim să le obţinem pentru fiecare grup de cazuri vom utiliza butonul Summary de la variabilele de întrerupere, iar dacă le dorim pentru întregul fişier vom utiliza butonul Summary general. În exemplul nostru, unde însumările vrem să le facem pentru fiecare pacient vom acţiona butonul Summary de la Break Variable, vezi figura 7.4. Pentru ca acesta să fie eligibil id(A) trebuie mai întâi selectat.
Figura 7.4. Selectarea statisticilor rezumative la nivelul variabilei de întrerupere Dintre indicatorii statistici ce pot fi calculaţi bifăm suma valorilor (Sum of values) şi numărul de cazuri (Number of cases). S-ar mai putea selecta media, minimul, maximul, procente sub / peste / între o valoare specificată, abaterea standard, varianţa, oblicitatea
68
sau ascuţimea (vezi figura 7.4). Pentru exemplul nostru aceşti ultimi indicatori nu au sens. Raportul generat va arăta ca cel din figura 7.5.
Figura 7.5. Raport combinaţie de listă cu indicatori rezumativi pe linii Observăm că la fiecare pacient au mai fost introduse două linii unul de Sum, cu suma valorilor variabilelor de raportare, şi alta cu N, un contor al numărul de valori afişate. Acesta este formatul unui raport cu informaţii rezumative pe linii. Suma datelor de internare produce un număr fără sens, iar numărul de valori pentru duratele de spitalizare este o informaţie redundantă. Dacă dorim să le eliminăm din raport o putem face cu ajutorul editorului Navigatorului de rezultate. Acest editor permite modificarea oricărui rezultat produs în fereastra Navigatorului de rezultate. Trebuie doar să facem dublu-clic în aria raportului. Apoi putem opera toate modificările în stilul unui procesor de texte. Ceea ce putem obţine este, de exemplu, un raport modificat ca cel din figura 7.6.
69
Figura 7.6. Raport modificat în fereastra Navigatorului de rezultate Butoanele Options, Format, Layout şi Titles care mai apar în caseta de dialog Report Summaries in Rows permit rafinarea formatelor de afişare în raport, alinierea coloanelor, introducerea titlurilor, a antetelor şi subsolurilor, a datei curente, schimbarea paginării etc., la nivelul variabilelor de întrerupere sau al întregului raport. Lăsăm cititorului care dispune de un calculator înzestrat cu SPSS să exploreze aceste posibilităţi.
7.3. Rapoarte cu informaţii rezumative pe coloane Procedura Report Summaries in Columns funcţionează pe baza aceloraşi principii ca şi Report Summaries in Row, cu deosebirea că informaţiile rezumative se afişează în coloane. În acest tip de raport cazurile individuale nu mai pot apărea. Toate informaţiile sunt de tip rezumativ. Raportul care se pregăteşte în figura 7.7 este unul declanşat cu comanda Report Summaries in Columns. După cum putem observa în zona Data Columns se specifică
70
numele variabilelor de raportare, dar şi tipul informaţiei rezumative corespunzătoare. Rezumatele nu se vor repeta identic pentru fiecare variabilă, ca în cazul rapoartelor rezumative pe linii, ceea ce ne scuteşte de a mai introduce o etapă suplimentară de modificări ale raportului generat. Dataint:n din zona Data Columns semnifică faptul că se cere numărarea apariţiilor valorilor în coloana dataint, cu alte cuvinte numărul de episoade de spitalizare pentru fiecare pacient; spitot:sum va calcula totalul general al zilelor de spitalizare pentru fiecare pacient, iar spitot:mean va calcula şi afişa un număr mediu de zile spitalizare la internări pentru fiecare pacient. În zona variabilelor de întrerupere avem acelaşi id(A), adică numărul de identificare al pacientului, ceea ce va genera câte o linie de informaţii rezumative ori de câte ori se schimbă numărul de identificare al pacientului, deci pentru fiecare pacient.
Figura 7.7. Generarea unui raport cu informaţii rezumative pe coloane
Raportul rezultat poate fi văzut în figura 7.8.
71
Figura 7.8. Raport cu informaţii rezumative pe coloane
72
BIBLIOGRAFIE
Babbie, Earl, 1991 – The Practice of Social Research, Wadsworth publishing Company, Belmont, California, 493 p. Bryman, Alan & Cramer, Duncan, 1992 – Quantitative data analysis for social scientists, Routledge Edition, 294 p. Mioriţa, Ilie, 1993 – dBASEB IV Sistemul de meniuri pe înţelesul tuturor, Editura Teora, Bucureşti, 216 p. Mureşan, Cornelia & colab., 1990 - Totul despre dBASE, vol. 1, Editura TDB, ClujNapoca, 320 p. Mureşan, Cornelia & colab., 1991 - Totul despre dBASE, vol. 2, Editura TDB, ClujNapoca, 200 p. Norusis, J. Marija, 1992 – SPSS for Windows. Basw System User’s Guide, SPSS Inc., 672 p. Rotariu T., Bădescu G., Culic I., Mezei E., Mureşan C., 1999 – Metode statistice aplicate în ştiinţele sociale, Editura Polirom, Iaşi, 335 p.
73