35 0 1MB
INTRODUCERE În prezenta analiză am ales ca subiect de dezbatere "învățământul de la nivelul liceal" fiind selectate următoarele variabile: numerul de licee din fiecare județ al României, numărul de cadre didactice de la nivelul învățământului liceal, numărul elevilor înscriși în învățământul liceal, numărul celor care au absolvit examenul de bacalaureat și cititorii activi la bibilioteci. Întrucât învățământul de la nivel liceal, precum și celelalte nivele ale învățământului, reprezintă cheia de baza pentru următoarea etapă în învățământ și în carieră dorită, astfel că, am găsit interesantă analiză prin vizualizarea datelor alese. Pentru această analiză folosim că software-uri: Geoda, GeodaSpace. Vor fi analizate datele sub diferite forme de repezentare, în principal folosind programul Geoda. Analiza este realizată pentru anul 2016.
In analiză dorim să atingem următoarele obiective: 1. Descrierea variabilelor alese in analiză; 2. Importarea variabilelor in programul GeoDa si realizarea pasului de “merge” între fișierul “Judete.shp” si fișierul “date judet.xls”; 3. Generarea analizei spațiale exploratorie pentru 2 dintre variabilele utilizate in analize; 4. Construirea a 2 matrici de ponderi spațiale si analiza prezenței autocorelației spațiale pentru toate variabilele; 5. Utilizarea variabilelor pentru a construi modele de regresie spațială de tip: OLS, Spatial Lag sau Spatial Error; 6. Prezentarea modelelor, compararea acestora si alegerea celui mai bun dintre acestea; 7. Comentarea rezultatelor.
1. Descrierea variabilelor alese in analiză
Variabila "licee" reprezintă numărul de unități din cadrul învățământului liceal din fiecare județ, considerându-se anul 2016 că și an de analiză;
Variabila "profesori" reprezintă numărul profesorilor care predau în cadrul învățământului liceal în fiecare județ în anul 2016;
Variabila "nr_inscrisi" reprezintă numărul elevilor înscriși în ciclul liceal de învățământ în anul 2016;
Variabila "abs_bac" reprezintă numărul absolvenților al examenului de bacalaureat în anul 2016 pentru fiecare județ;
Cu ajutorul variabilei "cititori activi la biblioteci" este contorizat numărul citiorilor activi din fiecare județ pentru anul 2016.
Toate aceste date sunt culese de pe site-ul INSSE TEMPO al Institutului Național de Statistică. Calea către acest site este următoare "http://statistici.insse.ro/shop/".
2. Importarea variabilelor Pentru importarea datelor a fost nevoie în primul pas să fie importat fișierul de tip "shp" pentru coordonatele geografice pentru fiecare județ, iar în pasul al doilea am folosit funcția "merge" pentru a importa datele pentru analiză din fișierul Excel "date județ.xls".
Fig.1
Tabelul cu datele rezultat in urma importării:
Fig.2
3. Analiza spatială exploratorie In această etapă vom folosi datele mai sus importate pentru analiza si vom realiza urmatoarele hărți:
unique values map - pentru o mai buna evidențiere a împărțirii teritoriului in Regiuni
histograma - reprezentare grafică a frecvenţei de apariţie a unui anumit parametru într-o populaţie/grup
natural breaks map - selectarea unui număr de grupe cu scopul de a maximiza omogenitatea in interiorul acestora – se evita intervalele cu frecventa nula
box-plot - ofera o grupa pe cuartile a valorilor pentru cei 2 indicatori, însă se vor exclude valorile extreme
quantile_map - distrubuie variabila selectate în 2 până la 10 grupe cu număr (aproximativ) egal de termeni (de unități teritoriale).
standard-deviation_map - este o grupare după distanța față de medie
cartograma - este o hartă în care unitățile teritoriale inițiale se înlocuiesc cu cercuri plasate astfel încât modelul geografic este imitat pe cât posibil din punct de vedere al locației și vecinilor
Am realizat si 2 grafice pentru cele două variabile:
scatter plot - pentru variabilele "licee" si "inscriși" - va indica legătura dintre doua variabile – fie negativa, fie pozitiva, fie inexistenta
scatter plot matrix - pentru variabilele "inscriși", "profesori" si "licee" - toate permutarile posibile pentru legăturile dintre 3 variabile incluse in analiza; In prima etapa a analizei dorim sa imparțim, pentru o vizualizare mai buna, județele țării
in regiuni pentru o organizare si vizualizare mai bună.
Fig.1 Realizare proprie cu ajutorul programului Geoda
Histograma Histograma este o reprezentare grafică a frecvenţei de apariţie a unui anumit parametru într-o populaţie/grup. Intervalele parametrului,ordonate crescător, sunt reprezentate în abscisă iar în ordonată este reprezentată frecvenţa de apariţie. Histograma este o imagine a distribuţiei valorilor unui anumit parametru. Histograma împarte valorile parametrului în intervale de mărime egală şi reprezintă frecvenţele de apariţie (fracţie, procent) ale valorilor măsurate, grupate corespunzător intervalelor. Prin această vizualizare dorim sa reprezentăm numărul liceelor in paralel cu numărul cadrelor didactice de la nivelul invăţămantului liceal.
Fig.2 Histograma cadre didactice Sursa datelor: INSSE TEMPO
Natural breaks map
Fig.3 Vizualizare pe judete a 6 intervale a numarului cadrelor didactice pentru fiecare judet Sursa datelor: INSSE TEMPO
Din Fig.3 se poate observa faptul că nu avem valori outlieri, iar valorile, am ales să fie împărțite în 6 inervale inegale alese pe baza unui algoritm special care alege limitele intervalelor de variație astfel încât să maximizeze omogenitatea în interiorul grupelor.
Intervalele de variație inegale oferă o imagine mai clară a distribuției variabilei în spațiu. Cele mai multe cadre didactice la nivelul învățământului liceal se află în județele: Iași, Cluj și Municipiul București, după cum se poate observă în fig.3.
Fig.4 Histograma unitati invatamant Sursa datelor: INSSE TEMPO
Fig.5 Vizualizare pe judete a 6 intervale a numarului unitatilor de invatamant(liceal) pentru fiecare judet Sursa datelor: INSSE TEMPO
Intervalele de variație inegale oferă o imagine mai clară a distribuției variabilei în spațiu.
Map - Natural breaks map – selectarea variabilei profesori și ulterior licee și a nr. de grupe 6. Un algoritm special alege limitele intervalelor de variație astfel încât să maximizeze omogenitatea în interiorul grupelor. Se poate observa din fig.5 faptul că cele mai multe unități de învățământ liceal se afla în județele: Cluj, Constanța și municipiul București. Deși cei mai mulți profesori de la nivelul învățământului liceal se alfa în județele Cluj, Iași și municipiul București, astfel că în Constanța se alfa mai multe unități de învățământ decât în județul Iași, totuși sunt mai multe cadre didactice în județul Iași decât în județul Constanța. BOX-PLOT
Box plot este un tip de grafic care arată distribuția pe cuartile a unei variabile și permite identificarea outlierilor. După cum se poate observa în figurile 5, 6, 8, ca și valoare outlier pentru variabilele: licee, profesori și absolvenți bac este municipiul București, cât pentru variabila numărului celor înscriși în învățământul liceal, ca și valori outlieri este județul Timiș și municipiul București.
QUANTILE-MAP Quantile-map sau gruparea pe cuantile distrubuie variabila selectate în 2 până la 10 grupe cu număr (aproximativ) egal de termeni (de unități teritoriale). Pentru această grupa am ales ca variabilă pentru vizualizare: cadre didactice din învățământul liceal.
Fig.11 Quantile-map pentru variabila cadre didactice Sursa date: INSSE TEMPO
Pentru această vizualizare am ales ca număr de grupe 7 deoarece 42 numărul de județe nu se împarte în mod egal la 5 și se poate observa că fiecare grupa cuprinde un număr de 6 județe fiacare.
STANDARD DEVIATION - MAP Deviația standard indică cât de mult sunt distribuite estimările de capacitate pentru un grup. Totodată, deviația standard este și un indicator al performanței entităților din grup. Un grup cu o deviație standard mai mică va fi mai grupat decât un grup cu o abatere standard mai mare.
Standard deviation map este o grupare după distanța față de medie. Grupele formate reprezintă 1, 2 și respectiv 3 abateri standard sub media variabilei (bleu-albastru) și 1, 2, 3 abateri standard peste medie (roz-roșu). Outlierii sunt la peste 2 abateri standard de medie, în cazul nostru se află județul Timiș urmând municipiul București. Media celor înscriși o reprezintă 20051,762, iar valoare outlier-ului este 83958,166.
CARTOGRAMA Este o hartă în care unitățile teritoriale inițiale se înlocuiesc cu cercuri plasate astfel încât modelul geografic este imitat pe cât posibil din punct de vedere al locației și vecinilor.
Aria cercurilor este proporțională cu mărimea variabile pe care o selectăm, în cazul nostru numărul celor înscriși în învățământul liceal, iar culoarea indică valorile variabilei secundare alese, în cazul nostru am ales numărul celor care au absolvit examenul de bacalaureat.
Se poate vizualiza în această figura, fig.17, faptul că cei mai mulți înscriși în învățământul liceal au fost în județul Timiș, în anul 2016, fiind urmat de municipiul București, iar numărul celor care au absolvit, că valoare outlier o găsim în municipiul București. SCATTER-PLOT Prin acest grafic se dorește vizualizarea legăturii dintre două variabile. Astfel că dorim să vedem dacă există legătură între variaila: numărul cadrelor didactice din învățământul liceal și numărul unităților de învățământ liceal. Luăm în considerare că variabilă independenta: numărul
unităților de învățământ, iar ca variabila dependentă numărul cadrelor didactice.
După cum se poate observa în fig.18, între variabila licee și variabila profesori există o legătură directă, astfel că dacă numărul liceelor crește, automat și numărul profesorilor trebuie să crească. Pentru fig.19 a fost selectat un grup de județe cu mai puțin de 40 de licee. Pentru grupul selectat (roșu), pentru restul județelor (albastru) și pentru toate județele (indigo). Sub grafic: coeficienții și testele pentru cele 3 modele. Testul Chow verifică dacă diferențele dintre grupuri sunt semnificative. P-value = 0.0200 < 0.05 => nu respingem ipoteza alternativă (H1: sunt diferențe semnificative între observațiile selectate și restul). H0: nu sunt diferențe semnificative între observațiile selectate și restul H1: sunt diferențe semnificative între observațiile selectate și restul SCATTER PLOT MATRIX Cu ajutorul acestui scatter plot matrix dorim sa analizam legatura dintre mai multe variabile.
Fig.20 Scatter-plot matrix Sursa date: INSSE TEMPO
Din figura 20 putem observa faptul că avem legături directe doar între variabilele: liceeprofesori, înscriși-profesori, înscriși-licee. 3. Matrici de ponderi spațiale Ponderile spațiale – definesc interacțiunea fiecărei unități teritoriale cu vecinii ei; numărul maxim de interacțiuni posibile între n regiuni = n(n-1)/2. Deoarece modelul de regresie nu poate estima toate aceste relații spațiale, introducem o anumită structură în analiză legăturilor: doar ”vecinii” interacționează (restrângem numărul de vecini pentru a simplifică estimarea). Matricea ponderilor spațiale W descrie structura spațială din perspectiva unităţilor teritoriale vecine pentru fiecare observaţie i. În prima etapă creăm matricea de ponderi spațiale de tip Queen.
Fig.21 Matricea ponderilor spatiale de tip Queen Sursa date: INSSE TEMPO
Am creat și o matrice de pondeti spațiale de tip K Nearest-Neighbours cu număr fix de vecini pentru fiecare județ.
Fig.22 Matricea de ponderi spatiale KNN Sursa date: INSSE TEMPO
4. Analiză asupra prezenței autocorelației spațiale pentru toate variabilele
Numărul unităților de invățămant liceal
Fig.23
Fig.24
Fig.25
Din aceste output-uri rezultă că Indicele Moran pentru variabila licee este de: -0.104 => autocorelație negativă redusă.
In urma aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-value” = 0.050.05. Se va acceptă ipoteza H0 – NU există autocorelație spațiala semnificativă din punct de vedere statistic.
În urmă aplicării „Randomization” cu 499 de permutări a rezultat un „pseudo p-value” = 0.094 autocorelație negativă redusă, extrem de redusă – sau chiar absența acesteia. În urmă aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo pvalue” = 0.48>0.05. Se va acceptă ipoteza H0 – NU există autocorelație spațiala semnificativă din punct de vedere statistic.
Numarul absolventilor examenului de bacalaureat
Fig.31
Fig.32
Fig.33
Din aceste output-uri rezultă că Indicele Moran pentru absolventii examenului de bacalaureat este de: -0.07 => autocorelație negativă redusă, extrem de redusă – sau chiar absența acesteia.
În urma aplicării „Randomization” cu 999 de permutări a rezultat un „pseudo p-value” = 0.02 nu exista dependenta spatiala deoarece Indicele Moran = 0.33>0.05 si nici un tip de model spațial nu este validat (prob LM > 0.05) => probleme de specificare a modelului.
2. Modelul clasic de regresie (OLS) – Iterația 2 Din a doua iteratie a modelului am scos variabila nesemnificativa "licee".
Fig.36
Fig.37
Noul model OLS este validat de testele statistice standard: R2= 0.94 mare, prob F = 3.6*10-240.05). Interpretarea economica a rezultatelor Numărul de absolvenți al examenului de bacalaureat la nivel de județ depinde de variabilele explicative inscrisi, cititori, profesori. Variabila numerul de licee nu influențează in niciun fel numărul absolvenților de bacalaureat.
CONCLUZII
Această analiză a fost conturată încă de la început cu scopul acesteia, fiind prezentate cele 5 variabile care urmau a fi luate în analiză și valori pe care aceste varibile le vor lua pe parcursul analizei. Au fost realizate unique value map, histograma, natural breaks map, box-plot, quantile map, cartogramă, scatter-plot. În urma realizării acestor hărți s-a observat că județele Iași, Cluj, București au cel mai mare număr de cadre didactice, în Constanța se alfa mai multe unități de învățământ decât în județul Iași, totuși sunt mai multe cadre didactice în județul Iași decât în județul Constanța. În cazul standard deviation-map outlierii sunt la peste 2 abateri standard de medie, în cazul nostru se află județul Timiș urmând municipiul București. Media celor înscriși o reprezintă 20051,762, iar valoare outlier-ului este 83958,166, cei mai mulți înscriși în învățământul liceal au fost în județul Timiș, în anul 2016, fiind urmat de municipiul București, iar numărul celor care au absolvit, că valoare outlier o găsim în municipiul București. Au fost generate 2 matrici de ponderi spațiale: una de tip Queen și una de tip K NearestNeighbours (cu un număr fix de 6 vecini per județ). S-a observat că in cazul numărului absolvenților al examenului de bacalaureat există autocorelatie semnificativă din punct de vedere statistic, iar în cazul celorlalte 3 variabile număr
cadre didactice, număr licee, numer înscriși este autocorelatie spațială doar pentru 499 de permutări cu un nivel de încredere de 90%. Am generat un model inițial de regresie spațială (OLS) care conținea un coeficient nesemnificativ, numărul de licee, variabilă care a fost eliminată din model, iar modelul a fost generat în o două iterație (ambele au fost valide din punct de vedere statistic), iar Indicele Moran > 0.05 ceea ce înseamnă că modelul de regresie liniară clasic este cel mai bun pentru situația noastră.