48 0 605KB
Schimbări demografice în țările Uniunii Europene Analiza Datelor (Proiect)
Profesor coordonator: Furtuna Titus Felix
Student: Slobodnicu Ana-Maria, 1121
2019 București
Cuprins 1. Introducere 1.1.Tema proiectului 1.2.Date de intrare 2. Analiza în componente principale 2.1. Analiza variabilității datelor 2.1.1. Analiza matricei de corelații 2.1.2. Analiza valorilor proprii. Varianța componentelor principale 2.2. Calculul corelațiilor dintre variabilele observate și componentele principale 2.3. Calculul scorurilor 3. Analiza de clusteri 3.1. Clasificarea țărilor prin metoda Ward Metrica utilizând este metrica euclidiană 3.2. Clasificarea țărilor prin legătură completă și metrică Mahalanobis 3.3. Clsificarea variabilelor 4. Bibliografie
Academia de Studii Economice, Informatică Economică
Page 2
1. Introducere 1.1.
Tema proiectului
Pentru acest proiect s-a ales ca temă schimbările demografice din tările Uniunii Europene, luând în considerare un set de șase indicatori. Indicatorii utilizați cât și prescurtările se pot găsi în tabelul 1.1. Acești indicatori sunt calculați pentru fiecare țară europeană din prezent. Cod SV RCP SN RMG RF RM
Semnificatie
Speranța de viață (2018) [ani] Raport creștere populație în anul (2017)[ ‰] Schimbări naturare (2017)[ ‰] Rata migrației (2017)[ ‰] Rata fertilității (2016) Rata mortalității (2016) [ ‰ – unități per 1000 de indivizi anual] Tabel 1.1. Indicatori de calcul
Acest studiu este abordat din două etape. Prima etapă presupune analiza în componente principale a schimbărilor demografice din țările Uniunii Europenela nivelul anului 2018. A doua etapă constă în gruparea acestor țări prin algoritmi de clusterizare ierarhică după îndicatorii descriși anterior.
1.2.Date de intrare Datele utilizate în acest studiu au fost preluate de pe Eurostat [1], [2], [3], [4] și [5] pentru fiecare țară individual. Datele de intrare se găsesc în fișierul Date.cvs atașat studiului.
Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 3
2. Analiza în componente principale 2.1.
Analiza variabilităților datelor
2.1.1. Analiza matricei de corelații O primă imagine asupra variabilității este dată de matricea de corelații dintre variabilele observate. Corelațiile puternice sunt cele care indică variabile între care există strânsă legătură, deci aduc redundanță informațională în setul de date. Aceste variabile sunt cele din care se vor construi componentele principale. În figura 2.1 este prezentată corelograma variabilelor observate. Din analiza graficului rezultă că raportul de creștere a populației, schimbările naturale și rata migrației generează cele mai mari corelații, deci aceste variabile vor contribui cel mai mult la constituirea componentelor principale.
Figura 2.1. Indicatori de calcul
Academia de Studii Economice, Informatică Economică
Page 4
2.1.2 Analiza valorilor proprii. Varianța componentelor principale Rezultatele modelului pornesc de la calculul vectorilor și valorilor proprii ale matricei de corelație. Valorile proprii reprezintă varianțele componentelor iar vectorii proprii reprezintă coeficienții legăturii liniare dintre variabilele observate și componentele principale. Conform criteriilor Cattell și Kaiser sunt semnificative primele trei componente, aspect scos în evidență de graficul distribuției varianței din figura 2.2. C0 C1 C2
Varianta 3.639444545 1.184428062 0.721547218
Varianta Cumulata 3.639444545 4.823872607 5.545419824
Procent varianta 60.65740908 19.7404677 12.02578696
Procent cumulat 60.65740908 80.39787678 92.42366374
C3 C4
0.36964309 0.084930924
5.915062914 5.999993839
6.160718167 1.415515404
98.58438191 99.99989731
C5
6.16E-06
6
0.00010269
100
Tabel 2.1. Distribuția varianței
Figura 2.2. Grafic valori proprii
Prima componentă principală este mult mai semnificativă decât celelalte două, acoperind peste 60% din variabilitate.
Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 5
2.2.
Calculul corelațiilor dintre variabilele observate și componentele principale
Aceste corelații numite și corelații factoriale (eng. factor loadings) se calculează pornind de la vectorii proprii ai matricei de corelație. Ele reprezintă coeficienții de corelație liniară dintre variabilele observate și componentele principale. Fiind calculate din vectorii proprii ele reflectă saturațiile componentelor în fiecare variabilă observată sau altfel spus, contribuția fiecărei variabile observate la constituirea unei componente principale. În tabelul 3 sunt prezentate aceste corelații pentru cele mai semnificative trei componente principale. Aceste corelații sunt importante în încercarea de a denomina componentele principale. Din corelograma din figura 2.3 și tabelul 2.2 se poate identifica ca prima componentă principală este puternic corelată cu raportul de creșter al populaței (RCP), iar următoarea componentă este în stransă legătură cu rata fertilității. Cele două componente e și normal să fie similare însă nu identice, diferențe făcându-o cei ce migreză în altă țară și aplicând pentru cetățenie.
SV RCP SN RMG RF RM
Figura 2.3. Corelații factoriale Academia de Studii Economice, Informatică Economică
C0 0.802674 0.923284 0.882738 0.808535 0.022213
C1 0.032427 -0.1885 0.3526 -0.37866 0.926841
-0.84217
-0.14525
Tabel 2.2. Corelații factoriale
Page 6
2.3.
Calculul scorurilor
Scorurile sunt proiecțiile normalizate ale tarilor în axele principale (axele componentelor principale). Proiecțiile în primele două axe sunt prezentate în figura 2.4. Tabelul scorurilor pentru componente este prezentat în tabelul 2.3. În tabel putem urmării și distribuția pe componenta 3. A se observa cum Malta s-a difențiat cel mai mult de restul țărilor Uniunii europene având cea mai mare rată de creștere a populației. Această creștere este datorată nu ratei natalițății ci a migrației. Pe de altă parte, în Franța și Irlanda, raportul de creștere a populației este determinat cu precădere de rata natalității. A se vedea figura 2.5 pentru corelațiile componentelor principale. Figura 2.4. Plot scoruri
Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 7
C0
C2
C3
C4
C5
Austria
1.470482
-0.01021
-0.99377
0.203084
-0.71708
Belgium
0.518185
0.566134
0.392996
-0.37003
0.292351
Bulgaria
-3.33251
-0.77563
1.016262
-0.19831
-0.21313
Croatia
-2.81766
-0.53224
-0.84659
0.170152
0.151298
Cyprus Czech Republic
2.210095
-0.64595
-0.92224
1.500098
0.019106
-0.00703
0.39073
0.202918
0.275302
0.052725
Denmark
0.717843
1.22698
0.501363
-0.32445
0.080896
Estonia
-1.25989
-0.25101
1.394468
-0.02549
0.675843
Finland
0.015306
0.027237
-0.21223
-0.38547
0.09083
France
1.161775
2.3036
-0.10104
-0.64595
-0.05256
Germany
-0.03351
-0.21217
0.424552
-0.75648
-0.09959
Greece
-0.88072
-1.09903
-0.81434
-0.61956
-0.04689
Hungary
-1.96767
-0.63357
0.806956
0.202658
-0.09261
Ireland
2.86523
2.049361
-0.39611
0.832292
0.121693
Italy
-0.26981
-1.26611
-1.31941
-0.94875
-0.18986
Latvia
-3.15691
0.712798
1.146324
0.331444
-0.11647
Lithuania
-3.16998
1.002466
-0.29422
0.555953
-0.45035
Luxembour g
2.897314
-1.18749
0.37504
0.372864
0.251731
Malta
4.187417
-2.60629
2.132394
0.043595
-0.4059
Netherlands
0.810619
0.877534
-0.75138
-0.14894
-0.17593
Poland
-0.53733
-0.69895
-0.52319
0.797954
0.421606
Portugal
-0.52742
-1.08923
-0.99829
-0.73612
0.257032
Romania
-2.36032
0.280355
0.503872
0.570419
-0.39211
Slovakia
-0.31216
-0.18243
-0.25373
1.201644
0.177258
Slovenia
-0.24597
0.194225
-0.19432
-0.46831
0.484432
Spain
0.736567
-1.09951
-1.30972
-0.39771
-0.00566
Sweden United Kingdom
2.041399
1.293207
0.868829
-0.71068
-0.14554
1.246657
1.365187
0.164615
-0.32121
0.026886
Austria
1.470482
-0.01021
-0.99377
0.203084
-0.71708
Academia de Studii Economice, Informatică Economică
Page 8
Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 9 Figura 2.4. Plot scoruri componente principale
3. Analiza de clusteri Vom efectua două clasificări ale instanțelor, prin metoda Ward și prin legătură completă și o clasificare a indicatorilor prin legătură completă.
3.1.
Clasificarea țărilor prin metoda Ward Metrica utilizând metrica euclidiană
Mai întâi vom determina și analiza partiția optimală, apoi o partiție aleasă după examinarea graficului dendrogramă. Graficul dendrogramă este prezentat în figura 3.1, iar componența clusterelor în tabelul 3.1. În anexa 1 sunt sunt prezentate câteva distribuții care scot în evidență diferențe clare între cele patru clustere ale partiției optimale. După cum se poate observa partiția optimală conține patru clustere. Analiza clusterelor se face urmărind distribuția fiecărui indicator pentru fiecare cluster. În acest fel se identifică particularitățile și diferențele dintre clustere. Conform dendogramelor Malta este singura țară din UE ce are o rată atât de mare de creștere a populației atât prin absorbția imigranților cât și prin echilibrarea ratelor de decese și cea a fertilității. Prin contrast cu clusterul C0, în clusterul C1 sunt țările ale căror raport dintre RM (rata mortalității) și RF (rata fertilității) este foarte mare, iar rata de creștere a populației este negativă. Figura 3.1. Partiția Țări optimală
Cluster C0
Malta
C1
Bulgaria, Croația, Latvia, Lithuania, Romania,
C2
Cyprus, Ireland, Luxembourg, Sweden, Belgium, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece, Hungary, Italy, Netherlands, Poland, Portugal, Slovakia, Slovenia, Spain, United Kingdom, Austria
C3
Tabel 3.1. Partiția optimală 3.1. Partiția optimală. Dendrogramă Academia de Studii Economice,Figura Informatică Economică
Page 10
Clasificarea în metrică mahalanobis furnizează clustere coerente cu varianță intra-cluster mică și varianță inter-clustere mare. În figura 3.2 este prezentat graficul dendrogramă cu evidențierea partiției optimale. Se observă existența multor clustere singleton (formate dintr-o singură instanță). Distanțele de joncționare sunt destul de apropiate între ele, prin urmare partițiile sunt uniform repartizate în graficul ierarhie. În tabelelul 3.2 sunt prezentate clusterele pentru partiția optimală, iar in 3.3. prin comparație, gruparea pe 5 clustere.
Tabel 3.2. Partiția optimală
Cluster C0 C1 C2
Țări Malta Austria, Belgium, Denmark, Finland, France, Finland, France, Germany, Greece, Italy, Luxembourg, Netherlands, Portugal, Slovenia, Spain, Sweden, United Kingdom Bulgaria, Croatia, Cyprus, Czech Republic, Estonia, Hungary, Ireland, Latvia, Lithuania, Poland, Romania, Slovakia,
Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 11
Tabel 3.2. Partiția optimală
Țara Austria Belgium Bulgaria Croatia Cyprus Czech Republic Denmark Estonia Finland France Germany Greece Hungary Ireland Italy Latvia Lithuania Luxembourg Malta Netherlands Poland Portugal Romania Slovakia Slovenia Spain Sweden United Kingdom Austria
g1 g1 g2 g2 g2
Partiția optimă
g1 g3 g2 g2 g4
g2 g1 g2 g1 g1 g1 g1 g2 g2 g1 g2 g2 g1 g0 g1 g2 g1 g2 g2 g1 g1 g1
g4 g3 g2 g3 g3 g3 g3 g2 g4 g1 g2 g4 g3 g0 g3 g2 g3 g4 g2 g3 g3 g3
g1 g1
g3 g1
Partiția cu 5 clustere
Tabel 3.3. Partiții
3.3.
Clsificarea variabilelor
Deși se utilizează în general pentru clasificare de instanțe, analiza de clusteri poate fi utilizată și pentru grupare de variabile dacă sunt alese metrici potrivite. Pachetul Python scipy are Academia de Studii Economice, Informatică Economică
Page 12
implementate metrici pentru variabile, cum ar fi distanța bazată pe coeficienții de corelație. În figura 3.3 este prezentat graficul dendrogramă cu evidențierea partiției optimale. Metoda de grupare este prin media legăturilor.
4. B I B L I O G RFigura A F I3.3. E Gruparea variabilelor prin media legăturilor [1]https://ec.europa.eu/eurostat/tgm/table.do? tab=table&language=en&pcode=tps00001&tableSelection=1&footnotes=yes&labeling=labels&plugin=1 [2] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1 [3]https://ec.europa.eu/eurostat/tgm/refreshTableAction.do?tab=table&plugin=1&pcode=tps00019&language=en [4] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1 [5] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00199&plugin=1 [6] R Black, G Engbersen, M Okólski , “A continent moving west?: EU enlargement and labor migration from Central and Eastern Europe”, 2010
Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 13
ANEXĂ 1
Figura A.1.1. Partiția optimală. Histograma raportului de creștere al populației
Academia de Studii Economice, Informatică Economică
Page 14
Figura A.1.2. Partiția optimală. Histograma ratei migrației
Figura A.1.2. Partiția optimală. Histograma raportului dintre rata mortalității și cea a fertilității
Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 15