Proiect Analiza Datelor [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Schimbări demografice în țările Uniunii Europene Analiza Datelor (Proiect)

Profesor coordonator: Furtuna Titus Felix

Student: Slobodnicu Ana-Maria, 1121

2019 București

Cuprins 1. Introducere 1.1.Tema proiectului 1.2.Date de intrare 2. Analiza în componente principale 2.1. Analiza variabilității datelor 2.1.1. Analiza matricei de corelații 2.1.2. Analiza valorilor proprii. Varianța componentelor principale 2.2. Calculul corelațiilor dintre variabilele observate și componentele principale 2.3. Calculul scorurilor 3. Analiza de clusteri 3.1. Clasificarea țărilor prin metoda Ward Metrica utilizând este metrica euclidiană 3.2. Clasificarea țărilor prin legătură completă și metrică Mahalanobis 3.3. Clsificarea variabilelor 4. Bibliografie

Academia de Studii Economice, Informatică Economică

Page 2

1. Introducere 1.1.

Tema proiectului

Pentru acest proiect s-a ales ca temă schimbările demografice din tările Uniunii Europene, luând în considerare un set de șase indicatori. Indicatorii utilizați cât și prescurtările se pot găsi în tabelul 1.1. Acești indicatori sunt calculați pentru fiecare țară europeană din prezent. Cod SV RCP SN RMG RF RM

Semnificatie

Speranța de viață (2018) [ani] Raport creștere populație în anul (2017)[ ‰] Schimbări naturare (2017)[ ‰] Rata migrației (2017)[ ‰] Rata fertilității (2016) Rata mortalității (2016) [ ‰ – unități per 1000 de indivizi anual] Tabel 1.1. Indicatori de calcul

Acest studiu este abordat din două etape. Prima etapă presupune analiza în componente principale a schimbărilor demografice din țările Uniunii Europenela nivelul anului 2018. A doua etapă constă în gruparea acestor țări prin algoritmi de clusterizare ierarhică după îndicatorii descriși anterior.

1.2.Date de intrare Datele utilizate în acest studiu au fost preluate de pe Eurostat [1], [2], [3], [4] și [5] pentru fiecare țară individual. Datele de intrare se găsesc în fișierul Date.cvs atașat studiului.

Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 3

2. Analiza în componente principale 2.1.

Analiza variabilităților datelor

2.1.1. Analiza matricei de corelații O primă imagine asupra variabilității este dată de matricea de corelații dintre variabilele observate. Corelațiile puternice sunt cele care indică variabile între care există strânsă legătură, deci aduc redundanță informațională în setul de date. Aceste variabile sunt cele din care se vor construi componentele principale. În figura 2.1 este prezentată corelograma variabilelor observate. Din analiza graficului rezultă că raportul de creștere a populației, schimbările naturale și rata migrației generează cele mai mari corelații, deci aceste variabile vor contribui cel mai mult la constituirea componentelor principale.

Figura 2.1. Indicatori de calcul

Academia de Studii Economice, Informatică Economică

Page 4

2.1.2 Analiza valorilor proprii. Varianța componentelor principale Rezultatele modelului pornesc de la calculul vectorilor și valorilor proprii ale matricei de corelație. Valorile proprii reprezintă varianțele componentelor iar vectorii proprii reprezintă coeficienții legăturii liniare dintre variabilele observate și componentele principale. Conform criteriilor Cattell și Kaiser sunt semnificative primele trei componente, aspect scos în evidență de graficul distribuției varianței din figura 2.2. C0 C1 C2

Varianta 3.639444545 1.184428062 0.721547218

Varianta Cumulata 3.639444545 4.823872607 5.545419824

Procent varianta 60.65740908 19.7404677 12.02578696

Procent cumulat 60.65740908 80.39787678 92.42366374

C3 C4

0.36964309 0.084930924

5.915062914 5.999993839

6.160718167 1.415515404

98.58438191 99.99989731

C5

6.16E-06

6

0.00010269

100

Tabel 2.1. Distribuția varianței

Figura 2.2. Grafic valori proprii

Prima componentă principală este mult mai semnificativă decât celelalte două, acoperind peste 60% din variabilitate.

Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 5

2.2.

Calculul corelațiilor dintre variabilele observate și componentele principale

Aceste corelații numite și corelații factoriale (eng. factor loadings) se calculează pornind de la vectorii proprii ai matricei de corelație. Ele reprezintă coeficienții de corelație liniară dintre variabilele observate și componentele principale. Fiind calculate din vectorii proprii ele reflectă saturațiile componentelor în fiecare variabilă observată sau altfel spus, contribuția fiecărei variabile observate la constituirea unei componente principale. În tabelul 3 sunt prezentate aceste corelații pentru cele mai semnificative trei componente principale. Aceste corelații sunt importante în încercarea de a denomina componentele principale. Din corelograma din figura 2.3 și tabelul 2.2 se poate identifica ca prima componentă principală este puternic corelată cu raportul de creșter al populaței (RCP), iar următoarea componentă este în stransă legătură cu rata fertilității. Cele două componente e și normal să fie similare însă nu identice, diferențe făcându-o cei ce migreză în altă țară și aplicând pentru cetățenie.

SV RCP SN RMG RF RM

Figura 2.3. Corelații factoriale Academia de Studii Economice, Informatică Economică

C0 0.802674 0.923284 0.882738 0.808535 0.022213

C1 0.032427 -0.1885 0.3526 -0.37866 0.926841

-0.84217

-0.14525

Tabel 2.2. Corelații factoriale

Page 6

2.3.

Calculul scorurilor

Scorurile sunt proiecțiile normalizate ale tarilor în axele principale (axele componentelor principale). Proiecțiile în primele două axe sunt prezentate în figura 2.4. Tabelul scorurilor pentru componente este prezentat în tabelul 2.3. În tabel putem urmării și distribuția pe componenta 3. A se observa cum Malta s-a difențiat cel mai mult de restul țărilor Uniunii europene având cea mai mare rată de creștere a populației. Această creștere este datorată nu ratei natalițății ci a migrației. Pe de altă parte, în Franța și Irlanda, raportul de creștere a populației este determinat cu precădere de rata natalității. A se vedea figura 2.5 pentru corelațiile componentelor principale. Figura 2.4. Plot scoruri

Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 7

C0

C2

C3

C4

C5

Austria

1.470482

-0.01021

-0.99377

0.203084

-0.71708

Belgium

0.518185

0.566134

0.392996

-0.37003

0.292351

Bulgaria

-3.33251

-0.77563

1.016262

-0.19831

-0.21313

Croatia

-2.81766

-0.53224

-0.84659

0.170152

0.151298

Cyprus Czech Republic

2.210095

-0.64595

-0.92224

1.500098

0.019106

-0.00703

0.39073

0.202918

0.275302

0.052725

Denmark

0.717843

1.22698

0.501363

-0.32445

0.080896

Estonia

-1.25989

-0.25101

1.394468

-0.02549

0.675843

Finland

0.015306

0.027237

-0.21223

-0.38547

0.09083

France

1.161775

2.3036

-0.10104

-0.64595

-0.05256

Germany

-0.03351

-0.21217

0.424552

-0.75648

-0.09959

Greece

-0.88072

-1.09903

-0.81434

-0.61956

-0.04689

Hungary

-1.96767

-0.63357

0.806956

0.202658

-0.09261

Ireland

2.86523

2.049361

-0.39611

0.832292

0.121693

Italy

-0.26981

-1.26611

-1.31941

-0.94875

-0.18986

Latvia

-3.15691

0.712798

1.146324

0.331444

-0.11647

Lithuania

-3.16998

1.002466

-0.29422

0.555953

-0.45035

Luxembour g

2.897314

-1.18749

0.37504

0.372864

0.251731

Malta

4.187417

-2.60629

2.132394

0.043595

-0.4059

Netherlands

0.810619

0.877534

-0.75138

-0.14894

-0.17593

Poland

-0.53733

-0.69895

-0.52319

0.797954

0.421606

Portugal

-0.52742

-1.08923

-0.99829

-0.73612

0.257032

Romania

-2.36032

0.280355

0.503872

0.570419

-0.39211

Slovakia

-0.31216

-0.18243

-0.25373

1.201644

0.177258

Slovenia

-0.24597

0.194225

-0.19432

-0.46831

0.484432

Spain

0.736567

-1.09951

-1.30972

-0.39771

-0.00566

Sweden United Kingdom

2.041399

1.293207

0.868829

-0.71068

-0.14554

1.246657

1.365187

0.164615

-0.32121

0.026886

Austria

1.470482

-0.01021

-0.99377

0.203084

-0.71708

Academia de Studii Economice, Informatică Economică

Page 8

Slobodnicu Ana-Maria, Proiect Analiza Datelor Page 9 Figura 2.4. Plot scoruri componente principale

3. Analiza de clusteri Vom efectua două clasificări ale instanțelor, prin metoda Ward și prin legătură completă și o clasificare a indicatorilor prin legătură completă.

3.1.

Clasificarea țărilor prin metoda Ward Metrica utilizând metrica euclidiană

Mai întâi vom determina și analiza partiția optimală, apoi o partiție aleasă după examinarea graficului dendrogramă. Graficul dendrogramă este prezentat în figura 3.1, iar componența clusterelor în tabelul 3.1. În anexa 1 sunt sunt prezentate câteva distribuții care scot în evidență diferențe clare între cele patru clustere ale partiției optimale. După cum se poate observa partiția optimală conține patru clustere. Analiza clusterelor se face urmărind distribuția fiecărui indicator pentru fiecare cluster. În acest fel se identifică particularitățile și diferențele dintre clustere. Conform dendogramelor Malta este singura țară din UE ce are o rată atât de mare de creștere a populației atât prin absorbția imigranților cât și prin echilibrarea ratelor de decese și cea a fertilității. Prin contrast cu clusterul C0, în clusterul C1 sunt țările ale căror raport dintre RM (rata mortalității) și RF (rata fertilității) este foarte mare, iar rata de creștere a populației este negativă. Figura 3.1. Partiția Țări optimală

Cluster C0

Malta

C1

Bulgaria, Croația, Latvia, Lithuania, Romania,

C2

Cyprus, Ireland, Luxembourg, Sweden, Belgium, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece, Hungary, Italy, Netherlands, Poland, Portugal, Slovakia, Slovenia, Spain, United Kingdom, Austria

C3

Tabel 3.1. Partiția optimală 3.1. Partiția optimală. Dendrogramă Academia de Studii Economice,Figura Informatică Economică

Page 10

Clasificarea în metrică mahalanobis furnizează clustere coerente cu varianță intra-cluster mică și varianță inter-clustere mare. În figura 3.2 este prezentat graficul dendrogramă cu evidențierea partiției optimale. Se observă existența multor clustere singleton (formate dintr-o singură instanță). Distanțele de joncționare sunt destul de apropiate între ele, prin urmare partițiile sunt uniform repartizate în graficul ierarhie. În tabelelul 3.2 sunt prezentate clusterele pentru partiția optimală, iar in 3.3. prin comparație, gruparea pe 5 clustere.

Tabel 3.2. Partiția optimală

Cluster C0 C1 C2

Țări Malta Austria, Belgium, Denmark, Finland, France, Finland, France, Germany, Greece, Italy, Luxembourg, Netherlands, Portugal, Slovenia, Spain, Sweden, United Kingdom Bulgaria, Croatia, Cyprus, Czech Republic, Estonia, Hungary, Ireland, Latvia, Lithuania, Poland, Romania, Slovakia,

Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 11

Tabel 3.2. Partiția optimală

Țara Austria Belgium Bulgaria Croatia Cyprus Czech Republic Denmark Estonia Finland France Germany Greece Hungary Ireland Italy Latvia Lithuania Luxembourg Malta Netherlands Poland Portugal Romania Slovakia Slovenia Spain Sweden United Kingdom Austria

g1 g1 g2 g2 g2

Partiția optimă

g1 g3 g2 g2 g4

g2 g1 g2 g1 g1 g1 g1 g2 g2 g1 g2 g2 g1 g0 g1 g2 g1 g2 g2 g1 g1 g1

g4 g3 g2 g3 g3 g3 g3 g2 g4 g1 g2 g4 g3 g0 g3 g2 g3 g4 g2 g3 g3 g3

g1 g1

g3 g1

Partiția cu 5 clustere

Tabel 3.3. Partiții

3.3.

Clsificarea variabilelor

Deși se utilizează în general pentru clasificare de instanțe, analiza de clusteri poate fi utilizată și pentru grupare de variabile dacă sunt alese metrici potrivite. Pachetul Python scipy are Academia de Studii Economice, Informatică Economică

Page 12

implementate metrici pentru variabile, cum ar fi distanța bazată pe coeficienții de corelație. În figura 3.3 este prezentat graficul dendrogramă cu evidențierea partiției optimale. Metoda de grupare este prin media legăturilor.

4. B I B L I O G RFigura A F I3.3. E Gruparea variabilelor prin media legăturilor [1]https://ec.europa.eu/eurostat/tgm/table.do? tab=table&language=en&pcode=tps00001&tableSelection=1&footnotes=yes&labeling=labels&plugin=1 [2] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1 [3]https://ec.europa.eu/eurostat/tgm/refreshTableAction.do?tab=table&plugin=1&pcode=tps00019&language=en [4] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00019&plugin=1 [5] https://ec.europa.eu/eurostat/tgm/table.do?tab=table&init=1&language=en&pcode=tps00199&plugin=1 [6] R Black, G Engbersen, M Okólski , “A continent moving west?: EU enlargement and labor migration from Central and Eastern Europe”, 2010

Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 13

ANEXĂ 1

Figura A.1.1. Partiția optimală. Histograma raportului de creștere al populației

Academia de Studii Economice, Informatică Economică

Page 14

Figura A.1.2. Partiția optimală. Histograma ratei migrației

Figura A.1.2. Partiția optimală. Histograma raportului dintre rata mortalității și cea a fertilității

Slobodnicu Ana-Maria, Proiect Analiza DatelorPage 15