Tecniche di analisi per la ricerca comparata trans-nazionale 9788856837162 [PDF]

136 6 2MB

Italian Pages 162 Year 2011

Table of contents :
Indice......Page 8
Premessa......Page 10
1.1. Un incontro controverso......Page 14
1.2. La political economy comparata......Page 21
1.3. Lo sviluppo del welfare state......Page 24
1.4. I passi della ricerca......Page 27
2. La raccolta dei dati......Page 36
2.1. Le fonti di ambito planetario......Page 37
2.2. Le fonti per i paesi sviluppati......Page 40
3.1. La matrice dei dati nella prospettiva trasversale......Page 46
3.2. La matrice dei dati nella prospettiva longitudinale......Page 48
3.3. La combinazione delle due prospettive......Page 50
4.1. Le tecniche di analisi monovariata......Page 54
4.2. La regressione lineare semplice......Page 58
4.3. La regressione lineare multipla......Page 62
4.4. L’analisi dei residui......Page 69
4.5. Il problema dell’inferenza statistica nella ricerca macrocomparata......Page 75
5.1. Il grafico a linee......Page 78
5.2. I valori caratteristici e il problema della non-stazionarietà......Page 79
5.3. L’operatore ritardo e l’operatore differenza......Page 82
5.4. L’analisi auto-regressiva......Page 87
5.5. Come accorciare la memoria......Page 91
6.1. Analisi statiche e analisi dinamiche......Page 94
6.2. Il problema della relazione spuria......Page 100
6.3. La regressione in differenza prima......Page 105
6.4. L’inclusione di un trend lineare......Page 108
6.5. Il concetto e le tecniche di co-integrazione......Page 110
6.6. Il problema dell’auto-correlazione dei residui......Page 116

Papiere empfehlen

Tecniche di suggestione ipnotica

109 29 26MB Read more

Tecniche Di Massaggio Sportivo

3 0 10MB Read more

Tecniche Di Presa

0 0 23MB Read more

Tecniche di seduzione

114 108 794KB Read more

La mente. Itinerari di ricerca 8856806886, 9788856806885

106 26 11MB Read more

Analisi Strutturali Per Le Verifiche Prestazionali Di Un Viadotto Esistente

3 1 3MB Read more

La razza. Analisi di un mito

118 29 13MB Read more

Glossario Di Analisi Formale

4 0 2MB Read more

Roba di Analisi 2

118 20 1MB Read more

Carding: Tecniche Di Clonazione Carte Di Credito

3 1 1MB Read more

Tecniche di analisi per la ricerca comparata trans-nazionale
9788856837162 [PDF]

Author / Uploaded
Federico Podestà

0 0 0
Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden

Datei wird geladen, bitte warten...

Zitiervorschau

1120.21

29-03-2011

11:41

Pagina 1

Questo libro si propone di fornire un’introduzione alle tecniche di analisi dei dati normalmente impiegate nelle ricerche comparate trans-nazionali di orientamento quantitativo. Esse vengono illustrate dopo una sistematica descrizione dei loro campi di applicazione e delle procedure di raccolta e di organizzazione dei dati. La trattazione delle tecniche mono-, bi e multi-variate è strutturata considerando in successione la prospettiva sincronica (cross-section analysis), quella diacronica (time series analysis) e la loro combinazione (time-series-cross-section analysis). Così facendo il lettore viene guidato nelle diverse e possibili fasi previste da ricerche che partono da ipotesi di livello macro per proseguire con un’analisi quantitativa di dati trasversali e/o in serie storica. Il volume è inoltre corredato dai documenti in formato elettronico (file dei dati e lista di comandi) necessari per riprodurre con il pacchetto statistico STATA gli esempi descritti nei vari capitoli (www.francoangeli.it→Biblioteca Multimediale→Elenco dei libri con allegato multimediale). Federico Podestà è dottore di ricerca in Sociologia economica. Attualmente è occupato in qualità di ricercatore presso l’OPES (Osservatorio Permanente per l’Economia, il Lavoro e per la Valutazione della Domanda Sociale) dell’Università di Trento. Ha pubblicato diversi saggi su volumi e riviste nazionali e internazionali sull’evoluzione dello stato sociale, sulle condizioni di vita degli individui e sui metodi di ricerca macro-comparata.

FrancoAngeli La passione per le conoscenze

€ 21,00

Federico Podestà

Tecniche di analisi per la ricerca comparata trans-nazionale

I S B N 978-88-568-3716-2

9 (U)

Metodologia delle scienze umane

F. Podestà Tecniche di analisi per la ricerca comparata trans-nazionale

Tecniche di analisi per la ricerca comparata trans-nazionale

1120.21

Federico Podestà

788856 837162

msu 21

FrancoAngeli

Metodologia delle scienze umane Collana della Sezione di Metodologia dell’Associazione Italiana di Sociologia direttore Alberto Marradi comitato editoriale Enrica Amaturo, Rita Bichi, Antonio Chiesi, Alberto Marradi, Cinzia Meraviglia, Paolo Montesperelli, Franco Rositi La collana è un punto d’arrivo e allo stesso tempo un punto di partenza delle riflessioni sul metodo entro l’ampio ventaglio delle scienze umane. Come punto d’arrivo di una tradizione complessa e ricca di solidi sedimenti, la collana intende collocarsi sul versante dell’alta divulgazione e raggiungere non solo gli studenti e i docenti universitari, ma anche il pubblico crescente delle professioni interessate alle varie forme di trattamento delle informazioni. Come punto di partenza, essa non mancherà di presentare in modo problematico quei settori della tradizione metodologica teoricamente incerti, o fondati su presupposti discutibili, o soggetti ad abusi applicativi; né trascurerà di suggerire nuove direzioni e orientamenti. Il piano della collana prevede ora una cinquantina di volumi, programmati su un arco di tempo di circa dieci anni e affidati a studiosi di sociologia, psicologia, statistica, storiografia, economia e altre discipline: una enciclopedia per il consolidamento e lo sviluppo delle scienze umane.

1120. Metodologia delle scienze umane 1. 2. 3. 4. 5. 6. 7. 8.

Gianni Losito, L’analisi del contenuto nella ricerca sociale Luca Ricolfi, Tre variabili. Un’introduzione all’analisi multivariata Alberto Marradi, L’analisi monovariata Roberto Biorcio, L’analisi dei gruppi Oscar Itzcovich, L’uso del calcolatore in storiografia Giuseppe A. Micheli, Piero Manfredi, Correlazione e regressione Francesca Zajczyk, Fonti per le statistiche sociali Giampietro Gobo, Le risposte e il loro contesto. Processi cognitivi e comunicativi nelle interviste standardizzate 9. Paolo Montesperelli, L’intervista ermeneutica 10. Roberto Fideli, La comparazione 11. Antonio M. Chiesi, L’analisi dei reticoli 12. Cinzia Meraviglia, Le reti neurali nella ricerca sociale 13. Elisabetta Ruspini, La ricerca longitudinale 14. Juan Ignacio Piovani, Alle origini della statistica moderna. La scuola inglese di fine Ottocento 15. Giovanni Di Franco, Corrispondenze multiple e altre tecniche multivariate per variabili categoriali 16. Ivana Acocella, Il focus group: teoria e tecnica 17. Erika Cellini, L’osservazione nelle scienze umane 18. Paolo Parra Saiani, Gli indicatori sociali 19. Maria C. Pitrone, Sondaggi e interviste. Lo studio dell’opinione pubblica nella ricerca sociale 20. Giovanni Delli Zotti, Tecniche grafiche di analisi e rappresentazione dei dati 21. Federico Podestà, Tecniche di analisi per la ricerca comparata trans-nazionale

Per conto della Sezione hanno seguito la redazione di questo volume:

Antonio M. Chiesi Alberto Marradi

Federico Podestà

Tecniche di analisi per la ricerca comparata trans-nazionale

Metodologia delle scienze umane / 21

FrancoAngeli

Copyright © 2011 by FrancoAngeli s.r.l., Milano, Italy. L’opera, comprese tutte le sue parti, è tutelata dalla legge sul diritto d’autore. L’Utente nel momento in cui effettua il download dell’opera accetta tutte le condizioni della licenza d’uso dell’opera previste e comunicate sul sito www.francoangeli.it

Indice

pag.

9

1. Comparazione e tecniche di analisi 1.1. Un incontro controverso 1.2. La political economy comparata 1.3. Lo sviluppo del welfare state 1.4. I passi della ricerca

» » » » »

13 13 20 23 26

2. La raccolta dei dati 2.1. Le fonti di ambito planetario 2.2. Le fonti per i paesi sviluppati

» » »

35 36 39

3. L’organizzazione dei dati 3.1. La matrice dei dati nella prospettiva trasversale 3.2. La matrice dei dati nella prospettiva longitudinale 3.3. La combinazione delle due prospettive

» » »

45 45 47

»

49

4. L’analisi dei dati trasversali e il problema dell’inferenza 4.1. Le tecniche di analisi monovariata 4.2. La regressione lineare semplice 4.3. La regressione lineare multipla 4.4. L’analisi dei residui 4.5. Il problema dell’inferenza statistica nella ricerca macro-comparata

»

53

» » » » »

53 57 61 68 74

5. L’analisi monovariata dei dati in serie storica 5.1. Il grafico a linee

» »

77 77

Premessa

7

5.2. I valori caratteristici e il problema della non-stazionarietà 5.3. L’operatore ritardo e l’operatore differenza 5.4. L’analisi auto-regressiva 5.5. Come accorciare la memoria

pag.

78

» » »

81 86 90

6. La regressione per dati in serie storica 6.1. Analisi statiche e analisi dinamiche 6.2 Il problema della relazione spuria 6.3. La regressione in differenza prima 6.4. L’inclusione di un trend lineare 6.5. Il concetto e le tecniche di co-integrazione 6.6. Il problema dell’auto-correlazione dei residui

» » » » » » »

93 93 99 104 107 109 115

7. L’analisi dei dati trasversali in serie temporale 7.1. L’analisi monovariata 7.2. La regressione lineare 7.3. Omogeneità o eterogeneità dei modelli causali? 7.4. Tante complicazioni tutte insieme 7.5. Un esempio finale 7.6. Un bilancio conclusivo

» » » » » » »

119 119 125 131 136 137 142

Bibliografia di riferimento

»

145

8

Premessa

Questo breve volume si propone di fornire un’introduzione alle tecniche di analisi dei dati normalmente impiegate nelle ricerche macro-comparate di orientamento quantitativo. A tal fine, e coerentemente con diversi testi appartenenti alla collana “Metodologia delle scienze umane”, tali tecniche vengono presentate dopo aver illustrato i campi di applicazione e le procedure di raccolta e di organizzazione dei dati. La trattazione delle tecniche di analisi è strutturata considerando in successione la prospettiva sincronica (cross-section analysis), quella diacronica (time series analysis) e la loro combinazione (time-series-crosssection analysis). Così facendo il lettore viene guidato nelle diverse e possibili fasi previste da ricerche che partono da ipotesi di livello macro per proseguire con un’analisi quantitativa di dati trasversali e/o in serie storica. Il volume è inoltre corredato da alcuni file (www.francoangeli.itBiblioteca MultimedialeElenco dei libri con allegato multimediale) contenenti i dati e la lista di comandi per riprodurre con il pacchetto statistico STATA gli esempi descritti nei vari capitoli. Ciò offre la possibilità al lettore ─ se dispone del suddetto software ─ di poter mettere in pratica quanto appreso dalla consultazione del testo. L’idea di scrivere un libro dedicato alle tecniche di ricerca adottate negli studi trans-nazionali deriva da diversi ordini di ragioni. Innanzitutto, ho pensato di scrivere questo volume dopo essermi reso conto che in Italia i sociologi e i politologi che sono soliti effettuare comparazioni fra società nazionali trascurano in modo quasi sistematico la possibilità di adottare un approccio orientato alle variabili. Nel nostro paese gli studiosi che appartengono a queste due discipline si limitano ad effettuare confronti fra casi nazionali in un’ottica puramente storico-descrittiva. Molto 9

raramente si leggono articoli o volumi in cui le ipotesi di ricerca vengono controllate attraverso l’analisi di dati aggregati. Fanno eccezione a questa tendenza i lavori di taluni economisti che applicano le tecniche econometriche per individuare le co-variazioni che si instaurano fra le variabili macro-economiche. In questo caso però la comparazione tra nazioni viene ─ per ragioni di carattere disciplinare ─ realizzata escludendo dai modelli esplicativi i fattori di natura politico-istituzionale. Accade così che gli scienziati sociali italiani rimangono fortemente esclusi dal filone di studi di political economy comparata di orientamento quantitativo che ha proliferato negli ultimi anni negli Stati Uniti e in alcuni paesi europei. Probabilmente per molti ciò non deve essere visto come un difetto, ma il prodotto di una più ragionata valutazione metodologica. Taluni possono infatti pensare che condurre analisi di tipo quantitativo per cogliere le relazioni che intercorrono fra gli assetti politico-istituzionali dei diversi paesi e le pertinenti prestazioni economiche sia una scelta inadeguata. Chi scrive ritiene tuttavia che una tale conclusione derivi dal fatto che il dibattito metodologico, svoltosi in Italia sulla macro-comparazione, non abbia fatto tutti i conti con i pro e i contro dell’approccio quantitativo. Per questo motivo nel nostro paese non scarseggiano soltanto confronti fra paesi orientati alle variabili, ma anche lavori metodologici che illustrino le tecniche per effettuare tali confronti. Infatti, sebbene siano stati pubblicati in lingua italiana alcuni volumi di introduzione alla macro-comparazione, questi trascurano regolarmente la trattazione delle tecniche di analisi dei dati. Ad esempio il libro di Fideli sulla comparazione (pubblicato in questa stessa collana), pur accennando agli studi trans-nazionali di orientamento quantitativo, non si sofferma nel dettaglio sulle tecniche di rilevazione e di analisi che questi comportano. In realtà, qualcuno potrebbe pensare che esistano molte altre fonti bibliografiche per colmare questa lacuna. Esistono infatti molte introduzioni alle tecniche di ricerca sociale che descrivono in modo più o meno approfondito le procedure di analisi dei dati. Tali lavori presentano però le tecniche di analisi considerando in modo quasi esclusivo il livello micro ed escludendo ogni riferimento alla ricerca macro-comparata. Ciò potrebbe non apparire un problema visto che le tecniche di analisi da impiegarsi nel livello 10

micro e macro sono in molti casi le stesse. La regressione, ad esempio, viene adottata in modo indistinto per mettere alla prova ipotesi di tipo micro e/o di tipo macro. Secondo un tale ragionamento non vi sarebbe dunque alcuna esigenza per trattare in modo autonomo le tecniche di analisi per dati nazionali. Va tuttavia tenuto conto che quando un ricercatore è chiamato ad analizzare informazioni aggregate deve affrontare una serie di problematiche del tutto differenti da quelle inerenti ad un disegno di ricerca di tipo micro. Ciò si può spiegare, ad esempio, facendo riferimento alla differente struttura del disegno di ricerca che i due livelli comportano. Se infatti il livello micro prevede in genere l’analisi di dati campionari estratti da una più ampia popolazione, negli studi trans-nazionali vengono di norma stimate regressioni riferite ad insiemi fissi di casi per i quali non è possibile ripetere il processo di generazione dei dati. Ciò determina alcune complicazioni sul piano della stima dei parametri e sul problema dell’inferenza dei risultati ottenuti che non sono affatto rintracciabili nelle tradizionali indagini campionarie. Un secondo esempio si può ricavare dal fatto che l’impiego della regressione per analizzare serie temporali riferite ad economie nazionali implica una serie di complicazioni che non si ritrovano in alcun disegno di ricerca micro, neppure se si adotta una prospettiva longitudinale. Questi aspetti (così come altri che vengono considerati nel dettaglio all'interno del volume) rendono evidente che le ricerche trans-nazionali basate su matrici di dati presentano alcune caratteristiche specifiche che necessitano di una trattazione ad hoc. Detto ciò, intendo ringraziare numerose persone che a vario titolo hanno contribuito alla stesura del volume. In primo luogo desidero ringraziare tutto il comitato editoriale della collana “Metodologia delle scienze umane” per aver accettato la mia proposta di scrivere questo libro. In particolare intendo ringraziare il prof. Antonio M. Chiesi e il prof. Alberto Marradi che per conto della collana hanno seguito la redazione di questo lavoro. Il prof. Chiesi è stato peraltro fra i primi a sposare la mia iniziativa. Il prof. Marradi ha, dal canto suo, revisionato in modo infaticabile ogni parte del testo. Un ringraziamento sentito va poi al prof. Maurizio Pisati che ha seguito la stesura del testo leggendo e revisionando ogni capitolo. Mi preme inoltre ringraziare tutti i componenti dell’OPES, il centro di ricerca dove lavoro che ha fatto da cornice 11

alla realizzazione di questo libro. Desidero poi ringraziare gli oculisti della clinica universitaria dell'ospedale Borgo Trento di Verona per avermi curato e consentitomi così di continuare a svolgere la mia attività di ricercatore. Infine un pensiero particolare va alle persone a me più care: i miei genitori, la mia compagna e le mie due figlie.

A Giulia e Valeria

12

1. Comparazione e tecniche di analisi

1.1. Un incontro controverso Moltissime attività cognitive compiute dagli individui nella vita quotidiana e nella ricerca scientifica sono volte alla comparazione, ovvero a confrontare gli stati di uno o più oggetti e/o di uno o più punti nel tempo su una (o più) proprietà (Marradi 1982, 13; Fideli 1998, 23). Un esempio della forma più semplice di comparazione è esprimibile nei termini seguenti: “Giulia è più stanca di Valeria”. Questo atto di comparazione è costituito da sei elementi logici: due oggetti (Giulia e Valeria), una proprietà (la stanchezza), due stati (il grado di stanchezza di Giulia e di Valeria) e un punto nel tempo (imprecisato). Il fatto che si abbiano più di un oggetto e un solo punto nel tempo fa sì che si tratti di una comparazione sincronica. Se invece si ha un solo oggetto e più punti nel tempo allora la comparazione è di tipo diacronico. Ne è un esempio la seguente affermazione: “Questa domenica la spiaggia è più affollata della domenica precedente”. In realtà le comparazioni possono essere al contempo sincroniche e diacroniche. Ciò avviene quando si hanno più di un oggetto e più di un punto nel tempo. Possiamo, infatti, pensare alla seguente asserzione: “Ieri sera Giulia era stanca e Valeria no, mentre questa sera sembrano entrambe molto stanche”. Come avrà notato il lettore, tutti questi esempi condividono la caratteristica di considerare una sola proprietà. Tuttavia, come osserva Fideli (1998), le attività di comparazione possono essere rese più complesse considerando congiuntamente più proprietà. Facciamo un esempio: “Questo pomeriggio Giulia ha corso molto mentre Valeria lo ha fatto sporadicamente, adesso

13

che è sera Giulia è molto stanca mentre Valeria non lo sembra affatto”. Le proprietà sono dunque due: la stanchezza e l’attività motoria. Quando siamo di fronte a queste forme più complesse la comparazione può consentire di giungere ad una spiegazione causale. Ciò si realizza esaminando la relazione che si instaura fra gli stati delle diverse proprietà. Nell’esempio precedente gli stati della proprietà ‘attività motoria’ possono infatti essere posti in relazione con gli stati della proprietà ‘stanchezza’. Nello specifico si può associare un’intensa attività motoria con un’elevata stanchezza e una sporadica attività motoria con una scarsa stanchezza. In realtà, poiché i fenomeni sociali e quelli naturali sono inseriti in fitte trame causali, per controllare la plausibilità di una relazione causale si devono considerare tre o più proprietà e fare riferimento ad alcuni canoni logici, come quelli sviluppati da John Stuart Mill (1843). Prima di soffermarci su tale questione (vedi oltre, par. 1.4 e cap. 5) è tuttavia opportuno sottolineare che non è corretto far coincidere la comparazione con la spiegazione causale né tanto meno con il ricorso ai canoni milliani. Questa equazione deriva dal fatto che molto spesso nelle scienze sociali si ricorre alla comparazione a fini esplicativi e si usano i canoni milliani per controllare la spiegazione causale. In realtà però, come abbiamo accennato all’inizio, la comparazione consiste in un’attività cognitiva che non è volta unicamente alla spiegazione causale ma può servire per descrivere e classificare i fenomeni di interesse. Concepire la comparazione come confronto di stati su una o più proprietà rende criticabile una seconda tendenza piuttosto diffusa nelle scienze sociali, che si può far risalire alla concezione di Smelser (1976). Essa fa coincidere la comparazione con il confronto di stati di oggetti complessi, quali società o economie nazionali, su una o più proprietà globali o aggregate, quali il tipo di sistema elettorale o il tasso di disoccupazione. In realtà esiste una vasta gamma di oggetti di comparazione che non coincidono con l’ambito nazionale, ma che sono comunque di primario interesse per le scienze umane; ne sono esempi le unità territoriali sub-nazionali, le organizzazioni, i gruppi, gli individui, gli eventi e i processi storici (Fideli 1998, 312). Fatte queste precisazioni, procediamo ad una prima delimitazione dell’oggetto di questo volume. Esso considera le ricerche sociali che intendono giungere a spiegazioni causali ponendo a confronto gli sta14

ti di società nazionali su proprietà globali o aggregate. In altri termini, pur rimanendo consapevoli del fatto che l’attività comparata costituisce qualcosa di cognitivamente molto più ampio, riduciamo l’ambito di interesse adottando la prospettiva di Smelser. A tal proposito possiamo osservare che sin dalle loro origini alcune scienze sociali (sociologia, scienza politica ed economia) hanno cercato di spiegare i fenomeni macro, ovvero i fenomeni inerenti la struttura e le dinamiche di aggregati sociali di larga scala confrontando gli stati di società nazionali su proprietà aggregate. I fenomeni oggetto di spiegazione hanno spesso riguardato il processo di modernizzazione conosciuto dalle società occidentali. Sono state quindi indagate proprietà quali lo sviluppo dello stato moderno, l’evoluzione dei regimi politici nazionali, le origini del capitalismo, il consolidamento dei diversi modelli produttivi ed allocativi, e via dicendo. Numerosi tentativi sono stati fatti comparando i percorsi storici dei diversi aggregati sociali. L’esempio probabilmente più celebre di questa tradizione di ricerca è il tentativo di Max Weber di spiegare le origini del capitalismo moderno a partire dall’etica protestante. Weber pose a confronto uno stato di alcune società occidentali con gli stati di altre società per poter spiegare il loro diverso e specifico modo di evolversi. Questo modo di procedere è stato adottato in numerosi lavori realizzati nel secondo dopoguerra (Bendix 1964; Moore 1966; Skocpol 1979). Questa tradizione di ricerca tenta nello specifico di spiegare perché le società si sviluppano in modi simili o differenti ricostruendone e confrontandone i processi storici. Sebbene non si comparino mai direttamente e globalmente oggetti ma solo i loro stati su una o più proprietà (Marradi 1982, 13), questa forma di comparazione dà maggiore rilievo agli oggetti, cioè alle società, rispetto alle proprietà. Nella prospettiva di Smelser, secondo la quale gli oggetti comparati coincidono di norma con società nazionali, questo modo di procedere corrisponde a ciò che Ragin e Zaret (1983) hanno definito approccio orientato ai casi (case-oriented approach). Con esso si tende a produrre spiegazioni che legano le cause e gli effetti in modo discreto. In altri termini, gli esiti storici vengono ricondotti a particolari successioni di circostanze che si combinano in modi diversi nei differenti casi nazionali. Per giungere a tali spiegazioni si tende di norma a considerare un ristretto numero di casi nazionali e a fare riferimento ai canoni logici della differenza e della concordanza, formulati da John Stuart Mill (Ragin 1987). 15

Il fatto che si consideri un ristretto numero di casi è addebitabile a due ragioni principali. La prima consiste nel fatto che gli obiettivi di ricerca dei comparatisti erano rivolti essenzialmente alle vicende delle società occidentali, che non vanno oltre la ventina. La seconda ragione ha invece a che fare con le caratteristiche dell’approccio orientato ai casi, che costringe a limitarsi a pochissimi casi nazionali (dai 2 ai 5), in quanto la necessità di ricostruire con minuzia lunghi percorsi evolutivi implica un elevato dispendio di energie e di tempo (Collier 1991). Come ha sottolineato Lijphart in un celebre articolo (1971), il problema del ridotto numero di casi si associa a quello di un elevato numero di variabili da tenere sotto controllo per poter mettere alla prova una qualsiasi ipotesi di ricerca. Uno dei possibili modi per affrontare questo problema consiste nell’adottare particolari criteri nella scelta dei casi da studiare. Ciò ci porta a discutere della seconda caratteristica dell’approccio orientato ai casi. I comparatisti scelgono le società da porre a confronto in base al criterio dei casi simili (Lijphart 1971) e al criterio dei casi dissimili (Przeworski e Teune 1970). Questi due criteri si associano rispettivamente ai canoni milliani della differenza e della concordanza. Per quanto concerne il canone della differenza, è necessario scegliere casi quanto più simili per il semplice fatto che questo canone prevede che, se il fenomeno di nostro interesse si manifesta in un caso e non in un altro che si presenta del tutto simile al primo eccetto che per una particolare circostanza, significa che quest’ultima costituisce la causa del fenomeno che vogliamo spiegare. Per quanto riguarda invece il canone della concordanza, occorre scegliere casi quanto più dissimili in quanto tale canone prevede che, se il fenomeno di nostro interesse si manifesta in due casi e questi sono del tutto dissimili eccetto che per una particolare circostanza storica, vuol dire che quest’ultima è la causa del fenomeno che si intende spiegare. Per lungo tempo la comparazione di fenomeni macro non ha fatto ricorso agli strumenti dell’analisi dei dati. Sebbene si possano citare alcuni importanti studi con la nazione come unità di analisi, come Il suicidio di Durkheim (1893) in cui vengono confrontate le percentuali di suicidi di alcune nazioni europee, le tecniche di analisi dei dati sono state usate per molto tempo soprattutto nelle ricerche di livello micro. Tuttavia, intorno agli anni ‘60 dello scorso secolo alcuni studiosi hanno iniziato ad adottare quelle tecniche nelle ricerche ma16

cro-comparate (Lipset 1959; Deutsch1961). Questo perché si riteneva che anche le ipotesi inerenti le vicende degli stati nazionali necessitassero di controlli empirici più rigorosi rispetto a quanto era possibile fare adottando l’approccio orientato ai casi (Jackman 1985). Se infatti un ricercatore voleva, ad esempio, valutare l’effetto del sistema partitico sull’instabilità politica considerando solo due paesi si trovava in grado di tenere sotto controllo pochissimi fattori che possono influenzare la relazione. Il problema del ridotto numero di casi associato ad un alto numero di variabili venne così affrontato analizzando dati quantitativi su un numero più elevato di casi rispetto a quelli normalmente indagati nelle comparazioni idiografiche. Questa idea poté essere messa in pratica poiché gli organismi internazionali, come l’Organizzazione per la cooperazione e lo sviluppo economico (Ocse), cominciarono a rendere pubblici una serie di dati comparabili sulle diverse economie nazionali. Si è potuto così produrre l’incontro fra l’analisi dei dati e la comparazione di ambito trans-nazionale. Tale incontro fece sì che il confronto fra gli stati delle diverse società nazionali avvenisse dando maggiore rilievo alle proprietà e alle variabili piuttosto che agli oggetti e ai casi. L’approccio orientato alle variabili non è interessato a studiare i casi nella loro interezza, che considera mere unità di rilevazione prima, e di analisi poi, bensì all’esame delle relazioni fra variabili. Detto in altri termini, lo studio dei fenomeni sociali di larga scala, in coerenza con i dettami del canone milliano della variazione concomitante, mira a stabilire in che misura due (o più) variabili co-variano nell’insieme dei casi considerati. Così, se la quota della popolazione deceduta per infarto è più elevata in Giappone che negli Stati Uniti, la ricerca delle cause di tale differenza deve avvenire senza trattare questi fenomeni come peculiarità del caso giapponese e statunitense (Przeworski e Teune 1970). In questo modo le spiegazioni che si offrono ai fenomeni di interesse sono trans-nazionali, ma anche trans-storiche poiché cause ed effetti sono legati indipendentemente dal diverso susseguirsi delle circostanze storiche. Di conseguenza, seguendo l’approccio orientato alle variabili non si vogliono spiegare esiti storici specifici, ma controllare ipotesi di portata generale, intese come leggi universali o come generalizzazioni limitate nello spazio e nel tempo (Marradi 1982). 17

Più precisamente potremmo dire che dopo una prima fase in cui i comparatisti orientati alle variabili cercavano di formulare leggi concernenti tutti i sistemi sociali, si è passati ad una seconda e più matura stagione in cui essi hanno cominciato a sviluppare generalizzazioni estendibili a più omogenei sotto-insiemi di sistemi sociali, come ad esempio le democrazie consolidate. Questo passaggio è avvenuto in virtù di una progressiva presa di coscienza del fatto che le proprietà manifestano un condizionamento storico-culturale (Fideli 1998, par. 1.4). Questa tradizione di ricerca costituisce l’oggetto principale di questo volume. Proseguiamo quindi nel ricostruire lo sviluppo storico. Dopo che i comparatisti si erano trovati a disposizione un’ampia massa di dati statistici nazionali, molti di loro iniziarono a mettere alla prova le loro ipotesi seguendo una prospettiva sincronica. Essi applicavano semplici tecniche di analisi dei dati, quali il diagramma a dispersione, la regressione e la correlazione ad insiemi di dati trasversali (cross-section data), ossia ad informazioni riferite a più unità territoriali (in genere 15-20 nazioni) osservate in un solo momento temporale (in genere un anno). In altre e più rare occasioni i comparatisti controllavano le loro ipotesi adottando una prospettiva diacronica: le stesse tecniche di analisi venivano impiegate per analizzare dati in serie storica (time series data), ossia informazioni riferite ad un’unica unità territoriale (in genere un paese) osservato in più momenti temporali, di norma alcune decine d’anni (Kittel 1999). I ricercatori che seguivano l’approccio orientato alle variabili si resero ben presto conto del fatto che l’impiego delle tecniche di analisi nello studio dei fenomeni di ambito trans-nazionale comporta una serie di problemi, le cui soluzioni vennero cercate con un diverso grado di successo durante l’intero evolversi di questo approccio. Nonostante tali questioni siano oggetto di approfondite discussioni nei prossimi capitoli, presentiamo fin d’ora i principali problemi che derivano dall’incontro fra comparazione trans-nazionale e tecniche di analisi dei dati, al fine di disporre di un quadro generale di partenza. Poiché, come abbiamo accennato sopra, le tecniche di analisi si sono dimostrate da sempre più adeguate ai disegni di ricerca di livello micro, è utile impostare questa trattazione ponendo a confronto alcune caratteristiche degli individui (tipica unità delle ricerche di livello micro) con le nazioni (tipica unità delle macro-comparazioni sincro18

niche, sebbene quanto vale per esse sia estendibile a punti temporali quali gli anni (tipica unità delle macro-comparazioni diacroniche). Una prima caratteristica è costituita dal numero dei casi: mentre nelle ricerche di livello micro si dispone di insiemi di dati riferiti a centinaia o migliaia di individui, negli studi macro-comparati ci si limita, come detto, a un numero ristretto di casi, che di solito non supera le poche decine di unità. Ciò fa sì che nelle analisi dei dati si incontrino seri problemi di stima quando si opera con più di due variabili (vedi cap. 5). In altri termini, si viene a ricreare quel tipico problema della comparazione trans-nazionale della compresenza di pochi casi e molte variabili, sollevato da Lijphart (1971). Per cercare di aumentare il numero dei casi, i cultori dell’approccio orientato alle variabili hanno cercato di compiere alcuni passi. Un primo passo è consistito nel prendere in considerazione la totalità dei paesi presenti sul pianeta. Ma questa soluzione è stata poco praticata perché gli interessi di questi comparatisti appaiono rivolti alle vicende delle economie più sviluppate e perché le banche-dati di ambito planetario sono meno affidabili e meno dotate di informazioni rispetto a quelle dedicate alla parte più ricca del globo (vedi cap. 2). Infine, come abbiamo visto, la prospettiva a medio raggio ha spinto a privilegiare sotto-insiemi omogenei di nazioni. Un secondo passo per aumentare il numero dei casi ha avuto più successo: combinare la prospettiva sincronica con quella diacronica. Le informazioni trasversali riferite ai diversi paesi sono state così combinate con le informazioni temporali riferite ai differenti anni. In altri termini si è cominciato ad effettuare analisi di insiemi di dati trasversali in serie storica (time series cross-section data); in tal modo il numero dei casi è ovviamente il prodotto del totale delle unità territoriali per il numero dei punti temporali considerati (vedi capp. 3 e 7). Per poter applicare criteri inferenziali laddove non era stato estratto un campione, molti comparatisti di scuola quantitativa si sono spinti a considerare gli insiemi di casi a loro disposizione come una sorta di campione estratto da un’ipotetica super-popolazione (vedi par. 4.5). Questo modo di operare li costringe però a affrontare numerose complicazioni statistiche. Infatti, mentre i campioni di individui usati nelle indagini campionarie vengono di norma estratti dalla popolazione di riferimento in base a criteri probabilistici in modo da poter estendere alla stessa i risultati con un certo grado di fiducia, gli 19

insiemi di casi analizzati nelle ricerche macro-comparate non presentano mai queste caratteristiche. Infatti, i casi di queste ricerche non sono indipendenti fra loro, come vorrebbe invece la teoria dell’inferenza. Nello specifico possiamo infatti osservare che le nazioni sono solitamente interdipendenti in ragione delle relazioni economiche, politiche e culturali che intrattengono. Ciò significa che gli analisti di dati nazionali si trovano sistematicamente costretti a controllare l’entità di tali interdipendenze e a impiegare appropriati rimedi (vedi capp. 4, 5, 6 e 7).1 Un altro problema deriva dal fatto che i paesi hanno storie complesse e strutture particolari che li rendono molto diversi fra loro e talvolta addirittura unici e quindi incomparabili. In altre parole, sebbene anche gli individui possano a volte presentare personalità molto eccentriche, le distorsioni che possono derivare da casi individuali che si discostano di molto dalla norma vengono spesso seppellite dall’elevato numero di casi che compongono un campione. Le peculiarità e le anomalie nazionali per converso non possono essere trascurate in sede di analisi dei dati, dal momento che i casi nazionali esaminati sono molto spesso pochi. Così coloro che effettuano comparazioni basate su unità nazionali devono molto spesso impiegare tecniche che permettano di gestire i problemi derivanti dai casi anomali e al contempo di valutare se alcuni casi debbano essere esclusi dal confronto ed analizzati in modo autonomo (vedi capp. 4 e 7).

1.2. La political economy comparata Dopo l’incontro fra la comparazione trans-nazionale e le tecniche di analisi dei dati, gli studi dei fenomeni sociali di larga scala hanno proceduto adottando o l’approccio orientato ai casi o quello orientato alle variabili in modo alternativo, come se fossero inconciliabili. Negli anni più recenti questa tendenza si è affievolita, in quanto nume1 Questo problema della scarsa indipendenza fra i casi non riguarda in realtà soltanto i comparatisti che impiegano tecniche di analisi statistica, ma interessa di norma tutti coloro che pongono a confronto gli stati di diverse società su una o più proprietà. Esso è noto come “problema di Galton” (dal nome dell’antropologo che per primo lo sollevò) e consiste nel fatto che il parallelismo di due o più proprietà potrebbe essere dovuto non a una connessione causale fra le proprietà stesse, ma per diffusione di tali stati da una società all’altra, per via di conquista, imitazione, etc. (Marradi 1982).

20

rosi ricercatori hanno cercato di controllare le loro ipotesi facendo ricorso ad entrambi gli approcci (Boix 1998; Hicks 1999; Iversen 1999; Swank 2002). Il filone di studi che ha adottato in modo più sistematico la comparazione di ambito nazionale, in particolare l’approccio orientato alle variabili, è senza dubbio la political economy comparata, tornata in auge negli anni ‘70 dello scorso secolo dopo una prolungata fase di declino. La political economy comparata può essere intesa come il tentativo di studiare le relazioni fra i processi economici e le istituzioni politiche e sociali attraverso il confronto fra gli stati dei diversi contesti nazionali e dei differenti periodi storici. Questo tentativo viene attualmente compiuto da diversi ricercatori appartenenti a tradizioni disciplinari che si sono recentemente riavvicinate dopo un lungo periodo di distacco. Ci riferiamo in particolare alla sociologia, alla scienza politica e alla scienza economica. Negli studi di political economy comparata si confrontano infatti economisti quali Alberto Alesina e Dani Rodrik, sociologi quali Gosta Esping-Andersen e John D. Stephens e politologi quali Peter Lange e Geoffrey Garrett. Tuttavia, mentre gli economisti tendono a concepire le istituzioni come il risultato di azioni razionali volte a perseguire obiettivi economici, sociologi e politologi considerano queste ultime l’esito di processi storici e, quindi, il prodotto di particolari percorsi evolutivi (Regini e Ballarino 2007). All’epoca di Adam Smith e degli altri economisti classici l’espressione political economy veniva usata unicamente per identificare la scienza che cercava di spiegare i processi di accumulazione dell’economia capitalista tenendo effettivamente conto del più ampio quadro istituzionale. Con la rivoluzione neo-classica, avvenuta a cavallo fra ‘800 e ‘900, le cose cambiarono però radicalmente. Da un lato, i processi economici cominciarono ad essere indagati in modo autonomo rispetto alle strutture politiche e sociali. Dall’altro, il termine political economy venne sostituito con economics proprio con l’intenzione di mettere in evidenza il fatto che la scienza dell’economia ha un proprio oggetto di studio distinto da quello delle altre scienze sociali. In quegli stessi anni la sociologia e la scienza politica andarono a loro volta verso la definizione di un loro specifico oggetto di ricerca che escludeva sempre più i fenomeni di carattere economico (Ferrera 1989; Trigilia 1998).

Tuttavia, come detto, nel corso degli ultimi decenni del secolo scorso queste discipline tornarono ad avvicinarsi grazie ad una rina21

scita della political economy. Questa però non costituiva come in passato il termine di riferimento della sola scienza economica, ma era un particolare filone di studi di carattere interdisciplinare. Il rinnovato interesse per le interazioni fra la sfera economica e quella politico-sociale cominciò a manifestarsi quando le democrazie più industrializzate si lasciarono alle spalle la cosiddetta età d’oro, cioè il ventennio successivo alla fine del secondo conflitto mondiale, caratterizzato da buone prestazioni macroeconomiche, un diffuso sviluppo del welfare state e stabili compromessi politici. Dopo il primo choc petrolifero del 1973 le economie sviluppate cominciarono a crescere ad un ritmo sempre più lento e a manifestare al contempo tassi di inflazione sempre più elevati. I problemi macroeconomici non coinvolgevano tuttavia i diversi paesi con la stessa intensità: alcuni di questi apparivano in grado di tenere sotto controllo il tasso di inflazione e di mantenere allo stesso tempo ridotti tassi di disoccupazione. Alcuni comparatisti si accorsero peraltro che tali economie si caratterizzavano per particolari strutture politico-istituzionali, quali una consistente forza dei partiti socialdemocratici ed un elevato grado di centralizzazione delle relazioni sindacali. Ciò rendeva stabili i cosiddetti assetti neo-corporativi connotati da pratiche macroconcertative in base alle quali le organizzazioni sindacali erano disposte ad accettare una moderazione della dinamica salariale al fine di contenere l’inflazione a patto che i governi nazionali mettessero in atto politiche in favore della piena occupazione e dello sviluppo del welfare state(Goldthorpe 1984). L’idea di fondo di queste prime ricerche di political economy comparata era in sintonia con l’argomentazione di Shonfield (1969) secondo la quale il capitalismo moderno si configura in modo diverso nei differenti paesi in ragione di specifici assetti istituzionali che regolano i diversi aspetti della vita economica. In altri termini, potremmo dire che la rinascita della political economy coincise con il tentativo di ricondurre le differenti prestazioni macroeconomiche e le diverse politiche pubbliche dei paesi sviluppati ai rispettivi equilibri politici e ai rispettivi quadri istituzionali (Trigilia 1998). Così facendo lo schema interpretativo adottato dalla political economy comparata prevedeva che le economie nazionali rispondano a sfide comuni mettendo in pratica differenti politiche pubbliche e manifestando differenti prestazioni economiche poiché hanno diverse strutture politico-istituzionali che filtrano tali sfide (Garrett e Lange 1996). 22

A questo schema interpretativo si rifecero i primi studi di political economy comparata ma anche quelli successivi, che ne trassero un a miriade di ipotesi di ricerca tendenti a controllare empiricamente i singoli legami causali da esso derivabili . La letteratura si può così suddividere in ragione di quali prestazioni economiche e/o politiche pubbliche si vogliono spiegare. Esistono infatti lavori specifici sulla crescita economica, sulla disoccupazione, sull’inflazione, sulle scelte attinenti il bilancio dello Stato. Naturalmente le ricerche di political economy comparata possono essere anche distinte in virtù di quali fattori esplicativi vengono di volta in volta evidenziati per spiegare gli specifici esiti nazionali. Come vedremo nel prossimo paragrafo, si possono ad esempio distinguere i lavori che pongono l’accento sui fattori socio-demografici da quelli che mettono in risalto i fattori di natura politica.

1.3. Lo sviluppo del welfare state Fra le aree di ricerca appartenenti al filone della political economy comparata, quella che ha suscitato i maggiori interessi è senza dubbio lo sviluppo del welfare state. Già diversi anni fa Ferrera (1991) parlò delle ricerche comparate sull’evoluzione dello stato sociale come di un caso di successo. Questa intensa attività di ricerca ha coinvolto molti comparatisti di scuola quantitativa, che hanno cercato di individuare quali fattori sono alla base delle differenze che intercorrono in termini di spesa sociale fra i paesi sviluppati e/o fra i diversi periodi. La quota del pil destinata alla spesa sociale ha costituito la variabile dipendente della quasi totalità di questi studi, nonostante alcuni autori abbiano avanzato diversi dubbi sull’opportunità di operativizzare lo sforzo che uno Stato compie in termini di protezione sociale attraverso questa variabile (Esping-Andersen 1990; vedi anche oltre, par. 1.4). Una prima generazione di studi fu caratterizzata da analisi di dati trasversali volte a spiegare la variazione della spesa sociale fra i paesi più industrializzati. I primi lavori del genere partivano da una prospettiva funzionalista secondo la quale il welfare state costituisce essenzialmente una risposta ai bisogni creati dal processo di modernizzazione. Il più celebre è quello realizzato da Wilenski (1975), che giunse alla conclusione che la spesa 23

per la sicurezza sociale varia in funzione del pil pro capite e della quota di popolazione con età superiore ai 64 anni. Queste due variabili esprimono rispettivamente il livello di benessere risultante dal processo di industrializzazione e la quota di individui che necessita più probabilmente di protezione sociale in quanto ormai incapace di offrire la propria forza lavoro sul mercato. Più tardi furono realizzati alcuni studi empirici riconducibili alla teoria del conflitto, secondo la quale le politiche sociali si sviluppano in ragione dei rapporti di potere presenti in una data società. Più precisamente, si ipotizzava che il welfare state fosse più esteso laddove il movimento dei lavoratori, tradizionalmente impegnato a favore dell’intervento statale, deteneva maggior potere, espresso dal numero di iscritti alle organizzazioni sindacali e/o da quanti membri del governo appartenevano a partiti di sinistra (Castles1982; Stephens 1979; Wilensky1981).

Con il passare del tempo, sembrò che il filone degli studi sulla crescita del welfare state orientati alle variabili entrasse in crisi per via di saturazione e per un paradossale eccesso di capacità esplicativa. Come osserva Castles (1987), dopo venticinque anni di ricerca tutte le possibili ipotesi erano state formulate e confermate dalle svariate analisi dei dati condotte sui casi nazionali per i quali si era in possesso di informazioni comparabili. In questo modo si era arrivati alla conclusione che lo sviluppo dello stato sociale è funzione della crescita economica, della distribuzione della popolazione per fasce d’età, della forza dei partiti di sinistra e del sindacato dei lavoratori, del livello di apertura al commercio internazionale, etc. L’approccio orientato alle variabili aveva così finito per sovraccaricare il proprio oggetto di studio con un numero troppo elevato di fattori esplicativi. L’approccio standard sembrava essere giunto al capolinea non tanto perché i fatti non corrispondevano alle teorie, bensì perché i fatti corrispondevano a troppe teorie. Ferrera (1993) sostiene che alla base di questo risultato stanno due ragioni di ordine metodologico. La prima riguarda la scarsa comparabilità fra le ricerche effettuate,dovuta essenzialmente alla diversità dei disegni di ricerca adottati. Si era soliti usare insiemi di paesi differenti e/o fare riferimento a diversi criteri per operativizzare le proprietà di interesse. Ciò portava ad ottenere conclusioni che non potevano essere confrontate fra loro (vedi anche il par. 1.4). La seconda ragione ha a che fare con il già citato problema del ridotto numero di casi. Ci si chiede cioè se l’analisi dei dati sia appropriata per studiare

24

relazioni fra più variabili quando il numero di casi si aggira attorno alle 15-20 unità. Le argomentazioni avanzate da Ferrera sono senza dubbio valide. Tuttavia, per comprendere perché ipotesi numerose e contrastanti trovavano conferma nelle analisi dei dati, occorre far riferimento ad un’altra motivazione legata all’impiego delle tecniche di analisi. I ricercatori,infatti, quando mettono alla prova le loro ipotesi attraverso l’analisi statistica, non si lasciano guidare esclusivamente dalla teoria, ma anche in modo opportunistico dallo stesso percorso di analisi. In altre parole, i modelli che vengono di volta in volta stimati non derivano solo dalla teoria sostantiva di riferimento, ma sono anche il risultato di una serie di analisi in seguito alle quali vengono talvolta tralasciati (e quindi non divulgati) risultati opposti alle ipotesi di partenza,ad esempio in quanto riscontrano relazioni di segno contrario a quello prefigurato. Generalmente nell’analisi dei dati si procede sino a quando non si sono ottenuti i risultati più favorevoli all’ipotesi di ricerca. In pratica, i dati vengono torturati sino a quando non confessano quanto desiderano i ricercatori (Western 1996; par. 4.3). Per tale motivo sarebbe opportuno, come suggerisce ad esempio Kenworthy (2007), che ci fosse più trasparenza nella presentazione dei risultati di ricerca attraverso una più dettagliata illustrazione dei passaggi seguiti nell’analisi dei dati per chiarire, fra l’altro, come tali passi abbiano contribuito a ridefinire le ipotesi di partenza (vedi anche parr. 1.4 e 4.3). Malgrado tali critiche, si continuò a studiare lo sviluppo del welfare state attraverso l’approccio standard. I suoi fautori si preoccuparono essenzialmente di risolvere una fra le questioni sopra menzionate: il problema del ridotto numero di casi. A partire dall’inizio degli anni ‘90 dello scorso secolo si sviluppò, infatti, una seconda generazione di studi caratterizzata dall’impiego di insiemi di dati trasversali in serie storica: in questo modo, come detto nel par. 1.1, il numero di paesi viene moltiplicato per il numero dei punti temporali disponibili. Numerosi studi, appartenenti a questa seconda generazione, diedero nuove conferme all’ipotesi secondo la quale la composizione partitica dei governi influisce in modo decisivo sull’andamento della spesa sociale (Hicks e Swank 1992; Huber, Ragin e Stephens 1993; Hicks e Misra 1993; Huber e Stephens 2001). Il consistente aumento del numero di casi diede inoltre la possibilità di analizzare congiuntamente un maggior 25

numero di variabili di quanto non si facesse nella generazione di studi precedente. Si cercò ad esempio di analizzare l’effetto esercitato dagli schieramenti partitici a seconda del tipo di configurazione istituzionale in cui questi operano. In tal senso Hicks e Kenworthy (1998) hanno mostrato come le politiche redistributive siano condizionate più dagli assetti neo-corporativiche dal colore politico dei governi nazionali. Questa seconda generazione di ricerche si interessò poi all’effetto prodotto dalla globalizzazione dei mercati sulle scelte di politica sociale. In tal senso si è aperto un vivace dibattito attorno all’interrogativo se la crescente integrazione dell’economia mondiale comporti una riduzione della spesa sociale a fini competitivi o se la spesa tenda ad aumentare per compensare i rischi prodotti dalla stessa globalizzazione. In accordo con lo schema interpretativo classico della political economy comparata (vedi par. 1.2), alcuni lavori sono giunti alla conclusione che nonostante gli stati siano sottoposti a pressioni comuni provenienti dall’economia internazionale, essi rispondono in modi diversi a seconda dei loro assetti istituzionali interni e dei loro equilibri politici. Garrett mostrò ad esempio (1998) che, di fronte alla crescente mobilità dei capitali e all’incremento del volume degli scambi commerciali, l’interazione fra governi di sinistra e assetti neo-corporativi influisce sulla variazione della spesa sociale più di quanto non faccia la mera presenza di governi di sinistra. Da questa breve ricostruzione della letteratura sembra che questa seconda generazione di studi sull’evoluzione dello stato sociale si sia più adoperata per dare conferma alla teoria del conflitto, sebbene in parte integrata con quella istituzionalista. Tuttavia, in sintonia con quanto abbiamo detto sopra sulla tendenza degli studi orientati alle variabili a confermare teorie diverse e contrastanti, esistono importanti ricerche empiriche effettuate con dati trasversali in serie storica che corroborano anche ipotesi derivanti dalla teoria funzionalista. Iversen e Cusack (2000) concludono infatti che la spesa sociale è essenzialmente trainata dai rischi prodotti dai processi di de-industrializzazione che necessitano risposte compensative.

1.4. I passi della ricerca Dopo aver descritto l’incontro fra macro-comparazione e analisi dei dati e le aree di ricerca entro le quali tale incontro ha dato i maggiori frutti, prendiamo in esame i passi di una ricerca che adotta l’approccio orientato alle variabili. Ciò ci consentirà anche di chiarire meglio il significato di molti termini usati nei paragrafi precedenti e di capire i motivi dell’impiego delle tecniche di ricerca che verranno illustrate nei prossimi capitoli. 26

Come si sostiene in molti manuali di metodologia per le scienze umane, per effettuare una qualsiasi ricerca si devono compiere alcuni passi che portano a fare un percorso circolare. Si parte infatti dal livello teorico, si scende poi a quello empirico e si risale infine a quello teorico. I passi da compiere per effettuare questo percorso sono nell’ordine: a) la formulazione di un interrogativo e di un’ipotesi di ricerca; b) la definizione del disegno di ricerca; c) la raccolta e l’organizzazione delle informazioni; d) l’analisi dei dati; e) l’interpretazione dei risultati per controllare l’ipotesi di partenza. Questa sequenza di passi, in cui il precedente condiziona quello successivo, viene effettuata anche da quei programmi di ricerca di ambito nazionale che adottano un approccio orientato alle variabili. Cominciamo dunque dall’ipotesi di ricerca. Con essa si stabilisce essenzialmente quali fenomeni si vogliono spiegare. Un ipotesi riferita a fenomeni sociali di larga scala può essere ad esempio: “Quali fattori hanno determinato il diverso sviluppo del welfare state?”. Si vogliono individuare i fattori che hanno contribuito a far sì che il welfare state si sviluppasse in modo differente nei diversi paesi e/o durante i diversi periodi storici. Per rispondere a questa domanda, così come ad ogni altra, è indispensabile formulare un’ipotesi rifacendosi alle teorie esistenti sul fenomeno che si vuole spiegare. Malgrado le teorie esistenti sullo sviluppo del welfare state siano oggi alquanto vaghe,così come ogni altra teoria di livello macro(Western 1996), le ipotesi che si possono formulare possono fare riferimento alla teoria funzionalista o alla teoria del conflitto (vedi par. 1.3). Facendo riferimento a quest’ultima, può essere formulata la seguente ipotesi: “Laddove e quando il movimento dei lavoratori detiene maggiore potere, lo stato sociale sarà più sviluppato”. L’asserto in questione è di tipo nomologico in quanto recita dovunque si ha un maggiore potere del movimento dei lavoratori, si avrà necessariamente un maggiore sviluppo del welfare state. Quest’ipotesi non si limita quindi a specifici casi nazionali né a particolari periodi storici. Essa è tuttavia estendibile soltanto a quei paesi e periodi in cui si possano rintracciare una qualche forma di organizzazione del movimento dei lavoratori e una qualche forma di sviluppo della politica sociale: non ha quindi carat27

tere universale come una vera e propria legge. Le proprietà studiate dalle scienze sociali sono per loro natura contestuali (vedi par. 1.1); la political economy comparata tende inoltre a prediligere ipotesi riferite a un preciso contesto istituzionale (vedi sopra, par. 1.2). Come si può inoltre intuire, l’ipotesi sopracitata pone in relazione la proprietà ‘sviluppo del welfare state’ con la proprietà ‘potere del movimento dei lavoratori’. Si tratta quindi di due proprietà che possono palesarsi con diversi stati nei differenti paesi e periodi storici che costituiscono le possibili unità di riferimento. Va inoltre precisato che, se continuerà ad essere formulata in questi termini, l’ipotesi in questione potrà difficilmente essere controllata empiricamente. È infatti pressoché impossibile rilevare sul piano concreto gli stati del livello di sviluppo del welfare state e del potere del movimento dei lavoratori nei diversi paesi e nei diversi periodi. Occorre pertanto tradurre in termini empirici queste due proprietà, ovvero operativizzarle. Dare una definizione operativa significa attuare una serie di procedure e convenzioni mediante le quali ciascun singolo stato su una proprietà viene trasformato in un dato, e di conseguenza l’intera proprietà viene trasformata in variabile. Ovviamente, la natura della proprietà determina la natura della variabile. A seconda degli stati che possono assumere le diverse proprietà si hanno diversi tipi di variabili. Senza scendere nel dettaglio possiamo dire che a proprietà di natura categoriale corrispondono variabili di tipo categoriale mentre a proprietà di natura quantitativa corrispondono variabili ordinali o cardinali. Questa distinzione comporta importanti conseguenze in sede di analisi dei dati, in quanto le tecniche di analisi mutano in ragione delle operazioni logico-matematiche che si possono effettuare sui valori assunti dai diversi tipi di variabili. Nei prossimi capitoli ci soffermeremo però soltanto sulle tecniche di analisi per variabili cardinali poiché la maggior parte delle proprietà richiamate dalle ipotesi presenti negli studi di political economy comparata vengono operativizzate attraverso un tipo particolare di variabili cardinali: le variabili cardinali derivate. Si tratta di variabili risultanti da un rapporto fra due variabili cardinali a cui si ricorre quando la natura delle proprietà esaminate non permette di immaginare una definizione operativa diretta per registrarne fedelmente gli stati (Marradi 2007, cap. 7). Riprendiamo l’ipotesi esemplificata per precisare meglio la questione. Avevamo infatti il problema di operativizzare le proprietà 28

chiamate in causa da tale ipotesi. Lo sviluppo del welfare state è certamente una proprietà che non può essere operativizzata in modo automatico. Agli stati “più sviluppato” e “meno sviluppato” non possono corrispondere in modo diretto due modalità di una data variabile. Ricorrendo, ad esempio, alla quantità di denaro speso dagli Stati non possiamo affermare che i paesi che spendono di più dispongono di programmi sociali più sviluppati. È infatti scontato che le economie nazionali più grandi spendano più denaro di quelle piccole. Questa variabile cardinale non consente pertanto di disporre di dati comparabili per i casi nazionali presi in esame. Per tale motivo essa viene normalmente rapportata ad un’altra variabile cardinale in modo da neutralizzare la dimensione dell’economia nazionale: il pil. Si fa così ricorso alla quota del pil destinata alla spesa sociale che costituisce di fatto un indicatore dello sviluppo dello stato sociale.2 Lo stesso discorso può essere fatto in riferimento al potere del movimento dei lavoratori, che possiamo tradurre in termini empirici attraverso la quota di membri del governo appartenenti a partiti di sinistra. Detto ciò,la nostra ipotesi può essere formulata in modo da poter essere controllata empiricamente: “Nei paesi e nei momenti in cui è più alta la percentuale dei membri del governo appartenenti a partiti di sinistra, maggiore sarà la quota del pil destinata alla spesa sociale”. Posta in questi termini la questione, il concetto di ipotesi va però ri-definito. Esso costituisce cioè un asserto riguardante una relazione fra due (o più) variabili che deve essere sottoposto a controllo empirico (Marradi 1987). In tal senso è bene precisare che le relazioni richiamate dalle ipotesi formulate per rispondere ad interrogativi di livello macro e, più in generale, alle domande che si pongono gli scienziati sociali presentano in realtà caratteristiche particolari. Per chiarire meglio quanto stiamo affermando, iniziamo col precisare cosa si intende per relazione fra variabili e quali tipi di relazioni si possono incontrare. Per relazione fra variabili si intende qualsiasi rapporto fra due o più variabili, esistente o meno, effettivo o potenziale.3 Le relazioni fra variabili possono essere distinte secondo differenti criteri. Se si fa 2 Spesso la quota del pil destinata alla spesa sociale, così come altre variabili cardinali derivate, viene moltiplicata per 100 in modo da ottenere valori percentuali. 3 Se una relazione esiste si parla di associazione; se non esiste si parla invece di indipendenza.

29

riferimento alla loro direzione, si possono avere relazioni unidirezionali, in cui la variabile X influisce la variabile Y senza esserne influenzata, e relazioni bi-direzionali, nelle quali le variabili X e Y si influenzano vicendevolmente. Se prendiamo in considerazione il segno, abbiamo invece relazioni positive e relazioni negative. Una relazione è positiva quando a stati più alti su una variabile corrispondono stati più alti su un’altra variabile. Viceversa, se a stati più alti su una variabile corrispondono stati più bassi sull’altra variabile, si parlerà di relazione negativa. In terzo luogo, le relazioni possono essere distinte in ragione della loro intensità. Una relazione è tanto più intensa quanto più strettamente gli stati su una variabile sono collegati agli stati su un’altra variabile. Infine le relazioni possono essere lineari o non lineari. Sono lineari quando il tasso di variazione degli stati sulla prima variabile è costante rispetto al tasso di variazione degli stati sulla seconda variabile. Sono invece non lineari quando il tasso di variazione degli stati sulla prima variabile non è costante rispetto al tasso di variazione degli stati sulla seconda variabile. In base a queste affermazioni si potrebbe giustamente pensare che, nel momento in cui un ricercatore formula un’ipotesi di ricerca, enuncia un asserto che richiama una relazione fra due o più variabili precisata rispetto ad ognuna delle suddette caratteristiche. Allo stesso modo si potrebbe immaginare che, quando un ricercatore controlla empiricamente la propria ipotesi, oltre a metterne alla prova l’esistenza, si accerta che ogni elemento caratteristico della relazione sia corroborato dalle risultanze empiriche. In realtà le cose non stanno così. La fase di formulazione dell’ipotesi e quella del controllo non sono esattamente speculari. A tal proposito occorre innanzitutto osservare che attraverso l’analisi dei dati non è possibile accertare se la relazione è uni- o bidirezionale (Marradi 1987). Per tale motivo il ricercatore si trova costretto a compiere questa scelta nel momento in cui formula la propria ipotesi, facendo ricorso unicamente alle proprie conoscenze e convinzioni. Una volta fatta questa scelta, egli dovrà adottare le tecniche di analisi ad essa appropriate. In tal senso, vale però la pena di osservare che, siccome nella maggior parte dei casi gli scienziati sociali formulano ipotesi uni-direzionali, le tecniche di analisi abitualmente impiegate consentono di valutare l’effetto esercitato da una o 30

più variabili indipendenti (X1, X2… Xn) su una variabile dipendente (Y). In sede di formulazione dell’ipotesi gli scienziati sociali non si limitano tuttavia a stabilire l’uni-direzionalità della relazione. Essi ne stabiliscono di solito anche il segno. Nella maggior parte dei casi i ricercatori prefigurano relazioni di tipo lineare, dato che le conoscenze a loro disposizione non consentono di prefigurare rapporti di natura non lineare. La non-linearità è, quindi, normalmente trascurata in sede di formulazione dell’ipotesi. Allo stesso modo viene trascurata la questione dell’intensità. I ricercatori non precisano mai (o quasi) di quanto variano gli stati sulla variabile dipendente in funzione del variare degli stati sulla variabile indipendente (Kittel 1999). In breve possiamo quindi dire che le ipotesi prevedono in genere relazioni unidirezionali di tipo lineare aventi un segno positivo o negativo. Queste caratteristiche si ritrovano appieno nell’ipotesi sopracitata. Essa prefigura anzitutto una relazione uni-direzionale fra la quota del pil destinata alla spesa sociale (variabile dipendente) e la percentuale di membri del governo appartenenti a partiti di sinistra (variabile indipendente). Da tale ipotesi ci si deve attendere infatti che la composizione politica dei governi eserciti un effetto sulla spesa sociale e non viceversa. Come si può inoltre intuire, la nostra ipotesi prefigura una relazione di segno positivo in quanto viene previsto un aumento della variabile dipendente in funzione di un aumento della variabile indipendente. Non si fa riferimento aduna relazione non lineare né tanto meno all’intensità dell’effetto. Una volta che si è formulata l’ipotesi, vengono scelti i casi da prendere in considerazione e le informazioni da raccogliere e da analizzare. Sui casi si raccolgono le informazioni riguardanti le variabili chiamate in causa dall’ipotesi che si vuole mettere alla prova. Così a ciascun caso corrispondono determinati valori delle variabili di interesse. Nelle ricerche di livello macro i casi sono generalmente costituiti da paesi e/o da anni (vedi par. 1.1). Quando i casi sono costituiti da paesi,le informazioni raccolte sono di tipo trasversale. Quando i casi sono costituiti dagli anni, si rilevano informazioni per una serie di anni riferiti ad un unico paese. ando infine i casi sono costituiti sia dai paesi sia dagli anni, per ogni paese si hanno informazioni per più anni. Questa soluzione è, come detto, sicuramente la più diffusa negli studi di political economy comparata. Tuttavia, per molti anni si è 31

fatto un più ampio uso di informazioni trasversali, dato che i valori delle variabili chiamate in causa dalle ipotesi di political economy comparata variano più fra i paesi che fra gli anni. Ciò vale certamente anche per l’ipotesi riguardante l’impatto esercitato dalla composizione dei governi nazionali sulla spesa sociale. Come abbiamo già osservato, i paesi e/o gli anni vengono di norma scelti in base a quali dati sono già disponibili. Nel caso della nostra ipotesi sullo sviluppo del welfare state, potrebbe infatti accadere che vengano scelti 19 paesi sviluppati e gli anni che vanno dal 1960 al 1990, semplicemente perché soltanto per questi casi è possibile reperire dati sulla percentuale del pil destinata alla spesa sociale, sulla percentuale dei membri del governo appartenenti a partiti di sinistra e su altre variabili ritenute utili in sede di analisi (sull’opportunità di considerare altre variabili oltre a quelle richiamate dall’ipotesi di ricerca, si veda il cap. 4). Ciò, come detto, comporta seri problemi in sede di analisi dei dati in quanto L’insieme dei casi presi in considerazione può essere considerato come un’intera popolazione o come una sorta di campione che costringe a procedere in senso inferenziale (vedi par. 4.5). Sulla base di quanto detto appare comunque chiaro che la fase di raccolta dei dati delle ricerche di livello macro che adottano l’approccio orientato alle variabili si risolve molto spesso con l’estrazione dei dati utili da banche dati predisposte da organismi internazionali o da singoli ricercatori (vedi cap. 2). Una volta che i dati sono stati raccolti, si inseriscono in una matrice in modo da analizzarli(vedi cap. 3). Compiuta questa operazione si può passare alla fase di analisi. Partendo dal presupposto che un’ipotesi di ricerca postula una relazione fra due o più variabili, il suo controllo empirico deve necessariamente avvenire facendo ricorso a tecniche che permettano di analizzare congiuntamente almeno due variabili (analisi bivariata). Riprendendo il nostro esempio è quindi necessario ricorrere a tecniche di analisi che consentano di controllare se all’aumentare dei membri del governo appartenenti a partiti di sinistra si determini un incremento della percentuale del pil destinata alla spesa sociale. In realtà, poiché questa relazione, come molte altre, può essere distorta in ragione del fatto che altre variabili influenzano la variabile dipendente e/o la variabile indipendente, è opportuno mettere alla prova la nostra ipotesi,così come tutte le altre,attraverso l’impiego di tecniche che 32

consentano di analizzare congiuntamente più di due variabili (vedi par 4.3). Una volta che le tecniche di analisi ritenute più appropriate sono state impiegate occorre interpretare i risultati al fine di stabilire se l’analisi dei dati corrobora o meno l’ipotesi di partenza. A questo proposito è bene ricordare che in sede di formulazione dell’ipotesi si prefigura fra le due variabili una relazione uni-direzionale di tipo lineare avente segno positivo o negativo, senza però precisarne l’intensità. Tuttavia attraverso l’analisi dei dati, mentre è possibile stabilire se la relazione è effettivamente lineare e se il segno previsto è confermato dai risultati, non si può accertare la direzione della relazione. L’analisi dei dati sembra così fornire risposte parziali in sede di controllo dell’ipotesi. Oltre a quanto si è detto essa fornisce anche una misura dell’intensità della relazione. Ciò potrebbe far pensare che l’analisi dei dati permetta di valutare se la relazione non esiste, quando risulta che l’intensità della relazione è nulla. Come sottolinea però Marradi (1987; 2007), le tecniche di analisi dei dati confermano quasi sempre l’esistenza di una relazione: nella stragrande maggioranza dei casi l’effetto esercitato dalla variabile indipendente sulla variabile dipendente risulta diverso da zero. Detto ciò, bisogna comunque tener conto del fatto che l’analisi dei dati va molto oltre il ruolo passivo di mero controllo delle ipotesi di partenza. Essa ha in realtà un ruolo attivo in quanto fa spesso emergere risultanze inattese che comportano una re-definizione delle ipotesi iniziali (Marradi 2007, 224). In altre parole, poiché ─ a dispetto di quanto abbiamo visto all’inizio di questo paragrafo ─ il percorso di ricerca va inteso come un processo a più passi in cui quello successivo implica spesso una re-definizione di quello precedente: l’analisi dei dati induce abitualmente a riformulare le ipotesi di partenza anziché darne una mera conferma o smentita. È per tale motivo che vale la pena di ribadire l’esortazione fatta da Kenworthy (2007) che invita a rendere pubblico l’intero percorso di ricerca anziché i soli risultati finali.

33

2. La raccolta dei dati

In questo capitolo verrà presa in esame la fase di raccolta dei dati utili per controllare ipotesi di livello macro. In tal senso, è necessario precisare sin dall’inizio che gli scienziati sociali che sono abitualmente impegnati in questo sforzo non si preoccupano di raccogliere direttamente la totalità delle informazioni a loro necessarie. Dovendo infatti disporre di dati relativi a una pluralità di paesi e/o di anni, la cui rilevazione comporterebbe un enorme dispendio di risorse, questi studiosi si trovano costretti a fare affidamento su banche dati già predisposte da altri ricercatori o da organismi internazionali effettuando analisi secondarie.4 Peraltro, le banche dati realizzate da organismi internazionali quali l’Ocse, la Banca Mondiale, il Fondo Monetario Internazionale (Fmi), etc., contengono informazioni che, come vedremo meglio in seguito, appaiono in alcuni casi carenti sul piano delle procedure di calcolo e più spesso quanto alla natura delle variabili considerate. Per queste ragioni, negli ultimi anni numerosi ricercatori di varia estrazione disciplinare si sono prodigati a produrre nuove collezioni di dati che consentano di colmare queste lacune. In particolare, nel capitolo non si vuole illustrare come avviene la rilevazione dei dati macro, ma si farà una panoramica sulle principali banche dati che contengono informazioni statistiche di ambito nazionale (trasversali e/o diacroniche). Verranno considerate sia le banche dati riferite alla totalità o quasi dei paesi presenti sul pianeta (vedi par. 2.1) sia quelle riferite ai paesi economicamente sviluppati (vedi par. 2.2). Questa panoramica fornirà le coordinate essenziali affinché il lettore possa costruirsi una propria base dati per condurre una ri4 Con l’espressione ‘analisi secondaria’ si intende l’elaborazione di dati già raccolti nell’ambito di altri programmi di ricerca (Zajczyk 1996, cap. 1).

35

cerca macro-comparata orientata alle variabili, favorito anche dal fatto che molte delle banche dati in questione sono attualmente accessibili a costo zero per via telematica.5

2.1. Le fonti di ambito planetario Inizieremo con il considerare le banche dati predisposte dagli organismi internazionali che, su differenti versanti, operano su scala planetaria: l’Organizzazione internazionale del lavoro (Oil), il Fmi e la Banca mondiale. L’Oil costituisce, ovviamente, la fonte più importante per le statistiche riguardanti il lavoro. Laborsta, ad esempio, è una ricca banca dati predisposta dal ILO Bureau of Statistics che contiene numerose serie temporali per più di 200 economie nazionali su questo tema. Sebbene non siano sempre comparabili, tali serie consentono di disporre di svariate informazioni su differenti dimensioni del mercato del lavoro e della sua regolazione. Le principali sono: il numero degli individui occupati e disoccupati, l’ampiezza della popolazione attiva, il numero di ore lavorate, i livelli salariali e il costo del lavoro, il totale delle giornate perse per sciopero, etc. Anche il Fmi ha messo a punto una banca dati contenente un elevatissimo numero di serie storiche per oltre 200 economie nazionali: International Financial Statistics (anni vari). Essa si trova in commercio in formato cd-rom e racchiude tutte le informazioni statistiche presenti nelle pubblicazioni cartacee del Fmi. Vi si trovano pertanto una miriade di dati sugli aspetti normalmente considerati per analizzare lo sviluppo economico di un paese nonché la situazione finanziaria nazionale ed internazionale; nello specifico: contabilità nazionale, popolazione, bilancia dei pagamenti, sistemi finanziari e bancari, lavoro, tassi di cambio, tassi di interesse, liquidità internazionale, finanza pubblica, prezzi, produzione e commercio internazionale. La Banca mondiale pubblica World Development Indicators (anni vari),che si trova in commercio in formato cd-rom e contiene più di 550 serie temporali relative al periodo compreso fra il 1960 e i primi 5

Se si inserisce in un qualsiasi motore di ricerca attivo sul web il titolo di una delle banche dati citate in questo capitolo che non sono state commercializzate, si potrà fruire di tutte le informazioni statistiche in essa contenute.

36

anni del nuovo millennio per un totale di 207 nazioni. Esse sono divise in cinque sezioni riguardanti la popolazione, l’ambiente, l’economia, i rapporti fra Stato e mercato e le relazioni planetarie. Come anticipato, oltre alle banche dati realizzate dai sopra citati organismi internazionali, ne esistono molte altre messe a punto da singoli studiosi o da gruppi di ricerca. Per quanto riguarda, ad esempio, i conti economici nazionali, si possono citare alcuni importanti programmi di ricerca che hanno dato vita ad altrettante basi di dati che vanno ad arricchire la già cospicua offerta di informazioni garantita dalla Banca mondiale e dal Fmi. Penn World Table ne è probabilmente l’esempio migliore: si tratta di una banca dati realizzata dal Center for International Comparisons dell’Università della Pennsylvania, che contiene numerose serie temporali per differenti variabili di contabilità nazionale ricostruite attraverso una procedura diversa da quella impiegata dalla Banca mondiale per rendere comparabili tali grandezze. Quando si raccolgono informazioni espresse in valori monetari relative a differenti paesi e a diversi intervalli di tempo si pone infatti il difficile problema di neutralizzare l’effetto dovuto all’impiego di valute nazionali diverse, al differente potere d’acquisto interno alle diverse economie nazionali e alla dinamica dei prezzi.6 È per tale motivo che gli autori di Penn World Table hanno approntato una procedura per rendere quanto più possibile affidabile il confronto fra i dati di contabilità nazionale della maggior parte dei paesi del globo (Heston, Summers e Aten 2002). Un ulteriore arricchimento rispetto all’offerta di dati di contabilità nazionale assicurata dagli organismi internazionali è costituito dalla base informativa realizzata dall’economista Angus Maddison (2003). Essa ha il merito di fornire dati sul pil complessivo e pro-capite per un elevato numero di economie nazionali e più ampi aggregati territoriali, quali l’Europa, per un intervallo di tempo molto lungo. Per i paesi dell’Europa occidentale o altre economie sviluppate si dispone di serie temporali a cadenza annuale che coprono il periodo compre6 Per neutralizzare tali effetti si fa in genere ricorso a opportuni fattori di conversione. Il deflatore è il fattore di conversione necessario a neutralizzare la dinamica dei prezzi e trasformare così una serie temporale espressa in prezzi correnti in una serie temporale espressa in prezzi costanti. Il fattore di conversione per la parità di potere d’acquisto (Purchasing power parity conversion factor) consiste nel numero di unità di valuta nazionale di un determinato paese necessarie per acquistare sul mercato interno la stessa quantità di beni e servizi che si acquisterebbe negli Stati Uniti con un dollaro.

37

so fra i primi decenni del XIX secolo e i primi anni del secolo corrente. La banca dati prodotta da Maddison permette quindi di effettuare alcune analisi economiche di lungo e lunghissimo periodo. Il grado di scolarizzazione dei residenti nei diversi paesi del pianeta è riportato da Educational Attainment Data. Si tratta di una base informativa messa a punto da Barro e Lee (1993; 2000), che contiene diverse serie temporali (a cadenza quinquennale) per il periodo 19602000 riguardanti i vari gradi di istruzione conseguiti dalla popolazione di 138 paesi divisa per sesso e fasce di età. Essa presenta variabili concernenti le percentuali della popolazione a) senza alcun titolo di studio; b) che ha completato la scuola primaria; c) che ha completato la scuola secondaria; d) con un titolo di studio superiore alla scuola secondaria. Inoltre viene riportata l’età media della popolazione per ciascuno dei livelli di scolarizzazione sopra menzionati. Come hanno osservato gli stessi autori, il maggior pregio di questa banca dati è consentire di controllare empiricamente le ipotesi che riconducono la crescita economica delle diverse nazioni al loro capitale umano (Barro e Lee 1993). Quanto alle banche dati inerenti ambiti tematici trascurati dagli organismi internazionali, dobbiamo soffermarci soprattutto su quelle dedicate agli aspetti politico-istituzionali. Fra queste vanno citate: • Database of Political Institutions, assemblata da Beck, Clarke, Groff, Keefer e Walsh (2002); • Polity IV Project che costituisce l’ultimo aggiornamento di Polity data series, originariamente progettato da Ted Robert Gurr. Database of Political Institutions contiene 106 serie storiche relative al periodo 1975-2000 per 178 paesi appartenenti ai diversi continenti. Le variabili in essa incluse riguardano i seguenti ambiti: a) sistema di governo, b) sistema partitico, c) legislatura d) regole elettorali, e) grado di federalismo, f) livello di coesione politica e g) attori con potere di veto (veto players). Questa banca dati costituisce un importante punto di riferimento per le analisi comparate di mediolungo periodo, mentre Polity IV è una fonte assai utile per studi di lungo periodo. Essa contiene infatti una pluralità di informazioni per tutti gli stati indipendenti aventi una popolazione superiore ai 500.000 abitanti per il periodo compreso fra il 1800 e il 2003; si presta pertanto allo studio dei processi di conservazione e di trasformazione che hanno interessato i sistemi politici nazionali del pianeta nel 38

corso degli ultimi due secoli, e in particolare dei tempi e modi del cambiamento politico. Per concludere questa carrellata sulle fonti di ambito planetario, possiamo soffermarci brevemente su una base informativa contenente serie storiche di carattere sia socio-economico sia politicoistituzionale. Si tratta di ACLP Political and Economic Database. Essa è stata realizzata da Alvarez e altri (1996) e contiene nello specifico un centinaio di serie temporali concernenti il periodo 19501990 per 135 paesi. Essa raccoglie una serie di informazioni tratte dalle banche dati e dalle pubblicazioni del Fmi, della Banca mondiale e da altre fonti inerenti il contesto macroeconomico, la struttura demografica e il quadro culturale dei paesi sviluppati e non. Inoltre include una serie di indicatori riguardanti la struttura e l’evoluzione dei sistemi politici nazionali, costruiti in molti casi dai suoi stessi autori.

2.2. Le fonti per i paesi sviluppati Oltre a quelle già descritte nel paragrafo precedente, esistono banche dati riguardanti esclusivamente i paesi economicamente sviluppati. Ciò dipende dal fatto che la produzione di dati statistici comparabili per le aree più avanzate del pianeta ha una tradizione ben più lunga e consolidata rispetto a quella relativa ai paesi in via di sviluppo (vedi par. 1.1). L’inizio di questo percorso può essere fatto risalire al 1961, anno di costituzione dell’Ocse, che sin dalle sue origini si è dato il compito di raccogliere e rendere comparabili dati di carattere socioeconomico sui paesi che ne fanno parte. Attualmente la più importante banca dati realizzata dall’Ocse è OECD Statistical Compendium (anni vari). Essa è acquistabile in formato cd-rom e contiene la maggior parte delle serie temporali che l’Ocse riporta nelle proprie pubblicazioni cartacee per i ventinove paesi che attualmente ne sono membri7 e per alcuni paesi che non ne sono membri. 7 Australia, Austria, Belgio, Canada, Corea, Danimarca, Finlandia, Francia, Germania, Giappone, Grecia, Lussemburgo, Messico, Nuova Zelanda, Norvegia, Irlanda, Islanda, Italia, Olanda, Polonia, Portogallo, Regno Unito, Repubblica Ceca, Spagna, Stati Uniti, Svezia, Svizzera, Turchia e Ungheria.

39

Le serie temporali contenute nelle ultime versioni di OECD Statistical Compendium hanno di norma periodicità annuale (talvolta anche trimestrale e mensile) e coprono nella generalità dei casi il periodo compreso fra il 1960 e gli anni più recenti. Esse sono raggruppate nei seguenti capitoli: - Development and Aid - General Economic Problems - Economic Indicators - National Accounts and Historical Statistics - Labour Market and Social Issues - Education - Health Statistics - Financial and Fiscal Affairs - Industry, Science and Technology - Foreign Trade - Agricolture - Regional Statistics Esistono molte altre banche dati dedicate ai paesi più industrializzati, realizzate da ricercatori interessati agli aspetti politicoistituzionali, trascurati dalle fonti ufficiali. Si scelgono questi aspetti per due motivi. In primo luogo l’Ocse non sembra avere eguali nella produzione di dati socio-economici comparabili, non facendo pertanto sentire l’esigenza di rilevare informazioni su campi di indagine già da esso coperti. In secondo luogo, la carenza di dati inerenti la struttura e le trasformazioni politico-istituzionali delle economie avanzate ha reso per diverso tempo problematico il controllo delle classiche ipotesi della political economy comparata (vedi par. 1.2). Per tali ragioni negli ultimi anni sono state predisposte numerose banche dati concernenti la struttura dei governi e dei sistemi politici nazionali, la distribuzione delle risorse di potere fra i diversi partiti politici, la configurazione dei sistemi di relazioni industriali, le normative nazionali in tema di rapporti di lavoro, etc. Esistono sia banche dati che potremmo definire monografiche, ovvero incentrate su particolari ambiti di ricerca, sia banche dati di tipo generalistico, contenenti un elevato numero di variabili riguardanti dimensioni diverse, che sono state rilevate da organismi internazionali o mediante ricerche ad hoc. Iniziamo la rassegna dalle banche dati che abbiamo definito monografiche. Molte di esse hanno come oggetto le istituzioni che rego40

lano il mercato del lavoro; altre concernono la distribuzione del potere fra i partiti politici e altre ancora riguardano i programmi di protezione sociale. Delle istituzioni che regolano il mercato del lavoro si occupano quattro banche dati: • The CEP-OECD Institutions Data Set, messa a punto da Nickell (2006); • Trade Unions in Western Europe since 1945, pubblicata in formato cd-rom allegato all’omonimo volume redatto da Ebbinghaus e Visser (2000); • Union Centralization Among Advanced Industrial Societies, assemblata da Golden, Wallerstein e Lange (2009); • Quantitative Indicators of Corporatism, predisposta da Lane Kenworthy (2003). The CEP-OECD Institutions Data Set contiene serie storiche relative al periodo 1960-2004 per 20 paesi sviluppati. Le variabili raccolte si riferiscono alla protezione del posto di lavoro, alla densità sindacale,8 al coordinamento della contrattazione collettiva, ai sussidi di disoccupazione, alla tassazione, al costo del lavoro, etc. Se The CEP-OECD Institutions Data Set costituisce una banca dati che tocca in modo poco approfondito più aspetti della regolazione del mercato del lavoro, le altre tre basi informative sopra indicate si soffermano in modo più dettagliato su determinate dimensioni di questo fenomeno. La banca predisposta da Ebbinghaus e Visser è incentrata sulla struttura organizzativa del movimento sindacale europeo. Trade Unions in Western Europe since 1945 contiene nello specifico svariate serie temporali relative al periodo 1945-1998 per i principali paesi dell’Europa occidentale. Esse sono state raggruppate in tre sezioni inerenti i seguenti temi: a) la frammentazione delle organizzazioni sindacali, espressa dal numero di sindacati che appartengono ad una determinata confederazione o nazione, b) gli iscritti ai sindacati, ovvero il numero di aderenti (distinti per genere e status occupazionale) alle varie organizzazioni e c) la densità sindacale, calcolata

8

In merito all’operativizzazione di questo concetto, si veda oltre.

41

rapportando il numero totale degli iscritti al sindacato al totale della forza lavoro. Oltre a fornire informazioni sulla struttura organizzativa dei sindacati, Union Centralization Among Advanced Industrial Societies riporta una serie di variabili concernenti le organizzazioni di rappresentanza imprenditoriali e i modelli di relazioni industriali: il livello di centralizzazione della contrattazione collettiva e il grado di coinvolgimento dei diversi attori (sindacati, imprenditori e governo) nei processi decisionali in tema di rapporti di lavoro. Tali informazioni sono organizzate in serie temporali e coprono, per 20 economie industrializzate, il periodo 1950-2000. Quantitative Indicators of Corporatism costituisce un significativo esempio di banca dati focalizzata sugli assetti neo-corporativi. Essa include una quindicina di variabili tratte da una quarantina di indicatori costruiti da diversi studiosi per operativizzare lo sviluppo degli assetti neo-corporativi. Le variabili sono state suddivise in due gruppi: a) quelle che non fanno registrare variazioni nel corso degli ultimi cinque decenni (time-invariant variables) e b) quelle che presentano una, seppur minima, variazione diacronica (time-variant variables). Mentre per il primo gruppo di variabili non si dispone ovviamente di una serie temporale, per il secondo gruppo si hanno dati dal 1950 al 2000 per ognuno dei 18 paesi inclusi nella base dati. Fra le banche dati monografiche incentrate sulla distribuzione del potere fra i partiti politici, va menzionata Comparative Parties Data Set. Essa è stata predisposta da Duane Swank (2006) e contiene una pluralità di indicatori per operativizzare il potere dei partiti politici all’interno delle istituzioni politiche nazionali. In particolare, vi si trovano le percentuali di voto ottenute dai partiti di destra, sinistra e centro alle varie tornate elettorali, le percentuali dei parlamentari di questi tre gruppi di partiti e le percentuali dei componenti dei governi nazionali appartenenti. I dati relativi a queste variabili si riferiscono al periodo compreso fra il 1950 e il 2006 in 21 economie sviluppate. Tra le raccolte di dati dedicate ai sistemi di protezione sociale, dobbiamo ricordare Welfare State Entitlements Dataset, predisposta da Lyle Scruggs (2004). Essa include una pluralità di variabili concernenti la struttura organizzativa dei principali programmi di assicurazione sociale (pensioni, sanità e sussidi di disoccupazione) di diciotto paesi industrializzati per gli ultimi decenni dello scorso secolo. Pertanto essa fa da complemento alle banche dati che pongono 42

l’accento su quanto spendono le economie nazionali nei vari anni in materia di welfare (si veda ad esempio OECD’s Social Expenditure Database, inserita in OECD Statistical Compendium). Fra le banche dati di tipo generalista dobbiamo citare Comparative Welfare States Data Set, assemblata da Huber e altri (2004), e Comparative Political Data Set I, predisposta da Armingeon, Gerber, Leimgruber e Beyeler (2008).9 Comparative Welfare States Data Set fornisce serie storiche dal 1960 al 2000 su 18 paesi industrializzati mentre Comparative Political Data Set raccoglie informazioni su 23 economie sviluppate per il periodo 1960-2007. Le due basi di dati evidenziano differenze importanti sul piano delle variabili rilevate. Sebbene entrambe contengano informazioni sulle istituzioni politiche, i sistemi partitici, le istituzioni di regolazione del mercato del lavoro, la macroeconomia, il welfare state e la demografia. Comparative Welfare States Data Set contiene molte più variabili in materia di protezione sociale. Vi si trovano infatti varie serie temporali riguardanti le voci di spesa e di entrata contabilizzate dai governi nazionali in tema di politica sociale, più alcune serie concernenti la quantità di individui coperti dai vari programmi di welfare. Comparative Political Data Set I si dimostra invece più ricca sul piano delle variabili politico-istituzionali, in quanto presenta numerose variabili relative alla composizione partitica dei governi nazionali, alla partecipazione al voto e ai sistemi elettorali, alla struttura istituzionale dei sistemi politici nazionali, al tasso di presenza femminile nei parlamenti, al grado di indipendenza delle banche centrali, etc. A conclusione di questa panoramica è opportuno fornire alcuni ragguagli di massima in merito all’impiego delle informazioni contenute nelle banche dati appena illustrate. Accade in alcuni casi che differenti studiosi o enti di ricerca raccolgano le stesse informazioni creando sovrapposizioni fra le diverse basi informative. Ciò vale sia per le variabili macroeconomiche sia per quelle di carattere politicoistituzionale. Per quanto riguarda le prime, abbiamo già fatto cenno all’impiego di differenti procedure per rendere comparabili i dati di contabilità nazionale da parte della Banca mondiale e degli autori di 9 Armingeon e i suoi collaboratori hanno anche predisposto Comparative Political Data Set II e III che differiscono da Comparative Political Data Set I in termini di nazioni, anni e criteri di operativizzazione (Armingeon e Careja 2008; ARMINGEON, Careja, Potolidis, Gerber e Leimgruber 2008).

43

Penn World Table. Per quanto concerne le variabili politicoistituzionali, ad esempio i dati sulla composizione politica dei governi dei paesi sviluppati sono contenuti in tre differenti banche dati: Comparative Welfare States Data Set, Comparative Political Data Set e Comparative Parties Data Set. Gli autori di tutte e tre queste banche di dati hanno quantificato il potere dei diversi raggruppamenti partitici calcolando la percentuale dei membri del governo appartenenti agli schieramenti di destra, centro e sinistra, ma gli autori di Comparative Welfare States Data Set hanno usato un criterio differente dagli altri. Partendo dall’assunto che le risorse di potere si sedimentano nel tempo, hanno sommato alla percentuale di ogni anno quelle relative ad un certo numero di anni pregressi. Per questo ed altri motivi, ogni studioso interessato all’uso dei dati presentati in queste ed in altre basi di dati dovrebbe consultare attentamente le note metodologiche riportate nei libri-codice ad esse allegati. Rimane tuttavia il problema che l’impiego di un dato estrapolato dall’una o dall’altra banca, può comportare alcune differenze nei risultati che si ottengono dall’analisi dei dati. Lo stesso problema si può peraltro determinare per il fatto che in molti casi le banche dati sopra descritte fanno riferimento a insiemi di paesi lievemente diversi e a periodi di tempo non coincidenti (vedi par. 1.3).

44

3. L’organizzazione dei dati

Una volta che sono stati raccolti, i dati devono essere organizzati in modo da poter essere analizzati mediante le tecniche statistiche che verranno presentate nei capitoli successivi. Come anticipato nel paragrafo 1.4, la soluzione standard a questo problema è inserire le informazioni raccolte in una matrice. Una matrice di dati è costituita da un fascio di vettori paralleli in riga che si incrocia con un altro fascio di vettori paralleli in colonna. Ad ogni vettore-riga corrisponde un caso, ovvero quel qualcosa o qualcuno nei confronti del quale sono state raccolte le informazioni, mentre ad ogni vettore-colonna corrisponde una variabile. All’incrocio di ogni vettore-riga con ogni vettore-colonna si trova una cella contenente il dato corrispondente allo stato del caso rappresentato in riga sulla proprietà rappresentata in colonna. Ferma restando questa struttura, le matrici di dati assumono una differente configurazione a seconda che il ricercatore addotti una prospettiva trasversale, una longitudinale o combini le due prospettive. Nel capitolo che segue verranno illustrate le caratteristiche assunte dalla matrice dei dati in ciascuna di queste situazioni.

3.1. La matrice dei dati nella prospettiva trasversale Come abbiamo osservato nel paragrafo 1.1, l’adozione della prospettiva trasversale nelle ricerche comparate che seguono l’approccio orientato alle variabili prevede la raccolta di numerose informazioni riferite a più unità territoriali (in genere nazioni) osservate in un solo momento temporale, in genere un anno. Ciò significa che i vettoririga della matrice dei dati per gli studi trasversali corrispondono a singole nazioni. Viene riprodotta qui di seguito una matrice di dati 45

simile a quelle che si possono estrarre dalle banche dati descritte nel capitolo precedente (tab. 1). Tab. 1 – Primo esempio di matrice dei dati relativa ad osservazioni trasversali NUM 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

PAESE Australia Austria Belgio Canada Danimarca Finlandia Francia Germania Irlanda Italia Giappone Olanda N. Zelanda Norvegia Svezia Svizzera Regno Unito Stati Uniti

TSS 8,7 19,5 16,6 13,1 20,4 22,2 18,5 18,1 11,8 16,7 8,6 15,3 –– 15,8 21,3 11,2 15,3 13,0

P65 11,9 15,1 15,9 12,0 15,2 14,2 15,2 15,5 11,4 16,6 14,6 13,2 11,5 15,9 17,5 14,7 15,9 12,7

GVS 1,0 0,6 0,5 0,0 0,8 0,5 0,0 0,0 0,4 0,0 0,3 0,4 0,0 1,0 1,0 0,3 0,0 0,0

Come si può notare, i casi riportati in riga sono costituiti da diciotto paesi appartenenti all’area Ocse, mentre le variabili per le quali i diciotto paesi assumono differenti valori sono riportate nel terzo, nel quarto e nel quinto vettore-colonna. Esse sono rispettivamente: la percentuale del pil destinata ai trasferimenti per la sicurezza sociale (TSS), la percentuale della popolazione con un’età pari o superiore ai 65 anni (P65) e la percentuale dei membri del governo appartenenti a partiti di sinistra (GVS). La seconda e la prima colonna riportano rispettivamente il nome di ciascun paese ed il numero assegnato ad ognuno di essi. Ovviamente non c’è alcuna ragione per assegnare un numero a un paese piuttosto che a un altro. Il fatto che l’ordine dei casi nella matrice non abbia alcuna importanza per l’analisi dei dati costituisce una caratteristica specifica dell’organizzazione delle informazioni trasversali. Il numero viene pertanto usato soltanto per

46

disporre di un valore numerico per ogni caso in modo da facilitare le elaborazioni desiderate.10 Dato che la prospettiva è trasversale, tutte le informazioni riportate nella matrice riprodotta in tab. 1 si riferiscono allo stesso periodo: l’anno 1995. Tuttavia, può accadere che, all’interno di una matrice per dati trasversali, differenti variabili siano state rilevate in momenti diversi. Ad esempio, per studiare la relazione fra la politica governativa e la crescita economica di lungo periodo, alcuni economisti hanno usato matrici di dati in cui tali variabili si riferivano a momenti diversi. Come evidenzia la tab. 2, la crescita economica è stata rilevata attraverso la media delle variazioni annuali del pil per il periodo 1960-1985 (CRE), mentre la politica governativa è stata rilevata attraverso la percentuale del pil che nel 1960 veniva destinata alla spesa pubblica (SPE). Tab. 2 – Secondo esempio di matrice dei dati relativa ad osservazioni trasversali NUM 1 2 3 4 5 6 7 10 11 14 15 16 17 18

PAESE Australia Austria Belgio Canada Danimarca Finlandia Francia Italia Giappone Norvegia Svezia Svizzera Regno Unito Stati Uniti

CRE 2,3 3,7 3,6 2,9 2,5 3,6 3,5 3,9 5,9 3,4 2,6 2,0 1,9 2,6

SPE 23,5 33,1 34,8 28,8 24,8 26,3 35,0 30,6 17,1 29,9 31,0 17,2 32,4 26,4

3.2. La matrice dei dati nella prospettiva longitudinale Una forma diffusa di rilevazione longitudinale è costituita dalle serie temporali, cioè da sequenze di valori assunti da una variabile riferita allo stesso aggregato territoriale osservato in momenti o pe10

Infatti la variabile ‘PAESE’ che identifica i casi esaminati è alfanumerica.

47

riodi diversi (vedi par. 1.1). I casi della matrice sono i momenti o periodi nei quali vengono raccolte le informazioni. La tab. 3 riproduce a titolo di esempio una matrice dati per serie temporali riferite all’Italia. Ad ogni vettore-riga corrisponde un anno compreso nell’intervallo 1985-1994, mentre il terzo, il quarto ed il quinto vettore-colonna contengono le seguenti variabili: grado di apertura al commercio internazionale (COM), tasso di disoccupazione femminile (TDF) e percentuale di parlamentari di sesso femminile (PPF). Il primo e il secondo vettore colonna riportano il numero di sequenza e l’anno di rilevazione. A differenza delle matrici per dati trasversali, in questo caso i valori contenuti in questi due vettori sono in ordine cronologico11. Questa particolare organizzazione dei vettori di riga deriva dal fatto che nell’analisi delle serie storiche il tempo assume ovviamente un ruolo centrale. Come vedremo nei capitoli quinto e sesto, accade di regola che i valori passati di una particolare variabile influenzano quelli successivi. Tab. 3 – Primo esempio di matrice dei dati relativa ad osservazioni temporali NUM 1 2 3 4 5 6 7 8 9 10

ANN 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994

COM 33,1 33,0 34,6 34,3 36,1 38,7 38,3 40,9 40,9 43,6

TDF 13,1 14,0 14,7 14,8 14,7 13,4 12,8 12,9 14,6 15,5

PPF 7,6 7,6 10,3 12,9 12,9 12,9 12,9 9,7 8,1 13,4

Un’altra caratteristica delle informazioni temporali è la frequenza con la quale esse vengono raccolte. Molti dati di natura finanziaria vengono rilevati con periodicità giornaliera o settimanale. Gli andamenti di borsa hanno solitamente cadenza giornaliera. I dati di carat11 Poiché la variabile che identifica i casi (ANN) è in questo caso espressa in valori numerici, la variabile NUM non ha alcuna utilità a fini di elaborazione dei dati. I suoi valori sono infatti ottenibili sottraendo a quelli contenuti in anno la costante 1984 (anno più remoto meno 1).

48

tere macroeconomico vengono invece raccolti mensilmente, trimestralmente o annualmente. Le informazioni sull’inflazione hanno di norma cadenza mensile, mentre quelle riguardanti il mercato del lavoro o il pil hanno periodicità trimestrale o annuale (ciò si può riscontrare ad esempio in OECD Statistical Compendium; vedi par. 2.2). Le informazioni di carattere socio-demografico e politicoistituzionale vengono rilevate in genere con cadenza annuale (vedi cap. 2). Questo aspetto ha ovviamente alcune conseguenze sul piano dell’organizzazione dei dati in matrice. Tutte le informazioni contenute nella matrice riprodotta in tab. 3 hanno una periodicità annuale; alcune di esse vengono tuttavia raccolte con cadenza più frequente. In particolare i dati sul tasso di disoccupazione femminile sono rilevati con periodicità trimestrale.

3.3. La combinazione delle due prospettive Come ha osservato Beck (2001), quando si combinano la prospettiva trasversale e la prospettiva diacronica si possono identificare due differenti tipi di dati a seconda del livello di analisi adottato. Se ci si pone in un’ottica di tipo micro, si avranno rilevazioni ripetute nel tempo (in genere pochi anni) su un campione fisso di individui, famiglie o imprese. Si parla in questo caso di dati panel (Ruspini 2004, cap. 2). Se ci si pone invece in un’ottica di tipo macro, si avranno osservazioni ripetute nel tempo (in genere serie temporali relative ad alcuni decenni con cadenza annuale) su un determinato numero di unità territoriali (in genere nazioni). Si parla in questo caso di dati trasversali in serie storica (vedi par. 1.1). In questo volume faremo riferimento soltanto ai dati del secondo tipo. La tab. 4 riproduce un esempio di matrice di dati trasversali in serie storica.

49

Tab 4 – Esempio di matrice in forma allungata per dati trasversali in serie storica NUM 1 2 3 .... 7 8 9 .... 13 14 15 .... 25 26 .... 30

PAESE Austria Austria Austria ... Italia Italia Italia .... Giappone Giappone Giappone .... Stati Uniti Stati Uniti .... Stati Uniti

ANN 1990 1991 1992 ... 1990 1991 1992 .... 1990 1991 1992 .... 1990 1991 .... 1995

TSS 17,8 17,8 18,1 ... 15,5 15,6 16,5 .... 7,4 7,1 7,3 .... 11,1 12,2 .... 13,0

P65 14,9 15,0 14,9 ... 14,9 15,3 15,6 .... 12,1 12,6 13,1 .... 12,5 12,6 .... 12,7

Nei vettori-colonna ci sono due delle variabili riportate in tab. 1: la percentuale del pil destinata ai trasferimenti per la sicurezza sociale (TSS) e la percentuale della popolazione con un’età pari o superiore ai 65 anni (P65) (si vedano il quarto ed il quinto vettore-colonna di tab. 4). Ogni vettore-riga ha invece un riferimento sia spaziale sia temporale: infatti i casi sono identificabili attraverso una combinazione della variabile ‘paese’ e della variabile ‘anno’. Un caso corrisponde pertanto ad un paese-anno. L’etichetta relativa ad ogni paese viene ripetuta tante volte quante sono i dati diacronici ad essa relativi. In una matrice di dati trasversali in serie storica il totale dei casi corrisponde quindi al prodotto fra il numero delle unità territoriali e i punti temporali. Questo modo di strutturare la matrice dei dati è la soluzione più comunemente usata per organizzare i dati trasversali in serie storica. Essa è denominata forma allungata (long form). C’è tuttavia una seconda soluzione,detta forma allargata (wide form). Il suo impiego è però più frequente per l’organizzazione di dati panel. A titolo di esempio, in tab. 5 viene riprodotta la matrice dei dati di tab. 4 in forma allargata. In questo caso, ogni vettore-riga corrisponde ad un paese (unità territoriale), mentre in colonna ogni variabile viene ripe50

tuta tante volte quanti sono i punti temporali presi in esame. Le variabili TSS e P65 vengono pertanto rappresentate da 5 vettoricolonna per ciascuna. Se i valori di una variabile non cambiano nel periodo di tempo considerato, come spesso accade per le variabili di tipo istituzionale, la variabile può essere presentata in un unico vettore-colonna. Tab. 5 –Esempio di matrice dei dati in forma allargato per dati tst PAESE

TSS-90

Austria

17,8

14,9

17,8

15,0

....

19,5

15,1

Italia

15,5

14,9

15,6

15,3

....

16,7

16,6

Giappone

P65-90 TSS-91

P65-91

....

TSS-95

P65-95

7,4

12,1

7,1

12,6

....

8,6

14,6

Svezia

19,5

17,8

21,1

17,7

....

21,3

17,5

Stati Uniti

11,1

12,5

12,2

12,6

....

13,0

12,7

51

4. L’analisi dei dati trasversali e il problema dell’inferenza

Dopo la raccolta e l’organizzazione dei dati in matrice, occorre impiegare le tecniche di analisi. La loro illustrazione inizia in questo capitolo con un’introduzione all’analisi mono-, bi- e multi-variata per dati trasversali riferiti a unità nazionali. In merito all'analisi bi- e multivariata ci si concentrerà sul ruolo assunto dalla regressione lineare nel controllo delle ipotesi di ricerca. In conclusione verrà accennato al problema dell’inferenza statistica quando si conduce uno studio macro-comparato orientato alle variabili.

4.1. Le tecniche di analisi monovariata Le tecniche di analisi monovariata hanno come oggetto di riferimento il vettore-colonna corrispondente ad una sola variabile e la relativa distribuzione di frequenza. Esse si compongono di una pluralità di grafici, tabelle e valori caratteristici. Grafici e tabelle servono di norma a rappresentare integralmente la distribuzione di frequenza dei dati in un vettore-colonna; i valori caratteristici ne esprimono invece particolari proprietà. Questi strumenti servono a descrivere i fenomeni studiati e svolgono una funzione di carattere strumentale nei confronti delle analisi bi- e multi-variate. Come risulterà infatti chiaro dalle pagine che seguono, alcuni valori caratteristici servono a calcolare una serie di coefficienti impiegati nelle analisi che riguardano più vettori-colonna; altri permettono di controllare in che modo si distribuiscono le variabili oggetto dell’analisi bi- e multi-variate. 53

La scelta di quale tipo di grafico o tabella è preferibile adottare è fortemente condizionata dal numero di casi esaminati, e quindi nel nostro caso dal fatto che l’ambito di ricerca sia confinato ai soli paesi sviluppati o si estenda alla totalità dei paesi presenti sul pianeta (vedi par. 1.1). Se si vuole, ad esempio, analizzare la percentuale del pil che 17 paesi dell’area Ocse hanno destinato nel 1960 ai trasferimenti per la sicurezza sociale, una rappresentazione tabulare della distribuzione di frequenza è inopportuna: le categorie di questa variabile (ovvero i valori percentuali) ― come di molte altre usate nelle ricerche di livello macro ― assumono punteggi differenti per ognuno dei 17 casi esaminati. La distribuzione di frequenza risultante presenterebbe quindi valore 1 per tutte o quasi tutte le categorie. La soluzione più semplice consiste quindi nel rappresentare l’intero vettore-colonna corrispondente a questa variabile. A tale scopo si può ricorrere a una tabella del tutto analoga alla seconda e alla terza colonna di tab. 1, presentata per esemplificare le matrici dei dati trasversali (vedi par. 3.1). In alternativa si può usare un diagramma a barre avente, per ognuno dei 17 casi nazionali, una colonna di base uguale e di altezza proporzionale alla percentuale del pil destinata ai trasferimenti per la sicurezza sociale (vedi fig. 1). Fig.1 – Esempio di diagramma a barre ottenuto usando la percentuale del pil destinata da 17 paesi sviluppati ai trasferimenti per la sicurezza sociale Giappone Australia Svizzera Irlanda Stati Uniti Canada Gran Bretagna Olanda Norvegia Belgio Italia Germania Francia Austra Danimarca Svezia Filanda 0

5

10 15 20 trasferimenti per la sicurezza sociale

54

25

Il ricorso a una di queste soluzioni potrebbe tuttavia suscitare alcune perplessità in merito all’opportunità di presentare il punteggio della variabile per la totalità dei casi considerati. Come osserva infatti Marradi (1993, 98), in casi del genere ogni categoria della variabile è priva di autonomia semantica. Ciò significa che è poco interessante sapere che un paese (considerato da solo) destini una data percentuale del pil ai trasferimenti per la sicurezza sociale. Il ridotto numero di casi consente tuttavia di dare alcune informazioni che possono risultare utili sul piano descrittivo; ad esempio riportare quali paesi hanno speso di più e quali meno in ambito di politica sociale. I valori caratteristici, come detto, estrinsecano alcune proprietà delle distribuzioni di frequenza attraverso semplici valori numerici. Si possono distinguere in particolare i valori caratteristici che indicano la tendenza centrale di una distribuzione, ovvero la categoria (o il valore) intorno alla quale gravitano i casi che la compongono, dai valori caratteristici che esprimono la misura in cui le categorie della variabile si disperdono attorno al valore centrale della distribuzione (una distribuzione sarà tanto più dispersa quanto più casi presentano valori che si discostano in modo significativo dal suo valore centrale). Fra i valori caratteristici che esprimono il valore centrale di una distribuzione la media aritmetica è ovviamente il più usato. Per calcolarla occorre dividere la somma di tutti i valori assunti dalla variabile per il totale dei casi. La media viene comunemente identificata col simbolo x e si ottiene attraverso la seguente formula matematica:

x =

N

∑ i =1

Xi N

[1]

dalla variabile in un caso quadove Xi rappresenta il valore assunto N lunque, N il numero dei casi e ∑ la sommatoria dei valori di tutti i i =1 casi sulla variabile. Un secondo valore caratteristico che esprime il valore centrale di una distribuzione è la mediana. Essa coincide con il valore che divide in due parti uguali la serie dei valori di una distribuzione. Per identificare il valore mediano occorre pertanto ordinare dal più piccolo al più grande i valori di una distribuzione. Ad esempio, il valore me55

diano della distribuzione rappresentata nella fig. 1 è il punteggio assunto dalla Norvegia: 15,8. Fra i valori caratteristici che quantificano il grado di dispersione della distribuzione di una variabile attraverso lo scostamento delle sue categorie dalla media, si possono menzionare la devianza, la varianza, lo scarto tipo (deviazione standard) e il coefficiente di variazione. Questi si possono distinguere in base al tipo di normalizzazione adottata e, quindi, alla possibilità (o meno) di essere posti in relazione con altri valori caratteristici della stessa distribuzione o per effettuare confronti fra differenti distribuzioni (Marradi 1993, cap. 5). La devianza corrisponde alla somma dei quadrati degli scarti dalla media ∑(Xi - x )2, dove (X - x ) rappresenta appunto lo scarto (in forma abbreviata xi), ovvero la distanza di un qualunque valore dalla media, mentre l’elevazione al quadrato evita che la somma si annulli per bilanciamento degli scarti positivi e negativi. La devianza non è normalizzata rispetto al numero dei casi e pertanto non consente di valutare se una distribuzione è più dispersa di un’altra. Per fare questa valutazione, è sufficiente dividere la devianza per il numero totale dei casi, ottenendo la varianza. Tuttavia, poiché la varianza è, in ragione dell’elevazione al quadrato degli scarti, una grandezza quadratica, essa non può essere posta a confronto con grandezze lineari, quali la media aritmetica. La soluzione è ovviamente quella di estrarne la radice quadrata. In questo modo si ottiene un altro valore caratteristico: lo scarto tipo. Esso è esprimibile attraverso la seguente formula: N

s=

∑x i =1

i

[2]

N

Lo scarto tipo non assicura tuttavia una piena comparabilità fra distribuzioni aventi medie diverse. In tal caso occorre normalizzare lo scarto tipo rispetto alla media ottenendo così il coefficiente di variazione (V = s/ x ).

56

4.2. La regressione lineare semplice Sebbene, come abbiamo cercato di evidenziare, le tecniche monovariate ricoprano un ruolo di una certa importanza nell’analisi dei dati, esse non consentono di assolvere un compito cruciale nell’approccio standard alla scienza: controllare empiricamente un’ipotesi di relazioni fra variabili. Per assolvere a tale compito è necessario considerare come minimo due variabili e quindi procedere attraverso tecniche di analisi che permettano di prendere in esame più di un vettore-colonna contemporaneamente. Detto diversamente, poiché un’ipotesi di ricerca è un asserto riguardante la relazione fra due (o più) variabili (vedi par. 1.4), il suo controllo richiede come minimo l'impiego di tecniche bivariate (analisi di una distribuzione congiunta dei loro valori). Come anticipato nel paragrafo 1.1, nei primi studi comparati orientati alle variabili si faceva ricorso a tecniche bivariate come il diagramma a dispersione e il coefficiente di correlazione. Sul piano del controllo dell’ipotesi il coefficiente di correlazione presenta però un importante limite: esprimendo in che misura due variabili variano congiuntamente, esso non ci dà alcuna informazione su quale delle due variabili causi questa covariazione influenzando l’altra. Pertanto, non serve per mettere alla prova ipotesi che prevedano relazioni unidirezionali proprio perché è una tecnica strutturalmente bidirezionale (Marradi 1997, 163). Dovendo controllare ipotesi di questo tipo i comparatisti di scuola statistica passarono ben presto alla regressione lineare ─ usata ormai da diverso tempo in molti campi di ricerca per surrogare relazioni causali (Micheli e Manfredi 1995, 143). Quando ci si riferisce soltanto a due variabili si parla di regressione lineare semplice. In termini matematici essa è esprimibile attraverso un’equazione di tipo lineare relativa a una retta interpolante i punti in un diagramma a dispersione (vedi la fig. 2, descritta nell'esempio che segue).Si ha quindi:

ˆ i = a + bXi Y

[3]

Tale equazione ci dice che i valori della variabile dipendente Y sono funzione dei valori della variabile indipendente X moltiplicati per un parametro b,detto coefficiente di regressione, e sommati a un 57

parametro a, detto intercetta. Il coefficiente di regressione dà alcune informazioni cruciali nell’ipotesi di uni-direzionalità della relazione. Il segno ad esso associato rivela se la X e la Y sono associate positivamente (+b) o negativamente (-b). In secondo luogo esso esprime l’intensità dell''influenza esercitata dalla variabile indipendente sulla variabile dipendente. In pratica il valore di b indica quanto varia il valore della Y per ogni variazione unitaria della X. Il suffisso i aggiunto alla X e alla Y segnala il fatto che l’equazione di regressione è riferibile ad ogni caso preso in esame. L’accento circonflesso posto sulla Y sta invece ad indicare che i valori di questa variabile non corrispondono a quelli osservati, ma a quelli predetti sulla base dei parametri a e b. Per fare in modo che i valori predetti della Y corrispondano a quelli osservati, è necessario aggiungere all’equazione 3 il termine ei. Esso rappresenta quella parte del valore della Y in ciascun caso che non viene predetta dalla sua relazione con la X. Il valore di ei corrisponde alla differenza fra Yi e Ŷie appare di cruciale importanza in merito al metodo di calcolo dei parametri a e b. Il metodo più comunemente usato a tale scopo si caratterizza, infatti, per la minimizzazione dei quadrati degli scarti tra valori predetti e valori osservati. Per tale motivo questa procedura viene comunemente detta metodo dei minimi quadrati ordinari (d'ora in poi mqo). In termini matematici ciò che il metodo minimizza è: n

∑ (Y i =1

i

n ) − Yi ) 2 = ∑ e i2

[4]

l =1

I parametri della retta di regressione sono calcolati con questa formula:

a = y − bx

[5]

∑ xi y i ∑ xi2

[6]

b=

Per chiarire quanto detto sin qui, supponiamo che un ricercatore voglia controllare l’ipotesi secondo cui all’aumentare degli scambi commerciali con l'estero, corrisponde un incremento del livello di tassazione (Cameron 1978). Per farlo, egli si serve di una matrice 58

contenente due variabili i cui valori sono stati rilevati nel 1976 per 12 paesi dell’area Ocse. Le due variabili sono la percentuale del pil corrispondente alla somma dei flussi di importazione ed esportazione (COM) e la percentuale del pil assorbita dalla tassazione nazionale (TAS). Il nostro ricercatore comincia la propria analisi producendo un diagramma a dispersione. Pone sull’asse delle ascisse la variabile COM (variabile indipendente) e sull’asse delle ordinate la variabile TAS (variabile dipendente). Poi fissa sul piano cartesiano i 12 punti corrispondenti ai 12 casi presi in esame. Cosi facendo ottiene un grafico a dispersione analogo a quello di fig. 2. Osservando la nube di punti raffigurata nel diagramma, egli si persuade che la distribuzione congiunta delle due variabili corrobora la sua ipotesi di partenza da più punti di vista. In primo luogo può tranquillamente affermare che le due variabili co-variano. Da un lato, infatti, i paesi che presentano punteggi elevati sulla variabile indipendente (Belgio, Olanda e Norvegia) presentano punteggi elevati anche sulla variabile dipendente, e i paesi che presentano un basso livello di apertura al commercio internazionale (Canada, Italia e Stati Uniti) presentano percentuali ridotte pure in materia di tassazione. L’associazione fra le due variabili è quindi di segno positivo. In secondo luogo si può asserire che il grado di apertura al commercio internazionale e il livello di tassazione nazionale sono associati in modo lineare. La nube di punti risultante dal grafico a dispersione assume infatti una forma tendenzialmente rettilinea, senza evidenziare particolari curvature.12 Si può pertanto aggiungere al diagramma a dispersione una linea retta interpolante i punti della nube (vedi fig. 2) e calcolare i parametri della regressione lineare semplice applicando le formule 5 e 6 ai dati a disposizione. Così facendo si può riscrivere l’equazione 3 nei termini seguenti: TÂSi = 28,47 + 0,16·COMi (i=1,2,3…..12)

12

[7]

Peraltro, se si escludono i punti relativi a Stati Uniti e Francia, la nube di punti sarebbe interpolabile anche da una curva.

59

Fig. 2 – Esempio di retta interpolante i punti di un diagramma a dispersione ottenuto ponendo sull’asse delle ascisse il grado di apertura commerciale e sull’asse delle ordinate il livello di tassazione nazionale

45

No

Ol Be

tassazione nazionale 35 40

Da

Fr Fi

Au

Ge Gb Ca SU

30

It

20

40

60 apertura commerciale

80

100

Se si sostituiscono alla sigla COMi i valori osservati per questa variabile, si ottengono i valori predetti di TAS per ognuno dei 12 paesi presi in considerazione. Sapendo ad esempio che il valore osservato di COM riferito all’Italia equivale a 43,18, si può concludere che il corrispondente valore predetto di TAS è 35,38 [28,47 + (0,16· 43,18)]. Inoltre, se da tale valore si sottrae il valore osservato di TAS per l’Italia, si ottiene il corrispondente residuo. [35,37 30,27 = 5,10]. Se ne deduce che il livello di tassazione italiano è molto inferiore a quello prevedibile sulla base della sua apertura al commercio internazionale. Se si ripete quest’operazione per i restanti 11 casi e si sommano i quadrati di tutti i residui, si ricaverà la quantità che viene resa minima dall’applicazione del metodo mqo. A prescindere da questi calcoli, l’equazione 7 consente di dire qualcosa di più preciso rispetto a quanto permetteva l’ispezione del 60

diagramma a dispersione, ossia che al crescere di un punto percentuale (ovvero di un’unità) di COM si determina tendenzialmente un aumento di TAS pari a 0,16 punti percentuali.13L’influenza di COM su TAS è dunque confermata, ma appare alquanto ridotta,se rapportata al valore medio della variabile dipendente. Infatti, se, una crescita unitaria di COM determina un aumento medio di 0,16 punti percentuali dei valori di TAS, ciò risulta irrisorio rispetto al valore medio del livello di tassazione, equivalente a 38,1.

4.3. La regressione lineare multipla Finché si lavora con due variabili non sappiamo se la relazione che appare è genuina o spuria, cioè dipende dall’influenza di terze variabili. Si passa per questo motivo dall'analisi bivariata all'analisi multivariata, che consente di controllare la genuinità di una relazione: si parte infatti da un’ipotesi uni-direzionale in cui la variabile indipendente influisce sulla variabile dipendente e ci si chiede se la covariazione osservata nell’analisi bivariata resiste all'introduzione di una o più variabili di controllo (Ricolfi 1993, cap. 3). Se la relazione fra le due variabili persiste, si rafforza l’idea che sia genuina. Se invece la relazione si attenua o cambia segno, concludiamo che essa è spuria. Lo strumento per questo controllo è la regressione lineare multipla, che esprime la variabile dipendente come funzione di una variabile indipendente e una o più variabili di controllo. Dal punto di vista matematico la regressione lineare multipla è un’estensione della regressione lineare semplice. Infatti, se in quest’ultima si trova una sola variabile alla destra del segno uguale dell’equazione che la esprime, nella regressione lineare multipla se ne trovano più di una. Essa può essere espressa come segue:

) Yi = a + b1X i1 + b 2 X i2 + ... + b k X ik

[8]

dove il suffisso aggiunto alla b, variando fra 1 e k, individua ogni singolo regressore, ovvero ogni singola variabile collocata alla destra

13 Tendenzialmente perché i valori empirici non corrispondono a quelli predetti sulla base di una regressione.

61

del segno uguale.14 Per stimare i parametri di questa equazione si ricorre al metodo mqo, senza però poter applicare le formule presentate per la regressione lineare semplice, ma facendo affidamento su procedure di calcolo matriciale.15 Per quanto concerne l’interpretazione dei parametri, valgono le stesse regole enunciate per la regressione lineare semplice, con la sola ed importante differenza che, quando si interpreta un parametro, occorre tener conto di tutti i regressori. In questo modo possiamo dire che, mentre il parametro a esprime il valore di Y predetto quando tutti i regressori sono pari a zero, ciascun parametro bk indica la variazione media del valore predetto di Y rispetto ad ogni variazione unitaria del regressore Xk a parità di ogni altra condizione, ovvero quando i valori di tutti gli altri regressori sono tenuti costanti. Ciò acquista una grande importanza rispetto a quanto si è detto sul controllo delle ipotesi di ricerca. Il coefficiente di regressione che viene stimato per le variabili indipendenti esprime in termini di segno e intensità la relazione fra queste due variabili depurata dagli effetti esercitati dalle variabili di controllo. Pertanto, se passando da una regressione lineare semplice ad una regressione lineare multipla comprensiva di una o più variabili di controllo, il coefficiente relativo alla variabile indipendente non cambia di segno e/o non manifesta un valore sensibilmente differente, non si hanno prove di una relazione spuria. Queste prove saranno più convincenti quanto meglio il modello è specificato: ma quali criteri adottare per giungere ad una buona specificazione? In altri termini, come si individuano le variabili di controllo? In termini generali possiamo dire che queste ultime vanno scelte in base alla possibilità di svolgere un’azione distorcente rispetto alla covariazione fra la X e la Y, in modo che neutralizzandole si faccia emergere l'effetto genuino esercitato dalla variabile indipendente. 14

Sebbene sul piano statistico sia corretto far coincidere il numero totale delle variabili che si trovano alla destra del segno uguale con il numero di regressori inclusi, in alcuni casi tale coincidenza risulta essere scorretta sul piano concettuale. Ciò accade quando la stessa variabile è introdotta più volte nella regressione, ogni volta con valori diversi in quanto trasformata attraverso l’impiego di differenti operatori matematici. Per avere un esempio di tale situazione, si vedano le equazioni riferite alle regressioni per dati in serie storica riportate nel par. 6.1. 15 Il lettore che volesse approfondire la questione può consultare ad esempio Micheli e Manfredi (1995), Fox (1996) e Wooldridge (2002).

62

Occorre quindi rifarsi alle congetture che si hanno riguardo al ruolo assunto dalle variabili di controllo rispetto alla relazione; già con una sola variabile di controllo si possono avere diversi percorsi causali: a) la variabile di controllo non influenza né la variabile dipendente né quella dipendente; b) la variabile di controllo influisce solo sulla variabile dipendente; c) la variabile di controllo influenza solo la variabile indipendente; d) la variabile di controllo influisce sia sulla variabile dipendente sia sulla indipendente, e) la variabile di controllo media la relazione fra la variabile dipendente e quella indipendente (Ricolfi 1995). In linea con questo discorso Corbetta, Gasperoni e Pisati (2001, capp.8 e 9) sostengono che occorre includere nell'analisi di regressione tutte quelle variabili che, nell’ordine causale che può essere ricostruito per la variabile dipendente, precedono sia la X che la Y (variabili antecedenti) e quelle variabili che, pur covariando con la variabile indipendente, non si possono considerare né una loro causa né un loro effetto (variabili concomitanti). Vanno poi introdotte nell'analisi di regressione tutte le variabili intervenienti, ovvero tutte quelle variabili che precedendo nell’ordine causale la Y, ma essendo successive alla X, ne mediano la relazione (vedi fig. 3). In questo modo si può peraltro stimare l’effetto diretto che consiste appunto nell’influenza esercitata da una variabile su un’altra senza alcuna mediazione.16

16 Collegati al concetto di effetto diretto sono i concetti di effetto totale ed effetto indiretto. L’effetto totale corrisponde alla somma fra l’effetto diretto e quello indiretto e si può ottenere stimando il modello senza includere alcuna variabile interveniente. L’effetto indiretto corrisponde invece al prodotto fra l’effetto che la variabile indipendente esercita sulla variabile interveniente e l’effetto che la variabile interveniente esercita su quella dipendente. Come si può intuire, per conoscere una stima dell’effetto indiretto, occorre dapprima stimare sia l’effetto totale che quello diretto (Corbetta, Gasperoni e Pisati 2001).

63

Fig. 3 – Un modello casuale complesso

A

X

I

Y

C

Legenda: A variabile antecedente; C variabile concomitante; I variabile interveniente.

Per identificare quali sono le variabili da inserire nella regressione, occorre rifarsi alla nostra conoscenza del contesto e alle teorie vigenti. Il problema è che ─ come ha osservato Western (1996) ─ la vaghezza delle teorie sui processi sociali di larga scala lascia una grande incertezza a proposito della ricostruzione delle intere catene causali che uniscono le diverse variabili. Ciò fa si che quando dobbiamo specificare un modello, pur potendo seguire alcuni principi guida, rimaniamo comunque incerti fra numerose alternative. Vediamone un caso specifico riprendendo l’esempio sullo sviluppo del welfare state introdotto nel paragrafo 1.4. Supponiamo ora che un ricercatore voglia mettere alla prova l’ipotesi secondo cui il potere del movimento dei lavoratori eserciti un effetto causale positivo sull’intervento sociale da parte dello Stato. Per fare ciò decide anzitutto di operativizzare lo sviluppo dello stato sociale attraverso la percentuale del pil destinata ai trasferimenti per la sicurezza sociale (TSS, variabile dipendente) e di tradurre in termini empirici il potere dei lavoratori attraverso la densità sindacale (DEN, variabile indipendente) in quanto ritiene che le risorse di potere a disposizione dei lavoratori consistono nella loro capacità di unirsi in sindacato. A questo punto inizia la sua analisi calcolando i parametri di una regressione lineare semplice su un insieme di dati trasversali relativi al 1990 riferiti a 17 economie avanzate. Supponiamo che ottenga una retta di regressione con la seguente equazione: TŜSi = 11,70 + 0,07*DENi 64

(i= 1,2,3…..17)

[9]

Il segno del coefficiente di regressione dimostra che la densità sindacale esercita un effetto positivo sui trasferimenti per la sicurezza sociale. Il valore di tale coefficiente indica inoltre che ogni volta che DEN aumenta di un’unità TSS cresce in media dello 0,07 per cento. Tutto ciò non contraddice l’ipotesi del nostro ricercatore. Tuttavia, egli è consapevole che un modello bivariato è quasi sempre mal specificato. Decide allora di ricorrere alla regressione lineare multipla. Seguendo le argomentazioni di Cameron (1978), il nostro ricercatore ritiene in particolare che il grado di apertura al commercio internazionale possa esercitare un effetto causale positivo sia su DEN che su TSS. Ciò avviene perché le economie più esposte al commercio internazionale tendono ad avere più elevati tassi di concentrazione industriale, che tendono a loro volta a rendere più elevati i tassi di sindacalizzazione e di conseguenza il livello di spesa sociale. A tale scopo il nostro ricercatore decide di inserire nel proprio modello una variabile di controllo espressa dalla quota del pil destinata ai flussi di importazione ed esportazione (COM). Supponiamo che l’equazione che ottiene sia la seguente: TŜSi = 8,85 + 0,04·DENi + 0,07·COMi

(i=1,2,3…..17)

[10]

Come si può notare, i suoi sospetti erano fondati: il coefficiente di regressione riportato nell'equazione 9 non esprime l'effetto genuino che la densità sindacale esercita sulla percentuale di spesa sociale. Introducendo la variabile COM, tale parametro è infatti passato da 0,07 a 0,04. A questo punto il lettore potrebbe però chiedersi perché il valore di tale parametro sia diminuito. La risposta va ricercata nel fatto che il coefficiente nella regressione semplice era stato impropriamente gonfiato dall’effetto positivo esercitato da COM tanto su DEN che su TSS. A questo punto, se si fosse certi che TSS e DEN non hanno altre cause in comune, si potrebbero usare i parametri relativi alla densità sindacale nella seconda regressione e concludere l’analisi. Ma si può ritenere che sia insufficiente esprimere le risorse a disposizione del movimento dei lavoratori considerando unicamente la densità sindacale. Si può pertanto inserire un’altra variabile normalmente usata per quantificare quelle risorse, ovvero la percentuale di membri del governo appartenenti a partiti di sinistra: GVS (vedi il par. 1.4). A 65

questo punto il modello prevede due variabili indipendenti: DEN e GVS. Introducendo GVS nella regressione, si potrà stimare meglio l'effetto diretto di DEN. Questo perché, supponendo che DEN eserciti un effetto positivo tanto su TSS che su GVS in quanto è probabile che laddove esistano sindacati potenti esistano anche forti partiti di sinistra), si può ritenere che il coefficiente di regressione relativo a DEN nell’ultima regressione non esprima il suo effetto diretto, quanto piuttosto quello totale (vedi la nota 16). Tuttavia, prima di inserire nell'analisi di regressione una variabile che esprima la percentuale di membri del governo che nel 1990 appartenevano a partiti di sinistra, un ricercatore potrebbe riflettere sugli studi dedicati allo sviluppo del welfare state. Da questi risulta infatti che, mentre DEN e TSS sono entrambi indicatori strutturali (rispettivamente dello sviluppo del welfare state e del potere sindacale), la composizione percentuale dei governi riferita ad un solo anno costituisce un indicatore congiunturale del potere a disposizione del movimento dei lavoratori. Per chiarire questa affermazione, potremmo sostenere che una maggioranza di governo può nel corso di un solo anno incidere sulla variazione annua della spesa per il welfare, senza però poterne modificare in modo significativo il livello percentuale (Kittel e Winner 2005). In altri termini, i politici, dovendo fare i conti con i bilanci dell’anno precedente, possono apportare al livello della spesa pubblica soltanto lievi modifiche (Durr 1993).7 Tenuto conto di tali osservazioni, si può ricorrere ad un indicatore strutturale anche per operativizzare il potere a disposizione dei lavoratori a livello governativo. Seguendo il suggerimento di Huber, Ragin e Stephens (1993), si può inserire nella regressione una variabile che somma alla percentuale di membri del governo appartenenti a partiti di sinistra registrata nell’anno corrente, le corrispondenti percentuali rilevate in un certo arco di anni precedenti (a partire ad esempio dal 1945). L’equazione della retta di regressione può quindi risultare: TŜSi = 9,32 + 0,21*GVSi - 0,05*DENi + 0,07*COMi (i=1,2,3…..17)

[11]

Vedendo che il coefficiente di regressione riferito a DEN ha segno meno, ci si può domandare perché l’effetto diretto esercitato dalla densità sindacale sul livello di spesa sociale possa risultare negativo. Ciò dipende dal fatto che l’effetto diretto di una variabile si ottiene sottraendo dal suo effetto totale il suo effetto indiretto, e che 66

quest’ultimo corrisponde all’effetto che la variabile indipendente esercita su quella interveniente moltiplicato per l’effetto che la variabile interveniente esercita su quella dipendente. Dall'analisi di regressione senza l’inclusione di GVS risulta che l’effetto totale di DEN corrisponde a +0,04. Dall’ultima regressione risulta inoltre, che l’effetto diretto di quella variabile è pari a -0,05. Con una semplice somma algebrica si può concludere che l’effetto indiretto di DEN è pari a +0,09. Il segno negativo dell’effetto diretto di DEN su TSS ha dunque a che fare col fatto che l’effetto indiretto di quella variabile è maggiore del suo effetto totale. Per trovarne una spiegazione, si può procedere osservando in che misura covariano le variabili che sono coinvolte nella stima dell’effetto totale e di quello indiretto, calcolando i coefficienti di correlazione relativi alle seguenti coppie di variabili: DEN-TSS, DEN-GVS e GVS-TSS. Poiché il coefficiente di correlazione relativo alla coppia DEN-GVS è piuttosto elevato(r=.76). si può concludere che l’effetto indiretto supera quello totale per un problema di multicollinearità. Questo problema statistico si verifica quando, come accade nel nostro caso, si hanno regressori altamente correlati fra loro, ottenendo di conseguenza coefficienti di regressione parziale con segni inaspettati e valori esageratamente elevati o esageratamente bassi.17 La multicollinearità è un problema piuttosto ricorrente nell’analisi dei dati nazionali (Western e Jackman 1994). Se si incontra, si può risolvere la questione optando per una diversa strategia di analisi: partendo dal presupposto che la stima dell’effetto diretto di DEN su TSS venga distorta dall’alta correlazione fra DEN e GVS, si può rinunciare a questa stima ed escludere dalla regressione una delle due variabili altamente correlate, quella teoricamente meno rilevante (Fox 1991), oppure quella che contrasta con l’ipotesi di partenza, nel nostro caso DEN. Chi procede così pensa infatti che se i risultati della sua analisi verranno pubblicati, i problemi derivanti dall'alta correlazione fra GVS e DEN non verranno comunque posti in luce. Una cattiva consuetudine dei ricercatori consiste infatti nel presentare i risultati delle loro analisi soltanto nelle loro versioni conclusive, celando le complicazioni emerse durante la fase di analisi dei dati (vedi par. 1.3). 17

Non è il caso di stabilire una soglia generale al di sopra della quale una correlazione fra regressori diventa così alta da generare multicollinearità. La situazione va valutata caso per caso (Wooldridge 2002).

67

Un ricercatore può quindi decidere di proseguire la propria analisi optando per una regressione lineare multipla che gli consenta di evidenziare l’effetto causale netto esercitato da GVS su TSS. Così facendo GVS diventa la sola variabile indipendente, mentre COM continua ad essere una variabile di controllo. L’equazione di regressione potrebbe pertanto diventare: TŜSi = 8,55 + 0,14*GVSi + 0,07*COMi

(i=1,2,3…..17)

[12]

A questo punto si potrebbe usare il coefficiente relativo a GVS per corroborare l’ipotesi secondo la quale il potere a disposizione del movimento dei lavoratori esercita un effetto positivo sullo sviluppo del welfare state. Tuttavia nella letteratura sull’evoluzione dello stato sociale, diversi studi mostrano che i trasferimenti per la sicurezza sociale (specie quelli pensionistici) tendono a variare in modo significativo in ragione della quota di anziani presenti in una nazione, a prescindere dalle politiche messe in atto dai governi nazionali. Si può quindi decidere di introdurre un’ulteriore variabile di controllo, costituita dalla percentuale di individui residenti in un dato paese con un’età superiore ai 64 anni (P65). Pur essendo completamente scollegata da GVS dal punto di vista teorico, questa variabile è correlata con essa (r=.69). Di conseguenza l’equazione di regressione diventa: TŜSi = -0,76 + 0,05*GVSi + 0,07*COMi + 0,76*P65i (i=1,2,3….17)

[13]

A questo punto un ricercatore può decidere di porre fine alla propria analisi, ritenendo che il modello sia stato specificato abbastanza bene e che il coefficiente relativo a GVS possa essere ritenuto una discreta stima dell’effetto genuino esercitato da questa variabile su TSS.

4.4. L’analisi dei residui L’esempio descritto nel paragrafo precedente dovrebbe aver fatto comprendere al lettore che la vaghezza delle teorie sui fenomeni sociali di larga scala rende alquanto aleatoria l’attività di specificazione di un modello esplicativo e di conseguenza la scelta delle variabili da inserire in una regressione. La sostituzione della variabile indipen68

dente durante l’analisi dei dati (da DEN a GVS) dovrebbe aver, poi, reso evidente che un percorso di ricerca va inteso come un processo circolare a più passi che si influenzano vicendevolmente, e che spesso l’analisi dei dati determina una riformulazione delle ipotesi di partenza anziché darne una mera conferma o smentita (vedi par. 1.4). Questo esempio non può tuttavia mettere in luce in modo esaustivo in che misura l’analisi dei dati può contribuire al passaggio da una regressione bivariata a una regressione multivariata e in che modo si devono scegliere le variabili da inserire in quest’ultima. Un ruolo alquanto importante in questa fase viene rivestito dall’analisi dei residui. Questo perché la distribuzione e i punteggi che questi assumono per ogni caso preso in considerazione dipendono da variabili escluse dall’analisi di regressione. Per chiarire la questione si può iniziare illustrando un’importante differenza fra le macro comparazioni orientate alle variabili e le ricerche di livello micro di stampo quantitativo. In queste ultime l’estrazione di un campione casuale da una più ampia popolazione consente di analizzare casi fra loro indipendenti e di ottenere di conseguenza residui fra loro in correlati. Nelle ricerche macrocomparate, invece, i casi vengono di norma scelti in base alla disponibilità dei dati. Per questo motivo accade spesso che l’ambito di questo tipo di ricerche coincida con il totale o quasi dei paesi aderenti all’Ocse, se si studiano le vicende delle economie sviluppate, o con il totale o un sottogruppo dei paesi affiliati alla Banca mondiale o al Fmi, se si studiano le vicende dell’intero pianeta (vedi par. 1.1 e cap. 2). È abbastanza chiaro che in tali situazioni i casi analizzati non sono indipendenti fra loro. I paesi si possono distinguere in una molteplicità di gruppi (continenti, aree di libero scambio, ecc.) in ragione delle svariate relazioni che essi intrattengono sul piano economico, politico e culturale. I residui delle analisi di regressione risultano pertanto correlati in virtù degli svariati raggruppamenti nazionali. Non c’è quindi da stupirsi se si registrano marcate somiglianze fra i residui della Svezia e della Norvegia, fra quelli della Francia e della Germania e/o fra quelli degli Stati Uniti e del Canada (Hicks 1994, 174). Ciò fa sì che la relazione che viene analizzata attraverso la regressione risulti distorta a partire dal valore del coefficiente di regressione che la esprime. Per ovviare a questo problema si possono suddividere i casi analizzati in più gruppi, inserendo nell’analisi di regressione una o più variabili categoriali articolate proprio secondo i 69

raggruppamenti dei casi più interrelati. In base all’esempio appena riportato la variabile categoriale che dovrebbe essere inserita nell'analisi di regressione potrà essere articolata in tre modalità: paesi scandinavi, paesi dell’Europa continentale e paesi del Nord America. Con l’aggiunta di questa variabile di controllo l'effetto genuino della variabile indipendente di interesse verrà così stimato in modo più corretto e la media dei residui sarà pari a zero anche se calcolata distinguendo i tre sottogruppi di paesi.18 L’analisi della distribuzione dei residui può inoltre consentire di controllare se la relazione fra la variabile dipendente e quella indipendente è lineare, come viene abitualmente prefigurato nelle ipotesi di ricerca (vedi il par. 1.4). Nel par. 4.2 la linearità della relazione fra il grado di apertura commerciale e il livello di tassazione nazionale è stata valutata ispezionando la nube di punti ottenuta ponendo rispettivamente sull'asse delle ascisse e delle ordinate i valori di queste due variabili (vedi fig. 2). Questo controllo può essere altresì effettuato ispezionando la nube dei punti che si ottiene ponendo sull’asse delle ordinate i residui e sull’asse delle ascisse i valori predetti della variabile dipendente, al fine di contrastare se presenti andamenti curvilinei. L’ispezione del diagramma costruito usando i valori predetti e i residui pertinenti all’equazione 7 conferma che la relazione fra TAS e COM è interpolabile con una linea retta (vedi fig. 4). Tuttavia, questo può essere considerato un caso abbastanza fortunato. Molto spesso, infatti, l’ipotesi della linearità non è rispettata. In tal caso un’ovvia soluzione è ri-specificare il modello in modo da rappresentare adeguatamente la relazione non lineare. Una soluzione alternativa è rendere lineari relazioni che non lo sono. Come ha osservato Marradi (1997, 138), la trasformazione logaritmica dei valori di una o più variabili inserite in una regressione consente di rendere lineari due tipi di relazioni curvilinee fra variabili cardinali, entrambi legati a distribuzioni non simmetriche delle stesse variabili. Quando i valori della Y crescono più che proporzionalmente al crescere dei valori della X, è possibile 18 Quando i residui sono fra loro correlati accade infatti che la loro media non sia pari a zero per uno o più sottoinsiemi di casi. Molto spesso accade anche che la varianza dei residui non risulti costante fra i sottogruppi di casi. Questo esito, che viene normalmente identificato con il termine eteroschedasticità, non condiziona però il valore dei coefficienti di regressione, bensì la loro variabilità (errore standard). Per tale motivo, l’eteroschedasticità appare un problema poco rilevante quando, come nel caso delle ricerche macro-comparate, le regressioni non sono impiegate a fini inferenziali (vedi il par. 4.5).

70

prendere il logaritmo dei valori della variabile dipendente in modo da comprimerne la crescita. Viceversa, quando i valori della Y crescono meno che proporzionalmente al crescere dei valori della X, si può ricorrere ad una trasformazione logaritmica dei valori della variabile indipendente. Questa soluzione ha però uno svantaggio in termini di interpretabilità della natura della relazione che emerge (Marradi 1997, 138).

5

Fig. 4 – Diagramma a dispersione costruito usando i valori predetti e i residui della regressione lineare espressa dall’equazione 7 Fr

Da

No

Fi

residui 0

SU Ge Au Ol Be Gb

-5

Ca

It

30

35

40

45

valori predetti di TAS

L’ispezione del grafico a dispersione costruito ponendo sull’asse delle ordinate i residui e sull’asse delle ascisse i valori predetti appare assai utile quando si ricorre alla regressione multipla in quanto più variabili indipendenti contribuiscono a determinare queste due variabili. Quando si conduce un’analisi di regressione multipla un altro diagramma a dispersione di particolare interesse è quello che rappresenta l’associazione parziale fra la variabile dipendente e la variabile indipendente chiamate in causa da un’ipotesi di ricerca. Per costruirlo occorre disporre sull’asse delle ordinate i residui che si ottengono regredendo la variabile dipendente sulle variabili di controllo e sull'asse delle ascisse i residui che si ottengono regredendo la varia-

71

bile indipendente sulle variabili di controllo.19 Riprendendo l'equazione 13 discussa alla fine del precedente paragrafo possiamo dunque affermare che, per rappresentare graficamente l’effetto netto esercitato da GVS su TSS occorre dapprima regredire TSS contro P65 e COM e GVS contro P65 e COM per poi usare i corrispondenti residui nella costruzione di un diagramma a dispersione (vedi fig. 5).

Ol

Fr

Da

It SU Ge

Fi

Au Sv

Ca No Gi

Al Ir

Be

Gb

-5

residui di TSS contro P65 e COM 0 5

10

Fig. 5 – Diagramma a dispersione costruito per rappresentare l'associazione parziale fra TSS e GVS

Ch

-10

0 residui di GVS contro P65 e COM

10

L’analisi dei residui può inoltre consentire di controllare se si ha a che fare con casi influenti. Osservando le distribuzioni congiunte dei dati si possono infatti individuare dei casi anomali (o outliers), nei quali la variabile dipendente assume un valore atipico dato il valore assunto dalla variabile indipendente, dando luogo così ad un alto residuo, positivo o negativo. La presenza di questi casi risulta però problematica soltanto quando essi esercitano una significativa influenza sulla stima dei parametri della regressione, ovvero quando anche il valore della X per quel dato caso si discosta in modo considerevole dal valore medio.

19 Come rileva infatti Fideli (1998, cap. 3), la regressione multipla non è altro che una combinazione dei canoni di Mill della variazione concomitante e dei residui.

72

Fig. 6 – Esempio di diagramma a dispersione ottenuto ponendo sull’asse delle ascisse la percentuale della popolazione anziana e sull’asse delle ordinate la percentuale del pil destinata ai trasferimenti per la sicurezza sociale

trasferimenti per la sicurezza sociale 10 15 20

25

Ol

Sv Da

Au Fr Be It

Fi

Ir Ca

No Ge

Gb SU

Ch Gi

5

Al

10

12

14 popolazione anziana

16

18

Per chiarire quanto detto, prendiamo in esame il grafico a dispersione costruito ponendo sull’asse delle ordinate la percentuale del pil destinata alla sicurezza sociale e sull’asse delle ascisse la popolazione anziana. Come si può notare dalla fig. 6, la retta di regressione interpolante i punti della nube sembra costituire una buona rappresentazione della relazione fra le due variabili. A ciò fa però eccezione il caso Olanda che si presenta chiaramente come anomalo. Il semplice esame visivo del grafico a dispersione può tuttavia risultare poco efficace per stabilire se un caso anomalo esercita una significativa influenza sui parametri della regressione. Ciò si verifica soprattutto quando si ricorre ad una regressione lineare multipla e/o quando si presentano più casi anomali contemporaneamente. Per tali ragioni occorre ricorrere a coefficienti che quantifichino l’influenza di ogni caso sulla stima dei parametri. In generale possiamo dire che esistono due tipi di tecniche: quelle volte a valutare l’impatto complessivo che un caso esercita sui risultati della regressione e quelle volte a valutare lo specifico impatto di ogni caso sui coefficienti di regressione (Corbetta, Gasperoni e Pisati 2001). Nel primo gruppo rientrano il coefficiente di Cook e il coefficiente di Welsch e Kuh, mentre nel secondo troviamo il coefficiente beta. Se tale coefficiente assume segno positivo significa che il caso 73

i-esimo fa aumentare il valore del parametro bˆ . Se, assume segno negativo significa che il caso i-esimo fa diminuire il valore del parametro bˆ . A scopo illustrativo calcoliamo il coefficiente beta per ognuno dei 17 casi considerati in fig. 6. Come ci si poteva aspettare l’Olanda ha il coefficiente più elevato in valori assoluti (-0,77). Tale valore è peraltro l’unico a superare e in modo ragguardevole la soglia di riferimento per tale procedura (2/ n), normalmente adottata per giudicare se l’influenza di un singolo caso sia elevata. Da ciò si può concludere che il caso olandese distorce in modo inaccettabile il valore del coefficiente di regressione che esprime l'influenza che P65esercita su TSS (vedi il par. 4.3). Cosa fare in questi casi? Una soluzione consiste nello stimare un tipo di regressione robusta che assegna a ciascun caso un peso inversamente proporzionale al suo grado di influenza. In questo modo si ottengono dei coefficienti di regressione che dipendono poco dai casi molto influenti e molto dai casi poco influenti.

4.5. Il problema dell’inferenza statistica nella ricerca macrocomparata Come abbiamo più volte osservato, nelle ricerche macrocomparate orientate alle variabili si usano abitualmente insiemi di casi scelti in base alla disponibilità dei dati.20 Alcuni studiosi ritengono che tali insiemi siano da equiparare a vere e proprie popolazioni in quanto il numero dei casi esaminati si avvicina al totale dei casi esistenti. Infatti, sia che ci si concentri sul solo mondo sviluppato sia che l’ambito della ricerca coincida con l’intero pianeta, l’insieme dei paesi per i quali si dispone di dati comparabili non si discosta di molto dal totale dei paesi appartenenti all’area Ocse o alla totalità degli Stati oggi riconosciuti. Ciò fa sì che sia sufficiente analizzare i dati senza preoccuparsi di generalizzare i risultati ottenuti a una qualche popolazione e ricorrere a procedure che consentano di valutare l’accuratezza delle stime prodotte.

20 Sebbene in questo capitolo ci stiamo riferendo unicamente all’analisi dei dati trasversali, quanto stiamo affermando sul problema dell'inferenza nelle ricerche macro-comparate può essere esteso all’analisi dei dati in serie storica (vedi capp. 5 e 6), e di conseguenza anche all'analisi dei dati trasversali in serie storica (vedi cap. 7).

74

Questo modo di ragionare non è tuttavia il più diffuso. La quasi totalità dei comparatisti parte (in modo più o meno implicito) dal presupposto che, se non c’è alcuna incertezza nelle nostre stime e l’inferenza statistica appare uno sforzo inutile, si finisce per adottare una posizione deterministica circa il processo di generazione dei dati. L’identità fra insiemi di casi analizzati e popolazioni viene così criticata poiché si basa sull’assunto che, potendo far variare (attraverso un esperimento mentale) le condizioni storiche e sociali che hanno generato i dati a nostra disposizione, se ne otterrebbero altri completamente identici (Western e Jackman 1994). Di conseguenza, la stragrande maggioranza dei comparatisti di scuola statistica, pur ammettendo la non ripetibilità del meccanismo di generazione dei dati nazionali, si comporta come se ciò fosse possibile.21Si assume dunque che i casi della nostra matrice che possiamo osservare siano il prodotto di un’estrazione casuale effettuata su una super-popolazione immaginaria (Cochran 1939). Ciò significa, ad esempio, che, se in una matrice per dati trasversali la quota di popolazione anziana registrata per il caso Italia per l’anno 1990 corrisponde a 14,9 punti percentuali, dobbiamo pensare che questo valore sia il prodotto di un meccanismo casuale che agisce sui possibili esiti storici di questo paese. La realizzazione storica di una data nazione viene così concepita come il risultato di una logica probabilistica operante sulla distribuzione dei possibili percorsi storici di quella determinata nazione. In accordo con questa prospettiva i dati a nostra disposizione devono essere trattati allo stesso modo delle informazioni campionarie e gli insiemi di casi analizzati vengono intesi come un campione casuale (Berk, Western e Weiss 1995). I dettami della statistica inferenziale classica vengono così adottati in modo abituale nelle ricerche macro-comparate di stampo quantitativo, facendo sembrare ovvio il calcolo degli intervalli di fiducia e il ricorso al test di significatività dell’ipotesi nulla. Tuttavia, come osservano Western e Jackman (1994) questa prospettiva rimane troppo speculativa rispetto alla concreta possibilità di 21

La logica che sottende l’inferenza statistica classica prevede che: da una popolazione di riferimento venga estratto un campione casuale su cui vengono raccolte ed analizzate diverse informazioni per trarre alcune conclusioni sulla stessa popolazione. La possibilità di ripetere il processo di campionamento consente inoltre di precisare in termini probabilistici l’incertezza che circonda le nostre stime campionarie.

75

estrarre un campione casuale ed applicare quindi i teoremi della teoria probabilistica. Se vogliamo infatti generalizzare ad una superpopolazione i risultati delle analisi condotte sui dati nazionali a nostra disposizione, rimaniamo privi di ogni riferimento empirico. La superpopolazione dalla quale si pensa che i nostri dati siano stati generati secondo una regola probabilistica è una mera entità metafisica e le procedure inferenziali sono una pura finzione. La ricerca macrocomparata orientata alle variabili si è dunque aggrappata alla giustificazione del determinismo nella generazione dei dati per adottare assunti radicalmente irrealistici. È inutile cercare di stimare il grado di fiducia con cui i risultati ottenuti analizzando i dati disponibili possano essere attribuiti ad una popolazione ipotetica e intangibile.

76

5. L’analisi monovariata dei dati in serie storica

L’impiego delle tecniche di analisi monovariata per dati in serie storica prevede ― come nel caso delle osservazioni trasversali ― il calcolo di alcuni valori caratteristici e la costruzione di specifici grafici. Una di queste tecniche è l’auto-regressione che, assieme ai relativi diagrammi, consente di controllare se le serie storiche di volta in volta in esame presentino certe caratteristiche. Queste ultime assumono un ruolo importante poiché permettono di comprendere come si debbano interpretare la media e la varianza delle variabili considerate e di decidere quali tecniche adottare in sede di analisi bi- e multi-variata.

5.1. Il grafico a linee Quando l’analisi monovariata è impiegata per descrivere l’andamento temporale di una determinata variabile si fa in genere ricorso al grafico a linee, che consente di valutare come si muovono nel tempo le variabili di interesse. Per costruirlo si pongono sull’asse delle ordinate i valori della variabile in esame e sull’asse delle ascisse in ordine cronologico i punti temporali relativi ai vari periodi di rilevazione. Una volta che tutti i punti corrispondenti a ciascuna coppia di valori posti sui due assi cartesiani sono stati fissati sul grafico, si procede alla loro unione attraverso una linea che parte dal punto corrispondente al primo caso in esame, ossia da quello più remoto nel tempo, e si prosegue in senso cronologico.

77

Facciamo un semplice esempio. Sull’asse delle ascisse disponiamo i 41 anni compresi nel periodo che va dal 1960 al 2000, mentre sull’asse delle ordinate disponiamo i valori che sono stati rilevati per questi stessi anni in merito alla percentuale di occupati nel settore dei servizi in Italia. Dopodiché procediamo ad unire i punti fissati sul grafico nel modo sopra descritto.

35

40

occupati nei servizi 45 50 55

60

Fig. 7 - Grafico a linee costruito per la quota di occupati nei servizi rilevata per l’Italia per il periodo 1960-2000

1960

1970

1980 anno

1990

2000

La fig. 7 mostra che la quota di occupati nei servizi è cresciuta durante tutto (o quasi) il periodo considerato: nel corso degli ultimi decenni l’Italia ― così come molte altre economie sviluppate ― ha conosciuto una progressiva terziarizzazione della propria economia.

5.2. I valori caratteristici e il problema della non-stazionarietà I valori caratteristici più comunemente impiegati per esprimere le proprietà di una serie storica sono la media e la varianza. Essi vengono di norma identificate con le espressioni ‘momento primo’ (la media) e ‘momento secondo’ (la varianza) della distribuzione. Per calcolarli si adottano le stesse formule presentate per i dati trasversali (vedi par. 4.1). La sola differenza ― peraltro ininfluente sul piano matematico ― riguarda i simboli usati per discriminare i casi cui si riferiscono i valori delle variabili di volta in volta analizzate: se nel 78

caso di osservazioni trasversali la variabile in esame è accompagnata dal suffisso i che varia fra 1 e N, nel caso di dati in serie temporale si ricorre in genere al suffisso t che va da 1 a T. Mentre nel caso dell’analisi trasversale la media e la varianza sono sempre (o quasi) in grado di esprimere rispettivamente la tendenza centrale e il grado di dispersione di una distribuzione, nell’analisi dei dati in serie storica non è così. Vediamone il perché attraverso un esempio riportato spesso nei manuali di econometria. Poniamo che la nostra variabile sia il peso personale espresso in chilogrammi. Nel caso in cui disponiamo di osservazioni trasversali concernenti ad esempio 30 individui aventi la stessa età anagrafica, non esiteremo ad affermare che la media e la varianza esprimono la tendenza centrale e il grado di dispersione di questa distribuzione. Invece, nel caso in cui abbiamo a disposizione dati riguardanti il peso di un solo individuo rilevato per i suoi primi trenta anni di vita, avremo grosse difficoltà ad affermare che la media e la varianza esprimono la tendenza centrale ed il grado di dispersione. Se per ipotesi otteniamo un peso medio pari a 48 chilogrammi e mezzo, non potremmo ovviamente sostenere che, nel momento in cui quell’individuo pesava 20 chili, era drammaticamente sottopeso. Il peso di un individuo varia infatti in ragione della sua età anagrafica; solo una volta che questo ha raggiunto un certo livello di sviluppo, il suo peso tende a mantenersi stabile su un certo livello. Una tale considerazione ci porta tuttavia a concludere che il peso medio assume valori differenti a seconda di quali anni vengano presi in considerazione per calcolarlo. L’esempio chiarisce che nel caso di informazioni diacroniche il calcolo dei principali valori caratteristici risulta talvolta improprio. Ciò porta a considerare un concetto alquanto importante nell’analisi dei dati in serie storica: la stazionarietà. Quando la media di una serie temporale non staziona attorno ad un certo valore, ossia non si mantiene stabile nel tempo, si dice che la serie non è stazionaria in media. Parallelamente, se il suo grado di dispersione varia in ragione del trascorrere del tempo, si dice che la serie non è stazionaria in varianza. Solo se media e varianza di una variabile diacronica non sono funzione del tempo, la serie è da considerarsi stazionaria e quindi questi due valori caratteristici sono in grado di fornire informazioni corrette sulla distribuzione. Molte serie storiche di livello macro presentano chiari indizi di non-stazionarietà. Ciò dipende dal fatto che molte grandezze di carat79

tere macro-economico (pil, consumi, investimenti, uscite ed entrate statali, grado di apertura al mercato internazionale, tassi di occupazione e di disoccupazione, etc.) così come diverse variabili di natura socio-politica (livello di sindacalizzazione, risorse di potere a disposizione dei partiti politici, etc.)22 sono spesso caratterizzate da trend positivi o negativi. Facciamo un semplice esempio. Prendiamo in esame la serie storica del pil pro-capite italiano a prezzi costanti (base 1995)23 riferita al periodo 1960-2002 e riproduciamo la relativa spezzata.

5000

pil pro-capite italiano 10000 15000

20000

Fig. 8 – Andamento temporale del pil pro-capite italiano, 1960-2002

1960

1970

1980 anno

1990

2000

Come mostra la fig. 8, il pil pro-capite esibisce un chiaro andamento crescente. Sebbene ciò ci consenta di dire che nell’arco degli ultimi quaranta anni il tenore di vita degli italiani è sensibilmente aumentato, non ci permette di usare ad esempio il valore medio della suddetta distribuzione a fini descrittivi. La retta tracciata in perpendi22 Per le risorse di potere a disposizione dei partiti politici, il problema si evidenzia soprattutto se queste vengono calcolate secondo la procedura proposta da Huber, Ragin e Stephens (1993). Sommando alla percentuale di membri del governo appartenenti ad un certo schieramento politico rilevata nell’anno corrente quelle registrate in un certo numero di anni passati, si genera infatti una serie temporale non stazionaria. 23 Vedi la nota 6.

80

colare rispetto all’asse delle ordinate a partire dal punto corrispondente a 12.085 euro, ottenuto appunto facendo la media fra i valori della serie, taglia la spezzata del pil pro-capite collocandosi a metà strada fra i livelli minimi (inizi degli anni ‘60) e quelli massimi (inizio di questo millennio) della suddetta variabile. Dunque –– come abbiamo detto in proposito del peso di una persona –– anche in questo caso non possiamo affermare che i valori fatti registrare dall’Italia all’inizio degli anni ‘60 fossero espressione di una fase di forte sotto-sviluppo economico in quanto ben al di sotto del suddetto valore medio. Per le variabili caratterizzate da un trend (positivo o negativo) l’ispezione grafica sembra dunque sufficiente per affermare che siamo di fronte al problema della non stazionarietà. Peraltro gli andamenti di alcune serie temporali non permettono di giungere a una tale conclusione in modo così semplice e immediato. A tal proposito esistono specifiche tecniche econometriche, che presenteremo soltanto dopo aver descritto le procedure per trasformare i dati in serie storica.

5.3. L’operatore ritardo e l’operatore differenza L’operatore ‘ritardo’ e l’operatore ‘differenza’ sono i più noti e usati per trasformare le variabili in serie storica. L’operatore ‘ritardo’, indicato normalmente con la lettera L (dall’inglese lag), consente di traslare i valori di una variabile rispetto all’ordine temporale dei casi. In pratica esso fa sì che nella matrice dei dati i valori della variabile non corrispondano più ai rispettivi periodi di rilevazione, ma vengano riferiti a periodi precedenti. Se applichiamo l’operatore ‘ritardo’ a una certa variabile, otterremo un’altra variabile avente la stessa sequenza di valori, ma sfasata di un certo periodo, dettato dall’operatore ‘ritardo’. In tal senso possiamo scrivere:

L k Yt = Yt − k

[14]

dove il suffisso k indica di quanti periodi è ritardata la variabile Y. Così, se l’operatore assumesse valore pari a 1 (come accade spesso 81

nelle serie storiche a cadenza annuale) l’equazione 14 verrebbe riscritta nel modo seguente:

L1Yt = Yt −1

[15]

Proviamo a chiarire questi concetti, mettendo in evidenza come si presentano in matrice i valori di una serie temporale dopo che questa è stata ritardata di un periodo. La seconda colonna di tab. 6 include i valori del pil pro-capite italiano in corrispondenza degli anni di rilevazione (PIL: variabile non ritardata), mentre la terza colonna include gli stessi valori ritardati però di un anno (variabile LPIL). Come si può notare, la variabile ritardata evidenzia rispetto alla variabile originaria una perdita di informazione corrispondente all’ordine dell’operatore ‘ritardo’: in questo caso il valore corrispondente al primo anno. L’operatore ‘differenza’ (difference), indicato di norma con la lettera greca δ (delta), determina invece le variazioni che si hanno, per una certa variabile, fra il tempo t e il tempo t-k, dove k rappresenta l’ordine di differenziazione. Se quindi si effettua la differenza prima della variabile Y, si dovrà calcolare, per ogni valore della stessa, lo scarto esistente fra il valore rilevato in un dato periodo e quello osservato nel periodo precedente. In simboli si potrà dunque scrivere:

∆1Yt = Yt − Yt −1

[16]

La variabile ∆PIL, riportata nella quarta colonna della tab. 6, evidenzia come ciò si traduca nella matrice dei dati. Ovviamente i valori di ∆PIL sono stati ottenuti sottraendo ai valori di PIL quelli di LPIL. Le variabili i cui valori sono stati trasformati attraverso l’operatore ‘differenza’ si dicono “espresse in differenza”, mentre quelle aventi valori non differenziati si dicono “espresse in livello”. Il ricorso all’operatore ‘differenza’ comporta importanti conseguenze sul piano sostanziale. Possiamo dire infatti che, se le variabili espresse in livello ci danno un’informazione di lungo periodo, quelle espresse in differenza ci informano soltanto sul breve periodo. Ciò è facilmente comprensibile se si tiene conto del fatto che i valori di una serie differenziata rappresentano la variazione che si registra fra ogni periodo di rilevazione e quello precedente. Questo aspetto è talmente importante che in taluni casi le variabili differenziate sono considera82

te indicatori di proprietà radicalmente diverse rispetto a quelle espresse dalle variabili originarie. Facciamo alcuni esempi. Tab. 6 – Come si presentano i dati in matrice prima e dopo l’impiego degli operatori ‘ritardo’ e ‘ differenza’ ANNO PIL LPIL ∆PIL VPIL 1960

5555,1

.

.

.

1961

5971,0

5555,1

415,9

7,5

1962

6298,5

5971,0

327,6

5,5

1963

6603,6

6298,5

305,1

4,8

1964

6732,7

6603,6

129,1

2,0

1965

6894,5

6732,7

161,8

2,4

1966

7250,5

6894,5

356,0

5,2

1967

7714,9

7250,5

464,4

6,4

1968

8168,0

7714,9

453,2

...

...

...

...

...

...

...

...

...

...

5,9

2001

17928,2

17614,7

313,5

1,8

2002

17999,6

17928,2

71,3

0,4

L’indice dei prezzi al consumo esprime il livello dei prezzi di un insieme di beni e servizi, chiamato “paniere”, considerato rappresentativo dei consumi di una data popolazione. Per costruirlo si procede al calcolo della media dei prezzi che si formano nelle transazioni relative ai beni e servizi facenti parte del suddetto paniere. Una volta calcolata la media per tutti i periodi di tempo considerati (in genere mesi), si ha a disposizione la serie sul livello dei prezzi al consumo, che viene solitamente resa più leggibile ponendo pari a 100 uno dei valori (detto base) della stessa e rapportando ad esso i restanti (che così diventano numeri indice). In questo modo si ottiene una sequenza di valori che consente di cogliere in modo agevole l’incremento (o il decremento) del livello generale dei prezzi che si realizza in un certo periodo di tempo in una data area geografica. Se però interveniamo su tale variabile attraverso l’operatore ‘differenza’ di primo ordine, se ne ottiene un’altra che operativizza una proprietà ben di-

83

versa: l’inflazione.24 La differenziazione dell’indice dei prezzi al consumo corrisponde infatti alla variazione fra il livello dei prezzi rilevato al tempo t e il livello dei prezzi rilevato al tempo t-1, che equivale appunto al tasso d’inflazione. A titolo di esempio, la tab. 7 riporta l’indice dei prezzi rilevato per i dodici mesi del 2010 per l’Italia. Il fatto che tale indice abbia come base gennaio 1995 significa ad esempio che il livello generale dei prezzi rilevato nel gennaio 2010 è più alto poco più di un terzo di quello rilevato 15 anni prima. La variazione percentuale dell’indice dei prezzi rispetto al mese precedente, riportata sempre in tab. 7, consente invece di ottenere informazioni sull’inflazione. Un altro esempio di come l’impiego dell’operatore ‘differenza’ possa dare importanti informazioni è relativo al pil. Quando tale variabile è espressa in livello esprime il grado di benessere di un dato paese (o area territoriale). Quando invece essa è espressa in differenza, ci dà importanti indicazioni sulle capacità di crescita di quel paese. La crescita economica di un paese viene di norma espressa dalla variazione percentuale annua del pil, e si ottiene calcolando il rapporto percentuale fra il pil differenziato ed il pil ritardato di un periodo. Per comprendere meglio questi passaggi, si osservi che i valori della variabile VPIL sono stati ottenuti effettuando la seguente operazione: ∆PIL/LPIL·100 (vedi tab. 6). PIL e VPIL sono quindi espressione di due proprietà differenti e i loro andamenti temporali ci danno informazioni diverse. Se confrontiamo infatti i valori dell’inizio degli anni ‘60 con quelli dei primi anni del 2000 per entrambe queste variabili, possiamo notare che nell’arco degli ultimi quaranta anni la ricchezza pro-capite degli italiani è notevolmente aumentata (vedi la colonna PIL di tab. 6) ma che le capacità di crescita dell’Italia sono ora decisamente più basse rispetto a quelle registrate quattro decenni fa. Peraltro, sebbene il ricorso all’operatore ‘differenza’ consenta di ottenere preziose informazioni sulla situazione di breve periodo di una certa economia, la variazione percentuale annua del pil non costituisce la variabile più appropriata per operativizzare un’altra importante proprietà economica, ovvero la fase del ciclo. Per operativizzarla occorre assumere che il pil tenda a seguire un trend di crescita, dovuto al progresso tecnologico e all’accumulazione del capi24 Ad un aumento dei prezzi dei beni e dei servizi consegue una diminuzione del potere d'acquisto della moneta.

84

tale, ma a manifestare fasi alterne di espansione e di depressione. Se si fanno quindi coincidere il progresso tecnologico e l’accumulazione del capitale con un trend lineare, ovvero con una variabile i cui valori variano di un’unità per ogni periodo di rilevazione, diventa ragionevole stimare una regressione avente come variabile dipendente il pil (espresso in livello) e come variabile indipendente il suddetto trend lineare. I residui risultanti costituiranno la variabile che esprime l’andamento del ciclo economico. Tab. 7 – Indice dei prezzi (base gennaio 1995 = 100) e variazione percentuale rispetto al mese precedente, rilevati dall’Istat per l’Italia nel 2010 mese indice dei prezzi var. % sul mese precedente Gennaio 134,2 -0,2 Febbraio 134,5 0,2 Marzo 134,5 0,0 Aprile 134,8 0,2 Maggio 135,1 0,2 Giugno 135,3 0,1 Luglio 135,3 0,0 Agosto 135,8 0,4 Settembre 135,4 -0,3 Ottobre 135,5 0,1 Novembre 135,6 0,1 Dicembre 135,8 0,1

Per ottenere una variabile che esprima le fasi del ciclo economico attraversato dall’Italia negli ultimi quarant’anni possiamo pertanto ricorrere a una regressione in cui la variabile dipendente è il PIL e la variabile indipendente è TRD con questa successione di valori: 1,2,3,4,5,6,7…..43 (dove 43 costituisce il totale dei punti della serie storica in questione). Avremmo così: PILt = a + bTRDt + et

(t= 1960, 1962…2002)

[17]

dove et sono i residui della regressione, quindi la fase del ciclo economico italiano. Come si può notare dalla fig. 9, quest’ultimo ha alternato fasi di espansione a fasi di recessione, espresse rispettivamente da picchi ed avvallamenti della linea tracciata sul grafico. Essendo residui di una regressione, quindi sostanzialmente scarti da una media mobile, i punti hanno media zero (vedi par. 4.4). 85

-400

-200

ciclo economico 0 200

400

600

Fig. 9 – Fasi del ciclo economico attraversate dall’Italia nel periodo 1960-2002

1960

1970

1980 anno

1990

2000

5.4. L’analisi auto-regressiva Dopo aver illustrato l’operatore ‘ritardo’ e l’operatore ‘differenza’, siamo in grado di fornire una definizione più formale dei concetti di stazionarietà e di non-stazionarietà e di illustrare le tecniche che consentono di controllare se una serie storica è stazionaria. In tal senso possiamo dire che i valori di una variabile rilevati al tempo t possono influenzare quelli rilevati al tempo t+1 e che ciò può essere espresso attraverso la cosiddetta analisi auto-regressiva di primo ordine, o analisi ar(1). Essa prevede che si stimi una regressione lineare semplice avente come variabile dipendente la Y rilevata al tempo t e come variabile indipendente la stessa variabile ritardata di un periodo. La formula è pertanto:

) Yt = a + bYt −1

[18]

dove b (coefficiente auto-regressivo) esprime l’intensità dell’effetto che Yt-1 esercita su Yt. L’intensità di tale effetto corrisponde a sua volta alla memoria posseduta dalla serie storica, ovvero alla tendenza manifestata da quest’ultima ad avere gli stessi valori che aveva in passato. Se il valore di b è prossimo allo zero, la serie avrà una memoria molto corta e ogni choc ― ossia ogni evento inatteso ed im86

previsto ― avrà un effetto puramente transitorio. Viceversa, quando b assume un valore prossimo all’unità, vorrà dire che la serie ha memoria lunga e che il verificarsi di uno choc tende a produrre un effetto di lunga durata sull’andamento temporale della stessa.

-3

-2

variabile Y -1 0

1

2

Fig. 10 – Andamento diacronico di una serie storica avente una distribuzione di frequenza prossima a una normale standardizzata

0

20

40

60

80

100

tempo

Facciamo qualche esempio sfruttando le proprietà della distribuzione normale. Supponiamo di avere a disposizione 100 dati diacronici per la variabile Y, la cui distribuzione di frequenza è prossima ad una normale standardizzata con media 0 e scarto tipo 1. La pertinente analisi auto-regressiva dà questo risultato:

) Yt = -0,01 + 0,07 Y

t -1

(t= 2,3,4, …100)

[19]

Il fatto che il coefficiente auto-regressivo assuma un valore vicino allo zero (0,07) mostra che, quando i dati sono così distribuiti, il passato esercita una scarsissima influenza sul presente. Ciò è confermato dalla spezzata che riproduce l’andamento temporale della Y. Come evidenzia infatti la fig. 10, ogni valore appartenente alla serie storica in questione non appare in alcun modo legato a quello che lo precede: il pressoché sistematico alternarsi di valori positivi e negativi testimonia che la serie non ha alcuna memoria del proprio passato e 87

non esibisce un’intrinseca tendenza a deviare dalla propria media o ―come si suol dire ― dal proprio equilibrio. Supponiamo ora di creare una nuova variabile X i cui valori sono costituiti dalla somma cumulata dei corrispondenti valori della Y. Effettuando l’analisi ar(1) per la nuova variabile, notiamo che tale trasformazione ha provocato un considerevole aumento della memoria della serie. Il risultato è infatti:

Xˆ t = -0,11 + 0,94 X

t -1

(t=2,3,4 …100)

[20]

Il coefficiente riferito a Xt-1 è, infatti, prossimo all’unità (0,94), a testimonianza che i valori correnti sono fortemente influenzati da quelli passati. Nella spezzata (fig. 11) si notano chiari e prolungati andamenti crescenti e decrescenti. La serie storica in questione non appare quindi incline a stazionare attorno alla propria media. Continuando a considerare il ventaglio dei possibili valori che può assumere il coefficiente auto-regressivo, una particolare attenzione va dedicata al caso in cui esso è pari ad uno. In tal caso si dice che la serie temporale segue un cammino casuale (random walk) e ha memoria permanente (o illimitata). Ciò significa che gli effetti prodotti dai precedenti chocs tendono a cumularsi nel tempo e a riversarsi su tutto il restante periodo. In altri termini, se una variabile segue un cammino casuale vorrà dire che il suo valore rilevato al tempo t è uguale a quello al tempo t1 più una componente aleatoria con media pari a zero. Il significato di questa affermazione è facilmente comprensibile se si guarda all’equazione risultante da un’analisi auto-regressiva condotta su una variabile a cammino casuale avente intercetta pari a zero.

Yt = 1Yt −1 + e t

[21]

Peraltro, mentre molte serie che seguono un cammino casuale evidenziano chiari andamenti crescenti o decrescenti, non tutte le serie caratterizzate da trend positivi o negativi sono definibili in questi termini.25

25

I processi a cammino casuale caratterizzati da un trend positivo o negativo sono detti con direzione (random walk with drift). Sul piano matematico essi possono essere espressi da un’equazione auto-regressiva avente intercetta diversa da zero.

88

-10

-5

variabile X

0

5

Fig. 11 – Andamento temporale di una serie di valori ottenuti effettuando una somma cumulata dei corrispondenti punteggi di una variabile avente una distribuzione di frequenza prossima ad una normale standardizzata

0

20

40

60

80

100

tempo

In econometria è alquanto importante distinguere le serie storiche che danno luogo a coefficienti auto-regressivi pari a 1 da quelle che generano coefficienti inferiori all’unità. Nel primo caso si parla di processi integrati di primo ordine (in forma abbreviata I(1)). Nel secondo si parla invece di processi integrati di ordine zero (in forma abbreviata I(0)). Questa distinzione è di grande importanza poiché i processi I(0) non necessitano di alcuna trasformazione per diventare stazionari. Viceversa i processi I(1) devono essere differenziati di un periodo per essere considerati stazionari.26 Il coefficiente auto-regressivo costituisce quindi il punto di riferimento per stabilire se i nostri dati sono integrati di ordine zero o di prim’ordine. Basta quindi condurre una semplice analisi ar(1) sulla serie storica a nostra disposizione e controllare se il corrispondente coefficiente auto-regressivo è pari o inferiore all’unità.

26 Se la differenza prima non è sufficiente per raggiungere la stazionarietà ed occorre differenziare una seconda volta la serie, ovvero fare la differenza prima della differenza prima, si dice che il processo è integrato di second’ordine (in forma abbreviata I(2)). E così di seguito.

89

Considerare stazionarie tutte le serie temporali che danno luogo a coefficienti auto-regressivi inferiori all’unità costituisce tuttavia un assunto troppo rigido e poco proficuo. All’interno della categoria degli andamenti stazionari esistono infatti delle aree di confine che finiscono per creare gli stessi problemi e richiedere gli stessi rimedi degli andamenti I(1) (vedi il cap. 6). Phillips (1988) ha denominato tali aree con l’espressione ‘andamenti quasi-integrati’. Essi si caratterizzano per il fatto di dar luogo a coefficienti auto-regressivi molto vicini all’unità, ma non coincidenti con essa. In pratica, se conduciamo una semplice analisi ar(1) analoga a quella dell’equazione 18 e otteniamo un valore di b uguale a 1 - c, dove c è un valore molto piccolo che varia in funzione del numero di casi appartenenti alla serie temporale di interesse, saremo di fronte ad una serie quasi integrata. Si tratta quindi di andamenti che, pur essendo stazionari in via asintotica, ovvero con un numero di casi infinitamente grande, si comportano in modo analogo agli andamenti I(1) se il numero dei casi è ridotto. Essi non hanno una memoria illimitata come gli andamenti I(1), ma non appaiono inclini a stazionare attorno alla propria media, assomigliando fortemente a questi ultimi. Come hanno posto infatti in evidenza De Boef e Granato (1997), quando i casi sono meno di 60 e il coefficiente auto-regressivo assume un valore uguale o superiore a 0,9, le variabili si comportano esattamente come gli andamenti integrati di primo ordine. In particolare, se stimiamo una regressione semplice usando questo tipo di variabili, rischiamo di prendere per buone relazioni spurie esattamente come se stessimo usando andamenti I(1) (vedi il par. 6.2). Di conseguenza appare opportuno adottare un atteggiamento più restrittivo: considerare gli andamenti quasi-integrati alla stregua dei processi I(1).

5.5. Come accorciare la memoria Come abbiamo appena anticipato e come vedremo meglio nel prossimo capitolo, l’analisi bi- e multi-variata di serie storiche a memoria lunga o illimitata possono dar luogo a risultati privi di senso, se non trattate con le tecniche appropriate. Per evitare questo rischio, una soluzione è accorciare la memoria delle serie integrate o quasi-integrate: si possono trasformare le serie a memoria perenne, o 90

quasi, in modo da renderle stazionarie. Queste ultime non comportano infatti problemi molto differenti da quelli che si incontrano nell’analisi bi- e multi-variata dei dati trasversali (vedi il cap. 4). Ma come possiamo realizzare un tale obiettivo? La soluzione è ricavabile dalla stessa definizione di processi integrati di primo ordine. Come abbiamo osservato nel precedente paragrafo, questi processi possono essere considerati come tali se la loro differenza prima dà luogo a serie stazionarie. Da ciò possiamo concludere che, per rendere stazionari i processi integrati o quasi, è sufficiente differenziarli di un periodo. Facciamo un semplice esempio. Prendiamo nuovamente in esame il pil pro-capite italiano rilevato nel periodo compreso fra il 1960 e il 2002, e procediamo a misurarne anzitutto la memoria attraverso un’analisi ar(1). PILt = 396,09 + 0,99·PILt-1 (t= 1961,1962…2002)

[22]

Come si vede dall’equazione 22, il fatto che il coefficiente riferito a PILt-1 assuma un valore prossimo all’unità ci fa sospettare che l’andamento dei nostri dati sia molto probabilmente integrato di primo ordine. Pertanto, senza procedere in senso inferenziale, possiamo sostenere che la memoria del pil pro-capite italiano è estremamente lunga. Decidiamo pertanto di differenziare la serie al fine di controllare se la sua memoria si accorcia a tal punto da non poter più parlare di dati integrati o quasi. Per fare ciò conduciamo l’analisi ar(1) su ∆PIL. ∆PILt = 280,43 + 0,04·∆PILt-1 (t= 1962,1963...2002)

[23]

Come si vede dall’equazione 23, il nostro tentativo appare ben riuscito. Il coefficiente ottenuto per ∆PILt-1 è molto vicino allo zero, a testimonianza del fatto che la differenza prima del pil pro-capite italiano appare scarsissimamente influenzata dal proprio passato. Come evidenzia la spezzata riportata in fig. 12, l’andamento di ∆PIL non tende in alcun modo a deviare dal valore medio della serie, rappresentato dalla retta tracciata perpendicolarmente all’asse delle ordinate.

91

-200

differenza prima del pil italiano 0 200 400

600

Fig. 12 – Andamento temporale della differenza prima del pil pro-capite italiano, 1960-2002

1960

1970

1980 anno

92

1990

2000

6. La regressione per dati in serie storica

Come è stato illustrato nei paragrafi 4.2 e 4.3, per controllare empiricamente un’ipotesi di ricerca è necessario procedere attraverso tecniche che permettano di prendere in esame congiuntamente più vettori-colonna della matrice dei dati, quali la regressione lineare per dati trasversali. In questo capitolo verrà quindi trattata la regressione lineare per dati in serie storica, sottolineando le opportunità e i problemi che essa comporta. In particolare verrà illustrata la possibilità di analizzare le relazioni che si instaurano fra le variabili nel corso di periodi più o meno prolungati e il rischio di prendere per buone relazioni spurie, specie quando le serie temporali esaminate possiedono una memoria lunga o illimitata (vedi il par. 5.4). Rispetto a quest’ultimo punto presenteremo anche i possibili rimedi per scongiurare il rischio di ottenere risultati privi di senso. Nella parte finale del capitolo, in sintonia con quanto fatto per l’analisi dei dati trasversali, verranno affrontate le questioni legate alla distribuzione dei residui, considerando in particolare il problema dell’auto-correlazione.

6.1. Analisi statiche e analisi dinamiche Come detto (vedi parr. 1.1 e 3.2), i dati in serie storica sono sequenze di osservazioni rilevate ad intervalli regolari di tempo su una data unità territoriale. Ciò offre la possibilità di porre in relazione sia variabili i cui valori sono stati rilevati negli stessi periodi di tempo sia variabili che si differenziano per il fatto di essere o meno ritardate. In altre parole, i dati in serie storica permettono di stimare sia regressioni in cui sia i valori della Y che quelli della X sono rilevati a partire dal tempo t sia regressioni in cui i valori della Y sono rilevati a partire dal tempo t mentre quelli della X sono rilevati a partire dal 93

tempo t-1,t-2 e/o t-k. Nel primo caso si parla di analisi statiche, nel secondo di analisi dinamiche. Poiché nelle regressioni statiche le variabili vengono incluse senza essere temporalmente sfasate, sul piano formale esse sono uguali alle regressioni per dati trasversali. L’unica differenza consiste nel fatto che, mentre nelle equazioni di regressione per dati trasversali si usa di norma il suffisso i, nelle regressioni statiche si adotta abitualmente il suffisso t. Una regressione statica con un solo regressore è quindi formulabile nel modo seguente:

ˆ = a + bX Y t t

[24]

Questa equazione indica che ogni valore della Y è funzione dei contemporanei valori della X. Chiunque decida di stimare una regressione statica parte dall’assunto che l’effetto esercitato dalla variabile indipendente sulla variabile dipendente si realizza istantaneamente o comunque entro l’intervallo di tempo in cui vengono rilevati i valori delle due variabili. In altre parole, se i dati sono stati rilevati con cadenza annuale e si effettua un’analisi statica, si sta assumendo che l’effetto della X sulla Y si produce entro l’anno. Ne risulta che le regressioni statiche sono più appropriate per analizzare le relazioni fra variabili rilevate con una cadenza non troppo frequente (annuale, quinquennale, etc.). Infatti, sebbene molto dipenda dal tipo di relazione che si vuole analizzare, minore è il tempo di osservazione, maggiore è la probabilità che l’effetto non si esaurisca entro quel particolare intervallo di tempo. In molti casi, peraltro, l’effetto prodotto dalla X sulla Y non si esaurisce entro l’intervallo di tempo con cui vengono raccolti i dati. Ad esempio, gli effetti di svariate politiche pubbliche perdurano per periodi piuttosto prolungati e/o necessitano di un certo lasso di tempo per dispiegarsi pienamente. In particolare, affinché un aumento della tassazione sul lavoro si traduca in un incremento del tasso di disoccupazione è necessario che passi un certo periodo di tempo. Infatti, prima che il disincentivo ad assumere nuovo personale, provocato da una tale politica, si faccia sentire sulla quota di forza lavoro alla ricerca di un impiego, è necessario che trascorra qualche tempo. Inoltre, è altrettanto improbabile che questo effetto si esaurisca all’istante senza lasciare traccia. 94

Per analizzare questo tipo di meccanismi causali occorre far ricorso a regressioni dinamiche.27 In particolare è necessario adottare una qualche forma della cosiddetta regressione a ritardi distribuiti. Essa consente infatti di cogliere la relazione fra i valori correnti della variabile dipendente e quelli correnti e passati (ossia ritardati) della variabile indipendente. Le regressioni a ritardi distribuiti possono avere un numero finito di ritardi o l’intero ammontare dei possibili ritardi della variabile indipendente. Nel primo caso si parla di regressioni a ritardi distribuiti finiti, nel secondo di regressioni a ritardi distribuiti infiniti. La regressione a ritardi finiti più semplice è detta regressione a ritardi distribuiti di primo ordine ed è esprimibile attraverso la seguente equazione: ˆ =a+bX +b X Y t 1 t 2 t -1

[25]

dove b1 esprime l’effetto contemporaneo di X su Y, mentre b2 esprime l’effetto che la X ritardata di un periodo esercita sulla Y al tempo t. Più precisamente, il valore di b1 indica di quanto varia in media la Y in ragione di una variazione unitaria della X al tempo t, al netto dell’effetto esercitato dalla X ritardata di un periodo; il valore di b2 indica di quanto varia in media la Y in ragione di una variazione unitaria della X ritardata di un periodo, al netto dell’effetto contemporaneo della X. Quindi i parametri relativi ad ogni singolo regressore di una regressione a ritardi distribuiti esprimono gli effetti netti esercitati dalla variabile indipendente sulla variabile dipendente per ciascun periodo di rilevazione preso in considerazione. La regressione a ritardi distribuiti fornisce inoltre una misura dell’effetto totale che la X esercita sulla Y in un dato lasso di tempo. Tale informazione si ottiene facendo una semplice somma algebrica dei coefficienti di regressione che risultano da tale analisi. In riferimento all’equazione 25 è quindi sufficiente sommare b1 con b2. Il riferimento al concetto di effetto totale (o permanente) consente di precisare un’importante questione concernente la specificazione delle regressioni a ritardi distribuiti, ovvero quale ordine attribuire alla regressione. Se ad esempio optiamo per una regressione di primo 27 Se si optasse per una regressione statica, si finirebbe infatti per omettere importanti fattori esplicativi, costituiti appunto dai ritardi della variabile indipendente.

95

ordine, è come se stessimo assumendo che l’effetto totale esercitato dalla X sulla Y si esaurisce nell’arco di un periodo di osservazione e che gli effetti esercitati a distanza di periodi di tempo più lunghi sono nulli. Ciò significa che, stimando una regressione analoga a quella dell’equazione 25, si sta assumendo che i coefficienti di regressione corrispondenti ai ritardi maggiori o uguali a due siano uguali a 0. Detto diversamente, quando si ricorre a una regressione a ritardi finiti non si fa altro che azzerare tutti i coefficienti di regressione relativi ai ritardi della X di ordine superiore a quello della stessa regressione. Sul piano della ricerca empirica una tale logica comporta problemi di non facile soluzione. Generalmente le nostre ipotesi di ricerca non sono, infatti, così precise da consentirci di stabilire a priori l’ordine della regressione. Questo perché le teorie a nostra disposizione sono troppo vaghe da permetterci di quantificare l'intervallo di tempo entro il quale si esaurisce la relazione causale fra le variabili (vedi par. 4.3). Per tale ragione dobbiamo necessariamente procedere per tentativi, partendo da una regressione a ritardi infiniti o da una regressione con un ordine piuttosto elevato, per valutare poi se è possibile ridurne il numero dei regressori (De Boef e Keele 2005). Tale operazione procede attraverso l’eliminazione di quei coefficienti di regressione che assumono valori molto bassi a testimonianza della presenza di effetti nulli o molto ridotti. In altri termini, poiché raramente i coefficienti di regressione risultano pari a zero (vedi parr. 1.4 e 4.4), un criterio per fissare l’ordine della regressione consiste nel valutare come varia l’intensità dell’effetto totale della X al variare dello stesso ordine28. Proviamo a chiarire quanto detto sin qui riprendendo l’esempio concernente la relazione fra la contribuzione sociale e il tasso di disoccupazione. Supponiamo di disporre di una matrice contenente dati in serie storica a cadenza annuale rilevati per l’Italia per il periodo compreso fra il 1965 e il 2000. Le variabili in matrice sono rispettivamente: la percentuale del pil destinata ai contributi per la sicurezza sociale (CSS) e il tasso di disoccupazione (DIS). Partendo dall’ipotesi che la co-variazione fra CSS e DIS non si esaurisce 28

Si può ovviamente procedere anche in senso contrario, partendo cioè da una regressione di primo ordine per valutare poi se sia opportuno aumentarne l’ordine. Chiaramente in tal caso sarebbe necessario tenere conto di quanto aumenta in termini relativi l’effetto totale della X in ragione di una riduzione dei vincoli della regressione.

96

nell’immediato ma perdura per alcuni anni, iniziamo la nostra analisi stimando una regressione a ritardi distribuiti di quinto ordine. Facendo gli appropriati calcoli in base al metodo dei minimi quadrati, otteniamo i seguenti risultati: DÎSt = -16,93 + 0,33·CSSt + 0,37·CSSt-1 + 0,53·CSSt-2 + 0,32·CSSt-3 + + 0,32·CSSt-4 + 0,26·CSSt-5 (t=1965,1966,…..2000) [26]

Come si può notare osservando i valori dei coefficienti di regressione, i nostri sospetti erano fondati: l’associazione fra la contribuzione sociale e il tasso di disoccupazione perdura nel tempo, crescendo in termini di intensità sino al secondo ritardo per poi ridiscendere sino al quinto. Nel periodo considerato possiamo quindi dire che la relazione fra CSS e DIS assume una forma simile ad una U rovesciata (vedi fig. 13).

.2

coefficienti di regressione .3 .4 .5

.6

Fig. 13 – Distribuzione dell'intensità dell'associazione fra CSS e DIS nell’arco di cinque anni

0

1

2

3

4

5

ritardi

In ragione di questo andamento potremmo decidere di provare a stimare una regressione a ritardi distribuiti con un ordine inferiore. In altri termini, visto che a distanza di cinque anni l’intensità dell’associazione fra CSS e DIS appare minima, potremmo decidere di passare alla stima di una regressione di quarto ordine e in seguito 97

di terzo ordine. Tuttavia, come si può notare dalla tab. 8,ponendo pari a zero rispettivamente il quinto ed il quarto ritardo di CSS, si finisce per ottenere dei risultati poco apprezzabili. Infatti, sebbene l’effetto totale esercitato da CSS su DIS non diminuisca in modo significativo (esso passa da 2,18 a 1,95), il coefficiente avente il ritardo maggiore tende a crescere progressivamente assorbendo la covariazione pertinente ai ritardi via via eliminati (si vedano i coefficienti di regressione relativi a CSSt-4 e CSSt-3 rispettivamente delle regressioni di quarto e di terzo ordine). Possiamo dunque concludere che in questo caso risulta poco opportuno passare ad una regressione con meno ritardi di quella di quinto ordine. Una tale operazione sarebbe stata appropriata se il quinto ed il quarto ritardo avessero presentato coefficienti di regressione molto più vicini allo zero pesando in modo molto meno significativo sulla co-variazione permanente fra CSS e DIS. Tab. 8 – Coefficienti di regressione ottenuti dalla stima di una regressione a ritardi distribuiti di quinto, di quarto e di terzo ordine avente come variabile dipendente DIS e come variabile indipendente CSS regressione di regressione di regressione di quinto ordine quarto ordine terzo ordine CSS CSSt-1 CSSt-2 CSSt-3 CSSt-4 CSSt-5

0,33 0,37 0,53 0,32 0,32 0,26

0,29 0,46 0,56 0,25 0,48

0,35 0,57 0,41 0,62

effetto totale

2,18

2,04

1,95

Si può aggiungere che le regressioni diacroniche a ritardi distribuiti possono essere arricchite aggiungendovi una componente autoregressiva. In altre parole, alla destra del segno uguale dell’equazione 25, oltre ai ritardi della variabile indipendente, si possono includere anche i ritardi della variabile dipendente. Cosi facendo si ottiene un’auto-regressione a ritardi distribuiti che nella sua forma più semplice è esprimibile attraverso la seguente equazione: ) Yt = a + b1Yt −1 + b 2 X t + b3 X t −1 98

[27]

dove b1 esprime l’effetto esercitato dalla Y ritardata di un periodo sulla Y rilevata al tempo t, al netto degli effetti esercitati da X e da Xt-1. Il criterio che sottende l'auto-regressione a ritardi distribuiti è uguale a quello della regressione priva della componente autoregressiva. Essa può essere, infatti, stimata attribuendo un numero finito o infinito di ritardi alle variabili che si trovano alla destra del segno uguale, nello specifico alla X e alla Y. Inoltre, si può optare per una regressione avente un diverso numero d’ordine per la X e per la Y. Le soluzioni sono dunque molteplici, e si possono tutte derivare dall'auto-regressione a ritardi infiniti (De Boef e Keele 2005). Infatti, a seconda di dove e di quanti vincoli si decide di porre a questo tipo di regressione, se ne ottengono forme più specifiche che nella letteratura econometrica assumono denominazioni differenti. Facciamo alcuni esempi. Se si pongono pari a zero tutti i ritardi della variabile dipendente e tutti i ritardi della variabile indipendente, si ottiene una regressione statica. Se si vincolano solo i ritardi della variabile dipendente, si ritorna alla regressione a ritardi distribuiti. Se, infine, si vincolano soltanto i ritardi della variabile indipendente, si ottiene una regressione detta “ad aggiustamenti parziali”. Come è facile intuire, la sua forma più semplice è la seguente: ) Yt = a + b1Yt −1 + b 2 X t

[28]

6.2. Il problema della relazione spuria Per proseguire nella nostra trattazione delle tecniche di analisi per dati in serie storica, dobbiamo soffermarci su un problema che si incontra di frequente nella ricerca macro-comparata, ma che viene trascurato da molti studiosi: la relazione spuria dovuta ad andamenti simili nel tempo da parte delle variabili. Quando si applicano le normali tecniche bi- e multi-variate (diagramma a dispersione, coefficiente di correlazione e regressione lineare semplice e multipla) ai dati in serie storica, si ottengono spesso risultati che sembrano rivelare relazioni molto strette, ma che in realtà sono privi di senso. In un articolo di diversi decenni or sono, Yule (1926) fece notare che in Inghilterra la correlazione fra il tasso di mortalità e la quota di matrimoni contratti in chiesa corrisponde a 99

.95. Più recentemente Hendry (1980) mise in evidenza che la correlazione fra il tasso d’inflazione e la caduta di acqua piovana è quasi perfetta. Il coefficiente di correlazione da egli calcolato equivale infatti a .99. Con queste analisi entrambi questi autori intendevano mostrare che, se si usano dati in serie storica, si rischia di osservare sistematiche co-variazioni anche quando le relazioni studiate non sono fondate né teoricamente né a livello di senso comune. Non appare plausibile che esista un qualche nesso causale fra il tasso di mortalità e la quota di matrimoni celebrati in chiesa, da una parte, e fra l’inflazione e la caduta di acqua piovana, dall’altra. Una relazione fra variabili, e più in particolare un rapporto di causa ed effetto, non deve quindi basarsi esclusivamente su una covariazione statistica, ma deve essere al contempo plausibile. Di conseguenza, le correlazioni sopra citate non dovrebbero suscitare interesse. Resta da chiedersi perché queste si manifestino dando luogo a coefficienti così elevati. La risposta a questa domanda la si trova già nel vecchio articolo di Yule (1926): egli sostenne infatti che la causa di queste sistematiche co-variazioni deriva dal fatto che spesso i dati in serie storica non sono fra loro indipendenti ma evidenziano una ricorrente dipendenza fra le informazioni raccolte nei diversi momenti temporali. In particolare, dal momento che sia la serie sul tasso di mortalità che quella sulla quota di matrimoni contratti in chiesa seguivano un chiaro andamento decrescente, l’elevata correlazione fra queste due variabili viene osservata poiché negli anni più remoti entrambe evidenziavano i punteggi più elevati, mentre negli anni più recenti facevano registrare i punteggi più bassi. Molte serie storiche tendono infatti a seguire andamenti crescenti o decrescenti, e ciò fa sembrare strettamente legate variabili che non lo sono in alcun modo. Molti anni dopo anche Granger e Newbold (1974) sostennero che svariate regressioni stimate su variabili macroeconomiche rilevate in serie storica tendono a individuare relazioni spurie perché tendono ad essere caratterizzate da trend positivi o negativi e non possono di conseguenza essere considerate stazionarie (vedi il par. 5.2). Con questo lavoro Granger e Newbold segnarono un vero e proprio punto di svolta nello sviluppo delle tecniche per l’analisi dei dati in serie storica. Gli scienziati sociali divennero via via consapevoli che il rischio di prendere per buone relazioni spurie è estremamente elevato anche quando si analizzano variabili la cui associazione è fondata su solide basi teoriche. Restava tuttavia il problema di sapere come fos100

se possibile stabilire se le relazioni osservate sono effettivamente spurie e quali tecniche di analisi fosse opportuno adottare quando le serie in esame sono non-stazionarie. Queste problematiche vennero brillantemente risolte nei celebri lavori di Granger (1981) e di Engle e Granger (1987) nei quali venne sviluppato il concetto e le tecniche di co-integrazione. Prima di soffermarci nel dettaglio su tali questioni è utile ripercorrere le fasi di analisi di un’ipotetica ricerca empirica su dati in serie storica. Nel paragrafo 4.2 avevamo supposto che un ricercatore volesse controllare attraverso l’analisi di un insieme di dati trasversali l’ipotesi secondo la quale all’aumentare del grado di apertura al commercio internazionale corrisponde un incremento della tassazione. Supponiamo ora che lo stesso ricercatore decida di controllare attraverso l’analisi di dati in serie storica l’ipotesi secondo la quale all’aumentare del grado di apertura al commercio internazionale corrisponde un incremento della spesa sociale. Per fare ciò poniamo che si serva di un insieme di dati annuali riguardanti il periodo 19611991 per un determinato paese sviluppato. Le variabili della matrice sono: la percentuale del pil destinata ai flussi di importazione ed esportazione (COM) e la quota del pil destinata ai trasferimenti per la sicurezza sociale (TSS). Non curandosi dei problemi messi in evidenza da Yule (1926) e da Granger e Newbold (1976), il nostro ricercatore si comporta come se stesse analizzando dati trasversali. Inizia così a produrre un diagramma a dispersione ponendo sull’asse delle ordinate TSS (variabile dipendente) e sull’asse delle ascisse COM (variabile indipendente). Osservando il grafico (fig. 14), appare soddisfatto. I punti fissati sul diagramma si dispongono infatti quasi perfettamente su una retta che passa in prossimità dell’origine e prosegue verso l’angolo in alto a destra del riquadro. Ciò lo induce a pensare che la relazione fra TSS e COM abbia forma lineare e segno positivo. Il coefficiente di correlazione è .99, a testimonianza di una pressoché perfetta correlazione fra le due variabili. In virtù di tali risultati il nostro ricercatore decide di stimare una regressione lineare semplice al fine di conoscere l’intensità dell’effetto di COM su TSS. Effettuando gli opportuni calcoli, ottiene i seguenti risultati: 101

TŜSt = -43,27 + 1,21·COMt

(t=1961,1962…1991)

[29]

Il fatto che il coefficiente di regressione riferito a COM assuma valore 1,21 dimostra che l’apertura commerciale esercita una forte influenza sui trasferimenti per la sicurezza sociale. Se si tiene conto che entrambe queste variabili sono espresse in valori percentuali, si può infatti sostenere che, ogni qualvolta COM aumenta di un punto, TSS cresce in media dell’1,21 per cento.

5

trasferimenti sicurezza sociale 10 15

20

Fig. 14 – Diagramma a dispersione ottenuto ponendo sull’ascissa il grado di apertura commerciale e sull’ordinata la quota del pil destinata ai trasferimenti sociali (1961-1991)

42

44

46 48 apertura commerciale

50

52

A questo punto il ricercatore si chiede se la relazione fra COM e TSS possa in realtà essere spuria. La stretta co-variazione osservata fra queste due variabili può infatti derivare dal fatto che nel corso degli ultimi decenni si è assistito ad una progressiva crescita sia in termini di esposizione al commercio internazionale sia in termini di spese per il welfare. Qualche fattore di sviluppo socio-economico potrebbe pertanto aver causato questo parallelo andamento crescente delle due variabili, che appare nei diagrammi delle figg. 15 e 16. All’inizio del periodo preso in esame (inizio anni ’60) TSS e COM esibiscono i loro punteggi più bassi, mentre nella parte finale (fine anni ’80 e inizio anni ’90) mostrano i valori più elevati. 102

L’andamento crescente seguito da TSS e da COM mostra che queste due variabili non possono considerarsi stazionarie. Il nostro ricercatore effettua quindi due distinte auto-regressioni di primo ordine, trovando le seguenti equazioni: TŜSt = 0,44 + 1,00·TSSt-1

(t=1962,1963…1991)

[30]

CÔMt = 0,50 + 1,00·COMt-1

(t=1962,1963…1991)

[31]

Il fatto che entrambi i coefficienti auto-regressivi siano pari a uno lascia pochi dubbi: TSS e COM non sono variabili stazionarie, ma quasi certamente sono integrate di primo ordine (vedi il par. 5.4). L’esempio mostra che quando si ha a che fare con serie storiche di livello macro non si può procedere come se si avesse a disposizione dati trasversali. Occorre partire da alcune analisi monovariate per conoscere le proprie variabili ed evitare così di produrre risultati privi di senso. Nei prossimi tre paragrafi illustreremo le tecniche di analisi impiegabili in caso di serie temporali integrate o quasi.

5

trasferimenti sicurezza sociale 10 15

20

Fig. 15 – Andamento temporale dei trasferimenti per la sicurezza sociale rilevato nel periodo 1961-1991

1960

1970

1980 anno

103

1990

42

44

apertura commerciale 46 48 50

52

Fig. 16 – Andamento temporale del grado di apertura al commercio internazionale, rilevato nel periodo 1961-1991

1960

1970

1980

1990

anno

6.3. La regressione in differenza prima Gli statistici suggeriscono in genere una semplice assicurazione contro il rischio di prendere per buone delle relazioni spurie: la regressione in differenza prima. Essa è esprimibile attraverso la seguente formula: ) ∆Yi = a + b1∆X t

)

[32]

dove ∆Yi e ∆X t rappresentano rispettivamente la differenza prima della Y e della X. Pertanto la regressione in differenza prima non è altro che una regressione lineare in cui sia la variabile che si trova alla sinistra del segno uguale sia quelle alla sua destra sono “espresse in differenza”, anziché “a livello”. Questo perché attraverso la differenziazione di molte serie storiche di livello macro è possibile ottenere la stazionarietà (vedi par. 5.5). Per evidenziare pregi e difetti di questa soluzione, proviamo ad applicarla ai dati del nostro ricercatore. Prima di stimare la regressione in differenza prima, controlliamo se la differenza prima di TSS 104

e di COM permettono di raggiungere l’obiettivo della stazionarietà, ricorrendo alla costruzione di due diagrammi e alla stima di due auto-regressioni di primo ordine. Troviamo queste due equazioni: ∆TŜSt = 0,33 + 0,19·∆TSSt-1

(t=1963,1964…1991)

[33]

∆CÔMt = 0,30 + 0,11·∆COMt-1

(t=1963,1964…1991)

[34]

Esse mostrano che il problema della non stazionarietà dei dati sembra effettivamente risolto: la differenza prima di entrambe queste variabili segue un andamento che non tende a discostarsi dal rispettivo valore medio (vedi figg. 17 e 18). I due coefficienti autoregressivi indicano poi che in entrambi i casi la memoria esibita dalle due variabile è troppo corta per destare timori di integrazione o di quasi-integrazione. Possiamo dunque procedere alla stima della regressione in differenza prima.

0

trasferimenti sicurezza sociale .5

1

Fig. 17 – Andamento temporale della differenza prima dei trasferimenti per la sicurezza sociale rilevato nel periodo 1961-1991

1960

1970

1980 anno

105

1990

-.2

0

apertura commerciale .2 .4

.6

.8

Fig. 18 – Andamento temporale della differenza prima del grado di apertura al commercio internazionale rilevato nel periodo 1961-1991

1960

1970

1980

1990

anno

∆TŜSt = 0,09 + 0,94·∆COMt

(t=1962,1963…1991)

[35]

Il coefficiente di regressione indica che se ∆COM varia di un’unità, la corrispondente variazione di ∆TSS sarà in media pari a 0,94. Un tale risultato non ci deve far più temere il rischio di una relazione spuria dovuta al fatto che le variabili prese in esame condividono un andamento crescente e mostrano al contempo una memoria illimitata o quasi.29 Ciò costituisce un importante pregio della regressione in differenza prima, che però comporta uno svantaggio altrettanto importante, che consiste nell’impossibilità di analizzare la relazione di lungo periodo fra le variabili di interesse. Infatti, se si stima una regressione impiegando variabili espresse in differenza, si può conoscere soltanto 29

Ovviamente il rischio di prendere per buona una relazione spuria persiste poiché una terza variabile potrebbe essere alla base della co-variazione fra i trasferimenti per la sicurezza sociale e il grado di apertura al commercio internazionale espressi in differenza. Per controllare una tale eventualità si dovrebbe, come illustrato nel par. 4.3, procedere attraverso una regressione multipla comprensiva di variabili di controllo.

106

l’effetto esercitato dalla variazione fra t e t-1 della variabile indipendente sulla variazione rilevata per lo stesso periodo di tempo per la variabile dipendente (vedi par. 5.3). Ciò risulta svantaggioso poiché la quasi totalità delle ipotesi di livello macro si riferisce a relazioni di lungo periodo e quindi da controllare attraverso l’analisi di variabili “espresse in livello”. Sul versante della teoria economica possiamo osservare ad esempio che le ipotesi sui consumi prefigurano una relazione fra i livelli di spesa e i livelli di reddito oltre che fra i rispettivi tassi di variazione annuali o trimestrali. Sul versante sociologico e politologico, gli effetti che le strutture politico-istituzionali e le configurazioni socioeconomiche esercitano sulla spesa per il welfare nazionale necessitano di un periodo di tempo sufficiente a materializzarsi. Gli argomenti che sono stati sviluppati in merito ad un rapporto di causa-effetto fra esposizione al mercato internazionale e sviluppo del welfare state si basano inoltre su processi di lungo periodo (Cameron 1978; par. 4.3). Ciò preclude pertanto la possibilità di adottare la regressione in differenza prima.

6.4. L’inclusione di un trend lineare Un’altra soluzione per evitare di prendere per buone relazioni spurie consiste nell’inserire nella regressione stimata con variabili “espresse in livello” un trend lineare. Questa soluzione appare più coerente con il concetto di relazione spuria e con quanto detto sulla regressione multipla (vedi par. 4.3). Questo perché, se passando da una regressione lineare semplice a una regressione lineare multipla comprensiva di un trend lineare notiamo che l’effetto prodotto dalla variabile indipendente si mantiene sostanzialmente invariato, vuol dire che la relazione non è spuria.30 Questo modo di procedere si basa sul ragionamento secondo il quale, se osserviamo una covariazione fra due serie storiche, entrambe caratterizzate da un trend positivo o negativo (come sono in genere le variabili integrate o quasi), possiamo presumere che una tale relazione dipenda da una terza 30 Naturalmente a condizione che il trend esaurisca completamente il novero delle variabili di controllo da inserire nell'equazione di regressione. Se così non è, allora ogni conclusione sul carattere spurio o meno dell’effetto bivariato è solo provvisoria e non necessariamente vera.

107

variabile che ha determinato per ambedue le variabili l’andamento temporale crescente o decrescente. Per controllare questa eventualità, la soluzione più semplice è appunto quella di inserire nell’equazione di regressione un trend lineare in qualità di variabile di controllo e valutare se e in che misura si modifica il coefficiente di regressione relativo alla variabile indipendente scelta. Poiché le serie storiche prese in esame dal nostro ricercatore evidenziano entrambe un trend positivo (vedi figg. 15 e 16), proviamo a ri-stimare la regressione con TSS e COM espresse in livello includendovi un trend lineare (TRD)31. Fatti gli opportuni calcoli otteniamo i seguenti risultati: TŜSt = -40,35 + 1,14·COMt + 0,03·TRD t (t=1961,1962..1991)

[36]

Confrontando il coefficiente di regressione riferito a COM dell’equazione 36 con quello dell’equazione 29, possiamo concludere che la relazione fra il grado di apertura al commercio internazionale e i trasferimenti per la sicurezza sociale non dipende dal fatto che le due variabili mostrino andamenti collineari nel tempo, dato che l’inclusione del trend lineare ha ridotto di pochissimo l’intensità dell’effetto di COM su TSS. Questa conclusione potrebbe in realtà essere errata. Ciò dipende dal fatto che l’inclusione di un trend lineare non scongiura il rischio di prendere per buona una relazione spuria, come fa invece la differenza prima (Banerjee e altri 1993: 83). Questo perché l’inclusione di un trend non è sempre in grado di accorciare in modo sufficiente la memoria delle variabili nell’equazione. A questo proposito basti notare che i coefficienti auto-regressivi delle analisi ar(1) condotte rispettivamente sui trasferimenti per la sicurezza sociale e sull’apertura al commercio internazionale, entrambi depurati del proprio trend lineare, equivalgono rispettivamente a .85 e a .83.32 Ciò significa che, nonostante si sia proceduto a questa trasformazione, le due variabili in questione presentano ancora una memoria discretamente lunga palesandosi come processi quasi-integrati.

31

Sulla costruzione di un trend lineare si veda il par. 5.3. Sul fatto che l’inclusione di un trend lineare comporti una sostanziale perdita delle informazioni di lungo periodo, si veda il par. 5.3 e il capoverso successivo di questo paragrafo. 32

108

Inoltre, sebbene l’inclusione di un trend lineare non comporti di norma un accorciamento della memoria analogo a quello garantito dalla differenza prima, questa soluzione presenta uno svantaggio simile a quello evidenziato dalla regressione in differenza prima, ovvero l'impossibilità di analizzare la relazione di lungo periodo fra le variabili di interesse. Questo perché il coefficiente che si ottiene per la variabile X dalla regressione comprensiva del trend lineare è esattamente lo stesso che si otterrebbe stimando una regressione avente come variabile dipendente la Y depurata dal proprio trend lineare e come variabile indipendente la X depurata dal proprio trend lineare. Riprendendo quanto detto nel paragrafo 5.3, possiamo infatti sostenere che stimare una regressione avente come variabile dipendente i residui ottenuti regredendo la Y contro un trend lineare e come variabile indipendente i residui ottenuti regredendo la X contro un trend lineare equivale a stimare una regressione con la X e Y espresse in livello più un trend lineare. In altre parole, per ottenere il coefficiente di regressione riferito a COM nell’equazione 36, si può procedere stimando le tre seguenti regressioni: 1) una avente come variabile dipendente TSS e come variabile indipendenti TRD; 2) una avente come variabile dipendente COM e come variabile indipendente TRD; 3) una avente come variabile dipendente i residui della prima regressione e come variabile indipendente i residui della seconda regressione (si veda in merito il discorso sviluppato nel par. 4.4 sull'associazione parziale). Ciò dimostra dunque che l’inclusione di un trend lineare comporta il problema sopra precisato, ossia che la completa depurazione delle variabili dal loro andamento crescente (o decrescente) impedisce di cogliere importanti aspetti della relazione di lungo periodo.

6.5. Il concetto e le tecniche di co-integrazione Come si può dunque stabilire se una relazione fra due serie storiche integrate o quasi sia, o meno, spuria senza perdere informazioni di lungo periodo? Com’è stato dimostrato dai lavori di Granger (1981) e di Engle e Granger (1987), la soluzione è controllare se le due serie sono co-integrate. Per illustrare questo concetto, possiamo dire che, se due variabili X e Y sono entrambe integrate (X ~ I(1) e Y ~ I(1)), normalmente anche i residui della pertinente regressione so109

no un processo integrato di primo ordine: in simboli et = ~ I(1). Può tuttavia accadere che i residui siano un processo integrato di ordine zero, (et ~ I(0)). In tal caso la combinazione lineare fra la X e la Y presenta le stesse proprietà statistiche di un processo stazionario. In altre parole, se una combinazione lineare fra due variabili integrate dà luogo ad un processo I(0), significa che tali variabili sono cointegrate. In termini più operativi possiamo dire che, se stimiamo una regressione lineare usando delle variabili non-stazionarie e otteniamo dei residui che si possono considerare stazionari, potremo concludere che le due serie sono co-integrate e non sono legate fra loro in modo spurio per effetto del loro ordine di integrazione. Da ciò risulta chiaro che attraverso questa procedura è possibile stabilire se la relazione fra le variabili è spuria senza perdere alcuna informazione sugli effetti di lungo periodo. Essa peraltro appare relativamente semplice da usare. Basta infatti applicare una procedura a due passi che prevede di stimare dapprima una regressione su variabili che espresse in livello appaiono integrate o quasi (regressione cointegrante) e controllare, poi, se i relativi residui sono o meno stazionari. Resta tuttavia da capire perché la stazionarietà dei residui possa costituire un’indicazione dell'effettiva associazione fra le variabili. Per rispondere a tale domanda bisogna partire dal presupposto che, se due variabili sono legate causalmente l’una all’altra, la variabile dipendente dovrà muoversi nel tempo in modo sistematico rispetto al variare della variabile indipendente. Viceversa, se non c’è relazione causale, il movimento condiviso dalle due variabili non sarà altro che una pura coincidenza o — come prevede il concetto di relazione spuria — la conseguenza dell’influenza esercitata su una o su entrambe da una terza variabile. Nel caso delle variabili non-stazionarie un tale discorso assume un significato particolare. Infatti, come abbiamo più volte osservato, la non-stazionarietà è spesso legata ad andamenti crescenti o decrescenti delle serie storiche di volta in volta esaminate. Ciò significa che, se due serie temporali sono caratterizzate dallo stesso trend, ovvero se entrambe presentano un andamento crescente (o decrescente), la loro co-variazione dipenderà, come abbiamo già rilevato, da tale condivisione. Come sottolineano però Mukherjee, White e Wuyts (1998), questo non implica tuttavia che tali variabili co-varino anche nel breve periodo. In altri termini, se due variabili condividono lo stesso 110

trend, non è detto che le rispettive variazioni da un periodo di rilevazione all’altro varino in modo altrettanto sistematico. Affinché non ci sia relazione spuria è quindi necessario che due (o più) serie temporali non-stazionarie siano associate anche nel breve periodo (vedi la fig. 19). Se ciò non si verifica, possiamo quindi osservare che la relazione di breve periodo stimata attraverso una regressione in differenza prima sarà molto meno stretta rispetto a quella di lungo periodo risultante da una regressione condotta su variabili espresse in livello. Ma quale è l’implicazione di questo ragionamento sui residui della regressione co-integrante? Nel caso in cui una relazione è spuria i residui tenderanno ad essere non-stazionari in quanto le due variabili co-variano in modo non sistematico. In altri termini, se riproducessimo un grafico a linee per valutare come si muovono nel tempo i residui derivanti da una regressione stimata su variabili espresse in livello, noteremmo delle successioni di valori positivi e/o negativi per periodi prolungati. Viceversa, se le due serie temporali fossero legate causalmente, e dunque co-integrate, l’andamento temporale dei residui sarebbe caratterizzato da una sistematica alternanza di valori positivi e negativi. Ciò si verificherebbe perché, quando due variabili co-variano in modo sistematico in quanto causalmente associate, accade che i residui non presentano alcuna memoria del proprio passato e non evidenziano, quindi, chiari andamenti temporali, quali sono appunto le successioni di valori positivi e/o negativi (Mukherjee, White e Wuyts 1998). Per controllare se due variabili sono co-integrate, oltre alla procedura a due passi, si può ricorrere alla regressione a correzione dell'errore (De Boef e Granato 2000). In questo modo è sufficiente stimare una sola equazione di regressione avente la seguente formula: ) ∆Yt = a + b1 (Yt −1 − b 2 X t −1 ) + b 3∆X t

[37]

dove b1 rappresenta il termine di correzione dell’errore che costituisce di fatto l’effetto che la distanza (ovvero la differenza) fra i ritardi della Y e della X esercita sulla variazione corrente della Y. Se b1 assume un valore pari o molto vicino a zero, vorrà dire che non c’è correzione dell’errore e la X e la Y non sono co-integrate. Viceversa, se b1 assume un valore compreso fra 0 e -1, significherà che le due variabili sono co-integrate. Questo perché, essendo la variazione corrente della Y legata alla distanza che esiste fra i precedenti valori del111

la X e della Y, c’è una sistematica tendenza della variabile dipendente a ritornare all’equilibrio che contraddistingue il co-andamento di lungo periodo delle due variabili. Ciò dimostra peraltro che anche la regressione a correzione dell’errore denota che il concetto di cointegrazione implica una co-variazione sia di lungo sia di breve periodo. Il fatto che il termine di correzione dell’errore rappresenti l’effetto che la distanza fra Xt-1 e Yt-1 esercita su ∆Yt, pone infatti in evidenza che il precedente co-movimento delle due variabili espresse in livello influenza ― in caso di co-integrazione ― l’andamento di breve periodo della variabile dipendente. Sul piano della stima va infine osservato che, per rendere lineare l’equazione 37 e poter ricorrere al metodo mqo, è possibile assumere che c sia uguale a-b1٠b2 e quindi passare alla seguente formulazione (Banerjee, Dolado e Mestre 1998): ) ∆Yt = a + cYt −1 + dX t −1 + b 2 ∆X t

[38]

dove c è il termine di correzione dell’errore, d l’effetto di lungo periodo che la X esercita sulla Y, e b2 l’effetto di breve periodo esercitato dalla X sulla Y. La regressione a correzione dell’errore ha quindi il vantaggio di fornire informazioni sia sulla co-variazione di lungo periodo sia su quella di breve periodo. Ma quale criterio dobbiamo adottare per scegliere fra la regressione a correzione dell’errore e la procedura a due passi? Come ha argomentato Beck (1991; 1993), la scelta va fatta in ragione di come queste due tecniche mettono in relazione la variabile che si trova alla sinistra del segno uguale dell'equazione e quella che si trova alla sua destra. Infatti, mentre la regressione a correzione dell'errore sottintende una sostanziale uni-direzionalità della relazione fra le due variabili, il controllo della stazionarietà dei residui di una regressione co-integrante implica una sostanziale bi-direzionalità. In altre parole, le due tecniche partono da due differenti assunti riguardo alla relazione di co-integrazione. La procedura a due passi poggia sull’assunto che sia la variabile a sinistra del segno uguale sia quella alla sua destra si correggono (ovvero mutano i loro valori) quando si trovano fuori equilibrio. La regressione a correzione dell’errore parte invece dall’assunto che soltanto la variabile alla sinistra del segno uguale si corregge se non si trova in equilibrio con l’andamento temporale della variabile alla destra del segno uguale. 112

50

51

52

53

Fig. 19 – Esempio di co-movimento nel breve e nel lungo periodo da parte delle variabili X e Y

1980

1985 anno y

1990 x

Questo argomento dovrebbe far comprendere che la regressione a correzione dell’errore appare più appropriata per controllare le ipotesi di ricerca. Come abbiamo infatti rilevato nel paragrafo 1.4, queste prevedono di norma una relazione uni-direzionale secondo la quale la variabile indipendente influenza la variabile dipendente e non viceversa. Per meglio chiarire quanto detto sin qui, proviamo a controllare se le variabili prese in esame dal nostro ricercatore sono (o meno) cointegrate. A tal proposito presentiamo i risultati delle analisi riferibili sia alla procedura a due passi (diagramma e analisi ar(1) effettuata sui residui (RES) della regressione co-integrante espresso dall’equazione 29) sia alla regressione a correzione dell’errore.

113

-.2

residui del modello co-integrante -.1 0 .1 .2

.3

Fig. 20 – Andamento temporale dei residui derivanti dalla regressione co-integrante avente come variabile dipendente TSS e come variabile indipendente COM

1960

1970

1980

1990

anno

RÊSt = 0,00 + 0,36·RESt-1

(t=1962,1963…1991)

[39]

Il diagramma riportato in fig. 20 mostra che i residui non evidenziano successioni di valori positivi e/o negativi, ma al contrario una pressoché sistematica alternanza degli stessi. Ciò costituisce un primo segnale che questi possono considerarsi una serie stazionaria. Un’ulteriore conferma deriva dall’analisi ar(1). Il corrispondente coefficiente auto-regressivo equivale infatti a .36 (vedi l’equazione 39). Queste prove in favore della stazionarietà indicano pertanto che TSS e COM sono co-integrate, e di conseguenza causalmente associate nel lungo periodo. Ciò è peraltro confermato dalla regressione a correzione dell’errore. Il pertinente termine di correzione dell’errore è infatti compreso fra 0 e -1 (vedi l’equazione 40). ∆TŜSt = -22,56 - 0,52 TSSt-1 + 0,63 COMt-1 + 1,05·∆COMt-1 (t=1962,1963…1991) [40]

La preoccupazione di aver preso per buona una relazione spuria per effetto di un comune andamento temporale delle due variabili appare pertanto definitivamente ingiustificata. Dobbiamo a questo 114

punto chiarire meglio perché, secondo quanto abbiamo illustrato sopra, la regressione a correzione dell’errore è più appropriata rispetto alla procedura a due passi per mettere alla prova l’ipotesi del nostro ricercatore. La procedura a due passi implica che sia COM sia TSS si muovano verso l'equilibrio. Viceversa la regressione a correzione dell’errore sottintende che, mentre TSS corregge il suo andamento temporale se non è in equilibrio con COM, quest'ultima variabile non fa altrettanto. Pertanto la regressione a correzione dell'errore risulta più compatibile con la relazione causale prefigurata dal nostro ricercatore. Se è, infatti, ammissibile pensare che in corrispondenza di un incremento dell’apertura al commercio internazionale possano aumentare per ragioni di compensazione i trasferimenti per la sicurezza sociale (vedi par. 4.2), non è realistico ipotizzare che quando aumentano le spese per il welfare state crescano di conseguenza i flussi di importazione e di esportazione. Resta comunque il problema che le analisi fin qui presentate per controllare se c’è co-integrazione sono di tipo bi-variato. Come abbiamo infatti illustrato nel par. 4.3, attraverso l’analisi multi-variata è possibile stabilire se la X influisce effettivamente sulla Y o se la loro co-variazione è la conseguenza del fatto che una o entrambe sono influenzate da una terza variabile. Per questo motivo, anche quando si è interessati a controllare le relazioni causali di lungo periodo fra due sole variabili rilevate in modo diacronico, può essere opportuno adottare tecniche di analisi multi-variata. Riprendendo l’esempio del nostro ricercatore, potremmo supporre che egli abbia riscontrato una relazione di co-integrazione soltanto dopo aver aggiunto alla sua regressione a correzione dell’errore una terza variabile, ad esempio la percentuale di popolazione anziana. In tal caso, egli dovrebbe però interpretare il termine di correzione dell’errore dicendo che i trasferimenti per la sicurezza sociale si correggono per ritornare in equilibrio con gli andamenti di entrambe le variabili poste alla destra del segno uguale dell’equazione e non soltanto con l'andamento di COM.

6.6. Il problema dell’auto-correlazione dei residui Nel paragrafo 4.4 si è detto che i residui delle regressioni stimate su dati nazionali di tipo trasversale sono spesso correlati in virtù del115

la mancata indipendenza dei casi. Un problema simile si presenta quando si stimano regressioni su informazioni diacroniche. In questo caso però i casi sono fra loro dipendenti, non in ragione di scambi economici, politici e culturali, ma perché i casi analizzati sono ordinati cronologicamente, e di conseguenza i punteggi delle variabili sono legati diacronicamente (vedi par. 3.1). Si parla così di autocorrelazione dei residui o di correlazione seriale. Il modo più semplice per controllare l'auto-correlazione consiste nel produrre un diagramma per valutare come si muovono nel tempo i residui. In particolare occorre valutare se la linea tracciata sul grafico evidenzia una sistematica alternanza fra valori positivi e negativi o se invece lascia intravedere prolungate successioni di valori positivi e/o negativi. Nel primo caso si potrà infatti concludere che non c’è auto-correlazione (una tale alternanza denota che il residuo corrispondente al periodo t è completamente slegato da quello riferito al periodo t-1: vedi par. 5.4). Nel secondo si dovrà invece ammettere che i residui sono serialmente correlati (le successioni di valori positivi e/o negativi sono un chiaro segnale di dipendenza temporale: vedi ancora par. 5.4). Una procedura più formale per controllare l’auto-correlazione consiste nel condurre un’analisi ar(1) sui residui della regressione di interesse, partendo dall’ipotesi che non vi sia auto-correlazione se il coefficiente auto-regressivo sia pari o molto vicino a zero. Da tali considerazioni risulta evidente che le tecniche per controllare se vi sia auto-correlazione sono uguali a quelle previste dalla procedura a due passi per stabilire se due o più variabili sono cointegrate (vedi par. 6.5). Ciò potrebbe far pensare che il concetto di auto-correlazione e quello di non-stazionarietà siano fra loro strettamente legati. Questo è in parte vero in quanto entrambi si basano sulla dipendenza temporale dei residui. Tuttavia essi vanno distinti in relazione all’intensità della dipendenza. Infatti, l’assenza di autocorrelazione prevede che il coefficiente auto-regressivo dell’analisi ar(1) sia uguale o molto vicino a zero. D’altro canto, affinché i residui non si possano ritenere integrati o quasi, è necessario che tale coefficiente non assuma un valore uguale o molto vicino a uno. In sede di analisi è comunque bene preoccuparsi dapprima della non-stazionarietà delle variabili di interesse e poi controllare la dipendenza temporale dei residui. Così, se le variabili incluse nella regressione risultano non-stazionarie, l’analisi dei residui servirà per 116

controllare se c’è o meno co-integrazione (vedi par. 6.5). Se invece le variabili appaiono stazionarie, sarà sufficiente controllare il grado di auto-correlazione dei residui. Detto questo, non ci rimane che illustrare i rimedi da adottare quando i residui appaiono auto-correlati. Una prima soluzione consiste nel rendere dinamica la regressione. Nello specifico, se si parte da un'analisi di tipo statico, occorre passare ad una regressione ad aggiustamenti parziali (vedi par. 6.1) aumentandone via via l’ordine sino a quando il problema dell’auto-correlazione non è superato. Si può pertanto iniziare con una regressione ad aggiustamenti parziali di primo ordine (vedi l’equazione 28) e controllare poi se i residui sono ancora auto-correlati. Se è così, bisogna passare a una regressione di ordine superiore, ripetendo l’operazione sino a quando l’esame dei residui non indica che la correlazione seriale è svanita o quasi. Se tuttavia ci si trova in situazioni di ricerca nelle quali appare poco opportuno procedere attraverso una regressione ad aggiustamenti parziali, il problema dell’auto-correlazione può essere affrontato adottando una diversa soluzione. Questa si articola in una serie di passi successivi riassumibili nel modo seguente: una volta accertato che i residui sono auto-correlati, occorre condurre un’analisi ar(1) sugli stessi allo scopo di usarne i risultati per correggere la correlazione seriale della regressione di partenza. In particolare,il coefficiente auto-regressivo derivante dall’analisi ar(1) viene impiegato per ri-stimare la regressione affetta da auto-correlazione. Quest’ultima viene infatti ri-stimata in base a due differenti procedure. La prima è stata formulata da Cochrane e Orcutt (1949) ed appare più adeguata quando si pongono in relazione serie storiche molto lunghe. La seconda è stata sviluppata da Prais e Winsten (1954) e si dimostra più appropriata quando le serie in esame sono di breve durata, come avviene spesso nelle ricerche macro-comparate. Entrambe le procedure sono iterative: se la prima ri-stima della regressione non risulta sufficiente per eliminare l’auto-correlazione dei residui, occorre ripetere da capo il processo sino a quando ciò non si realizza.

117

7. L’analisi dei dati trasversali in serie temporale

Come osservato nel par. 3.3, gli insiemi di dati trasversali in serie storica sono il risultato di una combinazione di informazioni temporali riferite a più unità territoriali. Aver a che fare con questo tipo di matrici significa dover effettuare un’analisi congiunta di informazioni sincroniche e diacroniche. Ciò comporta vantaggi e svantaggi (rispetto ad una mera analisi di dati trasversali o in serie storica) che verranno illustrati in questo capitolo attraverso la trattazione delle principali tecniche monovariate e della regressione lineare.

7.1. L’analisi monovariata Anche per i dati trasversali in serie storica si possono condurre analisi di tipo monovariato. Nello specifico si possono calcolare i consueti valori caratteristici per esprimere il valore centrale e il grado di dispersione di una singola distribuzione. Per calcolare il più classico dei valori caratteristici che esprimono il valore centrale di una distribuzione di dati trasversali in serie storica, ovvero la media, si deve procedere in modo analogo a quanto detto in merito ai dati trasversali (vedi par. 4.1), con la sola eccezione che ogni caso preso in esame è in questo caso riconducibile sia a una certa unità territoriale sia ad un determinato punto temporale. In questo modo la formula 1 dovrà essere riscritta nel modo seguente: NT

x=∑ ti =1

X ti NT

119

[41]

dove Xit rappresenta il valore assunto dalla variabile in un caso quaNT lunque, NT il numero dei casi e ∑ la sommatoria dei valori di tutti i it=1 casi sulla variabile. Lo stesso discorso va fatto per i valori caratteristici che esprimono il grado di dispersione di una variabile di una matrice di dati trasversali in serie storica. Per calcolare lo scarto tipo la formula 2 deve essere riscritta nei termini seguenti: NT

s=

∑x ti =1

ti

[42]

NT

In questa formula si esprime una misura complessiva del grado di dispersione della distribuzione. Nel caso dei dati trasversali in serie storica il grado di dispersione può però essere anche espresso facendo riferimento alle diverse unità territoriali. Lo scarto tipo può così essere scomposto nello scarto tipo fra le diverse unità territoriali (inter-unità) e nello scarto tipo interno alle singole unità territoriali (infra-unità). Per illustrare come calcolare questi due valori caratteristici, conviene far riferimento al vettore-colonna della variabile X inserito in una qualsiasi matrice di dati trasversali in serie storica. Da esso si possono derivare due altri vettori-colonna dai quali è possibile ricavare i due scarti tipo sopra citati. Il primo di questi due vettori contiene, in ognuna delle celle riferite a ciascuna unità territoriale, i rispettivi valori medi, in simboli xi . Il secondo vettore-colonna contiene invece i valori risultanti dalla seguente operazione matematica: Xit - xi + x .33 Se si calcola lo scarto tipo di quest’ultimo vettore, si ottiene lo scarto tipo interno alle unità territoriali. Viceversa, per calcolare lo scarto tipo fra le unità territoriali, occorre calcolare lo scarto tipo dei valori medi di ciascuna unità territoriale. Questo comporta che, mentre il numero di casi necessari per il calcolo dello scarto tipo infra-unità è uguale a N×T, quello corrispondente allo scarto tipo inter-unità corrisponde a N. Per chiarire meglio quanto detto, riportiamo un semplice esempio riferito alla variabile X rilevata per tre paesi e quattro anni.

33 Questo vettore contiene dunque gli scarti fra xit e xi con l’aggiunta della media complessiva che serve per rendere comparabili i risultati.

120

Tab. 9 – Esempio di matrice di dati trasversali in serie storica per il calcolo dello scarto tipo xi Xit- xi + x NUM PAE ANN X 1

Francia

1990

769

667,25

890,67

2

Francia

1995

710

667,25

831,67

3

Francia

2000

654

667,25

775,67

4

Francia

2005

536

667,25

657,67

5

Germania

1990

760

830,75

718,17

6

Germania

1995

995

830,75

953,17

7

Germania

2000

878

830,75

836,17

8

Germania

2005

690

830,75

648,17

9

Italia

1990

893

868,75

813,17

10

Italia

1995

921

868,75

841,17

11

Italia

2000

817

868,75

737,17

12

Italia

2005

844

868,75

764,17

Fatti gli opportuni calcoli sui valori degli ultimi due vettoricolonna di questa matrice, possiamo dire che lo scarto tipo interunità equivale a 107,07, mentre lo scarto tipo infra-unità corrisponde a 90,56. Da questi risultati possiamo trarre due importanti conclusioni. In primo luogo, possiamo notare che lo scarto tipo complessivo non corrisponde alla somma dei due valori caratteristici appena considerati. In questo caso esso equivale infatti a 128,60. In secondo luogo possiamo osservare che il grado di dispersione è maggiore fra un paese e l’altro che all’interno dei paesi. Questo è tipico delle ricerche di political economy comparata. Quando si usano informazioni nazionali per più anni, è infatti frequente che i valori differiscano più fra un paese e l’altro che nel corso del periodo di tempo considerato. Il caso estremo di questa tendenza generale è costituito dalle variabili che operativizzano la struttura istituzionale di un paese. Le istituzioni tendono infatti a differire sensibilmente fra una nazione e l’altra ma non presentano alcuna variazione entro ciascun paese nell’arco di lunghi periodi di tempo. Ciò è già stato posto in luce quando si è accennato agli indicatori dello sviluppo del neo-corporativismo che fanno registrare una sistematica (o quasi) invarianza temporale (vedi par. 2.2). Pertanto, se si calcola lo scarto tipo infra-unità, si otterrà un valore uguale o prossimo allo zero. Ciò comporta peraltro la perdita di 121

un importante vantaggio che ci si aspetta dall’impiego dei dati trasversali in serie storica: ad essi si fa infatti ricorso per aumentare il grado di dispersione visto che si fa riferimento a due diverse dimensioni (quella trasversale e quella diacronica), che dovrebbero costituire due differenti fonti di variazione (Western e Jackman 1994).

Un modo per rappresentare graficamente i valori caratteristici di una variabile inserita in una matrice di dati trasversali in serie storica è costruire un grafico a scatole (box plot). Esso si ottiene disegnando su un piano cartesiano un rettangolo corrispondente alla distribuzione che si vuole esaminare. I lati inferiore e superiore di tale rettangolo vengono fatti coincidere rispettivamente con il primo e il terzo quartile della distribuzione mentre una linea orizzontale viene tracciata in modo da tagliare il rettangolo all’altezza della mediana.34 In questo modo l’altezza del rettangolo fornisce una misura del grado di dispersione della variabile in quanto comprende il 50% dei casi che si trovano al centro della distribuzione. Così, se la differenza fra il terzo e il primo quartile (differenza interquartile) è piccola, vorrà dire che l’altezza del rettangolo sarà ridotta e la dispersione della distribuzione sarà di conseguenza contenuta. Il segmento coincidente con la mediana ci dà invece informazioni sull’asimmetria della distribuzione. Questo perché, se tale segmento non taglia a metà il rettangolo, la curva della distribuzione sarà asimmetrica. Abitualmente vengono poi aggiunti al rettangolo due segmenti − uno al di sopra del lato superiore e l’altro al di sotto del lato inferiore − detti anche baffi, corrispondenti al valore più ridotto e più elevato della distribuzione ad eccezione di eventuali casi anomali. Questi ultimi vengono infatti raffigurati con dei semplici punti e vengono individuati andando a controllare se vi sono valori superiori alla somma fra il terzo quartile e una volta e mezzo la differenza interquartile e valori inferiori alla differenza fra il primo quartile e una volta e mezzo la differenza interquartile. Considerando dunque che nelle ricerche macro-comparato le unità territoriali sono rappresentate da un numero non troppo elevato di 34 Il primo quartile coincide con il valore al di sotto del quale si trova il 25% dei casi e al di sopra del quale si trova il 75% dei casi; viceversa il terzo quartile coincide con il valore al di sotto del quale si trova il 75% dei casi e al di sopra del quale si trova il 25% dei casi. In questo modo la differenza fra il terzo e il primo quartile comprende il 50% dei casi della distribuzione che occupano la parte centrale della medesima.

122

paesi (specialmente se ci si limita a quelli economicamente sviluppati), si può ricorrere al grafico a scatole ponendo sull’asse delle ascisse le economie nazionali prese in esame e costruendo per ognuna di esse un apposito rettangolo. Così facendo è possibile controllare se il grado di dispersione e di asimmetria variano da un paese all’altro o se uno o pochi casi nazionali si distinguono da tutti gli altri. Affinché il lettore possa comprendere meglio quanto detto, presentiamo due grafici a scatole relativi alla distribuzione della percentuale del pil che 18 paesi industrializzati hanno destinato ai trasferimenti per la sicurezza sociale (TSS) nel periodo 1960-2000. Il primo grafico considera in particolare i trasferimenti per la sicurezza sociale espressi in livello (vedi fig. 21), mentre il secondo prende in esame la differenza prima di tale variabile (vedi fig. 22).

5

trasferimenti sicurezza sociale 10 15 20 25

30

Fig. 21 – Grafico a scatole costruito usando la quota del pil che 18 economie sviluppate hanno destinato ai trasferimenti per la sicurezza sociale nel periodo 19602000

Al Gi Ca Su Nz Ch Ir

Fi Gb No It Da Be Ge As Fr Sv Ol

123

Come emerge osservando i due grafici, il grado di dispersione e di asimmetria delle distribuzioni cambia più da un paese all’altro se consideriamo i livelli annuali di TSS. Se vengono prese in esame le variazioni annuali di tale variabile, tutti i 18 casi nazionali manifestano un grado di dispersione molto simile (i rispettivi rettangoli hanno più o meno la stessa altezza) e un elevato grado di simmetria (in quasi tutti i casi la linea orizzontale in corrispondenza della mediana di ogni singola distribuzione sembra dividere i rettangoli in due parti quasi uguali). Tale risultato dipende dal fatto che differenziando di un periodo di rilevazione i livelli di TSS, si ottiene una variabile la cui mediana e la cui media tendono ad approssimarsi attorno allo zero e i cui valori tendono a stazionare attorno a questi valori caratteristici, pur manifestando alcuni casi anomali (i punti sopra e sotto alcuni di questi rettangoli).

-10

trasferimenti sicurezza sociale -5 0

5

Fig. 22 – Grafico a scatole costruito usando la variazione annuale della quota del pil che 18 economie sviluppate hanno destinato ai trasferimenti per la sicurezza sociale nel periodo 1960-2000

Ir Nz Ge Al Ca Be Su Gb It

As Sv Ch Fr Gi

Fi Da No Ol

Legenda: Al Australia, As Austria, Be Belgio, Ca Canada, Ch Svizzera, Da Danimarca, Fi Finlandia, Fr Francia, Gb Gran Bretagna, Ge Germania, Gi Giappone, Ir Irlanda, It Italia, Ol Olanda, Nz Nuova Zelanda, No Norvegia, Sv Svezia, Su Stati Uniti.

124

Una tale considerazione dovrebbe richiamare alla mente del lettore il discorso sulla stazionarietà dei dati. Sembra infatti che questa condizione sia soddisfatta soltanto quando TSS viene rappresentata graficamente nelle sue variazioni annuali. Esistono tuttavia apposite tecniche di analisi monovariata per controllare se le variabili trasversali in serie storica sono (o meno) stazionarie. Queste tecniche sono analoghe a quelle per analizzare singole serie storiche (vedi il cap. 5). Si può così procedere costruendo un diagramma per valutare se l’andamento delle serie storiche pertinenti a ciascuna unità territoriale è (o meno) caratterizzata da trends positivi o negativi. Dopo questa ispezione visuale si può ricorrere ad un’auto-regressione sull’intera variabile (senza cioè considerare un’unità territoriale alla volta) e controllare se il coefficiente auto-regressivo è prossimo all’unità (Beck 2006).35 L’auto-regressione per dati trasversali in serie storica è esprimibile con la seguente formula:

) Yit = a + bYit −1

[43]

7.2. La regressione lineare Se partiamo dal presupposto che i dati trasversali in serie storica costituiscono una combinazione di informazioni sincroniche e diacroniche, diventa facile comprendere che la formula di una generica regressione lineare semplice per questo tipo di dati è una commistione fra la formula della regressione per dati sincronici e quella della regressione per dati diacronici. Si ha quindi: ) Yit = a + bX it [44] dove il suffisso it, associato alla X e alla Y, sta proprio ad indicare che l’equazione 44 è riferibile ad ognuna delle unità spazio-temporali appartenenti alla matrice dei dati analizzata, ovvero ad ogni singolo caso preso in esame. Se si tiene, poi, conto del fatto che il suffisso varia fra 1 e il numero totale dei casi, che in questo caso corrisponde 35 Come si è detto in proposito dell'analisi di singole serie storiche (vedi par. 5.2), se una variabile trasversale in serie storica risulta non-stazionaria, la sua media e il suo scarto tipo non esprimeranno sempre la tendenza centrale e il grado di dispersione della distribuzione.

125

al prodotto delle N unità trasversali osservate per i corrispondenti T punti temporali considerati, la suddetta equazione potrà essere riferita ad un totale di NT casi. Ciò consente di evidenziare un importante vantaggio dell’analisi dei dati trasversali in serie storica: potendo contare su un numero di casi nettamente più elevato di una mera analisi di dati trasversali o in serie storica, è possibile stimare regressioni multiple senza incontrare troppi problemi. Come abbiamo rilevato nel paragrafo 1.1, un tale vantaggio ha fatto sì che questo tipo di analisi incontrasse i favori della comunità dei macro-comparatisti. L’analisi delle matrici di dati trasversali in serie storica ha permesso infatti di superare un classico problema della ricerca comparata: la compresenza di pochi casi e molte variabili. Tale problema assillava i primi tentativi di impiegare tecniche di analisi multi-variata ad informazioni trasversali riferite ai paesi economicamente più sviluppati (vedi parr. 1.1 e 4.3). In tali tentativi venivano stimate regressioni multiple avendo a disposizione un numero di casi che si aggirava normalmente fra le 15 e le 20 unità. Tenendo poi conto che molti comparatisti hanno adottato le procedure della statistica inferenziale non curandosi del fatto che gli insiemi di casi da loro esaminati sono enumerazioni complete (vedi par. 4.5), questi finivano per ottenere errori standard piuttosto elevati che aumentavano l’incertezza delle loro presunte stime.36 Per ovviare a questo problema gli studiosi iniziarono ad associare ad ogni nazione presa in esame più osservazioni temporali. Così facendo, essi potevano introdurre nelle regressioni multiple un discreto numero di regressori senza accrescere troppo il valore degli errori standard. Un altro motivo che ha favorito la diffusione delle regressioni per dati trasversali in serie storica consiste nella possibilità di esprimere attraverso un unico parametro l’effetto che la variabile indipendente esercita su quella dipendente nel tempo e nello spazio (Pennings, Keman e Kleinnijenhuis 1999). In modo più preciso, possiamo dire che, considerando il segno ed il valore assunto dal coefficiente b

36

Questo dipendeva dal fatto che, avendo a disposizione pochi casi, essi potevano contare su un numero altrettanto esiguo di gradi di libertà. Questi entrano infatti in gioco come differenza fra il numero di casi disponibili e il numero di parametri da stimare nella procedura di calcolo per ottenere una stima dello scarto tipo dei coefficienti di regressione, ovvero degli errori standard.

126

dell’equazione 44, possiamo affermare di quanto varia nel tempo e nello spazio la Y in funzione di una variazione unitaria della X. Questa capacità di sintesi dell’equazione 44 ha però una sua contropartita: usando un solo parametro per esprimere la co-variazione fra la X e la Y si perde la possibilità di stabilire se la relazione fra queste due variabili muta nel periodo considerato e fra le unità territoriali prese in esame. Per ovviare a tale vantaggio, Kittel (1999) suggerisce di associare alla stima della suddetta equazione una serie di analisi trasversali, da una parte,e di dati in serie storica, dall’altra. Sul piano trasversale, egli propone di stimare tante regressioni quanti sono i punti temporali inclusi nella matrice dei dati. Sul piano temporale, suggerisce di stimare una regressione per ogni unità territoriale compresa in matrice. In questo modo è possibile, da un lato, conoscere come si sviluppa nel tempo la relazione fra la X e la Y e, dall’altro, come tale relazione si modifica nello spazio. Ovviamente per condurre questo tipo di analisi occorre smembrare la matrice dei dati rispetto alla dimensione territoriale e a quella diacronica. Nello specifico, per condurre le analisi trasversali, è necessario scomporre la matrice lungo l’asse temporale creando tante sotto-matrici quanti sono i punti temporali considerati. Per effettuare le analisi dei dati in serie storica, occorre dar luogo a tante sotto-matrici quante sono le unità territoriali esaminate. Per chiarire meglio il senso di questa proposta, riprendiamo in considerazione l’esempio del par 4.3 supponendo che un ricercatore abbia ora a disposizione informazioni annuali per il periodo 19701990 per ognuno dei 17 casi nazionali. La matrice dei dati analizzati avrà così 357 vettori-riga (17 unità territoriali per 21 punti temporali). Per semplicità ci limitiamo poi a supporre che egli decida di stimare soltanto la regressione semplice avente come variabile dipendente TSS e come variabile indipendente DEN. I risultati da lui ottenuti senza smembrare la matrice dei dati trasversali in serie storica sono i seguenti: TŜSit = 12,74 + 0,06·DENit

(it=1,2,3…..357)

[45]

Le tabb. 10 e 11 riportano i coefficienti di regressione relativi alle analisi trasversali e a quelle diacroniche. 127

Dando uno sguardo a queste stime si possono fare alcune importanti osservazioni. Innanzitutto possiamo notare come la relazione fra TSS e DEN muti sia nel tempo sia nello spazio. Dal punto di vista diacronico possiamo osservare come l’intensità dell’effetto positivo prodotto dalla densità sindacale sui trasferimenti per la sicurezza sociale tenda a seguire un andamento ondivago, alternando fasi caratterizzate da valori più elevati a fasi caratterizzate da valori più ridotti. In taluni casi (1975 e 1976) i valori dei coefficienti di regressione scendono addirittura sotto lo zero, denotando un’inversione del segno della relazione. Questo fatto si manifesta in modo ancor più accentuato se facciamo riferimento alla dimensione spaziale: in 8 dei 17 casi nazionali considerati la relazione risulta essere negativa. Se si prescinde dal fatto che tali risultati possono derivare da una covariazione spuria, dovuta a una mancata stazionarietà delle serie temporali di volta in volta analizzate, diventa chiaro che la relazione fra TSS e DEN presenta una non trascurabile volatilità spaziale. Questo risultato apre peraltro un interrogativo di grande importanza che viene spesso trascurato dalla gran parte degli specialisti: le informazioni incluse nella matrice dei dati a nostra disposizione sono abbastanza omogenee da poter essere analizzate congiuntamente? In altri termini, visto che le singole analisi trasversali e quelle diacroniche hanno portato a risultati così dissimili, è appropriato unire le informazioni dei diversi paesi e dei diversi anni in un’unica matrice per poi stimare una sola regressione? Tale interrogativo parte infatti dal presupposto che, se ci si limita a stimare una regressione per ogni punto temporale disponibile e per ognuna delle unità territoriali di cui si dispone, significa che si pensa che le informazioni in nostro possesso siano talmente dissimili da non poter essere unite in un unico insieme di dati.

128

Tab. 10 – Coefficienti di regressione ottenuti stimando una regressione per ogni anno presente nella matrice dei dati trasversali in serie storica anno 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980

b 0,040 0,034 0,024 0,011 0,005 -0,012 -0,001 0,021 0,042 0,039 0,030

anno 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990

b 0,031 0,017 0,015 0,013 0,017 0,019 0,023 0,034 0,044 0,069

Tab. 11 – Coefficienti di regressione ottenuti stimando una regressione per ogni paese presente nella matrice dei dati trasversali in serie storica paese b paese b Australia -0,187 Italia 0,171 Austria -0,368 Giappone -1,108 Belgio 0,516 Olanda -0,437 Canada 0,683 Norvegia 0,017 Danimarca 0,259 Svezia 0,499 Finlandia 0,296 Svizzera 0,360 Francia -0,160 Regno Unito -0,167 Germania 1,217 Stati Uniti -0,205 Irlanda -0,310

Viceversa, se si opta per analizzare la matrice dei dati trasversali in serie storica nel suo complesso si sta assumendo che i casi a nostra disposizione, pur presentando delle differenze, siano abbastanza omogenei da poter essere analizzati congiuntamente. Ma come è possibile stabilire se le informazioni riferite ai diversi paesi sono abbastanza simili da poter essere incluse in un’unica matrice? Come osserva Beck (2001), per effettuare questo controllo occorre effettuare una validazione incrociata della regressione (cross-validation). Ciò prevede che vengano stimate tante regressioni quante sono i paesi inclusi nella matrice escludendo ogni volta uno di essi. Prima viene stimata la regressione escludendo ad esempio le informazioni riferite all’Italia, poi quelle riferite alla Francia e così via. Per ciascuna delle 129

regressioni stimate occorre poi valutare in che misura sono in grado di predire i valori della variabile dipendente relativi al paese escluso. Nello specifico si deve calcolare la media dei residui al quadrato ottenuti facendo la differenza fra i valori predetti e quelli osservati della variabile dipendente riferiti al caso nazionale omesso. In formula: T

ei = ∑ (Yi − Y) 2 /T

[46]

i =T

I residui quadratici medi relativi a ciascun paese devono poi essere confrontati fra loro per stabilire se può essere stimata un’unica regressione per dati trasversali in serie storica o se alcuni paesi debbano essere esclusi dalla matrice ed analizzati separatamente.37 Per chiarire meglio questo discorso, riportiamo in tab. 13 i residui quadratici medi ottenuti effettuando una validazione incrociata della regressione stimata da un ricercatore. Confrontando tali valori risulta abbastanza chiaro che l’Australia e l’Olanda devono essere esclusi dalla matrice in quanto fanno registrare dei valori nettamente più elevati di quelli degli altri paesi. È pertanto opportuno che egli ri-stimi la regressione usando le informazioni temporali riferite ai restanti 15 casi nazionali. I risultati che ottiene sono i seguenti: TŜSit = 10,65 + 0,07·DENit

(it=1,2,3…..315)

[47]

Tab. 12 – Media dei residui al quadrato per ogni regressione per dati trasversali in serie storica, stimata escludendo un paese alla volta dalla matrice dei dati a disposizione del ricercatore paese escluso Australia Austria Belgio Canada Danimarca Finlandia Francia Germania Irlanda

media 61,7 12,1 10,7 21,1 5,0 17,7 23,2 9,7 7,0

paese escluso Italia Giappone Olanda Norvegia Svezia Svizzera Regno Unito Stati Uniti

37

media 2,5 27,7 156,0 3,0 13,2 5,7 8,4 11,1

L’opportunità di una regressione unica può essere controllata anche dal punto di vista temporale. In tal caso occorre procedere esattamente come detto per la validazione sopra descritta, ma escludendo un punto temporale alla volta.

130

7.3. Omogeneità o eterogeneità dei modelli causali? Le considerazioni fatte nel paragrafo precedente ci portano a sviluppare un ulteriore ragionamento: se ci limitiamo a stimare una regressione per ogni punto temporale disponibile e per ciascuna unità territoriale a nostra disposizione, stiamo assumendo che l’effetto esercitato dalla variabile indipendente su quella dipendente varîa sistematicamente nel tempo e nello spazio. Viceversa, se decidiamo di stimare una regressione sull’intera matrice dei dati trasversali in serie storica, stiamo assumendo una piena omogeneità in quanto l’effetto esercitato dalla X sulla Y viene analizzato in modo da non cogliere le sue potenziali variazioni nel tempo e/o nello spazio (come si vede dall’equazione 47, l’effetto è espresso da un unico coefficiente di regressione). Naturalmente una piena eterogeneità e una completa omogeneità dei modelli causali devono essere consideratigli estremi di un continuum, ciascuno dei quali presenta alcuni problemi. Da un lato, la scelta di stimare una regressione per ogni punto temporale e per ciascuna unità territoriale comporta un numero elevato di parametri e quindi non risulta parsimoniosa. Dall’altro lato, scegliere di stimare un’unica regressione significa propendere per un modello spesso assai lontano dai fatti, come evidenziato nel paragrafo precedente. Per evitare questi difetti è opportuno ammettere l’ipotesi dell’eterogeneità dei modelli pur senza smembrare la matrice dei dati, cioè cercare di cogliere l’eterogeneità causale limitandosi alla stima di una sola regressione. Per raggiungere questo obiettivo occorre far ricorso ad una famiglia di regressioni dette “gerarchiche” o “multilivello”. Tali regressioni, sfruttando il fatto che i dati trasversali in serie storica sono organizzati su due livelli (quello sincronico e quello diacronico), fanno in modo che i coefficienti di regressione e/o l’intercetta possano variare nel tempo e/o nello spazio. Per rendere più semplice la trattazione prenderemo in esame soltanto le regressioni gerarchiche o multilivello che tengono conto dell’eterogeneità causale di natura spaziale, facendo variare l’intercetta e/o i coefficienti di regressione fra le diverse unità territoriali, ma tenendoli costanti nel tempo. Questa scelta ha una ragione di carattere sostanziale: le analisi dei dati trasversali in serie storica vengono di solito impiegate per controllare ipotesi di livello macro che pongono l’accento sulle differenze fra paesi (Western 1998). 131

Un primo modo seguito dalle regressioni multilivello per cogliere l’eterogeneità degli effetti causali è partire dall’idea che in genere le regressioni a parametri costanti nello spazio si basano su un falso assunto: le variabili escluse dall’analisi possono essere pensate come fattori che si distribuiscono casualmente fra le unità territoriali considerate. Tuttavia, poiché spesso si hanno buone ragioni per pensare che i fattori esclusi siano specifici delle unità territoriali, si può cercare di cogliere tali variazioni facendo variare l’intercetta dell’equazione di regressione (Judge e altri 1985; Kmenta 1986). Si tratta pertanto di stimare regressioni che presentano un’intercetta per ciascuna unità territoriale e che sono esprimibili attraverso la seguente equazione: ) Yit = a + bX it + c i

[48]

dove a rappresenta la cosiddetta intercetta media (cioè l’intercetta di una regressione globale) mentre c rappresenta l’intercetta relativa a ciascuna unità territoriale. Se gli effetti delle diverse unità territoriali vengono pensati come fissi, si è di fronte ad una regressione a effetti fissi. Se invece tali effetti vengono pensati come accidentali si è in presenza di una regressione a effetti casuali. Ciò comporta dover scegliere fra questi due modelli. In realtà, sebbene la letteratura econometrica abbia sviluppato un vivace dibattito attorno a tale questione, i comparatisti di scuola statistica hanno fatto la loro scelta decisamente a favore delle regressioni a effetti fissi. Essi hanno infatti raccolto il suggerimento di Hsiao (1986, 41-2), secondo il quale la regressione a effetti casuali è appropriata quando le unità sono estratte da una più ampia popolazione e si intende fare inferenze alla stessa mentre la regressione a effetti fissi è appropriata quando le unità sono fisse, proprio come avviene per i dati trasversali in serie storica, per i quali i paesi e gli anni esaminati non sono estratti da una popolazione più ampia (vedi par 4.5). Detto ciò, non ci rimane che presentare un esempio di regressione a effetti fissi. Supponiamo che un ricercatore decida di stimare una regressione avente come variabile dipendente TSS e un’intercetta per ognuno dei 15 paesi nella sua matrice dei dati. Per fare ciò, si trova costretto a creare un vettore-colonna per ciascun paese in modo da poter calcolare le singole intercette. Ogni vettore-colonna viene co132

struito assegnando il valore 1 a tutte le celle pertinenti al corrispondente paese e il valore 0 a tutte le altre celle. Dopo aver costruito i vettori-colonna per tutti i casi nazionali ad eccezione di uno, possiamo costruire il vettore-colonna riferito a quest’ultimo paese sulla base delle informazioni contenute nei vettori-colonna già costruiti. Infatti, tale vettore-colonna assumerà il valore 1 in quelle celle in cui gli altri vettori non hanno mai assunto il valore 0 e assumerà il valore 0 in quelle celle laddove, uno alla volta, gli altri vettori-colonna hanno presentato valori pari a 1. Per stimare una regressione a effetti fissi, il ricercatore dovrà quindi costruire tutti i vettori-colonna ad eccezione di uno e dovrà calcolare le intercette per tutti i paesi salvo uno. Il paese escluso diventa così il punto di riferimento che in sede di interpretazione dei risultati acquista un ruolo particolare. Il valore di ogni intercetta va infatti letto come la differenza fra il valore medio dei punteggi assunti da quel paese per la variabile dipendente e il valore medio dei punteggi sulla variabile dipendente per il paese escluso. Per chiarire tutto ciò, si vedano i valori riportati nella colonna ‘regressione 1’ della tab. 13. I valori delle intercette riferite a ciascun paese ci dicono in particolare di quanto ognuno di essi si discosta in media dalla quota del pil destinata ai trasferimenti sociali da parte degli Stati Uniti, che costituiscono in questo caso il punto di riferimento. Il valore medio di TSS per gli Stati Uniti corrisponde a 10,24 e coincide con il valore assunto dall’intercetta media della regressione 1. È chiaro però che sul piano sostantivo ha poco senso stimare una regressione del genere. Così facendo possiamo soltanto affermare che, se la Svezia presenta un livello di trasferimenti sociali più elevato di quello degli Stati Uniti (vedi tab 14), è semplicemente perché essa è la Svezia e non gli Stati Uniti. Ciò risulta irrilevante se si adotta l’approccio tipico della comparazione orientata alle variabili, per il quale i casi nazionali non hanno in sé alcuna importanza (vedi Przeworski e Teune 1970;vedi anche sopra, par 1.1).

133

Tab. 13 – Parametri ottenuti stimando due regressioni a effetti fissi facendo riferimento all’esempio richiamato nel paragrafo precedente parametri

regressione 1

regressione 2 0,19

DEN Austria Belgio Canada Danimarca Finlandia Francia Germania Irlanda Italia Giappone Norvegia Svezia Svizzera Regno Unito Stati Uniti

6,71 5,92 -1,00 4,46 1,08 6,17 5,64 2,91 4,40 -1,32 2,77 6,23 1,80 1,42 0

0,78 -0,56 -2,61 -4,00 -7,30 7,23 3,19 -0,79 1,32 -1,68 -3,83 -3,52 0,21 -3,06 0

intercetta media

10,24

6,45

Per tale motivo supponiamo che il ricercatore decida di stimare una regressione a effetti fissi comprensiva della sua variabile indipendente DEN. In altre parole presumiamo che egli ipotizzi che i fattori esclusi dall’equazione 49 siano propri di ciascuno dei casi nazionali compresi nella sua matrice dei dati e che quindi sia opportuno stimare un’intercetta per ognuno di essi (ad esclusione di uno). Fatti gli appropriati calcoli, egli ottiene i risultati riportati nella colonna ‘regressione 2’ della tab. 13. Considerando il segno e il valore del coefficiente di regressione riferito a DEN, il ricercatore può affermare che all’aumentare di un punto percentuale della densità sindacale i trasferimenti sociali crescono dello 0,19%, una volta che siano stati controllati gli effetti specifici dei singoli paesi. Si noti che il valore di tale coefficiente è più che raddoppiato se confrontato con quello dell’equazione 47. Una tale variazione dipende essenzialmente dal fatto che DEN è correlata con i vettori-colonna che sono stati costruiti per stimare la regressione a effetti fissi. Que134

sto perché le variabili in questione condividono il fatto di variare poco o nulla nel tempo. Infatti, mentre i vettori-colonna sopra richiamati hanno tutti per costruzione uno scarto tipo infra-unità pari a 0, DEN varia molto di più fra i paesi considerati che al loro interno (il suo scarto tipo inter-unità è 16,7 mentre quello intra-unità è 4,2). A questo punto al ricercatore sorge il dubbio se valga la pena stimare una regressione a effetti fissi, visto che il coefficiente di suo interesse risulta così pesantemente influenzato dalla collinearità. Questo genere di dubbi turbano la stragrande maggioranza degli studiosi che usano dati trasversali in serie storica. In molti casi infatti le variabili indipendenti inserite nei modelli tendono a variare più da paese a paese che nel tempo. Ciò dipende dal fatto che spesso la political economy comparata tende a spiegare i fenomeni di suo interesse a partire da fattori di natura politico-istituzionale che, come abbiamo più volte osservato, variano sensibilmente fra i paesi, ma poco o nulla nello stesso paese in momenti diversi. Il problema della multi-collinearità costituisce senza dubbio uno svantaggio della regressione a effetti fissi. Peraltro, questo tipo di regressione soffre di uno svantaggio forse ancor più grave: esso coglie l’eterogeneità causale delle variabili omesse dall’analisi ma non l’eterogeneità causale delle variabili in esso incluse che rimangono costanti nello spazio oltre che nel tempo. Per far sì che anche i coefficienti di regressione possano variare fra le unità territoriali si può far ricorso ad un’altra regressione appartenente alla famiglia delle regressioni multi-livello. Si tratta della regressione a coefficienti variabili che è ancora scarsamente usata dai comparatisti di orientamento quantitativo a causa delle difficoltà che comporta in termini di stima dei parametri (Beck e Katz 2004). La regressione a coefficienti variabili costituisce una sorta di compromesso fra le regressioni per dati diacronici stimate per le singole unità territoriali e la regressione per dati trasversali in serie storica a coefficienti costanti nello spazio e nel tempo (vedi equazione 44). La regressione a coefficienti variabili è quindi esprimibile attraverso la seguente formula:

) Yit = a + b i X it

[49]

dove bi sta ad indicare la variabilità del coefficiente di regressione fra le diverse unità territoriali. Una tale variabilità non è però paragona135

bile a quella delle diverse regressioni stimate per le singole unità territoriali che presentano coefficienti fra loro indipendenti. In questo caso infatti si parte dall’assunto che i coefficienti siano interrelati fra loro. Per questo motivo nella regressione a coefficienti variabili vengono dapprima stimate le singole regressioni per le diverse unità territoriali, dopodiché si passa a condensare i coefficienti ottenuti in un unico coefficiente bi attraverso una qualche procedura che tenga conto del grado di eterogeneità spaziale (Beck e Katz 2004).38

7.4. Tante complicazioni tutte insieme Quando si ha a che fare con matrici di dati trasversali in serie storica non ci si può fermare alla questione dell’eterogeneità causale, ma occorre affrontare tante altre complicazioni. Questo genere di dati comporta infatti in sede di analisi sia i problemi che derivano da una mera analisi trasversale sia quelli propri dell’analisi di dati in serie storica. Una questione dibattuta nella letteratura econometrica riguarda la distribuzione dei residui. In particolare, se si stima una regressione su dati trasversali in serie storica, i residui tenderanno ad essere correlati sia in senso trasversale sia in senso diacronico (Hicks 1994). Un secondo problema riguarda il fatto che le serie storiche riferite alle diverse unità territoriali sono in genere non-stazionarie. Ciò significa che, quando un ricercatore stima una regressione con dati trasversali in serie storica espressi in livello, rischia molto spesso di ottenere delle co-variazioni spurie (Kittel e Obinger 2002). Fra questi due problemi la non-stazionarietà è senza dubbio il più grave. Infatti, come abbiamo già osservato nel par. 6.6, il controllo dell’auto-correlazione dei residui va fatto dopo aver stabilito se si ha a che fare con serie storiche integrate o quasi. Di conseguenza, una delle prime cose da fare quando si analizzano dati trasversali in serie storica è stimare un’auto-regressione di primo ordine e visionare il valore del rispettivo coefficiente (vedi par. 7.1). Se tale valore risulta sensibilmente inferiore a uno, potremo affermare che le nostre serie storiche sono stazionarie, e di conseguenza controllare il grado di dipendenza trasversale e seriale dei residui delle regressioni di volta in 38

Per un esempio di regressione a coefficienti variabili si veda il par. 7.5.

136

volta stimate. L’auto-correlazione può essere controllata, e di conseguenza affrontata con le procedure descritte per l’analisi di singole serie storiche (vedi par. 6.6). Parallelamente il problema della correlazione trasversale dei residui può essere fronteggiato come indicato nel par. 4.4 per l’analisi di informazioni puramente sincroniche. Se dalle analisi mono-variate risulta però che i coefficienti autoregressivi riferiti alle variabili assumono un valore pari o molto vicino all’unità, dovremo adottare le stesse soluzioni che si sono descritte per l’analisi delle singole serie storiche quando queste appaiono integrate o quasi (vedi parr. 6.3 e 6.5). In particolare si può stimare una regressione in differenza prima, perdendo ogni informazione di lungo periodo (Kittel e Winner 2005), oppure, conservando tali informazioni, adottare le tecniche di co-integrazione. Infatti, anche per l’analisi dei dati trasversali in serie storica si può seguire la procedura a due passi proposta da Engle e Granger (1987) o stimare una regressione a correzione dell’errore. Resta comunque il fatto che, come è stato osservato per l’analisi di singole serie storiche, la regressione a correzione dell’errore appare più appropriata per controllare le ipotesi di ricerca in quanto coglie l’uni-direzionalità della relazione fra le variabili (vedi par 6.5; Podestà 2006). Detto ciò, non resta che precisare che le equazioni pertinenti alle regressioni richiamate da queste soluzioni debbono essere riscritte usando dei suffissi che indichino che le variabili hanno sia un riferimento spaziale sia un riferimento temporale. Così nel caso della regressione in differenza prima avremo: ) ΔYit = a + bΔX it

[50]

mentre nel caso della regressione a correzione dell’errore dovremo scrivere: ) ΔYti = a + bYit −1 + cX it −1 + dΔX it

[51]

7.5. Un esempio finale Tenendo conto di tutto quanto abbiamo detto in questo capitolo riguardo all’analisi dei dati trasversali in serie storica, dovrebbe apparire chiaro che una corretta stima della regressione è ottenibile sol137

tanto dopo aver condotto svariate analisi preliminari. In questo percorso il ricercatore può certamente seguire alcuni principi guida ma deve tener presente che non c’è mai un’unica soluzione per risolvere i problemi che si possono incontrare. Il ricercatore deve inoltre tener conto del fatto che in questo percorso non si debbono soltanto affrontare complicazioni di natura econometrica, ma anche problemi di carattere sostantivo che lo obbligano ad una non sempre agevole scelta delle variabili indipendenti e di controllo da inserire nel modello (vedi parr. 1.4 e 4.3). Cerchiamo di chiarire la questione offrendo un esempio conclusivo che ci consenta al contempo di illustrare un altro tipo di regressione per dati trasversali in serie storica: la regressione a correzione dell’errore a coefficienti variabili. Supponiamo che un ricercatore voglia nuovamente mettere alla prova l’ipotesi sulla mobilitazione delle risorse a disposizione del movimento dei lavoratori per spiegare lo sviluppo del welfare state. A tal proposito poniamo che egli disponga a questo punto di una matrice composta da 31 dati annuali relativi a 9 paesi sviluppati. Come negli esempi fatti nei paragrafi precedenti del presente capitolo, la sua variabile dipendente è la percentuale del pil destinata ai trasferimenti per la sicurezza sociale (TSS); mentre la variabile indipendente è ora costituita dalla percentuale di membri del governo appartenenti a partiti di sinistra (GVS), e più in particolare dalla somma ottenuta aggiungendo alla percentuale osservata nell’anno corrente quelle rilevate in tutti gli anni precedenti a partire dal 1945 (vedi il par. 4.3; Huber e Stephens 2001). Poiché il ricercatore è interessato a stimare l’effetto genuino esercitato da GVS su TSS, decide di optare per una regressione multipla che comprenda alcune variabili di controllo desumibili dalle, pur vaghe, teorie sullo sviluppo dello stato sociale. Tali variabili sono: il grado di apertura al commercio internazionale (COM), il tasso di disoccupazione nazionale (DIS) e la proporzione di popolazione dipendente, ovvero in età non lavorativa (DIP) (vedi ancora il par. 4.3). In questo modo il ricercatore pensa di aver scelto le variabili che gli consentono di ottenere una corretta specificazione del modello. Ora egli deve però risolvere il problema di arrivare ad una stima della regressione appropriata dal punto di vista econometrico e che peraltro non contrasti con i suoi obiettivi di ricerca. L’ipotesi della mobilitazione delle risorse a disposizione del movimento dei lavoratori prevede infatti che l’influenza esercitata dai partiti di sinistra sull’andamento della 138

spesa sociale si possa manifestare soltanto nel lungo periodo. Egli ritiene che la cosa migliore da fare in proposito sia procedere alla stima di una regressione multipla con variabili espresse in livello (vedi il cap. 6). Tab. 14 – Coefficienti di regressione ottenuti stimando tre differenti regressioni con variabili espresse in livello regress. 1 regress. 2 regress. 3 GVS

0,08

0,33

0,06

DIS

0,28

0,64

0,09

DIP

-0,57

0,45

0,13

COM

0,07

0,07

-0,01

TSSt-1

0,91

intercetta

28,25 -16,15 -4,31 Per le regressioni 2 e 3 non sono riportati i valori delle intercette stimate per ciascuna unità territoriale.

Effettuando gli opportuni calcoli previsti dal metodo di stima mqo, il ricercatore ottiene un coefficiente di regressione relativo a GVS avente segno positivo e valore 0,08 (vedi regress. 1 in tab. 14). Egli pensa che questa possa essere una stima adeguata dell’effetto di GVS e di essere pertanto riuscito a dare conferma alla sua ipotesi di partenza. Si accorge però che ha completamente trascurato il problema dell’eterogeneità causale. Decide allora di stimare una regressione a effetti fissi in modo da cogliere i fattori specifici delle unità nazionali comprese nella sua matrice dei dati (vedi par. 7.3). Rifacendo gli appropriati calcoli, il ricercatore constata che l’intensità dell’effetto netto esercitato da GVS su TSS è cresciuta sensibilmente (vedi regress. 2 di tab. 14). Ma consultando la letteratura sulle tecniche di analisi per dati trasversali in serie storica, si accorge di aver trascurato un altro importante problema: la dipendenza dei residui. Decide allora di inserire nella regressione a effetti fissi un ulteriore regressore pertinente alla variabile dipendente ritardata di un periodo (vedi parr. 7.4 e 6.6).Facendo nuovamente gli opportuni calcoli, si accorge che il valore del coefficiente della variabile indipendente è analogo a quello della prima regressione (vedi regress. 3 di tab. 14). Riflettendo poi in particolare sulla terza regressione, capisce che non ci si deve preoccupare tanto per il ridotto valore del coefficiente relativo a 139

GVS, quanto piuttosto per l’elevato valore del coefficiente riferito alla variabile dipendente ritardata. Il fatto che TSSt-1 sia maggiore di 0,9 può far sospettare che la variabile dipendente sia integrata o quasi. Si deve quindi stimare un auto-regressione per TSS e tutte le altre variabili prese in considerazione (vedi par. 6.5). I risultati che il ricercatore ottiene dalla stima delle autoregressioni confermano appieno i suoi sospetti. I coefficienti autoregressivi pertinenti a TSS, DIS e DIP sono pari a 0,99 mentre quelli riferiti a GVS e COM superano di pochissimo l’unità. Ci sono dunque buone ragioni per pensare che le variabili inserite nelle tre regressioni precedentemente stimate non siano stazionarie e che quindi i relativi risultati siano privi di senso. Un’ovvia soluzione sarebbe controllare se le variabili prese in esame sono co-integrate stimando ad esempio una regressione a correzione dell’errore. Come detto nel par. 6.5, le tecniche di co-integrazione consentono infatti di evitare il rischio di prendere per buone relazioni spurie senza perdere informazioni sulla co-variazione di lungo periodo. Stimando una semplice regressione a correzione dell’errore come quella espressa dall’equazione 51 non si può però affrontare il problema dell’eterogeneità causale. In tal senso sarebbe più opportuno optare per una regressione a coefficienti variabili,anziché a effetti fissi come fatto in precedenza (vedi il par. 7.3). Questa è esprimibile attraverso la seguente equazione: ) ΔYti = a i + b i Yit −1 + c i X it −1 + d i ΔX it

[52]

dove il suffisso i evidenzia il fatto che i parametri della regressione variano fra le unità territoriali prese in esame. Prima di optare per questa regressione, potrebbe essere opportuno stimare una regressione a correzione dell’errore per ciascuna unità nazionale compresa nella matrice dei dati al fine di valutare se sul piano spaziale esistono significative differenze in termini di cointegrazione. Si può iniziare quest’analisi esplorativa con una semplice regressione bivariata che non comprenda le variabili di controllo allo scopo di controllare anzitutto se esiste una sistematica tendenza di TSS a rimanere in equilibrio con l’andamento di GVS, ovvero se queste due variabili sono co-integrate in ciascuna unità territoriale considerata. 140

Osservando i valori riferiti a TSSt-1, il termine di correzione dell’errore, ci si accorge che non sono omogenei fra le diverse unità nazionali (vedi tab. 15). Ciò dimostra che TSS tende a ritornare in equilibrio con GVS con diversi gradi di rapidità a seconda di quale paese si prenda in esame. In particolare la tendenza al ri-equilibrio sembra piuttosto lenta nei casi australiano e francese mentre risulta alquanto rapida in quello italiano. Questi risultati fanno ritenere che può essere opportuno stimare una regressione a correzione dell’errore a coefficienti variabili per l’intera matrice dei dati in modo da cogliere l’eterogeneità dei livelli di co-integrazione associati alla dimensione spaziale. Il modo più semplice per effettuare questo tipo di analisi è stato proposto da Pesaran e Smith (1995), che stimano la regressione espressa dall’equazione 51 facendo una semplice media dei coefficienti ottenuti stimando una regressione a correzione dell’errore per ciascuna unità territoriale. Così facendo si possono ottenere i risultati riportati nell’ultima riga di tab. 15. Tab. 15 – Coefficienti di regressione ottenuti stimando una regressione a correzione dell’errore per ciascuna unità territoriale compresa nella matrice dei dati trasversali in serie storica e relativa media ΔGVS GVSt-1 intercetta parametri TSSt-1 Australia -0,11 0,17 0,06 0,49 Austria -0,25 0,3 0,06 3,24 Belgio -0,23 -0,48 0,42 0,68 Danimarca -0,29 0,53 0,22 -0,4 Finlandia -0,28 -0,95 0,28 0,56 Francia -0,09 0,75 -0,06 2,01 Germania -0,27 0,87 0,07 3,33 Irlanda -0,19 5,27 0,47 0,69 Italia -0,47 -1,26 0,98 4,86 media -0,24 0,58 0,28 1,72

Se poi il nostro ricercatore decide di stimare tale regressione includendo tutte le variabili di controllo sopra citate, potrà notare un sensibile incremento del valore di TSSit-1 e dunque della misura in cui TSS e le altre variabili tendono a tornare all’equilibrio di lungo periodo (confronta i coefficienti riportati nell’ultima riga di tab. 15 con quelli dell’equazione 53). 141

ΔTŜSt = 5,18 - 0,41·TSSt-1 + 0,59·ΔGVS + 0,19·GVSt-1 + +0,52·ΔDIS + 0,09·DISt-1 - 0,20·ΔDIP- 0,05·DIPt-1 - 0,02·ΔCOM + [53] +0,01·COMt-1 (it=1,2,3…….465) L’inserimento delle variabili di controllo comporta inoltre che l’effetto di lungo periodo esercitato da GVS su TSS diminuisca sensibilmente. Il coefficiente riferito a GVSit-1 passa infatti da 0,28 a 0,19. Al di là del significato sostantivo di questi risultati, possiamo comunque osservare che, stimando la regressione espressa dall’equazione 53, il ricercatore sia riuscito a ottenere una stima della relazione accettabile sia dal punto di vista teorico sia da quello econometrico, cautelandosi seppur in modo non esaustivo dal rischio di prendere per buona una relazione spuria.39

7.6. Un bilancio conclusivo Per concludere questo panorama delle principali tecniche di ricerca macro-comparata, presentiamo alcune questioni che caratterizzano l’attuale dibattito metodologico. Ciò può essere utile per fornire un quadro dei passi che si sono compiuti in alcuni decenni di ricerca. Nel par. 1.2 abbiamo messo in evidenza come l’adozione di tecniche di analisi per lo studio di fenomeni di larga scala sia stata e continui ad essere diffusa negli studi di political economy comparata. A questo punto il lettore dovrebbe avere ben chiaro che in molti studi appartenenti a questo filone di ricerca si parte da una teoria più o meno vaga dalla quale si trae un’ipotesi che viene a sua volta controllata stimando una regressione o su dati trasversali, o su serie storiche o più frequentemente su dati trasversali in serie storica. Questo modo di procedere, sebbene in linea con i criteri standard delle scienze sociali, viene sottoposto a numerose critiche che riguardano essenzialmente la sensatezza dell’adozione di un approccio quantitativo nello studio dei fenomeni trans-nazionali. In un recente articolo Shalev (2007), soffermandosi sui limiti dell’impiego della regressione lineare negli studi di political economy comparata, ha avanzato alcune questioni che pongono in discussione le fondamenta dell’approccio orientato alle variabili (vedi par 1.1). In primo luogo 39 In realtà a questo punto ci si dovrebbe soffermare sulla distribuzione dei residui, come indicato nel par. 7.4, e di lì proseguire l’analisi.

142

Shalev osserva che tale approccio, essendo interessato essenzialmente alle relazioni fra le variabili e trattando di conseguenza i casi nazionali come mere unità di rilevazione e di analisi, finisce per far sparire completamente i diversi paesi. In altre parole, questo autore rimarca che un coefficiente di regressione viene calcolato per esprimere il grado di associazione fra due o più variabili a prescindere che i dati analizzati siano riferiti a quindici particolari economie nazionali, quali l’Austria, l’Australia, il Belgio e via dicendo. Tenendo conto del fatto che in genere gli studi di political economy comparata riguardano le vicende dei soli paesi sviluppati, una ricerca che si preoccupa esclusivamente delle relazioni fra le variabili può effettivamente risultare povera. In altri termini, quando l’oggetto di interesse è confinato all’insieme dei paesi occidentali, può risultare insensato non chiamare i casi (nazionali) con il proprio nome. Peraltro, i comparatisti di stampo quantitativo usano solo molto raramentei casi nazionali unicamente come unità di analisi. Se adottano, ad esempio, grafici a dispersione, non si preoccupano esclusivamente della forma che assume la nube dei punti, ma tengono al contempo presente che ad ogni punto corrisponde un particolare paese ed evidenziano di norma quali di questi si distinguono in ragione di particolari punteggi sulle variabili considerate (vedi par. 4.2). Risulta quindi difficile individuare macro-comparazioni orientate puramente alle variabili. Come fa inoltre notare Swank (2007), sempre più frequentemente i comparatisti associano alle loro analisi statistiche studi comparati di tipo idiografico. Come è stato infatti anticipato nel par 1.2, negli studi di political economy comparata si tende sempre più frequentemente a controllare le ipotesi di ricerca usando sia l’approccio orientato alle variabili sia quello orientato ai casi. In altri termini, un numero sempre maggiore di ricerche vengono svolte sia stimando regressioni su dati trasversali in serie storica sia conducendo approfonditi studi storico-descrittivi su 4-5 paesi. In alcuni decenni di ricerca sembra essersi appreso che, avendo a che fare con un numero di casi troppo grande per effettuare approfondite ricostruzioni storiche sui singoli paesi e troppo piccolo per considerare esclusivamente relazioni fra variabili, appare utile combinare al meglio orientamenti metodologici differenti. Shalev (2007) osserva tuttavia che la regressione si dimostra inadeguata per mettere alla prova le ipotesi della political economy 143

comparata in quanto tende a far apparire lineari relazioni che in realtà sono molto più complesse. Ciò è comprensibile a partire da quanto abbiamo anticipato nel cap. 1: se l’idea di fondo di questo filone di studi consiste nel concepire il capitalismo moderno come una pluralità di differenti configurazioni istituzionali di matrice nazionale, che rendono inevitabilmente contingenti i nessi causali, pare poco appropriato ricorrere ad una tecnica che lega in modo lineare cause ed effetti. In altri termini, se si assume che i fenomeni sociali sono il frutto di specifiche circostanze storiche, appare più opportuno ricorrere esclusivamente all’approccio idiografico, che pone in luce le specificità delle diverse configurazioni causali pertinenti ai differenti casi nazionali. È chiaro tuttavia che questo modo di procedere finisce per confinare la political economy comparata a spiegazioni di specifici esiti nazionali privandola della possibilità di produrre generalizzazioni. Potremmo dunque chiederci se sia sensato nell’ambito della political economy comparata partire da ipotesi legi–simili, quali “la spesa sociale è maggiore laddove i governi hanno una composizione tradizionalmente di sinistra”. Qualcuno potrebbe infatti sostenere che, sebbene gli orientamenti dei partiti di sinistra non sono gli stessi in tutti i paesi occidentali in virtù di particolari vicende nazionali, essi condividono comunque molti tratti in tutte le democrazie avanzate. D’altra parte, le stesse tecniche di analisi standard sono state raffinate in modo da tener conto delle spiegazioni più orientate al contesto. Come è stato illustrato nel par 7.3, le regressioni multilivello, sfruttando l’organizzazione su due livelli dei dati trasversali in serie storica, consentono di analizzare le relazioni fra le variabili di interesse tenendo conto del fatto che i processi causali variano da paese a paese. Lo spazio che sembra talvolta separare l’analisi dei dati dalle teorie può dunque essere parzialmente colmato migliorando le nostre tecniche di analisi.

144

Bibliografia di riferimento

ALVAREZ, M. J., A. CHEIBUB, F. LIMONGI e A. PRZEWORSKI (1996) Classifying Political Regimes, in “Studies in Comparative International Development” XXXI: 3-36. ARMINGEON, K. e R. CAREJA (2008) Comparative Data Set for 28 PostCommunist Countries 1989-2006. University of Berne. ARMINGEON, K., M. GERBER, P. LEIMGRUBER e M. BEYELER (2008) Comparative Political Data Set 1960-2006. University of Berne. ARMINGEON, K., R. CAREJA, P. POTOLIDIS, M. GERBER e P. LEIMGRUBER (2008) Comparative Political Data Set III 1990-2006.University of Berne. BANCA MONDIALE (anni vari) World Development Indicators. Washington: World Bank (su cd-rom). BANERJEE, A., J. DOLADO, J. W. GALBRAITH e D. F. HENDRY (1993) Cointegration, Error-Correction, and the Econometric Analysis of Nonstationary Data. Oxford University Press. BANERJEE, A., J. DOLADO e R. MESTRE (1998) Error-Correction Mechanism Tests for Cointegration in a SingleEquation Framework, in “Journal of Time Series Analysis” XIX: 267-283. BARRO, R. J. e J. W. LEE (2000) International Data on Educational Attainment: Updates and Implications. Harvard University: manoscritto. BARRO, R. J. e J. W. LEE (1993) International Comparisons of Educational Attainment, in “NBER Working Paper” n. 4349. BECK, C., G. CLARKE, A. GROFF, P. KEEFER e P. WALSH (2002) New Tools and New Tests in Comparative Political Economy: The Database of Political Institutions. Washington: World Bank. BECK, N. (1991) Comparing Dynamic Specification: The Case of Presidential Approval, in “Political Analysis” III: 51-88. BECK, N. (1993) The Methodology of Cointegration, in “Political Analysis” IV: 237-247. 145

BECK, N. (2001) Time-Series–Cross-Section Data: What Have We Learned in the Past Few Years?, in “Annual Review of Political Science” IV: 271-93. BECK, N. (2006) Time-Series–Cross-Section Methods, New York University: manoscritto. BECK, N. e J. N. KATZ (2004) Random Coefficient Models for TimeSeries–Cross-Section Data, in “Social Science Working Paper” n. 1205, Pasadena: Institute of Technology. BENDIX, R. (1964) Nations Building and Citizenship. New York: Wiley. BERK, R., A. B. WESTERN e R. WEISS (1995) Statistical Inference for Apparent Populations, in “Sociological Methodology” XXV: 421-485. BOIX, C. (1998) Political Parties, Growth and Equality: Conservative and Social Democratic Economic Strategies in the World Economy. Cambridge University Press. CAMERON, D. R. (1978) The Expansion of the Public Economy: A Comparative Analysis, in “American Political Science Review” LXXII: 1243-1261. CASTLES, F. (ed., 1982) The Impact of Parties. Politics and Policies in Democratic Capitalist State. London: Sage. CASTLES, F. (1987) Comparative Public Policy Analysis: Problems and Prospects, 3-35 in F. Castles, F. Lehner e M. Schmidt (eds.), Managing Mixed Economies. Berlin e New York: De Gruyter. COCHRAN, W. G. (1939) The Use of the Analysis of Variance in Enumeration by Sampling, in “Journal of the American Statistical Association” XXXIV:492-510. COCHRANE, D. e G. H. ORCUTT (1949) Application of Least Squares Regression to Relationships Containing Autocorrelated Error Terms, in “Journal of the American Statistical Association” XLIV: 32-61. COLLIER D. (1991) Metodo comparato: due decenni di mutamenti, 111139 in G. Sartori e L. Morlino (curr.), La comparazione nelle scienze sociali. Bologna: Il Mulino. CORBETTA, P., G. GASPERONI e M. PISATI (2001) Statistica per la ricerca sociale. Bologna: Il Mulino. DE BOEF S. e J. GRANATO (2000) Testing for Cointegrating Relationships with Near-Integrated Data, in “Political Analysis”VIII: 99-117. DE BOEF, S. e J. GRANATO (1997) Near-Integrated Data and the Analysis of Political Relationships, in “American Journal of Political Science” XLI: 619-640. DE BOEF, S. e L. KEELE (2005) Dynamic Specification Revisited. Manoscritto presentato al meeting annuale della Society of Political Methodology, Florida State University.

146

DEUTSCH, K (1961) Social Mobilization and Political Development, in “American Political Science Review” LV: 493-514. DURKHEIM, E. (1897) Le suicide. Etude sociologique. Paris: Alcan. DURR, R. (1993) An Essay on Cointegration and Error Correction Models, in “Political Analysis” IV: 185-228. EBBINGHAUS, B. e J. VISSER (2000) Trade Unions in Western Europe since 1945. London: Macmillan (su cd-rom). ENGLE, R. e C. GRANGER (1987) Cointegration and Error Correction: Representation, Estimation,and Testing, in “Econometrica” LV: 251-276. ESPING-ANDERSEN, G. (1990) The Three Worlds of Welfare Capitalism. New York: Polity Press. FERRERA, M. (1989) “Political economy” e scienza politica. Un primo bilancio, 451-465 in A. Panebianco (cur.), L’analisi della politica. Bologna: Il Mulino. FERRERA, M. (1991) Comparazione e welfare state: un caso di successo, 211-237 in G. Sartori e L. Morlino (curr.), La comparazione nelle scienze sociali. Bologna: Il Mulino. FIDELI, R. (1998) La comparazione. Milano: FrancoAngeli, vol. 10 in questa collana. FONDO MONETARIO INTERNAZIONALE (anni vari) International Financial Statistics. Washington: International Monetary Fund (su cd-rom). FOX, J. (1991) Regression Diagnostics. London: Sage. FOX, J. (1997) Applied Regression, Linear Models, and Related Methods. London: Sage. GARRETT, G. (1998) Partisan Politics in the Global Economy. Cambridge University Press. GARRETT, G. e P. LANGE (1996) Internationalization, Institutions and Political Change, 48-75 in R. O. Keohane e H. V. Milner (eds.), Internationalization and Domestic Politics. Cambridge University Press. GOLDEN, M., P. LANGE e M. WALLERSTEIN (2009) Union Centralization among Advanced Industrial Societies: An Empirical Study.University of California. GOLDTHORPE, J. H. (ed., 1984) Order and Conflict in Contemporary Capitalism. Oxford University Press. GRANGER, C. W. J. (1981) Some Properties of Time Series Data and their Use in Econometric Model Specification, in “Journal of Econometrics” XVI: 121-130. GRANGER, C. W. J. e P. NEWBOLD (1974) Spurious Regressions in Econometrics, in “Journal of Econometrics” II: 111120. HENDRY, D. F. (1980) Econometrics - Alchemy or Science, in “Economica” LXVII: 387-406.

147

HESTON, A., R. SUMMERS e B. ATEN (2002) Penn World Table Version 6.1. Center for International Comparisons at the University of Pennsylvania. HICKS, A. (1994) Introduction to Pooling, 169-188 in T. Janoski e A. Hicks (eds.), The Comparative Political Economy of the Welfare State. Cambridge University Press. HICKS, A. (1999) Social Democracy and Welfare Capitalism: A Century of Income Security Politics. Ithaca: Cornell University Press. HICKS, A. e L. KENWORTHY (1998) Cooperation and Political Economic Performance in Affluent Democratic Capitalism, in “American Journal of Sociology” CIII: 1631-1672. HICKS, A. e J. MISRA (1993) Political Resources and the Growth of Welfare in Affluent Capitalist Democracies, 1960–1982, in “American Journal of Sociology” XCIX: 668-710. HICKS, A. e D. H. SWANK (1992) Politics, Institutions, and Welfare Spending in Industrialized Democracies, 1960–1982, in “American Political Science Review” LXXXVI: 658674. HSIAO, C. (1986) Analysis of Panel Data. Cambridge University Press. HUBER, E., C. C. RAGIN e J. D. STEPHENS (1993) Social Democracy, Christian Democracy, Constitutional Structure, and the Welfare State, in “American Journal of Sociology” XCIX: 711-749. HUBER, E., C. C RAGIN, J. D. STEPHENS, D. BRADY e J. BECKFIELD (2004) Comparative Welfare States Data Set. Northwestern University, University of North Carolina, Duke University and Indiana University. HUBER, E. e J. D. STEPHENS (2001) Development and Crisis of the Welfare State: Parties and Policies in Global Markets. University of Chicago Press. IVERSEN, T. (1999) Contested Economic Institutions: The Politics of Macroeconomics and Wage Bargaining in Advanced Democracies. Cambridge University Press. IVERSEN, T. e T. R. CUSACK (2000) The Causes of Welfare State Expansion. Deindustrialization or Globalization?, in “World Politics” LII: 313-349. JACKMAN, R. W. (1985) Cross-National Statistical Research and the Study of Comparative Politics, in “American Journal of Political Science” XXIX: 161-182. JUDGE, G. G., W. E. GRIFFITHS, R. C. HILL, H. LUTKEPOHL e T. C. LEE (1985) The Theory and Practice of Econometrics. New York: Wiley. KENWORTHY, L. (2003) Quantitative Indicators of Corporatism, in “International Journal of Sociology, XXXIII: 10-44.

148

KENWORTHY, L. (2007) Toward Improved Use of Regression in MacroComparative Analysis, in “Comparative Social Research” XXIV: 343-350. KITTEL, B. (1999) Sense and Sensitivity in Pooled Analysis in Political Data, in “European Journal of Political Research” XXXV: 225-253. KITTEL, B. e H. OBINGER (2002) Political Parties, Institutions, and the Dynamics of Social Expenditure in Times of Austerity, in “MPIfG Discussion Paper” n.1 Max Planck Institute for the Study of Societies of Cologne. KITTEL, B. e H. WINNER (2005) How Reliable Is Pooled Analysis in Political Economy? The Globalization-Welfare State Nexus Revisited, in “European Journal of Political Research” XLIV: 269-293. KMENTA, J. (1986) Elements of Econometrics. New York: Macmillan. LIJPHART, A. (1971) Comparative Politics and Comparative Method, in “American Political Science Review” LXV: 682-693. LIPSET, S. M. (1959) Some Social Requisites of Democracy: Economic Development and Political Legitimacy, in “American Political Science Review” LIII: 69-105. MADDISON, A. (2003) The World Economy: Historical Statistics. Paris: OECD. MARRADI, A. (1982) Introduzione all’edizione italiana, 9-35 in Smelser (1976). MARRADI, A. (1987) Concetti e metodo per la ricerca sociale. Firenze: Giuntina. MARRADI, A. (1993) L’analisi monovariata. Milano: FrancoAngeli, , vol. 3 in questa collana. MARRADI, A. (1997) Linee guida per l’analisi bivariata dei dati nelle scienze sociali. Milano: Franco Angeli. MARRADI, A. (2007) Metodologia delle scienze sociali. Bologna: Il Mulino. MICHELI G. A. e P. MANFREDI (1995) Correlazione e regressione. Milano: Franco Angeli, vol. 6 in questa collana. MILL, J. S. (1843) A System of Logic. Ratiocinative and Inductive. London: Longmans. MOORE, B. Jr. (1966) Social Origins of Dictatorship and Democracy. Lords and Peasants in the Making of Modern World. Boston: Beacon Press. MUKHERJEE, C., H. WHITE e M. WUYTS (1998) Econometrics and Data Analysis for Developing Countries. London: Routledge. NICKELL, W. (2006) The CEP-OECD Institutions Data Set, in “CEP Discussion Paper” n. 759. OCSE (anni vari) OECD Statistical Compendium. Paris: OECD (su cdrom). 149

PENNINGS, P., H. KEMAN e J. KLEINNIJENHUIS (1999) Doing Research in Political Science: An Introduction to Comparative Methods and Statistics. London: Sage. PESARAN, M. H. e R. P. SMITH (1995) Estimating Long-Run Relationships from Dynamic Heterogeneous Panels, in “Journal of Econometrics” LXVIII: 79-113. PHILLIPS, P. C. B. (1988) Regression Theory for Near-Integrated Time Series, in “Econometrica” VI: 1021-1043. PODESTÀ, F. (2006) Comparing Time Series Cross-Section Model Specification. The Case of the Welfare State Development, in “Quality and Quantity” XL: 539-559. PRAIS, S. J. e C. B. WINSTEN (1954) Trend Estimators and Serial Correlation, in “Cowles Commission Discussion Paper” n. 383. PRZEWORSKI, A. e H. TEUNE (1970) The Logic of the Comparative Social Inquiry. New York: Wiley. RAGIN, C. C. (1987) The Comparative Method: Moving Beyond Qualitative and Quantitative Strategies. Berkeley: University of California Press. RAGIN, C. C. e D. ZARET (1983) Theory and Method in Comparative Research, in “Social Forces” LXI: 731-754. REGINI, M. e G. BALLARINO (2007) Introduzione. I fattori non economici nel funzionamento dell’economia, 3-32 in M. Regini (cur.), La sociologia economica contemporanea. Bari: Laterza. RICOLFI, L. (1993) Tre variabili. Un’introduzione all’analisi multivariata. Milano: FrancoAngeli, vol. 2 in questa collana. RUSPINI, E. (2004) La ricerca longitudinale. Milano: FrancoAngeli, vol. 13 in questa collana. SHALEV, M. (2007) Limits and Alternatives to Multiple Regressionin Comparative Research, in “Comparative Social Research” XXIV: 261-308. SHONFIELD, A. (1969) Modern Capitalism. Oxford University Press. SKOCPOL, T. (1979) States and Social Revolutions. A Comparative Analysis of France, Russia and China. Cambridge: Harvard University Press. SMELSER, N. J. (1976) Comparative Methods in the Social Sciences. Englewood Cliffs: Prentice Hall. STEPHENS, J. D. (1979) The Transition from Capitalism to Socialism. London: MacMillan. SWANK, D. (2002) Global Capital, Political Institutions, and Policy Change in Developed Welfare States. Cambridge University Press. SWANK, D. (2006) Comparative Parties Data Set, Electronic Data Base. Marquette University.

150

SWANK, D. (2007) What Comparativists Really Do: A Comment on Shalev’s ‘Limits and Alternatives to Multiple Regressionin Comparative Research, in “Comparative Social Research” XXIV, 361-372. TRIGILIA, C. (1998) Sociologia economica. Stato, mercato e società nel capitalismo moderno. Bologna: Il Mulino. WESTERN, B. (1996) Vague Theory and Model Uncertainty in Macrosociology, in “Sociological Methodology” XXVI: 165-192. WESTERN, B. (1998) Causal Heterogeneity in Comparative Research: A Bayesian Hierarchical Modelling Approach, in “American Journal of Political Sciences” XLII: 1233-1259. WESTERN, B. e S. JACKMAN (1994) Bayesian Inference for Comparative Research, in “American Political Journal Review” LXXXVIII: 412-423. WILENSKY, H. L. (1975) The Welfare State and Equality. Structural and Ideological Roots of Public Expenditures. Berkeley: University of California Press. WILENSKY, H. L. (1981) Leftism, Catholicism, and Democratic Capitalism. 314-378 in P. Flora e A. J. Heidenheimer (eds.), The Development of Welfare States in Europe and America. New Brunswick: Transaction Books. WOOLDRIDGE, J. M. (2002) Introductory Econometrics: A Modern Approach. South-Western College Publishing. YULE, G. U. (1926) Why Do We Sometimes Get Nonsense-Correlations Between Time Series?A Study in Sampling and the Nature of Time-Series,in “Journal of the Royal Statistical Society” LXXXIX 1: 1-69. ZAJCZYK, F. (1996) Fonti per le statistiche sociali. Milano: FrancoAngeli, vol. 7 in questa collana.

151

Scarichi online i nuovi

CATALOGHI INTERATTIVI con la presentazione ragionata delle novità e di oltre 13.000 volumi disponibili nelle varie discipline. •I cataloghi (in formato pdf) sono consultabili velocemente e comodamente. • Possono essere salvati sul proprio desktop. • Consentono l’accesso immediato (e sempre aggiornato) agli indici e alle presentazioni di ogni volume. ARCHITETTURA, DESIGN, EDILIZIA, URBANISTICA, TRASPORTI, GEOGRAFIA,

ECONOMIA, ECONOMIA AZIENDALE

AMBIENTE

FrancoAngeli www.francoangeli.it

www.francoangeli.it

FILOSOFIA, LETTERATURA, LINGUISTICA, STORIA

www.francoangeli.it

MEDICINA E SANITÀ

www.francoangeli.it

FrancoAngeli

INFORMATION TECHNOLOGY, SCIENZE FrancoAngeli

FrancoAngeli

FrancoAngeli

POLITICA DIRITTO

www.francoangeli.it

www.francoangeli.it

SCIENZE

SOCIALI, SERVIZI SOCIALI

www.francoangeli.it

www.francoangeli.it

MANAGEMENT FrancoAngeli

FrancoAngeli

www.francoangeli.it

FrancoAngeli

DIDATTICA, SCIENZE DELLA FORMAZIONE

FrancoAngeli

FrancoAngeli

PSICOLOGIA

Per scaricare i cataloghi:

www.francoangeli.it

www.francoangeli.it

FrancoAngeli

book

Una nuova dimensione per condividere le conoscenze. Per l’università e per la professione. Pierpaolo Donati, Ivo Colozzi

TERZO SETTORE, MONDI VITALI E CAPITALE SOCIALE e-book - pp. 240, € 15,00

Paolo Schgor, Raffaele Brambilla, Fabrizio Amarilli

Carlo Pelanda

THE GRAND ALLIANCE THE GLOBAL INTEGRATION OF DEMOCRACIES

THE ALL-ROUND IT PROFESSIONAL Part A. Plan Knowledge Area: Use and Management of Information Systems e-book - pp. 232, € 15,00

Massimiliano Monaci (a cura di)

e-book - pp. 200, € 16,00

LA RESPONSABILITÀ IN AZIONE Prassi socialmente responsabili nell’impresa locale

e-book - pp. 288, € 18,00

Gianfranco Sabattini Antonio Fusco, Rosella Tomassoni (a cura di)

I PROCESSI CREATIVI, ARTISTICI E LETTERARI e-book - pp. 440, € 36,00

RIFORMA DEL WELFARE STATE E PROBLEMA DISTRIBUTIVO NELL’ECONOMIA DI MERCATO e-book - pp. 80, € 10,00

www@

9-06-2008

9:44

Pagina 1

www.francoangeli.it Un patrimonio sempre aggiornato di conoscenze e nuovi servizi. Facile e intuitivo nelle ricerche. Veloce da interrogare. Modalità intelligenti di selezione e di fruizione. A servizio di docenti, studenti, professionisti.

Ricerche semplici e complete

Possibilità di scegliere il “livello” (textbook, ricerca, guida per professional...)

Filtri semantici

Suggerimenti ragionati e pertinenti

Argomenti chiave

Acquisti sicuri

Sintesi veloci

Descrizioni approfondite

FrancoAngeli La passione per le conoscenze

@ CONSULTATE IL NOSTRO CATALOGO SU WEB

www. francoangeli.it • Gli abstract e gli indici dettagliati di oltre 12.000 volumi e 30.000 autori. • I sommari dei fascicoli (a partire dal 1990) di oltre 90 riviste. • La newsletter (via e-mail) delle novità. • Il calendario di tutte le iniziative. • La possibilità di e-commerce (per acquistare i libri o effettuare il download degli articoli delle riviste). • Il più ricco catalogo specializzato consultabile in modo semplice e veloce. • Tutte le modalità di ricerca (per argomento, per autore, per classificazione, per titolo, full text...) per individuare i libri o gli articoli delle riviste. • FrancoAngeli è la più grande biblioteca specializzata in Italia. • Una gamma di proposte per soddisfare le esigenze di aggiornamento degli studiosi, dei professionisti e della formazione universitaria e post-universitaria.

1120.21

29-03-2011

11:41

Pagina 1

Questo libro si propone di fornire un’introduzione alle tecniche di analisi dei dati normalmente impiegate nelle ricerche comparate trans-nazionali di orientamento quantitativo. Esse vengono illustrate dopo una sistematica descrizione dei loro campi di applicazione e delle procedure di raccolta e di organizzazione dei dati. La trattazione delle tecniche mono-, bi e multi-variate è strutturata considerando in successione la prospettiva sincronica (cross-section analysis), quella diacronica (time series analysis) e la loro combinazione (time-series-cross-section analysis). Così facendo il lettore viene guidato nelle diverse e possibili fasi previste da ricerche che partono da ipotesi di livello macro per proseguire con un’analisi quantitativa di dati trasversali e/o in serie storica. Il volume è inoltre corredato dai documenti in formato elettronico (file dei dati e lista di comandi) necessari per riprodurre con il pacchetto statistico STATA gli esempi descritti nei vari capitoli (www.francoangeli.it→Biblioteca Multimediale→Elenco dei libri con allegato multimediale). Federico Podestà è dottore di ricerca in Sociologia economica. Attualmente è occupato in qualità di ricercatore presso l’OPES (Osservatorio Permanente per l’Economia, il Lavoro e per la Valutazione della Domanda Sociale) dell’Università di Trento. Ha pubblicato diversi saggi su volumi e riviste nazionali e internazionali sull’evoluzione dello stato sociale, sulle condizioni di vita degli individui e sui metodi di ricerca macro-comparata.

Metodologia delle scienze umane

F. Podestà Tecniche di analisi per la ricerca comparata trans-nazionale

Tecniche di analisi per la ricerca comparata trans-nazionale

1120.21

Federico Podestà

Federico Podestà

Tecniche di analisi per la ricerca comparata trans-nazionale

FrancoAngeli La passione per le conoscenze

msu 21

FrancoAngeli