151 83 4MB
Italian Pages 127 [58] Year 2000
Michel Huteau Jacques Lautrey
I test di intelligenza
Sunto a cura di: Enrico De Nigris
Il Mulino
Universale Paperbacks
M ICLIEL UTEAU
JACQUES LAUTREY
I TEST DI INTELLIGENZA
I lettori che desiderano informarsi sui libri e sull'insieme delle attività della Società editrice il Mulino possono consultare il sito .Internet:
http://www.mulino.it
IL MULINO
Conclusioni
Letture consigliate Riferimenti bibliografici
p. 111
PRESENTAZIONE
119
193
La definizione e la conseguente misurazione dell'intelligenza sono stati certamente tra i temi della psicologia che hanno suscitato maggiore dibattito, in ambito sia nazionale sia internazionale. Tra le ragioni di tale dibattito vi è senza dubbio la difficoltà a fornire dell'intelligenza una definizione univoca e condivisa e a sviluppare modelli teorici stilla sua natura e sul suo funzionamento; questa confusione a livello teorico ha fatto sì clic per lungo tempo le pratiche di misurazione dell'intelligenza abbiano tratto sostegno e fondamento da validazioni empiriche, quale ad esempio l'efficacia con cui è possibile discriminare soggetti normali da soggetti mentali deboli. Il successo dei test di intelligenza e il loro contributo all'analisi psicologica è comunque indiscutibile. I test di intelligenza sono oggi impiegati, anche in Italia, nell'ambito clinico (soprattutto a fini diagnostici), ma anche in quelli scolastico o educativo (a scopo di orientamento o per valutare l'opportunità di un insegnamento di sostegno) e del lavoro (ad esempio, nella selezione del personale). Le implicazioni sociali e politiche del loro impiego sono quindi particolarmente profonde e riguardano aspetti quali, ad esempio, la realizzazione professionale del singolo individuo, l'efficienza del sistema scolastico o la produttività di un'azienda. Una delle ragioni che ci ha indotto a proporre al lettore italiano questo libro, opportunamente adattato, il presente testo è che esso offre informazioni puntuali sui test di intelligenza più frequentemente utilizzati: ne esemplifica le domande più significative, le caratteristiche psicometriche, ne discute l'interpretazione dei risultati e ne analizza le implicazioni. Non si limita comunque «solo» a questo arduo e meticoloso compito. Vengono infatti anche riportati i principali riferimenti storici alla nascita e all'evoluzione degli strumenti di misura dell'intelligenza. Il lettore viene così condotto attraverso le fasi: 1) di 7
costruzione dei test come risposte alle necessità sociali, educative e cliniche di un'epoca, 2) di critica e loro successiva revisione, 3) cli analisi e sviluppo delle implicazioni etiche e deontologiche relative al loro utilizzo. La prospettiva da cui questi argomenti vengono presentati è quella di due eminenti studiosi francesi che da diversi anni si occupano di misure dell'intelligenza e delle problematiche connesse, e che intrattengono significative collaborazioni scientifiche con il nostro gruppo di ricerca. 11 loro interesse e la loro sensibilità a questi temi sono per natura molto vicini a quelli sviluppatisi nel nostro paese e se vogliamo, più in generale, in Europa e si differenziano dall'approccio americano che è di gran lunga più interessato ad aspetti numerici e psicometrici del testing. CESARE CORNOEDI - PAOLA PALLADINO
8
PREFAZIONE
I test inquietano e affascinano. Periodicamente, i media ne fanno oggetto di aspre critiche in quanto stupidi e arbitrari, tecnocratici e pericolosi. Ma, nello stesso tempo, i test hanno molto successo presso il grande pubblico. Le riviste li propongono, più o meno seriamente; numerose opere pretendono di diffonderne i segreti. C'è molta confusione in questi processi e in questi entusiasmi. Forse per la loro diversità e quantità è molto difficile parlare dei test ín generale. Questo libro vuole fornire alcune informazioni e chiarimenti su che cosa i test sono realmente. E centrato su una categoria particolare dí test, quelli destinati a valutare l'intelligenza, che sono anche quelli che hanno provocato i dibattiti più vivaci. Per misurare l'intelligenza bisogna, naturalmente, avere dapprima un'idea generale di che cosa essa sia. Noi vedremo che l'intelligenza, o, in altri termini, l'insieme di capacità che consentono di risolvere i problemi, può essere concepita in diversi modi e da punti di vista diversi, e i test non fanno che renderla più oggettiva. I test valutano ciò che valutano le idee che hanno presieduto alla loro costruzione. Non rivelano proprietà misteriose e nascoste degli individui. Essi permettono semplicemente di descrivere dei comportamenti dal punto di vista della loro efficienza. Non sono altro che tecniche d'osservazione. Queste tecniche sono in generale accuratamente elaborate e rigorosamente codificate al fine di ridurre al minimo gli effetti. della soggettività dell'osservatore e di consentire confronti tra gli individui. Nel primo capitolo vengono forniti alcuni cenni storici sui primi tentativi di «misura» dell'intelligenza e sul loro contesto. Nel secondo capitolo viene analizzato un test d'intelligenza classico riguardante il ragionamento astratto. Quest'esempio permette di precisare le caratteristiche essenziali dei tese il modo di presentazione dei problemi proposti, la valutazione e
delle prestazioni, il grado di fedeltà e validità. 11 terzo capitolo è dedicato alla presentazione delle grandi categorie di test: test di quoziente intellettivo (QI), test analitici di intelligenza, test fondati sulla teoria di Piaget. L'ultimo capitolo, infine, riguarda l'utilizzo dei tese espone i principali dibattiti e le polemiche di cui i test d'intelligenza sono stati oggetto e fa il punto sulla pratica dí utilizzo dei test e sui problemi deontologici che essa pone.
CAPITOLO PRIMO
CENNI STORICI SULLA NASCITA DEI TUST DI INTELLIGENZA
L'idea di «misurare» l'intelligenza era nell'aria alla fine del XIX secolo, alla nascita della psicologia scientifica. Il primo laboratorio di psicologia sperimentale venne fondato a Lipsia nel 1879 da Wilhelm Wundt (1832-1920). In questo laboratorio le ricerche riguardavano soprattutto i processi sensoriali elementari. Si cercava ad esempio di determinare come la percezione varia ín funzione dell'intensità dello stimolo o di individuare la minima differenza di intensità dello stimolo che possa essere percepita dai soggetti. Questi esperimenti inducevano a ottenere delle misure piuttosto precise di differenti caratteristiche delle risposte dei soggetti, soglie di detezione, tempi di reazione e, a partire da queste caratteristiche, si cercava di inferire la natura dei processi in gioco nella risposta allo stimolo. Uno degli studenti di Wundt, James IVIcKeen Cattell (18601944), fu colpito dalla variabilità che osservava tra i soggetti sottoposti a questi esperimenti. Questo non era certo l'oggetto degli studi condotti nel laboratorio di Wundt, dove si cercava di stabilire delle leggi generali dei processi sensoriali e dove le differenze tra gli individui erano per questo trattate come delle forme di «errore». C'attell osservava tuttavia che queste differenze erano abbastanza stabili. Una volta rientrato negli Stati Uniti, si servì di piccole situazioni sperimentali ispirate a questi compiti di laboratorio per studiare le differenze interindividuali e fu il primo ad utilizzare l'espressione mental test, nel 1890, per designa de. Nello stesso periodo, in Gran Bretagna, Francis Galton (1822-1911) utilizzava situazioni di questo tipo per misurare l'acutezza sensoriale, le soglie di discriminazione, i tempi di reazione. Il suo interesse per le differenze individuali era però più antico. Era infatti cugino di Darwin e, dalla pubblicazione dell'Origine delle specie, cercò di dimostrare che la teoria del cugino poteva anche essere applicata all'evoluzione dell'intel11.
ligenza nella specie umana. E questa la ragione per cui approfittò della Mostra internazionale della salute a Londra, nel 1884, per fondare un «laboratorio antropometrico» ín cui i visitatori potevano «farsi misurare», sia in relazione a variabili antropometriche (misure del corpo umano e delle sue diverse parti) sia rispetto alle piccole prove che Cattell qualificherà più tardi come mental test. Galton misurava genitori e figli con l'obiettivo di mostrare che le differenze individuali sono ereditate da una generazione all'altra; questo lo indurrà a introdurre il principio del coefficiente di correlazione per quantificare la relazione che lega le misure effettuate sui genitori a quelle effettuate sui figli.
1. I primi tentativi di misura e il loro conic.cto
primi tentativi di misura di differenze individuali relative a caratteristiche «mentali» sono datati intorno alla fine del XIX secolo e le loro ragioni intellettuali possono essere collocate, da un lato, nella nascita di una psicologia scientifica, che ha mostrato la possibilità di misurare le caratteristiche dei processi mentali molto elementari, e, dall'altro lato, nell'influenza della teoria di Darwin, che ha messo l'accento sul ruolo giocato dalle variazioni interindividuali nell'evoluzione delle specie. Un altro fattore determinante di questa «atmosfera dell'epoca» è da collocarsi negli sconvolgimenti economici e socioculturali prodotti dall'industrializzazione. La necessità di diffondere l'istruzione, la formazione, di reclutare massicciamente per funzioni professionali popolazioni che non erano preparate, ha creato dei nuovi bisogni in materia di valutazione delle persone.. Uno di questi espresso regolarmente in quest'epoca era la necessità di distinguere, tra gli allievi che non giungevano a frequentare la scuola elementare – ed erano comunque tenuti a farlo perché era divenuto obbligatorio – coloro che avevano i mezzi intellettuali per beneficiare di questo insegnamento ma erano ostacolati dalle circostanze e quelli che invece erano ritardati mentali. L'idea sottostante era che occorreva dare ai bambini ritardati mentali un insegnamento adatto alle loro possibilità, ma ciò comportava che si potesse fare una valutazione affidabile e oggettiva dei bambini con difficoltà scolastica. 12
Di fronte a questa richiesta sociale, i mental tests, simili a quelli adottati da Cattell nei suoi esperimenti di laboratorio, sembrarono essere, in un primo tempo, dei buoni strumenti per valutare le capacità intellettuali. Queste prove riguardavano processi molto elementari: si valutava, ad esempio, la più piccola differenza di peso che il soggetto era in grado di notare nel momento in cui si aggiungeva o sottraeva qualche grammo ad un peso di 100 grammi, il tempo di reazione ad uno stimolo uditivo, il tempo necessario per pronunciare il n ome del colore presentato, ecc. Per comprendere come all'epoca si sia potuto pensare di valutare l'intelligenza con tali prove, bisogna collocarsi nel contesto delle teorie allora in vigore sui processi mentali. La filosofia dominante era l'associazionismo. Si pensava che le immagini mentali fossero formate dall'associazione di sensazioni elementari e che le idee fossero formate dall'associazione e dal concatenamento di queste immagini mentali. In breve, si ipotizzava che le sensazioni elementari costituissero la materia di base a partire dalla quale venivano a formarsi i processi mentali più complessi. Da lì a supporre che la qualità dei processi complessi fosse largamente determinata dalla qualità delle sensazioni elementari il passo è breve. Cattell ha quindi applicato i suoi menta! tests a tutti gli studenti che entravano alla Columbia University, con l'obiettivo di basarsi sui loro risultati per precisare indicazioni d'orientamento e per adattare i programmi. I suoi ripetuti tentativi si sono conclusi con un cocente fallimento. Non c'era alcuna relazione tra l'efficienza in questi mental tests e il successo scolastico. Tentativi simili condotti da altri ricercatori nello stesso periodo, con studenti universitari ma anche di scuola elementare, hanno prodotto lo stesso risultato. I metodi di valutazione del funzionamento intellettivo tratti dalla psicologia scientifica nascente si rivelarono incapaci di rispondere alla richiesta sociale dell'epoca in questo campo.
2. La soluzione di 13inet: la scala metrica
1/ sviluppo dell'intel-
ligenza e uno psicologo francese, Al fred Binet (1857-1911), che troverà la soluzione del problema. Binet era uno spirito curioso che aveva tra i suoi molteplici interessi la misura dell'intelli13
genza. Una delle piste che egli esplorò fu la ricerca di una relazione tra le misure del cranio, considerate misure indirette della dimensione del cervello, e l'intelligenza. L'insuccesso dei primi tentativi gli diede l'idea di rovesciare il problema e confrontare bambini normali a bambini ritardati. Egli chiese quindi a Théodore Simon, che in quel periodo, 1899, lavorava in un istituto per bambini ritardati a Perray-Vaucluse, di estendere le misure del cranio a bambini diagnosticati appunto come ritardati mentali. Ma, una volta ancora, la ricerca si scontrò con l'assenza di mezzi di valutazione obiettivi e affidabili del grado di ritardo mentale dei soggetti esaminati. Binet e Simon cominciarono allora a sottoporre i bambini ad un esame sistematico per valutare le loro capacità intellettive. Binet conosceva l'esistenza dei mentai tests messi a punto da Cattell, ma aveva espresso già da diversi anni il suo disaccordo con questa modalità di affrontare il problema. Egli riteneva che le differenze individuali nei processi sensoriali elementari avessero scarsa influenza sui processi mentali complessi e che le differenze nella capacità intellettiva dovessero essere cercate nelle abilità di memoria, di immaginazione, di ragionamento, di giudizio. Questa convinzione, che ha giocato un ruolo determinante, andava contro le tesi associazioniste, e -lo condusse ad abbandonare le caratteristiche individuali, che si era in grado di «misurare», per rivolgersi a caratteristiche più complesse, ma anche più problematiche, che non si sapeva «misurare». Invece di paragonare le soglie di discriminazione sensoriale dei bambini ritardati con quelle dei bambini normali, Binet e Simon sottoposero loro piccoli problemi di memoria, di giudizio scegliendo poi quegli item che separavano più nettamente i soggetti dei due gruppi (si chiamano item le diverse domande o i diversi piccoli problemi, in genere di difficoltà graduata, che compongono un test e nei quali il soggetto può riuscire o fallire). La spinta a procedere in questo lavoro verrà dalla domanda sociale. Nel 1904, una commissione ministeriale chiese a Binet di studiare il problema della diaemosi del ritardo mentale. Bine': e Simon proposero allora nelle b scuole le prove che avevano cominciato a mettere a punto. Si accorsero che alcuni item che ben discriminano i bambini ritardati da quelli normali avevano anche un buon potere di discriminazione all'interno del 14
gruppo dei bambini normali ma di età inferiore. Insomma, item sembravano caratteristici di una data età nel momento in cui lo sviluppo intellettivo è avvenuto normalmente. Da ciò, lo scarto tra questa età e l'età in cui il bambino li supera realmente può segnalare il grado di evoluzione o di ritardo nello sviluppo intellettivo. E l'origine della nozione di età mentale. Tutto lo sforzo di Binet e di Siinon, a partire da quel momento, fu di trovare delle piccole prove di memoria, di giudizio, di ragionamento, la cui riuscita apparisse rappresentativa dei compiti cognitivi che può padroneggiare un bambino di una data età. Per essere ritenuto rappresentativo di un'età di 5 anni, ad esempio, un item doveva produrre un fallimento nella maggior parte dei bambini di 4 anni, essere superato dalla maggior parte dei bambini di 6 anni, e avere una percentuale di successo del 50% tra i bambini di 5 anni, a dimostrazione che a questa età sta per essere padroneggiato. Gli item adatti non dovevano richiedere conoscenze scolastiche. Non si trattava di valutare il grado di istruzione, ma la qualità del funzionamento intellettivo in situazioni ordinarie. A titolo d'esempio, una delle situazioni di valutazione della memoria selezionata da Binet e Simon (oggi si parlerebbe di memoria a breve terrnine) consisteva nel chiedere al bambino di ripetere una lista di cifre appena letta dallo sperimentatore. Essere in grado di ripetere due cifre corrisponde ad un'età mentale di 2 anni, 3 cifre di 3 anni, 5 cifre di 8 anni, e 7 cifre di 15 anni. Un'altra prova consisteva nel mostrare al bambino delle fotografie chiedendogli di spiegare che cosa esse rappresentavano (cfr. fig. 1). Elencare (ad esempio, «un signore ed una signora») corrispondeva ad un'età mentale di 3 anni, descrivere (ad esempio, «un signore e poi una signora che dormono su una panca») ad un'età mentale di 7 anni, e interpretare (ad esempio, «degli sfortunati») ad un'età mentale di 15 anni. A partire dal 1905, Binet e Simon proposero una prima versione della loro «scala metrica» dell'intelligenza. Una seconda versione è apparsa nel 1908 [Binet e Simon 19081. La scala conteneva una cinquantina di item, in ragione di 4 o 5 per ogni età mentale, e ciò per livelli di età che andavano da 3 a 15 anni. L'età mentale non era determinata da un item particolare, ma dall'insieme degli item superati: se la scala prevedeva 4 itero caratteristici dell'età mentale di 4 anni, la riuscita in ognuno di questi item corrispondeva ad un credito di 3 mesi e l'età mentale era ottenuta 15
FIG. L Una delle tre fotografie mostrate ai bambini nella scala (li 13inedSimon.
Fonte: A. Binet e T. Simon, Marine/ (le Téchelle inéitique, Paris, A. Collo.
sommando i crediti degli item superati. La precocità o il ritardo dello sviluppo intellettivo erano dati dal confronto tra l'età mentale così ottenuta e l'età cronologica del bambino. F, soltanto dopo la morte di Binet, nel 1912, che uno psicologo tedesco, William Louis Stern, ebbe l'idea di esprimere la rapidità di sviluppo come il rapporto tra l'età mentale e l'età cronologica (moltiplicato per cento per evitare i decimali). Questo indice venne chiamato quoziente intellettivo (QI). Il QI è superiore a 100 per i bambini avvantaggiati (più precoci) e inferiore a 100 per i bambini in ritardo: tanto più si allontana da 100, in un senso o nell'altro, tanto più i bambini sono in vantaggio o in ritardo. Un bambino di 10 anni che manifesta le stesse abilità della media dei bambini di 12 ha un'età mentale di 12 anni e si vede attribuire un Q1 di (12/10) Y. 100 = 120. La scala di Binet e Simon ebbe un successo immediato. In effetti, permetteva dí diagnosticare il ritardo mentale in maniera più precisa e più obiettiva di quanto si facesse in precedenza e si mostrò predittiva della riuscita scolastica. Venne tradotta e adattata negli Stati Uniti nel 1909. 1.1 più famoso di que16
sti adattamenti è quello fatto da Termali all'Università di Statiford nel 1916. Da allora, la «Stanford-13inet» è stata più volte rivista ed è tuttora utilizzata negli Stati Uniti. In Francia, invece, fu solo nel. 1966 che la scala metrica di Binet e Simon venne revisionata sotto la direzione di René Zazzo per diventare la «nuova scala metrica dell'intelligenza». 1.1 primo aspetto di novità che ha permesso a Binet di far uscire il problema dell'intelligenza dall'Impasse in cui si trovava alla fine del XIX secolo è stato di aver capito che la valutazione doveva riguardare processi mentali complessi. Questa prima idea, tuttavia, non era ancora sufficiente, poiché a quell'epoca si era in grado di valutare solamente i processi sensoriali elementari. Un ulteriore apporto originale di. Binet è stato di aver compreso clic la possibilità di ordinare gli itero in funzione dell'età in cui questi ultimi vengano superati poteva costituire un primo livello di misura della loro complessità cognitiva. Da questa possibilità di ordinare gli itero discendeva la possibilità di ordinare allo stesso modo anche i soggetti, compresi quelli della stessa età cronologica, in funzione del loro livello di riuscita al test. Spesso, nella ricerca, non basta avere delle idee nuove, ma bisogna anche saper abbandonare le vecchie che non «funzionano». Si può notare che, da quando Binet si avviò sulla strada della scala metrica dell'intelligenza, egli abbandonò quella della misura del cranio che non aveva prodotto nulla di interessante fino a quel momento e che neanche in seguito si rivelò produttiva.
3. La soluzione di Spear/nal ':
fattoriale
Per confrontare i soggetti Binet si è riferito all'approccio evolutivo e alla nozione di età mentale. Un'altra soluzione, scoperta pressappoco nello stesso momento da Spearman, consiste nel riferirsi ad un'analisi matematica, l'analisi fattoriale, per definire le dimensioni intellettive sulle quali gli individui possono essere confrontati. 3.1. I principi generali dell'analisi fattoriale Prima di fornire alcuni riferimenti storici sull'origine di quest'altro approccio alla «misurazione» co17
minciamo a introdurre il principio dell'analisi fattoriale con l'aiuto di un'analogia. Le qualità atletiche possono essere valutate in tutti i tipi di prove sportive, ad esempio il lancio del disco, il salto in alto, il lancio del peso, il salto in lungo, il lancio del giavellotto, il salto triplo, per citarne solo alcune. Si può supporre che alcune di queste prove, benché diverse tra loro, facciano intervenire un fattore comune di performance. Le tre prove del lancio hanno probabilmente in comune il fatto di fare appello alla forza e all'elasticità delle braccia, mentre le tre prove di salto hanno probabilnieme in comune il riferimento alla forza e all'elasticità delle gambe. LA forza e l'elasticità delle gambe intervengono probabilmente anche nel lancio, tua con un peso meno rilevante che nel salto. Ci si può così rappresentare la performance nel lancio come la risultante di un insieme di fattori, di cui alcuni hanno un peso importante (elasticità delle braccia) e altri un peso meno rilevante (estensione delle gambe). Poiché alcune prove hanno in comune di mettere in gioco e con un certo peso un dato fattore di efficienza, esse tendono ad essere superate tutte insieme: se l'elasticità delle gambe ha un peso rilevante nel salto in alto e nel salto in lungo, un soggetto che riesce bene in una di queste due prove ha senza dubbio Una buona estensione delle gambe e riuscirà dunque bene anche nell'altra. Invece, non ci si aspetta una correlazione altrettanto forte tra le prestazioni nel salto in alto e nel lancio del giavellotto nella misura in cui ciascuna fa riferimento ad un fattore di riuscita che gli è specifico: elasticità delle gambe per la prima ed elasticità delle braccia per la seconda. Tuttavia, è possibile che, all'origine di una correlazione alquanto moderata tra prove di lancio e prove di salto, vi sia malgrado tutto una dipendenza tra questi due fattori di efficienza. Le condizioni generali della muscolatura, la motivazione per le attività sportive, l'allenamento possono in effetti concorrere ad un fattore generale di performance implicato in tutte queste attività, che si tratti di corsa, di salto o di lancio. metodi di analisi fattoriale esplorativa sono utili nel momento in cui, contrariamente al modo in cui si è proceduto nelle prove diatletica', non si hanno idee a priori sui fattori in gioco nel successo ad un insieme dí prove. In questo caso, il processo va esattamente nella direzione inversa a quella seguita in precedenza: si parte dalle relazioni empiriche tra le prove 18
per inferire l'esistenza di eventuali fattori comuni. 11 metodo dell'analisi fattoriale consiste nel calcolare prima le correlazioni tra tutte le prove prese due a due, poi eli verificare se esistono gruppi di prove che correlano tra loro più che con le altre. Si suppone allora che ci sia un fattore di variazione comune a questo gruppo di prove, ma la parola fattore assume qui un significato diverso da quello attribuitogli poco prima. Si tratta di un fattore comune nel senso matematico del termine («Mettere • un'espressione a fattore») e l'analisi fattoriale è il metodo matematico che permette di estrarre questi fattori di variazione comuni. l fattori sono dunque in questo caso delle entità matematiche, astratte e teoriche. Nella rappresentazione geometrica dei risultati dell'analisi fattoriale eli una serie di correlazioni, questi fattori com uni di variazione sono rappresentati SUgli assi cartesiani. Le differenti prove possono essere situiate in rapporto agli assi sulla base delle loro coordinate. Più una prova è vicina ad un asse, più ha contribuito con forza alla determinazione di questo fattore, e più questo ha un peso rilevante nei punteggi ottenuti in questa prova. Si dice che la prova è fortemente «saturata» dal fattore. La saturazione di una prova da parte di un fattore è valutata sulla base della sua correlazione con quel fattore, varia quindi da –1 a +1 e si interpreta come il peso del fattore nella variazione dei punteggi a questa variabile. Si . può cercare di interpretare un fattore comune a più prove individuando in che cosa queste prove si assomigliano e in che cosa differiscono dalle prove saturate da un altro fattore. Ritorniamo alle nostre sei prove dí atletica. Ammettiamo stavolta che, non avendo alcuna ipotesi in partenza sui fattori di variazione della performance in queste prove, noi abbiamo fatto un'analisi fattoriale delle loro intercorrelazioni. Se troviamo che le tre prove di salto sono fortemente saturate da un primo fattore, chiamiamolo e le tre prove di lancio fortemente saturate da un secondo fattore, chiamiamolo F2, allora potremmo interpretare Fl e F2 – che non sono che delle fonti di variazione latenti, teoriche – in funzione delle ipotesi che questo raggruppamento di prove ci suggerisce: forse l'elasticità delle gambe per Fl e l'elasticità delle braccia per F2. Era insomma questa la situazione in cui si trovavano i primi psicologi che applicarono l'analisi fattoriale ad un insieme di test. Ignorando la natura dei differenti fattori in grado di spie19
gare le variazioni nelle performance ai test di intelligenza, essi hanno preso come punto di partenza le correlazioni tra i test e ne hanno fatto un'analisi fattoriale. Nel momento in cui sono stati individuati uno o più fattori comuni a più test, l'esame del contenuto dei diversi test saturati dallo stesso fattore ha portato ad una sua interpretazione (e qualche volta a più di una). 3.2.
Spearman e il fattore generale di intelligenza
Il primo metodo di analisi fattoriale è stato inventato da Charles Spearman (11863-1945), uno psicologo inglese, per analizzare specificamente la tavola delle correlazioni ottenute da un campione di soggetti in diverse prove, voti scolastici, piccoli test, stime dell'intelligenza fatte dagli insegnanti, ecc. Con il suo metodo di calcolo egli mostrava che si poteva separare la varianza di questi punteggi in due parti: un fattore di variazione generale, comune a tutti questi punteggi, e un fattore di variazione specifico per ciascuno di essi. In un articolo pubblicato nel 1904 e intitolato General intelligence objectively determined and íneasured, egli interpretava questo fattore comune a tutti i compiti della sua batteria di prove come un fattore generale di intelligenza, il famoso fattore g, e presentava il suo metodo come il mezzo per misurarlo. Si noterà dapprima la quasi coincidenza di questa data con quella della pubblicazione della prima versione della scala metrica di Binet e Simon. La misura dell'intelligenza era sicuramente nell'aria da tempo. Si noterà poi che questa prima forma di analisi fattoriale conduceva anche a una concezione globale di intelligenza. Spearman non ha proposto teorie elaborate di cosa rappresentasse il fattore g, ma ha dapprima ritenuto che corrispondesse all'«energia mentale», senza che questa nozione superasse lo status di metafora. Egli ha suggerito poi [Spearman 19271 che i compiti maggiormente saturati nel fattore g erano i compiti di «estrazione cli relazioni» (noi diremmo oggi di inferenza) e di «estrazione di correlati» (noi diremmo oggi di generalizzazione). L'estrazione di relazioni consiste, dati n elementi, nel trovare la relazione che li lega; ad esempio, dati gli elementi «birra» e «vino», nel trovare che la relazione che li lega è essere delle bevande alcoliche. L'estrazione di correlati consiste, dati un elemento e una relazione, ad esempio «birra» e «bevanda alcolica», nel trovare un altro elemento le 20
gaio al primo da questa relazione. Questa concezione di ciò che è comune alle attività intellettive non era particolarmente elaborata, ma era senza dubbio operazionale. E con queste ispirazioni che .Raven mise a punto la prova delle matrici progressive che sarà presentata nel capitolo seguente. Nelle analisi fattoriali si osserva infatti che il test delle matrici progressive è uno di quelli che sono saturati con maggior forza dal fattore g (fattore comune all'insieme dei test). 3.3. Thurstone e le abilità primarie Questo modello unidimensionale è stato messo in discussione verso la fine degli anni Trenta da Thurstone (1887-1955), uno psicologo americano. Analizzando le intercorrelazioni di un ampio gruppo di test con il metodo dell'analisi fattoriale, egli non trovò un fattore generale, ma numerosi fattori che corrispondevano secondo lui a delle abilità indipendenti che chiamò «abilità primarie». Il numero di queste abilità primarie variava un po' a seconda dei test che componevano la batteria, ma le più frequenti erano le sette seguenti: comprensione verbale (V), fluidità verbale (W), abilità numerica (N), inferenza (I), abilità spaziale (S), velocità percettiva (P) e memoria (V) [Thurstone e Thurstone 1941]. Vedremo più avanti alcuni test che sono maggiormente saturati da questi diversi fattori. Sulla base di queste considerazioni si è avviata una polemica tra Spearman e Thurstone sulla struttura dell'intelligenza: è unidimensionale, come suggeriva il fattore generale individuato da Spearman, o M ultidirnensionale, come suggerivano i molteplici fattori individuati da Thurstone? Come è emerso successivamente, le differenze di risultato riguardavano, da un lato, il fatto che questi due autori utilizzassero delle tecniche di analisi fattoriale differenti, e dall'altro, che queste analisi fossero condotte su dei campioni di prove e di soggetti abbastanza diversi. È stato mostrato che questi due metodi erano parziali e potevano essere integrati in un modello fattoriale gerarchico più generale. In breve, nel momento in cui si fa l'analisi fattoriale di una batteria di test con un metodo simile a quello di Thurstone, si ritrovano i fattori primari che egli ha messo in evidenza, ovvero fattori comuni soltanto a piccoli gruppi di test. Tuttavia, questi fattori sono correlati tra loro in modo tale Cile se se ne fa un'analisi fatto21.
riale si ottengono fattori di second'ordine, più generali, che rendono conto della varianza comune ai fattori primari. nom e Cattell [1966] hanno così distinto cinque fattori generali di secondo ordine: un fattore generale di intelligenza cristallizzato (gc), un fattore generale di intelligenza fluida (g/) e un fattore generale di intelligenza visuo-spaziale (v), un fattore generale di creatività e un fattore generale di velocità di reazione. L'intelligenza cristallizzata è quella che si fonda sull'organizzazione delle conoscenze in memoria; l'intelligenza fluida è in gioco nelle situazioni che richiedono poche conoscenze a priori e in cui è l'efficienza dei meccanismi di ragionamento ad essere valutata; l'intelligenza visuo-spaziale; è in gioco nell'elaborazione di informazioni di natura visuo-spaziale; l'intelligenza creativa è in gioco in situazioni in cui devono essere scoperte soluzioni nuove e originali. Ma questi fattori secondari sono anche correlati tra loro in modo che, se si applica su essi un'analisi fattoriale di secondo ordine, si può trovare un fattore generale, di «terzo ordine», comune all'insieme dei test che compongono la batteria. In altre parole, Spearman e Thurstone avevano entrambi ragione ed entrambi torto. Questi cenni storici danno un'idea delle soluzioni che sono state proposte per valutare l'intelligenza. Si sono cercati metodi diversi per confrontare gli individui con compiti che mettano in gioco i differenti aspetti dell'intelligenza. I compiti cognitivi non sono comunque per questo tutti dei test di intelligenza. Rimane perciò da vedere in modo più preciso ciò che distingue un test da altre situazioni di valutazione.
I\RYIA. al.
LAPITOLO PRIMO
Teniamo a precisare che non siamo esperti in quest'ambito e c i tiest'anlisi a priori dei fattori in gioco in prove di atletica è forse scorretta. ll solo interesse di questo eseinpio è nelle sue ipotizzare virtù pedagogiche.
CAPITOLO SECONDO
CI IE COSt UN TEST?
Un test è un dispositivo d'osservazione degli individui che presenta quattro proprietà: 1. è standardizzato; 2. permette di collocare la prestazione di ogni soggetto in un gruppo di riferimento; 3. presenta un determinato grado eli accuratezza della misura (fedeltà); 4. viene precisato il significato teorico o pratico della sua misura (validità). Per esaminare queste proprietà prenderemo come esempio un test di ragionamento induttivo, il test delle Matrici Progressive – livello superiore (Advanced Progressive Ma Irices, APM) – messo a punto dallo psicologo inglese Raven [1965; 1992; Raven, Court e Raven 1988]. Cominceremo con la presentazione di questa prova.
1. Ut7 ir'Si ch ragiontwiento Induttzvo Il test di Raven è rivolto ad adolescenti o adulti con un buon livello intellettivo (Raven ha anche proposto dei test costruiti con gli stessi principi e rivolti ai bambini). Elaborato nel 1943 per essere utilizzato nelle procedure di selezione degli ufficiali dell'esercito britannico, è stato rivisto una prima volta nel 1947, in previsione di un impiego più diversificato, principalmente nell'ambito dell'orientamento e del reclutamento, poi una seconda volta nel 1962, Questo test è costituito da una serie di figure incomplete che il soggetto deve completare scegliendo la soluzione più appropriata tra le numerose che gli vengono proposte. Il test è rappresentativo di una categoria di prove dette «carta e matita», poiché non c'è bisogno d'altro che del quaderno degli item e di una matita per indicare la risposta, o anche test «collettivi» perché le loro caratteristiche consentono una somministrazione collettiva.
77
23
Il test è costituito da due serie di problemi (o item). La prima serie si compone di .12 item per la maggior parte piuttosto facili. Sono proposti con lo scopo di esercitare il soggetto e consentirgli di familiarizzare con il compito e quindi mettere a punto una modalità generale di risoluzione. La seconda serie, nella versione del 1962, prevede 36 item di cui molti sono piuttosto difficili (la versione del 1947 proponeva 12 item supplementari). Il punteggio del soggetto è in genere calcolato accordando un punto per ogni item superato. Istruzioni molto precise indicano al soggetto che cosa deve fare e che cosa ci si aspetta da lui. Il test è presentato come un compito di osservazione e di ragionamento. Si mostra al soggetto dapprima l'item numero 1 della prima serie (vedi fig. 2) e gli si spiega che ciascuna delle piccole figure nella parte bassa della pagina potrebbe riempire lo spazio vuoto nella figura grande, ma che solo
una completa adeguatamente il disegno. Il soggetto deve scoprire questa figura e riportare il suo numero su un foglio di risposta a parte, distinto dal quaderno degli item. Dopo aver verificato che ognuno ha individuato la risposta esatta e l'ha segnata correttamente, si chiede ai soggetti di risolvere l'item 2 (la lettura della figura grande si fa da sinistra a destra e dall'alto verso il basso). Allo scadere di una ventina di secondi, si controlla nuovamente la risposta. I soggetti hanno a disposizione circa cinque minuti per risolvere gli item successivi. Si chiarisce loro che i problemi diventano presto difficili, che bisogna sempre utilizzare lo stesso metodo per risolverli, che si tratta di una serie di esempio e che la cosa essenziale non è risolvere tutti i problemi ma imparare il metodo da utilizzare, metodo che le istruzioni non esplicitano. Bisogna infatti trovare delle regolarità o delle regole di trasformazione in riga e in colonna. L'iteri n. 10 è riportato nella figura 3.
la 1
q ri
111
FIG. 2. Ttern n. I della serie I delle -Matrici Progressive.
24
o
)
Fin, 3. tieni n. 10 della serie I delle Matrici Progressive.
25
Si passa poi alla seconda serie di item. Le istruzioni precisano che si tratta del test vero e proprio, che i problemi da risolvere sono simili a quelli della prima serie, che la loro difficoltà cresce più lentamente, e che è preferibile affrontarli nell'ordine con cui vengono proposti. Se la prova è applicata con un tempo limitato, il soggetto ha a disposizione quaranta minuti (vedi fig. 4, item 19 della versione del 1962 che è un item di difficoltà media). Il punteggio del soggetto al test (punteggio grezzo) dato dal numero di problemi superati.
19
5
4. Itero n. L9 della sede Il delle Matrici Progressive.
9 6
2. Le proprietà .1(..)rmali di un test 2.1. La standanlizzazione
I test sono delle procedure di osservazione standardizzate. La standardizzazione riguarda la situazione di osservazione, le consegne e la valutazione del risultato. Nel test di Raven, i problemi proposti sono assolutamente identici per tutti i soggetti poiché sono stampati sui quaderni. Quando il test richiede la manipolazione del materiale, questa viene sempre descritta con grande precisione. Noi abbiamo dato solo un riassunto delle consegne del test di Raven. Nel manuale le istruzioni sono scrupolosamente redatte e a colui che applica il test è strettamente richiesto di non discostarsene. Infine, il modo di calcolare il punteggi() grezzo di ogni soggetto è sempre perfettamente esplicitato. Nei test collettivi, concepiti appunto per poter essere somministrati contemporaneamente ad un gruppo di soggetti, il calcolo è generalmente semplice e consiste nel sommare le risposte corrette. Per altre tipologie di test, la correzione è più complessa, ma si dispone sempre di indicazioni molto precise. Prendiamo ad esempio í test di vocabolario in cui il soggetto deve produrre la definizione di una parola. Nel manuale del test si trova la descrizione, accompagnata da esempi, dei diversi livelli di risposta che possono essere prodotti dai soggetti, con indicazione del numero di punti da attribuire in ogni caso. Questa standardizzazione ha un'unica funzione: rendere oggettiva la valutazione, cioè evitare che la misurazione delle differenze tra gli individui sia influenzata dalla soggettività dell'osservatore, o, in altri termini, permettere che ci sia un accordo sulla valutazione delle performance tra osservatori diversi. là risaputo che questo non succede con procedure di osservazione libere quando la situazione in cui si trova il soggetto, le indicazioni che gli vengono date e le modalità di valutazione delle risposte sono mal definite. Le differenze che vengono così individuate tra i soggetti possono essere dovute tanto alla variabilità di questi parametri, da un osservatore all'altro, quanto alle effettive performance dei soggetti. La procedura di OSServ azione standardizzata si distingue così nettamente dalla valutazione scolastica. Poiché nella situazione scolastica lo stesso compito viene dato a tutta la classe nelle stesse condizioni, si 27
può ritenere che la situazione e le consegne siano standardizzate. Ma la correzione generalmente non lo è (uno sforzo comunque viene compiuto ín questo senso con l'introduzione di una scala di punteggio di riferimento). Le differenze tra studenti sono quindi ambigue. I lavori di docimologia hanno regolarmente mostrato da più di sessant'anni [cfr. de Landsheere 1992] che queste differenze sono attribuibili in parte a variabili che ancora oggi si sottostimano, quali la severità dei correttori, l'utilizzo vario che si fa delle scale di valutazione (alcuni, ad esempio, danno voti compresi tra 2 e 10, mentre altri tra 4 e 8), o ancora al fatto che non c'è unanimità nel definire l'importanza degli obiettivi educativi e la loro gerarchia. Se la standardizzazione consente una valutazione oggettiva, bisogna tuttavia notare che conduce spesso ad un impoverimento del campo di osservazione: è facile da applicare alla valutazione delle prestazioni ma non è sempre un indice di pertinenza odi validità. La standardizzazione della situazione e delle consegne non riduce necessariamente il repertorio comportamentale dei soggetti. Se la situazione è debolmente strutturata e la condotta poco finalizzata, i soggetti sono spinti a produrre risposte diversificate. Succede questo, ad esempio, nei test detti di creatività in cui si richiede di immaginare tutti i possibili utilizzi di un oggetto come un mattone o una scatola. Ma, molto spesso, la standardizzazione è tale da consentire al soggetto di manifestare solo un numero limitato di comportamenti (risposte), e precisamente quelli che la valutazione prende in considerazione. Ma ritorniamo al test di Raven. La situazione è tale da richiedere essenzialmente di osservare la scelta di una delle Otto figure proposte. In effetti, sono possibili altre osservazioni: tra i fallimenti si possono distinguere gli errori dalle omissioni, ci si può domandare come si collocano i fallimenti sulla base del grado di difficoltà degli item, interrogarsi sulla natura degli errori, ecc. Ma ciò non toglie che la situazione è poco favorevole alla comparsa di comportarnenti. differenziati. In teoria, ogni fenomeno psichico che si manifesta attraverso un comportamento può essere l'oggetto di un'osservazione standardizzata. Questa osservazione può essere provocata e assumere delle forme complesse. Si sono così messe a punto delle procedure standardizzate dí indagine che consentono eventualmente di far emergere certi comportamenti che 28
testimoniano l'esistenza di strutture mentali o di particolari modalità di trattamento dell'informazione. Si trovano esempi di tale procedura in alcuni test costruiti partendo dalla teoria di Piaget (vedi cap. 3). Ma è particolarmente difficile osservare oggettivamente processi di pensiero che si caratterizzino per il loro aspetto qualitativo e la dimensione temporale piuttosto che per la semplice efficienza. Per questo, nella maggior parte dei test attualmente in uso, ci si limita a valutare la qualità della prestazione del soggetto contando il numero dí risposte corrette o misurando il tempo necessario all'esecuzione di un compito. L'oggettività così ottenuta è una qualità.ecessaria alla standardizzazione. In sua assenza non si sa più a sufficienza che cosa, nel comportamento del soggetto, è attribuibile al soggetto stesso o alle caratteristiche di colui che osserva, e di conseguenza le osservazioni raccolte sono poco utilizzabili per fini di ricerca o per fini pratici. Ma l'oggettività non è una qualità sufficiente. Occorre essere certi che l'osservazione riguardi aspetti centrali del comportamento. Occorre anche accertarsi che l'accordo tra gli osservatori non sia il risultato di un errore sistematico di osservazione che non condurrebbe ad altro che a conclusioni ambigue o anche scorrette. 2.2.
Livello di difficoltà degli /toni e unidimensionalità della sana
Il test deve consentire di differenziare gli individui, sia separandoli in classi differenti non ordinate, sia, quello che più spesso accade, collocandoli gli uni in relazione agli altri su un C0116171111171 (una dimensione). Noi ci interesseremo al caso in cui ci si propone di collocarli su un continuum. Al fine di differenziare sensibilmente gli individui, è opportuno avere a disposizione item di livelli diversi di difficoltà. L'itero è tanto più difficile, per i soggetti di un gruppo, quanto più la sua probabilità di essere superato in questo gruppo è debole. Gli item troppo facili (superati da quasi tutti) o troppo difficili (quasi tutti falliscono) non contribuiscono alla differenziazione degli individui. Ecco alcuni dati sul livello di difficoltà degli item del test di Raven: sono stati raccolti su un campione di più di un migliaio di adolescenti tedeschi di 15 anni, scolarizzati. Nella serie I, la percentuale di successo agli item varia dal 93% (item 29
n. 1) al 42% (item n. 11). L'item n. 10 (fig. 3) è stato superato 1111'82% dei soggetti. Nella serie IL queste percentuali variano dall'85 % (item n. 1) al 4% (item n. 36). Litem n. 19 (fig. 4) è stato superato dal 60% (lei soggetti. Per ogni serie, l'ordine di presentazione degli item è molto vicino al loro ordine di difficoltà. 11 punteggio grezzo dei soggetti al test deve consentire di collocarli su una dimensione. Nel caso del tesi delle matrici progressive, questa dimensione può essere chiamata «efficienza nel ragionamento induttivo» o «capacità di ragionare induttivamente». L'esistenza di questa dimensione deve essere definita e univoca. Non avrebbe alcun senso sommare gli item superati se ciascun item non valutasse in misura diversa la capacità di ragionare in modo induttivo. L'esistenza di una dimensione è fondata a sua volta su considerazioni teoriche e su criteri formali. Da un punto di vista teorico è sensato ritenere che tutti gli item del test di Raven mettono in gioco il ragionamento induttivo O, più esattamente, una certa formo di ragionamento induttivo. Da un punto di vista formale, ci si deve assicurare che il successo in un item sia strettamente associato al punteggio globale al quale deve contribuire. Se ciò succede per tutti gli item, si concluderà che la scala è unidimensionale. Si possono utilizzare diversi metodi per verificare questo unidímensionalità. Ne prenderemo in considerazione due: il calcolo dei coefficienti di correlazione item-test e la generazione di curve caratteristiche degli item. Li presenteremo riprendendo l'esempio del test di Raven. 2.3.
La correlazione item-test
Una volta che il test è stato applicato, ogni soggetto è caratterizzato da un punteggio per ogni item (1 o 0) e da un punteggio totale (al massimo 12 punti per la serie I e 36 per la serie II). Se un item richiede la stessa abilità dell'insieme degli altri item, il punteggio a quell'item dovrà essere in correlazione con quello del test. In altre parole, il successo nell'acni dovrà essere più frequente per quelli che hanno punteggi elevati al test. Il grafico di correlazione per un item della serie I è presentato nella tabella 1. Vediamo, per il test di Raven, le correlazioni item-test calcolate sul campione di adolescenti tedeschi. Per la serie I, i coefficienti di correlazione item-test variano da
30
AB.
Diagnnumd ch correlazione A latrici Progressive (serie I)
nunrewo di un item 09 e il punteggio delle Punteggio al test (.)c)
0 Punteggio all'iterar (r)
1
2
3
l 1
4
4
5 6
2
3 5
9
12
9
7
8
9 10 11 12
12 16 12 .5 4
1
3
n
2 60 • 40
li punteggio dell'iterar è 1 o C. 11 punteggio al test vada da C) a 12. Su 100 soggetti che hanno fano il test, 60 hanno saper s i l'itero e -(0 hanno fallito (colonna n). So 60 soggetti che hanno superato ritetn, 2 hanno ottenuto al test un punteggio di 4, 3 un punteggio di 5, ecc. Su 40 soggetti che non hanno superato l'itero, I Ira ottenuto 1111 punteggio di 2, 4 hanno ottenuto un punteggio di 3, ecc. Il coefficiente di CON relazione ira l'itero e il test (qui si unita di un coefficiente di correlazione biseriale) è di 0,85. Traduce il fatto che la maggior parte dei soggetti che hanno superato l'item hanno un punteggio elevalo (50 su 60 hanno più di 6) mentre la maggior patte di coloro clic hanno sbagliato all'item hanno un punteggio basso al, test (26 su 40 hanno areno di 6).
0,41 a 0,60 1 . Per la serie Il variano da 0,11 a 0,61. Si può notare che tutti i coefficienti di correlazione item-test sono positivi e che quelli deboli sono poco numerosi (su 36 coefficienti della serie 7 sono inferiori a 0,30). Per l'item n. 10 della serie I (fig. 3), la correlazione item-test è 0,51 e per l'item n. 19 della serie II (fig. 4) è di 0,43. Le distribuzioni di frequenza dei punteggi agli itero forniscono nello stesso tempo informazioni sul grado di difficoltà degli item e sulla loro relazione con il punteggio della scala. Per costruire queste curve si riporta il punteggio della scala in ascissa e, in ordinata, per ogni valore della scala, la percentuale di soggetti che hanno superato l'item. Nella figura 5 si possono vedere le curve corrispondenti ai 12 item della serie. .L'itero numero 10, ad esempio (rappresentato dalla curva numero 1.0), è stato superato da circa il 30% dei soggetti che hanno avuto al test un punteggio globale di 6 e da circa il 75% di coloro che hanno avuto un punteggio globale di 8. Le curve più soddisfacenti sono quelle per cui si può osservare una progressione regolare passando da punteggi della scala bassi a punteggi via via più alti. 'Esse mostrano che l'acni contribuisce alla differenziazione dei soggetti e che l'abilità valutata dall'i tem è prossima a quella valutata dall'intero test. Al momento della costruzione del test e della sua revisione del 1962, gli acni sono 31
3.1. I quantili
100 —
75 Percentuale di successo per 0 5 ogni item
25 —
O Pinteggio totale FIG. 5. Distribuzioni di frequenza dei 12 item della serie l delle Matrici Progressive.
stati selezionati sulla base dell'esame delle distribuzioni di frequenza dei punteggi. Ci sono altri modi per valutare l'unidimensionalità della scala: ad esempio, verificare che tutte le intercorrelazioni tra gli item siano forti o verificare che il superamento di un item di un certo livello di difficoltà implichi il superamento degli item di difficoltà inferiore.
3.
Scale di punteggio
Il punteggio grezzo al test dà un'indicazione della prestazione del soggetto, ma non consente di confrontare questa prestazione con quella dei soggetti di un gruppo di riferimento. Per questo scopo, i punteggi grezzi sono trasformati in scale di punteggio. Le scale di punteggio sono dei sistemi di categorie ordinate in cui è possibile distribuire tutti í soggetti di un gruppo di riferimento. Si distinguono due grandi categorie di scale di punteggio a seconda che si basino su categorie ordinate di punteggi grezzi (quantili) o corrispondano alla suddivisione secondo certe regole cli una distribuzione gaussiana o normale (distribuzione normalizzata). 32
i quantili sono i limiti tra due categorie. Si chiamano guarnii se la distribuzione dei punteggi è suddivisa in quattro categorie, decili se le categorie sono dieci. e centili se ci sono 100 categorie. Succede spesso che, essendo il vocabolario in quest'ambito piuttosto flessibile, con il termine quantile ci si riferisca alle categorie stesse. Dire quindi che un soggetto è nel terzo decile significa che quel soggetto si colloca in un gruppo a cui appartiene il 10% dei soggetti e tale che il 20% ha punteggi superiori ad esso e il 70% punteggi inferiori. La costruzione di questa scala è molto semplice: basta raggruppare i punteggi grezzi in modo tale da ottenere categorie numericamente omogenee. Si può anche stabilire un cern& calcolando direttamente la percentuale di soggetti che hanno ottenuto un certo punteggio grezzo o dei punteggi inferiori. Si può osservare nella tabella 2 l'esempio di una scala in centili della serie II. del test di Raven che era stato proposto senza vincoli temporali a studenti dell'Università di Berkeley.
TAB. 2 Divtrikinzione in ceratili della serie TI (1962) delle Matrici Progres5ive (Id'ella
superiore) applicata senza limiti di 'colpo a studenti di Berkeley (Callf) h int eggio gr ezzo 13 15 17 18 19 20 21 77
23 24 25
Percentile
3 4 6 7 il 14 18 24 29 37
Punteggio grezzo
Perenni ile
26 27 28 29 30 31
43 52 '57 65 71 81 86 89 93 98 100
32 33 34 35 36
L' l% degli studenti ha un punteggio grezzo minore o uguale a 13. 113 % degli studenti ha un punteggio grezzo minore o uguale a 15, ecc. Questa distribuzione consente di collocare un soggetto qualsiasi in rapporto agli studenti americani dell'Università di Berkeley Supponiamo che nn soggetto abbia ottenuto un punteggio di 25. 1:8%, degli studenti americani ha ottenuto questo punteggio (37-29), il 299 lin avum punteggi inferiori e il 6.30 (100-37) ponteggi superiori. Questo soggetto si situa quindi in prossimità dei due terzi della distribuzione degli studenti americani.
33
3.2. Le distribuzioni normalizzate
I livelli delle categorie di una scala normalizzata vengono definiti a partire dalle proprietà della distribuzione teorica di Gauss, detta anche distribuzione «normale». La curva che rappresenta questa distribuzione è simmetrica e a campana (fig. 6). Essa indica come si distribuiscono le categorie (riportate in ordinata) in funzione di una variabile (riportata in ascissa). Conoscendo la media e la deviazione standard' di una distribuzione gaussiana, si può calcolare la proporzione della popolazione che si colloca al di qua o al di là di un dato valore della variabile considerata, o tra due valori della variabile (il risultato di questi calcoli si può trovare in alcune tavole). Se si esprime il valore di una variabile in deviazioni standard dalla media, si sa che il 6,7% della popolazione si situa al di là di 1,5 deviazioni standard dalla media, e che il 24,2% della popolazione si situa tra 0,5 e 1,5 deviazioni standard, ecc. (fig. 6).
38,)% 24,2%
24,2%
6,7% -3/2
camerate la distribuzione di queste classi, attribuendo ad ognuna di esse uno stesso intervallo sull'asse delle ascisse, si ottiene un istogramma che si avvicina alla curva di Gauss (fig. 7).
38,2% 24,2%
6, 7 %
4
19(i. 7. lstogrannua corrispondente alla distribuzione di Causa.
Nella tabella 3 si può osservare un esempio di scala in 5 categorie normalizzate della serie II (versione del 1947) del test di Raven somministrato con un tempo massimo di quaranta minuti ad un campione francese con alto livello di scolarità. - La scelta di un tipo di scala è guidata da ragioni di comodità. Se si vogliono differenziare i soggetti con precisione, si sceglierà una scala composta di numerose categorie. General-
6,7 -1/2
1/2
3 '2
X
FIG. 6. La distribuzione teorica di (Muss.
delle Matrici Pro"1'AB. 3 1)isiribuzion e in 5 caicgorú.' norntalizszate della seriell (1047) grei-vive (livello superiore) applicata in 40 a 200 adulti tra 25e 40 anni, la/umili ue imdcrie vatentoiche e residenti nella regione th Parigi
Categorie normalizzate
Si può rappresentare la distribuzione dei punteggi grezzi osservata ad un test con una curva ottenuta collocando le categorie in ordinata e i punteggi grezzi in ascissa. Non è detto che tale curva sia identica alla curva teorica di Gauss. Ma si possono raggruppare i punteggi grezzi al fine di formare nuove classi la cui distribuzione sarà prossima a quella di Gauss (è il sistema di costruzione delle distribuzioni normalizzate, detta anche «normalizzazione»). Per costruire una distribuzione normalizzata in 5 classi, sí costituirà una prima classe con il 6,7% dei soggetti più efficienti, poi una seconda classe con il 24,2% dei soggetti che seguono, ecc. Se si rappresenta grafi34
24,2%
Punteggi grezzi 4 I e oltre
36.10 3
32-35
9
27-3 26 e meno
Circa il 6,7% dei soggetti 1 .1a un punteggio almeno uguale a 41. Circa il 24,2% dei soggetti ha un punteggio almeno uguale a 36 e interiore a 41. Circa il 38,2% dei soggetti ha un punteggio almeno uguale a 32 e inferiore a 36. Circa il 24,2% dei soggetti ha un punteggio almeno uguale a 27 e inferiore a 32. Circa il 6,7% dei soggetti ha un punteggio almeno uguale a 26. 1.1u qualsiasi soggetto che ha un punteggio grezzo di 39 può essere collocato in un gruppo di soggetti che comprende circa il 24,2% della popolazione, il 6,7% ha pura-. reggi superiori a questo gruppo c 6),1% punteggi inferiori,
35
mente, si considera più facile distinguere i soggetti alle estremità della distribuzione piuttosto che verso il suo centro dove essi sono prossimi alla media. Ciò induce a preferire aí quantili le distribuzioni normalizzate nelle quali le frequenze sono più numerose nelle classi centrali che in quelle estreme. A fini pratici, è sempre utile disporre di scale relative a diversi gruppi di riferimento. Le scale di punteggio consentono anche confronti intraindividuali. Se un soggetto si mostra migliore in una prova verbale piuttosto che in una prova di ragionamento, si può dire che la sua capacità verbale è superiore alla sua capacità di ragionamento. I confronti intraindividuali sono facilitati dalla costruzione di profili. Un esempio di profilo è presentato nella figura 8.
2 Test verbale
'l'est numerico
Test spaziale FIG. 8. Profilo psicologico di un soggetto a partire dai punteggi standardizzati (scala normalizzata in cinque categorie) ai tre test.
3.3. Il quoziente intellettivo
Esistono due definizioni di «quoziente intellettivo» (Q1). Questa espressione può riferirsi ad un indice di velocità di luppo intellettivo (QI-Stern) o ad una misura di efficienza calcolata rispetto alla media di un gruppo, ovvero una forma di punteggio ponderato (QI-Wechsler «di deviazione»). La prima definizione è quella originaria ed è stata presentata nel primo capitolo con la descrizione della scala di intelligenza messa a punto da Binet. La seconda definizione è decisamente la più utilizzata oggi. 36
Il QI di tipo Stern, di grande praticità, è il QI determinato dal rapporto tra l'età mentale e l'età cronologica; questo indice ebbe molto successo ma evidenziò presto due dei suoi limiti. Un primo limite viene dal fatto che l'indice è inadatto alla descrizione delle differenze tra gli adulti. Certamente lo sviluppo non si arresta dopo l'adolescenza, ma, a partire dall'adolescenza, cambia ritmo e, radicalmente, natura. Se sembra abbastanza naturale attribuire ad un bambino di 10 anni un'età mentale di 12 sarebbe piuttosto strano attribuire ad un adulto di 45 anni un'età mentale di 52. La nozione di età mentale e, di conseguenza, quella di QI, è adatta per il periodo di rapido sviluppo che va dall'infanzia all'inizio dell'adolescenza. Si è tentato di caratterizzare gli adulti per un QI-Stern (scegliendo arbitrariamente una stessa età cronologica per tutti gli adulti e facendo corrispondere, ancora in modo arbitrario, delle età mentali alle performance), ma questi tentativi sono rimasti poco convincenti e sono stati abbandonati. 11 secondo limite del QIStern è di altra natura. Per definizione la media dei Q1 è la stessa a tutte le età (e uguale a 100), ma ciò non vale per la loro dispersione. A certe età è più concentrata mentre ad altre è più distribuita, senza che questo abbia un significato particolare in termini di sviluppo. Questo fenomeno sí spiega per il fatto che ad ogni età gli itero sono diversamente rappresentativi dell'età stessa (un item è adeguatamente rappresentativo di un'età se il lasso di tempo che trascorre da quando è risolto da qualcuno a quando e risolto da quasi tutti è breve). Ne consegue quindi una certa ambiguità nel significato del QI se si confrontano soggetti di età diverse: secondo l'età, varia la proporzione di soggetti che superano un QI dato. Questi limiti hanno indotto numerosi autori, tra cui Wechsler verso la fine degli anni Trenta, a definire il Q1 in tutto un altro modo. QI di tipo Wechsler ha la proprietà di non essere un «quoziente». Sarebbe stato certamente preferibile trovare un altro nome a questo indice, ma quello di QI è stato mantenuto per la popolarità che tale sigla aveva ormai acquisito. Il QI-Wechsler è unicamente un indice di efficienza che consente di collocare il soggetto all'interno del suo gruppo di età, senza alcun riferimento allo sviluppo. Per stabilire questi QI si opera una trasformazione dei punteggi grezzi al fine di ottenere una nuova distribuzione dei punteggi, che si chiamerà dei QI, e che avrà la forma della distribuzione di Laplace-Gauss (normalizza37
zione), una media uguale a 100 e una deviazione standard di 15. Questa trasformazione dei punteggi grezzi è assolutamente legittima perché non modifica l'ordine dei soggetti. I valori 100 e 15 sono convenzionali e se ne possono scegliere altri (ma allora non si parla di QI)'. Conoscendo il QI di un soggetto si sa come egli si situa nel gruppo di riferimento. Dire che un soggetto ha un 01 di 100 significa che ha tanti soggetti avanti a lui quanti dietro, e niente altro. Dire che un soggetto ha un QI di 115 significa che ha circa il 16% dei soggetti del suo livello di età avanti_ a lui (16% è la percentuale della popolazione che si colloca oltre un punteggio eli «media + una deviazione standard» se la distribuzione è gaussiana). Con questo tipo di QI diventa possibile classificare anche gli adulti. Del resto, la dispersione dei QI individuali è, per costruzione, la stessa a tutte le età. Ma questo QI non è che una forma di classificazione tra tante ed è dunque possibile, e del resto eli solito lo si fa, esprimere in QI i risultati a qualsiasi test. Si può osservare nella tabella 4 uno schema di corrispondenza tra i Q1 e i percentili. Nel capitolo 4 affronteremo i dibattiti e le polemiche riguardanti il QI. Tali dibattiti sono infatti relativi al contenuto di alcuni test e all'interpretazione dei loro risultati, non alla classificazione scelta per descriverli. 7'Al3. 4. 1;11 ,, A1 i, COM pOndenZd lui
c ceni/li
(:ertili 130
2
125
5
120
9
115 110 105 100
25 37 50
95
63
90
-75
85 80
84 91
75
95
70
98
11 2`í, della popolazione ha un punteggio superiore al soggetto che ha un Q1 di 130.
.38
4. (71i errori di
Gli errori di misura possono essere dovuti o al momento particolare in cui si procede alla misurazione o al dispositivo stesso scelto per quest'ultima. 1.1. La stabilità o fedeltà
Quando si applica un test ad un gruppo di soggetti, ce n'è sempre qualcuno che non è troppo in forma (può essere malato, avere preoccupazioni che lo distraggono, ecc.) mentre altri sono ben concentrati sul compito. Se si fosse applicato il test in un altro momento, altri soggetti non sarebbero stati in forma e altri sarebbero stati ben disposti per svolgere il compito. Il punteggio cli un soggetto può così variare in modo imprevedibile nella misura in cui le cause di questa variazione non sono analizzate, in funzione del momento dell'osservazione. La misura è quindi intaccata da un errore aleatorio relativo a questo fattore temporale. Si dice che essa non è perfettamente fedele, o, più precisamente, che essa manca di perfetta stabilità o di costanza. Sarebbe certamente desiderabile poter disporre eli misure «senza errori». A questo scopo, si potrebbe pensare di applicare il test 1111 gran numero di volte allo stesso soggetto e di fare la media dei punteggi ottenuti. Gli «errori» che avvantaggiano il soggetto sarebbero così compensati da quelli che lo svantaggiano. Ma una tale procedura non è praticabile. Non solo sarebbe troppo costosa in termini di tempo, ma i soggetti dopo le prime prove apprenderebbero, più o meno rapidamente, a risolvere i problemi del test, e per molti questi problemi perderebbero presto interesse. Dunque i fenomeni di apprendimento e di demotivazione possono essere considerati come errori eli misura. Il test è quindi applicato una sola volta. Ma l'esaminatore dispone di informazioni sulla sua stabilità che gli permettono di accorciare una fiducia più o meno grande alla misura ottenuta. Per valutare la stabilità di un test, lo si applica in due riprese ad uno stesso gruppo di soggetti e si calcola un coefficiente cli correlazione tra le due serie di punteggi. Tale coefficiente è detto di fedeltà o eli stabilità. Se è elevato, ovvero se gli individui si collocano approssimativamente ad uno stesso livello nella prima come nella seconda somministrazione, la misura 39
verrà considerata stabile, minimamente influenzata dal momento di osservazione. In caso contrario, se íl coefficiente di correlazione è debole, la misura è poco stabile e non ci consente di classificare il soggetto in modo affidabile. La tabella 5 mostra una tavola di correlazione che corrisponde ad un coefficiente di fedeltà di 0,61. I coefficienti di fedeltà dei test di intelligenza, calcolati ad intervalli di diverse settimane o di diversi mesi, sono sempre elevati. Le Matrici :Progressive di Raven, applicate ad adolescenti o ad adulti, ha una stabilità di 0,90. Un tale coefficiente indica che i soggetti si collocano praticamente a livelli identici ad ognuna delle somministrazioni e dunque che l'errore attribuibile al momento dell'applicazione è irrilevante. TAB. 5. Tavola di correlazione Ira la prima e la seconda somministrazione di un lesi
Seconda Sommi.
Prima somministrazione 80-8,1
85-89
70-74
75-79
1
2
105-109
1
4
6
1(10-104
7
5
2
92-99
2
C)
90.94
2
5
60-64
65-69
90-94
95-99
120-124 115-119 110-114
85-89
3
80-84
2
I
2
4 1
85 soggetti hanno fatto un test in due momenti. Dei 3 soggetti che hanno ottenuto un punteggio compreso tra 60 e 64 alla prima somministrazione, uno ha ottenuto un punteggio compreso tra 85 e 89 alla seconda, un altro un punteggio compreso tra 90 e 94 e un terzo un punteggio compreso tra 95 e 99. Coloro clic hanno ottenuto un punteggio elevato alla prima somministrazione hanno tendenza a ottenere un punteggio elevato anche alla seconda. La correlazione è positiva e moderata (0,61). Si nota un effetto di apprendimento: il punteggio medio alla seconda è più elevato che alla prima.
4.2.
L'equivalenza e l'omogeneità
Gli errori di misura possono anche avere origine dalla scelta delle situazioni proposte ai soggetti. Questa scelta si orienta dapprima verso una data categoria cli situazioni, poi verso situazioni più specifiche. Per valutare l'abilità di ra40
gionamento induttivo, Raven ha scelto innanzitutto dei problemi con matrici da completare e poi ha dato loro una forma particolare. Questi due tipi di scelta non hanno lo stesso valore. La scelta di una categoria dí situazioni è in relazione con il grado di «generalità» della dimensione lungo la quale si ordinano i soggetti. Esiste una dimensione generale di ragionamento induttivo, ovvero una capacità che opererebbe non soltanto nei test di matrici, ma anche, ad esempio, nella ricerca di leggi di trasformazione in serie di lettere o di cifre, o su contenuti significativi? O, al contrario, bisogna distinguere dimensioni diverse, ad esempio, una che riguarda l'abilità di ragionamento induttivo con problemi di matrici, e l'altra che riguarda la capacità di ragionamento induttivo su serie di cifre? Riprenderemo questi quesiti nella discussione sulla validità teorica. Una volta scelta una categoria di situazioni, rimane da dare un contenuto ad ogni problema. La lista dei contenuti possibili è quasi infinita e la scelta di certuni invece di altri è sempre molto arbitraria. Problemi differenti da quelli scelti da Raven sarebbero apparentemente andati bene, anche se non è del tutto certo. Ci si deve quindi domandare in che misura il punteggio di un soggetto non è influenzato dal carattere specifico delle situazioni problema propostegli. Per valutare il peso di questi errori rispetto alla situazione, si possono costruire delle forme parallele dello stesso test, ovvero diversi test destinati a valutare la stessa abilità e relativi allo stesso tipo di situazioni, ma realizzati in modo diverso. Se si intende, ad esempio, valutare l'estensione del vocabolario in situazioni di produzione di definizioni, si possono costituire diverse liste di parole da definire, simili per alcuni aspetti (la frequenza d'uso, il carattere più o meno astratto, ecc.) ma diverse per altri. Il coefficiente di correlazione tra due forme parallele, o coefficiente di equivalenza, ci indicherà in che misura le osservazioni sono fedeli rispetto alla scelta delle situazioni. Un coefficiente elevato indica che i soggetti si classificano allo stesso modo ín ogni prova, e quindi che gli errori riferibili alla scelta della situazione sono trascurabili. Un coefficiente debole indicherà che la classificazione dei soggetti varia al variare del contenuto delle situazioni. Poiché questa variazione non è né prevedibile né spiegabile, il significato delle due prove è quindi ambiguo.
41
Quando si ha un test formato da una serie sufficientemente lunga di itera, le forme parallele possono essere ottenute separando gli itero pari da quelli dispari. Il coefficien t e di correlazione tra queste due metà del test, chiamato coefficiente di omogeneità, ha lo stesso significato del coefficiente di equivalenza. Si può osservare che il coefficiente di omogeneità caratterizza soltanto una metà del test e sottostima la fedeltà del test intero; inoltre prende in considerazione soltanto gli errori dovuti alla situazione mentre il coefficiente di equivalenza tiene conto anche degli errori dovuti al momento dell'osservazione , dato che non Iè possibile superare due test contemporaneamente. coefficienti di equivalenza e di omogeneità dei test di intelligenza sono generalmente elevati. Ad esempio, calcolati su gruppi di studenti di diversi paesi, i coefficienti della serie H delle Matrici Progressive Raven si collocano tra 0,71 e 0,83. Gli errori di misura possono anche derivare dalla soggettività degli osservatori. Abbiamo avuto modo di vedere all'inizio di questo capitolo che la funzione della st andardizzazione era precisamente di ridurre gli effetti di questa soggettività. Nei test quindi il peso delle fonti d'errore relative all'osservatore diventa molto debole, 5. La validità Qual è l'interesse pratico di un test e qual è il significato delle misure che esso consente di ottenere? Ponendosi queste domande ci si interroga sulla validità empirica e sulla validità teorica della prova. 5.1. La validità empirica
A fini pratici, i test sono utilizzati come strumenti diagnostici o prognostici e sono validi se contribuiscono effettivamente a diagnosi che si riveleranno esatte o a buoni pronostici. In quanto strumenti di diagnosi, essi possono favorire, ad esempio, una migliore c omprensione dell'origine di certe difficoltà scolastiche o di certi disturbi del c omportamento, e quindi dei rimedi più adeguati. Si dirà ad esempio che un test di tipo spaziale è valido se, essendo in correlazione con delle 42
difficoltà di 'apprendimento in matematica, esso permette di precisare l'origine di sottotipi di difficoltà, o 'ancora che un test di memoria è valido se consente di distinguere pazienti che soffrono di turbe della memoria di origine differente. Questa validità diagnostica si manifesta nel corso della pratica clinica e non è formalizzata, ma intrattiene comunque legami stretti con la validità teorica. In effetti, l'osservazione realizzata per mezzo di test ha più possibilità di essere utile se prende posto in un modello validato di funzionamento psicologico del soggetto. In quanto strumenti di prognosi, i test forniscono informazioni utili per promuovere azioni di prevenzione, di orientamento e eli formazione. La validità predittiva è ben formalizzata e può essere espressa sotto forma di coefficienti. Per giudicare la validità predittiva di un test ' è necessario uno studio preliminare. Il test viene applicato ad un gruppo di soggetti e, qualche mese o qualche anno più tardi, si va ad Osservare la posizione (lei soggetti rispetto alla variabile considerata a scopo prognostico (questa variabile si chiama criterio; può trattarsi, ad esempio, del successo nell'istruzione o dell'adattamento ad una professione). Si predispongono quindi per gli stessi soggetti due serie (li osservazioni di cui si misura il grado di associazione con il calcolo del coefficiente di correlazione che è il coefficiente di validità predittiva del test per il criterio considerato (e per i soggetti esaminati). Un coefficiente elevato indica che era possibile una buona previsione. Si potrà allora utilizzare questa informazione per fare dei pronostici veritieri. Si prediranno dei punteggi elevati al criterio per coloro che hanno ottenuto punteggi elevati al test (predittore). Procedendo così, si ammette che i fattori che hanno spiegato la riuscita al criterio nel passato continueranno a spiegarla nel futuro, il che suppone una stabilità abbastanza buona dell'ambiente o, nel caso in cui questa non sia assicurata, una revisione frequente della validità. Se il coefficiente di correlazione tra il test e il criterio è debole, si potranno fare solamente pronostici imprecisi, nel qual caso è più opportuno astenersi completamente dal fare previsioni sui soggetti. L'esame del diagramma di correlazione permette di precisare i valori pronosticati dal criterio e l'importanza dell'errore di pronostico. Per un dato valore del predittore si prevede, per i soggetti che hanno ottenuto tale valore, la media dei punteggi 43
al criterio. Lo scarto medio tra questo punteggio medio e i punteggi effettivamente osservati è una misura della precisione del pronostico (vedi tab. 6). TAB. 6. Tavola di correlazione Ira test e criterio
Punteggi al criterio
Punteggi al test 0-2
3-5
6-8
9-11
12-11
15-1.7
18-20
21-23
1
2
4
7 5
2
l
li
10
l
9
1
8 3
7 6
I
5
2
4
4
I
5
2
1
9
5
4
2
2
2
2
1
2
2
1
1
2
1
3
1
2
3
3
2
2
1
2
2
6
1
4 2
3
113 soggetti sono caratterizzati dal loro punteggio al test e dal loro punteggio al criterio, ad esempio il voto ad un esame. (Di 6 soggetti che hanno avuto un pun teggio conipreso tra 0 e 2 al test, 3 hanno avuto un punteggio di 2 al criterio, 1 un punteggio di 3 e 2 un punteggio di 4.) La correlazione tra il test e il criterio è di 0,65. Quale voto, ad esempio, si può predire al criterio per i 25 soggetti che hanno un punteggio compreso tra 12 e 14 al test? Si porrebbe predire il voto ottenuto pii) frequentemente nel corso degli studi in questione (qui il voto 5 ottenuto da 9 soggetti). Si mostra clic, in generale, con distribuzioni dei voti al criterio, per un voto dato al predittore, la predizione della media di queste distribuzioni è quella che minimizza gli errori di pronostico. Nell'esempio scelto è così il voto 5. Pcr misurare l'importanza dell'errore di previsione, si può calcolare lo scarto medio tra il punteggio pronosticato e il punteggio ottenuto nel corso degli studi. Nell'esempio scelto lo scarto medio è diI,1 pomi.
Citiamo a titolo esemplificativo i lavori in cui ci si propone di prevedere la riuscita scolastica degli adolescenti a partire dalle Matrici Progressive di Raven (livello superiore). T coefficienti di validità prognostica sono dell'ordine di 0,40 per la conoscenza della lingua e di 0,60 per la riuscita nelle discipline scientifiche. Succede frequentemente che si proceda nello stesso momento sia alla misura del predittore che a quella del criterio. Si parla allora di validità concorrente. L'interesse principale della validità concorrente è d'indicare in quale misura è possibile rimpiazzare una procedura d'osservazione costosa con una procedura che lo è meno, generalmente un test. Se, ad esem44
pio, c'è una forte correlazione tra il livello di lettura valutato da insegnanti durante corsi preparatori (criterio) e i punteggi ad un test di lettura (predittore), si potrà sostituire il giudizio delle insegnanti con l'applicazione del test. Se si hanno buone ragioni di pensare che le differenze tra gli individui osservate sul predittore sono antecedenti a quelle osservate sul criterio, si può ritenere che la validità concorrente fornisce informazioni equivalenti a quelle della validità prognostica. Si può trovare un esempio di validità concorrente nella tabella 7 (in questo caso, la validità empirica non è espressa da un coefficiente di correlazione, tuttavia i dati indicano una correlazione tra i punteggi al test e il corso di studi intrapreso). A13.7 . Punteggi medi alla serie H (1962) del test di Rauco riguardante 745 studenti australiani accedenti alle diverse facoltà universitarie Lettere
5.2.
21,9
Scienze
25,1
Ingegneria Giurisprudenza
25,6 20,8
Medicina
24,1
Odontoiatria
22,1
Agraria Economia e commercio
24,1 22,3
La validità teorica
Un test ha una validità teorica tanto più soddisfacente quanto più si conosce ciò che il test sta misurando, ovvero tanto più le osservazioni realizzate con quel test possono essere interpretate in modo coerente e senza venire smentite da dati sperimentali o d'osservazione. La validità teorica dei test di intelligenza può essere definita in una prospettiva strutti H rale e in una prospettiva funzionale. Nella prima, ci si domanderà come si situa il test rispetto alle teorie dell'organizzazione delle capacità cognitive, ossia in relazione alle grandi dimensioni dell'efficienza cognitiva che permettono di differenziare gli individui. Nella seconda, ci si domanderà come si colloca il test in rapporto ai parametri dei modelli di funzionamento cognitivo, o, in altri termini, ci si interrogherà sulle parentele tra le operazioni mentali sollecitate dagli itera del 45
test e quelle descritte dai modelli di funzionamento del soggetto. Illustriamo queste nozioni riprendendo la prova delle matrici progressive. Abbiamo già fatto riferimento nel primo capitolo alla teoria dell'organizzazione delle differenze individuali nell'ambito verbo-concettuale di Horn e Cattell 11966; cfr. L'ideati 19901. Questa teoria individua alcune grandi abilità o «fattori»: l'intelligenza cristallizzata, data dalle conoscenze di cui dispongono i soggetti e dalla loro organizzazione (si manifesta particolarmente con la comprensione verbale); l'intelligenza fluida, che è la capacità di mettere in atto i meccanismi di base del ragionamento in situazioni in cui le conoscenze di base sono poco importanti; la visualizzazione, che è la capacità di rappresentarsi e di trasformare visivamen t e gli oggetti; la creatività o capacità di produrre associazioni di parole o idee originali; e, infine, una capacità a reagire velocemente (velocità di reazione). Queste differenti abilità non sono poi completamente indipendenti, poiché, a partire dalle loro intercorrelazioni, è possibile definire una capacità cognitiva generale (o un fattore generale) vicino all'intelligenza fluida. Quando Raven ha messo a punto il suo test, voleva espressamente costruire una prova di capacità generale e, come Spearman, pensava che il miglior mezzo per raggiungere questo obiettivo fosse di scegliere delle situazioni che consentissero di distinguere gli individui sulla base della loro abilità a scoprire e applicare delle relazioni (cioè, utilizzando un vocabolario successivo alla costruzione del test, sulla base della loro intelligenza fluida). Ci si deve allora domandare se le Matrici Progressive siano appunto un test di capacità generale e di intelligenza fluida. Dato che i soggetti si classificano praticamente allo stesso modo al test di Raven e all'insieme dei test di intelligenza fortemente saturati dal fattore generale, si può rispondere affermativamente a questa domanda. Per giudicare la validità teorica al test di Raven in una prospettiva funzionale, ci si deve riferire alle teorie sul ragionamento induttivo. Consideriamo la teoria proposta da Sternberg 11977; Sternberg e Gardner 1982; cfr. Huteau 1985; 1995; Lautrey 19951 Questa teoria scompone il ragionamento induttivo in una sequenza di operazioni intellettive o di componenti elementari che si articolano all'interno di componenti cli livello gerarchico superordinato o « metacomponenti». Tra 46
le componenti elementari troviamo la costruzione di una rappresentazione analitica degli elementi di una situazione (codifica), la definizione di relazioni tra gli elementi (inferenza), la generalizzazione di queste relazioni (analogia) e la loro utilizzazione per generare nuovi elementi (applicazione). Nell'item delle Matrici Progressive riportato nella figura 4, ad esempio, la componente di codifica è l'operazione con cui i diversi attributi delle figure vengono identificati e fissati in memoria (grande quadrato, piccolo quadrato, croce, cerchio...). La componente di inferenza è l'operazione con cui la regola di trasformazione delle figure viene scoperta confrontando tra loro gli attributi di ognuna; nella prima colonna questa operazione di confronto porta a scoprire che la terza figura si ottiene sommando la croce della seconda nel piccolo quadrato della prima; nella seconda colonna l'inferenza consente di cogliere che la terza figura è ottenuta aggiungendo il cerchio della seconda alla croce della prima. La componente di analogia è quella che viene messa in gioco nel confronto tra la trasformazione della prima colonna e quella della seconda; essa porta ad astrarre le caratteristiche comuni alle due regole e a comprendere che le prime due figure si sommano per generare la terza. L'applicazione è l'operazione con la quale la regola che è stata astratta con l'inferenza e l'analogia viene applicata alla terza colonna per scoprire la figura mancante. Qui, la somma delle prime due figure porta ad anticipare la figura mancante aggiungendo la croce con il piccolo cerchio della seconda figura nel piccolo quadrato della prima (senza che la croce appaia nel quadrato grande). L'ultima operazione, la scelta della risposta, consiste nel cercare, tra le differenti figure proposte al di sotto dell'item, quella che corrisponde alla risposta già anticipata. Le metacomponenti sono le operazioni con le quali queste differenti componenti elementari sono ordinate e controllate. Una di queste metacomponenti, ad esempio, ha la funzione di modificare la distribuzione delle risorse cognitive (attenzione, tempo) tra le diverse componenti elementari in funzione degli ostacoli incontrati. Una strategia, ad esempio, può essere quella di passare all'inferenza non appena viene individuata una differenza tra le figure della prima colonna; un'altra potrebbe essere di dedicare più tempo e risorse ad una codifica esaustiva prima di passare all'inferenza. La messa in atto efficace di queste componenti elementari e me47
tacomponenti suppone, fin dall'inizio del ragionamento e nel corso del suo svolgimento, una strategia analitica che consente di dissociare i differenti elementi da codificare, Essa richiede anche particolare attenzione all'elaborazione di una rappresentazione adeguata della situazione poiché è su tale rappresentazione che opereranno l'inferenza, l'analogia e l'applicazione. Questa descrizione del ragionamento induttivo si applica abbastanza bene agli item del test di Raven nel momento in cui diventano difficili e non possono essere risolti intuitivamente. Si può accertare l'esistenza di questo cambiamento osservando, specialmente in situazioni normali, i processi messi in atto dal soggetto. Sí noti che ci sono due aspetti della validità teorica di un test: la qualità del suo rapporto o della sua integrazione con una teoria e la validità di tale teoria. Piuttosto che verificare se una teoria valida rende conto delle procedure di soluzione attivate per rispondere agli item di un test, si può seguire una direzione in qualche modo inversa: analizzare le procedure di risoluzione degli item di un test, e poi mostrare che sono abbastanza generali. Questo metodo è stato applicato alle Matrici Progressive di Raven da Carpenter, Just e Shell 11.990] ed ha fornito loro risultati completamente compatibili con il modello che verrà descritto qui di seguito. Questi autori, secondo una metodologia classica in psicologia cognitiva, mettono in evidenza le procedure di soluzione degli item a partire dai commenti dei soggetti nel corso dello svolgimento della prova (protocolli verbali), dalle registrazioni dei movimenti oculari e dalla frequenza e natura degli errori.. dati raccolti mostrano che i soggetti scompongono ogni problema in una serie di microproblemi che vengono risolti in successione. Quando l'item richiede l'applicazione di numerose regole, anch'esse sono scoperte in successione, sulla base di numerosi confronti tra gli elementi della matrice. Il successo ad un item implica quindi il superamento dí tutta una serie di piccoli problemi più elementari e l'integrazione progressiva delle soluzioni. Carpemer e collaboratori mostrano che le differenze tra soggetti molto efficienti e soggetti mediamente efficienti derivano da differenze nella capacità di definire dei sotto-obiettivi, di conservare nella memoria di lavoro e integrare le informazioni ottenute nel corso della sequenza 48
di soluzione. A partire dai principi di soluzione messi ín evidenza da queste analisi, gli autori hanno elaborato un programma informatico che simula in modo soddisfacente i comportamenti osservati nei soggetti reali. Ad esempio, l'ordine di complessità degli item, così come è definito dalla simulazione, coincide con l'ordine di difficoltà determinato dalle frequenze dí successo degli item reali. Essi mostrano inoltre clic quest'analisi dei processi di soluzione si applica a tutta una classe di processi di ragionamento. In sintesi, un test è una situazione di valutazione codificata. Innanzitutto, questa situazione è standardizzata per migliorare l'oggettività dell'osservazione effettuata: le risposte e in generale i comportamenti dei soggetti non potranno essere adeguatamente confrontati, a meno che non vengano ottenuti in situazioni il più possibile somiglianti e la loro valutazione sia la stessa indipendentemente dall'osservatore. Questa situazione di valutazione è classificata anche in modo da collocare il soggetto osservato all'interno della popolazione dí riferimento a cui appartiene. L'affidabilità della valutazione effettuata può essere espressa con differenti coefficienti di fedeltà. Infine, indagini sulla validità sono state condotte per appurare che si valuti proprio ciò che il test intende valutare. Queste proprietà dei test sono state presentate riguardo ai test di intelligenza, ma esse caratterizzano anche i test di personalità (sia che sí tratti dí autodescrizioni o di osservazioni del comportamento), i test sulle abilità scolastiche e i test di attitudine professionale.
NOTE, AI, CANTOLO SECONDO
' La correlazione è il grado di dipendenza tra due variabili. coefficienti di correlazione variano da +1 a --1. Un coefficiente di +I esprime una relazione diretta perfetta tra le due variabili. In questo esempio indicherà che tutti i soggetti che hanno superato l'item sono anche quelli che hanno il miglior punteggio alla prova. Un coefficiente di –1 esprime una relazione inversa (i soggetti che hanno superato l'item sono quelli che hanno i punteggi più bassi alla prova). Un coefficiente nullo traduce l'assenza di relazione tra le due variabili. Coefficienti come quelli indicati, da 0,40 a 0,60, corrispondono ad una relazione diretta di forza moderata. = La deviazione standard esprime la dispersione dei punteggi attorno alla media della distribuzione. Corrisponde -allo scarto medio dei punteggi dei soggetti dalla media.
49
' Questi valori sono convenzionali, ma mini sono scelti del tutto u caso: 100 è per definizione il QI medio di un gruppo di età quando il Q1 è definito dal quoziente dell'età mentale e dell'età cronologica, e 15 è approssimativamente il valore osservato dalle deviazioni standard delle scale di QIStem (con le fluttuazioni di cui si è discusso in precedenza). Scegliendo questi valori piuttosto che altri ci si assicura una certa corrispondenza tra il Q1 individuato con una scala di tipo Wechsler e il QI rilevato con una scala di tipo Stern. lì per questo motivo, del resto criticabile, che si utilizza íl termine QI per indicare il punteggio standard totale ottenuto con una scala di tipo Wechsler.
(AMIDI TERZO
LE, GRANDI CATEGORIE DEI TEST DI INTELLIGENZA
Esistono numerosi test di intelligenza e sarebbe noioso farne una lista. Introdurremo invece 'alcuni criteri a partire dai quali è possibile distinguerli. Un test rappresentativo di ognuna delle principali categorie sarà poi presentato dettagliatamente in modo da poter capire in che cosa consiste, come è stato costruito e che cosa si propone di misurare.
I diversi tipi di test di intelligenza A partire dalle loro condizioni di somministrazione, si possono distinguere test collettivi e test a somminístrazione individuale. Nei test di gruppo, di cui le Matrici Progressive di Raven sono un esempio, i problemi sono presentati in forma scritta e il soggetto deve spesso scegliere una risposta tra numerose proposte. La somministrazione è semplice e le possibilità di osservazione del comportamento limitate. Nei test individuali la somministrazione è più complessa. Lo psicologo deve spesso dare delle consegne durante tutto il test, controllare che siano comprese interamente, misurare dei tempi, rilevare dei successi o dei parziali fallimenti, ecc. I test individuali sono anche delle situazioni più ricche rispetto ai test di gruppo per quanto riguarda le opportunità di osservazione, e lo psicologo può attingere informazioni che non sono computate nella valutazione della prestazione al test. Dal punto di vista del contenuto delle prove, si distinguono tradizionalmente i test verbali, che richiedono la comprensione del linguaggio, e i test non verbali, nei quali il ruolo del linguaggio è minimizzato, sia nelle consegne sia nella produzione della risposta. Un test come le Matrici Progressive di Raven è un test non verbale (il che non significa che il successo in questo test sia indipendente dalle abilità verbali). Tra 50
51
i test non verbali, quelli detti «di performance» S0130 quelli nei quali il soggetto deve manipolare materiale concreto. Si possono anche distinguere i test a seconda che l'intelligenza valutata sia concepita come una capacità globale (ad esempio il Binet-Simon) o come un insieme di capacità che devono essere considerate separatamente (ad esempio, i test fattoriali). Nel primo caso, il test è costituito in modo tale che la capacità globale, definita nella teoria di riferimento, si manifesti in tutte le situazioni proposte per valutarla. Ma queste situazioni non hanno in se stesse un interesse particolare, non sono che dei pretesti per la manifestazione della capacità globale. Questa sarà stimata sommando le performance nelle diverse situazioni. Si otterrà così un punteggio globale che potrà avere la forma semplice dí un punteggio ponderato, o la forma più complessa di un QI, o ancora la forma di uno stadio di sviluppo. Nel secondo caso, quando la prospettiva è analitica, si definiscono delle categorie di situazioni sempre in riferimento ad una teoria, nelle quali collocare ogni abilità. Le performance non sono sommate che all'interno di ogni classe. I risultati sí presentano allora sotto forma di un profilo di abilità. Di fatto l'opposizione tra le concezioni globali e le concezioni analitiche è meno marcata di quanto non sembri, per lo meno fino a che si rimane nel campo dell'intelligenza verbo-concettuale. Nel quadro di una valutazione che si vuole globale, si può sempre procedere a delle valutazioni più analitiche (le vedremo con la scala Wechsler). Nel quadro di una valutazione analitica, si può sempre, dato che esistono correlazioni positive tra le singole abilità, calcolare un punteggio che distingua gli individui sulla base di ciò che c'è di comune tra tutte queste abilità (lo vedremo in seguito con i test fattoriali). 2. Le scale di intelligenza: l'esempio della WAIS Le «scale» rientrano nella categoria dei test basati su una concezione globale di intelligenza. Questa concezione sarà illustrata sull'esempio dell'adattamento italiano della Wechsler Adult Intelligence Scale (WAIS) che, come indica il nome, è una scala di intelligenza concepita per l'esame degli adulti. 52
2.1..I principi generali di costruzione La WAIS è stata messa a punto nella sua prima versione da David Wechsler nel 1939. Wechsler era psicologo e lavorava ín un ospedale psichiatrico di New York; si trovava a dover valutare le capacità intellettive dei suoi pazienti adulti. La StanfordBinet, il test individuale di intelligenza più utilizzato a quei tempi negli Stati Uniti, gli sembrava poco adatta all'esame di pazienti adulti per numerose ragioni. Innanzitutto, gli item erano stati concepiti per essere familiari a dei bambini ed alcuni di essi provocavano per questa ragione un certo disagio negli adulti, a cui venivano proposti. Inoltre, Wechsler trovava che la Stanford-Binet valutasse le capacità intellettive essenzialmente attraverso le verbalizzazioni dei soggetti, il linguaggio. Gli sembrava opportuno equilibrare gli item che facevano appello al linguaggio con item detti «di performance», per i quali cioè la capacità di risolvere problemi potesse essere valutata attraverso la manipolazione di materiale concreto, senza che il soggetto dovesse usare il linguaggio per dare la sua risposta. Infine, esprimere il risultato sotto forma di un quoziente di rapporto tra l'età mentale e l'età cronologica non aveva alcun senso nel caso degli adulti. La messa a punto della WAIS, prima scala di intelligenza adatta all'esame degli adulti, mirava a risolvere questi problemi. La concezione di intelligenza che ha ispirato Wechsler era molto vicina a quella di Binet: essa non si basava su una vera teoria dell'intelligenza, ma piuttosto su un approccio molto pragmatico. Wechsler pensava, come Binet, che la valutazione dovesse riguardare processi complessi, come la memoria, l'attenzione e il ragionamento, integrando un certo numero di abilità più elementari. Egli considerava appunto l'intelligenza come una capacità di adattamento piuttosto globale, osservabile più nel modo in cui le diverse funzioni cognitive sono coordinate che nell'efficienza di tale o talaltra funzione elementare. Egli era dunque sostenitore, come Binet, del campionamento di varie situazioni per comporre la scala, con l'idea che l'intelligenza venga valutata come risultante globale dell'efficienza in questo insieme di subtest, piuttosto che per l'uno o l'altro dei successi puntuali. Per rendere la scala più adatta a degli adulti Wechsler controllato che il contenuto degli item fosse vicino a situazioni loro familiari. Per ridurre il peso del linguaggio, egli ha diviso 53
la scala in due sottoscale di uguale importanza, l'una verbale e l'altra di performance, in modo tale che si potesse calcolare un QI verbale ed un QI di performance. Questa decisione relativizza la concezione globale dell'intelligenza che ispirava Wechsler, poiché ammette che si possa trovare un QI piuttosto differente a seconda che lo si valuti in situazioni verbali o in situazioni non verbali. E, d'altronde, una delle proprietà di questa scala quella di mettere in evidenza discrepanze del genere. Il problema relativo all'inadeguatezza della nozione di età mentale era anch'esso delicato e difficile da risolvere. Nelle scale di intelligenza, le performance aumentano in effetti con l'età fin verso i 16-20 anni, a seconda delle scale o delle prove, ma non si evolvono oltre, salvo con l'invecchiamento, per cui si osserva un declino in certe prove. Nel corso della loro vita gli adulti continuano certamente ad acquisire esperienza e ad accumulare conoscenze, specialmente nel loro ambito professionale. Ma come abbiamo sottolineato a proposito del test di Binet-Simon, i test di intelligenza fanno il minor riferimento possibile alle conoscenze scolastiche o professionali. 11 loro obiettivo non è di valutare il livello dí istruzione o la competenza sviluppata in uno specifico settore, ma l'abilità di risolvere problemi, di apprendere, di adattarsi a situazioni nuove. Questa capacita cresce in funzione dell'età fin verso l'adolescenza, ma non oltre. Cíò non impedisce che una volta raggiunta l'età adulta, si riscontrino significative differenze individuali nel livello raggiunto in queste scale di intelligenza. La nozione di età mentale è dunque inutilizzabile con gli adulti. Abbiamo visto nel capitolo 2, a proposito delle distribuzioni di punteggio, che Wechsler ha risolto il problema caratterizzando i soggetti per la loro posizione all'interno della distribuzione dei punteggi del loro gruppo di età. Trasformando i punteggi dí ogni gruppo di età in modo tale che ci sia una media di 100 e una deviazione standard di 15, è stata loro attribuita una distribuzione confrontabile a quella di un Ql. Nel momento in cui non rappresenta più il quoziente di rapporto tra l'età mentale e l'età cronologica, il QI della WAIS non è più un indice di velocità di sviluppo, ma un indicatore del rango che occupa il punteggio ottenuto tra quelli della popolazione di riferimento. 54
2.2. Presentazione della scala La scala messa a punto da Wechsler è stata adattata e rivista diverse volte negli Stati Uniti. Essa è stata anche tradotta e adattata per la popolazione italiana. Quella presentata qui di seguito è la versione rivista (WAIS-R), nel suo adattamento italiano [Wechsler 19971. La WAIS-R si compone di undici subtest, sei per la parte verbale e cinque per la scala di performance. Farà seguito una breve descrizione di ognuno degli undici subtest con un esempio di itero simile a quelli del test vero e proprio'. • La scala verbale – Informazioni: 29 domande di cultura generale, molto varie, che un adulto ha in teoria avuto l'opportunità di acquisire nella nostra cultura; ad esempio: «Dove si trova il Messico?». Memoria di cifre: come nel test di Binet-Simon, il soggetto deve ripetere esattamente la serie di cifre elencata dallo sperimentatore. Queste serie vanno da tre a nove cifre da ripetere nello stesso ordine in cui sono state presentate e da tre a otto cifre da ripetere nell'ordine inverso. Vocabolario: 35 parole di difficoltà crescente sono presentate contemporaneamente a voce e per scritto, domandandone il significato; ad esempio: «incenerire». – Arihneika: 14 piccoli problemi sono proposti oralmente e devono essere risolti senza l'ausilio di carta e penna; ad esempio: «Se avete 4.800 lire e ne spendete 1.350, quante ve ne rimangono?». – Comprensione: la prova propone 16 domande in cui si richiede al soggetto di spiegare delle osservazioni della vita quotidiana, dei proverbi; ad esempio: «Che cosa significa il proverbio: non c'è fumo senza arrosto?». – Somiglianze: 14 quesiti che richiedono di individuare in che cosa due elementi si assomigliano; ad esempio: «Mela-susina». Questa prova valuta la capacità di formare dei concetti astratti a partire dall'analisi delle somiglianze e delle differenze tra due oggetti. nuance • La scala di performance – Completantento di figure: 20 immagini che il soggetto deve esaminare attentamente per trovare la parte mancante. 55
– Riordinamento di storie figurate: 10 iter") dí difficoltà crescente che propongono ognuno una serie di immagini in disordine. Compito del soggetto è di ordinarli in modo tale che raccontino una storia. La figura 9 presenta un item di esempio. – Cubi: 9 figure geometriche composte di parti rosse e bianche sono presentate una dopo l'altra. Compito del soggetto è di ricostruire ognuna delle figure presentate con l'aiuto di 9 cubi colorati, di rosso su due facce, di bianco su due facce e di rosso/bianco sulle altre due facce. — Ricostruzione di oggetti: pezzetti di cartone vengono presentati ín disordine e il soggetto deve assemblarli in modo che formino l'immagine di un oggetto familiare. La prova comporta quattro item di questo tipo. – Cifrarlo: si presenta al soggetto un foglio dove righe in cui si succedono serie di cifre sono appaiate a righe in cui ad ogni cifra corrisponde un quadretto bianco. Al soggetto viene richiesto dí riempire ogni quadretto bianco con il simbolo che secondo il codice riportato in alto nella pagina corrisponde a quella cifra (il codice può ad esempio indicare sotto 1 il segno ^, sotto 2 il segno +, e così via). li soggetto ha un minuto e mezzo per, completare il maggior numero di casi possibili, mettendo sotto ogni cifra il simbolo appropriato. Nei cinque subtest della scala di performance appena descritti il punteggio finale tiene conto sia dei tempi di esecuzione sia dell'accuratezza della risposta.
o o
2.3.
Le qualità metriche della 1FAIS-R
L'adattamento della scala alla popolazione italiana ha richiesto nón solo la traduzione del manuale, ma anche l'individuazione, nei subtest più dipendenti dalla cultura, degli item equivalenti. Alcune delle domande del subtest di informazioni della versione americana, ad esempio, non sono adatte alla cultura italiana e sono state sostituite. Inoltre, è stato necessario standardizzare la scala per la popolazione italiana. L'ultima standardizzazione della versione italiana della WAIS-R è stata fatta su un campione di 11.630 soggetti adulti rappresentativi della popolazione italiana, suddivisi in 6 gruppi di età da 16 a 64 anni, ogni gruppo composto per metà di maschi e per metà di femmine. Questa standardíz56
o oo
.9
'e*
(.5
nazione fornisce il gruppo di riferimento all'interno del quale va situata la performance del soggetto esaminato. • Attendibili/à. I coefficienti di attendibilità per l'adattamento. italiano sono stati calcolati con il metodo split-half, ottenuto calcolando le correlazioni tra le due metà del test composte dagli item pari e da quelli dispari (vedi cap. 2). Solo per i subtest Memoria di cifre e Cifrario le attendibilità sono state calcolate con il metodo test-retest, ad una distanza di tempo tra le due somministrazioni variabile da 5 a 15 giorni. I coefficienti di attendibilità sono stati calcolati per ogni singolo subtest, per ogni gruppo di età, per il QI performance, il QI verbale e il QI totale. Le attendibilità medie di questo campione variarlo da 0,76 della Ricostruzione di oggetti a 0,95 del Vocabolario. Le attendibilità medie dei subtest americani variano da 0,68 della Ricostruzione di oggetti a 0,96 del Vocabolario. Ciò significa che, formando una metà della scala con gli item pari e un'altra metà con gli item dispari, í soggetti del campione sono classificati approssimativamente allo stesso modo con le due metà del test così costruite e ottengono un QI abbastanza simile (una corrispondenza perfetta corrisponderebbe ad un coefficiente pari a 1). • tidità . Poiché l'ultimo adattamento italiano della WAIS-R è molto recente [1997] non si dispone ancora di dati relativi alla sua validità. Le indicazioni sulla validità della WAIS-R riportate qui sono per la maggior parte ricavate dalla versione americana. Uno dei modi per validare un nuovo test eli intelligenza è quello di verificare che le misure ottenute con il test correlino con quelle che si ottengono proponendo agli stessi soggetti un test d'intelligenza validato. Proponendo la WAIS-R e lo Stanford-Binet a degli adolescenti, si è ottenuta una correlazione eli 0,80 tra i QI delle due prove. Allo stesso modo è stata osservata una correlazione di 0,70 tra il QI calcolato sulla scala di performance e il QI delle matrici progressive presentate nel capitolo 2. Si può quindi ritenere che la WAIS-R misuri approssimativamente la stessa cosa delle altre prove di intelligenza, benché sia intuibile la circolarità di questa forma di validazione. Un'altra forma di validazione empirica (cfr. cap. 2) consiste nel definire un criterio di intelligenza e verificare che esista
58
una correlazione tra il punteggio ottenuto al test e questo criterio. IL in questo modo che si sono ottenute correlazioni di 0,40 e 0,50 tra il QI della WAIS-R e il successo scolastico, in studenti di liceo, di università o di politecnici. Ma ci si può comunque domandare se il successo scolastico sia un buon criterio di intelligenza. A rigore, si può soltanto concludere che la WAIS-R valuta degli aspetti di intelligenza utili per riuscire negli studi. Nella ricerca sul ritardo mentale, il QI ottenuto alla WAIS-R si è rivelato un buon predittore della rapidità con la quale i soggetti potrebbero concludere gli studi e del loro successivo inserimento nel mondo del lavoro. La validazione teorica consiste nel verificare se i risultati del test corrispondano alle predizioni fatte sulla base della teoria che ha ispirato la sua costruzione. Abbiamo già osservato che Wechsler non aveva una vera e propria teoria dell'intelligenza nel momento in cui mise a punto questa scala, il che limita effettivamente le possibilità di validazione teorica. Egli riteneva che i differenti subtest mettessero in evidenza una stessa capacità globale. Se quest'idea è corretta, si dovrebbero ottenere buone correlazioni tra le scale e l'analisi fattoriale di queste correlazioni dovrebbe consentire di estrarre un fattore generale di successo. Le analisi fattoriali della WAIS-R hanno chiaramente mostrato l'esistenza del fattore generale atteso, che spiega circa il 50% della varianza totale. Esse hanno anche mostrato che una volta estratta la varianza di questo fattore generale, di gran lunga il più importante, si ottenevano tre fattori. Il primo raggruppa i subtest di informazioni, di comprensione, eli vocabolario e di somiglianze; ciò significa che queste quattro prove hanno più delle altre la tendenza ad essere superate insieme. Questo primo fattore è generalmente interpretato come un fattore di comprensione verbale. Un secondo fattore che raggruppa le prove di completamento di figure, riordinamento di storie figurate, cubi e ricostruzione di oggetti, è generalmente interpretato come un fattore dí organizzazione visuospaziale. Infine, un terzo fattore raggruppa la prova eli memoria di cifre, quella eli ragionamento aritmetico e quella del cifrario e viene interpretato come un fattore di resistenza alla distrazione o eli attenzione. L'esistenza di questi tre fattori relativizza la nozione di capacità generale e legittima in parte la distinzione che Wechsler aveva introdotto a priori tra una scala verbale e una scala di performance. 59
2.4. L'inte•pretazione del risultati Il manuale della WAIS-R fornisce indicazioni precise per attribuire un punteggio ad ogni singolo itero di ogni subtest. Sommando questi punteggi si ottiene un punteggio grezzo per ogni subtest. La figura 10 rappresenta lo schema riassuntivo dei punteggi di un soggetto di 60 anni ai differenti subtest della WAIS-R.
TABELLA RIASSUNTIVA
Punteggio Punteggio grezzo standard TEST VERBALI
Informazioni
q-1
44-
Memoria di cifre Vocabolario
44'
/10
Aritmetica
Comprensione Somiglianze Punteggio verbale
3
8
TEST DI PERFORMANCE
Completamento di figure Riordinamento di storie figurate Cubi Ricostruzionee di oggetti Cifrario
9
9 6
q7
7
.f5
48
Punteggio (li performance
-14
11
49
40
9.1
41
SCALA VERBALE
6
SCALA iotAil
6'-
402
SCALA 1)1 PERFORMANCE33
97
95
99
lo. Tabella riassuntiva dei punteggi ottenuti alla WA1S-R.
I punteggi grezzi ai differenti subtest appaiono nella colonna di sinistra. Una tavola di conversione consente (li trasformare questi punteggi grezzi in punteggi standard, che sono riportati nella colonna di destra. Al punteggio grezzo di 21 nella prova di informazioni, ad esempio, corrisponde un punteggio standard di 12.1 punteggi standard vanno, per ogni subtest, da 1 a 19. Corrispondono ad una suddivisione in 19 categorie della distribuzione normalizzata dei punteggi grezzi osservati nel campione di adulti utilizzato per la standardizzazione del test (sulla nozione di distribuzione normalizzata, cfr. cap. 2, p. 34). Per ogni subtest la media dei punteggi standard 60
è 10 e la deviazione standard 3. Dire che un soggetto ha un punteggio ponderato di 12 vale a dire che egli è nella dodicesima categoria su 19, il che – tenuto conto delle proprietà della distribuzione normale – significa che il 6.3% dei punteggi grezzi osservati nella standardizzazione erano inferiori e il 25% superiori a quelli della sua categoria. La tappa seguente consiste nel sommare í punteggi ponderati, considerando dapprima separatamente la parte verbale e di performance della scala. Questo produce un punteggio di 62 per la parte verbale e di 33 per la performance (cfr. fig. 10). Un'altra tavola di conversione fornita dal manuale stabilisce i QI corrispondenti: un QI verbale di 102 e un QI performance di 97. Per lo stesso principio, si possono anche sommare i punteggi ponderati verbale e performance, che forniscono un totale di 95, di cui la tabella di conversione ci dà il QI globale, 99. Sapendo che, in questo tipo di scala, il QI ha una media di 100 e una deviazione standard di 15, avere un Q1 di 99 significa che la prestazione del soggetto si colloca intorno alla media del suo gruppo di età, e che il 50% circa dei soggetti del campione di standardizzazione ha avuto dei punteggi più elevati, mentre il restante 50% ha avuto dei punteggi meno elevati. Abbiamo detto che il soggetto si situava nella media del suo gruppo di età e non nella media del gruppo degli adulti, poiché la conversione dei punteggi ponderati in QI si fa tenendo conto del gruppo di età del soggetto. Ciò è reso necessario dal fatto che con l'età, l'efficienza nei differenti subtest tende a diminuire (in modo diverso a seconda dei subtest). Possiamo notare che un punteggio ponderato totale di 95, ottenuto dal nostro soggetto di 60 anni, corrisponde ad un Qi di 93 nel gruppo di 20-24 anni di età e ad un QI di 113 nel gruppo di 75-79 anni di età. Il QI ottenuto alla WAIS-R posiziona dunque il soggetto all'interno del suo gruppo di età. Dire che il nostro soggetto di 60 anni ho un QI di 99 indica che la sua efficienza intellettiva nella soluzione di problemi, quali appaiono nella WAIS-R, lo situa nella media degli adulti di 60 anni. La prima interpretazione dei risultati della prova consiste quindi nel collocare, sulla base del Q1 ottenuto, l'efficienza intellettiva globale del soggetto in relazione a quella dei soggetti del suo gruppo di età. 61
La WAIS-R permette tuttavia di andare oltre indagando se esistono forme di eterogeneità tra le differenti parti della prova. Un'analisi classica consiste nel confrontare il QI verbale con il QI performance per vedere se l'efficienza intellettiva è equivalente in questi due ambiti. Un altro esempio classico è il confronto tra subtest che resistono in maniera diversa al declino dovuto .all'età. Wechsler aveva in effetti notato che alcuni subtest della scala «tengono bene» con l'età (informazioni e vocabolario per la scala verbale, ricostruzione di oggetti e completamento di figure per la scala di performance), mentre altri «non tengono» (memoria di cifre e somiglianze per la scala verbale, cifrario e cubi per la scala di performance). Con questo tipo di analisi lo psicologo entra in un approccio più clinico di interpretazione dei risultati. Per essere fondato, questo approccio deve poggiare su due tipi di garanzia: l'eterogeneità analizzata deve essere significativa dal punto di vista statistico e dal punto di vista teorico. Questi due punti saranno illustrati con l'esempio della differenza tra QI verbale e QI performance. Nel protocollo che ci è servito da esempio, il QI verbale è superiore di 5 punti al QI performance (vedi fig. 10). Questo scarto è statisticamente significativo? In altri termini, è sufficientemente rilevante da poter essere attribuito a cause diverse dalle fluttuazioni dovute agli errori di misura sui due QI? Per saperlo bisogna fare riferimento alle tavole statistiche stabilite con la standardizzazione del test e riportate dal manuale. Esse consentono di vedere che, nel gruppo di età di questo soggetto, una differenza tra il QI verbale e il QI performance non è significativa, con una probabilità di rischio del .5%, se non a partire da 9 punti di differenza. Lo scarto osservato qui è quindi ordinario e sarebbe probabilmente un errore interpretarlo come un indice di un malfunzionamento cognitivo. Nel caso in cui la differenza tra QI verbale e QI performance si mostrasse sufficientemente importante da essere significativa, rimane da definirne il significato e la difficoltà deriva dal fatto che ce ne possono essere diversi. Un QI verbale nettamente inferiore ad un QI performance può essere, ad esempio, la conseguenza a lungo termine di disturbi nell'acquisizione del linguaggio, ma potrebbe anche essere indice di una lesione recente dell'emisfero sinistro (che è la sede deputata all'elaborazione del linguaggio). Tuttavia, si sa anche che 62
un'inferiorità relativa del Qi verbale rispetto al QI performance è più frequente nei bambini cresciuti ín un ambiente socioculturale sfavorevole e anche in coloro che esercitano una professione che fa poco appello alla comunicazione verbale, ecc. Il significato di tale risultato può dunque essere interpretato solo se messo in relazione con altri elementi informativi ricavati dalla storia del soggetto o da test più specifici destinati a confermare o sconfermare l'una ci l'altra di queste interpretazioni. L'approccio diagnostico che viene qui descritto è simile a quello del medico che cerca di interpretare un sintomo; la garanzia della diagnosi poggia sulla coerenza che l'interpretazione può dare ad un insieme di risultati: questo è ciò che noi abbiamo definito in precedenza il significato teorico. La stessa logica può essere seguita nel confrontare i punteggi ponderati dei differenti subtest. Poiché tutti questi punteggi ponderati hanno la stessa media e la stessa deviazione standard, essi possono essere direttamente confrontati ed è possibile tracciarne un profilo da cui emergano i punti deboli e i punti di forza dell'efficienza intellettiva del soggetto. Di nuovo, bisogna innanzitutto assicurarsi che gli scarti che si cerca di interpretare siano significativi. Nel protocollo del nostro soggetto si nota (vedi fig. 10) un punteggio ponderato particolarmente basso alla prova dei cubi. Nella relativa tavola del manuale, si può osservare che con una soglia di rischio del 15% (15% di probabilità di sbagliare), una differenza tra due punteggi ponderati può essere considerata significativa a partire da 2,5 punti. C'è allora un senso nel cercare un significato alla scarsa prestazione nella prova dei cubi, in relazione all'efficienza osservata nella maggior parte delle altre prove di performance. E a questo punto che possono intervenire le osservazioni più qualitative fatte dallo psicologo durante la somministrazione, relative al modo in cui il soggetto procede nella prova, il suo metodo, il suo atteggiamento di fronte alle difficoltà, ecc., così come le conoscenze cliniche sul significato di un deficit specifico in tale prova o in tale gruppo di prove. Questi aspetti dell'interpretazione dei risultati fanno ampiamente appello all'esperienza clinica e alla competenza professionale dello psicologo. Fanno chiaramente emergere che un risultato considerato isolatamente, un QI, uno scarto tra due subtest, non ha di per sé alcun significato, ma deve essere interpretato in funzione di un insieme di altri elementi di in63
formazione che fanno appello alle competenze e conoscenze acquisite nel corso della formazione al mestiere di psicologo e della sua pratica. Il successo ottenuto dalla WAIS-R ha indotto a mettere a punto nel 1950 una versione per bambini, la Wechsler ligence Scale for Children (WISC), adatta al periodo di età dai 6 ai 16 anni, e, più recentemente, una versione adatta al periodo tra í 4 e i 6 anni e mezzo, la Wechsler Preschool Erimary Scale of. Intellígence (WPPSI). La WISC e la WPPSI sono costruite esattamente sugli stessi principi della WAIS-R e hanno adattamento e standardizzazione per l'Italia.
3. I test fattoriali di intelligenza Binet e Wechsler si rappresentavano l'intelligenza come una capacità globale e le loro scale avevano come obiettivo principale di fornire una valutazione riassuntiva di questa capacità in un indice unico, età mentale o QI. Tuttavia, l'utilizzo di queste scale ha consentito cli notare che i successi nei diversi subtest potevano essere eterogenei e i profili così ot, tenuti potevano essere interpretati diversamente. Questa pratica ammette di fatto la multidimensionalità dell'intelligenza, che si manifesta anche nelle scale concepite all'origine per una sua valutazione globale. I test detti «fattoriali», ai contrario, sono stati concepiti principalmente per mettere in evidenza il carattere multidimensionale dell'intelligenza. Essi sono detti «fattoriali», perché il metodo matematico sul quale sono basati è l'analisi fattoriale, i cui principi generali sono stati presentati nel capitolo 1. 3.1.
Un esempio di batteria di tesi fattoriali di intelligenza: il PMA ili Thurstone
Per identificare i fattori comuni ad alcuni dei compiti cognitivi, fattori corrispondenti secondo lui alle abilità mentali primarie (Primary Mental Abilities, o PMA), Thurstone ha messo a punto una batteria di una sessantina di test differenti. Così come la costruzione delle scale eli intelligenza, la messa a punto di questa batteria di test è stata piuttosto empirica. 64
La varietà dei test introdotti nella batteria, e quindi il numero e la natura dei fattori dell'intelligenza che possono essere estratti dipendono dall'idea che il ricercatore si è fatto dell'intelligenza. In assenza di una teoria forte, non ci sono soluzioni soddisfacenti al problema della scelta delle situazioni da introdurre nella batteria. I sessanta test pensati da Thurstone rappresentano quindi una parte dell'universo dei compiti cognitivi, ma solo una parte. Thurstone ha dapprima proposto questa batteria di test ad un gran numero di studenti dei college americani, poi, in seguito ad alcune modifiche, l'ha successivamente proposta a più di un migliaio di liceali. fattoriale richiede che un certo numero di test venga proposto ad un numero abbastanza elevato di soggetti, il che spiega la ragione per cui la maggior parte dei test fattoriali vengono concepiti come delle prove brevi, di meno di dieci minuti, che vengono proposte carta e matita e collettivamente. Le analisi fattoriali effettuate su questi sessanta test hanno consentito di estrarre sette fattori primari abbastanza stabili e ben identificabili: comprensione verbale (V), fluidità verbale (W), abilità numerica (N), inferenza (I), abilità spaziale (S), velocità percettiva (P) e memoria (M). I test che hanno mostrato le maggiori saturazioni in ognuno di questi fattori sono stati mantenuti a formare delle batterie più ridotte, CORIprendenti un test per ogni fattore. La batteria fattoriale PMA tradotta e adattata in Italia è tratta da questo studio. Si compone di test carta e matita, a somministrazione collettiva, corrispondenti ad abilità primarie distinte da Thurstone. 3.2.
Mese' ? /azione dei test che compongono la batteria fattoriale PAIA
Qui di seguito sono presentati i cinque test che compongono la batteria intermedia, il cui livello di difficoltà è adattato ad un'età compresa tra 11 e 17 anni. Ogni test è denominato sulla base del fattore di cui è rappresentativo. • Fattore V significato verbale. Questo test valuta la competenza e la finezza di discriminazione dei significati verbali. Consiste di 50 item cli difficoltà crescente: si propongono una parola bersaglio e, alla sua destra, 5 parole tra le quali è ri65
chiesto di individuare quella con lo stesso significato della parola target. Ad esempio: Rilucere a) crepitare b) cesellare e) brillare d) dipingere e) arrugginirsi. Il tempo concesso è di 4 minuti e il punteggio è dato dal numero di risposte corrette realizzate in questo lasso di tempo.
nel produrre, in un tempo limitato, il maggior numero di parole che cominciano con una lettera data, ad esempio, nello scrivere in 5 minuti tutte le parole che cominciano per «p» che vengono in mente. Il punteggio è dato dal numero di parole diverse trovate.
• Fattore S: abilità spaziale. Q uesto test valuta l'efficienza delle operazioni spaziali. È composto da 20 itero di difficoltà crescente composti ciascuno da un disegno target presentato a sinistra. A destra vengono presentati sei disegni e tra essi bisogna individuare quelli che non sono altro che l'itero dí sinistra ruotato (gli altri sono rovesciati). Il tempo concesso è di 5 minuti e il punteggio è dato dal numero di risposte corrette ottenute.
• Standardizzazione. manuale dell'adattamento italiano della batteria PMA IThurstone e Thurstone 1982; 1986] fornisce una standardizzazione sulla base dei risultati ottenuti al test da un campione di 844 studenti dai 12 ai 15 anni frequentanti le tre classi della scuola media inferiore (prima, seconda e terza) con al massimo un anno di ritardo . rispetto ad una scolarità normale. Circa metà del campione è composto da maschi e l'altra metà da femmine. Vengono fornite le medie per età e per scolarità dei cinque test. Inoltre, sulla base della distribuzione dei punteggi in percentili, è possibile collocare un soggetto in relazione ai soggetti della sua età del campione di riferimento. Ad esempio, se un soggetto di 12 anni ha un punteggio alla prova di significato verbale di 15 risposte corrette si situa, secondo la tabella, al 40° percentile. Questo indica che circa il 35% dei soggetti ha avuto un punteggio inferiore e circa il 55% uno superiore.
e
E
Qui bisogna barrare le figure A ed E FIG. 1 1. Itero di esempio del test dell'area spaziale della batteria PNIA.
• Fattore E: ragionamento. 30 item di difficoltà crescente, in cui al soggetto viene chiesto di fornire il seguito di una serie di lettere. Questo test valuta l'efficienza dei processi di inferenza. Ad esempio: abcdabceabcfabc? • Fattore N: abilità numerica. L'abilità valutata è l'efficienza nella manipolazione dei numeri. Il test propone 70 addizioni di quattro numeri di due cifre, sotto le quali è indicato un totale. il compito consiste nel determinare, per ognuna, il più velocemente possibile se il totale è giusto o sbagliato. Il punteggio è il numero dí risposte corrette fornito in 6 minuti. • Fattore W fluidità verbale. Questa prova valuta l'abilità di recuperare velocemente delle parole. Il compito consiste 66
3.3. Le qualità metriche della batteria PMA
• Validità. Poiché l'adattamento italiano della batteria PMA riporta scarsi dati relativi alla sua validità, in questo paragrafo faremo riferimento alla validità calcolata sulla versione francese della batteria. La validità empirica della batteria PMA è stata indagata considerando diversi criteri. Utilizzando il punteggio totale che integra i diversi test della batteria si è ottenuta una correlazione dell'ordine di 0,70 con altre misure di intelligenza. Si sono osservate anche correlazioni significative tra ogni singolo test della batteria, preso singolarmente, e il suo omologo in altre batterie fattoriali. Ad esempio, in uno studio in cui 560 soggetti di 12 anni hanno fatto il PMA ed un'altra batteria fattoriale (la. GATB), le correlazioni sono state dí 0,77 tra i due test verbali, di 0,51 tra i due test spaziali, 0,68 tra i due test di ragionamento e 0,65 tra i due test numerici (nella GATB non c'è un test di fluidità verbale). 67
Un altro dei criteri di validazione empirica utilizzati è stato il successo scolastico. Uno degli studi, ad esempio, ha calcolato in un campione di 600 liceali le correlazioni tra i punteggi al PMA e i punteggi ottenuti, tre anni più tardi, ad una batteria di test sulle conoscenze scolastiche, Iowa Tests of Educational Development. Tre anni dopo, le correlazioni di ogni test con il punteggio totale della batteria sulle conoscenze scolastiche sono le seguenti: 0,68 con il test verbale, 0,23 con il test spaziale, 0,54 con il test di ragionamento, 0,38 con il test numerico e 0,33 con il test di fluidità verbale. Come si può osservare, i test verbale e di ragionamento sono i migliori predíttori del successo scolastico tre anni dopo. Ciò induce ad utilizzare, per pronosticare il successo scolastico, un punteggio composto che combina questi due test attribuendo un peso doppio ai punteggi del test verbale secondo la formula 2V -i- R. Questo punteggio correla circa 0,70 con il punteggio totale di conoscenza scolastica. Le correlazioni con le valutazioni scolastiche date dai professori sono un po' meno forti, dell'ordine di 0,50. Ciò si può spiegare sulla base del Fatto che i voti dati dagli insegnanti sono meno fedeli (comportano maggiori fonti di variazione incontrollate) rispetto ai punteggi ai test cli conoscenza. Benché questa batteria sia concepita per valutare abilità diverse, è frequente che si utilizzi un punteggio totale come indice globale di intelligenza confrontabile con il La ragione è che esistono correlazioni tra questi cinque test e che – come è stato evidenziato a proposito dell'analisi fattoriale – si può anche estrarre un fattore generale di intelligenza che satura queste cinque prove in misura variabile (vedi cap. i ). Nel caso dei test fattoriali, la validità teorica si può ottenere attraverso la verifica della corrispondenza tra la struttura ottenuta con l'analisi fattoriale di questi test e la struttura attesa. In altre parole, i test che si considerano come rilevanti per uno stesso fattore devono essere maggiormente saturati da questo fattore che dagli altri e i test che si considerano rilevanti per fattori differenti devono essere saturati da questi fattori differenti. Si può verificare che ciò è quanto successe per questi cinque test nelle analisi fattoriali eseguite da Thurstone quando mise a punto tale batteria [Thurstone e Thurstone 19411. Questo passaggio diventa realmente ipotetico-deduttivo nel momento in cui lo psicologo crea un nuovo test concepito per essere un indicatore di uno dei fattori. La valídazione teorica consiste allora 68
nel verificare che, introducendo il test insieme ad altri in un'analisi fattoriale, esso è ben saturato dal fattore atteso. A titolo esemplificativo, la prova di significato verbale della batteria PMA, che consiste nel trovare un sinonimo, è fortemente saturata dal fattore verbale (0,68) e per nulla dal fattore di fluidità verbale (0,01). Thurstone ha costruito una nuova prova di fluidirà verbale nella quale si chiede al soggetto di trovare tre sinonimi per ogni parola data. Egli faceva l'ipotesi che nonostante la somiglianza di questa prova con quella di significato verbale (trovare un sinonimo), il test mettesse in gioco la fluidità verbale poiché richiede che il soggetto fornisca più parole di una categoria data. Nell'analisi fattoriale in cui questa nuova prova è stata introdotta, essa aveva effettivamente una saturazione di 0,51 con il fattore fluidità verbale e una saturazione nulla con il fattore significato verbale', il che validava l'ipotesi di Thurstone sulla natura di questo nuovo test. 3.4. 1,Intepretazirme dei risultati (interpretazione dei risultati si fonda sulla standardizzazione che consente di collocare il punteggio del soggetto in ciascuno dei test in rapporto ai punteggi osservati nella popola' zione di riferimento. L'interesse delle batterie fattoriali è di permettere di stabilire un profilo dí abilità che si può esprimere graficamente su un asse cartesiano (vedi fig. 8). Il profilo permette di osservare con un colpo d'occhio se le diverse abilità sono omogenee o no, dove sono i punti forti e i punti deboli, ecc. Abbiamo visto a proposito della WAIS che l'analisi dei profili di punteggio è fatta anche con le scale di intelligenza. La differenza è che le batterie fattoriali sono state costruite per mettere in evidenza delle dimensioni differenti dell'intelligenza, mentre questo non è il caso dei subtest delle scale di intelligenza. La conseguenza è che le interpretazioni basate sui profili dei punteggi hanno maggior fondamento con le batterie fattoriali. 4. I test ispirati da teorie pià recenti Nei loro principi teorici, i test presentati nei paragrafi precedenti sono stati concepiti ormai circa mezzo secolo fa. Da al69
lora sono stati oggetto di numerose revisioni con l'obiettivo di rianalizzare il loro contenuto e ristandardizzarli, mai concetti di intelligenza che ne hanno ispirato la costruzione sono datati. Da allora le idee sull'intelligenza si sono evolute. Nuove teorie sono apparse e sí può dire che abbiano rivoluzionato la concezione dei test. In ogni caso, per poco che siano stati rivisti e ristandardizzati (vedi quadro 1), i vecchi test hanno resistito nel tempo. Sono ancora i più utilizzati nella pratica e continuano ad essere utili nella diagnosi di disfunzioni cognitive e nelle previsioni di successo negli apprendimenti.
QUADRO 1.
-11, LIVELLO SALE Alcuni item devono essere rivisti periodicamente. Ciò succede ad esempio per gli item del subtest delle informazioni delle scale Wechsler, il cui contenuto è per definizione dipendente dal periodo storico. Ma i test di intelligenza devono essere anche periodicamente ristandardizzati, poiché il livello medio di performance tende ad aumentare con le generazioni. Le ragioni di questo fenomeno sono complesse da analizzare e sono oggetto di discussione. Possono essere dovute a degli errori (come ad esempio il cambiamento di tendenza di fronte al compromesso tra velocità e correttezza della risposta), a
degli effetti di familiarizzazione con le situazioni (dovuti ad esempio alla diffusione di giochi analoghi a quelli del test), o ancora a reali incrementi delle capacità intellettive con l'evoluzione della società (effetti dell'aumento della scolarizzazione, della moltiplicazione delle fonti di informazione, delle occasioni di stimolazione intellettuale, ecc.). Si possono trovare esempi di indagini che mostrano questo aumento del livello di performance col progredire delle generazioni e interpretazioni contraddittorie del fenomeno [ad esempio, Baudelot e Establet 1989; Midler, Jantz e Kop 1989; Flynn 1987].
Una delle ragioni della resistenza al tempo da parte dei vecchi test riguarda soprattutto l'approccio molto pragmatico dei loro autori. Binet, Wechsler e Thurstone hanno utilizzato situazioni di valutazione che si sono rivelate buoni indicatori del 70
funzionamento cognitivo a dispetto del fatto che non avevano una conoscenza precisa dei meccanismi sottostanti. Le teorie apparse successivamente hanno poi permesso di capire meglio perché questo o quell'item fossero buoni indicatori di questo o quell'aspetto dell'intelligenza, ma solo in rari casi hanno consentito di costruire test radicalmente diversi da quelli appena presentati. C'è comunque qualche notevole eccezione a questo. Presenteremo qui di seguito alcuni esempi di test di intelligenza elaborati a partire da concezioni teoriche più recenti, i test piagetiani e il K-ABC. 4.1. I test «piagellani» La teoria di Piaget è senza dubbio quella che ha rinnovato più profondamente le idee sullo sviluppo dell'intelligenza I. Piaget 1970, per una presentazione generale]. Questa teoria vuole rendere conto sia della genesi della conoscenza scientifica nella storia dell'umanità (epistemologia genetica) sia della genesi del pensiero logico nel bambino (psicologia genetica). La teoria di Piaget è strutturalista e costruttivista. Strutturalista nella misura in cui Piaget riteneva che l'uomo comprendesse il mondo assimilandolo alle proprie strutture mentali. Costruttivista nella misura in cui pensava che queste strutture cognitive, questi strumenti mentali della conoscenza, non fossero né innati né derivati dall'esperienza, ma si costruissero attraverso il coordinamento delle azioni. Insomma, agendo sul mondo per trasformarlo, il soggetto costruisce, con la coordinazione delle sue azioni, dei sistemi di trasformazione: schemi d'azione messi in pratica nel periodo sensomotorio, poi schemi d'azione interiorizzati nel momento in cui il bambino diventa capace di rappresentazione. Questi schemi d'azione interiorizzati diventano allora delle «operazioni» di pensiero. Una buona parte dell'opera di -Piaget è consistita nell'identificare le strutture «operatorie» costruite successivamente dal bambino, man mano che cresce. La costruzione di ognuna di queste strutture segna uno stadio di sviluppo e questi diversi stadi sono percorsi con un ordine invariante. I grandi stadi di sviluppo del pensiero logico che Piaget ha identificato nel bambino sono lo stadio sensomotorio (da O a 18 mesi o due anni circa), lo stadio preoperatorio (da 2 -a 7-8 anni circa), lo stadio operatorio 71
concreto (da 8 a 10-11 anni circa) e lo stadio formale (a partire da 11-12 anni circa). Questi grandi stadi di sviluppo sono a loro volta suddivisi in sottostadi e a ciascuno di essi corrisponde una struttura cognitiva che gli è propria e caratterizza in quel determinato momento il ragionamento del bambino. Piaget non si è interessato ai test e nemmeno alle differenze individuali. Il suo obiettivo è stato innanzitutto di descrivere le strutture cognitive e le leggi generali della loro costruzione. Per far ciò, egli ha immaginato una moltitudine di situazioni, spesso molto ingegnose, destinate a mettere in evidenza gli stadi di sviluppo del pensiero logico. Altri psicologi hanno ripreso queste situazioni adattandole a situazioni test che permettessero di valutare lo stadio di sviluppo del pensiero logico. Un esempio cli test italiano di questa categoria è il test OLC, Operazioni Logiche e Conservazione, messo a punto da Vianello e Marin I1997]. Il test OLC fa riferimento in particolare alle operazioni logicoaritmetiche e alle nozioni di conservazione e valuta il passaggio da uno stadio preoperatorío ad uno stadio operatorio concreto. La struttura del test prevede 4 aree (seriazione, numerazione, classificazione e conservazione) per ciascuna delle quali sono predisposti 6 item. Ogni item ha una valutazione dicotomica (superato o non superato, I o 0) e il punteggio totale massimo è perciò di 24. Ad esempio, un item della seriazione richiede al soggetto, date 7 bottiglie, di far corrispondere ad ogni bottiglia un bicchiere dei 7 disponibili: verrà attribuito il punteggio di 1 se il soggetto avrà correttamente svolto il compito. Gli item sono presentati in ordine di difficoltà, dal più semplice al più difficile. Il test OLC è concepito per bambini dai 4 agli 8 anni e consente di tradurre il punteggio del soggetto in un'età mentale ed anche in un Ql. Un test piagetiano adatto invece a soggetti di età più elevata è la scala di sviluppo del pensiero logico (EDPL) messa a punto da Fransois Longeot [19691. Questa scala riprende cinque delle situazioni utilizzate da Piaget nelle sue ricerche. Queste situazioni hanno come obiettivo di mettere in evidenza la struttura del ragionamento in differenti ambiti della conoscenza: logica, fisica e rappresentazione dello spazio. A titolo esemplificativo, la prova che riguarda la fisica valuta lo stadio di ragionamento del soggetto nello sviluppo della nozione di conservazione. Secondo Piaget, una delle manifestazioni dello strutturarsi delle operazioni concrete è il ragionamento che permette di capire che 72
le trasformazioni degli oggetti lasciano alcune delle loro proprietà invariate: date due palline di pasta da modellare A e B del tutto simili, il cambiamento della pallina B (appiattimento, trasformazione in rotolo, trasformazione in pezzetti) modifica il suo peso in relazione a quello della pallina A? E queste trasformazioni modificano il suo volume in relazione a quello della pallina A? L'EDPL è stata concepita per il periodo di età dagli 8-9 anni ai 15-16 anni, cioè per il periodo di sviluppo che va dallo stadio delle operazioni concrete a quello delle operazioni formali. In relazione ai test di intelligenza classici, i test piagetiani hanno varie componenti di originalità: 1. il livello di sviluppo cognitivo del soggetto non è più definito dal suo rango nella distribuzione dei punteggi della popolazione di riferimento, ma in riferimento ad un criterio teorico: lo stadio di sviluppo al quale il suo modo di ragionare corrisponde; 2. il comportamento del soggetto nelle prove può essere interpretato in riferimento ad una teoria esplicita dello sviluppo cognitivo; 3. il livello di sviluppo cognitivo del soggetto è valutato attraverso una caratteristica, il suo stadio, che è transitoria. In questo, lo stadio è comparabile all'età mentale, ma sí distingue dal QI che caratterizza il soggetto in modo relativamente stabile; 4. l'esistenza di una sottostante teoria sufficientemente precisa evita di dover definire la standardizzazione della somministrazione del test in modo rigido, come con le prove di ori. gine più empirica. È minore qui la necessità di comportarsi allo stesso modo con ogni soggetto, mentre è importante dare i «suggerimenti» appropriati per vedere fin dove il soggetto può arrivare con il suo ragionamento. Questo metodo critico di indagine è quello che utilizzava Piaget e il principio è stato conservato nei test piagetiani a somministrazione individuale; 5. la validazione teorica del test si appoggia principalmente sul metodo di analisi gerarchica. Glí item corrispondenti ai differenti stadi di ragionamento devono essere superati nell'ordine previsto dalla teoria. Questa coerenza con l'ordine teoricamente atteso può essere valutata da un indice che va da 0, quando l'ordine di successo degli item non è diverso da quello atteso sulla base del caso, a 1 quando l'ordine osservato corrisponde esattamente all'ordine atteso. Nell'EDPL, la scala di 73
Longeot, gli indici gerarchici delle diverse prove sono tutti superiori a 0,90, il che indica che gli item corrispondenti ai differemi stadi si ordinano praticamente come atteso sulla base della teoria. Nelle prove collettive, invece, questi indici sono dell'ordine di 0,70, che è meno soddisfacente. Tenuto conto della loro originalità, che dipende in buona parte dal loro ancoraggio teorico, si sarebbe potuto credere che i test piagetiani avrebbero soppiantato i test di intelligenza classici, di concezione più empirica. Non è stato così. Ci sono numerose ragioni che possono spiegare questo fatto ma noi qui ne presenteremo solo una. L'utilizzo di questo tipo di test ha fatto emergere velocemente che un soggetto poteva essere caratterizzato da stadi di sviluppo diversi nelle differenti prove che compongono il test [cfr. Lautrey 1980b]. Non era dunque possibile caratterizzare un soggetto sulla base del suo stadio di sviluppo cognitivo, al singolare. Si è quindi giunti a calcolare un punteggio globale che, per convenzione, collocava il soggetto ad uno stadio; lo stadio così definito non è più comunque molto diverso da un Qi. Tanto più che la correlazione tra il punteggio totale dei test «piagetiani» e il QI ottenuto alle scale di intelligenza classiche si è mostrata molto forte: varia da 0,70 a 0,80 a seconda delle ricerche, il che fa pensare che l'abilità valutata da questi due test non sia poi molto diversa. Nella stessa logica, se si sottopongono gli item di test piagetiani ad un'analisi fattoriale si trovano all'incirca gli stessi fattori che con i test fattoriali [Lautrey, Rieben e de Ribaupierre 1986]. Di conseguenza, benché elaborati a partire da una teoria dello sviluppo cognitivo nuova, i test piagetiani non hanno rinnovato profondamente i test di intelligenza. Si sono rivelati particolarmente appropriati nella valutazione dello sviluppo del pensiero logico, ma non hanno detronizzato le scale di sviluppo a più largo spettro. 4.2. Il .K-A BC Il K-ABC (Kaufman-Assessment Battery for Children) è una scala di valutazione dello sviluppo dell'intelligenza concepita per il periodo dai 2 anni e mezzo ai 12 anni, che è stata pubblicata negli Stati Uniti da Alan e Nadeen Kaufman nel 1983 e adattata in Francia nel 1993 [Kaufman e Kaufman 1983], mentre in Italia è stata solo proposta in via sperimentale presso alcuni centri, 74
ma non è mai stata standardizzata. Il quadro teorico che sottende la costruzione della scala si fonda su studi di neuropsícologia e di psicologia cognitiva che hanno evidenziato la necessità di distinguere tra due grandi tipi di processi mentali: i processi sequenziali e i processi simultanei. Per sostenere questa distinzione gli autori si riferiscono aí lavori dí Lucia, che collocava la sede delle elaborazioni sequenziali dell'informazione nelle regioni fronto-temporali del cervello e quello delle elaborazioni simultanee nelle regioni parieto-occipitali. Essi si rifanno anche ai lavori di neuropsicologia e di psicologia cognitiva che hanno mostrato una specializzazione dell'emisfero sinistro del cervello nel trattamento «analitico» delle informazioni e una specializzazione dell'emisfero destro nel trattamento «globale». La varietà delle denominazioni e delle localizzazioni cerebrali a cui ci si riferisce nei diversi lavori di ricerca lascia pensare che.a questione della localizzazione cerebrale dei vari processi è probabilmente più complessa di quanto non si sia creduto. Nel mettere a punto questa nuova batteria, l'obiettivo dei Kaufman era di rinnovare i test dí intelligenza da un doppio punto di vista: creare una scala orientata alla caratterizzazione dei processi mentali (sequenziale, simultaneo) piuttosto che ad ambiti di contenuto (verbale, spaziale) e dar loro dei fondamenti teorici più solidi di quelli delle scale precedenti. A questo scopo essi hanno costruito una batteria composta di tre subscale ben distinte: l'una valuta l'efficienza dei processi sequenziali, l'altra quella dei processi simultanei e la terza le conoscenze. I processi sequenziali sono quelli messi in atto quando i differenti aspetti dell'informazione sono elaborati l'uno dopo l'altro, in sequenza nel tempo. I processi simultanei sono invece quelli messi in atto quando i differenti aspetti dell'informazione disponibile sono elaborati in parallelo, nello stesso tempo. Le prime due subscale sono esclusivamente orientate alla valutazione dell'efficienza di queste due grandi categorie di processi mentali. La terza subscala che valuta a parte le conoscenze è ben distinta da queste prime due, come non avviene nel Binet-Simon o nella WATS, in modo tale che si possa ben distinguere la quantità e la qualità delle conoscenze acquisite, da una parte, rispetto all'efficienza dei processi grazie ai quali esse sono state acquisite, dall'altra. Nella subscala dei processi sequenziali, si trova una prova di ripetizione dí cifre, il cui principio è lo stesso che nel BinetSimon e nella WATS, una prova di ricordo di parole, di natura 75
simile, e una prova più originale, ispirata al lavoro di Luria, che consiste nel mostrare al soggetto una successione di movimenti della mano che egli deve riprodurre (vedi fig. 12).
I tre movimenti di base da riprodurre nelle diverse sequenze sono la Man() piatta (M), di lato (C) e il pugno (P). Il soggetto deve qui riprodurre i cinque movimenti (M, P, C, M, C). Il numero dei movimenti presentati varia da 2 a 6 a seconda dell'età del soggetto. FIC..1. 12. Esempio di item analogo a quello della prova di movimento della mano nel K-ABC.
La subscala dei processi simultanei comporta un numero più elevato di prove. Alcune sono similia subtest della scala di performance della WAIS o della \V.lSC (ad esempio il test serie di fotografie che è analogo alla prova di riordinamento di storie figurate della WAIS, eccetto che gli elementi in disordine a partire dai quali bisogna ricostruire la storia sono delle fotografie e non delle figure). Altre sono più nuove, ad esempio la prova di riconoscimento di forme, nella quale il soggetto deve riconoscere l'oggetto di cui gli viene presentata un'immagine degradata (vedi fig. 13).
La forma da riconoscere è qui quella di un uccello. Le immagini sono degradate eli minando una parte più o meno rilevante del tratto. FIG. 13. Itero di esempio della prova cli riconoscimento di [orme del K-ABC.
76
Le prove della terza subscala, quella delle conoscenze, sono concepite sulla base dello stesso principio delle prove di informazioni, di vocabolario o di aritmetica della WAIS o della WISC e comportano anche prove di comprensione della lettura. Esse vengono presentate ín una forma accattivante e adatta a bambini piccoli. Ad esempio, la prova di informazioni non è proposta sotto forma di domande come nella WAIS o nella WISC, ma mostrando ai bambini delle fotografie dí personaggi o monumenti celebri che devono riconoscere (ad esempio, la foto della torre "Eiffel). I punteggi grezzi di queste tre subscale sono trasformati in punteggi standard e i punteggi standard in QI, secondo gli stessi principi della WAIS. Si possono così confrontare i punteggi ottenuti ai diversi subtest e stabilire dei profili. Le qualità metriche di questa batteria sono del tutto confrontabili con quelle delle scale precedenti e l'analisi fattoriale dei differenti subtest che la compongono conferma che le prove sequenziali e simultanee sono saturate da fattori diversi. Mettendo l'accento sulla valutazione dell'efficienza dei due tipi di processi, sequenziali e simultanei, questa nuova scala ha realmente rinnovato la concezione dei test di intelligenza e consentito di valutare aspetti differenti dai test precedenti? Abbiamo bisogno di fare un passo indietro per dirlo. Possiamo notare infatti che le tre scale del 'K-ABC valutano tre aspetti dell'intelligenza che sono simili a quelli ottenuti con l'analisi fattoriale della WAIS: un fattore verbale che satura subtest simili a quelli della scala di informazioni del K-ABC; un fattore visuo-spaziale che satura le prove di performance simili a quelle della scala dei processi simultanei; e infine un fattore che satura soprattutto la prova di ripetizione eli cifre e il cifrario, interpretato come un fattore dí resistenza alla distrazione o eli attenzione, il cui contenuto è quindi confrontabile con quello dei processi sequenziali del K-ABC. Inoltre, la correlazione tra il ()I ottenuto al K-ABC e il QI ottenuto ad altre scale di intelligenza è abbastanza forte (circa di 0,70), il che indica che la capacità generale valutata da questa scala è abbastanza legata a quella valutata dalle scale di intelligenza già esistenti. in sintesi, i test costruiti a partire dalle teorie dell'intelligenza più recenti hanno cercato di analizzare il funzionamento cognitivo da un angolo diverso. I test piagetiani Sono interessati alle strutture attraverso le quali, secondo Piaget, si articola 77
lo sviluppo del pensiero logico. il K-ABC ha come obiettivo la valutazione dell'efficienza di due forme diverse di elaborazione dell'informazione: simultanea e sequcnziale. Ciascuno di questi nuovi approcci arricchisce il lavoro degli psicologi di possibilità di diagnosi più sensibili e articolate. Rimane il fatto che, per buona parte, questi test ispirati a teorie recenti valutano le stesse abilità dei test classici. Da un certo punto di vista, il fatto che queste prove concepite a partire da quadri teorici piuttosto diversi valutino all'incirca la stessa cosa delle prove anteriori contribuisce alla validazione teorica – a -posteriori – dell'approccio empirico e pragmatico dei primi ideatori dei test d'intelligenza.
NOTE AL CAPITOLO TERZO
' La pubblicazione di item di test pone un problema particolare. Nel momento in cui gli item di un test sono divulgati, alcuni dei soggetti che fanno il test possono averli conosciuti e non si trovano quindi più esattamente nelle stesse condizioni degli altri soggetti, particolare che non soddisfa uno dei principi di costruzione dei test. Per superare questa difficoltà, utilizzeremo gli esempi che vengono dati ai soggetti a titolo dimostrativo prima del test stesso o, quando tali esempi non esistono, un item fittizio, analogo in teoria agli item del test.
Ci teniamo a precisare, per il lettore che ha qualche nozione di analisi fattoriale, che si tratta di un'analisi in fattori obliqui, nella quale esistono correlazioni tra i fattori (questa tecnica ha l'effetto di contrastare le saturazioni nei due fattori).
78
CAPITOLO QUARTO
L'UTILIZZO DEI TEST DI INTELLIGENZA
Fin dall'inizio del secolo, i test vengono utilizzati, più o meno frequentemente a seconda dei paesi e dei problemi da affrontare, in diversi settori della vita sociale. Si possono distinguere due grandi classi di utilizzo: l'aiuto diagnostico e il contributo all'inserimento sociale. Nelle situazioni di aiuto diagnostico, lo psicologo cerca di comprendere la natura del problema della persona che ha di fronte e che cerca di aiutare. Possono essere seri disturbi della condotta, difficoltà scolastiche, incertezze relative alle decisioni da prendere e alle strategie da mettere in atto nell'ambito dell'orientamento scolastico o professionale, o ancora di disagio nelle situazioni della vita quotidiana, familiare o professionale. In tutti questi casi, appare utile, tra gli altri strumenti di indagine, applicare dei test e, eventualmente, dei test di intelligenza. L'utilizzo dei test come contributo al processo di inserimento sociale è di natura completamente differente. Questa modalità di utilizzo si incontra essenzialmente nell'ambito educativo (selezione scolastica) e del lavoro (reclutamento del personale). Si ritiene quindi che il test fornisca delle informazioni che, associate ad altre, permetteranno di decidere riguardo all'inserimento di individui in percorsi di formazione o in impieghi particolari. Le domande che si possono formulare sull'uso dei test non sono naturalmente della stessa natura né della stessa rilevanza in questi due tipi di situazioni. Esamineremo in questo capitolo i dibattiti e le polemiche di cui i test d'intelligenza sono stati oggetto, l'utilizzo che oggi ne viene fatto e alcune questioni di ordine etico e deontologico che nascono di conseguenza.
79
1. I dibattiti e le polemiche sull'uso dei test in ambito sociale Le domande relative ai test e le critiche che essi hanno suscitato sono tra loro differenti; alcune risalgono all'origine stessa dei test, mentre altre hanno assunto forme diverse nei differenti contesti nazionali. 1.1. De tipologie di domande I test d'intelligenza possono essere esaminati e anche criticati da un punto di vista filosofico, psicologico e sociale. I primi test sono apparsi all'inizio del secolo, all'interno di una psicologia nascente che, rompendo con la tradizione filosofica, si avvicinava alle scienze naturali e si proponeva non soltanto di studiare i fenomeni psicologici, analizzandoli a partire dai comportamenti osservabili, ma anche di misurarli. Opponendosi così frontalmente alle posizioni idealiste dominanti, questa psicologia ha evidentemente incontrato forti resistenze. Il rifiuto dei test corrispondeva allora ad una presa di posizione filosofica: non si pesano le anime! Questo dibattito è oggi superato. La psicologia oggettiva è diventata una disciplina riconosciuta, i cui apporti sono considerati significativi. Ma si trovano sempre persone, e a volte anche personalità eminenti, che affermano che l'intelligenza umana è così complessa che è inutile cercare di comprenderla obiettivamente e di misurarla. Nessuno contesta la complessità dei fenomeni che si evocano con il termine «intelligenza»: è chiaro che la psicologia non può che fornirne delle rappresentazioni parziali e approssimative (è così anche per molti aspetti del reale che non riguardano la psicologia).il vero problema è sapere se queste rappresentazioni siano o no suscettibili di miglioramento: le discipline empiriche, e questo è il fondamento della loro esistenza, sono impegnate ad ottener misure sempre più soddisfacenti. i test sono stati oggetto di critiche in seno alla psicologia stessa. Queste sono di due tipi: riguardano sia la portata delle osservazioni, e sono allora di ispirazione «comportamcntista»1, sia il loro significato, e sono allora di ispirazione «cognitivista»2. Se il soggetto viene caratterizzato dalla sua performance al test, ciò vale per un ampio insieme di situazioni (intendendo che il test è collocabile su un'ampia dimensione) o per un gruppo circoscritto di situazioni prossime a quella del test (e allora è col80
locabile su una dimensione ristretta)? Se si considera che il comportamento degli individui sí esprime principalmente attraverso le proprietà delle situazioni in cui essi sono inseriti e per gli apprendimenti specifici che hanno avuto l'occasione di realizzare, li si potrà distinguere solo relativamente a queste situazioni e apprendimenti specifici. Sí potrà parlare allora di differenze di intelligenza, ma soltanto per una situazione data o un gruppo di situazioni simili. I test d'intelligenza intendono invece spesso caratterizzare i soggetti in maniera generale. Si può quindi, in questa prospettiva, ritenerli delle generalizzazioni improprie. Nell'ambito di questa critica generale, è stato talvolta sottolineato il carattere scolastico delle situazioni test, particolarmente evidente con i test carta e matita. L'intelligenza misurata dai test sarebbe allora un'intelligenza scolastica, messa in atto da individui isolati in situazioni artificiali. La critica può anche riguardare il significato delle performance osservate. Questo tipo di critica sottolinea le ambiguità delle performance individuali rilevate alla somministrazione di un test. È vero che i test classici ci forniscono soltanto informazioni sulla performance del soggetto (l'abbiamo visto nel cap. 2 con il test delle Matrici Progressive). Una stessa performance non avrà necessariamente lo stesso significato se è ottenuta mettendo in atto processi mentali diversi. Di conseguenza, l'informazione fornita dai test perderà parte del suo interesse, Q ueste critiche, diversamente da quelle filosofiche, sono interne al campo della psicologia. L così possibile tenerne conto nella costruzione dei test. Nel capitolo precedente abbiamo riferito di due sostanziali evoluzioni in materia dí misurazione dell'intelligenza: il passaggio da concezioni unidimensionali a concezioni pluridimensionali e la considerazione dei, processi cognitivi responsabili dell'elaborazione della risposta. Quest'ultima tendenza è stata evocata a proposito della valutazione dei processi sequenziali e simultanei nel K-ABC. Essa è ancora più sviluppata all'interno di un filone di ricerca che tenta di costruire modelli dei processi cognitivi che il soggetto mette in atto nella risoluzione degli item del test. Un esempio di lavoro realizzato in questo ambito di ricerca è stato descritto alla fine del capitolo 2 a proposito delle componenti del processo di soluzione degli item delle Matrici Progressive di Raven. 81
Il terzo tipo di problema riguarda le funzioni che i test possono rivestire nella nostra società e concerne principalmente le questioni relative all'inserimento sociale degli individui e le conclusioni sull'organizzazione della vita sociale che si possono trarre dalle osservazioni fatte per mezzo dei test. Il problema è stato sollevato principalmente da valutazioni che si pongono nel campo delle politiche educative (come interpretare le diseguaglianze in materia di educazione? come organizzare il sistema di formazione?) e secondariamente da problemi di lavoro o di impiego. Queste domande conducono ad alcune osservazioni politiche. Due temi ritornano costantemente: quello dell'equità delle differenziazioni operate dai test e quello delle origini delle differenze individuali, tra cui la questione del ruolo dell'eredità. Dopo aver richiamato qualche dato storico, esamineremo la forma assunta dal dibattito e dalle polemiche sulla funzione sociopolitica dell'impiego dei test negli Stati Uniti, nell'ex Unione sovietica e in Francia. 1.2. La nascita dei test e la loro diffusione I test sono nati dall'incontro tra una domanda sociale e una necessità della psicologia scientifica. Fin dalla loro origine ci si può quindi interrogare sulle loro funzioni sociali e sui loro fondamenti scientifici. Alla fine del XIX secolo e all'inizio del XX, la necessità di disporre di procedure di valutazione dell'efficienza cognitiva degli individui si manifesta in numerosi settori della vita sociale. Questa domanda è apparsa dapprima, all'inizio del XIX secolo, in alcuni asili che accoglievano i ritardati mentali gravi, dove si cominciava a nutrire preoccupazione riguardo-alla loro educazione. La richiesta diagnostica era motivata dal desiderio di ottenere delle stime dei livelli di deficit, al fine di affinare i metodi di riabilitazione e di costituire gruppi omogenei. Apparve più tardi anche nelle scuole con l'estensione dell'insegnamento primario. Un po' più tardi, l'esigenza di misure di questo tipo si manifestò nelle fabbriche. Si trattava di migliorare le procedure di reclutamento degli operai, non soltanto al fine di aumentare la produzione ma anche la sicurezza (le prime indagini riguardarono í conducenti dei tram). L'orientamento professionale apparirà sulla scia dei primi tentativi di selezione professionale al fine di poter disporre di valutazioni delle abilità che consentivano un buon adattamento 82
alla professione. Tra queste abilità ce ne sono alcune che contribuiscono a determinare l'intelligenza. Con Binet, il lavoro sui test resta circoscritto a finalità educative essenzialmente legate all'educazione speciale e -all'insegnamento primario. La partecipazione degli psicologi alla preparazione dell'esercito americano, in seguito al coinvolgimento degli Stati Uniti nella prima guerra mondiale nel 1917, avrebbe stimolato una considerevole estensione del lavoro sui test. Test collettivi furono costruiti e proposti a più di tre milioni di reclute che furono di conseguenza, sulla base dei risultati ottenuti ai test, destinati a funzioni diverse nell'esercito. Vennero messe a punto procedure speciali per il reclutamento di piloti e di personale necessario al buon funzionamento dell'esercito. Il fatto che gli americani si fossero trovati tra i vincitori del conflitto fu considerato di conseguenza una sufficiente validazione dei test! All'indomani della guerra, i test cominciarono ad essere utilizzati in quasi tutti i settori della società: nelle scuole secondarie e nelle università, nelle imprese e nelle amministrazioni, nel mondo giudiziario, e naturalmente si continuò ad utilizzarli nell'esercito. Benché con minore ampiezza che negli Stati Uniti, il lavoro e l'interesse per i test (si parla di psicotecniche) si sviluppò anche nella maggior parte dei paesi industrializzati [Zurfluh 19761. In Europa, l'Inghilterra è il paese che mostrò il maggior interesse (i test cominciarono ad essere utilizzati negli anni Venti). Ma questo sviluppo e i dibattiti che lo accompagnarono assunsero forme differenti a seconda dei paesi. 1.3. I dibattiti sui test di intelligenza negli Stati Uniti: eredità e influenze culturali Nel periodo tra le due guerre, i dibattiti sui test riguardarono le conclusioni da trarre dai risultati osservati nel gigantesco testing del 1917 (i risultati furono pubblicati nel 1921). Le differenze tra gruppi, osservate come è noto tra neri e bianchi, furono sistematicamente interpretate come delle differenze ereditarie. La superiorità media ai test deí neri del nord rispetto a quelli del sud, ad esempio, non venne interpretata in relazione a fattori ambientali piuttosto evidenti come il tasso di scolarizzazione. Si preferì inventare la tesi delle migrazioni selettive secondo la quale i neri più intelligenti del sud sarebbero 83
emigrati al nord. L'applicazione di norme per lo meno discutibili conduceva a concludere che il 37% della popolazione aveva un ritardo mentale! Queste affermazioni erano ben lontane dall'essere irrilevanti, ma diedero argomentazioni agli eugenisti, che raccomandavano restrizioni della vita sessuale dei ritardati mentali nonché la loro sterilizzazione, agli xenofobi, partigiani di una politica di immigrazione selettiva, e ai razzisti. Se il punto di vista «ereditarista» era maggioritario, non c'era tuttavia unanimità tra gli psicologi, da cui derivarono una serie di controversie. La più viva oppose, nel 1922-1923, Terman, adattatore del test di Binet e partigiano delle tesi ereditari te che abbandonerà qualche anno più tardi, e Lippman. Lippman non metteva in discussione l'interesse dei test di intelligenza, ma criticava severamente la soglia scelta per definire il ritardo mentale e, soprattutto, affermava che l'intelligenza non poteva essere valutata indipendentemente dagli apprendimenti e rifiutava perciò l'idea di un'intelligenza «pura», una sorta di sostanza misteriosa impermeabile alle influenze educative. Molte delle polemiche e dei dibattiti successivi non hanno fatto che riprodurre questo contrasto iniziale [Cronbach 1975; Gould 1983; Paicheler 19921. Si può notare che tutte queste discussioni riguardano i test di intelligenza, e più in particolare i test collettivi, indipendentemente dalla standardizzazione utilizzata che diventa del tutto secondaria. Ora, dato che i risultati aí test sono nella maggior parte dei casi espressi in quoziente intellettivo, si è arrivati a credere, soprattutto attraverso i media, che è il QI a dover essere criticato, anche nel momento in cui i problemi sono gli stessi che si utilizzi o meno la nozione di QI. Le critiche di Lippman non riguardavano í test, ma soltanto l'interpretazione delle osservazioni fatte per mezzo (lei test. All'indomani della seconda guerra mondiale, si svilupparono invece critiche che riguardavano i test stessi. Eels e colleghi [1951], sociologi di Chicago, misero in discussione l'imparzialità apparente dei test. Essi sostenevano che i bambini degli ambienti popolari non sono necessariamente meno intelligenti dei bambini delle classi agiate ed è piuttosto evidente che i test, per il loro contenuto familiare ai bambini delle classi agiate, favoriscono questi bambini a svantaggio di quelli delle classi popolari. Eels e colleghi, per validare la loro tesi, esaminarono i test allora in uso e tentarono di costruire un test «so84
cialmente equo», impresa che alla fine sí sarebbe rivelata quasi impossibile. La critica di Eels e colleghi fu all'origine di un'importante corrente di ricerca sulle influenze culturali nei test sulla quale torneremo in seguito. Il dibattito sul ruolo dell'ereditarietà nella spiegazione delle differenze individuali è un dibattito permanente. L'anno 1969 ne segna un momento di grande forza. Ci si interroga sull'efficacia dei grandi programmi socioeducativi promossi per la lotta contro la povertà e per l'integrazione delle minoranze nere e ispaniche. L allora che uno psicologo dell'Università di Berkeley, Arthur Jensen, pubblicò un lungo articolo in cui tentò di mostrare che: 1) i programmi socioeducativi non sono efficaci; 2) l'intelligenza e il successo scolastico nella popolazione bianca sono determinati principalmente dalla componente ereditaria; e 3) anche le differenze di prestazione tra bianchi e neri a scuola e nei test si spiegano attraverso la componente ereditaria, Non rimane quindi, secondo Jensen, che mettere fine ai programmi socioeducativi. In altri scritti, Jensen sviluppò l'idea che ci siano due forme di intelligenza, l'una nobile e creativa, l'altra semplicemente associativa, che queste forme di intelligenza siano determinate dall'eredità, che la prima sia più frequente nella popolazione bianca mentre l'altra in quella nera, e che quindi sia opportuno prevedere due modalità di insegnamento. :fensen ricevette qualche parere a sostegno della sua ipotesi: è noto quello di Eysenck, uno psicologo che fu per lungo tempo la personalità più rappresentativa della scuola psicometrica inglese, di tradizione galtoniana. Le sue tesi, comunque, che ancora una volta non riguardavano i test ma la loro interpretazione, ebbero tra gli psicologi un'attenzione limitata (in Francia, ad esempio, nessuna personalità conosciuta nel mondo della psicologia assunse pubblicamente la posizione eli Jensen). Un altro periodo intenso nel dibattito sul ruolo dell'ereditarietà nell'origine delle differenze individuali è stato quello relativo alla pubblicazione nel 1994 di The Bell Curve con la firma di Herrnstein, uno psicologo che aveva già mostrato il suo sostegno a Jensen nel 1971, e di Murray, un esperto di scienze politiche. Questi autori hanno riattualizzato le posizioni di Jensen affermando che la differenziazione sociale, negli Stati Uniti operava su una base cognitiva e che le differenze cognitive tra individui e tra gruppi erano largamente dipendenti dal patrimonio ereditario. 85
Le posizioni difese da jensen, Herrnstein e Murray sono espressione di un certo darwinismo sociale. Esse affermano che le diseguaglianze sono naturali; non vale quindi la pena dí cercare di riformare la società per ridurle, ma è preferibile organizzarla di conseguenza. Queste posizioni poggiano su due postulati: il carattere unidimensionale (che consente di farla coincidere con la stratificazione sociale) e il ruolo massiccio delle determinanti ereditarie. Oggi è ben chiaro che l'intelligenza è pluridimensionale e che, tenuto conto dei fenomeni di interazione tra il patrimonio genetico e i fattori ambientali, non ha senso cercare di quantificare il peso rispettivamente dell'eredità e dell'ambiente nel determinare le differenze individuali. Malgrado i tentativi di un certo numero di mezzi di informazione di importare queste polemiche, esse ebbero un'eco relativamente debole in Europa dove, in generale, per ragioni sia storiche sia sociologiche, le relazioni tra le comunità sono viste in termini radicalmente diversi. Si può anche notare, e ci ritorneremo, che l'uso dei test è molto più limitato nel sistema scolastico europeo (francese ed italiano, ad esempio) e che, soprattutto, le pratiche dí selezione non sono fondate sui test di intelligenza, ma in particolare sui risultati scolastici. 1.4.
I test in Unione Sovietica: dall'entusiasmo al rifiuto
All'indomani della rivoluzione d'ottobre il governo sovietico incoraggiò lo sviluppo delle psicotecniche, considerate come una disciplina scientificamente fondata e del tutto adatta a contribuire alla costruzione del socialismo. Nel 1931 si tenne a Mosca il settimo congresso di psicotecnica e i congressisti occidentali rimasero impressionati dagli strumenti di cui vennero a conoscenza e invidiarono i mezzi di cui disponevano i loro colleghi sovietici che operavano in completo accordo Con il governo del loro paese avendo coscienza di partecipare alla costruzione di una psicologia, marxista. Ma questa bella armonia non sarebbe durata. Dall'inizio degli anni Trenta cominciarono a nascere critiche contro i test e diventarono via via sempre più vive. Nel 1936 una risoluzione del comitato centrale del partito comunista relativa ai «cambiamenti nei commissariati dell'educazione» vietò molto semplicemente i test. Vennero forniti due tipi di giustificazione. Le 86
prime riguardavano quelli che sí potrebbero chiamare gli effetti perversi dei test nel sistema educativo. Si rimproverava infatti agli psicologi dell'età evolutiva clic utilizzavano test di essere responsabili del moltiplicarsi delle classi speciali e di aver preso il potere nelle scuole a danno degli insegnanti. Le seconde, di gran lunga le più importanti, erano esclusivamente dí ordine ideologico. Le ricerche sui test e la pratica psicotecnica furono giudicate incompatibili con il marxismo e di conseguenza «borghesi» e «antiscientifiche» (come la genetica mendeliana, la fisica quantistica e la psicoanalisi). La legislazione che organizzava il lavoro degli psicologi venne soppressa, l'insegnamento dei test abolito e i libri sull'argomento distrutti. Gli animatori del movimento dei test scomparvero dalla scena. Interi filoni della psicologia sovietica furono infatti liquidati e non rimase che un pavlovismo ufficiale che riduceva lo studio del comportamento alla possibilità dí evidenziarne il condizionamento. I test riapparvero in Unione Sovietica negli anni Settanta. Questa critica ideologica dei test sarebbe stata ripresa anche in Francia da numerosi intellettuali, particolarmente psicologi appartenenti al movimento comunista. 1.5. .11 dibattito sui test in Francia: la «giusta selezione» e la legittimazione delle diseguaglianze.' TI movimento dei test in Francia fu influenzato da due forti personalità: Alfred Binet ed Edouard Toulouse. L'influenza di Binet, scomparso prematuramente nel 1911, si è essenzialmente esercitata attraverso il suo test. Quella di Toulouse, benché egli fosse meno conosciuto, è stata ben più profonda. Toulouse (1865-1947) era uno psichiatra che nel corso della sua vita condusse ricerche fondamentali (particolarmente sul rapporto tra il genio e la neuropatia) e creò numerosi laboratori, proponendo soluzioni ai problemi sociali (in particolare nell'ambito della salute mentale). Toulouse era un appassionato sostenitore dei metodi oggettivi, quindi dei test. Preoccupato di spiegare i comportamenti a partire dai fenomeni psicologici elementari e dalla fisiologia, egli aderì alle posizioni riduzioniste adottate dalla maggior parte degli psicologi all'inizio del secolo (ad eccezione di Binet). I primi test elaborati da Toulouse e dai suoi collaboratori nel 1904, che assomigliavano molto alle situazioni che si incontravano nei laboratori di psicologia spe-
87
rimentale, riguardavano la valutazione dei processi psicologici elementari. Toulouse era anche profondamente impegnato nella sua epoca e propose delle riforme ispirate alla filosofia positivista che riprendevano le rivendicazioni egualitarie dei movimenti sociali del momento. -Fino agli anni Quaranta e Cinquanta, alcuni allievi di Toulouse, Henri Laugier, Jean-Maurice Lahy, Henri Pieron, furono i più ardenti promotori della psicotecnica [Huteau 19961 Per Toulouse e i suoi allievi l'utilizzo dei test non era solo un mezzo per razionalizzare la vita sociale, ma anche per promuovere di più la giustizia. Essi erano convinti che gli psicotecnici dovessero giocare un ruolo di esperti nell'ambito del lavoro, determinando per mezzo dei test le abilità necessarie all'esercizio delle professioni, orientando le politiche di formazione professionale, riformando le condizioni di lavoro e indagando sulle cause degli scioperi. L'obiettivo prefisso era quello di ripartire più equamente il «compito sociale» tra gli operai e i padroni. Toulouse e i suoi allievi videro anche in un orientamento professionale fondato su misure di abilità un mezzo per correggere le diseguaglianze di accesso all'educazione. Più sostanzialmente, essi si proclamarono senza riserve per una scuola unica (fino alla seconda guerra mondiale ci furono infatti due scuole: la scuola primaria, con un proseguimento alla scuola primaria superiore, frequentata da bambini di origine popolare, e le classi primarie dei licei con il liceo come proseguimento naturale, riservate ai bambini delle classi agiate) e proposero, all'uscita da un «tronco» comune, «una giusta selezione» fondata su misure di abilità oggettive. Negli anni Venti e Trenta vennero presentate numerose proposte di legge per organizzare il sistema di insegnamento in questa prospettiva. L'uso dei test in questo modo proposto, dall'inizio clel secolo all'indomani della seconda guerra mondiale, s'inscrive nel quadro di una politica rivolta a riformare in senso progressista il sistema sociale. Ciò spiega il fatto che i test siano stati percepiti come strumenti al servizio del progresso sociale nel movimento sindacale e nel movimento socialista, e come tecniche pericolose, di cui si contestava la validità, nell'ambiente borghese conservatore. Questi dibattiti non avevano molto a che vedere con quelli che si stavano sviluppando pressoché nello stesso momento oltreoceano. Malgrado il loro ardore, Tou88
louse e i suoi allievi non riuscirono se non parzialmente ad imporre il proprio punto di vista. Certamente i test furono sempre più utilizzati nella selezione e soprattutto nell'orientamento professionale, ma la selezione scolastica continuò ad avvenire precocemente e su una base sociale. Il progetto psicotecnico rimase un'utopia. All'indomani della seconda guerra mondiale, il paesaggio cambiò radicalmente: le critiche più vive rivolte ai test non vennero più dai settori conservatori dell'opinione pubblica ma dagli intellettuali e dagli psicologi membri o simpatizzanti del partito comunista, che trovavano perfettamente giustificate le misure prese in Unione Sovietica nel 1936 (gli echi e le influenze di questo dibattito si sarebbero fatti sentire anche in Italia). I test vennero presentati come un mezzo «per confermare, per legittimare, e anche per far accettare le disegnaglianze dell'ordine sociale» («La Raison», 1952, n. 4). Mettendo in primo piano la funzione ideologica attribuita ai test, non si insisteva sul fatto che lo scarto tra bambini cresciuti in ambienti favorevoli o sfavorevoli fosse minore con i test che con i voti scolastici. Gli psicologi degli anni Trenta che pensavano di contribuire al progresso sociale promuovendo l'uso dei test vennero considerati degli idealisti ingenui. Intorno al 1.968 numerose opere avrebbero ripreso queste tesi, attenuandole o radicalizzandole [Salvat 1969; 'fon 19741. Come negli Stati Uniti, ín Gran Bretagna questi dibattiti e polemiche riguardarono soprattutto la scuola e la selezione scolastica. Ma a differenza di ciò che si è visto in questi due paesi, in Francia e in Italia essi hanno mantenuto un carattere accademico e astratto che deriva dall'assenza di un vero scopo sociale. Si trattava cioè di mettere in gioco delle questioni ideologiche piuttosto che delle pratiche sociali. In effetti, in Francia i test non sono mai stati utilizzati come mezzo di selezione scolastica (ad eccezione dell'insegnamento «speciale» per i portatori di handicap). I test sono stati massicciamente utilizzati nell'insegnamento secondario dalla fine degli anni Cinquanta all'inizio degli anni Ottanta, ma gli orientamenti sono sempre stati basati sulla valutazione scolastica. I dibattiti più vivaci sui test, quelli condotti da un punto di vista sociopolitico, non riguardavano i test come metodi di osservazione, bensì l'origine delle differenze individuali e l'equità delle procedure di inserimento sociale. Queste domande non 89
ebbero risposte scientifiche soddisfacenti, primo perché ]e conoscenze scientifiche non erano sufficienti, e secondo perché la questione riguardava una scelta di valori, che ha suscitato dibattiti con una forte componente ideologica, opponendo concezioni globali dell'uomo e della società [Lemaine e Matalon 1985]. Da allora, non è sorprendente che questi dibattiti non si siano conclusi e che a seconda del contesto sociostorico abbiano preso forme diverse. 1.6. 11 dibattito sui test in Italia La discussione sui test di intelligenza è notoriamente stata associata a dibattiti sulle differenze in razze diverse, in uomini e donne, in individui di ambienti differenti, e anche in Italia è stata condotta, sia pur in maniera meno massiva che in altri paesi, sul fondamento dell'uso dei test. Soprattutto negli anni successivi al 1968, i test di intelligenza venivano messi in discussione in quanto strumenti utilizzati dalla società «borghese», e venivano attaccati proprio per questa ragione. In quegli anni, per esempio, il sistema echicativo italiano si era organizzato in modo sistematico. prevedendo classi diverse non solo per bambini con gravi difficoltà, ma anche per bambini con difficoltà più lievi che tuttavia sembravano abbisognare cli un percorso educativo particolare. Si, parlava nel primo caso di classi speciali e nel secondo caso di classi differenziali. Per le classi speciali era prevista una diagnosi basata sostanzialmente sui test di intelligenza; per le classi differenziali questo uso era meno diffuso, ma poteva comunque essere presente. E noto che le classi speciali e le classi differenziali costituivano una modalità di isolamento e di ghettizzazione di certi bambini. In Italia si era infatti sviluppato un movimento pionieristico contro questa segregazione, e quindi contro uno degli strumenti cli questa segregazione, il test di intelligenza. Tra l'altro a quell'epoca si rilevava come esistesse una chiara relazione tra svantaggio socioculturale e basso punteggio ai test di intelligenza. Questo tipo di rapporto era stato trovato non solo in altri paesi del mondo ma anche ín e aveva appunto portato alla sottolineatura dei test «culture fair» per i quali la valenza socioculturale era meno presente. Un par90
ticolare caso, localizzato ma estremamente interessante, di questa attività di segregazione svolta usando il nome di prestigio di una cosiddetta scienza, è rappresentato dalla discriminazione operata sulle comunità culturali. Se questo può essere avvenuto in Italia su bambini particolarmente svantaggiati o su bambini di minoranze culturali e linguistiche, la discriminazione più clamorosa riguardò invece i bambini figli dí italiani che erano all'estero. Alcuni studiosi italiani rilevavano come i figli di italiani in Germania finissero quasi tutti in classi che avevano le caratteristiche simili alle classi speciali o differenziali italiane proprio in base al fatto che avevano ottenuto punteggi bassi ai test di intelligenza. Emerse in modo evidente che i test di intelligenza erano fortemente caratterizzati dal punto di vista linguistico e i bambini che non conoscevano bene la lingua tedesca chiaramente fallivano. Era molto amaro constatare che uno strumento nato per fini di sviluppo di conoscenze offrisse una modalità per emarginare minoranze non gradite. In seguito a questi eventi ci furono molte iniziative in Italia contro i test di intelligenza, comparvero diversi lavori sia in libri sia in riviste scientifiche non solo riferite alla comunità strettamente psicologica, ma anche a comunità píù ampie. Per esempio la rivista «Sapere» pubblicò interventi contro questo uso dei test di intelligenza. Cadi, Padovani e Trentini riconoscono due correnti di pensiero relative ai test di intelligenza all'interno della psicologia sociale, l'una contraria, dei «clinici», e l'altra favorevole, degli «psicometristi» [Cadi 1972]. La critica ai test, che partiva da fondamenti giusti ma chiaramente faceva riferimento solo a questi cattivi usi degli strumenti, si allargò a tal punto che in quegli anni l'uso degli strumenti divenne sempre più raro e per parecchio tempo fu considerato scientificamente inappropriato e anche politicamente reazionario fare riferimento al concetto di intelligenza associato all'uso di strumenti. Oggigiorno le posizioni non sono più così estreme e la critica è molto meno aspra. Il test ha acquistato di nuovo una valenza priva di connotazioni ideologiche che lo definisce come strumento di diagnosi più o meno apprezzato nel campo della psicologia. Il problema a cui si è più sensibili non è tanto la «bontà» o meno dell'utilizzo del test, ma l'uso corretto delle informazioni che fornisce. 91
2. Le pratiche attuali In diversi paesi del mondo i test di intelligenza sono utilizzati con obiettivi abbastanza differenti nei tre grandi settori di applicazione della psicologia: ambito educativo, sanità e lavoro. 2.1.
L'utilizzo dei test di intelligenza in ambito educativo
Quando l'importanza dei problemi lo giustifica, lo psicologo può fare un esame psicologico del bambino, chiedendo naturalmente l'autorizzazione ai genitori. L'esame psicologico comporta in generale numerosi elementi, variabili secondo la natura del problema posto: colloqui con i genitori, colloqui con il bambino, test di conoscenza scolastica, prove di personalità, ecc. Tra questi elementi, i test di intelligenza occupano un posto preponderante, specialmente per l'uso di scale a somministrazione individuale. In ambito scolastico in Italia i test di intelligenza veri e propri non sono largamente utilizzati, soprattutto quando vengono presentati come tali, per la diffidenza che esiste in relazione alla misurazione dell'intelligenza e anche per l'indicazione spesso presente di evitare di pervenire a misure che riguardano la sfera più personale dello studente. Questa situazione però cambierà con l'introduzione dello psicologo scolastico che potrebbe essere incaricato di mansioni più strettamente psicologiche e anche impegnato ad esami approfonditi dello studente. D'altra parte già adesso nell'ambito della scuola figure quali lo psicopedagogista o lo psicologo in convenzione possono collaborare nella raccolta di informazioni relative ad abilità cognitive specifiche che in qualche modo costituiscono componenti dell'intelligenza. Per esempio in alcuni casi è stato usato il test di intelligenza PMA che offre informazioni relative a componenti distinte, faitorialmente isolate, dell'intelligenza quali il ragionamento, le abilità visuospaziali, le competenze semantiche, ecc. Inoltre i Servizi che collaborano con la scuola sono spesso chiamati a esami dei bambini che coinvolgono la misurazione dell'intelligenza. Per esempio per la diagnosi cli handicap mentale si procede di routine a una valutazione dell'intelligenza per vedere se ef 92
fettivamente il bambino presenta un potenziale intellettivo che è al dí sotto del valore critico di soglia (di solito posto a 70). Similmente, per la valutazione dei disturbi specifici dí apprendimento, quali per esempio la dislessia, la discalculia, í disturbi di attenzione, si procede di routine ad escludere la possibilità che le difficoltà del bambino siano associate ad un deficit intellettivo vero e proprio. Sia per la diagnosi dí ritardo mentale, sia per la diagnosi di disturbo specifico di apprendimento, si procede pertanto alla valutazione dell'intelligenza e lo strumento più utilizzato in questo caso è costituito dalla scala WISC. In 'Francia le più utilizzate sono le scale di Wechsler, le più note anche in Italia (WPPSI a livello prescolare e WISC a livello di scuola elementare), la nuova scala metrica dell'intelligenza (adattamento del test Binet-Simon ad opera dí R. Zazzo e collaboratori) e, molto più raramente, scale ispirate alla teoria piagetiana o il K-ABC. I risultati a questi test sono interpretati nel quadro di una diagnosi clinica, messi in relazione all'insieme di informazioni raccolte nel corso dell'esame psicologico. Le informazioni fornite dal test di intelligenza si rivelano particolarmente utili nel momento in cui lo psicologo vuole sapere se le difficoltà incontrate dal bambino sono riferibili ad un ritardo globale dello sviluppo intellettivo o a dei disturbi strumentali più specifici, ad esempio disturbi nell'apprendimento della lettura, della scrittura o del calcolo, o ancora a dei disturbi relazionali, con la famiglia o l'insegnante. Le indicazioni numeriche come il QI o la posizione nel gruppo di età danno dei riferimenti il cui significato dipende da altri elementi raccolti nel corso dell'esame, ma anche da osservazioni fatte nel corso della somministrazione del test di intelligenza: atteggiamento di fronte alla novità, atteggiamento di fronte al fallimento, reazioni emotive, comunicazione, ecc. Le soluzioni proposte dallo psicologo per ridurre í problemi che hanno portato alla consultazione possono essere semplici consigli agli insegnanti o ai genitori, indicazioni di rieducazione o sostegno appropriato ai disturbi specificamente diagnosticati (dislessia, discalculia, disturbi psicomotori, ecc.), operati da un gruppo di lavoro (comprendente lo psicologo, riabilitatori e insegnanti di sostegno che intervengono in un settore scolastico). In Francia, mediante i test viene valutata l'am93
missione a classi di insegnamento speciale (mentre in Italia le classi speciali sono state quasi completamente abolite e il punteggio di QI è stato invece spesso utilizzato per l'assegnazione al bambino di un insegnante di sostegno). L'inserimento in classi speciali è valutato in Francia da una commissione dipartimentale per l'insegnamento speciale, o da un organo locale, che ha come interlocutori i genitori dell'allievo. I risultati ai test di intelligenza, interpretati dagli psicologi scolastici, sono uno degli elementi determinanti su cui la commissione si basa per valutare l'opportunità di inserimento in una classe speciale. La domanda sociale che aveva motivato Binet a costruire il primo test di intelligenza esiste ancora oggi e i test che discendono da quella prima scala di intelligenza rispondono tuttora a quella domanda. La questione dell'utilizzo dei test di intelligenza si pone in modo del tutto diverso nell'ambito dell'orientamento scolastico e professionale. In Francia si contano circa 4.000 esperti di orientamento-psicologi che intervengono soprattutto nell'insegnamento secondario. Il loro compito principale è di aiutare i giovani a decidere riguardo al proprio futtiro scolastico e professionale. Questo aiuto nella formazione delle scelte e nella decisione avviene, ben inteso, con l'apporto di informazioni sulla rete scolastica, le professioni, il mercato del lavoro, ma anche con l'apporto di informazioni utili a far prendere coscienza al soggetto stesso delle proprie potenzialità e dei propri interessi. Tra le differenti tecniche che il consiglio di orientamento può utilizzare per raccogliere informazioni relative a questi ultimi aspetti (passatempi, questionari sugli interessi, scale di maturità «vocazionale», ecc.) figurano anche i test di intelligenza, il cui utilizzo in questo ambito è divenuto tuttavia piuttosto marginale. Non è comunque sempre stato così. I test sono stati utilizzati in modo piuttosto massiccio e sistematico dai «consigli sull'orientamento» in un periodo che va dalla metà degli anni Cinquanta circa agli inizi degli anni Ottanta. Questo periodo è stato quello dell'estensione dell'insegnamento secondario a fasce sempre più numerose di giovani. Sulla linea di idee della «giusta selezione» che hanno ispirato lo sviluppo della corrente psicometrica nella scuola francese, ci si è serviti dei test di intelligenza per individuare tra gli studenti i cui risultati scolastici lasciavano a desiderare quelli con scarse possibilità di successo 94
nella scuola secondaria. I test utilizzati erano batterie fattoriali collettive del tipo della batteria PIVI A che è stata presentata nel capitolo precedente. Questo impiego massiccio dei test, motivato da buone intenzioni, si è rapidamente trasformato in abuso, con l'apparizione, ad esempio nella regione parigina, dei mezzi informatici di correzione. Si è verificato che gli esperti di orientamento passavano da una classe all'altra con le loro valigie di test collettivi, inviando i protocolli al centro di calcolo del - servizio accademico, e ricevendo indietro delle liste che fornivano per ogni allievo un profilo di abilità. Ciò da una parte portava ad annientare il numero di casi esaminati, dall'altra si perdeva in ricchezza di informazioni raccolte su ogni individuo e la discussione con gli insegnanti avveniva su una base Molto povera. Emerse presto che l'accordo tra esperti di orientamento e insegnanti sull'interesse dei test, quando esisteva, poggiava spesso su un malinteso. Mentre gli esperti di orientamento cercavano di rivedere í casi di disaccordo tra i risultati ai test e i risultati scolastici, gli insegnanti si soffermavano sui casi di accordo – molto più numerosi – nei quali vedevano una legittimazione della classificazione scolastica. Questa pratica sistematica dei test collettivi di abilità è diminuita rapidamente a partire dalla fine degli anni Settanta per scomparire poi quasi completamente. Il movimento di contestazione dei test ha senza dubbio giocato un ruolo importante in questo rapido riflusso, tanto più che l'organizzazione degli esami collettivi era effettivamente suscettibile di critiche da numerosi punti di vista. Ma in particolare questo riflusso ha coinciso con una profonda ristrutturazione del ruolo dell'esperto di orientamento. Da un lato, la ricerca di talenti nascosti non aveva più interesse a partire dal momento in cui si era acquisita la generalizzazione dell'insegnamento secondario; dall'altro, gli esperti di orientamento si sono sempre più identificati in una funzione educativa di aiuto allo sviluppo personale e alla formazione delle scelte. 2.2. L'utilizzo dei tesi di intelligenza in ambito sanitario In ambito sanitario, in tutto il mondo, è frequente l'utilizzazione dei test di intelligenza, al fine di ottenere una informazione complessiva dell'efficienza intellettiva dell'individuo o 95
per venire incontro a scopi specifici. Si,è già menzionato, in relazione all'ambito scolastico, come i Servizi sociosanitari possano essere impegnati in una valutazione dell'intelligenza che permetta di meglio riconoscere le caratteristiche sottostanti ad una difficoltà di apprendimento. Per quanto concerne l'ambito dell'adulto, in tutti i casi in cui il funzionamento cognitivo di un individuo pone delle problematiche, può essere opportuno associare una valutazione intellettiva, e questo può per esempio riguardare le difficoltà che presentano certi anziani, per meglio comprendere la natura di un eventuale deterioramento senile. In questo caso ai classici test di intelligenza si associano test più semplici e direttamente finalizzati all'esame dell'anziano. Per esempio, una procedura rapida che permette di riconoscere la permanenza di certe funzionalità cognitive, anche in presenza di un indubbio deterioramento, è rappresentata dal Mini-Mental State che offre una informazione complessiva sullo stato dell'anziano e viene utilizzato di frequente nella realtà psichiatrica italiana, proprio per le sue caratteristiche di semplicità d'uso e rapidità. Obiettivi ed esigenze analoghe possono presentarsi infatti in ambito psichiatrico ove spesso si è ricorso, e si ricorre tuttora, alla raccolta di informazioni sullo stato generale del paziente, valendosi anche del test di intelligenza. Anche in questo caso lo strumento conseguente alle procedure ideate da Wechsler, si tratta allora del WAIS, può essere di ampia utilizzazione. In ambito più strettamente neo ropsicologico esiste una marcata preferenza per una diagnosi che si riferisca alla specifica lacuna del soggetto, che spesso è ben localizzabile o comunque dissociabile da altre componenti intellettive che invece hanno un buon funzionamento. Tuttavia anche in questo caso un esame di fondo può prevedere l'uso di un test di intelligenza. In Italia e in Francia si contano diverse migliaia di psicologi attivi in ambito sanitario. Hanno una specializzazione in psicologia clinica e intervengono in vari quadri istituzionali: ospedali psichiatrici, ospedali generali, associazioni, collettività territoriali (ad esempio, circoscrizioni sanitarie e sociali), case di cura private, istituzioni giudiziarie, ecc. Nel settore psichiatrico, le consulenze a livello dell'età evolutiva hanno spesso origine da problemi di adattamento scolastico. L'impiego di test di intelligenza nell'esame psico96
logico assume allora le stesse funzioni che per gli psicologi scolastici. Nelle consulenze con adulti, l'esame psicologico avviene in ambito psichiatrico. L'inclusione di test di intelligenza nell'esame psicologico può essere motivata dal problema diagnostico incontrato. Si può ad esempio operare una distinzione tra turbe psichiche e ritardo mentale generale, definire un ipotetico deterioramento mentale in una persona anziana, conoscere la misura in cui l'evoluzione di un disturbo psichiatrico ha colpito la funzionalità intellettiva, ecc. Lo psicologo che compie l'esame può ricorrere a un test di intelligenza per avere un'idea generale di come il soggetto si comporta di fronte a un compito da risolvere, del modo con cui Io affronta, del suo atteggiamento di fronte alle difficoltà, delle sue reazioni emotive. Nell'ambito non psichiatrico, i test di intelligenza vengono utilizzati nelle consultazioni di neuropsicologia, tra i diversi strumenti impiegati per fare il bilancio dei danni neurologici conseguenti a lesioni cerebrali. Nei servizi di medicina generale, essi possono essere utilizzati nel caso in cui si tratti di valutare le eventuali ripercussioni di un disturbo somatico sullo sviluppo intellettivo (se ad esempio un disturbo della crescita fisica ha o meno delle ripercussioni sullo sviluppo intellettivo del bambino). Un test di intelligenza può anche aiutare a precisare la parte di realtà e la parte di sofferenza psicosomatica nel caso in cui un paziente lamenti che le sue capacità intellettive non sono più come prima (e la diagnosi in questi casi può diventare terapeutica). Nell'ambito giudiziario, un esempio di impiego dei test di intelligenza è quello volto ad apprezzare la credibilità di una testimonianza. La varietà dei casi in cui i test di intelligenza possono apportare informazioni utili nell'esame psicologico lascia pensare che il loro impiego sia abbastanza frequente in ambito sanitario. Un'indagine recente condotta in Francia lo conferma [Castro, Meljac e Joubert 19961. Tra gli psicologi clinici interrogati, l'88% considera l'utilizzo dei test indissociabile dalla loro pratica. Tra i dieci test più usati cinque sono test di intelligenza (la WISC, la WAIS, la WPPSI, il K-ABC e la scala di BrunetLézine, che è una scala di sviluppo per la prima infanzia). Questa situazione è del tutto simile a quella che si è potuta osservare su scala mondiale in una ricerca riguardante i test più utilizzati in 44 paesi [Oakland e Hu 1992], dove è emerso che fra 97
i primi dieci test più utilizzati cinque sono di intelligenza: 1) \XTISC, 2) Matrici Progressive di Raven, 3) scala Stanford-I3inet, 4) test di attitudini differenziali, 5) WAIS, mentre gli altri cinque sono test di personalità. Il movimento di critica dei test che ha caratterizzato gli anni Settanta aveva anche provocato una riduzione nell'impiego di prove standardizzate, tra gli psicologi clinici. In questo ambito è stato essenzialmente sulla base della psicoanalisi, sulla quale è principalmente fondata la psicologia clinica in Francia, che si è sviluppato questo movimento critico. L'inchiesta a cui si è fatto riferimento in precedenza mostra che la situazione è decisamente cambiata: «Per lungo tempo percepiti come gli strumenti servili della classificazione a tutti i costi o come degli ostacoli inutili sulla via della relazione con l'altro, e quindi considerati come «gli oggetti cattivi dello psicologo», i test nella nostra indagine sembrano aver ritrovato il loro posto nell'attività valutativa quotidiana dello psicologo clinico» [Castro, Meljac e joubert 1996, 76]. 2.3. .L'utitízzo dei test di intelligenza nel lavoro Nell'ambiente del lavoro, i test sono talvolta utilizzati nel corso di procedure di reclutamento o di orientamento, talora, più raramente, anche come aiuto nella decisione sulle competenze. L'uso dei test di intelligenza ín ambito lavorativo è ampiamente diffuso anche in Italia. Per esempio, nella selezione del personale si ricorre frequentemente alla misura dell'intelligenza generale, misura che si dimostra discretamente o altamente predittiva della capacità lavorativa della persona che richiede di essere assunta, in base alla sottostante indicazione che persone più intelligenti riescono comunque ad essere in generale, anche se non sempre, migliori lavoratori. Va aggiunto che in processi di selezione meglio mirati non ci si basa su un'assunzione di abilità intellettiva generale unica, ma invece sulla considerazione di abilità differenziate, nell'ipotesi che per certi compiti sia meglio che il lavoratore presenti abilità in certe componenti e per altri in altre. Per esempio, se si deve assumere un impiegato che deve essere abile nell'esaminare carte e nel produrre documenti, le abilità linguistiche possono essere più importanti di quelle visuo-spaziali, cosa che al contrario può essere richiesta nella se98
lezione di operatori per mansioni come potrebbero essere quelle legate nell'orientamento nello spazio. Due casi un po' a margine dell'ambiente di lavoro, che però costituiscono esempi significativi di utilizzazione dei test di intelligenza, sono rappresentati dal mondo militare e dall'esame di guida. In ambito militare l'uso dei test di intelligenza è stato sempre amplissimo, tanto che le somministrazioni più estese e le standardizzazioni con elevati numeri di soggetti hanno interessato l'esercito. Anche l'esame di guida può richiedere l'uso di test cognitivi, per valutare la capacità della persona ad affrontare situazioni particolari; tuttavia in questo caso generalmente si sottolinea l'importanza di usare test più specificamente legati ai compiti della guida, come per esempio prove di attenzione. In Francia un caso interessante che mostra l'applicazione dei test al mondo del lavoro è quello che riguarda le imprese di trasporti. In queste aziende, i test erano inizialmente utilizzati solo per il reclutamento degli autisti o dei macchinisti. Negli anni Sessanta, in Francia, il loro utilizzo si è esteso al reclutamento per altre mansioni di sicurezza, poi, negli anni Settanta, alle funzioni commerciali e infine al reclutamento per tutte le mansioni. Questa rivoluzione della politica di reclutamento è avvenuta in completo accordo con i sindacati. Da allora, í candidati all'impiego nelle ferrovie francesi (SNCF), che sono diverse migliaia ogni anno, sono sottoposti a una batteria composta di test di intelligenza, test psicomotori e test di personalità. Questa batteria viene proposta anche nel corso della carriera per ragioni di riorientamento o di promozione. I test di intelligenza sono test fattoriali analoghi al PMA presentato nel capitolo precedente; corrispondono ai fattori principali classicamente individuati nelle analisi fattoriali di compiti intellettivi: verbale, numerico, spaziale, di ragionamento e percettivo. La batteria è composta anche da qualche test più specifico che valuta l'efficienza in compiti di confronto, caratteristici di attività di ufficio, o in compiti di attenzione (gestione simultanea di diversi stimoli) tipici di certi impieghi nel campo della sicurezza. La somministrazione di queste prove è informatizzata e dura circa un'ora e trenta minuti. Questo tipo di somministrazione ha vantaggi di flessibilità e consente una correzione au99
tomatica. La batteria è stata standardizzata su un campione di 7.000 soggetti. La validazione non ha riguardato alcuna delle prove prese singolarmente, ma la globalità della prova, più O meno favorevole al reclutamento in una mansione specifica, che lo psicologo fornisce a partire dall'insieme delle informazioni raccolte. Per quanto riguarda i test di intelligenza, lo psicologo si interessa solitamente dell'andamento del profilo di abilità e del suo adeguamento alla funzione postulata. A titolo d'esempio, un profilo in cui dominano le abilità verbali è giudicato più compatibile con le funzioni commerciali che un profilo nel quale queste abilità costituiscono un punto debole. profilo di abilità viene valutato anche dal punto di vista della sua coerenza – o della sua incoerenza – con la formazione del soggetto o il suo diploma. Le questioni che nascono dalla relazione tra i risultati al test ed altri elementi di informazione costituiscono gli argomenti di colloquio con il candidato. L'esame psicologico comporta in effetti due colloqui, uno prima della somministrazione dei test, l'altro sulla base dei risultati. Nel corso del colloquio finale, lo psicologo indica al candidato il giudizio più o meno favorevole sulla mansione richiesta, che trasmetterà alla persona incaricata dell'assunzione del personale (il parere dello psicologo non è che uno degli elementi presi ín considerazione per la decisione di assunzione). Se il candidato lo desidera, lo psicologo gli fornisce anche un resoconto sui punti forti e deboli del suo profilo di risultati e, all'occorrenza, un consiglio per l'orientamento.
QUADRO 2.
che colloca la prestazione del soggetto in relazione a quella della sua popolazione di riferimento. L'informatizzazione della somministrazione razione può infine dare informazioni sui tempi di risposta ai differenti item e più in generale sulla gestione del tempo nel corso della prova. Un secondo livello di utilizzo delle risorse informatiche consiste nel rendere la somministrazione interattiva. In questo caso, il computer è programmato per adattare gli item da proporre alle risposte del soggetto. Ciò consente di determinare abbastanza rapidamente, con domande critiche, il livello di difficoltà che un soggetto è in grado di superare e, una volta definito questo limite, di determinare il livello di efficienza all'interno. Questa somministrazione personalizzata, che riduce rapidamente il campo degli item utili, consente di ridurre i tempi di somministrazione conducendo ad una diagnosi più sensibile. Il terzo livello di utilizzo delle risorse informatiche consiste nel formulare un modello dei processi cognitivi in gioco nella soluzione del test e concepire su
questa base la situazione di test (insieme degli item concepiti per isolare i diversi processi ipotizzati) e gli indici comportamentali (caratteristiche dei tempi di risposta e degli errori) che permetteranno di caratterizzare all'interno di questo modello i processi messi in atto da ogni soggetto. A questo livello non si tratta più soltanto di inserire i test esistenti su di un supporto informatico per utilizzarli in modo più efficace, ma di concepire nuovi test in funzione delle nuove possibilità aperte dall'informatica per l'analisi dei processi cognitivi. L'informatizzazione fornisce i mezzi per analizzare in tempi reali una grande quantità di informazioni grazie alle quali è possibile creare un modello della dinamica del comportamento del soggetto nel corso della risoluzione del test. I tentativi fatti a questo livello sono ancora molto rari. Gli ostacoli sono soprattutto teorici: le nostre conoscenze sui processi cognitivi umani consentono per ora di creare solo modelli piuttosto grossolani della dinamica di soluzione di problemi di un soggetto.
L'INFORMATIZZAZIONE DEI "l'Est
Si possono distinguere tre grandi livelli di utilizzo dell'informatica nella testistica. La prima consiste nel presentare su di tino schermo gli item che prima erano mostrati su carta e far scegliere la risposta corretta con la tastiera o il mouse piuttosto che segnando con la matita. Uno dei vantaggi dell'informa 100
tizzazione è quello di evitare alcune delle costrizioni della somministrazione collettiva, permettendo ad ognuno di procedere secondo il suo ritmo sulla sua postazione di lavoro. Un secondo vantaggio non trascurabile è quello di automatizzare la correzione: è possibile avere alla fine della somministrazione il listato
L'utilizzo dei test è tradizionale e sistematico anche nell'esercito, nelle procedure di selezione delle giovani reclute. Per selezionare e orientare le 400.000 reclute che l'esercito chiama ogni anno, in Francia è stata messa a punto una procedura in cui i test di intelligenza hanno un ruolo importante. I test utilizzati sono dei test fattoriali di abilità del tipo eli quelli del PMA e dei test psicomotori. Come in tutti i casi in cui si debba 101
esaminare un gran numero di soggetti, l'esercito si è orientato verso l'informatizzazione della somministrazione. Nel quadro 2 si possono trovare alcune precisazioni sull'evoluzione che l'informatizzazione ha provocato nel mondo dei test. Il sistema ESPACE (impiego di un sistema di somministrazione automatica e di correzione degli esami) messo a punto dall'esercito si situa al secondo dei livelli di utilizzo dell'informatica, con l'ambizione di evolvere verso il terzo di questi livelli, almeno sul piano della ricerca. La batteria di test include i test psicomotori e i test fattoriali di intelligenza corrispondenti alle principali abilità. Ogni soggetto svolge le prove in una cabina chiusa che lo pone in condizioni d'isolamento analoghe a quelle che egli potrebbe sperimentare ad esempio nella cabina di pilotaggio di un carro armato. Egli è di fronte ad una postazione di lavoro che possiede dei dispositivi per i quali può ricevere informazioni (uno schermo e degli altoparlanti) e dei dispositivi con i quali rispondere (bottoni, maniglie e pedali). La somministrazione è interattiva. Ad esempio, se le prime informazioni fornite per iscritto sono comprese male e fanno sospettare un problema dí analfabetismo, le informazioni vengono presentate oralmente nel corso dell'esame. Secondo la medesima logica, la somministrazione è organizzata in modo che il soggetto raggiunga in ognuna delle prove il limite delle sue capacità dí apprendimento e delle sue capacità attentive (aggiungendo, una volta raggiunto il tetto di apprendimento, un numero crescente di compiti concorrenti che devono essere svolti contemporaneamente). I profili di abilità nella batteria dei test vengono utilizzati per inserire le reclute nelle otto grandi categorie di impiego definite dall'esercito (ad esempio, addetto alle armi da combattimento, tiratore con armi di grosso calibro, ecc.). Le predizioni fatte sulla base dei test sono state validate prendendo come criterio il successo in diversi impieghi. La validazione dei test utilizzata in procedure di selezione professionale pone spesso un problema difficile nella misura in cui non può poggiare che sui risultati dei soggetti selezionati. I coefficienti di validità tra í risultati ai test all'ingresso e l'ulteriore successo professionale, o il successo ulteriore in una formazione selettiva, sono spesso deboli per la debole dispersione delle performance al test di coloro che vengono selezionati (poiché la selezione ha favorito solo quelli con i punteggi più ele102
vati). L'ideale sarebbe scegliere i soggetti completamente a caso, senza tenere conto dei test, per poter validamente calcolare in seguito la correlazione tra un certo profilo ai test e il successo in diverse categorie di professioni. Questa opportunità è stata offerta ai servizi psicotecnici dell'esercito, a titolo sperimentale ín alcune unità dell'esercito, per validare la procedura dí selezione ESPACE (stando attenti affinché i soggetti non vengano in alcun modo danneggiati da questa procedura, e vengano riassegnati secondo le loro abilità dopo un periodo di prova). Questi esempi di utilizzo sistematico dei test di intelligenza come elementi considerati ai fini del reclutamento non devono far pensare che questa pratica sia diffusa. In Francia le procedure di reclutamento nelle imprese sí basano essenzialmente sul curriculum vitae (come in Italia), su un colloquio non strutturato e, spesso, sull'analisi grafologica. La grafologia è una peculiarità francese [Levy-Leboyer 994] tanto più sorprendente se si considera che studi metodologicamente rigorosi non hanno mai mostrato una qualsiasi validità di questa forma di valutazione. Secondo le indagini che hanno riguardato i metodi di selezione utilizzati dalle imprese o dalle agenzie di reclutamento, la percentuale di selezioni in cui è utilizzata la grafologia, quasi nulla negli altri paesi del mondo, in Francia va dal 93% [Bruclion-Schweitzer e FerfiCLIX 1991] al 49% dei casi [Shackleton e Newell 1991]. I test cognitivi e i questionari di personalità sono utilizzati in modo simile, nel 30% dei casi circa. Nel settore del lavoro, test fattoriali d'intelligenza vengono talvolta utilizzati anche per l'orientamento ad una formazione qualificante. Questo tipo di impiego è abbastanza sistematico presso l'Associazione per la formazione professionale degli adulti (AFPA), che propone diversi stage di formazione agli adulti con l'obiettivo di fornire una qualificazione o un reinserimento professionale. I profili ottenuti ad una batteria di test fattoriali di abilità è uno degli elementi che vengono presi in considerazione per l'orientamento dei candidati nella scelta dei diversi stage proposti dall'AIDA: stage preparatori piuttosto che direttamente una formazione qualificativa e, in questo secondo caso, tra le diverse formazioni qualificative. I test di intelligenza sono talvolta utilizzati anche in centri «di bilancio delle competenze». Questi centri sono stati istituiti in Francia da una legge del 1991 che ha aperto a tutti i dipendenti delle aziende, e più in generale a tutti i volontari, il di103
ritto di analizzare le proprie competenze professionali e personali ed anche le attitudini e le motivazioni al fine di definire un progetto di formazione e/o un progetto professionale. Chiunque lo desideri può chiedere di beneficiare di un bilancio di competenze, il cui costo può essere addebitato alla voce «piano di formazione» sia della sua ditta, sia di un organismo simile. Non è raro che le persone che chiedono di beneficiare di questo servizio esprimano, agli psicologi che lavorano in questo centro e li aiutano a fare il bilancio delle loro competenze, il desiderio di includere test di intelligenza tra gli elementi di valutazione. Riassumendo, questa presentazione dei principali impieghi dei test di intelligenza, soprattutto in Francia, mostra che, nell'ambito dell'educazione e della sanità, i test sono principalmente utilizzati per l'aiuto diagnostico, mentre, nell'ambito del lavoro, essi sono impiegati soprattutto per l'inserimento sociale. Nel primo caso sono utilizzate soprattutto le scale di intelligenza a somministrazione individuale, mentre nel secondo caso i test fattoriali a somministrazione collettiva, con un interesse marcato per l'analisi del profilo di abilità. In questo secondo caso, l'informatizzazione dei test e la somministrazione individuale su di un terminale video tendono a rimpiazzare la somministrazione in gruppo nella forma carta e matita.
Etica e deontologia
3.
La preoccupazione di disporre cli test affidabili ed equi ha condotto a definire rigide norme per la loro costruzione e applicazione, accordando, soprattutto negli Stati Uniti, un posto particolare all'individuazione di eventuali errori (biases) culturali. In parallelo, mentre gli psicologi elaboravano codici deontologici, è stata messa a punto in numerosi paesi una regolamentazione alle pratiche di testing, al fine di fornirne un quadro anche giuridico. 3.1.
Norme e «biases» culturali
Definite da gruppi di psicologi di riconosciuta competenza, essenzialmente tecnici e professionisti, le norme forniscono criteri per valutare la qualità dei test (non semplicemente i test di 1.04
intelligenza ma anche, naturalmente, i test di conoscenza scolastica e i questionari di personalità) e le pratiche che li riguardano. Tutti gli studiosi e gli utilizzatori dei test sono invitati a conoscerle. Alcune di queste norme sono molto dettagliate. Quelle pubblicate negli Stati Uniti e adattate regolarmente dal 19.54, gli Standards for Educational and Psycbological Testing, ch gran lunga le più complete, riempiono un buon centinaio di pagine. Per quanto riguarda la costruzione dei test, le norme richiamano le esigenze della metodologia psicometrica. Si insiste naturalmente sulla necessità di disporre di informazioni riguardanti la validità delle prove (validità teorica e validità empirica in relazione agli obiettivi proposti) e la loro fedeltà. Si raccomanda anche di procedere a periodiche revisioni dei test. Que ste devono infatti poter beneficiare delle ricerche condotte sulla versione precedente ed è necessario dunque verificare periodicamente che siano sempre adeguate agli obiettivi preposti. Si sottolinea infine che è assolutamente necessario disporre di punteggi standardizzati il più possibile attuali e rispettare procedure precise nel momento in cui si confrontano punteggi ottenuti con prove diverse o in condizioni diverse. Le norme riguardano anche le modalità di utilizzo dei test distinguendo diversi settori di applicazione: la pratica clinica, la psicologia scolastica, l'orientamento, la selezione, l'utilizzo dei test per la certificazione professionale (non si tratta più in questo caso di test d'intelligenza in senso stretto) e per la valutazione di programmi educativi e sociali. Si insiste sulle competenze richieste a chi vuole impiegarli e sulla natura delle informazioni di cui devono disporre (fornite dai manuali che accompagnano le prove) al fine di fare dei test il miglior uso. Infine, le norme trattano problemi particolari posti dal testing delle minoranze linguistiche e dei gruppi che vivono in condizioni piuttosto difficili, il che ci pone la questione dei biases culturali. Questa questione è stata sollevata, l'abbiamo visto, fin dall'inizio degli anni Cinquanta da Eels e collaboratori. Essa ha forti implicazioni pratiche nella misura in cui i test, se distorti, sottostimano il «merito» di alcuni gruppi rispetto ad altri. Queste implicazioni sono forti in tutti i paesi in cui si utilizzano test a fini di selezione poiché ovunque si incontrano differenze sociali, di natura etnica, socioeconomica o sessuale, che possono dare origine a biases. Negli Stati Uniti, giuristi e psicologi hanno dato a questa questione un'attenzione particolare, in se105
guito alla legge sui diritti civili, nel 1964, il cui obiettivo era di eliminare tutte le forme di discriminazione. Dalla fine degli anni Sessanta, i tribunali hanno avuto a che fare con numerose lamentele di persone e di gruppi che si ritenevano lesi dalle procedure di valutazione attraverso i test. Alcuni processi sono stati ampiamente commentati dalla stampa e sono divenuti celebri. Alcuni genitori hanno contestato il fondamento dell'inserimento dei loro bambini in classi per ritardati, alcuni candidati all'iscrizione all'università hanno ritenuto la loro non-ammissione del tutto ingiustificata, professionisti alla ricerca di un impiego hanno creduto di essere stati ingiustamente scartati. Benché le norme giuridiche non siano perfettamente coerenti, in numerosi casi i test sono stati messi sotto accusa e i loro autori ingiunti a produrre modalità di valutazione non distorte. Si è così sviluppata una corrente di ricerche sui biases. In modo molto generale, si afferma che c'è un bias quando i punteggi ad un test non hanno lo stesso significato, la stessa vali dita per individui appartenenti a gruppi diversi. Nell'ambito delle operazioni di selezione, questa differenza di significato può condurre a penalizzare un gruppo. Prendiamo un esempio fittizio. Ci sono due gruppi: un gruppo favorito F e un gruppo sfavorito D. I punteggi di F sono superiori a quelli di D in un test. Se si utilizza la correlazione positiva tra questo test e un criterio (l'efficienza professionale ad esempio) per procedere ad una selezione, sí sceglierà per forza un maggior numero di persone del gruppo F. Ma può anche darsi che non esistano differenze tra il gruppo F e il gruppo D al criterio (se emerge che in media i soggetti del gruppo D hanno gli stessi punteggi di quelli del gruppo F). Il test può, in effetti, predire accuratamente il successo al criterio all'interno di ogni gruppo, ma non le differenze di successo tra i gruppi. In questo esempio, una selezione fondata sui punteggi al predittore penalizza ingiustamente il gruppo D ed è in questo senso distorta a favore del gruppo F. In linea di principio, l'origine dei biases può essere diversa, la stessa caratteristica psicologica può non avere lo stesso significato nei due gruppi se interagisce con altre caratteristiche dei soggetti di tali gruppi (si può pensare, ad esempio, che l'intelligenza misurata da uno stesso test non abbia lo stesso significato a seconda che i soggetti sappiano leggere o meno). La 106
modalità di somministrazione e di correzione del test può avere effetti diversi a seconda dei gruppi (se i test sono proposti da donne, questo può influenzare diversamente ragazzi e ragazze?). La struttura interna delle risposte può non essere la stessa da un gruppo all'altro. Le ricerche sull'eventuale presenza di diversi biases ha mostrato che i test attuali non sono o sono poco distorti. Un test può dunque distinguere dei gruppi senza per questo essere distorto. Questa affermazione non è tuttavia condivisa unanimemente: per alcuni la sola differenza tra due gruppi testimonia un bias, o, in altri termini, tutte le differenze tra gruppi sono effetto di un errore di misura o di un artefatto. Tale ipotesi è difficile da verificare, soprattutto quando si tratta di gruppi che, in seno ad una data cultura, non dispongono delle stesse opportunità per sviluppare le loro capacità [Lautrey 1980a1. Certamente, sarebbe augurabile, che gli individui di differente origine sociale fossero ugualmente rappresentati nei diversi settori della società; che, ad esempio, all'interno dell'università ci fosse la stessa percentuale di figli di operai e di figli di dirigenti. Per approssimarsi ad un tale obiettivo si può praticare una discriminazione positiva a favore dei gruppi svantaggiati e permettere così ad alcuni dei loro membri di superare le barriere di selezione. In alcune università americane, ad esempio, sono stati imposti dei livelli percentuali di rappresentatività per assicurare un'equa presenza di bianchi e di neri. Così facendo, in funzione dei valori, si cambiano i criteri di selezione. Il criterio meritocratico classico – a ciascuno secondo le proprie capacità – è ponderato da un criterio più collettivo – fare in modo che la società guadagni in coesione –. I beneficiari della discriminazione positiva saranno senza dubbio soddisfatti, ma gli altri si riterranno lesi e sosterranno, eventualmente davanti a un tribunale, che non è stato equo escluderli a favore di altri, meno capaci. Questi problemi di inserimento sociale corrispondono a delle dinamiche sociopolitiche di portata maggiore che superano la questione posta dai test, anche se i test contribuiscono ad esplicitarle e formalizzarle. 3.2. Codice deontologico e legislazione La riflessione sull'etica, che individua dei valori, e la deontologia, che concerne la morale professionale, si è sviluppata 107
tra gli psicologi all'indomani della seconda guerra mondiale. I primi codici deontologici elaborati dalle organizzazioni professionali di psicologi si collocano intorno agli anni CinquantaSessanta. In Francia, la Società francese di psicologia pubblicò il suo codice deontologico nel 1961 (un nuovo codice, stabilito in collaborazione con altre organizzazioni di psicologi, è stato adottato nel 1996). In Italia un codice deontologico è in vigore dal 16 febbraio 1998, a seguito di un referendum condotto su tutto il territorio nazionale. I codici deontologici riguardano l'insieme delle pratiche psicologiche. Possono essere generali o centrati più in specifico su di un ambito (la psicologia scolastica, del lavoro o la ricerca). I codici non hanno valore legale ma esprimono semplicemente delle regole di condotta (vedi quadro 3). Le organizzazioni professionali che li hanno preparati non soltanto invitano i loro membri a rispettarli, ma assicurano loro sostegno nel caso in cui sia difficoltoso metterli in pratica nel loro ambiente di lavoro. Tutti i codici si collocano in una prospettiva umanista: lo psicologo deve rispettare i diritti fondamentali delle persone, là loro libertà e la loro dignità. I codici insistono anche sulla necessità di utilizzare, in maniera illuminata, delle tecniche valide Wourguign.on 1994; Dupont 1994; Levy-Leboyer 1987; Schlegel 19941. Il recente codice deontologico italiano risulta ispirato a quattro imperativi. Il primo è quello della tutela del rapporto fiduciario che intercorre tra lo psicologo e chi si avvale delle sue prestazioni. Il rispetto delle persone, della loro dignità e della loro vita privata è assicurato dal segreto professionale, dalla confidenzialità con cui è trattato anche l'accesso alle informazioni raccolte e dalle limitazioni alle possibili indagini. Lo psicologo è in principio tenuto al segreto professionale. il beneficiario del servizio psicologico è il proprietario e l'unico destinatario dei risultati dettagliati dell'indagine. Nel caso di collaborazione con altri soggetti tenuti al segreto professionale lo psicologo può condividere solo le informazioni strettamente necessarie al tipo di collaborazione. Il secondo imperativo è dato dalla necessità di possedere una competenza specifica all'abilità professionale; ciò implica l'obbligo di fornirsi di questa competenza e di aggiornarla adeguatamente. La qualità delle prestazioni offerte dagli psicologi dipende a sua volta dalla loro qualifica e dai loro metodi. In Italia il titolo di psicologo viene attribuito dopo cinque anni di 108
formazione universitaria e deve essere seguito da un anno di tirocinio e da un esame di stato per l'autorizzazione ad esercitare la professione. Le indicazioni fornite dal codice deontologico rimangono tuttavia spesso piuttosto vaghe e la loro applicazione è talvolta problematica. Cosa si intende per una tecnica scientificamente valida se non ci si riferisce a delle norme? Qual è l'informazione veramente pertinente da cercare in una diagnosi o in una procedura di selezione? Nel contesto dell'aiuto agli altri è probabilmente più facile rispettare il codice deontologico, anche se le problematiche sollevate sui test e in particolare sui test di intelligenza investono questo ambito con tutta la loro forza. In altri ambiti comunque la situazione è anche peggiore. La privacy è messa in discussione nelle procedure di selezione: lo psicologo è obbligato a fornire informazioni sul candidato perché è pagato per questo!
QUADRO 3. LA DEONTOLOGIA DELL'USO DEI TESI
Ecco alcuni articoli del co- dice francese del 1996 che riguar- dano le modalità tecniche dell'e- sercizio della professione, moda- lità che includono l'impiego dei test. «La pratica dello psicologo non si riduce ai metodi e alle tec- niche che egli mette in atto. Essa è indissociabile da una valuta- zione critica e da un'analisi teo- rica di queste tecniche» (articolo 17). «Le tecniche utilizzate dallo psicologo per la valutazione, a fini diretti di diagnosi, di orienta- mento o di selezione, devono es- sere state scientificamente vali- date» (articolo 18). «Lo psico- logo è consapevole del carattere relativo delle sue valutazioni e in- terpretazioni. Non trae conclu- sioni riduttive o definitive sulle
abilità o sulla personalità degli individui quando appunto queste conclusioni possono avere un'influenza diretta sulla loro esistenza» (articolo 19). Anche il codice deontologico italiano riporta in alcuni articoli indicazioni sull'uso di strumenti e sulla loro interpretazione. Tali indicazioni, però, volendo essere generali e applicatili ad ambiti diagnostici e di ricerca, perdono parte della potenziale incisività presente invece negli articoli francesi. In particolare nell'articolo 5 troviamo che «Lo psicologo usa strumenti teorico-pratici per i quali ha acquisito adeguata competenza . Lo psicologo impiega meiodologie delle quali è in grado di indi-
109
care le fonti e i riferimenti scientifici, e non suscita, nelle attese del cliente e/o utente, aspettative infondate». Mentre nell'articolo 7 viene sottolineata l'importanza dell'attendibilità e validità dei
dati: «lo psicologo valuta attentamente, anche in relazione al contesto, il grado di validità e di attendibilità di informazioni, dati e fonti su cui basa le conclusioni raggiunte».
NOTE AL CAPITOLO QUARTO
' Tl comportamentismo è una corrente teorica che, nelle sue forme più radicali, limita la psicologia alla ricerca di leggi che legano ad un comportamento un determinato stimolo, rifiutando il ricorso a variabili secondarie che intervengono tra l'entrata (stimolo) e l'uscita (la risposta). = Il cognitivismo si oppone al comportamentismo per il fatto che considera l'esistenza di attività interne, quelle che si articolano tra lo stimolo e il comportamento, come parte integrante della psicologia scientifica.
110
CONCLUSIONI
Un test è un dispositivo d'osservazione concepito per valutare certe caratteristiche psicologiche degli individui, collocando le loro condotte in relazione a quelle che sono state osservate in seno alla popolazione alla quale gli individui appartengono. Per compiere questa funzione un test deve essere stato standardizzato, e le misure che il test consente di raccogliere devono essersi mostrate valide ed affidabili. L'intelligenza non è l'unica caratteristica psicologica che possa essere valutata dai test: esistono infatti test di conoscenza di vari domini, test psicomotori, test dí personalità, ecc. La particolarità dei test di intelligenza è di valutare un'abilità piuttosto generale di adattamento cognitivo a situazioni nuove. Questo metodo di valutazione dell'intelligenza ha mostrato il suo interesse, ma anche i suoi limiti. Due tipi di limitazione dei test d'intelligenza devono essere tenuti in considerazione nel loro utilizzo. Uno riguarda il livello di generalità effettivo della capacità di adattamento cognitivo valutata, l'altro riguarda la molteplicità dei determinanti della performance osservata. Sul primo punto, bisogna innanzi tutto osservare che la validità di un test d'intelligenza è limitata alla cultura in seno alla quale il test è stato concepito. L'intelligenza umana si sviluppa attraverso l'uso di linguaggi, di simboli, di rappresentazioni che sono gli strumenti del pensiero e danno significato alle situazioni. il funzionamento dell'intelligenza umana è inscindibile dagli strumenti simbolici e concettuali sui quali si basa. La situazione test nel suo insieme (la relazione individuale con l'esaminatore, il materiale utilizzato, il tipo di problema posto, ecc.) non consente di valutare le capacità di adattamento del soggetto testato a meno che tale situazione non abbia per lui un senso. Immaginiamo per un istante che il problema della diagnosi del ritardo mentale si sia posta nella società pigmea. Gli item 111
che un collega di Binet avrebbe scelto come «marcatori» delle differenti tappe dello sviluppo cognitivo dei bambini pigmei sarebbero stati ben diversi da quelli di Binet e Simon. Avrebbero riguardato problemi significativi nella società pigmea e relativi ad ambiti importanti per l'adattamento in questa società. La scala di Binet-pigmeo avrebbe potuto articolarsi in item riguardanti la costruzione o l'utilizzo efficiente cli un arco, di orientamento in uno spazio su grande scala, ecc. E verosimile che le performance di piccoli occidentali in una scala di questo tipo non sarebbero altrettanto predittive del loro successo scolastico del Binet-Simon, non più di quanto la performance al Binet-Simon dei bambini pigmei sarebbe un buon predittore della capacità di adattamento cognitivo alla società pigmea. I tentativi di costruzione di test di intelligenza indipendenti dalla cultura non hanno avuto successo. Anche quando ci si sforza dí ridurre il ruolo delle conoscenze, del linguaggio, risulta che la condotta del soggetto dipende dalla rappresentazione che egli si è fatto di ciò che ci si aspetta da lui in questa situazione, e tale rappresentazione dipende dal contesto culturale in cui l'individuo è stato educato. La contestualizzazione dell'intelligenza limita necessariamente la «generalità» della capacità di adattamento cognitivo valutata e rende priva cli senso l'idea stessa di intelligenza indipendente dalla cultura. I test descritti in quest'opera non hanno dunque validità che con gli individui cresciuti in società i cui modi di pensare sono sufficientemente prossimi a quelli dove í test sono stati concepiti. Un secondo limite di carattere generale della capacità di adattamento cognitivo valutata da questi test riguarda ciò che, anche in una cultura come la nostra, essi non valutano, in altre parole tutte le categorie di situazioni che richiedono una differente forma di intelligenza. Ad esempio, la capacità di interpretare le disposizioni d'animo e i sentimenti degli altri verso se stessi da indici comportamentali non verbali (espressioni del viso, gesti, posture, ecc.), la capacità di controllare l'espressione delle proprie emozioni, la capacità di influenzare gli altri sono delle componenti cli ciò che è stato definito intelligenza sociale o intelligenza emozionale. Questa intelligenza gioca un ruolo importante nell'adattamento alla vita in società. La capacità di influenzare gli altri, ad esempio. è probabilmente di grande importanza nell'ambito commerciale o in quello politico. Nei test classici non vi è valutazione di questa forma di in112
telligenza, bensì il test è essenzialmente verbo-concettuale. Diversi tentativi di costruzione di test di intelligenza sociale hanno dato risultati ancora incerti: la validità e la fedeltà di questi test si sono dimostrate inferiori a quelle dei test di intelligenza verbo-concettuale. Certe componenti dell'intelligenza sociale sono in correlazione con l'intelligenza verbo-concettuale, mentre altre no, il che limita, ancora una volta, la generalità dell'intelligenza misurata dai test descritti in quest'opera. Questi test valutano soprattutto la forma d'intelligenza necessaria per andare bene a scuola, e, più generalmente, per apprendere nel contesto di un insegnamento esplicito. Si tratta dell'intelligenza che si chiama talvolta «accademica» o «geometrica». Non bisogna sottostimare l'importanza di questa forma di intelligenza, né la relativa generalità del suo utilizzo nella nostra società. Essa gioca in effetti un ruolo primordiale nelle società complesse in cui l'acculturazione passa in buona parte attraverso una trasmissione scolastica dei saperi. Ma, al di là di questo, essa non esaurisce la diversità delle risorse cognitive umane. In seno all'intelligenza stessa che noi abbiamo chiamato verbo-concettuale, le analisi fattoriali dei test hanno permesso di distinguere diverse dimensioni corrispondenti ad abilità relativamente differenziate (verbale, numerica e spaziale). Il fatto che esistano delle correlazioni positive tra tutti questi test la scia tuttavia spazio ad un fattore generale di successo nell'insieme dei test. C'è un consenso abbastanza ampio, in epoca recente, su di un modello gerarchico della struttura fattoriale dell'intelligenza costruito a sua volta da un fattore generale di intelligenza e da fattori di gruppo corrispondenti ad abilità distinte. Si può dunque effettivamente parlare di un fattore di intelligenza generale, ma soltanto se si tratta di un fattore dí intelligenza verbo-concettuale. Un secondo tipo di limite dei test di intelligenza riguarda la molteplicità delle determinanti della performance osservata. Una stessa performance in un test può essere ottenuta con meccanismi diversi, strategie diverse; il soggetto può essere più o meno familiare con il contenuto del test; uno stesso punteggio, uno stesso QI, uno stesso scarto tra OI verbale e Qi performance possono avere significati diversi. Il risultato ad un test di intelligenza deve essere messo in relazione con l'insieme delle informazioni raccolte nel corso dell'esame psicologico per po113
ter essere interpretato. Questa ambiguità' della performance rende alquanto discutibili le pratiche in cui, alla semplice vista del risultato al test, sí danno consigli o si prendono decisioni relative all'inserimento sociale degli individui. La standardizzazione dei test fa in modo che, con un apprendimento ridotto, quasi chiunque possa somministrare un test di intelligenza. Da qui a ritenere che non abbia importanza chi interpreta il risultato del test il passo è breve e, ahimè, talvolta lo si fa. Si manifestano periodicamente pressioni affinché l'utilizzo dei test non sia solo riservato ai detentori del titolo di psicologo. Nello stesso ordine di idee, ora si propone su Internet di testare da sé la propria intelligenza, o più grave ancora, di testare da sé l'intelligenza del proprio bambino. Questa tendenza ci sembra pericolosa in quanto solo la formazione psicologica consente di conoscere i diversi limiti dei test di intelligenza e i problemi deontologici posti dal loro utilizzo. L'interesse della corrente di ricerca sui test è di mirare a stabilire dei fatti che siano ripetibili per chiunque si ponga nelle stesse condizioni. Questo obiettivo è centrale di ogni tentativo di misurazione e deve quindi essere anche al centro di ogni tentativo di valutazione oggettiva dell'intelligenza. La standardizzazione mira a rendere la valutazione il meno dipendente possibile dalla persona che la effettua e dunque a renderla ripetibile, pubblica e trasparente. Il coefficiente di stabilità indica inoltre in che misura questa valutazione è ripetibile nel tempo. I dispositivi che assicurano la ripetibilità della valutazione sono lontani dall'essere perfetti e sono essi stessi suscettibili di evoluzione. Ci si può ad esempio immaginare modalità più soddisfacenti di standardizzare la somministrazione di un test che non mettere tutti i soggetti strettamente nella stessa situazione. Ma l'esigenza sottostante deve essere mantenuta. Essa ha come obiettivo quello di rendere la valutazione accessibile ad una verifica e all'analisi critica di ognuno. Il metodo dei test permette anche di inscrivere la procedura di valutazione nella direzione di una verifica vera e propria dell'approccio scientifico. Stabilire la validità teorica di un test di intelligenza non è diverso dal sottoporre a verifica le concezioni che hanno ispirato la sua costruzione. Le concezioni dell'intelligenza che hanno guidato la costruzione dei primi test non erano certamente delle teorie molto elaborate, ma i successivi sviluppi teorici hanno consentito di comprendere me114
glio perché certi item, che erano stati scelti in partenza in una prospettiva pratica, erano buoni indicatori dell'efficienza cognitiva. Alcuni esempi di questi ritorni della teoria sui test sono stati forniti in quest'opera, proprio a proposito della reinterpretazione degli item delle matrici progressive nel contesto di modelli di elaborazione dell'informazione. All'inverso, la costruzione di test che operazionalizzano una teoria dell'intelligenza ha talvolta contribuito a metterla in questione. È così che l'elaborazione di test ispirati alla teoria di Piaget ha contribuito a scuotere la concezione degli stadi di sviluppo cognitivo che si fondavano su questa teoria. - Se la costruzione dei test di intelligenza si è inscritta fin dall'inizio in questo percorso di mutuo scambio tra elaborazione teorica e verifica empirica, ci si può tuttavia rammaricare del fatto che la relazione tra ricerca di base e la sua applicazione è stata a lungo molto limitata. Ci sono per questo delle ragioni storiche. Per Binet, la riflessione teorica sull'intelligenza e la messa a punto di una scala destinata a misurarla erano due momenti strettamente articolati di uno stesso percorso. Il successo dei test è stato tale per il fatto che la risposta ad una domanda sociale ha richiamato i ricercatori dalle loro questioni teoriche. Bisogna aggiungere a questo che, anche se l'avessero voluto, difficilmente gli psicologi che utilizzavano i test di intelligenza avrebbero avuto modo di rinnovarli teoricamente nella fase di ricerca in psicologia in cui ha dominato il comportamentismo. Lo sviluppo del cognitivismo, che ha preso slancio a partire dagli anni Settanta, offre un quadro più favorevole al rinnovamento delle idee sul funzionamento dell'intelligenza. Le ricerche hanno per ora rivolto il loro interesse alla rappresentazione dei processi di elaborazione dell'informazione in gioco nella soluzione degli item dei test esistenti piuttosto che all'elaborazione di nuovi test [Huteau 1995; Huteau e Lantrey 1978; Lautrey 1995; Lautrey e Huteau 1990]. La situazione attuale sembra tuttavia più favorevole di quella passata ín quanto la ricerca di base suí differenti aspetti del funzionamento intellettivo e la costruzione di strumenti che consentano di valutarli praticamente camminano parallelamente e con uno stesso passo.
115
LETTURE CONSIGLIATE
Il lettore che intenda approfondire i temi affrontati nel volume qui di seguito troverà segnalati alcuni titoli in edizione italiana. Per quanto riguarda la definizione del concetto di intelli g enza e le teorie ad esso collegate utili approfondimenti si trovano nelle opere di Stenberg: R.J. Stenberg, Teorie dell'intelligenza, Milano, Bompiani, 1987; R.J. Stenberg e L. Spear-Sweding, Le tre intelligenze. Come potenziare le capacità analitiche, creative e pratiche, Trento, Erickson, 1997 e in II. Gardner, Formae mentir. Saggio sulla pluralità della intelligenza, Milano, Feltrinelli, 1991. In ambito della teoria dei test il volume di L. Boncori, Teoria e tecniche dei test, Torino, Bollati Boringhieri, 1993 offre assieme a quello di A. Anastasi, I test psicologici, Milano, Angeli, 1995" un'ampia rassegna dei test disponibili sul mercato con una descrizione delle loro qualità metriche e di contenuto. Il volume della Boncori privilegia la letteratura europea e i test prodotti da autori italiani, mentre quello della Anastasi si concentra principalmente sulla realtà anglosassone e americana in particolare. Sulle caratteristiche metriche dei test di utile consultazione sono V. Rubini, Test e misurazioni psicologiche, Bologna, H Mulino, 1984 e il più recente L. Pedrabissi e M. Santinello, I test psicologici, Bologna, Il Mulino, 1997. Entrambi i volumi forniscono le basi per valutare la qualità di un test e le indicazioni indispensabili per comprendere i manuali che accompagnano ciascun reattivo psicologico. Infine, sui test di intelligenza WAIS-R e WISC e sull'interpretazione dei risultati da essi ottenuti: M. Lang, C. Nosengo e C.M. Xella, La scala WATS Uso clinico e valutazione qualitativa, Milano, Cortina, 1996; A. Orsini, WTSC-R. Contributo alla tar a tura italiana, Firenze, Organizzazioni Speciali, 1993; A. Orsini, WAIS-R. Contributo alla taratu ra italiana, Firenze, Organizzazioni Speciali, 1997 e F. Padovani, L'interpretazione psicologica della WAIS-R, Firenze, Organizzazioni Speciali, 1999.
119