129 73 4MB
Dutch; Flemish Pages 80 Year 1971
Testscores, b e t r o u w b a a r h e i d en validiteit
TESTSCORES betrouwbaarheid en validiteit Een inleiding in de testleer door
R.F. V A N
NAERSSEN
MOUTON - DEN HAAG
De tekst van deze Inleiding in de testleer is een ongewijzigde overdruk van de hoofdstukken 13, 14, 15, 16, 17 en 21 van het boek
STUDIETOETSEN/
construeren, afnemen, analyseren, door A . D . de G r o o t en R. F. van Naerssen, met bijdragen van W. Lans, G . J . Mellenbergh, S. Sandbergen en J. Timmer, versehenen bij M o u t o n , Den Haag, 1969.
© M O U T O N & CO, 1971 P R I N T E D IN T H E N E T H E R L A N D S
WOORD
VOORAF
Tot de propedeusestof voor psychologiestudenten behoort enige elementaire kennis van de wiskundige testleer, dat wil zeggen kennis over transformaties van ruwe scores in percentielscores, afwijkingscores, standaardscores en lineaire omzettingen daarvan, over de gewone productmoment-correlatiecoéfficiént en hoe deze te berekenen, ook in het geval van een of twee dichotomieén, over de berekening van Índices voor verschillende aspecten van de betrouwbaarheid van testscores, over predictieve validiteit en de correcties hierop, en over itemindices, itemselectie en vereiste testlengte. Het feit dat deze onderwerpen enerzijds reeds op elementair niveau behandeld worden in het derde deel van het boek Studietoetsen* maar dat anderzijds aanschaffing van dit boek voor vele Studenten om financíele redenen bezwaarlijk zou kunnen zijn, heeft ons er toe gebracht de Uitgever te verzoeken de voor de propedeuse relevante hoofdstukken 13, 14, 15, 16, 17 en 21 apart te drukken in offset. Dit laatste betekent natuurlijk dat de nummers van de hoofdstukken, waarnaar herhaaldelijk in de tekst verwezen wordt, ongewijzigd zijn gebleven. De lezer zal enkele - voor hem overigens onbelangrijke - verwijzingen naar andere hoofdstukken uiteraard ook voor lief moeten nemen, en wat betreft de literatuur de Studietoetsen moeten raadplegen. De juiste alternatieven van de oefenitems van hoofdstuk 21 zijn aan dit hoofdstuk toegevoegd. De items 35 en 38 slaan op hoofdstukken, die niet in deze uitgave zijn opgenomen. De formules in deze uitgave vallen niet als het wäre uit de lucht, maar worden uit assumpties afgeleid, waardoor de stof voor aanstaande academici veel duidelijker zal zijn dan bij het gebruik van de zogenaamde kookboekmethode. Anderzijds worden bepaalde belangrijke aspecten van de testleer, waaronder de instruméntele utiliteit en de begripsvaliditeit, niet behandeld. Een goede aanvulling op deze stof voor de propedeuse lijkt ons dan ook hoofdstuk 8 van het boek Methodologie.** De schrijvers van Studietoetsen
* A . D . de Groot, R . F . van Naerssen e.a. Studietoetsen construeren, afnemen, analyseren. Den Haag, Mouton, 1969. ** A . D . de Groot. Methodologie. Grondslagen van onderzoek en denken in de gedragswetenschappen. Den Haag, Mouton, (1961) 1970.
INHOUD
13. Van ruwe score tot standaardscore 13 ; 1 13; 2 13; 3 13 ; 4 13; 5 13; 6
Ruwe scores en percentielscores . . . Som-teken, gemiddelde en afwijkingscore Variantie en standaardafwijking . . . Standaardscores Voorbeelden en Varianten van standaardscores . Normen . .
14. Correlatie 14; 14; 14; 14; 14; 14; 14;
1 2 3 4 5 6 7
Statistisch verband tussen testscores . . . . . . . De correlatiecoèfficient gedefinieerd . . . . . . . Berekening van de correlatie . . . . . . . . . Dichotome variabelen D e pmc tussen een dichotome en een niet-dichotome variabele . De pmc tussen twee dichotome variabelen Snelle schattingen van de item-test-correlatie
15. Betrouwbaarheid 15; 1 1552 15; 3 15; 4 15; 5 15 ; 6 15; 7 15; 8 15; 9
Ware variantie en foutenvariantie Betrouwbaarheiöscoefficient en signaal/ruis-verhouding Gelijke factortests en paralleltests Equivalentie en stabiliteit van toetsen D e invloed van de testlengte . Homogeniteit Homogeniteit bij splitsing van de toets in items . . Standaardmeetfout Betrouwbaarheid afhankelijk van de groep .
16. Validiteit 16; 16; 16; 16; 16;
1 2 3 4 5
Het criterium van een studietoets Aspecten van de validiteit D e correctie voor attenuatie Toepassingen van de correctie op de betrouwbaarheid. Validiteit en testlengte
17. De interpretatie van indices 17; 17; 17; 17; 17; 17; 17;
1 2 3 4 5 6 7
Normen voor p- en a-waarden . . . . Normen voor de betrouwbaarheid . . . Normen voor de item-correlatie . . . . De vereiste testlengte De interpretatie van een validiteitscoefficient D e betrouwbaarheid van enkele indices . . Slotopmerking: ruime testtijd
21. Enkele items over de laatste hoofdstukken
7 8 11 13 16 17 19
21 21 23 24 27 28 30 31
34 34 36 37 39 40 42 44 46 48
50 50 51 53 54 56
58 58 60 61 63 65 65 67
69
R. F. VAN N A E R S S E N
H O O F D S T U K 13
Van ruwe score tot standaardscore
Inleiding In deel I zijn enkele voor het maken van studietoetsen belangrijke begrippen genoemd en hoofdzakelijk op verbaal niveau behandeld, begrippen als o.a. objectiviteit, homogeniteit, betrouwbaarheid, predictieve validiteit, correlatie, normering. In dit deel zullen we trachten deze begrippen te verduidelijken en te preciseren, te 'operationaliseren' door in formules te beschrijven hoe men ze kan berekenen, in een getal vastleggen. Daardoor wordt het bovendien mogelijk toetsen, items, methoden etc. te vergelijken. Men kan bij voorbeeld pas wanneer men de betrouwbaarheid van twee toetsen heeft berekend zien welke toets wat betreft betrouwbaarheid de voorkeur verdient. Door de 'mathematisering' van dit gebied wordt het mogelijk om vele relevante problemen op objectieve en controleerbare wijze op te lossen, zoals de selectie van items, de afwijzing van alternatieven, en het kiezen van een efficiente toetslengte. Wanneer men een gebied van de werkelijkheid wil 'mathematiseren', zodat men er beter vat op krijgt, dan zal men een aantal onderstellingen omtrent deze werkelijkheid moeten doen. Zo accepteert men in de landmeetkunde de axioma's van Euklides. Het geheel van onderstellingen (axioma's) en de daaruit wiskundig afgeleide Stellingen noemt men het model (van de werkelijkheid). Van eenzelfde stuk werkelijkheid zijn vaak verschillende modellen denkbaar. Een klassiek voorbeeld vormen de naast elkaar ontwikkelde modellen van Huygens en Newton voor de verklaring van bepaalde lichtverschijnselen. Zo zijn er ook in de testleer - de studietoets kan men opvatten als een bepaald soort test - verschillende modellen ontwikkeld, die elk hun eigen merites hebben. We kiezen in dit boek een
8
Van ruwe score tot standaardscore
13; I
variant van het oudste* model, dat het voordeel heeft de belangrijkste verschijnselen op eenvoudige wijze te verklaren en tot simpele formules te leiden. Het nadeel dat meestal aan een eenvoudig model vastkleeft, namelijk dat het niet alle verschijnselen 'verklaart', dat het niet helemaal 'past', nemen we bewust voor lief. De mate waarin het model bij studietoetsen van de werkelijkheid afwijkt is vermoedelijk van gering of geen enkel'praktisch belang. Toch is het nuttig er zieh van bewust te zijn dat men met een model te maken heeft, dat wil zeggen dat er onderstellingen zijn geschied, waarvan de juistheid en noodzakelijkheid eventueel in twijfel kan worden getrokken. We zullen de onderstellingen van het model expliciet vermelden en zo mogelijk trachten te rechtvaardigen. Vooral de hoofdstukken 13, 14, en [5 zijn min of meer wiskundig. Maar dat betekent niet dat men er een wiskundige opleiding voor nodig heeft; drie v.w.o.-schooljaren lagere algebra zijn ruim voldoende. De voor deze 'elementaire testleer' vereiste statistische ondergrond wordt uitvoerig in de hoofdstukken 13 en 14 te berde gebracht. Dan volgt pas de eigenlijke testleer met haar specifieke onderstellingen. De wiskundige afleidingen hebben we soms gepaard laten gaan met een verbale, soms zo men wil intui'tieve, presentatie, om 00k die lezers, die zieh niet de moeite wensen te getroosten om de afleidingen te volgen, de gelegenheid te geven met de theoretische achtergronden vertrouwd te raken. In hoofdstuk 21 zijn enkele items opgenomen waarmee de lezer zijn kennis en inzicht kan toetsen. Voor die lezers, die wat het rekengedeelte van Studietoetsen (de itemanalyse) betreft niet verder wensen te gaan dan het lezen van het allernoodzakelijkste, is appendix I in dit boek opgenomen.
13; 1
Ruwe scores en percentielscores
Een toets of test - deze woorden zullen we als equivalent beschouwen bestaat uit een aantal dementen (meestal in de vorm van vragen), die items worden genoemd. Elke persoon, aan wie de toets wordt afgenomen (elke leerling, examinandus, tentaminandus, 'proefpersoon'), krijgt voor een item een aantal punten, dat de itemseore - van die persoon voor dat item - wordt genoemd. Voorlopig beperken we ons tot een puntentelling * D e beginselen van een algemener model, het 'domain-sampling model', kan de lezer onder andere vinden in NUNNALLY 1967, hoofdstuk 6, of LORD en NOVICK 1968, deel 3.
i3; i
Van ruwe score tot standaardscore
9
(scoring), waarbij slechts twee itemscores voorkomen: i als het item door de persoon goed, en o als het fout beantwoord is. In hoofdstuk 18 komen meer gecompliceerde scoringswijzen ter sprake. De som van alle itemscores van een persoon noemt men zijn ruwe score. Dus, wie precies 5 items goed heeft, krijgt (bij itemscores van 0 of 1) een ruwe score van 5. Maar of dit een goede of een siechte prestatie is, kunnen we niet zonder meer uit deze ruwe score afleiden. Dit hangt immers niet alleen af van het totale aantal items van de toets, maar 00k van hun moeilijkheidsgraad. Meestal wenst men de prestatie van een leerling te vergelijken met die van de gehele groep personen, waarbij de toets is afgenomen. Het bepalen van een score, die de plaats van de persoon in de groep aanduidt, kan op verscheidene manieren geschieden. We zullen op twee methoden nader ingaan: het berekenen van de percentielscores en dat van de standaardscores. De standaardscores, die in paragraaf 13; 4 aan de orde komen, zijn in de testleer van groot belang. De voor docenten handige percentielscores zijn in de testleer minder bruikbaar, maar deze zijn soms nodig bij het handhaven van normen (hoofdstuk 19). De ruwe scores worden 'omgezet' in percentielscores. Globaal is de percentielscore, behorende bij een bepaalde ruwe score, het percentage personen, afgerond tot gehele getallen, dat een lagere score behaald heeft. Vandaar de naam. Er is echter een kleine moeilijkheid: het maakt verschil of de personen, die precies de betreffende ruwe score gehaald hebben, worden meegerekend of niet. Men doet nu alsof de helft van het aantal personen, dat de betreffende ruwe score gehaald heeft, juist onder en de andere helft juist boven de score Staat. De omzetting van ruwe scores in percentielscores zullen we nu illustreren aan de hand van een voorbeeld. Om het rekenwerk te beperken zullen we uitgaan van een toets met slechts zes items, hoewel zulke körte toetsen in de praktijk niet zullen voorkomen. De eerste stap is het vaststellen van de frequenties. De frequentie van een bepaalde ruwe score is het aantal personen dat precies deze ruwe score gehaald heeft. De frequenties vormen te zamen de frequentieverdeling, die door eenvoudig turven bepaald wordt. In tabel 13; 1 vormt de tweede kolom de frequentieverdeling van de 6-item-toets, afgenomen bij een groep van 50 personen. Het aantal personen, waarbij de toets is afgenomen, zullen we steeds aanduiden met de letter N. Dus hier is N = 50. De volgende stap is het berekenen van de cumulatieve frequenties. De cumulatieve frequentie van een bepaalde ruwe score is het aantal perso-
IO
Van ruwe score tot standaardscore
13; i
nen, dat die score of minder gehaald heeft (kolom 3, berekend uit kolom 2). Voor het bepalen van de percentielscore rekenen we echter de helft van de frequentie van elke score als er eigenlijk onder liggend: We trekken dus van de cumulatieve frequentie de helft van de frequentie af (kolom 4 = kolom 3 min 'kolom 2 gedeeld door 2'). Nu hebben we het gecorrigeerde aantal personen, dat onder de ruwe score Staat. O m het percentage te krijgen, moeten we dit gecorrigeerde aantal nog delen door het totale aantal (N, hier 50), vermenigvuldigen met 100 en afronden tot gehele getallen. Dit percentage is de te berekenen percentielscore (kolom 5). Tabel 13; 1 Schema voor de berekening van percentielscores (1)
(2)
(3)
(4)
(5)
ruwe score
frequentie
cumulatieve frequentie
c.f. minus frequentie/2
percentielscore
0 1
2
2
2 6 II
1 8
2 5
10
19
13,5
27 51
3
13
32
25,5
4
12
44
38
76
5
5
49
46,5
93
6
1
50
49,5
99
Heeft men de ruwe scores van een aantal toetsen (zeg A, B en C) omgezet in percentielscores, dan zijn deze scores op de verschillende toetsen 00k onderling vergelijkbaar geworden. Men kan bij voorbeeld direct zien dat een persoon P goed is in vak A, siecht in vak B en middelmatig in vak C, dat wil zeggen, P is beter in vak A dan in vak C, beter in vak C dan in vak B, met de groep als norm. Aan de ruwe scores kan men dat niet onmiddellijk zien. Er is echter een nadeel aan de percentielscoremethode verbonden. Men gaat er graag van uit, dat de afstanden tussen de ruwe scores gelijk zijn. Z o denkt men zieh de afstand tussen een score 1 en een score 2 gelijk aan die tussen een score 2 en een score 3, of tussen een score 5 en een score 6. Deze gelijkheid gaat echter verloren bij omzetting in percentielscores. Men ziet bij voorbeeld in de laatste kolom van tabel 13; 1, dat de 'afstand' (het verschil) tussen de laagste en de op een na laagste score 10 — 2 = 8 punten bedraagt, tussen de tweede en derde score (ruwe scores 1 en 2) 17 punten, en tussen de volgende scores achtereenvolgens 24, 25, 17 en 6 punten. De afstanden tussen naast elkaar liggende percentielscores blijken in het midden van de frequentieverdeling groot te zijn, die aan de uiteinden daaren-
Van rune score tot standaardscore
i3; i/i3; 2
11
tegen relatief klein (terwijl men bij de ruwe scores uitging van gelijke afstanden). Dit komt in dit geval omdat er meer personen zijn met scores 2, 3 en 4 dan met scores 0, 1, 5 en 6. Maar een dergelijke frequentieverdeling is normaal bij tests: ruwe scores in het midden van de verdeling worden in het algemeen door meer personen gehaald dan (ruwe) scores aan de uiteinden. Dus de meetschaal wordt meestal zo vervormd, dat deze als het ware in het midden is uitgerekt en aan de uiteinden gekrompen. Men ziet dit 00k in figuur 13; 1, waarin de pijlen de correspondentie tussen ruwe scores en percentielscores aangeven bij de betreffende 6-item-toets. Figuur 1 3 ; I
Meetschaalvorming door de percentielmethode
ruwe scores
0
1
\ percentielscores
i 2
10
2
1 27
3
1 51
4
5
\
\
76
93
6
1 99
Een variant van de percentielmethode is de decielmethode. Hierbij classificeert men de ruwe scores in tien decielen. Het eerste deciel komt overeen met de percentielscores 0-10, etc. Als voordelen van de decielmethode boven de percentielmethode worden genoemd: 1) de getallen zijn kleiner, het rekenwerk is minder, en 2) men suggereert niet een nauwkeurigheid, die er niet is. We komen op de meetnauwkeurigheid nog terug in paragraaf 15; 8.
13; 2
Som-teken, gemiddelde en afwijkingscore
De ruwe scores van twee verschillende toetsen zijn in het algemeen niet direct vergelijkbaar omdat 1) de gemiddelde score van de ene toets verschilt van die van de andere, en 2) de scores van de ene toets meer 'spreiden' dan die van de andere: de frequentieverdelingen van beide toetsen zijn niet gelijk. Het gemiddelde van de scores berekent men door de scores van alle personen bij elkaar op te teilen en deze som door het aantal personen N te delen. Als som-teken geldt de Griekse hoofdletter sigma, en de som van de ruwe scores van alle personen van de beschouwde groep op toets X schrijven we als IX: IX
=
X1+X2+...+X]
13:2(1)
12
Van ruwe score tot standaardscore
13; 2
waarin X, de score is van persoon 1 op toets X, X2 die van persoon 2, etc. Voorlopig gebruiken we het som-teken alleen voor optelling 'over de personen'. Het gemiddelde van de scores op toets X g e e f t men aan met een X waarboven een streepje is geplaatst, dus EX X =
135 2(2)
Voorbeeld: De som van de 50 ruwe scores uit tabel 13; 1 bedraagt 2 X O + Ó X I + I I X 2 + 1 3 x 3 + 1 2 X 4 + 5 X 5 + I X 6 = 0 + 6 + 22 + 3 9 + 4 8
+
+ 2 5 + 6 = 146. De gemiddelde score is 146/50 = 2,92. Wanneer men van de ruwe score het gemiddelde aftrekt krijgt men de afwijking van het gemiddelde, die men de afwijkingscore of deviatiescore noemt. Men pleegt deze aan te geven met een kleine letter: x = X-X.
13; 2(3)
Men moet dit lezen als: 'De afwijkingscore van elke persoon is gelijk aan diens ruwe score min de gemiddelde score'. Formule (3) is dus een verkorte schrijfwijze voor N afzonderlijke vergelijkingen. Deze schrijfwijze zal vaak gebruikt worden. Daarentegen stelt (2) maar één vergelijking voor, want er is maar één gemiddelde, één som en één aantal personen.* Telt men de afwijkingscores van alle personen bij elkaar op, dan krijgt men x, = X2
=
Xi-X X2
^
Ex = I X - E X = I X - N X .
13; 2(4)
Daar men N gelijke getallen optelt, kan men direct NX schrijven voor IX. Uit (4) en (2) volgt Zx = o ,
13; 2 (5)
dus : de som van aile afwijkingscores is nul. Uitgaande van (3) hadden we de optelling over de personen 00k kunnen schrijven als Ix = I ( X - J ) , * Bij verwijzingen naar f o r m u l e s in dezetfde weggelaten.
13; 2(6) p a r a g r a a f w o r d t het p a r a g r a a f n u m m e r
Van ruwe score tot standaardscore
i3; 2/i3; 3
13
dus in verband met (4) H X - X ) = TX-I.X.
13; 2 (7)
Op analoge wijze leidt men de algemene eigenschap van het som-teken af: ) = SX + Z ß + S C +
X(A + B+C+
13; 2 (8)
Deze 'distributieve eigenschap' van het som-teken zullen we nog vaak nodig hebben.
13; 3
Variantie en standaardafwijking
Bij sommige tests verschillen de afwijkingscores in het algemeen meer van nul dan bij andere. Men zegt dan dat de scores van deze (eerste) tests meer spreiden, meer varieren, de 'testvariantie' is groter. We zoeken nu een maat voor deze testvariantie. Het meest voor de hand liggend zou zijn de gemiddelde afwijkingscore als maat te willen gebruiken. Maar deze is altijd nul, omdat de som van de afwijkingscores nul is. Een wel bruikbare maat is het gemiddelde van de absolute waarde van de afwijkingscores. Het blijkt echter voor de opbouw van de testleer handiger te zijn een andere maat voor de testvariantie te benutten, namelijk het gemiddelde van de kwadraten van de afwijkingscores. Door het kwadrateren worden de mintekens automatisch weggewerkt en heeft men - evenals bij de gemiddelde absolute afwijkingscore - slechts te maken met positieve getallen. Men definieert de variantie V (van test X) dus als: v
=
Ex 2
1353(1)
Voor de berekening van de testvariantie in de praktijk is deze formule echter onhandig omdat het gemiddelde, en daarom 00k de afwijkingscores meestal niet in gehele getallen staan. Zo hebben we boven berekend ( 1 3 : 2 ) dat de gemiddelde score van onze zes-item-test 2,92 bedraagt zodat we de kwadraten moeten berekenen van —2,92, —1,92, etc. Het kwadrateren van deze getallen in 2 of meer decimalen nauwkeurig is nodeloos tijdrovend. Men kan beter een formule gebruiken, die uitgaat van de (in een of hoogstens twee cijfers gegeven) ruwe scores. Men krijgt deze formule door in ( i ) v o o r x X—X te substitueren: V = -zpr-x)
2
.
13; 3 (2)
14
Van ruwe score tot standaardscore
V = ^Z(X2-2XX
I3;3
+ X2).
1353(3)
Gebruik makend van de distributieve eigenschap: V = ^(ZX2--L2XX
+ -LX2).
13; 3 (4)
De middelste term is de som van X1, X2, •••, elk vermenigvuldigd met eenzelfde getal, namelijk 2X. Deze 'constante factor' kan men dus als het ware buiten haakjes brengen, zodat er komt te staan: —2XSX. Ook deze eigenschap van het som-teken : het naar wens vóór of achter het sigma-teken kunnen plaatsen van een constante factor, zullen we vaak gebruiken. De middelste term kunnen we ten slotte nog schrijven als —2 NX2, omdat we voor ZX kunnen schrijven NX (13; 2 (2)). Bij de laatste term worden Ngelijke termen bij elkaar opgeteld, zodat er komt: NX2. Dus V = -(T.X2-NX2) N
= - I.X2-X2 N
=
N
±—-. I3;3(5)
Met één van deze formules berekent men de variantie sneller dan met de (definierende) formule (1). Voorbeeld: We berekenen de variantie van de ruwe scores van tabel 13; 1 met (5). We weten al dat N = 50 e n S X = 146. Er zijn 2 personen met een ruwe score 0, 6 personen met een score 1, etc. dus : EX 2 = 2 x o 2 + 6X I 2 + I I X 2 2 + I 3 X 3 2 + I 2 X 4 2 + 5X 5 2 + + i x 62. 2 EX = 0 + 6 + 44+ 117+ 192+ 125 + 36 = 520. V =
50X520-1462 50x50
= 1,8736,
waarbij de laatste twee decimalen gerust weggelaten kunnen worden. Wat gebeurt er nu met de variantie wanneer men bij de scores van alle personen eenzelfde getal, b, optelt? Dit geval kan zieh voordoen, wanneer men aan de toets enige items toevoegt (of ervan weglaat) die door alie personen goed worden gemaakt. Bij de som van de scores hX wordt Nb toegevoegd, het gemiddelde X wordt derhalve X+b en de afwijkingscore x = (X + b)-(X
+ b) = X - X .
13:3(6)
Van ruwe score tot standaardscore
i3; 3
15
Dus: wanneer we bij alle scores eenzelfde (positief of negatief) getal optellen, dan veranderen de afwijkingscores niet. Maar volgens de definitieformule (1) verändert de variantie dan 00k niet. Van deze eigenschap kan men gebruik maken om met kleinere getallen te werken bij de berekening van de variantie, hetgeen tijd spaart. Z o wordt de bovenstaande variantieberekening eenvoudiger, wanneer men van alle ruwe scores 3 aftrekt (b = —3), zodat deze lopen van —3 tot + 3 . (Het is nuttig deze berekening zelf voort te zetten.) N u kan men zieh afvragen wat er met de variantie gebeurt als men alle scores met eenzelfde getal, a, vermenigvuldigt. Dit gebeurt bij voorbeeld wanneer men voor elk goed item a punten geeft, in plaats van 1. De som van de scores wordt nu ~LaX — a£X, het gemiddelde dus aX, en de afwijkingscore = aX-aX
= ax,
13; 3 (7)
waarbij we de deviatiescore op de nieuwe test aangeven met de index a. Dit ingevuld in de definitieformule van de variantie levert liax)2 - V
"
, Ex2 =
fl
V
I 3 ; 3 ( 8 )
Dus als men alle scores met a vermenigvuldigt, dan wordt de variantie a2 maal zo groot. N u kan men, naast de variantie V, nog zeer goed een spreidingsmaat gebruiken, die als het wäre met de meetschaal meegroeit, dat wil zeggen, die, als alle scores met a vermenigvuldigd worden, 00k precies a maal zo groot wordt. Figuur 13; 3
Vermenigvuldiging van de ruwe scores met 3 X
X
X
X
X X X
X
X
X
X X X
X
X
X
X X X
X
X
X
X X X
X
X
X
X X X
X
X
X
X X
ruwe scores
X X X X
X
X
X
X
X X X X X
X
X
X
X
X
X X X X X
X
X
X
X
X
X X X X X
X
X
X
X
X
X X X X X X
X
X
X
X
X
X
X X X X X X X
X
X
X
X
X
X
X
12
15
18
0 1 2 3 4 5 6
0
3
6
9
i6
Van ruwe score tot standaardscore
13; 3/13; 4
In de figuur 13; 3 is de frequentieverdeling van tabel 13; 1 grafisch voorgesteld. Elk kruisje Staat voor een persoon. In de rechterfiguur zijn de ruwe scores met 3 vermenigvuldigd (a = 3). Bij de frequentieverdeling rechts is de oorspronkelijke figuur als het wäre driemaal in de breedte uitgerekt, de 'spreiding' is rechts driemaal zo groot. De verdelingen zijn niet gelijk maar wel 'gelijkvormig'. Als maat voor deze spreiding is nu zeer geschikt de wortel uit de variantie, de standaardafwijking s: s = VV.
135 3(9)
Immers uit (9) en (8) volgt = VVa = >Ja2V = as/v
= as.
13; 3 (10)
De standaardafwijking van de verdeling rechts is dus driemaal zo groot als die van de verdeling links, precies zoals we het willen. De standaardafwijking (s) van de verdeling links is de wortel uit 1,8736 (zie boven) of 1,37, d e i van de verdeling rechts is 4,11. Is de variantie nog niet bekend, dan berekent men s met de uit (5) en (9) volgende formule Y,x 2
s2 = - - X
13; 4
_2
of
1
s = - JNLX2-(XX)2.
13; 3 (11)
Standaardscores
We herhalen eerst kort wat we in de eerste alinea van 13; 2 reeds opmerkten: ruwe scores van verschillende toetsen zijn niet vergelijkbaar omdat 1) de gemiddelden, 2) de 'spreidingen' niet gelijk zijn. Het zal nu duidelijk zijn dat we de scores vergelijkbaar kunnen maken met behulp van de gemiddelden en standaardafwijkingen. Wanneer we aan een toets items toevoegen, die door allen goed worden gemaakt, dan verändert de standaardafwijking van de scores niet, zoals we reeds weten ( 1 3 : 3 (6)). In feite wordt de verdeling, zoals die van figuur 13; 3, links, in zijn geheel eenvoudig over een afstand b verschoven. Het enige wat we hier moeten doen om oude en nieuwe scores vergelijkbaar te maken, is alle ruwe scores vervangen door afwijkingscores; deze veranderen immers niet bij toevoeging van eenzelfde getal bij elke ruwe score. Aldus verschuiven we de verdelingen zö dat zij elkaar dekken. Voorts kunnen we de figuur links en de figuur rechts elkaar laten dekken
Van ruwe score tot standaardscore
13; 4/13; 5
17
(congruent maken) door de afwijkingscores nog te delen door de standaardafwijkingen. M e n krijgt aldus de standaardscore of z-score: x z = ~ = s
X-X s
.
13; 4 CO
Scores van verschillende toetsen met 'gelijkvormige' frequentieverdeling, worden vergelijkbaar wanneer men de scores omzet in standaardscores met behulp van (1). A l s een z-score van + 1 bij de ene toets betekent, dat de persoon Staat op de 70-ste percentiel, dan betekent een z-score van + 1 bij de andere toets, dat hij 00k daar een percentielscore van 70 heeft. Gelijke z-scores betekent: gelijke piaats in de ranglijst van de groep. M a a r dit gaat alleen op wanneer de frequentieverdelingen gelijkvormig zijn. Bij ons voorbeeld van de 6-item-toets (figuur 13; 3) ligt de top bijna in het midden. Bij andere toetsen kan de verdeling scheef zijn met de top meer links of meer rechts; of de verdeling kan tweetoppig zijn, etc. Scores van toetsen met dergelijke verschillend-vormige verdelingen kunnen in principe alleen vergeleken worden met de percentielmethode. In de praktijk volgt men deze regel niet te nauwgezet. Immers, bij de meest voorkomende grootte van groepen - 20 tot 100 man - kan de vorm van de gevonden scoreverdeling nog voor een deel door het toeval bepaald zijn. M e n neemt veelal aan, dat bij zeer grote groepen personen de verdeling wel tamelijk 'normaal' zal zijn, dat wil zeggen min of meer symmetrisch, eentoppig en klokvormig, zoals bij ons voorbeeld. D e scores van de meeste goede toetsen zal men dan 00k met de standaardscoremethode redelijk kunnen vergelijken. Het argument van de niet-vervormde meetschaal weegt zwaarder naarmate de groep personen kleiner is: Alleen indien bij grote groepen personen de scoreverdelingen duidelijk andersvormig zijn, wordt de percentielmethode aangeraden. Een scheve scoreverdeling ontstaat wanneer de items in het algemeen te moeilijk of juist te gemakkelijk zijn. Zijn de items te moeilijk dan heeft de scoreverdeling de top links en een lange staart rechts. Bij te gemakkelijke items ligt de top rechts en de lange staart links.
13; 5
Voorbeelden en Varianten van standaardscores
Bij een 6-item-toets, afgenomen aan een groep van 64 personen, vindt men een verdeling over de 7 mogelijke scores van 3-8-13-16-13-8-3. Uit deze getallen kan men berekenen, dat de gemiddelde score 3 bedraagt, de testva-
i8
Van ruwe score tot standaardscore
Tabel 13 ; 5
13; 5
Berekening van standaardscores
frequentieverdeling: ruwe scores afwijkingscores : standaardscores :
3 o —3 —2
8 1 —2 — i-
13 2
16 3
—i
0
-1
o
13 4
8 5
1 ä
3 6
2 ;
3 2
riantie 9/4 en de standaardafwijking \\ \ de standaardscores verkrijgt men dus door de afwijkingscores te delen door 1,5. (Zie tabel 13; 5.) Van de 64 personen blijken 13 + 1 6 + 1 3 = 42 personen een standaardscore te hebben, welke ligt tussen — 1 en + 1 ; dit is ongeveer 66 %. Dit percentage hangt af van de frequentieverdeling. Maar bij de 'normale' symmetrische eentoppige verdeling kan men als vuistregel stellen, dat ongeveer twee derde van de groep personen een standaardscore heeft tussen — 1 en + 1 , dus een ruwe score tussen X—s en X + j . Ongeveer een zesde van de groep heeft een ruwe score beneden de X — s en ongeveer een zesde heeft een score boven d e X + i . Laat bij een andere 6-item-test de verdeling zijn: 9—9 — 1 1 — 6 — 1 1 — 9 — 9 , dus tweetoppig met toppen bij de ruwe scores 2 en 4. Deze eveneens symmetrische verdeling van de scores van 64 personen is reeds op het 00g veel meer gespreid dan de vorige. Wanneer men de standaardafwijking berekent, vindt men dan 00k een grotere waarde. De s is hier 2 in plaats van 1,5. De standaardscores zijn achtereenvolgens: - i i , - 1 , - ± . 0, + i , + 1 en + i ± . Men treft bij toetsen zelden standaardscores aan, die groter zijn dan 2,5 of kleiner dan —2,5. Praktische nadelen van standaardscores zijn het optreden van negatieve scores en van decimale getallen. Zoals men vaak de voorkeur geeft aan decielen boven percentielen (13; 1), zo gebruikt men in de praktijk liever bepaalde Varianten van de standaardscores, die positieve een-cijferige getallen opleveren. Een veelgebruikte variant is de zogenaamde C-score, die uit de standaardscore berekend wordt met C = 2z + 5.
13; 5Ci)
De zo verkregen scores rondt men af tot gehele getallen. C-scores kunnen aldus de gehele waarden 0 tot en met 10 aannemen. In het laatste voorbeeld van een 6-item-test zouden de C-scores worden: 2, 3, 4, 5, 6, 7 en 8. Deze cijfers komen al haast overeen met de gebruikelijke schoolcijfers. Vindt men het echter een nadeel, dat bij het gebruik van C-scores (evenals trouwens bij het gebruik van decielen) ongeveer de helft van de groep een
i 3 ; 5/i3; 6
Van ruwe score tot standaardscore
19
'onvoldoende' krijgt, dan kan men desgewenst een andere (zogenaamde transformatie-)formule benutten, bij voorbeeld: C ' = i , 5 z + 7,
13; 5 (2)
mits men maar dezelfde formule toepast bij alle toetsen waarvan men de scores wil vergelijken. Bij de eerder genoemde 6-item-toets met de verdeling 3 — 8 — 13 — 16 — — 1 3 — 8 — 3 worden de C'-scores aldus 4 , 5 , 6 , 7 , 8 , 9 en 10. Het percentage onvoldoenden is met deze formule meer in overeenstemming met dat van de onderwijspraktijk.
13; 6
Normen
Maar hiermee zijn we aangeland bij de 'wet van Posthumus' volgens welke steeds eenzelfde percentage leerlingen een onvoldoende krijgt, of de groep in zijn geheel nu de stof beheerst of niet. Uit het bovenstaande blijkt, dat de docent zowel de standaardafwijking als het gemiddelde van het eindcijfer willekeurig kan bepalen door de coefficient van z en de constante rechts in de formule 13; 5 (2) willekeurig vast te stellen. De standaardscoremethode of een van de C-varianten is - evenals de percentielmethode - zeer geschikt om scores van verschillende toetsen met elkaar te vergelijken, maar men moet niet over het hoofd zien, dat het percentage onvoldoenden hier bepaald wordt door de methode - de constanten in de formule - en niet door de kwaliteit van de groep personen. Wanneer de kwaliteit van de groep personen wisselt - van klas tot klas of van jaar tot jaar - dan is het zeer belangrijk de 'wet van Posthumus' te doorbreken. Als we dit jaar een over het algemeen 'betere' groep hebben dan vorig jaar dan moet dit 00k blijken uit het percentage onvoldoenden. De groep moet dit jaar gemiddeld minder onvoldoenden hebben. De meest voor de hand liggende methode is natuurlijk van te voren een constant percentage goed te beantwoorden items vast te stellen. Maar een moeilijkheid is om zonder speciale maatregelen telkens een even moeilijke toets samen te stellen. De methode gaat wel op als we dezelfde toets afnemen, maar dit doet men niet graag in verband met het bekend raken van de items. D o c h bovendien is elk a priori vastgesteld percentage items volkomen willekeurig. Om deze willekeur te beperken en om tevens de wet van Posthumus te
20
Van rime score tot standaardscore
doorbreken is de zogenaamde Kernitemmethode ontwikkeld. Deze en vervvante methoden worden beschreven in hoofdstuk 19. Heeft men eenmaal een norm vastgesteld, bij voorbeeld met de kernitemmethode, dan kan men deze norm bij een andere groep personen handhaven, mits men maar een aantal items bij beide groepen afneemt. De rest van de toets kan dan voor beide groepen verschillend zijn. De deeltoets met dezelfde items doet hier dienst als constante maatstok, die de normen - de grenzen tussen de eindscores, waaronder de grens tussen voldoende en onvoldoende - van de ene toets naar de andere overbrengt. Bij deze zogenaamde 'equating of scores' kan men weer naar keuze gebruik maken van een van de twee concurrerende methoden: de percentielmethode of de standaardscoremethode. De standaardscoremethode kost de minste tijd, maar hierbij neemt men aan, dat de frequentieverdeling van de scores op de deeltoets gelijkvormig is aan die van de totale toets. Is dit duidelijk niet het geval, dan zal men wel zijn toevlucht moeten nemen tot de percentiel- of 'niet-lineaire' methode. Deze 'equating of scores' wordt eveneens beschreven in hoofdstuk 19.
R. F. VAN N A E R S S E N
H O O F D S T U K 14
Correlatie
14; 1
Statistisch verband tussen testscores
Om na te gaan of en in hoeverre de scores van twee tests - X en Y genoemd - statistisch met elkaar samenhangen bij een bepaalde groep personen (die beide tests gemaakt hebben), kan men een zogenaamd correlatietableau opstellen. Men maakt een rasterwerk van horizontale en verticale lijnen op gelijke afstanden. Men zet de scores van de ene test (A') horizontaal en die van de andere ( F ) verticaal af. We spreken af, dat de scores van X altijd naar rechts, en die van Y naar boven toenemen. Een (verticale) kolom correspondeert dus met een bepaalde score op test X en een (horizontale) rij van het tableau met een bepaalde score op test Y. We 'turven' nu de personen op het tableau. Het streepje van iemand, die op test X een 2 gehaald heeft en bij voorbeeld op test Y een 9 komt dus te staan in het vakje (de cel) op het kruispunt van de kolom, corresponderende met X = 2, en de rij, die overeenkomt met Y = 9. In de volgende figuur is een viertal correlatietableaus weergegeven. Duidelijkheidshalve zijn niet aile horizontale en verticale lijnen tussen de scores getekend. (Zie pag. 212.) Beschouwen we het eerste tableau. Aile personen met een score 0 op test X hebben een score 5 op test Y. Of : aile personen met een score 9 op test Y hebben een score 2 op test X, etc. Als we iemands score op de ene test weten, dan kunnen we 00k met zekerheid zijn score op de andere test voorspellen. We noemen dit een volledig verband of volledige correlatie tussen de testscores X en Y. Bovendien merken we op, dat een hogere score op Zsteedsgepaardgaat met een hogere score op Y. We spreken daarom van een volledige positieve correlatie.
22
Correlane
Figuur 14; I
Een vierteil correlatietableaus van ,Y 0 1
ruwe score
van Y
0 0 0 0 4
13 11 9 7 5
van Y
10 5 0
derde tableau
ruwe score
0 0 0 9 0
2
3
4
0 0 12 0 0
0 8 0 0 0
2 0 0 0 0
6
8
I 2 i
4 8 4
1 2 i
standaardscore 2 4 van
; 0 •L
H 4 a —2
van X -2 - i 0 0 0 0 0 1 0 2 2 2 1 2 0 1
vierde tableau
van X 10 5
15
20
25
0 7 0 0 0
0 0 1 0 0
0 0 0 8 0
0 0 0 0 2
3 0 0 0 0
tweede tableau
van X 2 4 3 6 3
14 12 10 8 6
van Y
r = -r
eerste tableau
ruwe score
14; I
r =
r
=
T 0 I 2 J 3 2 2
—
0 0 2
3 6 3 2 0
1
j2 2 4 3 1 1 0
4. 1 2 1 2 0 0
2 0 i 2 0 0 0 0
+0,50
Bij het tweede tableau is 00k sprake van een volledige correlatie. Maar hier gaat een hogere score op X gepaard met een lagere score op Y, en dus omgekeerd: een hogere score op Y betekent een lagere score op X. We spreken hier van een volledige negatieve correlatie. Het derde tableau toont twee tests, die geen enkel statistisch verband met elkaar hebben: wanneer de score bij de ene test bekend is, geeft dit geen enkele aanwijzing omtrent de score bij de andere test. Bij volledige positieve correlatie staan alle gevulde cellen in het tableau op een rechte lijn* van links beneden naar rechts boven (bij onze afspraak, dat de scores van de ene test naar rechts en die van de andere naar boven toenemen). Bij volledige negatieve correlatie staan deze gevulde cellen op een lijn van links boven naar rechts beneden. Is er geen correlatie, dan zijn de frequenties 'toevallig' over het veld verdeeld. Het vierde tableau toont een niet-volledige positieve correlatie. De correlatie is positief, want de frequenties liggen in het algemeen op een strook van links beneden tot rechts boven; maar niet volledig omdat de frequenties niet allemaal op een lijn liggen. Het beeld, dat door de frequenties in * Men spreekt hier over 'lineaire correlatie'. Men beperkt zieh in de testleer meestal tot dit soort correlatie.
Correlate
i4; i/i4; 2
23
de tabel wordt opgeroepen, is niet dat van een lijn maar dat van een wat gerekte cirkel, een 'ellips'. Hoe hoger de score op de ene test, hoe hoger in het algemeen de score op de andere test, maar uit de score op de ene test kan men niet met zekerheid de score op de andere test afieiden. Door het Vierde tableau te spiegelen (om een willekeurige horizontale of verticale as) zou men een voorbeeld kunnen geven van een niet-volledige negatieve correlatie. De lange as van de 'ellips' loopt dan van links boven naar rechts beneden.
14; 2
De correlatiecoefficient gedefinieerd
Het is zeer nuttig gebleken de mate van correlatie in een getal vast te leggen. De in de testleer meest gebruikte maat is de produkt-moment-correlatie-coefficient (afgekort pmc). In het vierde tableau zijn A'en ygeen ruwe scores maar standaardscores. De lijnen verdelen het tableau in vier 'kwadranten'. In het kwadrant rechtsboven zijn alle standaardscores positief en in het kwadrant linksbeneden negatief. Bij het linkerboven- en het rechterbeneden-kwadrant is een (standaard-)score positief, het andere negatief. De correlatiemaat moet positief zijn als de frequenties liggen in het rechterboven- en linkerbenedenkwadrant, en wel des te groter naarmate de frequenties meer op de diagonaal liggen. Het ligt daarom voor de hand om voor de correlatiemaat de Produkten van de standaardscores te benutten. Men definieert de pmc, meestal aangegeven met de letter r, als het gemiddelde van de N Produkten: r
*»
=
Ez^z jv~'
_
14; 2 ( 1 )
waarin de z met index x (resp. y) betekent, dat het gaat om de z-score van test .Y(resp. Y). De index xy van r kan desgewenst weggelaten worden, als de context dit toelaat. Voorbeeld: We berekenen de pmc bij het vierde tableau en wel eerst de som der produkten. De frequenties in de cellen met X = 0 of Y = 0 kunnen we overslaan, want deze leveren produkten, die nul zijn. Indien men dan de cellen van links naar rechts en de rijen van boven naar beneden afloopt, krijgt men als produktsom: 2 ( + § ) (+2)4-1 ( + f ) ( + 2 ) + 1 (—J) ( + $ ) + . . . + 2 ( — f ) ( — 2 ) + = 32. Het aantal personen N is 64. De pmc bedraagt
24
Correlaíie
14; 2/14; 3
dus = +0,50. Conventioneel rekent men r meestal uit in twee decimalen. We zullen nu aantonen, dat bij een volledige positieve correlatie de pmc 'max precies 1 bedraagt. Bij volledige correlatie, zoals in het eerste tableau (tìguur 14; 1), hebben beide tests een gelijkvormige verdeling; bij dit voorbeeld de verdeling 4—9 — 12 — 8 — 2. Dit betekent dat bij elke z-score van X precies dezelfde z-score van Y behoort, zodat r' max --
Ez 2 TT
14:2(2)
waarbij men aan z zowel de index x als de index y zou kunnen toevoegen. Wanneer men hierin z vervangt door x/s (definitie van z) dan blijkt in verband met de definitie van de testvariantie dat
De correlatie van de scores 'met zichzelf' is dus 1, evenals de variantie van standaardscores. Evenzo vindt men dat bij volledige negatieve correlatie de pmc — 1 is. Wanneer de gevulde cellen van het tableau niet alle op een lijn liggen, dan heeft de pmc een waarde, welke ligt tussen — t en + 1 . Dit is het geval bij het vierde tableau, waar, zoals boven werd berekend, de pmc +0,50 is. Hoe meer de in de tabel gerepresenteerde personen op een rechte lijn liggen in plaats van willekeurig over het veld verdeeld te zijn, hoe dichter de pmc bij de waarde + 1 of — 1 ligt.
14; 3
Berekening van de correlatie
Formule 14; 2 (1) definieert de produkt-moment-correlatie(-coefficient), maar het is bepaald onhandig om in de praktijk de pmc hiermee te berekenen, zoals het 00k onhandig is de variantie te berekenen met de definierende formule. In de eerste plaats kan men nu de pmc berekenen uit de afwijkingscores. Indien men in formule 14; 2 (1) voor z schrijft x/sx (resp. y/sy; definitie van standaardscores) dan krijgt men Zx>' =
Ñ7J,
14;
3(0
14; 3
Correlatie
25
Maar 00k hier is het handiger om uit te gaan van de ruwe scores, dus van getallen die uit hoogstens twee cijfers bestaan. Wanneer we in de vorige formule voor x schrijven X—X en voor y Y—Y, dan kunnen we de faktorX.ry/W herleiden, op geheel analoge wijze alsSx-r/jV bij de variantie ( 1 3 ; 3 (1) tot 13; 3 (5)), tot de teller van onderstaande formule. ZXY r
*y=-
XY
N SXSy
•
I4;3(2)
Vermenigvuldiging van teller en noemer met N2 leidt, in verband met formule 1 3 ; 3 ( n ) , tot NHXY-(LX) "
(iy>
V i V I X 2 - ( I X ) 2 n/NS Y2 - (L Y f '
145 3 ( 3 )
Gebruiktmen de definierende formule of formule (1) in plaats van (3), dan moet men midden in deberekeningen beslissingen nemen over de mate waarin men wil afronden. Dit doet öf afbreuk aan de nauwkeurigheid van de uitkomst, öf men haalt zieh veel reken werk op de hals. Met formule (3) verschuift men de afronding naar het einde van het rekenproces. We hebben ( 1 3 ; 3 (6)) gezien, dat de deviatiescores van JVniet veranderen indien we bij alle ruwe scores eenzelfde willekeurig getal optellen; dus verändert 00k de testvariantie en de standaardafwijking niet. Uit (1) volgt nu dat 00k de pmc niet verändert. Vermenigvuldigen we alle ruwe scores X met eenzelfde getal a, dan worden de deviatiescores „v met a vermenigvuldigd ( 1 3 ; 3 (7)), maar tevens wordt de standaardafwijking met a vermenigvuldigd. Uit formule (1) zien we dat zowel de noemer als de teller met a vermenigvuldigd wordt, zodat r constant blijft. Dit geldt natuurlijk 00k voor het geval we alle ruwe scores Y met eenzelfde getal c vermenigvuldigen, of er eenzelfde getal d bij optellen. Dus: De pmc tussen twee tests X en Y verändert niet wanneer we voor alle scores X substitueren aX-\-b\ en voor alle scores Y: cY+d, waarin a, b, c en d willekeurige getallen zijn. De correlatie van een score X met een hieruit afgeleide score aX+b is dus 1. Van bovengenoemde eigenschap kan men vaak gebruik maken om bij de berekening van de pmc met kleinere getallen te werken, hetgeen tijd kan sparen. Voorbeeld 1: De scores, die door de groeo op test X behaald zijn, lopen
26
Correlatie
14; 3
v a n 22 tot 55, die v a n test Y v a n 33 tot 64. V a n alle scores X trekken w e bij v o o r b e e l d 40 af en van alle scores Y 50 (de enige reden w a a r o m w e hier r o n d e getallen kiezen is d a t er d a n minder k a n s is o p f o u t e n bij de a f t r e k kingen). D e nieuwe scores X' l o p e n v a n — 1 8 t o t
15 en de nieuwe scores
Y' van — 1 7 t o t + 1 4 , w a a r d o o r de p r o d u k t e n X'Y'
uit h e t h o o f d k u n n e n
w o r d e n o p g e s c h r e v e n , bij v o o r b e e l d als v o l g t : Tabel 14; 3
Persoon Abraham Bernard Cornelis enzovoort
Berekening van kwadraatsommen en produktsommen X
Y
X'
Y'
X'-
59 46 42
+ 13 + 5 - 6
+9 -4 -8
169 25 36
Y'i 81 16 64
X'Y'
53 45 34
EX'
EY'
EX'2
EY'2
.......
Opgeteld krijgt men:
+ 117 + 48
D e z e w a a r d e n substitueert m e n in (2), evenals N, o m r te vinden. N . B . Indien m e n beschikt o v e r een tafelrekenmachine, d a n is het niet n o d i g , en zelfs t i j d r o v e n d , o m eerst een getal van de ruwe scores a f te trekken. M e n rekene d a n direct m e t ruwe scores. Voorbeeld
2: L a t e n in het vierde tableau v a n figuur 14; 1 de ruwe scores
v a n Xzijn:
3, 4, 5, 6, 7, 8 en 9, en van Y: 4, 5, 6, 7, 8, 9 en 10. H e t is een
g o e d e o e f e n i n g deze w a a r d e n in de tabel te schrijven in de plaats van de standaardscores, en de r d a n o p n i e u w uit te rekenen, nu met f o r m u l e (3). I d e m na van de r u w e scores X 6 en van d e ruwe scores Y 7 te h e b b e n a f g e t r o k k e n . N a t u u r l i j k m o e t m e n in beide gevallen r = 0,50 vinden, net als in het v o o r b e e l d v a n 14; 2. Voorbeeld
3: D e scores v a n X lopen v a n 26 tot 94 en die v a n Y van 35 tot
104. W e m ö g e n de ruwe scores d o o r een willekeurig getal delen, bij v o o r beeld i o . A l s w e de v e r k r e g e n scores d a n n o g a f r o n d e n t o t gehele getallen ( z o d a t de scores v a n v o o r b e e l d 2 ontstaan), d a n zal de d a a r m e e b e r e k e n d e pmc niet veel verschillen v a n de p m c die m e n met de ruwe scores z o u krijgen. W e l iets: de a f r o n d i n g heeft in het algemeen het effect, dat de pmc te klein w o r d t . W a n n e e r w e de o o r s p r o n k e l i j k e scores in 7 intervallen z o u d e n verdelen v a n elk 10 scores w a a r n a w e de intervallen o p v o l g e n d z o u d e n n u m m e r e n en deze n u m m e r s als nieuwe scores b e s c h o u w e n , d a n z o u het effect precies hetzelfde zijn. M e n m a g d e ruwe scores dus in (gelijke) intervallen indelen: de p m c verändert d a a r d o o r (praktisch) niet. N a a r m a t e m e n het a a n t a l intervallen kleiner m a a k t , w o r d t de a f w i j k i n g van de p m c echter belangrijker. Indien m e n beide testscores indeelt in 7 intervallen z o a l s
m ; 3/i4; 4
Correlatie
27
in dit voorbeeld, dan wordt de pmc (gemiddeld) ongeveer 6 % te klein ; bij 5 intervallen 11 %, bij 2 intervallen (metevenveel personen in beide helften) 33%*
14; 4
Dichotome variabelen
Tot nog toe hebben we eenvoudigheidshalve steeds gesproken over de correlatie tussen de 'testscores' X en Y. Het is evident, dat men de berekening van correlatiecoëfficiënten niet beperkt tot scores op toetsen. Men kan correlaties berekenen tussen rapportcijfers, tussen lichaamslengte en gewicht, tussen inkomen en statusbeoordelingen, kortom tussen 'variabelen', grootheden, die variëren, en wel in ons geval (tot nog toe) van persoon tot persoon. Het aantal waarden, dat een variabele kan hebben, kan men door indeling in intervallen beperken. Z o hebben we het aantal waarden van de variabele X in het laatste voorbeeld beperkt van 70 tot 7. In het extreme geval wordt het aantal waarden beperkt tot 2. Men zegt dan dat men de variabele heeft gedichotomiseerd, of gereduceerd tot een dichotome variabele of een dichotomie. Voorbeeld: Uit de scores van een aantal toetsen berekent men een totale score X. Wie een score X heeft groter dan een getal A is geslaagd. Men noteert alleen of iemand geslaagd is of gezakt. De variabele X is hiermee gedichotomiseerd tot de dichotome variabele 'slagen versus zakken', die men desgewenst de waarden 1 en 0 kan geven. Naast de gedichotomiseerde variabelen zijn er echte dichotome variabelen zoals sekse, getrouwd-zijn, etc. Voor ons van belang zijn hier vooral de itemscores, die immers slechts twee waarden kunnen hebben: 1 of 0. Gemiddelde, variantie en standaardafwijking van een dichotome, 1 of o gescoorde, variabele kunnen gemakkelijk berekend worden. Het aantal gevallen (bij onze voorbeelden personen) in de 1 -catégorie wordt altijd aangeduid met de hoofdletter P, het aantal gevallen in de o-categorie met de hoofdletter Q, het totale aantal is N: P + Q = N.
14; 4(x)
Indien X de dichotome variabele is, dan is * Althans bij bepaalde onderstellingen, o.a. een 'normale' frequentieverdeling. Zie GÜILFORD 1 9 5 0 , p . 360.
28
Correlatie
14; 4 / 1 4 ; 5
Y.X = P x i = P SX
2
= Pxi
2
en
14:4(2)
= P.
I 4 ; 4 ( 3 )
Het gemiddelde van een dichotome 1 of 0 gescoorde variabele wordt aangegeven met de kleine letter p ; uit (2) volgt
P X
=
P
=
H'
14; 4(4)
Bij items zullen we spreken van p-waarde. Hoe gemakkelijker het item (voor de onderhavige groep) hoe groter de gemiddelde itemscore. De p-waarde is daarom een index voor de gemakkelijkheid van het item. D e p is de proportie gevallen in de i-categorie. De proportie gevallen in de o-categorie wordt aangeduid met de kleine letter q: = Öjj-
-waarde zijn eerder als parallel te beschouwen dan items die uiteen liggen in gemakkelijkheid. Een derde criterium, dat hier vaak gebruikt wordt, is de item-test-correlatie. Soms zet men in een grafische voorstelling de />-waarde af op de X-as en de item-test-correlatie op de 7-as. De items worden gerepresenteerd door punten op het tableau. Men omcirkelt dan paren punten, die dicht bij elkaar liggen. Tests, die op een dergelijke wijze item voor item 'parallel' gemaakt zijn,
4°
Betrouwbaarheid
I5;4/I5; 5
zullen we equivalent noemen. Correleert men de scores op de zo verkregen paralleltests, dan krijgt men een equivalentie-coefficient. Men kan echter 00k dezelfde test, afgenomen op een ander tijdstip, beschouwen als paralleltest. Men noemt de correlatie tussen de twee scores dan een stabiliteitscoefficient van de toets. Het is evident, dat 'de stabiliteit' afhankelijk is van het tijdsinterval tussen de afnamen. Kiest men de tweede afname vlak na de eerste, dan zullen de scores bijna identiek zijn, doordat Velen zieh nog herinneren welk alternatief ze bij de eerste afname gekozen hebben, 00k als zij raden. Heeft de tweede afname van een studietoets maanden na de eerste plaats, dan is een deel van de stof al weer vergeten. Een tijdsinterval van een week is vaak een goed compromis. In de eerste alinea van paragraaf 15; 1 hebben we een aantal toevallige factoren genoemd, die.invloed uitoefenen op de score. Bij elk aspect van de betrouwbaarheid wordt nu een enigszins andere groep toevallige factoren als 'fout' beschouwd. Bij de equivalentie wordt bij voorbeeld 'toevallig goed geleerd hebben' beschouwd als fout, maar 'verkoudheid' wordt gerekend bij de wäre score. Bij de stabiliteit is het net andersom; immers, de tweede keer dat de test wordt afgenomen hebben dezelfde personen geluk of pech wat betreft de gestelde vragen, maar vermoedelijk zijn andere personen verkouden. Indien men de betrouwbaarheid berekent als equivalentie zal men dus in het algemeen tot een andere uitkomst komen dan wanneer men deze berekent als stabiliteit. Toch maakt het in de praktijk niet veel uit, mits het tijdsinterval bij de stabiliteitsberekening juist gekozen is (een week). Vele toevallige factoren worden namelijk zowel door de ene als door de andere methode als fout gerekend, waaronder het raden, tijdelijke fluetuaties van de aandacht en bepaalde fouten in de itemconstructie.
15; 5
De invloed van de testlengte
Bij het bepalen van de equivalentie-coefficient en van de stabiliteit moet men twee maal een toets afnemen. Vaak wil men de betrouwbaarheid berekenen zonder een tweede testafname. Men kan dan de test zelf splitsen in twee equivalente helften op de manier zoals in de vorige paragraaf werd aangegeven. De correlatiecoefficient tussen de beide delen is dan echter een aspect van de betrouwbaarheid van een deel. O m hieruit de betrouwbaarheid van de totale toets te berekenen moet men het verband weten tussen betrouwbaarheid en testlengte. Dit gaan we nu afleiden.
Betrouwbaarheìd
i5; 5
41
Laat een test X bestaan uit K subtests met scores X[, X^,..., X^. De score van de totale test is de som van de scores X', de wäre score W is de som van de wäre scores W' en de fout e is de som van de fouten e' van de subtests : (accenten wijzen op subtestgrootheden) eT = e\+e'2+
+ ex'=Ie'.
15; 5(1)
Van dit punt af gebruiken we het som-teken ook voor optellingen over testdelen (subtests, items). Uit de context zal duidelijk zijn of we te maken hebben met optelling over K testdelen of over N personen. Om de totale foutenvariantie te berekenen, kwadrateren we, teilen op over de N personen en delen door TV. Uit de lagere algebra weten we dat het kwadraat van een veelterm gelijk is aan de som van de kwadraten der termen plus twee maal de som van alle onderlinge Produkten. Maar deze laatstezijn hier nul wegens onderstelling 15; 3 (3). Dus: De foutenvariantie van de totale test is gelijk aan de som van de foutenvarianties van de delen : Ve = ZVe..
15; 5 (2)
We zullen ons nu beperken tot K paralleltests. Hiervan zijn de foutenvarianties gelijk, dus Ve=KVe,.
15; 5 (3)
W = KW'+constante.
15; 5 (4)
Voorts is
We weten, dat als we de scores met K vermenigvuldigen en er eventueel een constante bij optellen, de variantie K 2 maal zo groot wordt (1353 (8)), dus Vw = K2VW,.
15; 5 (5)
Door beide leden van (5) te delen door de overeenkomstige leden van (3) krijgt men (definitie van F: 15; 2 (2)): F = KF'.
15; 5 (6)
Tot nog toe hebben we K als een geheel getal beschouwd. Door elke paralleltest nu weer in te denken als bestaande uit m kleinere paralleltests, elk met een Fgelijk aan F/m, en deze weer in groepen van n samen te voegen tot een lengte n/m maal de oorspronkelijke en een F gelijk aan nF/m, bewijst men dat (6) ook geldt voor alle niet-gehele (positieve) waarden van K. Dit zelfde geldt natuurlijk voor (3) en (5).
42
Betrouwbaarheid
15; 5/15; 6
Het belang van de signaal/ruis-verhouding F voor de studietoetsconstructie zit nu juist in het feit dat deze evenredig is aan de testlengte. We komen hierop terug in 17; 4. Uit (6) en 15; 2 (5) volgt r i —r
Kr'
15; 5 (7)
i—r
waaruit men na herleiding vindt: Kr' rxx ——; , Kr + 1 — r
(Spearman-Brown-formule).
15; 5 (8)
Als men de betrouwbaarheid r' van een toets kent, dan kan men deze formule gebruiken om de betrouwbaarheid r van een K maal homogeen verlengde toets te berekenen. De formule wordt genoemd naar de ontdekkers Spearman en Brown, en geldt natuurlijk, evenals (6) voor aile positieve waarden van K, 00k die welke kleiner zijn dan 1 (testverkorting). Bij splitsing van de toets in twee paralleltests, waarmee we deze paragraaf begonnen, is K = 2. Dit ingevuld in (8) levert de formule op, waarmee men de betrouwbaarheid kan berekenen van de totale test: rxx =
15; 6
2 r' i+ r
(SB-formule bij twee helften).
15; 5(9)
Homogeniteit
Naast de stabiliteit en de equivalentie-coefficient onderscheidt men de homogeniteit als betrouwbaarheidsaspect. De homogeniteit van een toets is de mate waarin delen van een toets met elkaar samen hangen. Men kan een homogeniteitscoefficient verkrijgen, door de verzameling items in twee willekeurige helften te verdelen, de scores op beide helften te berekenen en met elkaar te correleren, waarna men de coefficient bepaalt met bovenstaande formule 15; 5 (9). Voor de hand ligt de eerste en de tweede helft van de toets te correleren. Maar op deze wijze hopen zieh de vermoeidheids- en oefeningseffecten op in een helft. Deze manier is dus af te raden, tenzij het juist om een onderzoek van deze effecten gaat. Gewoonlijk wil men de invloed van vermoeidheids- en oefeningsfouten op de homogeniteitscoefficient juist zo veel mogelijk beperken. Dit bereikt men door de even items in de ene helft op te nemen en de oneven items in
Betrouwbaarheid
de andere helft. M e n noemt deze z o verkregen coefficient de
43
even-oneven-
betrouwbaarheid. Het verschil met de equivalentie-coefficient zit hierin, dat bij de h o m o geniteitsberekening de items niet paarsgewijs parallel gekozen worden. Het gevolg is dat de homogeniteit lager is dan de equivalentie-coefficient. In de studietoetspraktijk is het echter meestal slechts een verschil van enkele procenten. In plaats van de toets in twee helften te verdelen, kan men deze in een willekeurig aantal delen splitsen, tot de limiet: splitsing in items. D i t laatste verdient zelfs de voorkeur omdat elke splitsing in tweeen tenslotte willekeurig is. M e n heeft uitgerekend, dat de homogeniteit die men verkrijgt bij splitsing in items het gemiddelde is van alle homogeniteiten, die men z o u verkrijgen door splitsing in twee helften. Splitsing in items levert dus een gemiddelde, dat daardoor stabieler is dan een willekeurige h o m o geniteitscoefficient. W e zullen nu een formule afleiden, waarmee men de 'gemiddelde h o m o geniteitscoefficient' kan berekenen uit de variantie van de totale test en de varianties van de delen. D e accenten verwijzen weer naar grootheden van de delen o f subtests. W e brengen eerst in herinnering, dat elke testvariantie de som is van een wäre variantie en een foutenvariantie ( 1 5 ; 1 (7)): dat de betrouwbaarheid het quotient is van wäre variantie en testvariantie ( 1 5 ; 2 (2)); en dat de foutenvariantie van de totale test de som is van de foutenvarianties van de delen ( 1 5 ; 5 (2)).
vw = K
r = —
1
ve
= 1
zve,
K
Vx
= 1
zvx, zvw, . vx vx
15; 6 (1)
W e voeren nu een factor c in, zo, dat cVw =
15; 6 ( 2 )
A l s de test verdeeld is in K paralleltests, met gelijke wäre varianties, dan volgt uit 15; 5 (5) dat c = 1. M e n kan aantonen, dat als de delen gelijkefactor-tests zijn, maar niet parallel, c groter is dan 1, en wel des te groter naarmate de totale wäre score meer ongelijk is verdeeld over de subtests. O o k is c groter dan 1 als de delen geen gelijke-factor-tests zijn. Substitutie van (2) in (1) leidt tot r = 1
ZVX.
er 1 K .
15; 6 (3)
44
Betrouwbaarheid
15; 6/15; 7
D o o r de laatste term naar het linkerlid te brengen en r op te lossen vindt men K r*x =
I
K — c \1
2VA
V^ j'
I5;6(4)
waarin c = 1 als de delen parallel zijn. Zijn de delen niet parallel, maar is K groot, zoals bij splitsing in items, dan is de invloed van c op de breuk KI(K—c) gering en kan men 00k zonder bezwaar de formule voor paralleltests gebruiken: r
K
= K
~
l
/ (1
SKA I (algemene Kuder-Richardson-formule).
\
VX
/
C
i
\
15; 6(5)
Deze formule wordt genoemd naar de ontdekkers Kuder en Richardson. Hiermee berekent men de homogeniteit van een toets uit de totale testvariantie en de som van de varianties van de K subtests. Het wordt aan de lezer overgelaten aan te tonen, dat bij splitsing van de toets in twee paralleltests (K =~- 2) formule (5) herleid kan worden tot 15; 5 (9). Beide formules zijn dan equivalent. In de praktijk zijn beide testhelften natuurlijk nooit helemaal parallel. Beide formules (doch vooral 15; 6 (5)) geven dan een iets te läge schatting (c groterdan 1). Formule J 5; 5 (9) is echter zelfs nog goed bruikbaar als de ene testhelftvariantie twee maal zo groot is als de andere.
15; 7
Homogeniteit bij splitsing van de toets in items
Van een item, dat door een fractie p van de groep goed is gemaakt, is de variantie pq (14; 4 (6)). Dit ingevuld in bovenstaande formule 15; 6 (5) levert K Txx
~ K— 1
/
Zpq\
11
V^j
(Kuder-Richardson bij splitsing van de test in items)
15; 7 ( 1 )
O m de homogeniteit van een toets met (1) te bepalen moet men dus eerst niet alleen de testvariantie berekenen, maar 00k alle p-waarden. De /7-waarden zijn zo belangrijk voor de beoordeling van de geschiktheid van items, dat zij wel een van de eerste indices zijn die men berekent. Soms wenst men echter toch snel een homogeniteitsindex te bepalen zonder itemanalyse. Men kan dan een benaderingsformule van (1) gebruiken, waar
Betrouwbaarheid
155 7
45
men alleen het aantal items, de gemiddelde score en de testvariantie voor nodig heeft. De ÀTp-waarden zijn in het algemeen niet gelijk, doch hebben een zekere spreiding om hun gemiddelde p. De variantie van de /»-waarden is
ÏP 2 Vp = —
2 - P , waaruit
Zp 2 = Kp 2+KVp, Zpq = Zp(i-p)
15; 7 (2)
dus
1 5 ; 7 (3)
= Zp-Zp 2 = Kp-Kp 2-KVp
=
Kpq-KVp. 15; 7(4)
In (1) kunnen we nu voor Spq schrijven Kpq —KVp.Doen we alsof aile items dezelfde />-waarde hebben, dus doen we alsof Vp = o, dan wordt de homogeniteitsindex te klein, d.w.z. we krijgen een ondergrens van de homogeniteit:
rxx =
K K
/
~
1
\
1
Kpq\ K /
(ondergrens van de homogeniteit). /\ I5;7(5)
Hierin kunnen we p en q nog uitdrukken in de gemiddelde score X, opdat alleen gemiddelde en variantie van de testscore in de formule behoeven te worden ingevuld. Het totale aantal goed gemaakte items is hX, de som van de A^ scores ; maar 00k 2 P , de som van de A'P-waarden (P is het aantal personen dat een bepaald item goed heeft). Deling door N geeft
X = Zp = Kp.
15; 7(6)
K 2pq kunnen we dus schrijven als X(^-X), zodat, na herleiding rxx =
KVx-X(K-X) (K-i)Vx
(variant ondergrens homogeniteit). 15; 7 (7)
Hiermee kan snel een schatting van de homogeniteit gemaakt worden. De fout die we hierbij maken ten opzichte van (1) is, in verband met (4): Ar =
K
KVP •—ï. X — 1 K,
15;3 7 (8)
Deze fout A r is in de praktijk gering, enkele honderdsten ; we mögen dus grof afronden. De variantie van de /»-waarden van een (goede) studietoets
46
Betrouwbaarheid
I5;7/I5;8
blijkt zeer zelden groter te zijn dan 0,05.* Ronden we voorts K2/(K— 1) af tot
dan krijgen we Bovengrens homogeniteit = ondergrens H
K + l 20 Vx
.
15; 7 (9)
De homogeniteit, die men met (1) zou krijgen ligt tussen de bovengrens en de ondergrens in, meestal dicht tegen de bovengrens aan.
15; 8
Standaardmeetfout
De N toevallige fouten e hebben - als elke variabele - een frequentieverdeling. Zij varieren om hun gemiddelde 0, en hun variantie is de foutenvariantie, die berekend kan worden uit de testvariantie en de op een of andere manier - als equivalentie-coefficient, als stabiliteit of als homogeniteit - bepaalde betrouwbaarheid r: Ve=Vx-Vw=Vx(i-r).
I5;8(I)
De standaardafwijking van de (meet-)fouten noemt men de standaardmeetfout se: se — sx \/'i — r.
15:8(2)
We nemen nu aan, dat de standaardmeetfout (dus 00k de foutenvariantie) constant is over het gehele (voorkomende) scoregebied. Laat de laagste gehaalde score g zijn en de hoogste h, dan is se„
= s e 9 + 1 = seg+2
= seh = s e
(onderstelling). 15; 8 (3)
Met andere woorden: de subgroep met een score = g heeft dezelfde standaardafwijking van toevallige fouten als de subgroep met score 1, enz. Als al deze standaardafwijkingen gelijk zijn, dan zijn zij 00k gelijk aan die van de totale groep van N personen (als N groot is). Tegen deze onderstelling zijn vooral bedenkingen aan te voeren wanneer sommige personen alle items goed hebben. Deze groep heeft vermoedelijk een veel kleinere standaardmeetfout dan de overige. De onderstelling is echter redelijk in het middengedeelte van het mogelijke scoregebied. Met deze onderstelling kunnen we een schatting maken van de grenzen * Bij een variantie van 0,05 hoort een standaardafwijking van 0,22. Hebben de p-waarden een 'normale' frequentieverdeling, dan ligt ongeveer f van de p-waarden tussen p — 0,22 en p + 0,22. Bij de meeste (goede) toetsen zijn de p-waarden minder gespreid.
15; 8
Betrouwbaarheid
47
waarbinnen de wäre score (die ons het meest interesseert) moet liggen als we de testscore weten. M e n neemt nu voorts aan, dat de frequentieverdeling van de toevallige f o u t e n ' n o r m a a l ' is, dus symmetrisch, eentoppig en klokvormig. D a t betekent, dat (ongeveer) § van het aantal fouten e ligt tussen de waarden — se en + i e . Hieruit volgt weer, dat van alle personen met een bepaalde score X twee derde een wäre score heeft tussen de X—se en Anders gezegd: als we weten, dat iemand een bepaalde score X heeft, d a n is er 'een kans van twee o p drie' dat zijn wäre score ligt tussen X—se en X+se. M e n geeft dit aldus a a n : W = X ± s
e
15; 8(4)
.
Voorbeeld: Een toets van 100 items heeft een gemiddelde score van 70,0 en een variantie van 120,0. D e ondergrens van de homogeniteit wordt, berekend met 15; 7 (7) rxx =
100 x 120—70 x 30 99 x 120
= 0,833.
D e foutenvariantie w o r d t 120(1—0,833) = 20,0, dus de standaardmeetf o u t w o r d t 4,5. D e ruwe score van iemand met 60 items goed k a n men n u schrijven als 60 ± 4 , 5 - D a t wil dus zeggen, er is een kans van § d a t zijn wäre score ligt tussen 59,5 en 64,5. Kiest men de bovengrens van de h o m o geniteit met formule 15; 7 (9) berekend, d a n k r i j g t m e n : r = 0,833+0,042 = 0,875. D e foutenvariantie w o r d t 15,0, dus de s t a n d a a r d m e e t f o u t 3,9. D e score schrijft m e n d a n als 60 ± 3,9. In dit geval heeft de correctie Ar een aanmerkelijk effect. De standaardmeetfout is dus een maat voor de (on-)nauwkeurigheid van de score. Vermenigvuldigt men de ruwe score met een getal, zoals bij de omzetting in standaardscores of C-scores, d a n worden natuurlijk 0 0 k de f o u t e n en h u n standaardafwijking, de standaardmeetfout, met hetzelfde getal vermenigvuldigd. In bovenstaand voorbeeld is de standaardafwijking van de toets de wortel uit 120 of 11,0. Kiest men de bovengrens van de homogeniteit als betrouwbaarheidscoefficient, dan w o r d t de s t a n d a a r d f o u t van de z-score dus 3,9/11,0 = 0,35; de wäre z-score = £ ± 0 , 3 5 .
* Eigenlijk moest men de wäre score schatten met w = rx. Meestal laat men dit echter na.
48
Betrouwbaarheid
15; 9
Betrouwbaarheid afhankelijk van de groep
15; 9
De foutenvariantie is 00k van belang bij de schatting van de betrouwbaarheid bij een beperkte, geselecteerde groep. Men selecteert bij voorbeeld personen met een (eventueel samengestelde) testscore X, met betrouwbaarheid r. Zij, die lager scoren dan een zekere aftestgrens, vallen af, worden niet aangenomen of bevorderd. Bij de overgebleven groep is de betrouwbaarheid van de toets geringer. Dit ziet men direct aan een correlatietableau als bij voorbeeld het vierde van figuur 14; 1. X en Y stellen nu paralleltests voor. Laat men de gerepresenteerde personen met (bij voorbeeld) een standaardscore kleiner dan —§ weg, dan gaat de langgerekte (ellips-)vorm goeddeels verloren; de verdeling over het veld lijkt meer toevallig. Bij de schatting van de betrouwbaarheid bij de geselecteerde groep gaan we uit van bovengenoemde onderstelling (formule (15; 8 (3)): de foutenvariantie bij de geselecteerde groep (aangeduid met accenten) is gelijk aan de foutenvariantie (van dezelfde test) bij de oorspronkelijke groep: Ve=K,
of
Vx(i-r)
= JvO-r').
i5;9(,)
Kent men drie van de vier grootheden uit deze formule (variantie en betrouwbaarheid bij beide groepen) dan kan men de vierde gemakkelijk uitrekenen. Voorbeeld: Een zekere intelligentietest X heeft bij de Nederlandse bevolking een standaardafwijking van 15 punten en een betrouwbaarheid van 0,92. Hoe groot is de betrouwbaarheid bij een groep middelbare schoberen, waarbij de standaardafwijking van de scores slechts 10 punten bedraagt? Uit de eerste twee gegevens volgt een foutenvariantie van 225 x (1 —0,92) = 18. Bij de 'geselecteerde' groep is de testvariantie 100, dus de betrouwbaarheid 1 — 18/100 = 0,82. De betrouwbaarheid is dus gedaald, overeenkomstig de intuitieve redenering boven. Hieruit blijkt, dat het zinloos is om - afgezien van de drie verschillende aspecten - te spreken van 'de' betrouwbaarheid van een toets. Men moet er steeds de groep bijnoemen. Men kan spreken over 'de betrouwbaarheid van deze taaltoets voor derdeklassers h.a.v.o.' of voor 'de Nederlanders van 20 tot 80 jaar', maar een toets heeft geen betrouwbaarheid zonder groep, of'populatie' zoals dat heet. Zo kan men bij elke toets een betrouwbaarheid = 0 veroorzaken door deze af te nemen bij een zö homogene groep dat alle personen dezelfde wäre score hebben. Alle scoreverschillen
1559
Betrouwbaarheid
49
berusten dan op toevallige fouten. Hoe homogener de groep, hoe lager de betrouwbaarheid van de toets. Omgekeerd krijgt men een kunstmatig hoge betrouwbaarheidscoefficient wanneer men een toets afneemt bij een heterogene groep. Bij voorbeeld wanneer men een toets, bestemd voor derdeklassers, afneemt bij een gemengde groep van tweede- tot vierdeklassers. Dit effect is analoog aan dat, waarvan men gebruik maakt bij de bepaling van de discriminatie-index D (14; 7). Door weglating van de middelste 4 0 % van de groep wordt de (absolute) waarde van H—L groter: de groep is hierdoor heterogener geworden. De standaardmeetföut van een toets is, zoals we reeds weten, binnen zekere grenzen wel onafhankelijk van de groep. Empirisch heeft men aangetoond, dat de standaardmeetföut praktisch alleen afhankelijk is van het aantal items K van de toets. Volgens GERBERICH (1956, p. 330) kan men grofweg rekenen op een standaardmeetföut van 2 bij een K kleiner dan 24; van 3 bij een K van 24-47! van 4 bij een K van 48-89; van 5 bij een K van 90-109; van 6 bij een van 110-129; en op een standaardmeetföut van 7 bij een aantal items van 130-150. Theoretisch neemt de standaardmeetföut bij homogene testverlenging toe met de wortel uit AT (15; 5 (3)).
H O O F D S T U K 16
R. F. V A N N A E R S S E N
Validiteit
Hoewel het begrip 'validiteit' in de testleer een belangrijke plaats inneemt en er een uitgebreide literatuur over bestaat waarin vele aspecten onderscheiden worden, zullen we dit slechts summier behandelen. De reden hiervoor is, dat men in de studietoetspraktijk op Scholen en universiteiten nog maar nauwelijks aan 'validatie' van toetsen toekomt. We hebben de betrouwbaarheid van een toets beschouwd als de mate waarin de toets iets meet, wat dit ook möge zijn. De validiteit is nu de mate waarin de toets gebruikt kan worden om iets anders te meten of te voorspellen buiten het testgedrag (de testprestatie) zelf. Dit andere wordt het criterium genoemd.
16; i
Het criterium van een studietoets
Men construeert studietoetsen met een bepaald doel. Proefwerken en examens vormen een (essentieel) onderdeel van het onderwijs en de criteria van de studietoetsen zijn de doeleinden van het onderwijs zelf. Veelal onderscheidt men - in volgorde van oplopende concretisering uiteindelijke, intermediaire en onmiddellijke criteria. De uiteindelijke criteria worden meestal op min of meer wijsgerige gronden gesteld. Men wil kinderen opleiden tot 'goede Staatsbürgers', Studenten tot 'creatieve wetenschapsbeoefenaars' of 'leiders der maatschappij', en recruten tot 'bruikbare vechtsoldaten'. De uiteindelijke criteria zijn zo vaag, dat men er op zichzelf weinig aan heeft. Men moet beginnen met ze meer te preciseren. Men zal moeten afdalen van hooggestemde, maar veel te veel omvattende idealen naar meer bij-de-grondse
i6;1/16;2
Validiteit
51
begrippen, wil men niet verzanden in eindeloze discussies. Het uiteindelijke critérium moet eerst gespecificeerd worden in een lijst intermédiaire criteria. Een voorbeeld van een dergelijke lijst vormt de opsomming van GERBERICH (1956, p. 16-21). Hij beschouwt als doeleinden van het onderwijs het aankweken of leren van 1. vaardigheden (leesvaardigheid, rekenvaardigheid, atletische vaardigheid, enz.) 2. kennis (betreffende feiten, wetten, processen, bronnen, enz.) 3. kennis van begrippen (betekenis van woorden, gebruik van abstracte woorden in het denken, spreken en schrijven) 4. begrip (op een hoger niveau dan onder 3) 5. toepassingen (in logisch denken, problemen oplossen, met gebruik van kennis en begrip) 6. activiteiten (vrijwillig actief zijn) 7. waarderingen (in kunst, muziek, maar 00k in wiskundige formules, logische organisatie) 8. attitudes (de bereidheid om op een bepaalde wijze te reageren) 9. interessen (verbonden met preferenties en gevoelens) 10. aanpassingen (aan natuur en medemens). Een dergelijke lijst is nog niet concreet genoeg. Men zal elk der punten verder moeten specificeren, tot het ogenblik bereikt is waarop ze 'geoperationaliseerd' kunnen worden, dat wil zeggen dat aangeduid wordt hoe men ze tot een 'variabele' kan maken, hoe men ze kan meten, met behulp van toetsen, vragenlijsten, beoordelingen door leerkrachten of hoe dan 00k. Een zo gevormde variabele kan dienst doen als onmiddellijk critérium. Hiermee hebben we als het wäre vaste grond onder de voeten gekregen. We kunnen nu meten en voorspellen. We kunnen in een getal vastleggen in hoeverre studietoets X overeenstemt met de rapportcijfers van leraar P of met studietoets Y; of in hoeverre de uitkomsten van X gebruikt kunnen worden om het wel of niet slagen op het latere examen, of het succès in de maatschappij uitgedrukt in salarisklasse, te voorspellen.
16; 2
Âspecten van de validiteit
O p het concrete niveau van het onmiddellijk critérium wordt de validiteit van een toets vastgelegd als de correlatiecoëfficiënt tussen toets en critérium.
52
Validiteit
Hieruit volgt in de eerste plaats, dat de validiteit van een toets, evenals de betrouwbaarheid, afhankelijk is van de groep personen, waarbij die validiteit berekend wordt (15:9). Maar bovendien zijn er evenveel validiteiten als criteria. Men kan alleen spreken over de validiteit ten opzichte van een bepaald critérium. Een rekentoets kan 'valide' zijn ten aanzien van 'succès als boekhouder' maar geen enkele validiteit hebben ten opzichte van een beoordelingscriterium voor steno-typisten. De correlatie tussen toets en critérium wordt meestal de predictieve validiteit genoemd. Het gaat er hier immers om in hoeverre de toets in Staat is het critérium te voorspellen. Het critérium hoeft overigens niet in de toekomst gevormd te worden, zoals wel het geval is bij 'later succès'. Men kan een nieuwe toets 00k valideren ten opzichte van een bestaande toets. Men spreekt dan wel van soortgenoot-validiteit als bijzonder aspect van de predictieve validiteit. Zo kan men een studietoets valideren ten aanzien van een uitgebreid essay-examen over dezelfde stof. Men nadert natuurlijk meer en meer het begrip betrouwbaarheid naarmate de 'soortgenoot' meer lijkt op een paralleltoets. Het critérium is echter meestal net zo min als de toets zelf volkomen betrouwbaar. De criteriumscore kan evenals de testscore opgevat worden als de som van een wäre (criterium-)score en een toevallige fout. Met CURETON (1965) kunnen we nu spreken van de wäre validiteit als de correlatiecoëfficiënt tussen de testscore en de wäre criteriumscore. Bij de wäre validiteit zijn de toevallige fouten in het critérium uitgeschakeld. Voorts spreekt Cureton van intrinsieke validiteit waar het gaat om de correlatie tussen wäre testscore en wäre criteriumscore. Hier zijn dus de fouten van zowel het critérium als van de toets zelf uitgeschakeld. Deze correlatie wordt door anderen 00k wel de relevantie van de toets genoemd. Ware validiteit en intrinsieke validiteit kunnen, zoals in de volgende paragrafen wordt aangetoond, beschouwd worden als 'gecorrigeerde' vormen van de predictieve validiteit. Naast deze predictieve validiteitsaspecten steh men de begripsvaliditeit. Dit is de mate van overeenstemming tussen datgene wat de test meet en het begrip dat men eigenlijk bedoelt te meten. Men bedoelt bij voorbeeld het verbale uitdrukkingsvermogen te meten, maar alle criteria die men hiervoor kan opstellen zijn slechts benaderingen van het begrip. Zo volgt men de weg terug naar de intermédiaire criteria. Wat betreft begripsvaliditeit en de hiermee nauw verwante inhoudsvaliditeit kan worden verwezen naar 4: 3 en 4; 4.
Validiteit 16; 3
53
De correctie voor attenuatie
We zullen eerst de correlatie bepalen tussen een variabele (bij voorbeeld testscore) X en de wäre score Wy van een (bij voorbeeld als criterium te beschouwen) variabele Y. De wäre score hiervan in deviatievorm kunnen we schrijven als y —ey, zodat (14; 3 (1)): _ Zx(y-ey) NsxsWy
r
_ Ilxy-Yxey NsxsWii
16 3 ( 1 )
We hebben reeds eerder aangenomen, dat de toevallige fout van een toets onafhankelijk is van de wäre score van die toets (15; 1 (6)) en onafhankelijk van de toevallige fout van een andere variabele (15; 3 (3)). Het is niet onredelijk om aan te nemen, dat een toevallige fout van een variabele 00k niet correleert met elke andere (onafhankelijk bepaalde) variabele : rxey = 0
of
"Lxey = 0 (onderstelling)
16:3(2)
Met deze onderstelling wordt Zxy
Exy
Nsxs„
Nsxsv
sy
16; 3 (3)
De eerste breuk rechts is de correlatie tussen X en Y. De tweede breuk is het omgekeerde van de wortel uit de betrouwbaarheid van Y (volgens de definitie van betrouwbaarheid; en s is de wortel uit V). Dus: JCWj,
/
\'r y y
16; 3 (4)
Met deze formule wordt de correlatie tussen A'en 7zogenaamd 'gecorrigeerd voor attenuatie' (verzwakking), en wel in dit geval alleen wat betreft de variabele Y. Door de toevallige fouten wordt een score 'geattenueerd'. Is Y het criterium, dan geeft formule (4) de in de vorige paragraaf genoemde wäre validiteit van test X. Daar een correlatiecoefficient nooit groter kan zijn dan 1, volgt uit (4) dat de (gewone of predictieve) validiteit van een toets altijd kleiner dan of gelijk aan de wortel uit de betrouwbaarheid is. Deze wortel wordt debetrouwbaarheidsindex genoemd ;geenenkele validiteitscoefficient van een toets kan groter zijn dan de betrouwbaarheidsindex van die toets. De correlatie tussen X en de wäre score van Y kunnen we nu nog corrigeren voor onbetrouwbaarheid van X. Dit levert, in verband met (4) :
54
16; 3/16; 4
Validiteit
»»»y
/
V rxx
/
V
16; 3(5)
De correlatie tussen Xen Fis hiermee volledig gecorrigeerd voor attenuatie. Is een van beide scores het criterium, dan stelt de gecorrigeerde correlatie de intrinsieke validiteit van de andere score voor. Corrigeert men de correlatie tussen twee gelijke-factor-tests (15:3) voor attenuatie, dan krijgt men de waarde 1. Omgekeerd kan men gelijkefactor-tests definieren als tests, waarvan de onderlinge correlatie, gecorrigeerd voor attenuatie, de waarde 1 heeft. Vaak benutmen formule (5) om na te gaan in hoeverre twee tests 'dezelfde factor' meten. Naarmate de gecorrigeerde correlatie kleiner is dan 1, meten beide tests iets anders, 'andere factoren'. Door teller en noemer van de Spearman-Brown-formule (15:5(8)) door K te delen ziet men direct, dat de betrouwbaarheid van een toets tot de waarde 1 nadert als men de test onbeperkt verlengt (vermoeidheids- en oefeningseffecten buiten beschouwing gelaten). Gelijke-factor-tests zijn dus 00k tests, waarvan men de onderlinge correlatie door testverlenging zo dicht tot de waarde 1 kan laten naderen als men wenst. Eerder werd reeds opgemerkt (15; 1) dat men in de testleer uitgaat van een groot aantal personen N. Bij kleine groepen kan men bij voorbeeld wel degelijk een(toevallige) correlatie verwachten tussen A'en de fout van Y. Het gevolg is dat men in de praktijk wel eens gecorrigeerde correlaties tussen paralleltests vindt, die (iets) groter zijn dan.i. Men kan deze dan toeschrijven aan toevallige factoren. Ook is het mogelijk dat de betrouwbaarheid van de tests te laag is geschat, bij voorbeeld doordat men de ondergrens van de homogeniteit gebruikt heeft als betrouwbaarheidsmaat.
16; 4
Toepassingen van de correctie op de betrouwbaarheid
Wanneer het criterium een paralleltest is, dan spreekt men niet meer van validiteit maar van betrouwbaarheid. Desgewenst kan men het begrip betrouwbaarheid dus onderbrengen onder het ruimer opgevatte begrip validiteit. De correctie voor attenuatie kan nu ook worden toegepast op het betrouwbaarheidsbegrip. We weten al, dat men verschillende betrouwbaarheidsaspecten onderscheidt, al naar gelang men bepaalde 'toevallige factoren' rekent tot de wäre score dan wel tot de toevallige fout.
Validiteit
55
Bij het stabiliteitsaspect rekent men tijdelijke factoren als 'fout' maar de keuze betreffende te examineren delen van de stof als wäre score. We hebben (15; 4) de stabiliteit berekend als de correlatie tussen de scores van test X en de scores van dezelfde test X, enige tijd later afgenomen. N u kleven er bezwaren aan het tweemaal afnemen van dezelfde toets: hetverveelt de examinandi, die bovendien de neiging hebben voor zover zij het zieh herinneren dezelfde alternatieven aan te strepen als de eerste maal. Men kan nu 00k een stabiliteitscoefficient berekenen uit de correlatie tussen twee paralleltests, die met een zeker tijdsinterval zijn afgenomen. Deze correlatie moet dan nog gecorrigeerd worden voor attenuatie door gebrek aan homogeniteit. Men deelt de correlatie dus door het meetkundig gemiddelde van de homogeniteitscoefficienten van beide toetsen
(CURETON
1958). Zijn beide homogeniteiten gelijk, zoals dat hoort bij paralleltests, dan is stabiliteit =
correlatie tussen paralleltests met tijdsinterval homogeniteit
„ „ 16; 4 ( r )
Een tweede toepassing, eveneens van Cureton, is het bepalen van de homogeniteit van een essay-examen of proefwerk, dat wil zeggen van een toets, die niet door een rekenmachine kan worden gescoord. De score op een dergelijke toets is zelden of nooit geheel objectief te bepalen. De objectiviteit van de scoring - hier kortweg de objectiviteit genoemd wordt gedefinieerd als de correlatie tussen de cijfers (scores), die twee verschillende beoordelaars onafhankelijk van elkaar geven voor dezelfde (essay-)toets. De correlatie tussen twee parallel-essay-toetsen zou de homogeniteit van de toetsen moeten zijn - wäre het niet dat deze correlatie geattenueerd werd door gebrek aan objectiviteit van de scoring. Neemt men aan dat de objectiviteit van beide toetsen gelijk is dan is dus homogeniteit =
correlatie met een paralleltoets objectiviteit van de scoring
1654(2)
D e formule geldt natuurlijk 00k voor studietoetsen, waarvan immers de objectiviteit per definitie 1 is.
56
Validiteit
16; §
Validiteit en testlengte
Zoals men de Spearman-Brown-formule heeft afgeleid om de betrouwbaarheid van een Ä-maal homogeen verlengde toets te kunnen berekenen, zo heeft men een analoge formule ontwikkeld om de validiteit van een verlengde test te bepalen. We zullen, evenals in paragraaf 15; 5, de grootheden die betrekking hebben op de oorspronkelijke test aangeven m£t accenten, en die van de verlengde (of verkorte bij AT kleiner dan 1) zönder accenten. Laat voorts X de toets zijn en Y het criterium. De wäre score van X is een constante (AT) maal de wäre score van X' (15; 5). Dit betekent, dat de wäre score Wx van toets X precies evenveel correleert met een willekeurige andere variabele Y als de wäre score Wx> dat d o e t ( i 4 ; 3): rH,
x,
= rWx.y.
16; 5(1)
Dus, gebruik makend van formule 16; 3 (4), waarin x en y nu van plaats verwisseld zijn, kan men stellen ^ = ^ v r Vr
16; 5(2)
waarin we de betrouwbaarheidscoefficienten schrijven als r en r'. Hieruit kunnen we de gevraagde correlatie rxy oplossen: 16; 5 (3)
r
Men ziet uit deze formule, dat wanneer men een test X door testverlenging een factor A maal zo betrouwbaar gemaakt heeft, de validiteit ten opzichte van een criterium Y slechts vermenigvuldigd wordt met de wortel uit A. Voorbeeld: Test X heeft (ten opzichte van zeker criterium) een (normale) validiteit van 0,40 en een (läge) betrouwbaarheid van 0,64. Door verlenging bereikt men een (acceptabele) betrouwbaarheid van 0,81. De formule toont, dat de validiteit hierdoor slechts gestegen is tot 0,45 (namelijk 0,40x^/0,81/0,64). We kunnen nu voor de betrouwbaarheid van de K maal verlengde test de vorm invullen van de Spearman-Brown-formule (15 ;5 (8)). Men vindt K rxy = rx.y J „ , , _ Kr'+i-r'
,.
16; 5 (4)
Valìditeit
57
Deze formule geeft de validiteit van een K maal (homogeen) verlengde test, uitgedrukt in de validiteit en de betrouwbaarheid van de oorspronkelijke test. De maximum validiteit, die men door testverlenging kan bereiken, verkrijgt men door in (4) K = oneindig in te vullen, na teller en noemer eerst door K gedeeld te hebben : =
Vr
16; 5 (5)
Hiermee hebben we het linkerlid van formule (2) teruggekregen : de correl a l e tussen een 'oneindig verlengde test' en een criterium is gelijk aan de correlatie van de ware score van de test met dat criterium. Uiteraard : door testverlenging nadert de 'verhouding score/ware score' tot 1.
H O O F D S T U K 17
R. F. V A N N A E R S S E N
De interpretatie van indices
17; 1
Normen voor p- en a-waarden
Een item draagt met zijn wäre variantie bij tot de wäre variantie van de toets, en met zijn foutenvariantie tot de foutenvariantie van de toets. Hoe groter de itemvariantie, hoe groter in het algemeen de 'bijdrage'. D e itemvariantie is maximaal bij een p-waarde
van 0,50 (14; 7). H o e extremer de
/7-waarde, hoe minder het item (in het algemeen) bijdraagt, hoe minder gewicht het in de schaal legt. Items die door alle personen worden goed gemaakt, hebben een variantie = 0. Hun enig effect is dat zij de gemiddelde score verhogen, maar noch de testvariantie, noch de testbetrouwbaarheid worden erdoor be'invloed. Zij 'doen niet mee', zij hebben geen invloed op de rangorde van de personen. O m deze reden streeft men in het algemeen naar items met noch te hoge noch te läge p-waarde. Bij items waarbij niet geraden kan worden, dus waarbij de personen het antwoord zelf moeten invullen, wenst men meestal /7-waarden van omstreeks 0,50 als men de test goed wil laten differentieren over het gehele scoregebied. Bij items met A alternatieven waartussen gekozen moet worden, lopen de te verwachten p-waarden niet tussen 0 en 1 maar tussen l/A en 1. Immers, men kan verwachten, dat van een item, dat door niemand wordt gekend o f begrepen nog x/A van de groep personen toevallig het goede alternatief heeft aangestreept. M e n streeft 00k hier naar items met een /»-waarde in het midden van het te verwachten gebied; nu dus met een />-waarde van ( i + A ) j 2 A . Bij tweekeuze-items (bij voorbeeld van het waar-onwaar-type) kiest men derhalve liefst p-waarden van 0,75 en bij de gebruikelijke vierkeuze-items p-waarden van 0,63. V a a k vindt men het echter niet zo belangrijk om de test over het gehele
17; i
De interpretatie van indices
59
scoregebied goed te laten differentieren. A l s de test dient om te selecteren, om de geslaagden van de gezakten te onderscheiden, dan interesseert ons alleen het gebied rond de aftestgrens of caesuur. Hoe meer personen er naar verwachting zullen slagen, hoe hoger men de /»-waarde van de items moet kiezen, om de toets vooral goed te laten differentieren bij de aftestgrens. Te gemakkelijke items, met een p-waarde hoger dan 0,90 (dus met een variantie van minder dan 0,09 in plaats van de maximale variantie van 0,25) zijn meestal van weinig waarde. Maar anderzijds doen deze items 00k weinig kwaad, behalve dat zij nodeloos tijd in beslag nemen zowel van de examinandi, als van degene, die de test scoort. Sommige gemakkelijke items kunnen echter van nut zijn. In de eerste plaats om, als zij aan het begin van de toets staan, de examinandus te oefenen of op gang te brengen en om zijn nervositeit te verminderen. Dit gebruik wordt 'warming up' genoemd. Ten tweede geven zij de docent toch informatie over wat de leerlingen weten; zij dienen als alle andere items voor de 'feedback'. Ten derde kunnen zij als kern-item meedoen aan het bepalen van de aftestgrens (19; 2)Anders is het echter gesteld met te moeilijke items. Deze kosten de examinandi nog meer tijd dan de overige items; maar bovendien heeft het raden bij studietoetsen vooral een ongunstig effect bij de moeilijke items. Indien niemand bij een bepaald vierkeuze-item het antwoord weet, dan zal door raden alleen toch nog 25 % het juiste antwoord aangestreept hebben, zoals we weten. Maar alle variantie van dit item is foutenvariantie. Het gaat bij items vooral om de verhouding tussen wat zij bijdragen aan ware variantie en wat aan foutenvariantie. Deze verhouding is bij studietoetsen door het raden des te ongunstiger naarmate het item moeilijker is. Te gemakkelijke items 'wegen zichzelf weg' door hun geringe variantie; zij zijn daarom inefficient. Maar te moeilijke items bederven door hun foutenvariantie de betrouwbaarheid van de studietoets. Als men begint met het schrijven van items heeft men vaak juist de neiging om moeilijke items te schrijven, items, die later blijken een te läge /»-waarde te hebben. Om een dergelijk item op te lossen is het bij voorbeeld nodig om zowel de relatie A als de relatie B en de relatie C toe te passen. Men kan dit item nu het beste splitsen in drie items, waarin A, B en C apart gevraagd worden. Is het niet mogelijk wegens het weggeven van 'clues' alle drie tegelijk in dezelfde toets op te nemen, dan houdt men er twee in de itemotheek voor later gebruik. A l s norm kan men stellen, dat de p-waarde van een vierkeuze-item niet
6o
De interpretatie van indices
17; I/I7J2
lager mag zijn dan 0,45; en van een invultoets, waarbij raden een geringere rol speelt, niet lager dan 0,15. In het laatste geval kan men als maximum p-waarde het getal 0,85 aanhouden, en bij vierkeuzetoetsen 0,90. Geen regelzonder uitzonderingen. Een te läge p-waarde gaat in verband met het raden praktisch altijd gepaard metlageitem-test-correlaties. Heeft men naast de p- en a-waarden 00k de item-test-correlaties berekend, dan kan men daaraan zien of het item inderdaad moet worden afgekeurd of verbeterd, dan wel of er zulke goede afleiders (foutieve alternatieve antwoorden) zijn gebruikt, dat vooral de minder goede examinandi aan de verleiding zijn bezweken. In dergelijke uitzonderingsgevallen kunnen items met läge p-waarde toch nog de testbetrouwbaarheid verhogen. De a-waarden - dit zijn de '^-waarden' van de afleiders - worden bij keuzetests berekend om enige informatie te krijgen over de bruikbaarheid van de foutieve alternatieven. De a-waarden zijn in het algemeen veel lager dan de p-waarden; bij een vierkeuze-item met een p van 0,70 - ongeveer het optimum - zijn de a-waarden natuurlijk gemiddeld 0,10. De normen liggen dus 00k veel lager. Een zeer läge a-waarde - beneden de 0,05 betekent dat de afleider niet functioneert. Aan de andere kant wijst een te hoge a-waarde - vooral een die hoger is dan de p-waarde - op ambiguiiteit van het item. Het item kan eventueel gehandhaafd worden als de item-testcorrelatie desondanks hoog is; het zijn dan blijkbaar slechts de minder goede examinandi waarvoor het item ambigu is. Voor andere aspecten van p- en a-waarden wordt verwezen naar 8; 3; 7.
17; 2
Normen voor de betrouwbaarheid
Veelal stelt men bij studietoetsen als norm een equivalentie-coefficient van (minstens) 0,90. De stabiliteit, berekend bij een tijdsinterval van enkele maanden, mag minder bedragen, evenals de homogeniteit. De laatste mag theoretisch zelfs zeer laag zijn. Het is namelijk denkbaar, dat de in de cursus behandelde stof volkomen onsamenhangend is, althans uit K onafhankelijke delen bestaat, die elk door 66n item in de toets vertegenwoordigd zijn. Een equivalente toets bestaat uit K andere items, eveneens elk van een onafhankelijk deel van de stof. Het is mogelijk dat deze equivalente toetsen toch hoog met elkaar correleren; zij zijn dan beide voldoende betrouwbaar. Maar hun homogeniteit, gemeten met de Kuder-Richardson-formule is in dit geval zeer laag, eventueel nul. Dit theoretische geval zal zieh echter in werkelijkheid niet voordoen. Meestal is, zoals we reeds
i 7 ; 2/i7; 3
De interpretatie van indices
6i
weten, de homogeniteit een goede benadering van de equivalentie, hoewel lager dan deze. Indien de cursus werkelijk uit onsamenhangende delen bestaat verdient het aanbeveling deze apart te toetsen. De norm van een equivalentie van 0,90 is evenwel betrekkelijk willekeurig en veelal niet te bereiken wanneer de testtijd of het aantal voorradige items beperkt is. Vaak zal men wel tevreden moeten zijn met een equivalentie van 0,85 of zelfs 0,80. Dit komt misschien overeen met een homogeniteit van 0,80 resp. 0,75. Beneden deze grens kan men echter niet gaan wil men de toets gebruiken voor de rangschikking van personen of in het algemeen voor het nemen van beslissingen. Anders is het natuurlijk gesteld met het gebruik van een studietoets voor doeleinden als feedback over het gegeven onderwijs4 het wekken van de belangstelling of het versterken van de motivatie van leerlingen. Voor deze doeleinden kan desnoods een 'quiz' benut worden van enkele twee- of drie-keuze-items, zonder enige noemenswaardige betrouwbaarheid. Tussen dit uiterste en de officiele norm van een equivalentie-coefficient van 0,90 zijn alle mogelijke overgangen denkbaar, afhankelijk van de situatie en het gestelde doel. Onderwijs is gericht op min of meer blijvende veranderingen in de leerling. Hij heeft iets geleerd wat hij niet onmiddellijk weer mag vergeten. Een läge stabiliteitscoefficient - minder dan 0,90 bij een tijdsinterval van twee weken - kan betekenen dat het onderwijsdoel niet werkelijk bereikt is. Een andere voor de hand liggende oorzaak kan zijn dat er te veel items in de toets zijn opgenomen, die kennis over detailpunten vragen, die immers spoedig weer vergeten wordt. Items, die begrip vragen, of toepassingen, hebben in het algemeen een hogere stabiliteit. Dit is een van de redenen waarom men vooral deze items in de toets moet opnemen.
17; 3
Normen voor de item-test-correlatie
Naast de zeer belangrijke p- en a-waarden en de betrouwbaarheid van de totale toets - meestal gemeten als homogeniteit - berekent men bij de itemanalyse zo mogelijk 00k de item-test-correlaties (14; 5); eventueel in de vorm van D's (14; 7). De item-test-correlatie geeft aan in hoeverre het item meet wat de totale toets meet. We zullen deze hier aangeven als r i x (i.p.v. r„). De gemiddelde rix (dus rlx) hangt nauw samen met de homogeniteit van de toets. Men noemt de r i x 's dan 00k wel eens itemhomogeniteiten, die
62
De interpretatie van indices
17; 3
immers aangeven in hoeverre de items homogeen zijn met de totale toets. Men kan een schatting maken van r ix door aan te nemen, dat de toets bestaat uit Äparallel-items. Laat Feen paralleltoets zijn van X. De correlatie van X met Y is dan de homogeniteit rxx. De correlatie van een van de parallelitems met Y vindt men nu met formule 16; 5 (4), waarbij men zowel voor rx,y als voor r' moet invullen: rxx; en bovendien l/K voor K (de toets A'wordt als het wäre ATmaal verkort). Men vindt zo
ry
'
~ y/k~-(K-i)r„
1 7 , 3 1
Dit is dus de gemiddelde item-paralleltest-correlatie. De r i x is, zoals we straks zullen zien, hoogstens enkele honderdsten groter. Voorbeeld: Een 76-item-toets heeft een betrouwbaarheid (homogeniteit) van 0,80. Met (1) berekent men gemakkelijk dat de gemiddelde riy 0,20 is. Een toets met een gemiddelde riy van 0,40 hoeft daarentegen slechts 16 items te bevatten om dezelfde betrouwbaarheid van 0,80 te bereiken, zoals men met (1) kan verifieren. Voor item-paralleltest-correlaties liggen in verband met formule (1) de gebruikelijke normen natuurlijk veel lager dan voor de testbetrouwbaarheid. Item-paralleltest-correlaties beneden de 0,20 moeten als onvoldoende worden beschouwd. Bij studietoetsen is 0,30-0,40 normaal terwijl 0,60 als een gunstige hoge uitzondering geldt. Maar in enkele gevallen is het mogelijk dat een goed item toch laag correleert met de totale test; namelijk wanneer het stof behandelt of factoren toetst, die weinig of niets te maken hebben met die van de andere items. Berekent men de item-test-correlaties rix, bij voorbeeld met behulp van formule 14; 5 (3), dan moet men het minimum iets hoger leggen. Dit komt omdat het item deel uitmaakt van de totale toets, waardoor de toevallige fout van het item 00k zit in de toets als geheel. De gevonden pmc is daardoor geflatteerd, zogenaamd 'vals', en moet gecorrigeerd worden om een zuiverder beeld te krijgen van de mate waarin de toets correleert met de andere items. Men kan als benadering van de eigenlijk te berekenen item-paralleltest-correlatie de zogenaamde item-rest-correlatie bepalen, dit is de correlatie tussen het item en de totale test minus dat item. Deze verschilt bij de gebruikelijke toetsen met minstens 30 items zo weinig van de item-test-correlatie, dat een bruikbare benaderingsformule kan worden afgeleid. Stelt i de deviatiescore van het item voor, dan is de itemrest-correlatie :
De interpretatie van indices
i 7 ; 3/17; 4 Xi'(x —/)
"Lix
£i2
1
63
I7;3(2)
Wanneer nu het aantal items niet te klein is, dan is er praktisch (relatief) geen verschil tussen de standaardafwijkingen van de toets inclusief en exclusief het item. Stellen we deze beide als benadering gelijk aan elkaar, en merken we op dat ~Li2jN de itemvariantie is, dan vinden we ix
s'x
17; 3 (3)
Met deze formule worden de item-test-correlaties (ietwat over-)gecorrigeerd voor valsheid. De correctie is gering bij de gemakkelijke items met hoge p-waarde, dus kleine standaardafwijking. Wanneer men - gemakshalve - ongecorrigeerde item-test-correlaties wenst te gebruiken, dan moet men, zoals we reeds opmerkten, de norm iets hoger stellen. Men kan doen alsof alle items de maximum standaardafwijking van 0,50 hebben (bij p = 0,50). De minimum item-test-correlatie is dan niet 0,20 maar volgens (3) een fractie i/2sx hoger. Een nadeel van deze gemakkelijke methode is, dat men zo eventueel nog bruikbare items met hoge ^-waarde uitsluit. Soms corrigeert men de item-test-correlaties 00k nog voor attenuatie door onbetrouwbaarheid van de totale test, d.w.z. men deelt al deze correlaties nog door de wortel uit de betrouwbaarheid van de test (16; 3 (4)). Deze correctie is alleen van nut wanneer men de itemgegevens noteert op de kaart van de itemotheek. Door de correctie worden de correlaties gevonden bij een als geheel minder betrouwbare toets vergelijkbaar met die van een andere toets, die betrouwbaarder is. Verschillen de toetsen van jaar op jaar niet veel in betrouwbaarheid, dan is deze correctie niet nodig.
17; 4
De vereiste testlengte
De lengte van een toets zal men zodanig moeten kiezen, voor zover dat mogelijk is, dat de toets voldoende betrouwbaar is. Eventueel zal men de bestaande toets moeten verlengen. De vereiste testlengte kan men bepalen met de Spearman-Brown-formule (15; 5 (8)). Het is echter handiger om de signaal/ruisverhouding F t e berekenen (15; 2 (5)). De volgende tabel geeft het verband aan tussen F en de betrouwbaarheid r „ ( = F/(F+i)y.
64
Tabel
De interpretatie van indiqes
17; 4
De testbetrouwbaarheid
17; 4
voor een aantal
signaallruis-verhoudingen
F
rXx
F
rXx
F
r,x
F
rxx
o,5 1,0
o,333 0,500
3,5 4,o
0,778
6,5 7,o
0,867
9,5 10,0
0,905
i,5 2,0
o,6oo
4,5
0,818
0,667
5,0
2,5
0,714
0,833 0,846
8,5
3,0
0,750
5,5. 6,0
0,857
9,0
0,800
7,5 8,0
0,875 0,882 0,889
10,5 11,0
0,895 0,900
n,5 12,0
0,909 0,913 0,917 0,920 0,923
Stelt men als eis een homogeniteit van bij vooorbeeld 0,80, dan betekent dit een minimum-F van 4,0. Heeft de toets een homogeniteit van 0,75, dus een F = 3,0 (blijkens de tabel of berekend als r/(i-r)), dan moet men de testlengte dus nog met een factor f vermenigvuldigen om de gestelde norm te bereiken. De signaal/ruis-verhouding is immers evenredig aan de testlengte (15; 5). D e tabel geeft daarom het verband aan tussen testlengte en betrouwbaarheid; hierbij wordt de lengte uitgedrukt in zogenaamde 'standaardlengten'; de standaardlengte van een toets is het aantal items dat nodig is voor een F — 1 (dus een r = 0,50). Dit aantal items (K/F) hangt af van de homogeniteit van de items. Hoe hoger de item-test-correlaties hoe minder men nodig heeft. Men ziet uit de tabel, dat de betrouwbaarheidscoefficient bij testverlenging aanvankelijk nog duidelijk, maar later steeds minder, toeneemt. Z o blijkt, dat het bij een bepaalde test evenveel items kost om de betrouwbaarheid op te voeren van 0,78 tot 0,82 als van 0,89 tot 0,90. Men ziet 00k, dat een betrouwbaarheidsnorm van 0,90 twee maal zoveel items eist als een norm van 0,82; en een betrouwbaarheid van 0,92 betekent bijna drie maal zoveel items als een betrouwbaarheid van 0,80. Bij studietoetsen kost een homogeniteit van over de 0,90 meestal zoveel items, dat men uit efficientie-overwegingen zelden zulke hoge eisen stelt. Men bereikt een dergelijke betrouwbaarheidscoefficient echter wel bij zeer homogene stof (bij voorbeeld een toets bestaande uit niets anders dan optellingen van gehele getallen onder de 10, de zogenaamde Kraepelintest) of bij heterogene groepen (een intelligentietest afgenomen bij een steekproef van de gehele bevolking). Gewoonlijk zal een studietoets tenminste 40 items moeten bevatten. Een toets van 80 items behoeft geen uitzondering te zijn.
i7; 5/i7; 6 17; 5
De interpretatie van indices
65
De interpretatie van een validiteitscoefficient
Studietoetsen worden meestal slechts metend gebruikt: zij dienen om leerresultaten te meten. Soms echter berekent men predictieve validiteitscoefficienten, ten opzichte van criteria zoals succes op school of in de maatschappij, soortgenoottests, enz. Indien het criterium een paralleltoets is, dan is de validiteit, zoals we weten, gelijk aan de homogeniteit van de toets. Maar de validiteits-coefficienten liggen in het algemeen aanmerkelijk lager dan betrouwbaarheidscoefficienten. Tussen een homogene toets en een succescriterium vindt men een correlatie van 0,40 vaak al hoog en men is soms tevreden met waarden omstreeks 0,20 tot 0,30. Een 'batterij' van verschillende toetsen heeft bij goede keuze van de tests soms een veel hogere validiteit, bij voorbeeld 0,60. Validiteitscoefficienten tegenover 'succes' zijn vaak laag door de onbetrouwbaarheid van het criterium. Voor attenuatie gecorrigeerde succesvaliditeiten bereiken wel eens een waarde van 0,80. Voor selectiedoeleinden kan een zeer läge validiteit (van 0,20 bij voorbeeld) toch nog voldoende zijn. In deze situatie is het 'nut' - uitgedrukt in de verhoging van het 'peil' van de geaccepteerde personen door de selectie recht evenredig aan de validiteitscoefficient. Maar bovendien is het nut sterk afhankelijk van de selectieverhouding, dit is de fractie personen die geaccepteerd wordt. Hoe kleiner deze verhouding is, met andere woorden hoe meer keus men heeft, hoe lager de succesvaliditeit mag zijn om toch nog een nuttig rendement van de toets op te leveren. De interpretatie van een validiteitscoefficient hangt dus sterk van de situatie af; normen zijn nauwelijks te geven. De validiteit van een reeds betrouwbare toets kan, zoals uit de correctieformule voor attenuatie (16; 3 (4)) blijkt, slechts weinig toenemen door homogene verlenging van de test. Wil men de validiteit van de test(-batterij) verhogen, dan zal men de samenstelling van de test(-batterij) moeten veränderen, en wel zodanig, dat deze meer lijkt op die van het criterium: zodat test en criterium 'dezelfde factoren' meten.
17; 6
De betrouwbaarheid van enkele indices
De betrouwbaarheid van een bepaalde index (/»-waarde, item-test-correlatie, homogeniteit, enz.) is een vroeger bij studietoetsen verwaarloosde maar zeer belangrijke factor, waar we terdege rekening mee moeten hou-
66
De interpretatie van indices
17; 6
den. We gebruiken de indices voor beslissingen omtrent het handhaven of verwerpen van items, wijziging van alternatieven, testverlenging, etc. Wanneer we deze beslissingen baseren op onbetrouwbare gegevens dan bouwen we op dun ijs en hadden we ons beter kunnen beperken tot een verbaal-logische analyse van de items. Het weglaten van de berekeningen spaart bovendien tijd. Hoe groter het aantal personen N, hoe betrouwbaarder alle testindices worden. In statistiekboeken vindt men dat de standaardmeetfout van een proportie - en een p-waarde is de proportie personen, die het item goed heeft - geschat kan worden met de formule 17; 6 ( 1 ) Voorbeeld: Een item heeft, bij een zekere groep van 36 personen een pwaarde van 0,80. De standaardmeetfout is volgens (1) 0,067. We kunnen de ^-waarde schrijven als 0,80 ±0,07. Dat wil zeggen, dat, als we het item afnemen bij vele 'Parallelklassen' van 36 personen, we in ongeveer f van het aantal afnamen een p-waarde vinden tusseri 0,73 en 0,87. Bij een groep van 16 personen geeft (1) een standaardmeetfout van 0,10, daarentegen bij een grotere groep van 100 personen een van slechts 0,04, enz. Daar p-waarden berekend worden om er items op te selecteren, is het 00k nuttig om de betrouwbaarheid van de p-waarden te berekenen. We definieren deze als de correlatiecoefficient tussen de AT/?-waarden berekend bij twee 'parallelgroepen' personen van dezelfde grootte. We bepaalden aldus de betrouwbaarheid bij enkele studietoetsen en vonden dat reeds bij een kleine groep van 25 personen de betrouwbaarheidsnorm van 0,80 bereikt wordt. Bij meer dan 100 personen was de betrouwbaarheid steeds boven de 0,95. We zijn er daarom van overtuigd, dat /j-waarden reeds bij kleine groepen (N = 25) van nut zijn voor de itemselectie en bij grotere groepen reeds spoedig een betrouwbaarheid hebben die tesiscores zelden of nooit bereiken. Heel anders is het helaas gesteld met de item-test-correlaties. We vonden bij voorbeeld een betrouwbaarheid van 0,50 ( F = 1) bij groepen van 100 man. Het onderzoek is te beperkt om te generaliseren, maar zou dat mögen, dan zou de norm van r = 0,80 (F = 4) betekenen, dat men itemtest-correlaties slechts bij groepen van minstens 400 personen zou mögen gebruiken. Het is duidelijk dat we de norm hier lager moeten stellen. We hechten nog wel enige waarde aan item-test-correlaties berekend bij 100 personen; maar veel hieronder zal men toch niet mögen gaan. Natuurlijk
i 7 ; 6/17; 7
De interpretatie van indices
67
kan men deze bij kleinere groepen wel berekenen - en gemakshalve kan men dan nog het beste de discriminatie-indices D bepalen, dat kost weinig tijd - maar men moet ze uiterst voorzichtig interpreteren. Men kan ze bij kleine groepen hoogstens gebruiken als 'tekens' (is hier iets mis?) maar overigens moet men afgaan op de p- en a-waarden en de verbaal-logische analyse van de items. Ook het berekenen van de signaal/ruis-verhouding in verband met de testverlenging, zouden we willen beperken tot groepen van minstens 100 personen.
17; 7
Slotopmerking; ruime testtijd
Steeds is in dit hoofdstuk stilzwijgend aangenomen, dat de examinandi volop de tijd hebben om de items te beantwoorden. Is dit niet het geval, zodat velen niet aan de laatste items zijn toegekomen, dan wordt de interpretatie van de indices zeer gecompliceerd of zelfs onmogelijk. De ^-waarden bij voorbeeld zouden dan anders berekend moeten worden. Men kan het aantal personen, dat het betreffende item goed heeft, delen door het totale aantal dat aan het item is toegekomen. Maar deze groep is gemiddeld in ieder geval sneller en vermoedelijk ook beter in het leervak dan de totale groep waarvoor de /»-waarden eigenlijk berekend hadden moeten worden. Ook de berekening van de twee-helften-betrouwbaarheid stuit op grote moeilijkheden. Splitst men de toets in een groep even en een groep oneven items om nog zoveel mogelijk equivalentie te bereiken in verband met de niet beproefde items aan het eind van de toets, dan wordt de correlatiecoefficient te groot. En wel omdat elke persoon bij beide helften ongeveer eenzelfde aantal niet geprobeerd heeft en voor dat deel eenzelfde score (nul) gekregen heeft; de correlatie wordt dus gedeeltelijk vals. Splitst men in een eerste en een tweede helft, dan wordt de correlatie te laag. De homogeniteit als gemiddelde van alle denkbare twee-helften-betrouwbaarheidscoefficienten wordt te hoog. Daarmee worden ook alle item-test-correlaties te hoog. Kortom, praktisch alle in dit hoofdstuk vermelde formules gelden alleen bij ruime testtijd. Bij krappe tijd - men kan de grens trekken bij het punt waar 90 % van alle personen alle items beproefd heeft - moet men gecompliceerde benaderingsformules gebruiken, die hier niet gegeven worden. Dit is op zichzelf al een voldoende reden om bij zelfgemaakte
68
De interpretatie van indices
175 7
studietoetsen een ruime testtijd toe te staan, dat wil zeggen zo weinig items per uur aan te bieden dat een grote meerderheid alle items beproeft. Een andere reden is vaak, dat men bij zelfgemaakte studietoetsen (nog) niet over een zodanig grote voorraad items beschikt dat men er kwistig mee kan omspringen. Men wil niet alle kruit bij 6en examen verschieten. Krappe testtijd betekent, voor een vastgestelde betrouwbaarheid, dat men meer items in de toets opneemt; meer items raken op den duur bekend en gaan zodoende als examenitem verloren. Bij ruime testtijd wordtelkitem ten volle benut voor de verhoging van de betrouwbaarheid of de (inhouds-) validiteit. Een enigszins verwant probleem is dat van het overslaan van items. Voorlopig kunnen we stellen, dat het het beste is om de examinandi goed te instrueren om geen items over te slaan, omdat dit overslaan voor hen zelf nadelig is. We komen hierop terug in het volgende hoofdstuk.
H O O F D S T U K 21
Enkele items over de laatste hoofdstukken
W e hebben een paar personen, die een stage item-schrijven volgden, gevraagd een aantal items te maken over de laatsle hoofdstukken van dit boek, in het bijzonder hoofdstuk 15, dat misschien het moeilijkste is. D e items zijn hoogstens hier en daar wat bijgeschaafd, en worden de lezer nu voorgelegd. Evenmin als de items van hoofdstuk 7 vormen deze een 'toets'. W e hebben bij voorbeeld niet gestreefd naar evenwichtigheid. T o c h lijkt het ons noodzakelijk dat de lezer de items zelf beproeft. D e antwoorden staan in appendix III. Daarna kan hij zieh aan de hand van de hoofdstukken 8, 9 en 10 oefenen in het kwalitatief analyseren van items. Natuurlijk is het het beste wanneer de kritiek in een (kleine) vergadering van lezers plaats heeft. M e n kan zieh bij voorbeeld afvragen of het item wel belangrijk genoeg is (relevantie); of het soms met gezond verstand opgelost kan worden door personen, die het boek niet gelezen hebben (specificiteit); of het niet te gemakkelijk is dan wel te moeilijk voor de (hypothetische) lezerskring; o f de stam wel duidelijk gesteld is; of een of meer afleiders weinig aantrekkelijk zijn, dan wel min of meer als juist verdedigbaar, enzovoort. W e hopen dat de lezers het onderling niet helemaal eens zullen zijn wat betreft de kritiek op de onderstaande items. W a n t dat zou het punt illustreren, dat een kwalitatieve analyse wel heel belangrijk is, en zelfs onmisbaar, maar dat na deze analyse nog meerdere gegevens over de items verzameld moeten worden. Soms zal blijken dat een statistische itemanalyse fouten aan het licht brengt die bij de (eerste) kwalitatieve analyse over het hoofd werden gezien. Anderzijds kan men vermeende fouten overschat hebben. Bij voorbeeld: In een bepaald item blijkt het moeilijk een afleider even lang te maken als de andere. Men vreest, dat deze afleider te veel
70
Enkele items over de laatste hoofdstukken
21
(of te weinig) personen aantrekt. Alleen het afnemen van het item en de itemanalyse kan dan uitmaken of de vrees gerechtvaardigd was. Het probleem is immers dat men vaak een keuze moet maken tussen verschilfende mogelijkheden, die alle hun voor- en nadelen hebben. Verkorting van de afleider zou bij voorbeeld een onduidelijkheid gei'ntroduceerd kunnen hebben. De items staan in het algemeen in de volgorde waarin de stof in het boek behandeld wordt. Laien we beginnen met een weinig specifiek ' warming-up'-item: 21 ( i ) Een item wordt afgenomen bij een groep van 75 personen en door 60 personen goed beantwoord. De p-waarde van dit item bij deze groep is A . 0,15 B. 0,20 C. 0,60 D . 0,80 Nu drie items, die, op verschilfende monieren, ongeveer hetzelfde vragen. Het laatste van de drie is, als toepassingsitem, vermoedelijk het moeilijkste maar 00k het beste: 21 (2)
Als de ruwe scores van twee toetsen verschillendvormige verdelin-
gen hebben, kunnen de prestaties alleen direct vergeleken worden als deze gegeven zijn in de vorm van: A . afwijkingscores B. percentielscores C. ruwe scores D. standaardscores 21 (3) Een persoon heeft op twee toetsen dezelfde percentielscore. De ruwe scores hoeven echter niet gelijk te zijn, omdat het mogelijk is dat: A. de ruwe scores bij de twee toetsen anders berekend worden B. de toetsen verschillende frequentieverdelingen hebben C. de twee toetsen aan een verschillend aantal leerlingen afgenomen zijn D. de twee toetsen iets anders meten
21
Enkele items over de laatste hoofdstukken
71
21 (4) De ruwe score van een pp. op een toets komt overeen met een percentielscore van 50 en een z-score van 0,40. Van dezelfde pp. is op een andere, moeilijker toets alleen de z-score = 0,40 bekend. We kunnen stellen dat zijn percentielscore op de tweede toets: A. nooit groter dan 50 kan zijn B. 50 is C. groter moet zijn dan 50 D. zowel groter dan, kleiner dan, als gelijk aan 50 kan zijn Hier volgen vier items, die twee aan twee hetzelfde vragen, in de waar-ofniet-vorm en in de toepassingsvorm: 21 (5) De variantie van een toets blijft hetzelfde als: I. men bij alle scores eenzelfde getal optelt II. men alle scores met eenzelfde getal vermenigvuldigt A. I is waar, II is waar B. I is waar, II is niet waar C. I is niet waar, II is waar D. I is niet waar, II is niet waar 2 1 ; (6) De variantie van de ruwe scores is 8. Bij de scores van alle personen wordt 3 opgeteld, waarna iedere score met 4 wordt vermenigvuldigd. De variantie van de ruwe scores wordt nu: A. 176 B. 128 C. 44 D. 32 21 (7) De pmc tussen twee tests X en Y blijft hetzelfde als: I. alle scores van A'en/of F m e t eenzelfde getal vermenigvuldigd worden II. bij alle scores van test X en/of Y eenzelfde getal opgeteld wordt A. I is waar, II is waar B. I is waar, II is niet waar C. I is niet waar, II is waar D. I is niet waar, II is niet waar
72
21
Enkele items over de laatste hoofdstukken
21 (8) De produkt-moment-correlatie tussen 2 tests A'en Y = rxy = o,6o. Alle scores op test 7 worden eerst vermenigvuldigd met 2 en daarna verhoogd met 4. De/WJC tussen Xen Y krijgt nu een waarde die: A. in ieder geval groter dan 0,60 is B. 0,60 is C. in ieder geval kleiner dan 0,60 is D. zowel groter dan, kleiner dan, gelijk aan 0,60 kan zijn Twee items over itemvariantie;bij het eerstekanhet worden, bij het tweede niet:
juisteantwoord'herkend'
21 (9) De variantie van een dichotoom gescoord 4-keuze item is maximaal: A. 1,00 B. 0,625 C. 0,50 D. 0,25 21 (10) Item I is door 60% van de groep juist beantwoord. Item II is door 20% goed beantwoord. De verhouding van de varianties van I en II is als: A. 3 : 2 B. 3 : 1 C. 1 : 3 D. 2 : 3 Een eenvoudig toepassingsitem over een correlatiecoefficient: 21 ( 1 1 ) Een toets X heeft een gemiddelde van 10 en een standaarddeviatie van 2. Een zeker item - uit de toets - heeft een ^-waarde van 0,80. Het gemiddelde van scores op X van de personen die het item juist gemaakt hebben is 10,4. De item-test-correlatie is: A. 0,20 B. 0,40 C. 0,60 D. 0,80 Over correlatie kan men 00k heel eenvoudige 'inzichtitems' maken, zoalshet volgende met drie Varianten:
21
Enkele items over de laatste hoofdstukken
73
21 ( 12) N leerlingen hebben zowel item X als item Y gemaakt. Er zijn nu vier groepen leerlingen te onderscheiden, waarvan we de aantallen zullen noemen : GG, het aantal, dat zowel item X als item Y goed gemaakt heeft FF, het aantal, dat zowel item X als item Y fout gemaakt heeft GF, het aantal, dat item X goed en item Y fout gemaakt heeft FG, het aantal, dat item X fout en item Y goed gemaakt heeft (GG+FF+GF+FG = N) cp is + 0 als q> is + 1 als
4 D. 76,0 En nu hetzelfde begrip behandeld in een andere context: 21 (26) Een item is door 16 van de 25 personen juist beantwoord. De standaardmeetfout van de p-waarde is: A. 0,009 B. 0,030 C. 0,096 D. 0,900 Hier weer vier verschillende (maar overlappende) items over ongeveer hetzelfde onderwerp. De laatste twee zijn evident moeilijker: 21 (27) Van toets X is de betrouwbaarheid rxx = 0,80. De maximale waarde die de predictieve validiteit van de toets kan aannemen is: A. 0,64 B. 0,80 C. 0,90 D. 1,00
21
Enkele items over de laatste hoofdstukken
21 (28) Welke van de volgende uitspraken betreffende een toets is juist: A. de equivalentie ligt in het algemeen lager dan de homogeniteit B. de homogeniteit kan niet hoger zijn dan de stabiliteit C. de stabiliteitscoefficient kan nooit lager zijn dan de equivalentiecoefficient D. noch A, noch B, en noch C is juist 21 (29) De betrouwbaarheidsindex van een toets is altijd A. groter dan de intrinsieke validiteit B. groter dan de predictieve validiteit C. kleiner dan de equivalentie D. kleiner dan de signaal/ruis-verhouding 21 (30) Welke van onderstaande coefficienten is - mits berekend bij een groot aantal personen - altijd kleiner dan minstens een van de andere drie ? A. equivalentie B. homogeniteit C. predictieve validiteit D. stabiliteit Over de validiteit nog twee items, die simpele toepassing van formules vereisen: 21 (31) Een toets met een validiteit van 0,40 en een betrouwbaarheid van 0,60 wordt homogeen verlengd tot twee maal de oorspronkelijke lengte. De validiteit t.o.v. hetzelfde criterium wordt nu A. 0,45 B. 0,50 C. 0,55 D. 0,60 21 (32) Als men twee parallelle studietoetsen X en Y direct na elkaar afneemt is de correlatie rxy = 0,90. Als men daarentegen eerst toets X afneemt en twee weken later toets Y, blijkt de correlatie tussen de scores op de twee toetsen 0,70 te zijn. Hoeveel zal de stabiliteit van test X in deze situatie bedragen: A. 0,63 B. 0,70 C. 0,78 D. 0,90
78
Enkele items over de laatste hoofdstukken
21
Dan drie items over de interpretatie van indices; het laatste uit hoofdstuk 20: 21 (33) Na afneming van een studietoets blijkt een item door alle personell goed te zijn beantwoord. Toevoeging van dit item bij een toets zal A. de equivalentie-coefficient van de toets Verlagen B. de gemiddelde score van de toets verhogen C. de variantie van de toets wijzigen D. zowel A, B als C 21 (34) Vier op het 00g even goede items van een vier-keuze-toets, blijken p-waarden te hebben van resp. 0,25, 0,50, 0,60 en 0,90. Men beschikt helaas niet over andere gegevens. Welk item zal vermoedelijk het meest, welk het minst bijdragen tot de betrouwbaarheid van de toets? A. het meest die met p = 0,50, het minst die met p = 0,25 B. het meest die met p = 0,50, het minst die met p = 0,90 C. het meest die met p = 0,60, het minst die met p = 0,25 D. het meest die met p = 0,60, het minst die met p = 0,90 21
(35) Welk nadeel (welke nadelen) heeft de biseriele correlatiecoefficient tussen item en toets ? A. r-bis geeft bij een grote item-standaardafwijking meestal een te gunstig beeld van het nut van het item als betrouwbaarheidsbijdrager B. r-bis is meer afhankelijk van het niveau van de groep personen dan de pmc C. r-bis is minder stabiel dan de pmc D. zowel A, B als C geldt Hoewel het antwoord van het volgende item in de tekst voorkomt, zullen alieen diegenen, die het begrepen hebben, het onthouden. Het is dus eerder een moeilijk inzicht-item dan een kennis-item: 21 (36) Na afneming van een studietoets blijken de laatste items door een aantal leerlingen met läge totaalscores niet te zijn beantwoord. Dit betekent dat met de gebruikelijke formules A. de correlatie tussen de ie en 2e helft van de toets te hoog geschat wordt B. de even-oneven betrouwbaarheid van de toets te laag geschat wordt C. de homogeniteit van de toets te laag geschat wordt D. de item-test-correlaties van de laatste items te hoog geschat worden
Enkele items over de laatste
21
hoofdstukken
Ook de laatste -vier items zijn relatief moeilijk (voor wie over testtheorie alleen dit boek heeft gelezen) omdat er relaties gededuceerd moeten worden, die niet zelf in de tekst staan: 21 (37)
Bij een toets is de score: het aantal goed gemaakte items. Welk(e)
van de volgende variabelen is een (zijn) dichotome variabele(n) ? A. B. C. D.
alleen itemscore alleen wäre itemscore zowel itemscore als wäre itemscore zowel itemscore als wäre itemscore maar ook dit soort testscore
21 (38) Leraar X gebruikt bij zekere studietoets de scoringsformule 'goed min fout', leraar Y daarentegen 'goed plus delielft van de niet-beantwoorde items'. Zijn leerlingen, die geneigd zijn moeilijke items over te slaan, relatief - ten opzichte van de andere leerlingen - in het nadeel bij een der leraren? A . ja, bij leraar Z z i j n zij in het nadeel B. ja, bij leraar Y zijn zij in het nadeel C . nee, het maakt niets uit of zij leraar X of Y hebben D . niet te zeggen zonder het aantal alternatieven van de items te weten 21 (39)
Een toets heeft bij zekere groep een signaal/ruis-verhouding F.
D o o r 'selectie' wordt de variantie van de scores gehalveerd. Bij de geselecteerde groep heeft de toets een signaal/ruis-verhouding van A . F/2 B. ( F - 1 ) / 2 C. (F+1)/2 D.
F-i
21 (40) Men past op een item-test-correlatie soms twee correcties toe. Men kan zieh afvragen of de gecorrigeerde correlatie groter is dan de oorspronkelijke. A . de correcties veranderen de correlatie in dezelfde richting, zodat de gecorrigeerde coefficient steeds groter is B. de correcties veranderen de correlatie in dezelfde richting, zodat de gecorrigeerde coefficient steeds kleiner is C. de correcties veranderen de correlatie in tegengestelde richting, en de gecorrigeerde coefficient is soms groter, soms kleiner D . de correcties veranderen de correlatie in tegengestelde richting maar de ene correctie is steeds groter dan de andere
8o
21
Enkele items over de laatste hoofdstukken
De juiste alternatieven van de items van dit hoofdstuk zijn: I
D
2
B
7
A
3
B
8
B
4
5
D B
6
9
IO
B
D A
IL
B
16
B
12
C A B
17
B
13
C
18
C
21
C
26
C
22
D D
27
C
32
C
37
A
23
D A
28
D
33
B
38
C
34
C
39
B
C
40
C
14
D
19
B
24
B
29
B
15
B
20
D B
25
B
30
B
31
35
A
36
D