Inleiding in evidence-based medicine [4th ed] 978-90-313-9903-1, 978-90-313-9904-8 [PDF]

153 42 4MB

Dutch Pages [218] Year 2014

Report DMCA / Copyright

DOWNLOAD PDF FILE

Papiere empfehlen

Clinical Sports Medicine (4th Edition) - Brukner, Khan

2 1 337MB Read more

Injectable Fillers in Aesthetic Medicine [1 ed.] 9783540239413, 9783540239413

112 44 2MB Read more

Inleiding in evidence-based medicine [5th ed.] 978-90-368-1977-0, 978-90-368-1978-7

99 10 5MB Read more

Fitzpatricks Dermatology in General Medicine 8ed

0 0 242MB Read more

Lessen Van Hitchcock, Herziene Editie: Een Inleiding in Mediatheorie [4th Revised edition] 9053569626, 9789053569627

112 69 60MB Read more

Fisica 2 [4th ed]

115 12 42MB Read more

GURPS 4th Ed. - Horror

3 1 2MB Read more

Evidence Based Medicine PDF

8 1 84KB Read more

Fisica 2 [4th ed]

120 23 85MB Read more

Inleiding in de toegepaste biostatistiek [4th ed] 978-90-368-1533-8, 978-90-368-1534-5

102 39 3MB Read more

Inleiding in evidence-based medicine [4th ed]
978-90-313-9903-1, 978-90-313-9904-8 [PDF]

Author / Uploaded
R.J.P.M. Scholten
M. Offringa
W.J.J. Assendelft

0 0 0
Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden

Datei wird geladen, bitte warten...

Zitiervorschau

prof. dr. R.J.P.M. Scholten prof. dr. M. Offringa prof. dr. W.J.J. Assendelft Inleiding in evidence-based medicine

Toegang tot de website

Aan ieder exemplaar van Inleiding in evidence-based medicine is een unieke inlogcode toegekend die gratis en onbeperkt toegang geeft tot de online versie van het boek, checklists, begrippenlijst en extra bestanden. Surf naar extras.bsl.nl/inleidingebm, log in met uw e-mailadres plus onderstaande activeringscode en maak uw eigen inlogaccount aan. Activeringscode:

Technische ondersteuning nodig?

Heeft u problemen met inloggen of andere technische problemen met het gebruik van de website? Neem dan contact op met: [email protected]

Onder redactie van: prof. dr. R.J.P.M. Scholten prof. dr. M. Offringa prof. dr. W.J.J. Assendelft

Inleiding in evidence-based medicine Klinisch handelen gebaseerd op bewijsmateriaal Vierde druk

ISBN 978-90-313-9903-1 © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën of opnamen, hetzij op enige andere manier, zonder voorafgaande schriftelijke toestemming van de uitgever. Voor zover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel 16b Auteurswet j° het Besluit van 20 juni 1974, Stb. 351, zoals gewijzigd bij het Besluit van 23 augustus 1985, Stb. 471 en artikel 17 Auteurswet, dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de Stichting Reprorecht (Postbus 3060, 2130 KB Hoofddorp). Voor het overnemen van (een) gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (artikel 16 Auteurswet) dient men zich tot de uitgever te wenden. Samensteller(s) en uitgever zijn zich volledig bewust van hun taak een betrouwbare uitgave te verzorgen. Niettemin kunnen zij geen aansprakelijkheid aanvaarden voor drukfouten en andere onjuistheden die eventueel in deze uitgave voorkomen. NUR 871 Basisontwerp omslag: Studio Bassa, Culemborg Automatische opmaak: Crest Premedia Solutions (P) Ltd., Pune, India Eerste druk, 2000 Tweede druk, 2003 Derde druk, 2008 Vierde druk, 2014 Bohn Stafleu van Loghum Het Spoor 2 Postbus 246 3990 GA Houten www.bsl.nl

V

Voorwoord Bewijsmateriaal ter ondersteuning van behandelbeslissingen overzichtelijk en toegankelijk in kaart brengen, dat is de kernopdracht van dit boek. Het is de vierde, gereviseerde druk in een periode van dertien jaar. De wetenschappelijke kennis ter onderbouwing van het handelen in de zorg breidt zich uit en neemt zelfs een behoorlijke vlucht. De auteurs volgen de nieuwe ontwikkelingen nauwgezet en zij weten de lezer mee te nemen in de wereld van het onderzoek, de kracht (of zwakte) van de geleverde evidentie, de instrumenten en kennisbestanden die kunnen worden gebruikt om verder te zoeken. Behalve inzicht in nieuwe evidentie nodigt dit boek uit tot zelfreflectie en tot herijking van de eigen praktijken als beroepsbeoefenaar: waarom deze routine? Wat is de onderbouwing? Wat leer ik van de nieuw geleverde evidentie? Hoe integreer ik deze inzichten in mijn dagelijks handelen? Studenten, maar ook docenten, kunnen hun voordeel doen met dit boek en wel op drie manieren: zij leren meer over wat het betekent om evidence-based te werken, zij leren welke nieuwe evidentie beschikbaar is gekomen en zij leren om evidence-based medicine te verbinden met hun dagelijkse ervaringen en met individuele patiëntenzorg. Dit boek bewijst nogmaals hoe belangrijk het is om te blijven investeren in wetenschappelijk onderzoek, hoe essentieel het is om resultaten van wetenschappelijk onderzoek te verbinden met de klinische praktijk opdat nieuwe kennis ook daadwerkelijk wordt benut in de spreek- en behandelkamer. Laat deze hernieuwde druk een inspiratiebron zijn voor verder onderzoek en voor betere zorgverlening. Prof. dr. Pauline Meurs

Voorzitter ZonMw

VII

Ten geleide zz Bij de eerste druk

Inleiding in evidence-based medicine is het eerste Nederlandstalige boek dat aandacht besteedt aan evidence-based medicine. De vorm en inhoud behoeven derhalve toelichting. Veel van wat in dit boek wordt beschreven is eerder in vergelijkbare vorm en inhoud in de Engelstalige literatuur verschenen. Dit komt doordat zich rond de evidence-based medici ne enkele hechte groepen hebben gevormd die met name in Canada en het Verenigd Koninkrijk, en recenter ook in Australië, Scandinavië en Nederland, belangrijke centra hebben gevormd. Dezelfde groepen zijn actief binnen de Cochrane Collaboration. Er is een intensief persoonlijk contact. Men is docent op elkaars cursussen, lesmateriaal wordt uitgewisseld en in samenwerkingsverband worden series in tijdschriften en boeken geschreven. De redactie van dit boek heeft niet gestreefd naar een volledig nieuwe vorm of inhoud. Er is getracht op basis van ervaringen in cursussen en deels op basis van bestaand materiaal voor Nederlandse gezondheidswerkers een handzame, praktische inleiding te schrijven. We realiseren ons dat we gebruikmaken van het baanbrekende werk van de pioniers op dit gebied. Met name professor David Sackett, de grondlegger van de evidence-based medicine, moet hier worden genoemd. Evidence-based medicine vindt haar oorsprong in het ziekenhuis. Al snel zijn de principes ook daarbuiten in de eerstelijnsgezondheidszorg, in de basisgezondheidszorg en in het gezondheidszorgbeleid toegepast. Evidence-based medicine is niet het exclusieve domein van artsen. Ook paramedici en beleidsmakers dienen op de hoogte te zijn van de principes. Ook in de opleiding voor beroepen in deze sectoren zal het evidence-based denken en handelen een steeds belangrijkere plaats krijgen. Het uitgangspunt voor evidence-based medicine is de directe zorg voor of rond de patiënt of cliënt. Deze Inleiding in evidence-based medicine richt zich dus op gezondheidswerkers in de ruimste zin van het woord, alsmede op degenen die hiervoor in opleiding zijn. Om reden van leesbaarheid worden in dit boek echter steeds ‘arts’ en ‘patiënt’ gebruikt. Om taalkundige redenen gebruiken wij voor artsen en patiënten de hij-vorm, maar wij stellen uitdrukkelijk dat overal waar ‘hij’ staat ook ‘zij’ gelezen kan worden. Evidence-based medicine is de praktische vertaling van de epidemiologie, in het bijzonder de klinische epidemiologie, naar de dagelijkse praktijk. Deze introductie kan dus niet gebruikt worden in plaats van een leerboek over (klinische) epidemiologie. De principes hiervan worden weliswaar kort besproken, maar worden eigenlijk als bekend verondersteld. Voor de praktiserend arts die deze kennis niet (meer) paraat heeft, is het echter niet noodzakelijk eerst een leerboek over klinische epidemiologie door te nemen. Deze Inleiding sluit namelijk voldoende aan op het klinisch denken en handelen om ook zonder voorafgaande bestudering van een dergelijk boek begrepen en toegepast te kunnen worden. Het is echter wel raadzaam een leerboek over klinische epidemiologie bij de hand te hebben. Enkele speciale onderwerpen waarin de inzichten recentelijk zijn gewijzigd of waarvoor nog geen Nederlandstalig leerboek bestaat, worden in deze Inleiding wat uitvoeriger behandeld. De term evidence-based medicine blijft in dit boek onvertaald. Dit lijkt vreemd voor een Nederlands leerboek. Het geeft echter ook aan dat de informatie (artikelen in tijdschriften,

VIII

Ten geleide

websites op internet, zoeksystemen) vooral in de Engelse taal beschikbaar is. Het Nederlandse taalgebied is (nog) te klein om in een passend aanbod van informatie in het Nederlands te kunnen voorzien. We verwachten dat dit in de nabije toekomst snel zal veranderen. Het is vooralsnog raadzaam om bij de praktische toepassing van evidence-based medicine een (medisch) woordenboek Nederlands-Engels/Engels-Nederlands bij de hand te hebben. Zoals gezegd is deze Inleiding in evidence-based medicine deels een product van internationale samenwerking. Daarnaast wordt in Nederland door het Dutch Cochrane Centre, waar de redacteuren werkzaam zijn, op dit gebied met verschillende instituten en instanties samengewerkt. Dit vindt ten dele zijn weerslag in de keuze van de coauteurs die bereid gevonden zijn aan de verschillende hoofdstukken mee te werken. Daarnaast hebben wij veel ideeën verwerkt die zijn opgedaan in cursussen en overleg met vele anderen. Zonder namen te noemen onze dank hiervoor. Tot slot: vele aspecten van de methodologie van evidence-based medicine zijn aan veranderingen onderhevig en deze tekst zal over enkele jaren aan herziening toe zijn. In dit verband staan wij open voor opmerkingen en suggesties en nodigen wij de lezer uit ons te helpen bij de verdere ontwikkeling van deze Inleiding. Wij wensen u veel leesplezier. De redacteuren

Amsterdam, september 2000 zz Bij de tweede druk

De ontwikkelingen in evidence-based medicine gaan door. Na tweeënhalf jaar is het daarom tijd voor een herziene druk van dit boek. Alle hoofdstukken zijn geactualiseerd. De belangrijkste wijziging ten opzichte van de eerste druk betreft hoofdstuk 4. In dit hoofdstuk zijn een paragraaf over de beoordeling van onderzoek betreffende screening (7 par. 4.6) en een paragraaf over de beoordeling van systematische reviews van observationeel onderzoek (7 par. 4.9) toegevoegd. Daarnaast zijn enkele storende foutjes in de tekst en formules gecorrigeerd en zijn de literatuurverwijzingen en verwijzingen naar websites geactualiseerd. Wij danken onze collega’s en vele cursisten voor hun suggesties en opmerkingen. Ook in de toekomst houden wij ons aanbevolen voor op- en aanmerkingen die het boek verder kunnen verbeteren. De redacteuren

Amsterdam, maart 2003 zz Bij de derde, geheel herziene druk

Evidence-based medicine blijft actueel. Er zijn voortdurend nieuwe ontwikkelingen, zoals nieuwe zoekmachines, nieuwe inzichten in de rol van onderzoeksontwerp en de kans op vertekening (bias), nieuwe regels voor het rapporteren van onderzoek (met klinkende namen als CONSORT, QUOROM, QUADAS, STARD, STROBE). Ook krijgen nieuwe soorten onderzoek meer aandacht, zoals onderzoek van meetinstrumenten (klinimetrie).

Ten geleide

IX

Het was daarom tijd voor een geheel herziene druk van dit boek. Een aantal nieuwe auteurs is toegetreden tot het auteurscorps en de literatuurverwijzingen zijn geactualiseerd. Helemaal nieuw bij deze derde editie is de lancering van de website 7 www.pico.nu. Hierop vindt de lezer verwijzingen naar de voor 2008 geactualiseerde en gecontroleerde websites, checklists, EBM-calculators, actualisaties van de handleidingen voor het zoeken van literatuur, et cetera. Dit boek wordt inmiddels veel op opleidingen en voor cursussen gebruikt. Wij danken onze collega’s, studenten en cursisten voor hun suggesties en opmerkingen bij de vorige editie. Ook in de toekomst houden wij ons aanbevolen voor op- en aanmerkingen die het boek verder kunnen verbeteren. De redacteuren

Amsterdam/Leiden, april 2008 zz Bij de vierde druk

Opnieuw is er vijf jaar verstreken en werd het hoogtijd dit boek wederom te verfrissen. Ook nu zijn weer nieuwe auteurs toegetreden tot het auteurscorps. De literatuurverwijzingen zijn geactualiseerd. Alle hoofdstukken zijn kritisch doorgenomen en de laatste ontwikkelingen op EBM-gebied zijn erin verwerkt. En opnieuw is een hoofdstuk toegevoegd, nu over het beoordelen van kwalitatief onderzoek. De website 7 www.pico.nu is vervangen door een nieuwe website: extras.bsl.nl/inleidingebm. Hierop vindt de lezer de in het boek beschreven checklists, verwijzingen naar internationaal geaccepteerde state-of-the-art checklists, EBM-calculators en verwijzingen naar andere relevante websites. Wij blijven onze lezers, collega’s, studenten en cursisten vragen om hun suggesties en opmerkingen zodat we het boek verder kunnen verbeteren. De redacteuren

Amsterdam/Toronto/Nijmegen, mei 2013

XI

Inhoud 1

Inleiding �� 1 M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten

1.1 Evidence-based medicine�� 1.1.1 Evidence? �� 1.1.2 Evidence-based medicine in de klinische praktijk�� 1.1.3 Uitdagend of bedreigend? Kritiek op evidence-based medicine�� 1.1.4 Gevaren en misbruik van evidence-based medicine �� 1.1.5 De toekomst is hier! �� 1.2 Conclusie�� 1.3 Dit boek��

3 4 5 6 7 8 8 9

2

De juiste vragen stellen�� 11

2.1 2.2 2.3 2.4 2.5 2.6

R.P. Koopmans, P.P.G. van Benthem en M. Offringa Inleiding�� Prioriteiten in vragen�� Soorten vragen �� Het PICO-systeem�� De vraag als controle op de toepasbaarheid�� Conclusie�� Literatuur��

3

Zoeken en selecteren van literatuur�� 19

12 13 13 14 17 17 17

W.J.J. Assendelft en B. Aertgeerts 3.1 Inleiding�� 20 3.2 Zoeken naar aanleiding van een klinisch probleem�� 21 3.2.1 Inleiding �� 21 3.2.2 Geaggregeerde evidence �� 22 3.3 Zoeken in een bibliografische database�� 23 3.3.1 Achtergrond�� 23 3.3.2 Aanpak zoekactie �� 23 3.3.3 Wat te doen bij een te lage opbrengst? �� 25 3.3.4 En wat bij een te grote opbrengst? �� 26 3.4 Metazoekmachines�� 26 3.5 Evidence-based bijblijven�� 27 3.6 Computergestuurde systemen�� 28 3.7 Conclusie�� 29 Literatuur�� 29

Kritisch beoordelen van een artikel �� Inleiding�� M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten 4.2 Diagnose�� M.M.G. Leeflang, R.J.P.M. Scholten en B. Aertgeerts 4.2.1 Inleiding �� 4.2.2 Beoordeling van een onderzoek naar de waarde van een diagnostische test�� 4

4.1

31 33 34 34 35

XII

Inhoud

4.2.3 Conclusie �� 47 4.3 Prognose�� 48

W.J.J. Assendelft, J.C. Korevaar en J.B. Reitsma 4.3.1 Inleiding �� 4.3.2 Beoordeling van een onderzoek over prognose�� 4.3.3 Conclusie �� 4.4 Therapie��

48 48 56 57

W.J.J. Assendelft, J.G.P. Tijssen en R.J.P.M. Scholten 4.4.1 Inleiding�� 57 4.4.2 Beoordeling van een gerandomiseerd effectonderzoek �� 58 4.4.3 Conclusie �� 70 4.5 Bijwerkingen en etiologie�� 71

E.P. van Puijenbroek, M. Offringa en R.J.P.M. Scholten 4.5.1 Inleiding�� 71 4.5.2 Beoordeling van een onderzoek over bijwerkingen of etiologie �� 73 4.5.3 Conclusie �� 80 4.6 Screening�� 82

Y. van der Graaf, W.J.J. Assendelft en R.J.P.M. Scholten 4.6.1 Inleiding�� 82 4.6.2 Beoordeling van een onderzoek naar de waarde van screening �� 83 4.6.3 Conclusie �� 92 4.7 Klinimetrie�� 92

C.B. Terwee, H.C.W. de Vet en R.J.P.M. Scholten 4.7.1 Inleiding�� 92 4.7.2 Beoordeling van een onderzoek naar de klinimetrische eigenschappen van een meetinstrument �� 93 4.7.3 Conclusie �� 104 4.8 Kwalitatief onderzoek �� 105

P.L.B.J. Lucassen en R. Reis 4.8.1 Inleiding�� 105 4.8.2 Aard van de kwalitatieve benadering �� 105 4.8.3 Theoretisch uitgangspunt�� 106 4.8.4 Waarnemingsmethodes�� 108 4.8.5 Selectie van deelnemers �� 108 4.8.6 Validiteit en betrouwbaarheid �� 109 4.8.7 Analyse van kwalitatief onderzoeksmateriaal �� 110 4.8.8 Beoordeling van een kwalitatief onderzoek�� 111 4.8.9 Kwalitatief onderzoek en evidence-based medicine �� 113 Literatuur�� 114

Kritisch beoordelen van een artikel: secundair onderzoek�� 115 Inleiding�� 116 R.J.P.M. Scholten, W.J.J. Assendelft en M. Offringa 5.2 Systematische reviews van interventieonderzoek�� 118 W.J.J. Assendelft, R.J.P.M. Scholten, W. de Ruijter en L.M. Bouter 5.2.1 Inleiding�� 118 5.2.2 Opbouw van een systematische review van interventieonderzoek�� 118 5.2.3 Beoordeling van systematische reviews�� 123

5 5.1

XIII

Inhoud

5.2.4 Nieuwe vormen van systematische reviews�� 126 5.2.5 Conclusie �� 127 5.3 Systematische reviews van onderzoek naar de waarde van een diagnostische test�� 127

M.M.G. Leeflang, R.J.P.M. Scholten, F. Buntinx en P.M.M. Bossuyt 5.3.1 Inleiding�� 127 5.3.2 Beoordeling van een diagnostische systematische review �� 128 5.3.3 Conclusie �� 134 5.4 Systematische reviews van observationeel onderzoek �� 135

D.A.W.M. van der Windt, M.P.A. Zeegers en R.J.P.M. Scholten 5.4.1 Inleiding�� 135 5.4.2 Beoordeling van een systematische review van observationeel onderzoek �� 136 5.4.3 Meta-analyse van observationeel onderzoek �� 140 5.4.4 Conclusie �� 144 Literatuur�� 145 6

Evidence-based richtlijnen �� 147 J.S. Burgers, W.J.J. Assendelft en J.J.E. van Everdingen

6.1 Inleiding�� 6.2 Beoordelen van een richtlijn �� 6.2.1 Kwaliteit van de richtlijn �� 6.2.2 Validiteit van de aanbevelingen�� 6.2.3 Toepasbaarheid in de eigen context�� 6.3 Zoeken naar richtlijnen, zelf maken of implementeren�� 6.4 Conclusie�� Literatuur�� 7

148 149 149 153 159 160 160 160

Bewijs toepassen op individuele patiënten �� 163 M. Offringa, P.P.G. van Benthem en S. Middeldorp

7.1 Inleiding�� Betekenis en bruikbaarheid van evidence�� 7.2 7.2.1 Individualiseren: kwalitatieve aspecten �� 7.2.2 Kwantitatieve aspecten �� 7.2.3 Waardeoordelen in beslissingen, ‘shared decision making’�� 7.3 Vijf stappen bij het toepassen van evidence bij complexe beslissingen�� 7.4 Conclusie�� Literatuur�� 8

Evidence-based medicine in de praktijk�� 175

M. Offringa, P.P.G. van Benthem en W.J.J. Assendelft Inleiding�� Hindernissen en oplossingen �� 8.3 Wat heeft men nodig?�� 8.4 Evidence-based medicine in de dagelijkse praktijk �� 8.4.1 Op een ziekenhuisafdeling �� 8.4.2 Op een polikliniek�� 8.4.3 In de huisartspraktijk �� 8.4.4 Journal-clubs nieuwe stijl. . . . . . . . . . . . . . . . . �� 8.5 Beschouwing �� 8.1 8.2

164 165 166 168 169 170 173 174

176 176 177 178 179 180 180 181 182

XIV

Inhoud

9

De Cochrane Collaboration �� 185 L. Hooft en R.J.P.M. Scholten

9.1 Missie�� 9.2 Organisatie van de Cochrane Collaboration�� 9.2.1 Cochrane Review Groups�� 9.2.2 Fields�� 9.2.3 The Consumer Network�� 9.2.4 Methods Groups �� 9.2.5 Cochrane Centres �� Participeren in de Cochrane Collaboration �� 9.3 9.4 De Cochrane Library�� 9.5 De impact van Cochrane-reviews�� 9.6 Conclusie��

186 187 187 190 191 191 191 192 192 193 195

Bijlagen ��

197

Verklarende woordenlijst�� 199

Register �� 207

XV

Lijst van auteurs Prof. dr. B. Aertgeerts, huisarts, Academisch Centrum voor Huisartsgeneeskunde, Katholieke Universiteit, Leuven, België, Belgian Branch of the Dutch Cochrane Centre Prof. dr. W.J.J. Assendelft, huisarts-epidemioloog, afdeling Eerstelijnsgeneeskunde, UMC St

Radboud, Nijmegen

Dr. P.P.G. van Benthem, kno-arts, afdeling Keel-, Neus- en Oorheelkunde, Gelre Ziekenhui-

zen, Apeldoorn

Prof. dr. P.M.M. Bossuyt, epidemioloog, afdeling Klinische Epidemiologie, Biostatistiek en Bio-informatica, Academisch Medisch Centrum, Universiteit van Amsterdam, Amsterdam Prof. dr. L.M. Bouter, epidemioloog, EMGO+ Instituut voor onderzoek naar gezondheid en zorg, Vrije Universiteit medisch centrum, Amsterdam Prof. dr. F. Buntinx, huisarts-epidemioloog, afdeling Huisartsgeneeskunde, Katholieke

Universiteit, Leuven, België, en afdeling Huisartsgeneeskunde, Universiteit Maastricht, Maastricht

Dr. J.S. Burgers, huisarts, Nederlands Huisartsen Genootschap, Utrecht Dr. J.J.E. van Everdingen, dermatoloog n.p., Zorginstituut Nederland, Diemen Prof. dr. Y. van der Graaf, epidemioloog, Julius Centrum, Universitair Medisch Centrum

Utrecht, Utrecht

Dr. L. Hooft, epidemioloog, Dutch Cochrane Centre en afdeling Klinische Epidemiologie, Biostatistiek en Bio-informatica, Academisch Medisch Centrum, Universiteit van Amsterdam, Amsterdam Prof. dr. R.P. Koopmans, internist, afdeling Interne Geneeskunde, Academisch Ziekenhuis Maastricht, Universiteit van Maastricht, Maastricht Dr. J.C. Korevaar, epidemioloog, programmaleider huisartsgeneeskundige zorg, Nederlands

instituut voor onderzoek van de gezondheidszorg NIVEL, Utrecht

Dr. M.M.G. Leeflang, epidemioloog, afdeling Klinische Epidemiologie, Biostatistiek en Bio-

informatica, Academisch Medisch Centrum, Universiteit van Amsterdam, Amsterdam

Dr. P.L.B.J. Lucassen, huisarts, senior onderzoeker, afdeling Eerstelijnsgeneeskunde, UMC St Radboud, Nijmegen Prof. dr. S. Middeldorp, internist, afdeling Vasculaire Geneeskunde, Academisch Medisch

Centrum, Universiteit van Amsterdam, Amsterdam

XVI

Lijst van auteurs

Prof. dr. M. Offringa, kinderarts-epidemioloog, Child Health Evaluative Sciences CHES,

The Hospital for Sick Children Research Institute, University of Toronto, Canada

Dr. E.P. van Puijenbroek, arts-klinisch farmacoloog, Nederlands Bijwerkingencentrum

LAREB, Den Bosch

Prof. dr. R. Reis, medisch antropoloog, afdeling Public Health en Eerstelijnsgeneeskunde, Leids Universitair Medisch Centrum, Leiden, en Amsterdam Institute for Social Science Research, Universiteit van Amsterdam, Amsterdam Dr. J.B. Reitsma, arts-epidemioloog, Julius Centrum, Universitair Medisch Centrum

Utrecht, Utrecht

Prof. dr. R.J.P.M. Scholten, arts-epidemioloog, Dutch Cochrane Centre en afdeling Klinische Epidemiologie, Biostatistiek en Bio-informatica, Academisch Medisch Centrum, Universiteit van Amsterdam, Amsterdam Dr. C.B. Terwee, epidemioloog, afdeling Epidemiologie en Biostatistiek en EMGO+ Instituut voor onderzoek naar gezondheid en zorg, Vrije Universiteit medisch centrum, Amsterdam Prof. dr. J.G.P. Tijssen, epidemioloog, afdeling Cardiologie, Academisch Medisch Centrum,

Universiteit van Amsterdam, Amsterdam

Prof. dr. H.C.W. de Vet, epidemioloog, afdeling Epidemiologie en Biostatistiek en EMGO+

Instituut voor onderzoek naar gezondheid en zorg, Vrije Universiteit medisch centrum, Amsterdam

Prof. dr. D.A.W.M. van der Windt, epidemioloog, Institute for Primary Care and Health

Sciences, Keele University, Staffordshire, Verenigd Koninkrijk

Prof. dr. M.P.A. Zeegers, epidemioloog, Nutrition, Metabolism and Toxicology Research In-

stitute Maastricht, Universiteit Maastricht, Maastricht

1

Inleiding M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten

1.1 Evidence-based medicine – 3 1.1.1 Evidence? – 4 1.1.2 Evidence-based medicine in de klinische praktijk – 5 1.1.3 Uitdagend of bedreigend? Kritiek op evidence-based medicine – 6 1.1.4 Gevaren en misbruik van evidence-based medicine – 7 1.1.5 De toekomst is hier! – 8

1.2 Conclusie – 8 1.3 Dit boek – 9

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_1, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

1

2

1

Hoofdstuk 1 • Inleiding

In de gezondheidszorg wordt van de behandelaar verwacht dat hij beschikt over solide informatie over de oorzaken van ziekte, de waarde van diagnostische bevindingen, de prognose van de patiënt en de verwachte gevolgen van therapeutische opties. Deze kennis over de gevolgen van klinisch handelen wordt bij voorkeur ontleend aan bevindingen van klinischwetenschappelijk onderzoek. Moderne gezondheidswerkers worden echter sinds een aantal jaren overspoeld met informatie, terwijl de informatie die zij nodig hebben steeds moeilijker te vinden is. Drukbezette artsen en paramedici kunnen nauwelijks overzicht houden over de continue stroom van nieuwe onderzoeken. We bevinden ons midden in het ‘informatietijdperk’, maar de informatie die klinische beslissingen zou kunnen ondersteunen, is versnipperd. Zelfs met streng selecteren van tijdschriften en artikelen resteert een vaak onoverzichtelijke hoeveelheid leesmateriaal per week. De direct beschikbare informatie neemt inmiddels immense proporties aan nu MEDLINE en andere medische informatie eenvoudig en onbeperkt via internet kan worden geraadpleegd. Olkin schatte in 1995 al dat er 40.000 medisch-wetenschappelijke tijdschriften verschijnen met meer dan één miljoen artikelen per jaar. Anno 2013 is dit aantal met ten minste 15% gegroeid. Dit betekent voor een internist dat deze tussen de 17 en 22 artikelen per dag moet lezen om het publicatietempo bij te houden. Voor een huisarts ligt dit aantal wellicht nog hoger. Daarnaast speelt dat er voortdurend wijzigingen zijn in inzichten, waardoor het gewicht van bestaand bewijsmateriaal aan vrijwel continue inflatie onderhevig is. Bovendien zijn niet alle gepubliceerde onderzoeken van dezelfde hoge wetenschappelijke kwaliteit. Intussen krijgt de arts in toenemende mate te maken met de vraag wat de voor de te nemen behandelbeslissing het onderbouwende bewijs is. De patiënt verwacht van de arts de nieuwste diagnostiek en behandeling. Patiënten en hun familie hebben via het internet toegang tot actuele en gedetailleerde medische informatie. Het is echter zeker dat lang niet alle informatie die op het net kan worden gevonden ook de kwaliteitstoets kan doorstaan. Ook kan de patiënt de – vooral voor artsen bedoelde – informatie soms verkeerd interpreteren, waardoor verwarring ontstaat. Richtlijnen zoals de standaarden van het Nederlands Huisartsen Genootschap, de multi disciplinaire CBO-richtlijnen en het Farmacotherapeutisch Kompas scheppen welkome orde in deze gegevensstroom, maar dekken lang niet alle facetten van het vak. Over bepaalde onderwerpen kan weliswaar genoeg bekend zijn, maar de informatie kan simpelweg nog niet in een van deze bronnen zijn verwerkt en men kan er niet genoeg gedetailleerde informatie uithalen om een specifieke klinische vraag te beantwoorden. Of er is recentelijk nieuwe wetenschappelijke informatie beschikbaar gekomen die nog niet in deze bronnen verwerkt kán zijn. De practicus zal regelmatig in deze ‘informatieberg’ op zoek moeten naar informatie over een actueel praktijkprobleem. Als er al geschikte literatuur wordt gevonden, dan moet deze eerst op kwaliteit en bruikbaarheid worden beoordeeld voordat zij wellicht in de dagelijkse praktijk kan worden toegepast. Helaas eindigen de meeste onderzoeken niet met een samenvatting voor de praktijk als ‘hoe verhoudt zich dit resultaat met wat er reeds bekend is over dit probleem?’ en ‘wat kunt u aan de hand van dit onderzoek het beste doen bij de eerstvolgende patiënt met dit probleem op uw spreekuur?’ Op hetzelfde moment worden vanuit de ziektekostenverzekeraars en de politiek bijna dagelijks vragen gesteld over de ‘doelmatigheid’ – in termen van effectiviteit en toepasbaarheid – van de gangbare of nieuwe behandelvormen of voorzieningen. Anno 2013 wordt bij de discussies over ‘wel of niet binnen het Geneesmiddelenvergoedingssysteem (GVS) vergoeden’ en bij de vaststelling van een nieuwe diagnose-behandelcombinatie (DBC) te pas en te onpas informatie gebruikt, soms gerapporteerde resultaten uit klinisch-wetenschappelijk onderzoek.

3

1.1 • Evidence-based medicine

Om in de lawine van informatie van wisselende kwaliteit en onder de hooggespannen verwachtingen van de patiënt, de beroepsorganisatie, de ziektekostenverzekeraar en de politiek het hoofd koel te houden, moet de moderne gezondheidswerker een strategie hebben. Deze strategie, het werken volgens de methode van evidence-based medicine (EBM), wordt in dit boek besproken. 1.1 Evidence-based medicine

De term ‘evidence-based medicine’ is in de jaren tachtig van de vorige eeuw ontstaan aan de McMaster Medical School in Canada, oorspronkelijk als naam voor de nieuwe onderwijsmethode. In het model van de evidence-based medicine wordt de informatie over de individuele patiënt, verkregen uit anamnese, voorgeschiedenis, lichamelijk onderzoek en aanvullend onderzoek, gecombineerd met uit klinisch-wetenschappelijk onderzoek verkregen kwantitatieve gegevens over de oorzaken van ziekte, de waarde van diagnostische bevindingen, de prognose van de patiënt en de effecten van therapeutische interventies. In deze ontwikkeling blijft de pathofysiologie de theoretische grondslag. Klinisch-wetenschappelijk onderzoek wordt ontworpen op grond van pathofysiologische en biomedische inzichten. Ook bij de toepassing van de resultaten van dit onderzoek bij de behandeling van de individuele patiënt kan de arts niet zonder pathofysiologisch redeneren. Er zijn inmiddels vele definities van evidence-based medicine. De volgende definitie illustreert de belangrijkste aspecten:

» Evidence-based medicine is het zorgvuldig, expliciet en oordeelkundig gebruik van het huidige beste bewijsmateriaal om beslissingen te nemen voor individuele patiënten. De praktijk van evidence-based medicine impliceert het integreren van individuele klinische expertise met het beste externe bewijsmateriaal dat vanuit systematisch onderzoek beschikbaar is. De voorkeuren, wensen en verwachtingen van de patiënt spelen bij de besluitvorming een centrale rol.

«

Het gaat dus om klinische beslissingen over individuele patiënten. Het zorgvuldig, expliciet en oordeelkundig gebruik verwijst naar de vertaalslagen die de arts moet maken om ‘het beste bewijsmateriaal’ – op wat dit precies inhoudt komen we later terug – succesvol toe te passen en recht te doen aan de individuele omstandigheden van de patiënt. Het begrip individuele klinische expertise slaat op het in de loop van de tijd vergaarde oordeelsvermogen van de clinicus om effectiever klinische gegevens te verzamelen en de klinische toestand van de patiënt accuraat in te schatten, maar ook om de behoeften, voorkeuren en de verwachtingen in kaart te brengen – wat leidt tot een beter onderbouwde besluitvorming. In het individuele beslissingsproces spelen drie categorieën informatie een rol (zie . figuur 1.1). Het is zaak om eerst op grond van alle beschikbare klinische informatie een idee over het natuurlijk beloop van de klachten of de aandoening te krijgen en de prognose van de patiënt in te schatten. Het gaat hier om de kans op het optreden van een ongewenste klinische uitkomst indien er zou worden afgewacht. Deze kans wordt in het Engels ook wel het baseline risk op de ongewenste uitkomst genoemd. Het begrip het beste externe bewijsmateriaal slaat op de resultaten van valide en relevant klinisch-wetenschappelijk onderzoek. In de besluitvorming worden de opties met de patiënt of zijn vertegenwoordiger uiteengezet, waarop na een bespreking van de waarderingen voor de verschillende uitkomsten van de scenario’s een geïnformeerde beslissing wordt genomen. Onder vergelijkbare medische omstandigheden en in het licht van hetzelfde bewijsmateriaal

1

4

1

Hoofdstuk 1 • Inleiding

voorkeuren van patiënt

bewijsmateriaal (evidence)

keuze; beslissing

toestand van patiënt; prognose . Figuur 1.1 De rol van informatie in het individuele beslissingsproces.

nemen artsen en patiënten soms toch verschillende beslissingen. De voorkeuren, wensen en verwachtingen van de goed geïnformeerde patiënt of zijn vertegenwoordigers kunnen verschillen en hiermee wordt in de geneeskunde altijd rekening gehouden. 1.1.1 Evidence?

In de Engelstalige literatuur wordt met opzet gesproken van evidence en niet van proof. Evidence is strikt genomen niet hetzelfde als bewijs; het is een aanwijzing die zo sterk kan zijn dat nauwelijks twijfel hoeft te bestaan over de juistheid, of zo zwak dat zij nauwelijks overtuigt. In het eerste geval komt evidence dicht bij bewijs. In de Nederlandse vertaling gaat veel van deze nuancering verloren. Vanwege dit verlies aan nuance, en ook omdat evidence-based medicine een internationaal begrip is geworden, wordt evidence hier onvertaald gelaten. Wat kan als evidence worden beschouwd? Beslissingen in de geneeskunde kunnen worden gestuurd door resultaten van wetenschappelijk onderzoek en door anekdotische informatie. Anekdotische informatie is informatie afkomstig van persoonlijke of klinische ervaringen, van de beslisser zelf of van een goede collega, zonder dat er een formele onderzoeksmethode is gebruikt. Beslissingen zijn doorgaans gebaseerd op een samenspel van gegevens uit beide bronnen. Hierbij spelen ook de normen en waarden van de beslissers, hun voorkeuren en de omstandigheden waaronder de beslissingen moeten worden genomen een rol. Volgens de principes van evidence-based medicine moeten beslissingen in de praktijk bij voorkeur op basis van het beste beschikbare bewijsmateriaal worden genomen. Niet alle evidence komt echter in dezelfde kwaliteit en vorm op ons af. In het ideale geval zijn dat bij de beoordeling van de waarde van een therapeutische interventie, de uitkomsten van klinisch onderzoek waarbij patiënten door het toeval (gerandomiseerd) zijn toegekend aan de experimentele dan wel aan de controlegroep. Soms berust de beste evidence die beschikbaar is echter op observationeel onderzoek of op praktijkervaring. Er is dus als het ware een hiërarchie van evidence: sterke evidence verdringt zwakke, soms is het dus zwakke evidence waarop de beslissing kan en moet worden genomen. Veel wetenschappelijke kennis kan met behulp van een systematische verzameling van gegevens en heldere regels voor de interpretatie ervan, uitmonden in een overzichtelijke rangorde voor aanbevelingen. Door een level of evidence toe te kennen wordt de sterkte van wetenschappelijk bewijs op transparante wijze aangegeven. Wanneer alleen wordt afgegaan op het level of evidence (gebaseerd op het studiedesign), dan schuilt het

1.1 • Evidence-based medicine

5

gevaar dat men soms de resultaten van bijvoorbeeld een door vertekening verstoorde klinische trial onterecht zwaarder weegt dan de resultaten van een correct ontworpen en uitgevoerd gecontroleerd, maar niet gerandomiseerd, onderzoek. Het gaat uiteindelijk om de kwaliteit van de evidence – een maat voor de geloofwaardigheid van de resultaten. In dit boek wordt het accent gelegd op de algemene kwaliteit van informatie en niet zozeer op de level of evidence. Grofweg kunnen er twee vormen van evidence worden onderscheiden: onbewerkte evidence – uit de originele onderzoeken – en evidence die verwerkt is in synopses: systematische literatuuroverzichten, besliskundige analyses, kosteneffectiviteitsanalyses, richtlijnen, formularia en kompassen. Eén enkel onderzoek is in de regel te beperkt om als basis voor klinische beslissingen te dienen. Zowel voor het bepalen van een behandeleffect en de diagnostische waarde van een test, als voor het onderzoek naar risicofactoren zijn vaak verscheidene onderzoeken nodig om een goed beeld te krijgen. Het inzicht groeit met het aantal uitgevoerde onderzoeken, zeker als deze individuele onderzoeken van tijd tot tijd worden samengevat. Binnen deze bewerkte literatuur nemen systematische reviews (literatuuroverzichten) een centrale plaats in. Andere voorbewerkte bronnen – besliskundige analyses, kosteneffectiviteitsanalyses, richtlijnen – dienen bij voorkeur op evidence uit systematische reviews te worden gebaseerd. Voor de dagelijkse praktijk verdient in synopses verwerkte evidence de voorkeur, omdat deze de gezondheidswerker ontlast van uitgebreide zoekacties naar relevante artikelen en een diepgaande kwaliteitsbeoordeling per onderzoek. Gelukkig neemt het aantal van deze synopses zienderogen toe. Er is anno 2013 een aantal specifieke hoogwaardige bronnen beschikbaar en op het internet zijn er speciale zoekmachines die naar synopses zoeken. 1.1.2 Evidence-based medicine in de klinische praktijk

Het toepassen van evidence-based medicine in de klinische praktijk is het toepassen van een vijfstapsmethode. 1. het klinische probleem vertalen in een beantwoordbare vraag; 2. het efficiënt zoeken naar het beste bewijsmateriaal; 3. het wegen van de gevonden evidence op methodologische kwaliteit en toepasbaarheid in de eigen praktijksituatie; 4. het nemen van een beslissing op grond van de beschikbare evidence; 5. het regelmatig evalueren van de kwaliteit van dit proces. Voor het succesvol toepassen van deze methode zijn speciale vaardigheden bij de clinicus vereist en zijn technische hulpmiddelen nodig. Natuurlijk is een gedegen pathofysiologische kennis onontbeerlijk. Ook is enige kennis van de principes van de klinische epidemiologie nodig. Het praktiseren van evidence-based medicine houdt een integratie in van kennis uit onderzoek met de praktische ervaring van de clinicus om zo tot de beste zorg of de beste preventie te komen. Alléén deze kennis of alléén klinische ervaring is niet genoeg; een integratie leidt tot de beste resultaten. De patiënt of zijn vertegenwoordiger speelt met zijn voorkeuren een rol in de uiteindelijke beslissing over de behandeling, na goed geïnformeerd te zijn over de evidence die voorhanden is rond de alternatieve behandelopties. Zoals gezegd is er tegenwoordig voor bijna alle belangrijke geneeskundige problemen evidence in de literatuur te vinden. Dit boek is een inleiding op het toepassen van deze evidence in de dagelijkse klinische praktijk. Het volgt de hiervoor beschreven vijfstapsmethode.

1

6

1

Hoofdstuk 1 • Inleiding

1.1.3 Uitdagend of bedreigend? Kritiek op evidence-based medicine

Naast het uitdagende karakter van evidence-based medicine wordt deze manier van werken ook wel als een bedreiging gezien. Sommigen zien het als een bedreiging van de beroepstrots (‘mijn unieke klinische expertise’) en anderen als een bron van schuldgevoel (gevoel ver achter te zijn met het bijhouden van de vakliteratuur…). Inmiddels is wel duidelijk geworden dat het hier een misverstand betreft: klinische ervaring speelt wel degelijk een belangrijke rol bij het evidence-based werken. Blijft de vraag waar men de tijd vandaan haalt om voor het enorme aantal diverse problemen van de dagelijkse praktijk de juiste literatuur te vinden en deze te beoordelen op kwaliteit en relevantie. Op deze vragen zijn inmiddels ook weer antwoorden. Waarschijnlijk is er in elke praktijkvoering een beperkt aantal problemen – geschat op rond de tweehonderd – dat belangrijk is en frequent genoeg voorkomt en waarvoor er goede evidence is. Vaak is deze evidence al door anderen opgespoord en beoordeeld op websites, in bladen als ACP Journal Club, Evidencebased Medicine, Evidence-based Nursing, Evidence-based Health Care en in synopses als de Cochrane Database of Systematic Reviews of Clinical evidence. Deze geselecteerde evidence omvat oorspronkelijke onderzoeken die kritisch zijn bekeken en in de context van klinisch gebruik zijn uitgevoerd, systematische reviews van de kwalitatief beste beschikbare onderzoeken op een bepaald terrein, samenvattingen van de oorspronkelijke onderzoeken alsmede richtlijnen. Steeds meer Nederlandse vaktijdschriften zijn er inmiddels toe overgegaan om dergelijke samenvattingen voor de praktijk te publiceren. Men kan zich toch afvragen in hoeverre de organisatie en de praktijk van de gezondheidszorg een wetenschappelijke basis hebben en in welke mate het mogelijk is de kennis over wat wel en niet werkt toe te passen in de dagelijkse zorg voor patiënten. Hier zijn drie hoofdvragen te onderscheiden: 1. Is het mogelijk om altijd aan wetenschappelijk bewijs te komen? 2. Als de kennis er is, kan die dan altijd in duidelijke aanbevelingen worden verwerkt en zullen zorgverleners deze wetenschappelijk onderbouwde aanbevelingen in de praktijk opvolgen? 3. Welke rol speelt het perspectief van de patiënt in deze ontwikkelingen? zz Is het mogelijk om altijd aan wetenschappelijk bewijs te komen?

De vraag is of alle aspecten van het dagelijks medisch handelen wel wetenschappelijk te onderzoeken zijn. Het antwoord is natuurlijk ontkennend. In de praktijk van alledag gebeurt veel waarop geen enkel wetenschappelijk antwoord van toepassing is. Het grootste probleem bij het verkrijgen van medische kennis is dat er een grijs gebied lijkt te bestaan met vragen waarop geen adequate antwoorden (kunnen) komen of waarbij de antwoorden tot op heden tegenstrijdig zijn. De min of meer duidelijke gebieden zijn ‘zwart’, met bewijs dat iets niet zinvol of zelfs schadelijk is of ‘wit’, met bewijs dat een behandeling meer goeddoet dan dat deze schade aanricht. ‘Grijs’ is nu net het gebied vol dilemma’s waarmee de meeste artsen in hun dagelijkse praktijkuitoefening worstelen. Uit de resultaten van gepubliceerde onderzoeken en ervaringen in de praktijk van alledag blijkt dat er echter vaak toch veel meer informatie is dan men denkt, dat deze informatie relatief snel te vinden is en vaak wel degelijk relevant is voor de te nemen beslissingen. zz Is het bewijs in eenduidige en toepasbare aanbevelingen te verwerken?

Dit is de vraag naar implementatie van wetenschappelijke informatie in een doelmatige gezondheidszorg: een vraag die momenteel veel aandacht krijgt. Uiteindelijk gaat het erom dat

1.1 • Evidence-based medicine

7

de praktijk beter wordt van de uitkomsten van wetenschappelijk onderzoek en dat artsen in de zorg hun gedrag overeenkomstig aanbevelingen veranderen. Of zij dat ook zullen doen, hangt af van de kwaliteit, relevantie en hanteerbaarheid van de evidence, al dan niet vormgegeven in evidence-based richtlijnen. Aanbevelingen moeten bruikbaar worden gemaakt voor de behandeling van de individuele patiënt. Hier kunnen zich interessante situaties voordoen. Uit precies dezelfde wetenschappelijke informatie over de behandeling van hypertensie blijken in vijf verschillende landen vijf verschillende nationale richtlijnen te zijn afgeleid. Het is dus mogelijk dat verschillende adviesraden van deskundigen tot verschillende adviezen komen. Een van de belangrijkste factoren die hierbij een rol spelen, is de gevolgde methodologie bij het ontwikkelen van de richtlijn en de samenstelling van de richtlijncommissie. Er zijn veel factoren die bepalen op welke wijze uitkomsten die de wetenschap biedt worden vertaald in richtlijnen (zie 7 H. 6). Aanbevelingen gelden in de regel alleen voor de ‘gemiddelde’ patiënt en die bestaat helaas niet. Zo zal de behandelaar altijd samen met de patiënt de laatste stap moeten zetten en beslissen welk deel van de aanbevelingen wel relevant is en van welke aanbevelingen – geïnformeerd en afgewogen – kan worden afgezien (zie . figuur 1.1). Zo blijft de geneeskunde altijd een ‘op maat’ product leveren. zz Patiëntenvoorkeuren zijn belangrijker geworden

Hoewel sommige excessen van de moderne geneeskunde mede kunnen worden toegeschreven aan ‘patiëntenvoorkeuren’ (zoals het commercieel behandelen van in principe niet of nauwelijks zieke mensen), dwingen kostenbeheersing en doelmatig gebruik van middelen tot een serieuze aandacht voor patiëntenvoorkeuren op alle niveaus. Patiëntenvoorkeuren impliceren echter ook vaak conflicten van belangen. De grote vraag is momenteel of de doelstelling van het bevorderen van patiëntenvoorkeuren wel overeenstemt (of kan overeenstemmen) met het doel dat wordt nagestreefd met een op wetenschap gebaseerde gezondheidszorg. Medische informatie is echter al eenvoudig beschikbaar. Internet is voor veel patiënten een bron van informatie en van uitwisseling van ervaringen. Veel patiëntengroepen bieden informatie en ondersteuning. Dankzij goed geïnformeerde patiënten kunnen voorzieningen efficiënter worden en mogelijk kosten worden bespaard. Daartegenover staan potentiële gevaren: kankerdiagnostiek en -behandeling die worden aangeboden per e-mail is verwerpelijk. Eenzijdige of gebrekkige informatie kan leiden tot angst, onzekerheid en frustratie. Aan de informatiebehoefte van patiënten moet via onafhankelijke kanalen worden tegemoetgekomen, willen patiënten geen speelbal worden van lobby of misleiding. 1.1.4 Gevaren en misbruik van evidence-based medicine

Manipulatie en misleiding van patiënten en hun artsen op basis van misinformatie zijn in het huidige tijdperk helaas nog steeds aan de orde van de dag. Maar er kleven ook potentiële gevaren aan het klakkeloos toepassen van de resultaten van op zichzelf goed klinisch onderzoek op individuele patiënten. Zonder degelijke klinische kennis kan extern bewijsmateriaal nooit vruchtbaar worden toegepast. De evidence kan incorrect zijn weergegeven en in de handen van mensen zonder pathofysiologische kennis en klinische ervaring aanleiding geven tot verwarring of zelfs tot fouten. Regelrecht misbruik van evidence-based medicine is ook mogelijk. Indien beleidsorganen alleen kijken naar behandelingen die kostenbesparend zijn en indien uitsluitend behandelin-

1

8

1

Hoofdstuk 1 • Inleiding

gen waarvoor voldoende goed bewijsmateriaal aanwezig is worden verstrekt, spreken we van kostenreductiegeneeskunde of evidence-biased medicine, maar niet van evidence-based medicine. Voorzieningen waarvoor echter een duidelijk evidence of no effect beschikbaar is, kunnen inderdaad beter worden afgeschaft. 1.1.5 De toekomst is hier!

In een ideale evidence-based wereld komen onderzoekers met de juiste antwoorden op de relevante klinische vragen en zorgverleners hebben de wetenschappelijke evidence ter begeleiding van hun professionele handelen onder handbereik. Financiële prikkels noch ongefundeerde persoonlijke voorkeuren bepalen wat een behandelaar wel of niet doet. Ook op het gebied van communicatie tussen behandelaar en patiënt is er een open uitwisseling van informatie en voorkeuren. Beleidsorganen vergoeden op transparante wijze effectieve en veilige voorzieningen. Dit ideaal is echter helaas nog lang niet bereikt. Intussen moet de moderne arts inspelen op een aantal van de belangrijkste ontwikkelingen. Hij is al geconfronteerd met een kennis- en machtsverschuiving, zichtbaar in computers aan het bed (ook voor de patiënt). Er komt steeds betere informatie voor het grote publiek. Patiënten kunnen inzicht krijgen in de variaties in kwaliteit en resultaten van behandelaars en instellingen. Er is steeds meer openheid over budgettaire grenzen en selectiecriteria. En de wetenschappers verdiepen zich steeds meer in problemen zoals die door de patiënten zijn geïdentificeerd en beschreven. David Sackett voorspelde in 1995 dat tien jaar later de gewenste informatie over deelgebieden binnen twaalf seconden in de eigen taal beschikbaar zou zijn, in verwerkbare brokken van twee seconden, twee minuten of twee uur. Dat hebben we inderdaad bijna bereikt! Klinische bibliothecarissen kunnen uit de berg informatie voor artsen en patiënten snel de kennis – inclusief kwantitatieve gegevens over nut, risico en schade – identificeren die voor de actuele situatie betrouwbaar en nuttig is. De farmaceutische industrie – zo voorspelde Sackett in 1995 – zal niet nalaten om waar mogelijk in advertenties ten onrechte het begrip ‘evidence-based’ te gebruiken en uit de bestaande literatuuroverzichten gebrekkig te citeren. Dit is inderdaad op grote schaal gebeurd en gebeurt nog steeds! Veel artsen en andere behandelaars hebben, geheel volgens Sacketts voorspellingen, hun abonnement op de tijdschriften opgezegd en besteden hun schaarse tijd voor lezen nog uitsluitend aan het napluizen van zinvolle databestanden die antwoorden geven op toegespitste vragen over de problemen van individuele patiënten. 1.2 Conclusie

Evidence-based medicine is een denkwijze die ervan uitgaat dat het zinvol is het medisch handelen zo veel mogelijk te baseren op feiten die uit wetenschappelijk onderzoek zijn verkregen. Evidence-based werken is een stijl van werken waarbij de behandelaar zich bij elke beslissing afvraagt of er bewijsmateriaal is om deze beslissing te ondersteunen en hoe sterk het bewijs is. Het gaat dus om een basale houding van de behandelaar. Volgens de principes van evidence-based medicine moeten beslissingen in de praktijk bij voorkeur op basis van het best beschikbare bewijs worden genomen. Dit vereist een aantal vaardigheden, zoals het maken van een duidelijke vraagstelling, het uitvoeren van een zoekstrategie naar artikelen over de vraagstelling, het kritisch beoordelen van de gevonden artikelen en daarna het toepassen van de resultaten. Documentatiebronnen waarin beslissingen over klinische problemen worden

1.3 • Dit boek

9

gepresenteerd met uitgebreide wetenschappelijke onderbouwing zijn hierbij essentieel. Maar evidence-based medicine is meer dan het zo veel mogelijk gebruikmaken van de beschikbare evidence. Het is een houding van zich voortdurend afvragen op grond waarvan beslissingen worden genomen of therapie wordt voorgeschreven. De moderne evidence-based behandelaar kent de bewijskracht van het beschikbare bewijs rond bepaalde klinische beslissingen en de daarbij behorende mate van onzekerheid. Gewoonte, rituelen en evidence-based medicine Good doctors, rightly, are risk averse and conservative. As individuals, we find change difficult. What is fascinating about the discourse of evidence based medicine is the psycholog ical challenge it presents – of changing one’s practice from less effective to more effective. Changing on the basis of new evidence means accepting the uncomfortable notion that we did it wrong, or less well, before. Thus we have needlessly harmed people in the past. This is painful for health professionals, motivated by the urge to help and heal, even if our actions were unintentional or the evidence didn’t exist previously. Some find it easy to say ‘Well, better stop harming now than carry on,’ but denial is simpler, powerful, and comforting. Getting to the bottom of evidence based medicine, april 2008, Susan Bewley, consultant obstetrician (7 www.bmj.com/cgi/content/extract/336/7647/764).

1.3 Dit boek

Zorgverleners die in hun opleiding weinig of geen aandacht aan evidence-based medicine hebben besteed, kunnen het toepassen van evidence-based medicine in de praktijk leren. In dit boek worden de belangrijkste begrippen behandeld die de behandelaar of de behandelaar in opleiding nodig heeft om zichzelf tijdens de opleiding of na het afstuderen op een moderne manier up-to-date te houden. Als men zichzelf op de juiste manier de juiste vragen stelt (7 H. 2), efficiënt leert zoeken in de geëigende bronnen (7 H. 3), de kwaliteit en relevantie van de geïdentificeerde onderzoeken kan inschatten (7 H. 4, 7 H. 5 en 7 H. 6) en ten slotte het gevonden materiaal weet toe te passen (7 H. 7) en over te dragen aan collega’s en op te slaan voor toekomstig gebruik (7 H. 8), zal de meerwaarde duidelijk worden. In het onderwijs is er inmiddels veel aandacht voor deze vorm van leren. Dit boek richt zich op iedereen, van student tot (bijna) gepensioneerd practicus die geïnteresseerd is om deze manier van werken te leren en toe te passen.

1

11

De juiste vragen stellen R.P. Koopmans, P.P.G. van Benthem en M. Offringa

2.1 Inleiding – 12 2.2 Prioriteiten in vragen – 13 2.3 Soorten vragen – 13 2.4 Het PICO-systeem – 14 2.5 De vraag als controle op de toepasbaarheid – 17 2.6 Conclusie – 17 Literatuur – 17

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_2, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

2

12

Hoofdstuk 2 • De juiste vragen stellen

2.1 Inleiding

2

‘Eén dwaas kan meer vragen dan tien wijzen kunnen antwoorden’, luidt het spreekwoord. Vragen stellen is blijkbaar gemakkelijker dan vragen beantwoorden. Dit geldt ook in de dagelijkse geneeskundige praktijk. De zorgverlener die handelt in de geest van evidence-based medicine (EBM) zal meestal zijn eigen vragen moeten beantwoorden en het is van belang dat hij zichzelf hierbij niet onnodig in de problemen brengt. Het is dus belangrijk relevante, goed geformuleerde vragen te leren stellen. De wijze waarop de vraag wordt gesteld heeft directe consequenties voor het elektronisch zoeken van literatuur; de vraagstelling kan te veel of te weinig opleveren (zie 7 H. 3). Dit probleem kan worden verkleind door een goed geformuleerde vraag. Zo’n goed geformuleerde vraag is ook van belang voor het controleren van de geselecteerde literatuur. Geeft deze eigenlijk wel antwoord op de gestelde vraag? Tips Formuleer een vraag zodanig dat zij beantwoordbaar is, bijvoorbeeld met de PICO-methode: patient – intervention – comparison – outcome. Breng een rangorde aan in de door u bedachte vragen (bijv. op grond van waarde voor de praktijk). Probeer via vragen uit uw eigen praktijk uw vakkennis op peil te houden. ‘Bewaar’ uw vragen, zodat u na enige tijd nog eens kunt zoeken naar nieuw verschenen literatuur.

Door zichzelf dikwijls goed geformuleerde vragen te stellen en deze te beantwoorden, kan men problem-based leren. Deze wijze van leren sluit aan bij de praktijk, kan levenslang worden volgehouden en is de efficiëntste manier om de eigen praktijkvoering te verbeteren. Maar wat is nu een beantwoordbare en relevante vraag? Hoe vaak stelt de gemiddelde arts een lacune in zijn of haar parate kennis vast? Sommige artsen menen zelden een vraag te hebben. Is dat mogelijk? Men kan uitgebreid, ‘sensitief ’ zoeken om zo veel mogelijk informatie te vinden of juist wat grover, ‘specifiek’ zoeken met de kans op missers. Wat is het beste? Op deze vragen wordt in dit hoofdstuk een antwoord gezocht. De inhoud van vragen in de klinische praktijk betreft grofweg de domeinen etiologie, diagnose, prognose, therapie (inclusief preventie) en ernstige schade/bijwerkingen. De domeinen etiologie en ernstige schade hebben veel gemeenschappelijk en worden vaak als één domein gezien. Het is goed mogelijk met een paar eenvoudige vuistregels op elk van die domeinen een inhoudelijk goede vraag te stellen. Voor elk domein bestaat een ‘beste’ onderzoekdesign dat het geschiktst is voor het beantwoorden van de vraag (zie 7 H. 4). Voorbeeldvraag over etiologie Op uw afdeling wordt een 53-jarige man opgenomen met een trombosebeen links. De medische voorgeschiedenis is blanco en afgezien van het been heeft de patiënt geen klachten. Onderzoek op risicofactoren voor trombose (zoals factor V Leiden) is negatief. Tijdens uw ochtendvisite begint u zich af te vragen of er niet een nog occulte maligniteit in het spel kan zijn, vooral omdat de patiënt u steeds vraagt wat nou toch de oorzaak is van het trombosebeen en of hij wel echt helemaal gezond is. Zou het zinvol zijn te gaan zoeken naar een maligniteit, bijvoorbeeld door een gastroscopie en een echo van het abdomen te laten uitvoeren en het CEA te laten bepalen?

2.3 • Soorten vragen

13

55 Waarde van de vraag. Deze schat u hoog in, omdat dit probleem veel voorkomt in uw praktijk en bij u toch steeds in het achterhoofd speelt of u niet iets over het hoofd ziet. Bovendien wilt u uw patiënt goed informeren. 55 Opzet van de PICO. Misschien is PICO niet nodig en kunt u het af met een background question (zie 7 par. 2.3). Zoiets als: ‘Is trombose geassocieerd met maligniteiten?’ Na even denken vindt u dit toch geen ideale oplossing. U wilt juist weten hoe waarschijnlijk een maligniteit is en op grond van die kennis besluiten of de patiënt iets opschiet met een uitgebreide analyse. Dat kan alleen met een PICO-aanpak. 55 Dus: ‘Hoe groot is de kans op het bestaan van een maligniteit (O) bij een volwassene met een trombosebeen zonder aanwijsbare oorzaak of risicofactoren (P)?’ In dit stadium is er dus geen I of C. 55 U kunt overwegen het tijdsaspect mee te nemen: gaat het om het vinden van een nu reeds bestaande maligniteit of gaat het om monitoren van deze patiënt voor een maligniteit die zich in de komende twee jaar zal manifesteren? 55 Sensitieve of specifieke search? De patiënt blijft nog enkele dagen in het ziekenhuis. Voordat hij naar huis gaat, moet het toch wel bekend zijn. U wilt voor deze patiënt zeer relevante literatuur niet missen, maar in een breed overzicht over trombose en maligniteit bent u nu niet geïnteresseerd. U besluit tot een specifieke search.

2.2 Prioriteiten in vragen

Het is niet aangetoond dat meer opzoeken leidt tot een betere praktijkvoering of tot betere uitkomsten van de behandeling. Dit is echter wel aannemelijk. Daar staat tegenover dat met de huidige opzoekmogelijkheden het zelf beantwoorden van meerdere vragen per dag meestal onmogelijk is. Er moet dus worden gekozen. Een aantal strategieën is dan mogelijk. De meest voor de hand liggende mogelijkheid is een rangorde in de vragen aan te brengen. Criteria daarbij kunnen zijn: 55 Bestaan er wellicht recente richtlijnen voor mijn beroepsgroep op dit gebied? 55 Hoe vaak komt deze vraag terug in mijn praktijk? 55 Hoe belangrijk is het antwoord voor de patiënt van vandaag? 55 Is het antwoord gemakkelijk te vinden? 55 Vind ik het probleem boeiend? 2.3 Soorten vragen

Onervaren behandelaars stellen over het algemeen andersoortige vragen dan ervaren behandelaars. Sackett e.a. gebruiken hiervoor de termen background question en foreground question. De eerstgenoemde categorie kan ook wel contextvragen worden genoemd en gaat over algemene aspecten van een ziekte of therapie, bijvoorbeeld: ‘Door welke verwekkers wordt pneumonie veroorzaakt?’ of: ‘Welke effecten kan acute alcoholonthouding zoal geven?’ of nog voor de hand liggender: ‘Wat is de gebruikelijke dosis van amiloride bij de behandeling van hypertensie?’ Het belang van deze vragen is groot, maar zij zijn niet specifiek voor de patiënt die aanleiding gaf voor de vraag. Naarmate een behandelaar meer ervaring heeft, zal hij meer foreground questions stellen: vragen die vrij sterk in detail op de behandeling van de huidige patiënt zijn toegesneden. Dus: ‘Is de mortaliteit van patiënten met een community acquired longontsteking

2

14

2

Hoofdstuk 2 • De juiste vragen stellen

lager wanneer vanaf het begin een antibioticum wordt gekozen met activiteit tegen Legionella?’ Dit is al een echte PICO-vraag (zie 7 par. 2.4). Deze laatste categorie vragen heeft een grotere impact op de zorg, onder andere omdat er expliciet een afweging van alternatieven plaatsvindt (in dit geval wel of geen antibioticum met Legionelladekking). Voorbeeldvraag over therapie Een 35-jarige vrouw bezoekt het spreekuur van de huisarts vanwege een ‘tenniselleboog’. Zij kan haar werk in een slagerij al geruime tijd niet verrichten vanwege deze aandoening. Normaal gesproken zou u haar naar de fysiotherapeut verwijzen, maar een dergelijke behandeling duurt een paar weken. U vraagt zich daarom af of corticosteroïdinjecties wellicht een sneller resultaat geven. 55 Waarde van de vraag. Deze schat u hoog in, omdat de patiënt door een effectieve behandeling wellicht niet in de WIA komt en omdat u vermoedt dat over een dergelijke frequent voorkomende aandoening veel onderzoeken zijn gepubliceerd. 55 Opzet van de PICO. De interventie is corticosteroïdinjectie – aantal, dosis en preparaat vindt u in eerste instantie even niet van belang. Comparison: de bij u tot nu toe gebruikelijke therapie is fysiotherapie; dit wilt u als vergelijking hanteren. Outcome: pijn en klachten zijn op zichzelf van belang; in dit geval gaat het u echter vooral om de arbeidsgeschiktheid. 55 Dus: ‘Leiden corticosteroïdinjecties (I) bij patiënten met epicondylitis lateralis (P) tot snellere terugkeer van de arbeidsgeschiktheid (O) dan fysiotherapie (C)?’ 55 Eventueel voegt u het tijdsaspect toe: een verschil van tijd tot herstel van één maand of langer vindt u relevant. 55 Sensitieve of specifieke search? Dit probleem ziet u vaak in uw praktijk. Enkele weken vindt u een redelijke termijn om het uit te zoeken. U besluit tot een sensitieve search.

2.4 Het PICO-systeem

Nadat een foreground-vraag is gekozen, moet deze dus zodanig worden geformuleerd dat de kans op een zinvol antwoord zo groot mogelijk is. In veel gevallen wordt aan deze stap te weinig aandacht besteed. Het gevolg kan zijn dat men het antwoord niet vindt, dat men te veel antwoorden vindt en dus alsnog de vraag moet herformuleren om een overzichtelijk aantal artikelen over te houden of dat men bij nader inzien de verkeerde vraag heeft gesteld. De EBM-groep uit Oxford (Verenigd Koninkrijk) heeft als hulpmiddel het PICO-systeem voorgesteld. Dit staat voor: patient – intervention – comparison – outcome. Het PICO-systeem helpt bij het structureren van de vraag en alle genoemde elementen moeten in de vraag worden vermeld. Bij de O hoort ook nog een tijdsaspect; deze is in vele vragen echter reeds impliciet aanwezig. Een aldus opgestelde vraag laat zich betrekkelijk gemakkelijk vertalen naar een zoekstrategie in een database (zie 7 H. 3). Men zoekt ‘breed’ op een of meer van de vier (of vijf) componenten afzonderlijk en verbindt de resultaten van verschillende componenten met het woord ‘AND’. Voor wiskundig onderlegde lezers: men neemt de doorsnede van de deelverzamelingen. Meestal begint men met één component (bijv. P of I) en als de oogst dan te groot is, voegt men een andere component toe (zie 7 H. 3). Het hanteren van PICO heeft ook het voordeel dat men gedwongen wordt tevoren goed na te denken over wat men precies wil weten. Desondanks

2.4 • Het PICO-systeem

15

komt het voor dat men op deze wijze te veel of te weinig informatie vindt. In dat geval is herbezinning op de gestelde vraag noodzakelijk. Het PICO-systeem laat in principe toe dat men het probleem uniek omschrijft. Als men hierin te restrictief is (‘Wat is de mortaliteit na dertig dagen als men een 56-jarige man met een pneumokokkenpneumonie en tevens diabetes mellitus type 2 behandelt met amoxicilline drie keer daags 750 mg per os versus doxycycline 100 mg per os gedurende tien dagen?’), leidt dit tot weinig of geen treffers. In dit geval is bijvoorbeeld de patiëntengroep te nauw gedefinieerd of de uitkomst te precies. Als er (in het omgekeerde geval) te veel informatie uit de zoektocht naar evidence komt, moet men restrictiever worden. Een bekende valkuil is in dat geval dat men eerst de informatie eens een beetje doorbladert en vervolgens alles ‘eigenlijk wel interessant’ vindt. Dit kost veel tijd. Beter is het eerst de eigen vraag in te perken, opnieuw te zoeken en pas in tweede instantie de literatuur in te zien. In 7 H. 3 gaan we hier uitgebreid op in. Het PICO-systeem leent zich uitstekend voor het opstellen van vragen in de domeinen etiologie/schade, prognose en therapie/preventie. De P en de O zijn voor deze domeinen goed te formuleren. De I en de C staan bij de domeinen therapie/preventie en ‘schade’ uiteraard voor ‘interventie’ en ‘controle’ en bij de domeinen etiologie en prognose voor respectievelijk de aanen afwezigheid van een oorzakelijke of prognostische factor (bijv. eiwit in de urine bij diabetes mellitus type 2). Voor diagnostiek dienen tevens andere componenten benoemd te worden. Bij comparison bij vragen over therapie/preventie hoeft men niet direct een omschreven alternatief te kiezen. Vaak is ‘gebruikelijke therapie’ of ‘niet behandelen’ een goede vergelijking. Uiteraard moeten deze termen op de een of andere manier worden vertaald voor de zoekmachine. Men kan er bijvoorbeeld voor kiezen bij het zoeken geen comparison te hanteren en het resultaat van de zoektocht handmatig te ordenen op datgene wat men herkent als ‘gebruikelijke therapie’. Voorbeeldvraag over prognose U ziet als arts-assistent op uw polikliniek neurologie een 36-jarige vrouw bij wie in een an der ziekenhuis onlangs de diagnose multipele sclerose (MS) is gesteld. Zij is nu naar uw regio verhuisd. Zij vraagt aan het einde van het consult hoe volgens u haar toekomst eruitziet. Heel specifiek wil zij graag weten of zij over vijf jaar nog zal kunnen lopen of dat zij dan aan een rolstoel gebonden zal zijn. 55 Waarde van de vraag. Voor uw patiënt is dit uiteraard een zeer belangrijke zaak. U hebt in uw opleiding geleerd dat het beloop van MS relatief gunstig kan zijn, maar soms ook grillig en snel progressief. Of er literatuur over is? Dat moet haast wel en u gaat dus kijken. 55 Opzet van de PICO. We hebben in dit geval geen specifieke interventie (I) op het oog en ook geen vergelijkende behandeling (C). De vraag is wat, gegeven de huidige toestand van de patiënt, de kans op rolstoelgebondenheid is over vijf jaar. Zijn er bij haar prognostische factoren aanwezig die geassocieerd zijn met een (on)gunstig beloop van de ziekte, zoals het begin van de ziekte voor haar veertigste jaar? 55 Dus: ‘Wat is na vijf jaar de kans op invaliditeit/rolstoelgebondenheid (O) bij jonge vrouwen met recentelijk gediagnosticeerde MS (P) voor het veertigste jaar (I), in vergelijking met een begin na de veertigste verjaardag (C)?’ 55 Sensitieve of specifieke search? Voor een sensitieve search op PubMed hebt u geen tijd. Zie 7 H. 3 om te ontdekken waarom het best gestart kan worden met een zoekstrategie die een recente richtlijn op dit terrein opspoort.

2

16

2

Hoofdstuk 2 • De juiste vragen stellen

Het PICO-systeem leent zich minder goed voor een diagnostische vraag. Met name de O is lastig te benoemen (men neemt hiervoor vaak de sensitiviteit of specificiteit of voorspellende waarden van de te onderzoeken test, die in dit kader indextest genoemd wordt). Voor de P moet men trachten alle elementen die voor diagnostiek van belang zijn, te benoemen: met welke klachten is de patiënt gekomen, in welke setting, en welke diagnostische tests heeft de patiënt al ondergaan voordat de indextest (de test waarvan men de validiteit wil weten) toegepast wordt. Bijvoorbeeld: ‘Patiënten op de SEH met koorts en slikpijn, verdacht voor een peritonsillair abces.’ De I staat uiteraard voor de indextest. De C wordt gereserveerd voor een andere indextest, waarmee de eerste vergeleken wordt (bijv. met vervanging als doel). De ziekte of aandoening waarvoor de indextest gebruikt wordt (bijv. een aandoening die moet worden aangetoond, of, in een andere toepassing, uitgesloten) dient ook benoemd te worden, inclusief de bijbehorende referentietest. Het opstellen van een PICO voor een diagnostische vraag is derhalve een stuk lastiger. In 7 par. 4.2 komen wij hierop terug. Met behulp van PICO kan men sensitief (ruim) of specifiek (nauw) zoeken. Het eerste levert meer literatuur op dan het tweede. Met enige oefening heeft men dit snel onder de knie. Beide manieren van zoeken zijn van belang. Wil men voor een probleem dat in de eigen praktijk vaak voorkomt een richtlijn opstellen, dan zal men sensitief moeten zoeken: een zeer algemene patiënt, wel een nauw omschreven intervention en comparison (daar gaat het immers om) en wellicht ook een reeks van uitkomsten. Gaat het echter om het voorschrijven van een geneesmiddel aan een patiënt die morgen terugkomt, dan is een specifieke zoektocht de enige mogelijkheid. Voorbeeldvraag over bijwerkingen Op uw afdeling psychiatrie is twee weken geleden een 32-jarige vrouw met een bipolaire stemmingsstoornis opgenomen. Zij was in een depressieve episode geraakt en is inmiddels goed opgeknapt na instellen op lithium. Zij kan binnenkort naar huis. Van een verpleegkundige hoort u dat de patiënte heeft uitgesproken dat zij graag een kind wil. Op het wekelijkse teamoverleg komt het beleid bij jonge vrouwen die lithium gebruiken en die zwanger willen worden ter sprake. Een van de vragen is of er een verhoogd risico op schade aan de ongeboren vrucht is en zo ja, welke schade dat is en hoe groot de kans is. 55 Waarde van de vraag. Deze schat u hoog in, omdat dit probleem weliswaar niet veel voorkomt, maar potentieel grote implicaties heeft voor moeder en kind. U wilt uw patiënte ook volledig informeren en de risico’s goed met haar afwegen. 55 Opzet van de PICO. Een eerste idee is: ‘Is lithium in de zwangerschap geassocieerd met aangeboren afwijkingen?’ U weet echter dat 1-5% van alle pasgeborenen een min of meer ernstige aangeboren afwijking heeft en u wilt dus weten hoe het risico op een ernstige afwijking toeneemt bij lithiumgebruik. Op grond van die kennis wilt u dan met de patiënte afwegen of zwanger worden tijdens het gebruik van lithium niet te onveilig is. Dat kan alleen weer met een PICO-aanpak. 55 Dus: ‘Hoe groot is de kans op een ernstige aangeboren afwijking van het kind (O) bij een zwangere vrouw (P) die lithium gebruikt (I) ten opzichte van een zwangere die geen lithium gebruikt (of een ander antidepressivum) (C)?’ Het tijdsaspect kan hier eventueel ingebouwd worden door te zoeken naar geneesmiddelgebruik in de gehele zwangerschap of lithiumgebruik niet in het eerste trimester. 55 Sensitieve of specifieke search? De patiënte blijft nog enkele dagen op de afdeling. Tijdens deze periode wilt u deze voor haar zeer relevante vraag op grond van relevante literatuur beantwoorden. U vermoedt dat er niet al te veel publicaties zijn en u wilt proberen geen relevante artikelen te missen; u doet een sensitieve search.

Literatuur

17

2.5 De vraag als controle op de toepasbaarheid

Indien u een relevante, goed geformuleerde vraag heeft opgesteld, bijvoorbeeld volgens het PICO-systeem, dan zult u merken dat het soms nog ingewikkeld is om die studie uit de gevonden literatuur te selecteren die uw vraag precies beantwoordt. Het is dan ook altijd goed om na het lezen en eventueel op validiteit en resultaat beoordelen van de geselecteerde studie weer terug te gaan naar de oorspronkelijke vraag. Dat kan als volgt: 55 P. Is de populatie die onderzocht is in de studie wel vergelijkbaar met mijn patiënt of gaat het hier (bijvoorbeeld) om volwassenen in plaats van kinderen? 55 I. Is de interventie (of de blootstelling of prognostische factor) wel dezelfde als die waarover ik iets wil weten of is (bijvoorbeeld) de dosering anders? Is de interventie (bijv. operatie) in dit ziekenhuis haalbaar? 55 C. Vergelijken ze wel met (bijvoorbeeld) de tot nu toe eerstekeuzetherapie of vergelijken ze juist met een placebo? 55 O. Meten ze wel de uitkomst waarin ik geïnteresseerd ben, (bijvoorbeeld) de frequentie van otitis media acuta tot de vijfde verjaardag van het kind? Of meten ze otitiden in bredere zin, (bijvoorbeeld) otitis media acuta, otitis media met effusie en aantal episodes van loopoor? Het is geen zeldzaamheid dat na deze check blijkt dat de geselecteerde studie die aanvankelijk de vraag leek te beantwoorden toch op heel andere zaken antwoorden geeft. 2.6 Conclusie

De informatiebehoefte in de dagelijkse geneeskundige praktijk is groot. Bij het effectief gebruiken van informatie dient men lacunes bij zichzelf te herkennen, op enigerlei wijze te prioriteren, een vraag zo effectief mogelijk te kunnen formuleren en te bepalen hoeveel tijd men beschikbaar en nodig heeft om het antwoord te zoeken. De PICO-methode is op dit moment het meest voor de hand liggende instrument om een vraag te formuleren. Met deze methode kan een vraag in voor de praktijk relevante onderdelen worden ontleed, die daarna zonder extra inspanning in een database kunnen worden gezocht en gecombineerd. Literatuur Coumou HC, Meijman FJ. How do primary care physicians seek answers to clinical questions? A literature review. J Med Libr Assoc 2006 Jan;94(1):55–60. Ely JW, Osheroff JA, Chambliss ML, Ebell MH, Rosenbaum ME. Answering physicians’ clinical questions: obstacles and potential solutions. Am Med Inform Assoc 2005 Mar-Apr;12(2):217–24. Ely JW, Osheroff JA, Ebell MH, Bergus GR, Levy BT, Chambliss ML, Evans ER. Analysis of questions asked by family doctors regarding patient care. BMJ 1999 Aug 7;319(7206):358–61. Green ML, Ruff TR. Why do residents fail to answer their clinical questions? A qualitative study of barriers to practicing evidence-based medicine. Acad Med 2005 Feb;80(2):176–82. Straus SE, Glasziou P, Richardson WS, Haynes RB. Evidence-based Medicine: How to practice and teach it. 1. Asking answerable clinical questions. Fourth edition. Edinburgh: Churchill Livingstone, 2011. ISBN: 978-0-7020-3127–4. Worster A, Haynes RB. How do I find point-of-care answers to my clinical question? Can J Emerg Med 2012;14:31–5. Zwolsman S, Pas E te, Hooft L, Wieringa-de Waard M, Dijk N van. Barriers to GPs’ use of evidence-based medicine: a systematic review. Br J Gen Pract 2012 Jul;62(600):e511–21.

2

19

Zoeken en selecteren van literatuur W.J.J. Assendelft en B. Aertgeerts

3.1 Inleiding – 20 3.2 Zoeken naar aanleiding van een klinisch probleem – 21 3.2.1 Inleiding – 21 3.2.2 Geaggregeerde evidence – 22

3.3 Zoeken in een bibliografische database – 23 3.3.1 Achtergrond – 23 3.3.2 Aanpak zoekactie – 23 3.3.3 Wat te doen bij een te lage opbrengst? – 25 3.3.4 En wat bij een te grote opbrengst? – 26

3.4 Metazoekmachines – 26 3.5 Evidence-based bijblijven – 27 3.6 Computergestuurde systemen – 28 3.7 Conclusie – 29 Literatuur – 29

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_3, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

3

20

Hoofdstuk 3 • Zoeken en selecteren van literatuur

3.1 Inleiding

3

Iedere zorgverlener wordt overspoeld met tijdschriften, informatie op congressen, leerboeken en reclamebrieven. Kranten en televisie geven steeds meer medische informatie in gepopulariseerde vorm en inhoudelijk vaak op hoogstaand niveau. Gevraagd en ongevraagd is er een constante informatiestroom. De recentste ontwikkeling is dat patiënten zorgverleners confronteren met informatie van patiëntenverenigingen, de Consumentenbond, de krant of met uitdraaien van het internet. Een belangrijk deel van vooral diagnostische en therapeutische medische informatie veroudert steeds sneller: na vijf jaar is de helft al verouderd. Veel medische informatie heeft vaak nog de vorm van jaren geleden: uitgebreide teksten die niet uitgaan van een klinische vraag, waarbij de informatie nogal eens onvolledig of vertekend is en waarin de uitkomsten niet worden uitgedrukt in maten en getallen zoals dit boek aanbeveelt. Het is voor de zorgverlener van belang op een gerichte en efficiënte manier met medische informatie om te gaan. Gelukkig wordt dit steeds gemakkelijker, omdat er steeds meer bronnen zijn die de informatie op een evidence-based manier presenteren. Met de ruime beschikbaarheid van internet is voor de individuele zorgverlener een schat aan informatie beschikbaar. Net als bij het aanleren van een medische vaardigheid is het belangrijk om bij het evidence-based zoeken en selecteren stapsgewijs en planmatig te werk te gaan en niet te snel op te geven. In dit hoofdstuk wordt uitgelegd hoe de traditionele aanpak van informatievoorziening door een interessante en inhoudelijk hoogwaardige manier van werken vervangen kan worden. Ten slotte wordt een nieuw systeem dat vertrekt vanuit het elektronisch medisch dossier beschreven. Er zijn grofweg drie situaties waarin zorgverleners behoefte aan informatie hebben. Allereerst omdat er bij een individuele patiënt een vraag rijst. Een patiënt of een zorgverlener kan zich afvragen welke chemotherapie zin heeft bij borstkanker, of stomen zin heeft bij verkoudheid, wat de beste termijn is om antistolling te blijven gebruiken na een trombose etc. Zorgverleners hebben verder behoefte aan het bijblijven op verschillende terreinen, zonder dat er een individuele vraag ligt. En op een minder individueel niveau kan informatie nodig zijn als onderbouwing van lokale, regionale of nationale werkafspraken of richtlijnen. Het opstellen van richtlijnen en systematische reviews vereist een zeer grondige zoektocht in meerdere databanken. Dit is echter een werk van een aantal maanden en wordt uitgevoerd door specialisten op dit gebied (zie ook 7 H. 5 en 7 H. 6). Zorgverleners die willen bijblijven met literatuur kunnen gebruikmaken van e-mail-alerts van deze tijdschriften (current contents) of gespecialiseerde services die gerichte zoekvragen (PICO’s; zie ook 7 H. 2) periodiek terugkoppelen (zoals My NCBI, het systeem van de National Library of Health dat gebruikersinformatie bewaart voor hergebruik). Verschillende tijdschriften en wetenschappelijke verenigingen hebben ook een update-service (soms ook een Twitteraccount) waarbij relevante informatie voor de doelgroep wordt doorgegeven. Voor een clinicus is echter de meest voorkomende situatie dat een klinisch probleem naar aanleiding van een patiëntencontact of een discussie met een collega opduikt en dat hij hiervoor een goed onderbouwd antwoord wil zoeken.

3.2 • Zoeken naar aanleiding van een klinisch probleem

21

gericht zoeken: de kennispiramide

systemen

gecomputeriseerde beslissingsondersteuning

synopses

evidence-based tijdschriftsamenvattingen; richtlijnen

syntheses

systematische reviews

studies studieboeken

originele artikelen in tijdschriften tekstboeken

. Figuur 3.1 De kennispiramide.

3.2 Zoeken naar aanleiding van een klinisch probleem 3.2.1 Inleiding

De afgelopen jaren is het zoeken van evidence-based materiaal bij een individueel patiëntenprobleem veel efficiënter geworden. Het is vaak niet meer nodig om uitgebreid naar losse artikelen te zoeken, omdat de informatie al door anderen is samengevat en van een deskundig oordeel is voorzien. Klinische informatie kan worden onderverdeeld in verschillende soorten: de ‘kennispiramide’ (zie . figuur 3.1). Tekstboeken staan onder aan de piramide. Voor de aanpak van een klinisch probleem is altijd een zekere mate van achtergrondkennis nodig; concepten en samenhang laten zich het best in een goed leerboek uitleggen. De manier waarop voor een tekstboek de synthese van kennis tot stand komt is echter meestal niet transparant, waardoor leerboeken soms eerder meningen dan een samenvatting van kennis bevatten (authority-based in plaats van evidence-based). Door de productietijd en de intervallen tussen revisies loopt de kennis in leerboeken op het moment dat deze ter hand worden genomen meestal achter. Voor zeer gerichte vragen zijn leerboeken daarom minder geschikt. Voor het evidence-based zoeken naar aanleiding van een klinisch probleem kan het best boven aan de piramide worden begonnen. De volgorde van zoeken van informatie wordt bepaald door een aantal overwegingen: 55 Komt het klinische probleem voldoende overeen met de informatie uit de evidence-based bron (zie ook 7 H. 2)? 55 Is het beschikbare materiaal al samengevat in regelmatig geüpdatete evidence-based bronnen? 55 Bespreken de bronnen voor een bepaalde aandoening of probleem verschillende diagnostische of therapeutische mogelijkheden naast elkaar?

3

22

Hoofdstuk 3 • Zoeken en selecteren van literatuur

Indien een dergelijke synopsis ontbreekt, verdient een systematische review de voorkeur boven losse onderzoeksartikelen (zie 7 H. 5). Bronnen in het Nederlands zijn in de regel handiger dan in het Engels, maar vaak minder actueel en volledig.

3

3.2.2 Geaggregeerde evidence zz Gecomputeriseerde beslissingsondersteuningssystemen

Het ideaalst is wanneer de gezondheidswerker van een beslissingsondersteuningssysteem gebruik kan maken, waarin de geaggregeerde evidence uit de piramidelagen daaronder direct aan de klinische vraag wordt gekoppeld. Een voorbeeld daarvan zijn de medicatievoorschrijfsystemen, die aan de hand van de codering van de ziekte de voorschrijver direct een kant-en-klaar voorschrijfadvies geven. Dergelijke systemen worden aan de hand van revisies van de onderliggende bronnen automatisch geüpdatet. De voorschrijver krijgt zo, zelfs als deze niet direct op de hoogte is van de actualisering, altijd het actueelste evidence-based advies. zz Synopses

Voor de praktijk is het gemakkelijk als de bestaande evidence is samengevat, maar ook dat de gezondheidswerker een toelichting op of een interpretatie van de evidence krijgt. Zo kan bij een klinische vraag snel beslist worden welke diagnostiek of therapie moet worden gekozen, zonder dat de behandelaar alle details van het oorspronkelijke onderzoek zelf hoeft te doorgronden. Over veel onderwerpen zijn evidence-based richtlijnen (zie ook 7 H. 6) beschikbaar. Een richtlijn is een document met aanbevelingen, adviezen en handelingsinstructies ter ondersteuning van de dagelijkse praktijkvoering in de gezondheidszorg. Richtlijnen berusten op resultaten van wetenschappelijk onderzoek, met daarop gebaseerde discussie en aansluitende meningsvorming, gericht op het expliciteren van goed medisch handelen (zie 7 H. 6). Dat is allereerst handig: alles staat bij elkaar, inclusief een advies. Daarnaast wordt een zorgverlener geacht om de van toepassing zijnde richtlijnen te volgen, wat een andere reden is om eerst te kijken of er een relevante richtlijn voorhanden is. Nationale richtlijnen hebben daarbij de voorkeur boven internationale en richtlijnen van de eigen discipline boven die van een andere discipline. Een belangrijke bron van richtlijnen is de Amerikaanse National Guideline Clearinghouse, waarin de richtlijnen van belangrijke richtlijnorganisaties uit diverse landen zijn opgenomen, inclusief een samenvatting van de gebruikte methodes en de belangrijkste aanbevelingen. Ook in het Verenigd Koninkrijk via NHS evidence en mondiaal het Guidelines International Network (GIN) geven een uitgebreid overzicht. De meeste organisaties publiceren hun richtlijnen via internet (zie extras.bsl.nl/inleidingebm). Daarnaast is er een aantal handige evidence-based bronnen beschikbaar. Voor therapeutische vragen is de uitgave Clinical Evidence een aanrader. In dit boek wordt van een groot aantal patiëntgeoriënteerde therapeutische vragen het beschikbare bewijs voor de clinicus geordend en besproken. Clinical Evidence wordt regelmatig geactualiseerd. Een belangrijk beoordelingsaspect voor de keuze van deze samengestelde bronnen is de actualiteit: een samenvatting is alleen nuttig als deze voldoende recent is. zz Systematische reviews

In een systematische review wordt de beschikbare informatie uit de oorspronkelijke onderzoeken op een transparante, valide en reproduceerbare wijze gezocht, geselecteerd, geëxtraheerd,

3.3 • Zoeken in een bibliografische database

23

beoordeeld en samengevoegd. Systematische reviews zijn daardoor een efficiënte en betrouwbare informatiebron. Een belangrijke bron van systematische reviews is de Cochrane Library (zie 7 H. 9). Daarnaast kan in bibliografische databases met specifieke zoekfilters gemakkelijk naar systematische reviews worden gezocht (zie 7 par. 3.3). 3.3 Zoeken in een bibliografische database 3.3.1 Achtergrond

Als er geen kant-en-klare geaggregeerde evidence-based bron (synopsis) beschikbaar is, dan moet naar individuele onderzoeksartikelen worden gezocht. Dit zijn systematische reviews of individuele onderzoeksartikelen. Om te begrijpen hoe u in databases kunt zoeken, is enige kennis over de achtergrond nodig. In een bibliografische database worden vaak duizenden tijdschriften geïndexeerd. Dit geeft de mogelijkheid op trefwoorden, op tekstwoorden in de titel of de samenvatting, op auteursnaam en bijvoorbeeld op jaartal van publicatie te zoeken. MEDLINE is de bekendste database. Via verschillende zoekmachines kan naar publicaties vanaf 1966 in bijna 6000 tijdschriften worden gezocht. Hiervan is de zoekmachine PubMed, gratis via internet te raadplegen, een van de gebruikersvriendelijkste. Andere bibliografische databases zijn bijvoorbeeld EMBASE en PsychLit. Een zoekactie in een bibliografische database komt rechtstreeks voort uit de klinische vraag (zie 7 H. 2) en bevat voor therapeutische vragen zoektermen die verwijzen naar de aandoening en de interventie, eventueel aangevuld met zoektermen die gerelateerd zijn aan de setting (bijv. bedrijfsgezondheidszorg) en als verwacht wordt dat dit in het abstract staat de gewenste uitkomstmaten (bijv. ‘pijn’ of ‘kwaliteit van leven’). Een voorbeeld van een zoekactie is opgenomen in . tabel 3.1. Zoeken in een bibliografische database vereist instructie en vaardigheden. Veel universiteiten en ziekenhuizen verzorgen instructies. Daarnaast zijn er op het internet veel handleidingen voor zoeken in PubMed te vinden, waaronder ook een prima Engelstalige video-instructie op de website van PubMed zelf (PubMed Online Training). 3.3.2 Aanpak zoekactie

In PubMed kunt u zoeken aan de hand van vrije tekst en aan de hand van trefwoorden. De in PubMed gebruikte trefwoorden (in het Engels Medical Subject Headings; afgekort MeSHtermen) staan in een aparte database. Met vrije tekst wordt gezocht in de titels en samenvattingen van de artikelen (dus niet in het hele artikel). PubMed gebruikt het systeem van Automatic Term Mapping om woorden op de zoekbalk zo mogelijk om te zetten in MeSH-termen en vrije tekst. Bij het zoeken op onderwerp is het namelijk belangrijk dat beide soorten termen worden gebruikt. Bij het ‘mappen’ gaat de computer na of de zoektermen overeenkomen met MeSHtermen. Als dat het geval is, wordt op die MeSH-termen gezocht en bovendien op de vrije tekst. Als geen MeSH-termen worden gevonden, dan worden de ingetypte zoektermen in de vrije tekst gezocht. PubMed ‘mapt’ alleen als er geen jokertekens gebruikt zijn (afgekort met een *). Door gebruik te maken van jokertekens wordt het mogelijk om bij zoeken op vrije tekst diverse uitgangen van hetzelfde woord te gebruiken. Het afgebroken ‘inject*’ levert zowel injection, injections als injected als treffers op. Zoeken op trefwoorden heeft de voorkeur, omdat dat veel specifieker is, maar vereist ook meer ervaring.

3

24

Hoofdstuk 3 • Zoeken en selecteren van literatuur

. Tabel 3.1 Zoekactie in PubMed op 19 januari 2013. Botulinetoxine voor tenniselleboog. Sensitief zoekfilter voor RCT’s

3

opdracht in PubMed

aantal treffers

opmerking

#9

(#4 AND #8) AND ((clinical[Title/ Abstract] AND trial[Title/Abstract]) OR clinical trials[MeSH Terms] OR clinical trial[Publication Type] OR random*[Title/Abstract] OR random allocation[MeSH Terms] OR therapeutic use[MeSH Subheading])

39

combinatie voor het zoeken naar botulinetoxine bij tenniselleboog met gebruik van sensitief methodologisch filter voor RCT’s

#8

#5 OR #6 OR #7

1535

combinatie voor het zoeken naar tenniselleboog

#7

tennis elbow[Text Word]

1376

zoeken met vrije tekstwoorden (free text words) in de titel en de samenvatting; dit maakt de zoekactie sensitiever, maar minder specifiek

#6

(radial OR lateral) AND epicondylitis

624

#5

tennis elbow [MeSH]

1150

MeSH heading, betekent ‘trefwoord’

#4

#1 OR #2 OR #3

15.293

combinatie voor zoeken op botulinetoxine

#3

Botulinum

15.160

#2

botulinum toxins [MeSH]

10.929

#1

Botox

1424

Analoog aan wat voor diagnostisch onderzoek in de klinische praktijk geldt, gaat ook bij het zoeken in een bibliografische database een hogere sensitiviteit (veel relevante treffers) bij het zoeken naar literatuur in de regel samen met een lagere specificiteit (veel niet-relevante treffers). Afhankelijk van het doel van de zoekactie en het aantal beschikbare publicaties kan worden besloten om sensitief of juist specifiek te zoeken. Bij sensitief zoeken wordt getracht zo veel mogelijk relevante publicaties op te sporen. De logische consequentie hiervan is dat de zoekactie ook relatief meer niet-relevante treffers oplevert (minder specifiek is). Indien u weinig tijd heeft of zeer veel potentieel bruikbare publicaties verwacht, kunt u beter kiezen voor een specifieke zoekactie. Dit levert minder overbodige treffers op, maar nuttige publicaties worden dan wellicht gemist. De zinvolste manier om specifiek evidence-based te zoeken is het hanteren van zogenoemde methodologische filters. Dit zijn uitgekiende combinaties van methodologische termen waarmee per domein (therapie, diagnose, prognose, etiologie en bijwerkingen) naar het meest geëigende onderzoektype voor het domein kan worden gezocht (bijv. RCT’s voor het domein therapie). Zie de referenties bij dit hoofdstuk voor verdere details over de inhoud van de zoekfilters. De efficiëntste zoekfilter is die voor systematische reviews. Indien een recente systematische review beschikbaar is, bent u meestal klaar met zoeken. Als dat niet het geval is, moet verder naar primaire onderzoeken worden gezocht. In de methodologische zoekfilters zijn termen verwerkt die verwijzen naar kenmerken die samenhangen met het voor elk domein meest geëigende onderzoektype. De zoekfilters voor therapeutische onderzoeken bevatten bijvoorbeeld termen die gericht zijn op het identificeren van RCT’s. De methodologische zoekfilters zelf kunnen sensitief of juist specifieker zijn. Het is mogelijk

3.3 • Zoeken in een bibliografische database

25

. Tabel 3.2 Tips bij een te kleine en bij een te grote oogst na het zoeken in een bibliografische database te kleine oogst – (meer) vrije tekstwoorden naast MeSH-headings – gebruik tevens tekstwoorden met jokertekens – gebruik bij een artikel dat dicht aansluit bij de behoefte de related citations-optie in PubMed om er meer te vinden – gebruik MeSH-headings die zijn gekoppeld aan artikelen die al geïdentificeerd zijn – als een specifiek methodologisch filter is gebruikt: schakel over op een sensitief filter – raadpleeg de thesaurus (ordening van de MeSH-termen) en voeg andere MeSH-termen toe – raadpleeg een medisch bibliothecaris of clinical librarian te grote oogst – gebruik beperking (limit): taal (English), artikelen met een samenvatting (abstract), onderzoek met mensen (human) – zoek eerst alleen naar geaggregeerde evidence (richtlijnen, systematische reviews) (met methodologisch filter in PubMed, zoekprogramma SUMSearch, TRIP-database; zie 7 par. 3.4) – gebruik specifiekere MeSH-subheadings (voor diagnostiek van tenniselleboog alleen tennis elbow/di) – gebruik methodologische filters: therapie, diagnostiek, etiologie, prognose, bijwerkingen, screening; indien bij gebruik filter nog een te grote oogst: instelling ‘specifiek’ – raadpleeg een thesaurus en gebruik andere MeSH-termen – raadpleeg een medisch bibliothecaris of clinical librarian

methodologische zoekfilters zelf te maken of een bestaande naar eigen behoefte en ervaring aan te passen en in de computer op te slaan voor later gebruik (dit is een mogelijkheid binnen PubMed). Handig is dat deze methodologische filters (zowel sensitief als specifiek) kant-enklaar in het zoekprogramma PubMed zijn opgenomen. In de Clinical Queries van PubMed hoeft voor een sensitieve evidence-based zoekactie naar de effectiviteit van een therapie bij de rapportage dan alleen categorie ‘therapy’ en de insteek (‘scope’) ‘sensitive’ te worden gebruikt. Voor studietypes anders dan die in de Clinical Queries staan, zijn recentelijk soms ook filters ontwikkeld (bijv. voor prognostische studies). Deze zijn dan te vinden door in PubMed te zoeken naar artikelen hierover met de woorden ‘search filter’ of synoniemen daarvan. Naast methodologische filters zijn er ook filters gepubliceerd voor ziektecategorieën (bijv. nierziekten) of specifieke patiëntencategorieën (bijv. kinderen). Het loont de moeite om met een aparte search te onderzoeken of er voor de klinische vraag al zoekfilters ontwikkeld zijn. 3.3.3 Wat te doen bij een te lage opbrengst?

Een zoekactie in MEDLINE of een andere database kan soms op een teleurstelling uitlopen. Er kunnen te veel treffers zijn of er wordt veel minder gevonden dan op basis van de klinische vraag te verwachten was. Gelukkig zijn hiervoor in de regel oplossingen (zie . tabel 3.2). Bij een te kleine oogst kunnen allereerst meer vrije tekstwoorden aan de zoekactie worden toegevoegd. Ook kan worden overwogen daarnaast jokertekens in vrije tekstwoorden te ge-

3

26

3

Hoofdstuk 3 • Zoeken en selecteren van literatuur

bruiken. De volledige vrije tekstwoorden moeten wel blijven staan, omdat niet meer ‘gemapt’ wordt als alleen vrije tekstwoorden met jokertekens gebruikt worden (zie 7 par. 3.3.2). De optie see related citations in PubMed kan behulpzaam zijn om na te gaan of er mogelijk meer gelijksoortige artikelen in MEDLINE geïndexeerd zijn. Ook is het mogelijk dat niet de goede MeSHtermen zijn gebruikt. Het kan dan nuttig zijn van een aantal bekende, geschikte artikelen na te gaan welke MeSH-termen waren toegevoegd. Vaak kan dit goede ideeën voor verbetering van de zoekactie opleveren. Als er bij het zoeken is gebruikgemaakt van een specifiek methodologisch filter, dan is het bij een te kleine oogst raadzaam om over te gaan op een sensitief filter. Ten slotte kan de thesaurus (de ordening van MeSH-termen) worden geraadpleegd. Een medisch bibliothecaris kan u adviseren als u er met deze aanwijzingen niet uitkomt. Een bibliothecaris kan onder andere ook inschatten of het gezien het onderwerp zinvol is nog andere databases dan MEDLINE te raadplegen. De gangbaarste aanvullende bibliografische database is EMBASE, die voor een substantieel deel complementair is aan MEDLINE, onder andere doordat EMBASE meer op farmacotherapie is gericht en ook meer Europees georiënteerd is. Afhankelijk van het onderwerp is de mate van overlap in gevonden artikelen tussen deze twee systemen 10-75%. Ook kan er in nog andere onderwerp- of beroepspecifieke elektronische databases worden gezocht. In Cinahl bijvoorbeeld ligt de nadruk meer op tijdschriften die van belang zijn voor verpleegkunde en andere paramedische beroepen, terwijl de focus van het eveneens veelvuldig geraadpleegde PsychLit meer op psychologie en psychiatrie is gericht. 3.3.4 En wat bij een te grote opbrengst?

Bij een te grote oogst kan er allereerst worden gekeken of zich tussen de treffers niet een of meer systematische reviews bevinden. Dit kan men doen met de zoekfilter voor systematische reviews of door gebruik te maken van SUMSearch of de TRIP-database, waarin de richtlijnen en systematische reviews apart worden gepresenteerd (zie hierna). Verder kan met de optie limits worden ingeperkt. Gangbare inperkingen zijn beperking tot artikelen met een samenvatting (niet alle geïndexeerde artikelen hebben namelijk een samenvatting), artikelen in het Engels en artikelen die mensen als onderwerp hebben (sluit dierexperimenteel onderzoek uit). Verder kunnen de MeSH-termen nader worden gespecificeerd tot zogenoemde subheadings. Een vraag over de diagnostiek van een tenniselleboog (tennis elbow) kan worden beperkt tot de sub-MeSH-term ‘tennis elbow/di’, waarbij de uitgang ‘/di’ staat voor diagnostiek. Bij een grote oogst kan – indien dat nog niet was gedaan – een methodologisch filter worden toegevoegd. Indien al een filter was gebruikt, kan worden nagegaan of er een specifieker filter voor dit onderzoektype bestaat. Ten slotte kan ook de thesaurus (woordenboek van MeSH-termen; in PubMed is dit de MeSH-database) worden geraadpleegd of de hulp ingeroepen worden van een medisch bibliothecaris. 3.4 Metazoekmachines

Er komen steeds meer internetsites waarin voor de gebruiker bij een zoekvraag tegelijkertijd in diverse databases als richtlijnendatabases en PubMed wordt gezocht en waarbij in de eerdergenoemde hiërarchie van de kennispiramide de oogst wordt aangeboden. Voorbeelden zijn de Britse Clinical Knowledge Summaries van de National Institute for Health and Clinical Excellence (NICE), de Britse TRIP-database (turning research into practice) en het Amerikaanse SUMSearch (zie extras.bsl.nl/inleidingebm). Het Belgisch Centrum voor Evidence-Based

3.5 • Evidence-based bijblijven

27

Medicine CEBAM heeft ook een eigen zoekmachine, die op deze wijze werkt. Ze hebben ieder hun eigen systematiek en voordelen. Deze websites komen niet in de plaats van de door ons voorgestelde manier van zoeken, omdat wij er in de praktijk de voorkeur aan geven handzame bronnen, zoals nationale richtlijnen en Nederlandstalige EBM-bronnen, gemakkelijk bij de hand te hebben. Juist deze bronnen ontbreken in Engelstalige bronnen. Voor een brede oriëntatie en om snel een indruk te krijgen zijn ze echter zeer geschikt. Hou wel voor ogen dat de meeste van deze zoekmachines niet werken met MeSH-termen en dat de gebruiker vaak met vrije tekstwoorden wat onverwachte en ook onbruikbare opbrengst krijgt, omdat de gekozen zoekterm door de zoekmachine verkeerd is opgepakt. 3.5 Evidence-based bijblijven

Vaak worden (onderzoeks)artikelen gelezen om bij te blijven. Ook dit ‘bijblijven’ kan op een evidence-based manier gebeuren. zz Attendering door PubMed

Een manier om bij te blijven op een of meer specifieke, favoriete onderwerpen is het maken en opslaan van een zoekstrategie voor MEDLINE en deze regelmatig, bijvoorbeeld iedere twee maanden, te gebruiken, met als beperking (limit) de invoerdatum in MEDLINE. De zoekstrategie in . tabel 3.1 zou, indien deze regelmatig wordt gedraaid, bijvoorbeeld ook voor een dergelijke manier van bijblijven kunnen worden gebruikt. Behalve handmatig kan tegenwoordig binnen PubMed in de optie ‘My NCBI’ een profiel worden aangemaakt dat naar aanleiding van vastgelegde zoekstrategieën per e-mail automatisch de referenties van nieuw verschenen artikelen stuurt. zz Evidence-based tijdschriften

Bijblijven kan ook door middel van bladen als Evidence-Based Medicine, waarin onderzoeken kort worden samengevat en van commentaar worden voorzien. Er zijn steeds meer van dergelijke evidence-based tijdschriften: Evidence-Based Cardiovascular Medicine, Evidence-Based Child Health, Evidence-Based Mental Health en Evidence-Based Nursing. In het Nederlands zijn er het Nederlands Tijdschrift voor Evidence-Based Practice voor verpleegkundigen en het Belgische tijdschrift voor evidence-based medicine Minerva. zz Evidence-based rubrieken in tijdschriften

Er is in steeds meer tijdschriften aandacht voor expliciete evidence-based rubrieken. Voorbeel den zijn de samenvattingen uit Clinical Evidence die regelmatig in het British Medical Journal staan, de serie over rationeel lichamelijk onderzoek uit het Journal of the Americal Medical Association, de Patient-Oriented Evidence that Matters (POEMs) in het Journal of Family Practice en de speciale Cochrane-rubrieken in het Nederlandse Huisarts en Wetenschap en het Tijdschrift voor Fysiotherapie. zz Internetrubrieken

Ook is er een aantal websites die iedere maand of iedere twee maanden met nieuw materiaal komt en waarbij een bezoek de moeite waard is. De artikelen met commentaar, bijvoorbeeld in de vorm van CATs (critically appraised topics) of POEMs (Patient-Oriented Evidence that Matters), hebben dezelfde opzet als de eerdergenoemde evidence-based tijdschriften: een korte samenvatting met deskundig commentaar op validiteit en relevantie van het artikel.

3

28

Hoofdstuk 3 • Zoeken en selecteren van literatuur

zz Update-services en Twitter-account

3

Veel tijdschriften hebben een update-service. De gebruiker kan dan rubrieken of onderwerpen aanleveren waarin hij is geïnteresseerd. Bij het verschijnen van een nieuw nummer krijgt de gebruiker dan een e-mail met daarin de speciaal op thema of onderwerp geselecteerde artikelen uit dat tijdschrift. De meeste tijdschriften maken tegenwoordig ook gebruik van Twitter om nieuwe artikelen aan te kondigen. zz Overige aanraders

In Bandolier worden artikelen kort besproken, de gegevens zeer overzichtelijk gepresenteerd en er wordt vaak een duidelijk advies gegeven. Ook kan als manier van bijblijven regelmatig in de Cochrane Database of Systematic Reviews of in Clinical Evidence worden gekeken welke nieuwe reviews op het eigen vakgebied verschenen zijn. Helemaal zonder tijdschriften kunt u overigens niet. Goede ideeën ontstaan immers meestal niet door gericht zoeken, maar door toevallig iets te horen of te lezen. 3.6 Computergestuurde systemen

Na meer dan twintig jaar evidence-based medicine, het onderwijzen, maken van richtlijnen en het implementeren van goede medische praktijk, blijft het nog steeds moeilijk om relevante en goed onderbouwde wetenschappelijke inzichten op een snelle en vloeiende manier te integreren in de medische en paramedische praktijk. Toch is kwaliteit van zorg en veiligheid voor patiënten meer dan ooit de topprioriteit van onze gezondheidszorg. Informatie- en communicatietechnologie (ICT) speelt een belangrijke ondersteunende rol bij het verbeteren van de kwaliteit van zorg. Belangrijk voor een dergelijk systeem is dat aandoeningen en ziekteperiodes (episodes) uniform worden gecodeerd, bijvoorbeeld met de ICD (International Statistical Classification of Diseases and Related Health Problems) of voor de eerste lijn de ICPC (International Classification of Primary Care), en dat deze codering gekoppeld kan worden aan andere gegevens (diagnose, laboratoriumuitslagen etc.) uit het elektronisch medisch dossier (EMD). Op een dergelijke manier ingevoerd kunnen er vier belangrijke elementen vanuit de kwaliteit van zorg gekoppeld worden: 1. Doeltreffende zorg. Dit kan door het koppelen van EBM-richtlijnen binnen het medisch dossier en zelfs het gebruik van een geïntegreerd beslissingsondersteuningssysteem (decision support-systeem). Aan de codering wordt door het systeem bijvoorbeeld een voorstel voor laboratoriumdiagnostiek of voor een recept gekoppeld. Tevens kan een dergelijk systeem een vorm van permanente nascholing zijn. 2. Veilige zorg. Dit kan worden ondersteund door gebruik van decision support voor het ontdekken van bijwerkingen van medicaties (plotselinge verandering van bloedwaarden) of interacties met laboratoriumtesten (bepaalde geneesmiddelen in lagere dosis wanneer het dossier ‘weet’ dat de nierfunctie slecht is). 3. Doelmatige zorg. Dit kan door op basis van de gegevens de populatie in kaart te brengen en gerichte zorg te leveren. 4. Patiëntgerichte zorg. Door het koppelen van aanbevelingen uit EBM-richtlijnen aan individuele patiënteninformatie. Bijvoorbeeld: bij fracturen in het verleden moet osteoporosescreening eerder worden opgestart.

Literatuur

29

Dit gebeurt door twee ontwikkelingen: computergestuurde systemen (zie . figuur 3.1 helemaal boven aan de piramide) en nieuwe systemen voor Continue Professionele Vorming (zie voor de beschrijving van een voorbeeld extras.bsl.nl/inleidingebm). Ook ondersteunen deze systemen de zorgorganisatie bij chronische ziekten, zoals diabetes of cardiovasculaire belasting. 3.7 Conclusie

Het zoeken van evidence-based literatuur is een hoeksteen van de EBM-aanpak. Het is nuttig en efficiënt om waar mogelijk uit te gaan van geaggregeerde informatiebronnen. Richtlijnen en systematische reviews zijn daarbij belangrijk, naast een aantal specifieke synopses. Er bestaat een aantal intelligente metazoeksystemen die voor de behandelaar in een aantal bronnen zoeken en deze volgens de regels van de piramide van evidence-synthese keurig voorsorteren. Naast het gericht zoeken wordt ook het evidence-based bijblijven steeds meer door methodologie en systemen ondersteund. Dergelijke systemen zullen een integratie van wetenschap veel sneller doen verlopen, maar zal geen enkele clinicus ontslaan van een verstandig gebruik en de opdracht om bij integratie van de evidence rekening te houden met de vraag en inbreng van de patiënt. Literatuur Deurenberg R, Etten F van. Praktische handleiding PubMed. 4e druk. Houten: Bohn Stafleu van Loghum, 2011. Lugtenberg M, Burgers JS, Westert GP. Effects of evidence-based clinical practice guidelines on quality of care: a systematic review. Qual Saf Health Care 2009;18:385–92. Roshanov PS, et al. Can computerized clinical decision support systems improve practitioners’ diagnosis ordering behavior? A decision-maker-researcher partnership systematic review. Implementation Science 2011;6:88. Straus SE, Glasziou P, Richardson WS, Haynes RB. Evidence-based medicine: How to practice and teach EBM. How to find current best evidence and how to have current best evidence find us. 4th edition. Edinburgh: Churchill Livingstone, 2010:29–62. Timbie JW, Schneider EC, Van Busum K, Fox DS. Five reasons that many comparative effectiveness studies fail to change patient care and clinical practice. Health Affairs 2012;31:2168–75. 7 www.ncbi.nlm.nih.gov/books/NBK3827/#pubmedhelp.Clinical_Queries_Filters (geraadpleegd 18 mei 2013). Overzicht inhoud methodologische filters PubMed.

3

31

Kritisch beoordelen van een artikel 4.1 Inleiding – 33 M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten 4.2 Diagnose – 34 M.M.G. Leeflang, R.J.P.M. Scholten en B. Aertgeerts 4.2.1 Inleiding – 34 4.2.2 Beoordeling van een onderzoek naar de waarde van een diagnostische test – 35 4.2.3 Conclusie – 47

4.3 Prognose – 48 W.J.J. Assendelft, J.C. Korevaar en J.B. Reitsma 4.3.1 Inleiding – 48 4.3.2 Beoordeling van een onderzoek over prognose – 48 4.3.3 Conclusie – 56

4.4 Therapie – 57 W.J.J. Assendelft, J.G.P. Tijssen en R.J.P.M. Scholten 4.4.1 Inleiding – 57 4.4.2 Beoordeling van een gerandomiseerd effectonderzoek – 58 4.4.3 Conclusie – 70

4.5 Bijwerkingen en etiologie – 71 E.P. van Puijenbroek, M. Offringa en R.J.P.M. Scholten 4.5.1 Inleiding – 71 4.5.2 Beoordeling van een onderzoek over bijwerkingen of etiologie – 73 4.5.3 Conclusie – 80

4.6 Screening – 82 Y. van der Graaf, W.J.J. Assendelft en R.J.P.M. Scholten 4.6.1 Inleiding – 82 4.6.2 Beoordeling van een onderzoek naar de waarde van screening – 83 4.6.3 Conclusie – 92

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_4, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

4

4.7 Klinimetrie – 92 C.B. Terwee, H.C.W. de Vet en R.J.P.M. Scholten 4.7.1 Inleiding – 92 4.7.2 Beoordeling van een onderzoek naar de klinimetrische eigenschappen van een meetinstrument – 93 4.7.3 Conclusie – 104

4.8 Kwalitatief onderzoek – 105 P.L.B.J. Lucassen en R. Reis 4.8.1 Inleiding – 105 4.8.2 Aard van de kwalitatieve benadering - 105 4.8.3 Theoretisch uitgangspunt – 106 4.8.4 Waarnemingsmethodes – 108 4.8.5 Selectie van deelnemers – 108 4.8.6 Validiteit en betrouwbaarheid – 109 4.8.7 Analyse van kwalitatief onderzoeksmateriaal – 110 4.8.8 Beoordeling van een kwalitatief onderzoek – 111 4.8.9 Kwalitatief onderzoek en evidence-based medicine – 113

Literatuur – 114

4.1 • Inleiding

33

4.1 Inleiding M. Offringa, W.J.J. Assendelft en R.J.P.M. Scholten

Na het stellen van een goed geformuleerde klinische vraag en na toepassing van een daarop toegesneden zoekactie hebben we de informatie getraceerd waarin het antwoord op deze vraag mogelijk ligt opgesloten. De volgende stap is nu om het artikel te lezen en de informatie kritisch te beoordelen. Deze evaluatie valt uiteen in de beoordeling van de validiteit, het belang van de resultaten en de toepasbaarheid ervan. zz Validiteit

De validiteit ofwel de geldigheid van de informatie wordt het eerst beoordeeld, omdat het weinig zin heeft met de resultaten van een onderzoek te gaan werken als men niet voldoende zeker is dat de resultaten bruikbaar zijn. Vrijwel alle soorten klinisch-wetenschappelijk onderzoek kunnen als gevolg van tekortkomingen in de opzet of uitvoering geplaagd worden door verstorende factoren. Als niet scherp wordt opgelet, kunnen deze verstorende factoren de resultaten soms flink vertekenen. Indien er aanzienlijke systematische vertekening is opgetreden, zijn de resultaten niet bruikbaar. Informatie die inzicht geeft in de methodologische betrouwbaarheid van een onderzoek is te vinden in de methodenparagraaf van een artikel. Hierin wordt beschreven hoe de onderzoekers systematische vertekening van het onderzoek hebben geprobeerd uit te bannen. Hieruit kan dan – soms met enige fantasie – worden afgeleid hoe groot de kans is dat de resultaten zijn beïnvloed door verstorende factoren. We spreken in dit kader van de inschatting op de kans op vertekening, de risk of bias. Deze inschatting is vaak complex. Soms zijn de antwoorden op de ‘klassieke’ vragen over de gebruikte methodologie niet te beantwoorden op grond van de informatie in het gepubliceerde artikel. Men moet dan per situatie het belang van de validiteitsvraag inschatten en op zoek gaan naar aanwijzingen voor het feit of er al dan niet iets onregelmatigs is gebeurd. Het is dan ook niet verwonderlijk dat twee beoordelaars soms van mening verschillen over de validiteit of de risk of bias van de gebruikte onderzoeksopzet en uitvoering. Belangrijk is echter dat kan worden besloten of het onderzoekontwerp ‘fatale’ fouten bevat, die het gebruik van de resultaten onmogelijk maken. zz Belang

Indien is vastgesteld dat het zojuist beoordeelde onderzoek in opzet en uitvoering voldoende valide is, kan worden overgegaan op de beoordeling van het belang van de resultaten. De gepresenteerde uitkomsten moeten uiteraard relevant zijn voor de patiënt. ‘Resultaat’ bestaat uit de schatting van het effect en de precisie van deze schatting (uitgedrukt met behulp van een 95%-betrouwbaarheidsinterval). Het effect wordt beschreven met behulp van een effectmaat (associatiemaat). Voor de verschillende typen onderzoek bestaan verschillende effectmaten. De interpretatie daarvan komt in de navolgende paragrafen van dit hoofdstuk uitvoerig aan de orde. zz Toepasbaarheid

Na beoordeling van de validiteit en het belang van de resultaten van een onderzoek is er altijd de discussie in hoeverre de resultaten toepasbaar zijn op andere dan de in het onderzoek betrokken patiënten. Het betreft hier niet de interne validiteit van het onderzoek, maar de externe validiteit, ofwel de toepasbaarheid van de resultaten. In de volgende paragrafen van dit hoofdstuk wordt hierop uitgebreid ingegaan. Een algemene bespreking van de toepasbaarheid is daarnaast ook nog opgenomen in 7 H. 7.

4

34

Hoofdstuk 4 • Kritisch beoordelen van een artikel

zz Dit hoofdstuk

4

In de volgende paragrafen worden criteria aangereikt voor het beoordelen van de validiteit en het interpreteren van de resultaten van primair onderzoek. De beoordeling van secundair onderzoek (systematische reviews) wordt in 7 H. 5 behandeld en de beoordeling van richtlijnen in 7 H. 6. In dit hoofdstuk komen achtereenvolgens de verschillende domeinen die in de evidencebased medicine onderscheiden worden aan de orde: diagnose, prognose, therapie, bijwerkingen en etiologie. Ook wordt aandacht besteed aan screening en de ontwikkeling van meetinstrumenten (klinimetrie). Het hoofdstuk wordt afgesloten met een paragraaf over het beoordelen en interpreteren van kwalitatief onderzoek. Alle checklists die in de volgende paragrafen gepresenteerd worden, zijn te downloaden van extras.bsl.nl/inleidingebm. Deze checklists behandelen de belangrijkste onderdelen van de inmiddels algemeen internationaal geaccepteerde state-of-the-art checklists, waarnaar in ieder hoofdstuk wordt verwezen. 4.2 Diagnose M.M.G. Leeflang, R.J.P.M. Scholten en B. Aertgeerts 4.2.1 Inleiding

Nadat een patiënt zich met een klacht bij de arts heeft aangemeld, is een van de eerste doelen het stellen van een diagnose. Aan de hand van een diagnose kan een uitspraak worden gedaan over de prognose, zodat een patiënt weet wat hij kan verwachten, en kan het beleid worden bepaald (verdere diagnostiek, verwijzen, afwachten, behandelen). Voor het stellen van een juiste diagnose worden in de praktijk vaak verschillende diagnostische tests gebruikt. ‘Diagnostische test’ kan van alles betekenen: patiëntkenmerken (leeftijd, geslacht), anamnesevragen (hemoptoë, doorzakgevoel van de knie), bevindingen bij lichamelijk onderzoek (cachexie, positieve voorstekruisladetest), laboratoriumonderzoek (verhoogde bezinking) en beeldvormende diagnostiek (onregelmatige schaduw op de thoraxfoto). Iedere ‘test’ leidt tot een stukje meer zekerheid over de status van de patiënt, totdat uiteindelijk de diagnose wordt gesteld. Dit gebeurt vaak met behulp van de test die de minste fouten maakt, maar zo’n test kan tegelijkertijd te gevaarlijk zijn, te moeilijk of te duur of slechts beperkt beschikbaar. Voorbeelden hiervan zijn het aantonen van een longcarcinoom bij obductie of in een biopt en het vaststellen van een voorstekruisbandruptuur van de knie door middel van artroscopie. Daarom zal deze test nooit meteen vanaf het begin op alle mogelijke patiënten losgelaten worden. Om een goede afweging te maken wanneer welke test in het diagnostische proces het meest tot zijn recht komt en om testuitslagen goed te kunnen interpreteren, is het belangrijk te weten welke en hoeveel fouten een test maakt. Om de waarde van een diagnostische test voor het aantonen van een bepaalde aandoening te onderzoeken, moeten daarom de resultaten van deze test geverifieerd worden aan de hand van de werkelijke status van de patiënt. Voor de werkelijke status van de patiënt hebben we idealiter een test nodig die perfect is, deze wordt de ‘gouden standaard’ genoemd. In werkelijkheid is geen enkele test perfect: ook bij biopten kan een diagnose worden gemist. Daarom spreekt men liever van ‘referentiestandaard’ of ‘referentietest’. Dit geeft aan dat deze test op dit moment de meest aanvaardbare standaardtest is voor een bepaald ziektebeeld of aandoening. De waarde van een diagnostische test voor het aantonen van een bepaalde aandoening wordt meestal onderzocht in een groep van opeenvolgende patiënten waarin een bepaalde diagnose wordt vermoed. Alle patiënten ondergaan de diagnostische test (in dit kader indextest

4.2 • Diagnose

35

genoemd) en de referentietest. De referentietest geeft aan of de patiënt wel of niet de vermoede aandoening heeft. Het resultaat van beide tests (positief of negatief) wordt onafhankelijk van elkaar vastgesteld. Vervolgens worden de resultaten van de indextest vergeleken met die van de referentietest en wordt de diagnostische waarde van de indextest uitgedrukt met behulp van verschillende parameters die iets zeggen over de mate van overeenkomst van de indextest met de referentietest. Dit zijn de sensitiviteit (proportie personen met een positieve indextest onder de personen met de aan te tonen aandoening) en de specificiteit (proportie personen met een negatieve indextest onder de personen zonder de aan te tonen aandoening). Bij het bepalen van de toepasbaarheid van de indextest moet men goed nagaan wat de plaats is van de test in het diagnostische proces. Moet de nieuwe test een bestaande test vervangen of wordt deze toegevoegd aan het bestaande arsenaal aan testen? Gaat het dan om een screeningsof triagetest of wordt de nieuwe test juist ingezet na het uitvoeren van een serie andere diagnostische tests (add-on test)? Voor iedere situatie dient de juiste onderzoekspopulatie gekozen te zijn en dienen de eigenschappen van de indextest te voldoen aan andere voorwaarden. 4.2.2 Beoordeling van een onderzoek naar de waarde van een

diagnostische test

De beoordeling van een onderzoek van een diagnostische test valt uiteen in de beoordeling van de validiteit ervan, het belang van de uitkomsten en de toepasbaarheid van de resultaten. De algemeen geaccepteerde checklist QUADAS-2 combineert deze verschillende aspecten, waarvan de belangrijkste in deze paragraaf besproken worden. De STARD-checklist wordt in dit kader ook vaak genoemd. STARD is echter een checklist voor het rapporteren van diagnostische onderzoeken, maar bevat eveneens een goed overzicht van de belangrijkste items. zz Validiteit k1k Valide selectie van patiënten voor het onderzoek

Het is van belang dat er vóór inclusie van patiënten in het onderzoek geen selectie is opgetreden. Wanneer patiënten vanuit de bronpopulatie opeenvolgend of op basis van een aselecte steekproef toegelaten worden tot het onderzoek, is dit valide. Indien niet met opeenvolgende patiënten of met een aselecte steekproef is gewerkt, kan het zijn dat er bewust of onbewust geselecteerd is op klinische kenmerken die het moeilijker of juist eenvoudiger (meestal eenvoudiger) maken om met de index- of referentietest een juiste diagnose te stellen. In dat laatste geval zal de waarde van de test overschat worden. Onderzoeken waarin ernstig zieke patiënten worden vergeleken met gezonde vrijwilligers zijn van weinig waarde. Iedere indextest zal het in een dergelijke situatie uitstekend doen. De ernst, het stadium en de duur van de klachten bij de zieken in het onderzoek moeten overeenkomen met de ernst, het stadium en de duur van de klachten bij de patiënten bij wie men de indextest wil gaan toepassen. De groep niet-zieken in het onderzoek moet bij voorkeur bestaan uit personen met aandoeningen die in de praktijk gemakkelijk tot verwarring met de onderzochte aandoening leiden. Is in een bepaalde setting normaliter sprake van een breed ziektespectrum en wordt de indextest louter onderzocht bij personen met een relatief ernstige vorm van de ziekte, dan zullen de eigenschappen van de indextest doorgaans te gunstig zijn (overschat worden) voor de onderzochte setting. k2 k Valide referentietest

De referentietest dient zo goed mogelijk aan te tonen of iemand in werkelijkheid de aandoening heeft of niet. De keuze van de referentietest is soms echter problematisch. Dan zal men genoe-

4

36

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

gen moeten nemen met een minder valide referentietest. Bij afwezigheid van een gouden standaard wordt een indextest vaak vergeleken met de test die op dat moment het meest aanvaard wordt als beste voorhanden zijnde test of wordt het langetermijnbeloop van de aandoening als referentietest gebruikt. Uitkomsten van verschillende onderzoeken naar de waarde van dezelfde diagnostische test kunnen onderling verschillen, omdat verschillende referentietests zijn gebruikt. Indien geen valide referentietest voorhanden is, kan dit zowel leiden tot overschatting als onderschatting van de eigenschappen van de indextest. Ook moeten in het onderzoeksverslag duidelijke criteria vermeld zijn waarvoor men het resultaat van de referentietest positief of negatief duidt. k3 k Onafhankelijke (blinde) vergelijking van de indextest met de referentietest

Beide tests moeten onafhankelijk van elkaar (blind) worden beoordeeld. Dit betekent dat degene die de referentietest beoordeelt, geen kennis mag hebben van het resultaat van de indextest en vice versa. Zo mag de artroscopist bijvoorbeeld niet weten wat het resultaat was van de voorsteschuifladetest (= indextest). Weet hij dat de voorsteschuifladetest positief was, dan zal hij geneigd zijn een twijfelachtige bevinding bij artroscopie eerder als positief (aanwezigheid van een voorstekruisbandruptuur) te duiden. Gebeurt de beoordeling van beide tests niet onafhankelijk van elkaar, dan zal dit in de regel leiden tot een kunstmatig hogere overeenstemming van de indextest met de referentietest (review bias). k4 k Uitvoering van de referentietest onafhankelijk van de uitslag van de indextest

De indextest en de referentietest moeten beide bij alle patiënten zijn uitgevoerd. Soms is de referentietest veel te duur, te invasief of zijn er organisatorische moeilijkheden, zodat het onmogelijk is om deze toe te passen bij alle bij het onderzoek betrokken patiënten. Indien dat het geval is, is het mogelijk dat de keuze om de referentietest al dan niet uit te voeren samenhangt met de uitslag van de indextest. Men spreekt dan van partiële verificatie. Zo kunnen bijvoorbeeld alle indextest-positieven verwezen zijn voor het ondergaan van de referentietest, maar niet alle indextest-negatieven. Indien patiënten aldus op basis van de uitslag van de indextest verwezen zijn voor bevestiging met de referentietest, worden de verhoudingen tussen de verschillende categorieën verstoord. De steekproef is dan ‘opgewerkt’ (work-up bias), hetgeen een vertekend beeld geeft van de diagnostische waarde van de indextest: de sensitiviteit wordt overschat en de specificiteit onderschat. Het onderzoek is wel valide als de referentietest is uitgevoerd bij alle indextest-positieven en bij een aselecte steekproef van de indextest-negatieven. Bij het berekenen van de diagnostische parameters moeten de onderzoekers dan wel gecorrigeerd hebben voor het nemen van deze steekproef, want anders wordt ook in deze situatie de sensitiviteit van de indextest overschat en de specificiteit onderschat. Een andere oplossing is het (mede) toepassen van een alternatieve, algemeen geaccepteerde referentietest voor de indextest-negatieven, bijvoorbeeld het al dan niet optreden van de onderzochte ziekte tijdens een voldoende lange follow-up. Als echter de eigenschappen van de beide referentietests sterk verschillen en op verschillende wijze tot misclassificatie aanleiding kunnen geven, kan ook in deze situatie vertekening optreden. Men spreekt dan van differentiële verificatie. Wees op uw hoede als er nauwelijks patiënten met een negatieve indextest in het onderzoek zijn opgenomen. Waarschijnlijk heeft er dan al vóór het onderzoek een selectie plaatsgevonden. k5 k Selectieve uitval

Soms volgen niet alle patiënten het volledige protocol van het onderzoek en vallen zij uit de studie voordat de resultaten van de indextest, de referentietest of beide bekend zijn. Hierdoor

4.2 • Diagnose

37

kan het ziektespectrum van de onderzochte patiënten beïnvloed worden (zie kwaliteitsitem 1) en kunnen de resultaten vertekenen. Inzicht in de patiëntenstroom en een beschrijving van de uitvallers is nodig om de kans op vertekening te kunnen inschatten. Vaak echter wordt uitval slecht of helemaal niet gerapporteerd. In sommige situaties levert de indextest niet altijd duidelijke resultaten op. Als dergelijke slecht te duiden resultaten uit het onderzoek worden weggelaten en de diagnostische parameters worden berekend aan de hand van de overgebleven patiënten met een goed te duiden testresultaat, dan worden de noemers te klein waardoor de sensitiviteit en specificiteit van de indextest overschat worden. Het is dan ook van belang dat de slecht interpreteerbare resultaten in ieder geval gerapporteerd zijn, zodat men een inschatting kan maken van het effect ervan op de resultaten van het onderzoek. kOverige k kwaliteitsaspecten

De hiervoor opgesomde kwaliteitsitems zijn belangrijke bronnen van heterogeniteit of vertekening. Zij zijn afkomstig uit QUADAS, een gevalideerd instrument voor het bepalen van de methodologische kwaliteit van een diagnostisch accuratesseonderzoek. In 2011 is dit instrument herzien en heet sindsdien QUADAS-2. Naast bovenstaande kwaliteitsitems, die kunnen leiden tot vertekening van de resultaten, bevat QUADAS-2 ook een beoordeling van de toepasbaarheid van de resultaten. Zowel het risico op vertekening als de toepasbaarheid zijn verdeeld in domeinen: de selectie van patiënten, de indextest, de referentietest en het studieverloop als geheel. Andere items die nog expliciet in QUADAS-2 genoemd staan, zijn de interpretatie van de testuitslag (definitie van het afkappunt), de voorbereiding van de patiënt, benodigde ervaring van de uitvoerders van de test, reproduceerbaarheid van de test, et cetera), tijd tussen het uitvoeren van de indextest en de referentietest (mogelijk is de ziektestatus van de patiënt ondertussen gewijzigd) en ‘incorporatiebias’ (de indextest maakt deel uit van de referentietest). Voor een volledige beschrijving van het QUADAS-2-instrument wordt naar de desbetreffende literatuur verwezen. Beoordelingscriteria (checklist beschikbaar op extras.bsl.nl/inleidingebm). Validiteit 1. valide selectie van patiënten voor het onderzoek 2. valide referentietest (gouden standaard) 3. onafhankelijke (blinde) vergelijking van de indextest met de referentietest 4. uitvoering van de referentietest onafhankelijk van de uitslag van de indextest 5. selectieve uitval Belang 1. diagnostische waarde van de indextest 2. precisie van de geschatte diagnostische parameters Toepasbaarheid 1. geschiktheid van de diagnostische test voor uw patiënt 2. inschatting van de voorafkans op ziekte voor uw patiënt 3. doel van de test 4. beïnvloeding van uw handelwijze door de verkregen achterafkans 5. belasting door de test

4

38

Hoofdstuk 4 • Kritisch beoordelen van een artikel

zz Belang k1k Diagnostische waarde van de indextest

4

Indien we te maken hebben met een valide onderzoek naar de waarde van een diagnostische indextest, moet worden vastgesteld hoe goed de indextest de aan- of afwezigheid van de onderzochte aandoening kan voorspellen. Wordt de onderzochte indextest gemeten op een dichotome schaal (het testresultaat is positief of negatief), dan kunnen de resultaten worden samengevat in een 2 × 2-tabel (zie . tabel 4.1). Wordt de onderzochte indextest gemeten op een continue schaal (bijv. het serumglucosegehalte), dan dient eerst een afkappunt gekozen te zijn voor het positief duiden van de indextest (zie hierna). Voor de kwantificering van het diagnostische onderscheidingsvermogen van de indextest zijn verschillende parameters beschikbaar (zie . tabel 4.1) die hierna worden besproken. Als voorbeeld nemen we een onderzoek waarin de waarde van de voorsteschuifladetest wordt onderzocht voor het vaststellen van een voorstekruisbandruptuur van de knie, vastgesteld met de referentietest artroscopie (zie . tabel 4.2). De sensitiviteit van de test is de proportie positieve indextestresultaten onder de zieken (in ons voorbeeld de proportie personen met een positieve voorsteschuifladetest onder de patiënten met een voorstekruisbandruptuur). De sensitiviteit van een test geeft dus aan welke proportie (of welk percentage) van de zieken inderdaad een positieve indextestuitslag heeft en dus door de indextest terecht als ziek geclassificeerd wordt. In ons voorbeeld bedraagt de sensitiviteit van de voorsteschuifladetest voor het aantonen van een voorstekruisbandruptuur 39/58 = 0,67 (ofwel 67%): 67% van de personen met een voorstekruisbandruptuur heeft inderdaad een positieve voorsteschuifladetest (terecht-positieven) en 33% van de voorstekruisbandrupturen wordt dus door de voorsteschuifladetest gemist (fout-negatieven). De specificiteit van een test is de proportie negatieve indextestresultaten onder de nietzieken (in ons voorbeeld de proportie personen met een negatieve voorsteschuifladetest onder de personen zonder voorstekruisbandruptuur). De specificiteit van een test geeft dus aan welke proportie (of welk percentage) van de niet-zieken inderdaad een negatieve indextestuitslag heeft en dus door de indextest terecht als niet-ziek geclassificeerd wordt. In ons voorbeeld is de specificiteit van de voorsteschuifladetest voor het aantonen van de afwezigheid van een voorstekruisbandruptuur 14/16 = 0,88 (ofwel 88%): 88% van de personen zonder voorstekruisbandruptuur heeft inderdaad een negatieve voorsteschuifladetest (terecht-negatieven) en 12% van de personen zonder voorstekruisbandruptuur wordt dus door de voorsteschuifladetest onterecht als ziek geduid (fout-positieven). Sensitiviteit en specificiteit geven een beeld van de verdeling van de indextestresultaten bij zieken en niet-zieken. Deze parameters zijn belangrijk om in te kunnen schatten hoeveel patiënten met de aandoening gemiddeld genomen gemist zullen worden (fout-negatieven) in een bepaalde situatie en hoeveel patiënten onterecht doorverwezen of behandeld zullen worden zonder dat ze de aandoening hebben (de fout-positieven). Een arts ziet echter een individuele patiënt met een positief of een negatief testresultaat. Belangrijk om te weten is dan hoeveel kans er bestaat dat deze patiënt ook werkelijk de ziekte heeft of niet. Hiervoor zijn dus parameters nodig die iets over de patiënt zeggen: de voorspellende waarden van de indextest. De voorspellende waarde van een positief indextestresultaat (positief voorspellende waarde) is de proportie zieken onder de personen met een positieve uitslag op de indextest (in ons voorbeeld de proportie patiënten onder de personen met een positieve voorsteschuifladetest die inderdaad een voorstekruisbandruptuur hebben). De voorspellende waarde van een negatief indextestresultaat (negatief voorspellende waarde) is de proportie niet-zieken onder de personen met een negatieve uitslag op de indextest (in ons voorbeeld de proportie personen onder de personen met een negatieve voorsteschuifladetest die inderdaad geen voorstekruisbandruptuur hebben).

39

4.2 • Diagnose

. Tabel 4.1 Berekening van de parameters voor het kwantificeren van de waarde van een diagnostische test (EXP[x] betekent: het natuurlijke getal e verheffen tot de macht x) notatie

ziekte (vastgesteld m.b.v. de referentiestandaard) ziek

niet ziek

totaal

uitslag indextest +

a

b

a+b

uitslag indextest −

c

d

c+d

totaal

a+c

b+d

a+b+c+d

parameter

berekening

95%-betrouwbaarheidsinterval

sensitiviteit (Se) = proportie positieve indextestresultaten (terecht-positieven) onder de zieken

a / (a + c)

Se ± 1,96 * √ [ ac / (a + c)3 ]

specificiteit (Sp) = proportie negatieve indextestresultaten (terecht-negatieven) onder de niet-zieken

d / (b + d)

Sp ± 1,96 * √ [ bd / (b + d)3 ]

voorafkans op de aanwezigheid van ziekte = prevalentie van ziekte (Pr)

(a + c) / (a + b + c + d)

Pr ± 1,96 * √ [(a + c) * (b + d) / (a + b + c + d)3 ]

voorspellende waarde positieve test (VW+) = proportie zieken onder de personen met een positieve uitslag op de indextest = achterafkans op aanwezigheid van ziekte

a / (a + b)

VW+ ± 1,96 * √ [ ab / (a + b)3 ]

voorspellende waarde negatieve test (VW–) = proportie niet-zieken onder de personen met een negatieve uitslag op de indextest = achterafkans op afwezigheid van ziekte

d / (c + d)

VW– ± 1,96 * √ [ cd / (c + d)3 ]

likelihood ratio positieve test (LR+) = verhouding tussen de kans op een positieve uitslag op de indextest bij zieken en die bij niet-zieken

(a / (a + c)) / (b / (b + d)) = Se / (1–Sp)

EXP [ LN(LR+) ± 1,96 * √ [ 1 / a – 1 / (a + c) + 1 / b – 1 / (b + d) ] ]

likelihood ratio negatieve test (LR–) = verhouding tussen de kans op een negatieve uitslag op de indextest bij zieken en die bij niet-zieken

(c / (a + c)) / (d / (b + d)) = (1–Se) / Sp

EXP [ LN(LR–) ± 1,96 * √ [ 1 / c – 1 / (a + c) + 1 / d – 1 / (b + d) ] ]

4

40

Hoofdstuk 4 • Kritisch beoordelen van een artikel

. Tabel 4.2 Bevindingen van een onderzoek naar de waarde van de voorsteschuifladetest voor het vaststellen van een voorstekruisbandruptuur (prevalentie voorstekruisbandruptuur 78%). Bron: Richter, et al. Unfallchirurg 1996;99:12-49 voorstekruisbandruptuur (vastgesteld d.m.v. artroscopie)

4

aanwezig

afwezig

totaal

voorsteschuifladetest +

39

2

41

voorsteschuifladetest –

19

14

33

totaal

58

16

74

Sensitiviteit = 39/58 = 0,67 Specificiteit = 14/16 = 0,88 Voorafkans op aanwezigheid van voorstekruisbandruptuur = 58/74 = 0,78 Voorafkans op afwezigheid van voorstekruisbandruptuur = 16/74 = 0,22 Voorspellende waarde positieve voorsteschuifladetest (VW+) = 39/41 = 0,95 Voorspellende waarde negatieve voorsteschuifladetest (VW–) = 14/33 = 0,42 Likelihood ratio positieve voorsteschuifladetest (LR+) = 0,67 / 0,12 = 5,38 Likelihood ratio negatieve voorsteschuifladetest (LR–) = 0,33 / 0,88 = 0,37

Deze voorspellende waarden zijn op te vatten als achterafkansen (posteriorkansen) op respectievelijk de aan- en afwezigheid van ziekte. In ons voorbeeld is de achterafkans op een voorstekruisbandruptuur bij personen met een positieve voorsteschuifladetest 39/41 = 0,95 (ofwel 95%). De voorafkans op een voorstekruisbandruptuur is de prevalentie (het vóórkomen) van voorstekruisbandruptuur onder de onderzochte patiënten (58/74 = 0,78, ofwel 78%). Bij een positieve voorsteschuifladetest stijgt de kans op een voorstekruisbandruptuur daardoor van 78% naar 95%. De voorafkans op de afwezigheid van een voorstekruisbandruptuur is in dit voorbeeld 0,22 (16/74) en de achterafkans 0,42 (14/33). Bij een negatieve voorsteschuifladetest stijgt de kans op afwezigheid van een voorstekruisbandruptuur daardoor van 22% naar 42%. De voorspellende waarden van de indextest zijn echter sterk afhankelijk van de prevalentie van de onderzochte aandoening in de groep personen bij wie de test wordt uitgevoerd. Wordt de voorsteschuifladetest toegepast (met dezelfde sensitiviteit en specificiteit) in een setting met een lagere prevalentie van voorstekruisbandruptuur (bijv. de huisartspraktijk), dan veranderen de voorspellende waarden. In . tabel 4.3 bedraagt de prevalentie van voorstekruisbandruptuur slechts 7%. De voorspellende waarde van een positieve voorsteschuifladetest wordt dan 28% en de voorspellende waarde van een negatieve voorsteschuifladetest 97%. In deze setting neemt de diagnostische zekerheid op een voorstekruisbandruptuur toe van 7% tot 28% in geval van een positieve voorsteschuifladetest, een niet erg relevante toename. Ook een negatieve voorsteschuifladetest levert weinig diagnostische winst op: de kans op afwezigheid van een voorstekruisbandruptuur neemt toe van 93% naar 97%. Als laatste parameters worden ook wel likelihood ratios (aannemelijkheidsverhoudingen) gerapporteerd. Sommige clinici en onderzoekers kunnen hiermee goed werken, andere hebben moeite met de interpretatie ervan. De likelihood ratio van een positieve test (LR+) is de verhouding tussen de kans op een positieve uitslag op de indextest bij personen mét de ziekte en de kans op een positieve testuitslag bij personen zonder de ziekte. Een test met een LR-waarde

41

4.2 • Diagnose

. Tabel 4.3 Bevindingen van een onderzoek naar de waarde van de voorsteschuifladetest voor het vaststellen van een voorstekruisbandruptuur (prevalentie voorstekruisband ruptuur 7%) voorstekruisbandruptuur (vastgesteld d.m.v. artroscopie) aanwezig

afwezig

totaal

voorsteschuifladetest +

39

100

139

voorsteschuifladetest –

19

700

719

totaal

58

800

858

Sensitiviteit = 39/58 = 0,67 Specificiteit = 700/800 = 0,88 Voorafkans op aanwezigheid van voorstekruisbandruptuur = 58/858 = 0,07 Voorafkans op afwezigheid van voorstekruisbandruptuur = 800/858 = 0,93 Voorspellende waarde positieve voorsteschuifladetest (VW+) = 39/139 = 0,28 Voorspellende waarde negatieve voorsteschuifladetest (VW–) = 700/719 = 0,97 Likelihood ratio positieve voorsteschuifladetest (LR+) = 0,67 / 0,12 = 5,38 Likelihood ratio negatieve voorsteschuifladetest (LR–) = 0,33 / 0,88 = 0,37

van 1 is niet informatief. Een diagnostische test is informatiever naarmate de LR+ groter wordt (naar oneindig gaat). Bij een positieve uitslag van een indextest met een grote LR+ is het ‘aannemelijker’ dat we met een zieke te maken hebben dan met een niet-zieke. Een test met een LR+-waarde van oneindig noemt men ‘pathognomonisch’ voor de ziekte. De likelihood ratio van een negatieve test (LR–) is de verhouding tussen de kans op een negatieve uitslag op de indextest bij personen mét de ziekte en de kans op een negatieve testuitslag bij personen zonder de ziekte. Een test met een LR–-waarde van 1 is wederom niet informatief. Een diagnostische test is informatiever naarmate de LR– kleiner wordt (dichter tot 0 nadert). Bij een negatieve uitslag van een indextest met een kleine LR– is het veel minder ‘aannemelijk’ dat we met een zieke te maken hebben dan met een niet-zieke. Een negatieve uitslag van een test met een LR—waarde van 0 sluit de ziekte volledig uit. Met behulp van een likelihood ratio kunnen voorafkansen (prevalenties) worden omgezet in achterafkansen. De berekeningen hiervoor lopen via odds (zie kader Likelihood ratio/odds). Voor het berekenen van een achterafkans op grond van een bepaalde LR-waarde en voorafkans is ook een handig nomogram beschikbaar (zie . figuur 4.1). Gebruik een dergelijk nomogram echter met zekere voorzichtigheid: we weten dat populaties met verschillende voorafkansen vaak ook verschillende ziektekenmerken kunnen hebben, waardoor tegelijkertijd de waarde van de test (sensitiviteit, specificiteit, likelihood ratios) kan veranderen. De likelihood ratio kan ook gebruikt worden als een testuitslag meer categorieën omvat dan alleen positief en negatief. In feite kan voor iedere testuitslag een likelihood ratio uitgerekend worden, deze geeft dan aan hoeveel vaker die testuitslag voorkomt bij de zieken dan bij de nietzieken. Bij veel bloedwaarden is het zo, dat hoe hoger de bloedwaarde is, des te waarschijnlijker het is dat een persoon de aandoening heeft. Oplopende likelihood ratios weerspiegelen dit fenomeen.

4

42

Hoofdstuk 4 • Kritisch beoordelen van een artikel

Likelihood ratio/odds Met behulp van een likelihood ratio kunnen voorafkansen (prevalenties) worden omgezet in achterafkansen. De berekeningen hiervoor lopen via odds. De odds is de verhouding tussen de kans op het optreden van een gebeurtenis en het niet-optreden ervan. De volgende vergelijkingen zijn van toepassing: pretest odds = voorafkans / (1 – voorafkans)

4

posttest odds = LR * pretest odds Deze laatste formule is voor het eerst beschreven door de Engelse dominee Bayes in de zeventiende eeuw. Men noemt de formule dan ook het theorema van Bayes. Van de posttest odds komt men weer als volgt op de achterafkans:

achterafkans = posttest odds / (posttest odds + 1) Toegepast op het voorbeeld van . tabel 4.2: 55 Voorafkans op aanwezigheid van voorstekruisbandruptuur = 0,78 Odds op aanwezigheid van voorstekruisbandruptuur = 0,78 / (1 – 0,78) = 3,55 55 Likelihood ratio positieve voorsteschuifladetest (LR+) = 5,38 Posttest odds = 5,38 * 3,55 = 19,1 Achterafkans op aanwezigheid van voorstekruisbandruptuur = 19,1 / (19,1 + 1) = 0,95 55 Likelihood ratio negatieve voorsteschuifladetest (LR–) = 0,37 Posttest odds = 0,37 * 3,55 = 1,31 Achterafkans op aanwezigheid van voorstekruisbandruptuur = 1,31 / (1,31 + 1) = 0,57 Het berekenen van een achterafkans op grond van een bepaalde LR-waarde en voorafkans kan ook via het nomogram van . figuur 4.1. Verschillende afkappunten voor een indextest gemeten op een continue schaal Wordt de onderzochte indextest gemeten op een continue schaal (bijv. het serumglucosegehalte), dan kunnen verschillende afkappunten worden gekozen voor het positief duiden van de indextest. Aan de hand van deze verschillende afkappunten kunnen vervolgens de verschillende parameters worden berekend op de hiervoor besproken wijze. In . figuur 4.2 staan verschillende afkappunten van het serumglucosegehalte (indextest). Per afkappunt zijn de sensitiviteit en specificiteit berekend voor het stellen van de diagnose diabetes mellitus, die bepaald is aan de hand van de glucosetolerantietest (referentietest). Hoe hoger men de grens voor het afkappunt legt, des te lager wordt de sensitiviteit en des te hoger de specificiteit. Een lager afkappunt heeft het tegenovergestelde tot gevolg: de sensitiviteit wordt hoger, maar dit gaat ten koste van de specificiteit. Sensitiviteit en specificiteit zijn dus negatief gecorreleerd. De relatie tussen sensitiviteit en specificiteit bij verschillende afkappunten kan worden weergegeven in een zogenoemde receiver operating characteristic-curve (ROC-curve; zie . figuur 4.3). De Y-as geeft de sensitiviteit weer en de X-as het complement van de specificiteit (1 minus specificiteit). Ieder blokje in de curve representeert per afkappunt de combinatie van de waarden van sensitiviteit en 1 minus specificiteit. Er zijn veertien blokjes en dus veertien afkappunten. Door te schuiven met het afkappunt kan de ‘beste’ combinatie van sensitiviteit en specificiteit worden afgelezen. Dit is het punt dat het dichtst in de linkerbovenhoek van . figuur 4.3 ligt. Bij gebruik van dit afkappunt is de diagnostische misclassificatie geminimaliseerd – het aantal fout-positieven en fout-negatieven is ‘minimaal’. Dat wil echter niet zeggen dat dit afkappunt in de praktijk ook gebruikt wordt om patiënten als ‘(mogelijk) ziek’ en ‘(mogelijk) niet ziek’ te classificeren. Dit

4

43

4.2 • Diagnose

99

0,1 0,2

95

0,5

1

1000

90

500 2

200

80

100 50

70

20

60

10

50

5

40

2

30

5

10

20

1 30

0,5

40

0,2

50

0,1

60

0,05

70

0,02

20

10

5 0,01

80

0,005

2

0,002 90

0,001

95

1

0,5

0,2

99 pre-test probability

likelihood ratio

0,1 post-test probability

. Figuur 4.1 Nomogram voor het berekenen van een achterafkans op ziekte aan de hand van een likelihood ratio en een voorafkans. Trek een lijn vanaf de voorafkans (pretest probability) op de linkeras naar het punt op de middelste as dat de waarde van de likelihood ratio aangeeft. Het snijpunt van deze lijn met de rechteras geeft de achterafkans (posttest probability) weer. Bron: Fagan TJ. N Engl J Med 1975;293:257.

Hoofdstuk 4 • Kritisch beoordelen van een artikel

4

Serumglucose (in mmol/L)

Diabetes

Geen diabetes

Sensitiviteit

Specificiteit

≥11,0 10,5 - 10,9 10,0 - 10,4 9,5 - 9,9 9,0 - 9,4 8,5 - 8,9 8,0 - 8,4 7,5 - 7,9 7,0 - 7,4 6,5 - 6,9 6,0 - 6,4 5,0 - 5,9 4,0 - 4,9 < 4,0

66 31 29 25 16 19 10 16 20 18 13 16 11 10

0 0 1 1 3 4 5 20 30 52 111 166 155 152

0,22 0,32 0,42 0,50 0,56 0,62 0,65 0,71 0,77 0,83 0,88 0,93 0,97 1,00

1,00 1,00 1,00 1,00 0,99 0,99 0,98 0,95 0,91 0,83 0,68 0,44 0,22 0,00

Totaal

300

700

. Figuur 4.2 Serumglucosegehalte bij 300 personen met en 700 personen zonder diabetes mellitus, en sensitiviteit en specificiteit van het bepalen van het serumglucosegehalte voor het stellen van de diagnose diabetes mellitus voor verschillende afkappunten. Voorbeeld (zie kaders): afkappunt 9,0 mmol/l: aantal personen met diabetes mellitus en serumglucose ≥ 9,0 mmol/l = 66 + 31 + 29 + 25 + 16 = 167. Sensitiviteit = 167 / 300 = 0,56. Aantal personen zonder diabetes mellitus en serumglucose < 9,0 mmol/l = 4 + 5 + 20 + 30 + 52 + 111 + 166 +155 + 152 = 695. Specificiteit = 695 / 700 = 0,99.

1,0 0,9 0,8

sensitiviteit

0,7 0,6 0,5 0,4 0,3 0,2 0,1

1, 0

0, 9

0, 8

0, 7

0, 6

0, 5

0, 4

0, 3

0, 2

0, 0

0,0

0, 1

44

1-specificiteit . Figuur 4.3 Receiver operating characteristic-curve (ROC-curve) van de relatie tussen sensitiviteit en het complement van specificiteit (1 minus specificiteit) van het bepalen van het serumglucosegehalte voor het stellen van de diagnose diabetes mellitus bij veertien verschillende afkappunten (gegevens van . figuur 4.2). Ieder blokje representeert een afkappunt.

4.2 • Diagnose

45

hangt af van de ernst van een gemiste of te laat gestelde diagnose en de ernst van een ten onrechte afgegeven diagnose bij een patiënt die de ziekte later toch niet blijkt te hebben. Hoe beter het diagnostische onderscheidingsvermogen van de test, des te groter het oppervlak tussen de curve en de diagonaal (area under the curve). Een indextest met een ROC-curve die in de buurt van de diagonaal (neutrale lijn) loopt, is niet onderscheidend. k2 k Precisie van de geschatte diagnostische parameters

De schattingen van sensitiviteit, specificiteit, voorspellende waarden en likelihood ratios zijn onderhevig aan toevalsvariatie. Met behulp van een 95%-betrouwbaarheidsinterval kan de precisie van de schattingen worden bepaald. Het 95%-betrouwbaarheidsinterval is het interval van numerieke waarden waarvan we met 95% zekerheid mogen aannemen dat de werkelijke waarde van de parameter erin ligt. Hoe smaller het betrouwbaarheidsinterval, des te preciezer de schatting van de waarde van de bestudeerde parameter. Een betrouwbaarheidsinterval wordt smaller naarmate er meer patiënten zijn. Kleine onderzoeken hebben brede betrouwbaarheidsintervallen en leveren weinig informatie (uitkomsten die minder zeker zijn). Bij de interpretatie van de resultaten van diagnostisch accuratesseonderzoek dient u rekening te houden met de door het betrouwbaarheidsinterval aangegeven onzekerheidsmarges. Als de gerapporteerde specificiteit van een test 90% bedraagt met een ondergrens van het 95%-betrouwbaarheidsinterval van 67%, dan kan de waarde van deze diagnostische test in de praktijk nog weleens tegenvallen. De formules voor het berekenen van 95%-betrouwbaarheidsintervallen zijn vermeld in . tabel 4.1. U kunt ook een van de op internet gepresenteerde diagnostic calculators gebruiken (zie extras.bsl.nl/inleidingebm). zz Toepasbaarheid k1k Geschiktheid van de diagnostische test voor uw patiënt

De kenmerken van de patiënt bij wie u de test wilt toepassen, moeten voldoende overeenkomen met die van de in het onderzoek betrokken patiënten. Indien de kenmerken van de onderzochte groep aanzienlijk afwijken van de kenmerken van uw patiënt, wordt inschatting van de waarde van de test bij die patiënt lastig. Bedenk hierbij dat het diagnostische onderscheidingsvermogen van de test in de regel samenhangt met het spectrum van ziekte (bijv. tumorstadium zoals vastgesteld met de referentietest), het spectrum van de niet-zieken, de setting (eerste lijn, tweede lijn, polikliniek, opgenomen patiënten), de duur van de klachten voorafgaand aan de tests, de aard en resultaten van voorafgaande tests en demografische gegevens, zoals leeftijd en geslacht. De toepasbaarheidsitems van het QUADAS-2-instrument kunnen hierbij helpen. k2 k Inschatting van de voorafkans op ziekte voor uw patiënt

Een belangrijk maar lastig item. Wat nodig is, is een inschatting van de kans op de vermoede ziekte, bij voorkeur uit een onderzoek bij uw patiënten met precies hetzelfde klachtenpatroon, dezelfde symptomen en bevindingen en dezelfde ziekteduur als uw huidige patiënt. Dergelijke gegevens zullen over het algemeen niet voorhanden zijn. Een pragmatische oplossing is de voorafkans te nemen uit het artikel dat we zojuist beoordeeld hebben. Zo kan men redelijkerwijs voor de huidige patiënt de onder- en bovengrenzen aannemen op grond waarvan marges aangegeven kunnen worden voor de achterafkans op ziekte voor deze patiënt. Met het nomogram in . figuur 4.1 kunt u dan bepalen of de testresultaten (positief of negatief) een belangrijke verandering in de kans op de ziekte voor uw patiënt opleveren en of dit uw behandeling zal beïnvloeden. k3 k Doel van de test

Een diagnostische test kan verschillende doelen hebben en in verschillende fasen van het diagnostische proces ingezet worden. Van belang is dan na te gaan of de eigenschappen van de test

4

46

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

voldoende zijn om het beoogde doel te bereiken en of de indextest ook inderdaad onderzocht is in de vereiste situatie. Wordt een test als triagetest ingezet (bijv. de Ottawa Ankle Rule (OAR) voor het selecteren van patiënten met verdenking op een enkelfractuur voor het maken van een röntgenfoto van de enkel), dan dient de test een hoge sensitiviteit te hebben (men wil immers geen patiënten met een enkelfractuur missen). In dat geval is men er bij een negatieve OAR-test vrij zeker van dat de patiënt ook inderdaad geen fractuur heeft. De OAR-test-positieven worden dan verwezen voor een röntgenfoto, waarmee de fout-positieven opgespoord kunnen worden. Op deze wijze kan het maken van een röntgenfoto efficiënt ingezet worden. Sommige tests worden ingezet bij een subgroep van patiënten die geselecteerd zijn op basis van een serie van andere diagnostische tests (add-on test). Dit is bijvoorbeeld het geval indien sprake is van weliswaar een accurate indextest, maar die om andere redenen minder aantrekkelijk is dan bestaande tests, bijvoorbeeld positronemissietomografie (PET) voor het opsporen van metastasen op afstand bij patiënten met kanker. PET is duur en niet overal beschikbaar. PET kan dan toegepast worden louter bij patiënten bij wie met conventionele tests geen metastasen zijn aangetoond. Hiermee kunnen de fout-negatieven van de voorgaande tests alsnog opgespoord worden. Wordt een nieuwe indextest overwogen ter vervanging van een bestaande test (bijv. MRI ter vervanging van CT-scanning bij patiënten met een vermoeden op een hersenbloeding), dan dienen de testeigenschappen zowel van de MRI als van de CT-scan bij voorkeur vergeleken te zijn bij dezelfde patiënten. Indien zowel de sensitiviteit als de specificiteit van de MRI hoger is dan die van CT-scanning, dan ligt de keuze voor de test eenvoudig voor de hand. Men moet bij die keuze uiteraard dan nog wel rekening houden met andere aspecten, zoals belasting van de test, mogelijke neveneffecten, beschikbaarheid en kosten. Niet zelden zal men echter stuiten op situaties waarin de ene test bijvoorbeeld een hogere sensitiviteit heeft, maar een lagere speci ficiteit, dan de andere test. In zulke situaties moet een afweging gemaakt worden: welke fouten wegen zwaarder, de fout-positieven of de fout-negatieven? k4 k Beïnvloeding van uw handelwijze door de verkregen achterafkans

Bij de overgang van diagnosestelling naar verder beleid komen twee belangrijke vragen aan bod: is de waarschijnlijkheid van de vooropgestelde diagnose voldoende hoog om zinvolle hulp te bieden en kan een bijkomende test de beslissing over het vervolgtraject nog wijzigen? Hierbij is het gebruik van de waarschijnlijkheid van de aan- of afwezigheid van een ziekte na het uitvoeren van een bepaalde test van groot belang. Dit verschaft ons min of meer diagnostische zekerheid, maar is dit dan ook voldoende om tot de actie over te gaan? Vaak wordt een diagnostische test uitgevoerd om zekerheid te krijgen of een patiënt wel of niet in aanmerking komt voor een bepaalde behandeling. Zeker als deze behandeling belastend is voor de patiënt, is het verder aannemelijk maken van de aan- of afwezigheid van de ziekte essentieel. Is de voorafkans op de aandoening reeds zodanig laag (en stukken lager dan de drempel waarvoor we de behandeling zouden starten) dat de diagnose met voldoende zekerheid kan worden uitgesloten of juist zodanig hoog (boven een bepaalde behandeldrempel) dat de diagnose vrijwel zeker is, dan kan de diagnostische test nauwelijks nog diagnostische winst opleveren en dus beter achterwege blijven. In het tussengebied resulteert de test in het ideale geval in een achterafkans op de aandoening die lager wordt dan de onderdrempel of juist hoger dan de bovendrempel voor uw beslissing om af te zien van of juist te starten met behandelen. Blijft de achterafkans tussen deze beide drempels, dan is de diagnose nog niet uitgesloten en moet verdere diagnostiek worden uitgevoerd. Vóór het uitvoeren van de test moet dus worden ingeschat of een positief of negatief testresultaat voldoende diagnostische winst zal kunnen opleveren en tot een andere behandeling aanleiding zal geven.

Literatuur

47

k5 k Belasting door de test

De patiënt moet uiteraard goed worden ingelicht over de inhoud van de diagnostische test (te verwachten belasting, de gevaren van het uitvoeren ervan), opdat hij zelf kan beslissen of hij de test wel wil ondergaan. Ook hier kan de medische (diagnostische) interventie ongewenste bijwerkingen hebben met soms belangrijke gevolgen voor de patiënt. Een concreet voorbeeld is het uitvoeren van een screeningstest voor downsyndroom in het eerste trimester van de zwangerschap. Is de test positief, dan zal een vruchtwaterpunctie volgen, waarbij een niet te negeren kans op abortus kan optreden. Een fout-positieve screeningstestuitslag krijgt daardoor ernstige consequenties. Het op goede gronden afzien van een diagnostische test kan in sommige gevallen veel problemen besparen. Belangrijk is in elk geval dat zowel de behandelaar als de patiënt de gevaren van de diagnostische test kan beoordelen. 4.2.3 Conclusie

In deze paragraaf is de beoordeling van een onderzoek naar de waarde van een diagnostische test aan de orde geweest. Het gebruik van een valide referentietest, onafhankelijke beoordeling van de indextest en referentietest, en toepassing van de referentietest ongeacht het resultaat van de indextest bij de juiste patiënten kunnen mogelijke vertekening voorkómen. Daarnaast zal de arts zich een indruk moeten vormen van de diagnostische waarde van de onderzochte indextest en de mogelijkheden om deze test in zijn eigen setting toe te passen. De consequenties van het uitvoeren van de test bij de eigen patiënt, moeten ten slotte zodanig zijn dat het verdere beleid erdoor veranderd kan worden. Literatuur Bossuyt PM, Irwig L, Craig J, Glasziou P. Comparative accuracy: assessing new tests against existing diagnostic pathways. BMJ 2006;332:1089–92. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. Standards for Reporting of Diagnostic Accuracy Group. Standards for reporting of diagnostic accuracy. Towards complete and accurate reporting of studies of diagnostic accuracy: the STARD initiative. Ann Intern Med 2003;138:40–4. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, Moher D, Rennie D, de Vet HC, Lijmer JG. The STARD statement for reporting studies of diagnostic accuracy: explanation and elaboration. Clin Chem 2003;49:7-18. Kosteloos beschikbaar op website 7 www.clinchem.org/cgi/content/full/49/1/7. Knottnerus JA, Buntinx F (eds). The evidence base of clinical diagnosis. Oxford: Blackwell Publishing Ltd Wiley Publ: 2008. Straus SE, Glasziou P, Richardson WS, Haynes RB. Evidence-based Medicine: How to practice and teach it. 5. Diagnosis and screening. Fourth edition. Edinburgh: Churchill Livingstone, 2011. ISBN: 978-0-7020-3127–4. Whiting P, Rutjes A, Reitsma J, Bossuyt P, Kleijnen J. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Medical Research Methodology 2003;3:25. Whiting PF, Rutjes AWS, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, Leeflang MM, Sterne JAC, Bossuyt PMM. QUADAS-2: A revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 155(8):529–536, 2011.

4

48

Hoofdstuk 4 • Kritisch beoordelen van een artikel

4.3 Prognose W.J.J. Assendelft, J.C. Korevaar en J.B. Reitsma 4.3.1 Inleiding

4

Een van de eerste dingen die een patiënt na het vaststellen van een diagnose wil weten is: ‘Wat kan ik nu verwachten?’ en ‘Wat stelt u voor om te gaan doen?’ Om deze vragen te kunnen beantwoorden is er kennis nodig van wat er kan gebeuren, hoe vaak deze uitkomsten voorkomen en wanneer de desbetreffende uitkomst(en) te verwachten zijn. Voor een goed advies en behandelkeuze is het dus belangrijk om voldoende te weten van het klinisch beloop van deze ziekte, zowel met als zonder behandeling, en ook wat de mogelijke invloed van prognostische factoren is op de uitkomst(en). In de regel is bij patiënten met een slechtere prognose (een relatief grotere kans op een ongunstige uitkomst) de winst van een interventie groter. Dit wordt in 7 H. 7 verder uitgelegd. 4.3.2 Beoordeling van een onderzoek over prognose

Bij de beoordeling van een prognostisch onderzoek moet op verschillende aspecten worden gelet: validiteit, belang en toepasbaarheid. Voor de beoordeling van prognostisch onderzoek is nog geen algemeen geaccepteerd instrument beschikbaar. Het Quality In Prognosis Studiesinstrument (QUIPS) is recentelijk ontwikkeld door een groep onderzoekers die onder andere betrokken zijn bij de Cochrane Prognosis Methods Group. De belangrijkste items van dit instrument worden in deze paragraaf besproken. Onder een prognostische factor wordt een kenmerk verstaan dat met een betere of slechtere prognose samenhangt. Prognostische factoren kunnen beïnvloedbare factoren zijn, zoals rookgedrag, voedingspatroon, dagelijks activiteitenpatroon of behandeling, maar kunnen ook niet-beïnvloedbare factoren zijn zoals leeftijd of geslacht. Onder uitkomst wordt de gebeurtenis verstaan waarop de prognostische vraag zich richt. In de regel is dit genezing, optreden van complicaties of overlijden, maar ook een ziekenhuisopname of intrede in de Wet werk en inkomen naar arbeidsvermogen (WIA) kunnen de uitkomst zijn in een prognostisch onderzoek. Prognostisch onderzoek levert absolute kansen op een specifieke gebeurtenis (event). Uitgangspunt is daarbij een bepaalde ziekte of het ondergaan van een bepaalde medische handeling, zoals een ingreep. Onderzoek naar prognostische factoren wordt doorgaans uitgevoerd aan de hand van observationeel onderzoek (cohortonderzoek). Informatie over de prognose na een behandeling zal vaker volgen uit gerandomiseerd effectonderzoek (zie 7 par. 4.4), maar kan ook volgen uit cohortonderzoek. Onderzoek kan zich specifiek richten op één prognostische factor, maar kan ook het effect van meerdere factoren bestuderen en de effecten samenvoegen in één prognostisch model (zie hierna ‘Belang van de resultaten voor de patiënt’). Beoordelingscriteria Validiteit 1. deelname 2. follow-up: volledige en voldoende lange follow-up 3. meting uitkomsten

4.3 • Prognose

49

4. meting prognostische factoren 5. analyse en rapportage Belang 1. belang van de resultaten voor de patiënt 2. precisie van de resultaten Toepasbaarheid 1. overeenkomst met eigen patiënt(en) (externe validiteit) 2. invloed van de informatie op de behandeling van de patiënt

zz Validiteit k1k Deelname

Er wordt uitgegaan van een duidelijk omschreven groep patiënten die is samengesteld op een gelijk moment in het ziektebeloop. De term voor een dergelijk samengestelde groep is ‘inceptiecohort’. Het startpunt van het cohort is vaak het moment waarop de eerste ondubbelzinnige symptomen merkbaar zijn of zodra de therapie (zoals een operatie) wordt gestart. Op deze manier worden patiënten ingesloten die volledig herstellen, die overlijden en bij wie de ziekte blijft bestaan. Om de volledigheid van het inceptiecohort te kunnen beoordelen moet aan een aantal voorwaarden worden voldaan: de in- en exclusiecriteria moeten duidelijk zijn beschreven, een voldoende deel van de geschikte patiënten neemt deel, de bronpopulatie is goed beschreven, de baselinekarakteristieken van de onderzochte groep zijn beschreven, de manier van selectie en rekrutering is beschreven en de periode en plaats van rekrutering worden beschreven. Soms kan de behandelaar overigens geïnteresseerd zijn in een inceptiecohort dat pas later in het beloop (dus niet meteen bij het begin van de aandoening) is samengesteld. Voorbeeld: aangezien veel rugpijn binnen een aantal weken overgaat, is het vooral belangrijk te weten welke proportie van de patiënten met klachten langer dan zes weken na één jaar nog steeds klachten heeft. Het inceptiecohort wordt voor die vraag dan pas gevormd bij zes weken lage rugpijn. Prognostisch onderzoek kan ook uitgaan van de algemene populatie, die helemaal nog geen ziekte heeft. Prognostisch onderzoek wordt af en toe gestart vanuit de uitkomst en vervolgens wordt er teruggevraagd naar prognostische factoren uit het verleden. Dit is minder valide dan onderzoek dat uitgaat van een inceptiecohort. Meestal worden dan namelijk personen ingesloten die nog klachten hebben en die contact met de gezondheidszorg hebben. Patiënten die zijn overleden of juist genezen zijn, worden zo vaak gemist. Ook kan het leiden tot een oververtegenwoordiging van patiënten die herhaaldelijk dezelfde klachten hebben: zij hebben immers meerdere keren de kans om in een dergelijk onderzoek geïncludeerd te worden ten opzichte van patiënten die de klacht slechts eenmalig krijgen. Het moet voor de lezer dus duidelijk zijn waar, hoe en wanneer de patiënten gerekruteerd zijn. Dit is nodig om te kunnen beoordelen of de resultaten van het artikel toepasbaar zijn op de patiënten in de eigen praktijk. Het zal duidelijk zijn dat patiënten die onder behandeling zijn bij de huisarts een andere (doorgaans betere) prognose zullen hebben ten opzichte van patiënten met eenzelfde aandoening die onder behandeling zijn bij de specialist. Ook binnen de specialistische tweedelijnszorg bestaan er weer verwijspatronen, waarbij referentiecentra (gespecialiseerde kankerklinieken, universitaire medische centra, topklinische ziekenhuizen) in de regel patiënten met een slechtere prognose doorverwezen krijgen.

4

50

Hoofdstuk 4 • Kritisch beoordelen van een artikel

k2 k Follow-up

4

In een prognostisch onderzoek dient de follow-up zo compleet mogelijk te zijn. Het ontbreken van gegevens over patiënten bij de follow-up kan gerelateerd zijn aan de ernst van de aandoening of aan de uitkomst en dus leiden tot vertekening. De gegevens van een patiënt kunnen bijvoorbeeld ontbreken omdat hij genezen is en geen zin meer had in nog een ziekenhuisbezoek, maar ook doordat de patiënt is overleden. De redenen voor loss-to-follow-up en de pogingen die zijn gedaan om uitval te voorkomen moeten zijn beschreven. Ten slotte moeten de kenmerken van de deelnemers die zijn uitgevallen worden beschreven, ook om te kunnen beoordelen of er geen verschillen zijn tussen degenen van wie volledige follow-upgegevens bekend zijn en van wie niet (selectiebias). De mogelijke invloed van uitval op de resultaten van het onderzoek kan op verschillende manieren worden nagegaan. Een simpele methode is het uitrekenen van de extreemste situaties. Dit kan door in de eerste berekening de uitvallers mee te nemen alsof alle uitvallers genezen zijn (bestcasescenario) en dit daarna nogmaals uit te rekenen, maar nu alsof alle uitvallers de ongunstige uitkomst hadden (worstcasescenario). Wanneer bijvoorbeeld in een cohort van zeshonderd patiënten aan het einde van de follow-upperiode dertig patiënten zijn overleden en de gegevens ontbreken van honderd patiënten, dan is de kans op de slechte uitkomst op basis van de patiënten met volledige follow-up 30/(600 - 100 = 500) = 6%. In geval van het bestcasescenario, onder de aanname dat alle ontbrekende patiënten niet zijn overleden, is dit 30/600 = 5%. Het worstcasescenario, onder de aanname dat alle ontbrekende patiënten wel zijn overleden, geeft echter een mortaliteit van (30 + 100)/600 = 22%. In het algemeen geldt hoe lager de kans op de (slechte) uitkomst, hoe groter het potentiële effect van ontbrekende patiënten is. Een andere methode om de invloed van ontbrekende patiënten te bepalen, is op basis van de gegevens die wel bekend zijn van een patiënt te schatten wat de waarschijnlijkste uitkomst zou zijn geweest. Dit kan met behulp van statistische technieken (hiervoor wordt de term ‘imputeren’ gebruikt). Het spreekt voor zich dat deze techniek kennis en inzicht van het ziekteproces vereist en dat er voldoende gegevens aanwezig moeten zijn van een uitgevallen patiënt om een betrouwbare inschatting te kunnen maken. Een hoeveelheid uitvallers (loss to follow-up) van meer dan 20% is in de regel te hoog: het aantal ontbrekende patiënten kan dan een te grote invloed op de uitkomst hebben. De (gemiddelde) observatietijd dient lang genoeg te zijn om voldoende informatie over het beloop te verkrijgen. Dit hangt uiteraard af van de aard van de ziekte. Zo zal voor het bestuderen van het beloop van een normale verkoudheid een observatieduur van veertien dagen ruim voldoende zijn. Om het beloop van voorhoofdsholteontsteking vast te stellen is twee maanden beter en bij langzaam groeiende kankers zal de observatietijd eerder vijf tot tien jaar moeten zijn. k3 k Meting uitkomsten

De uitkomsten van een onderzoek moeten expliciet en in objectieve termen beschreven worden, zodat de lezer deze in verband kan brengen met de eigen praktijk. De manier van meting van de uitkomst moet valide en betrouwbaar zijn (zie 7 par. 4.2) en voor alle deelnemers op een gelijke manier zijn uitgevoerd. Als in een artikel als uitkomstmaat de eerstvolgende beroerte (herseninfarct of hersenbloeding) staat, dan dient beroerte goed gedefinieerd te zijn. Zijn dat alleen beroerten die leiden tot ernstige spraakstoornissen of verlamming waarna de patiënt hulp nodig heeft bij dagelijkse activiteiten zoals wassen en aankleden of heeft de uitkomst ook betrekking op beroerten met alleen een kleine afwijking bij lichamelijk onderzoek, zoals afname van de reflexen? Een goede beschrijving in de vorm van objectieve criteria waarmee een eerstvolgende beroerte wordt vastgesteld is dan ook essentieel.

4.3 • Prognose

51

De uitkomst bij een patiënt dient bij voorkeur onafhankelijk (‘blind’) te worden vastgesteld, dat wil zeggen zonder relevante voorkennis over de patiënt, aangezien uitkomsten vaak worden gestuurd door bewuste of onbewuste veronderstellingen van de onderzoeker. Bij een zeventigjarige mannelijke roker met een belaste familieanamnese zal de diagnose hartinfarct sneller worden vermoed en dus ook worden gesteld dan bij een 45-jarige vrouwelijke nietroker. Daarom is het heel belangrijk dat degene die de uitkomst bij de patiënt vaststelt niet op de hoogte is van prognostische determinanten en andere relevante kenmerken van de patiënt. Uitzondering is wanneer overallmortaliteit de uitkomst is: hierbij kan geen diagnostische twijfel zijn. Als laatste moet de uitkomst klinisch en voor de patiënt relevant zijn. k4 k Meting prognostische factoren

De prognostische factoren kunnen duidelijke factoren zijn die eenvoudig te bepalen zijn, zoals leeftijd en geslacht. Prognostische factoren kunnen echter ook biochemische parameters, fysiologische metingen, tumormarkers of blootstelling aan omgevingsfactoren zijn. Het meten van dergelijke parameters is veel minder vanzelfsprekend. Om de invloed van dergelijke prognostische factoren voor de eigen patiënten op waarde te kunnen schatten moeten deze expliciet en in objectieve termen zijn beschreven, en moet de meting voor alle patiënten op dezelfde manier zijn uitgevoerd. Daarnaast moet het duidelijk zijn wanneer en onder welke condities de prognostische factoren zijn bepaald. De manier van meting van de prognostische factor moet valide en betrouwbaar zijn (zie 7 par. 4.2). Ook moet de meting bij liefst iedereen worden uitgevoerd. Indien dit niet is gelukt wordt nagegaan of het bij een voldoende proportie van de populatie is gebeurd. k5 k Analyse en rapportage

Binnen de groep patiënten met een aandoening kunnen op basis van prognostische factoren patiënten worden onderscheiden met een betere of juist een slechtere prognose. Een prognostische factor kan dus helpen om het beloop van de ziekte beter te kunnen voorspellen. Hiervoor is het niet noodzakelijk dat de prognostische factor een direct oorzakelijk verband met de uitkomst heeft (dit is dus anders dan bij onderzoek naar bijwerkingen, zie 7 par. 4.5). Het hebben van gele vingers (als gevolg van overmatig roken) kan bijvoorbeeld een indicator zijn van de prognose van astma, zonder dat de gele vingers zelf een directe invloed hebben (de directe invloed komt in dit voorbeeld natuurlijk van het roken). Verder kan een aantal prognostische factoren tezamen vaak een betere voorspelling geven dan één enkele factor. Een bekend voorbeeld is de zogenoemde apgarscore, waarbij direct na de geboorte verschillende fysiologische parameters worden ingeschat. Een lage apgarscore hangt samen met een verhoogde morbiditeit en mortaliteit. . Tabel 4.4 geeft een ander voorbeeld van een voorspellend model. De waarde van een voorspellend model of van een enkele prognostische factor is sterk afhankelijk van hoe goed (en hoe vaak) dit model gevalideerd is. Het model wordt geloofwaardiger als het wordt toegepast op een nieuwe groep patiënten en als daaruit vervolgens blijkt dat de voorspelde prognose de werkelijke prognose goed benadert. Indien dit zo is spreekt men van een ‘goede kalibratie’. Het ontwikkelen en valideren van een prognostisch model bestaat dan ook uit meerdere stappen. De eerste stap is het maken van een prognostisch model in een groep patiënten: de testpopulatie. Vervolgens wordt dit model gevalideerd in een groep andere patiënten: de zogenoemde validatiepopulatie. Idealiter is deze validatiepopulatie geheel onafhankelijk van de testpopulatie, bijvoorbeeld andere behandelcentra en een ander land. Indien er meerdere validatiepopulaties beschikbaar zijn, kan de precisie van het prognostisch model nog verder

4

52

Hoofdstuk 4 • Kritisch beoordelen van een artikel

. Tabel 4.4 CHA2DS2-VASc-score voor het inschatten van het risico op ischemisch CVA bij patiënten met atriumfibrilleren ( > 48 uur of paroxismaal) Voor iedere eigenschap uit de tabel krijgen patiënten een score (wegingsfactor). De totaalscore (som van de wegingsfactoren) bepaalt de kans op een ischemisch CVA. Voorbeeld: een man van 72 jaar met atriumfibrilleren, hartfalen en een TIA in de voorgeschiedenis heeft een prognostische score van 1 (hartfalen) + 2 (TIA) + 1 (leeftijd) = 4. Zijn kans op ischemisch CVA is op basis van deze prognostische factoren verhoogd en ontstolling is daarom volgens de huidige richtlijnen geïndiceerd.

4

letter

kenmerk

score

C

hartfalen (Congestive heart failure)

1

H

hypertensie

1

A2

leeftijd ≥ 75 jaar (Age)

2

D

diabetes mellitus

1

S2

CVA/TIA/trombo-embolie (Stroke)

2

V

vaatlijden

1

A

leeftijd 65-74 jaar (Age)

1

Sc

vrouwelijk geslacht (Sex category)

1*

Bij een totaalscore van 0 is sprake van een laag risico op een ischemisch CVA (ongeveer 0,5% per jaar), bij 1 een matig risico (ongeveer 1%) en bij 2 of hoger een hoog risico (oplopend tot meer dan 12%; gemiddeld ongeveer 5%). * alleen bij leeftijd > 65 jaar. Lip GY, et al. Chest 2010;137:263-72.

worden verbeterd. Vaak volgt uit zo’n validatiestap dat de initiële prognostische factoren een groter effect laten zien in de testpopulatie dan in de validatiepopulatie. Het overslaan van deze validatiestap in een externe populatie leidt dus vaak tot een overschatting van de voorspellende waarde van het prognostische model. Oorzaken hiervoor kunnen zijn dat de testpopulatie uit te weinig patiënten bestond of door verschillen tussen de test- en validatiepopulatie. Meestal is het originele model te zeer toegespitst op de patiënten uit de testpopulatie. Uiteindelijk moet in een ‘impactstudie’ worden nagegaan of het gebruik van een prognostisch model daadwerkelijk de besluitvorming van artsen positief beïnvloedt. De impact van het gebruik in de dagelijkse praktijk moet in deze stap worden gekwantificeerd door het vergelijken van de situatie zonder en met het gebruik van het prognostische model. Voor een dergelijke studie worden behandelaars uitgenodigd om mee te doen aan een studie. In deze studie gebruikt een deel van de behandelaars (de indexgroep) het (nieuwe) prognostische model en levert de controlegroep routinezorg (usual care) in een zogenoemde clustergerandomiseerde trial (zie 7 par. 4.4). De gerapporteerde uitkomsten zijn bij voorkeur a) verandering in gedrag van de behandelaars, b) uitkomsten voor de patiënt, c) kosteneffectiviteit. zz Belang k1k Belang van de resultaten voor de patiënt

Het is van belang de prognose in één of meer samenvattende getallen (absolute kansen) uit te drukken. Voorbeelden hiervan zijn de vijfjaarsoverleving of de mediane overlevingsduur (tijdstip waarop 50% van de patiënten nog in leven is). Vaak ook wordt het beloop in de tijd

53

4.3 • Prognose

100

percentage patiënten in leven

A 80 B 60

40

C

20

D

0 0

1

2

3

4

5

6

7

8

9

10

11

12

tijd in jaren . Figuur 4.4 Voorbeelden van vier overlevingspatronen, weergegeven in een Kaplan-Meier-curve. Horizontale lijn bij 50% geeft de mediane overlevingsduur grens aan. Patroon A: Prognose gunstig. Percentage overlevenden neemt slechts langzaam af. De mediane overleving is niet te geven, aan het einde van de follow-upperiode (twaalf jaar) is meer dan 50% van de patiënten nog in leven. Patroon B: Prognose gunstig op korte termijn, ongunstig op lange termijn. Het percentage overleden patiënten neemt vanaf zes jaar follow-up snel toe. De mediane overleving is circa 11,5 jaar. Patroon C: Prognose ongunstig gedurende de gehele follow-uptijd. Mediane overleving is circa 8,5 jaar. Patroon D: Prognose zeer ongunstig op korte termijn. Voor de patiënten die de eerste vijf jaar overleven is de prognose echter veel gunstiger, sterftekans neemt dan sterk af. De mediane overleving is circa drie jaar.

in de vorm van een grafiek weergegeven (zie . figuur 4.4, patronen A t/m D). Op de verticale as staat het percentage patiënten dat de bestudeerde uitkomst nog niet heeft (bijv. nog in leven is) en op de horizontale as is de tijd uitgezet. Uit dergelijke grafieken kan bijvoorbeeld ook de eerdergenoemde mediane overlevingsduur worden afgeleid. De vorm van een dergelijke grafiek geeft inzicht in wat op de korte en lange termijn kan worden verwacht. In deze figuur zijn vier patronen weergegeven. Patroon A laat een relatief gunstig beloop zien. De overleving zowel op korte als op lange termijn is gunstig. Patroon B is karakteristiek voor een aandoening waarbij de uitkomst relatief lang op zich laat wachten (een lange ‘incubatietijd’ heeft). Een voorbeeld hiervan zijn vasculaire complicaties bij diabetes mellitus type 1 die de eerste jaren na het ontstaan van diabetes niet optreden. Patroon C is karakteristiek voor aandoeningen met een slechte prognose: het optreden van de uitkomst is vrijwel onontkoombaar, blijkbaar zijn er nauwelijks therapeutische mogelijkheden. Patroon D ziet men bij aandoeningen waarbij de uitkomst vooral in de periode kort na het ontdekken wordt vastgesteld, maar waarbij de prognose gunstiger wordt naarmate de tijd verstrijkt. Dit patroon geldt bijvoorbeeld voor veel vormen van kanker. Om te beoordelen of de sterftekans van een bepaalde patiëntenpopulatie hoog is kan het informatief zijn om deze sterftekans te vergelijken met die van een andere populatie of met een standaardpopulatie (bijv. de gehele Nederlandse populatie). Om sterftekansen met elkaar te

4

54

Hoofdstuk 4 • Kritisch beoordelen van een artikel

T-stadium

lymfeklierratio

LNI

4

T1

T2

T3

T4

0

8

11

19

punten

0

0,05

0,1

0,2

0,4

0,8

0

5

8

12

17

22

nee

ja

0

4

punten

punten

totaal aantal punten

0

5

10

15

20

25

30

35

40

45

50

1-jaars overleving (%)

98

97

94

91

86

77

65

50

32

15

4,4

5-jaars overleving (%)

90

83

74

61

44

26

11

2,5

0,2

0,0

0,0

. Figuur 4.5 Nomogram voor ziektespecifieke overleving na operatie van patiënten met adenocarcinoom van de distale slokdarm. Bereken op basis van bovenstaande drie prognostische factoren – tumorstadiëring (T) volgens de TNM-classificatie, de lymfeklierratio (aantal positieve lymfeklieren gedeeld door totaal aantal lymfeklieren) en de doorgroei van de lymfeklieren (LNI) – het totaal aantal punten voor een patiënt. Door een rechte lijn vanuit het totaal aantal punten naar beneden te trekken is de kans op ziektespecifieke overleving één en vijf jaar na de operatie af te lezen. Bijvoorbeeld een patiënt met TNM van 2 (T2), een lymfeklierratio van 0,20 en geen doorgroei van de lymfeklieren (LNI = nee) heeft 8 + 12 + 0 = 20 punten. Een patiënt met 20 punten heeft 86% kans om één jaar na de operatie nog in leven te zijn en 44% kans om vijf jaar na de operatie nog in leven te zijn.

mogen vergelijken moet men rekening houden met populatieverschillen, zoals een verschillende leeftijdsopbouw. Het omrekenen van een waargenomen sterfte naar een andere referentiepopulatie heet standaardisatie. De Standardized Mortality Ratio geeft de verhouding aan tussen het waargenomen sterftecijfer en het sterftecijfer in de standaardpopulatie. Een SMR van bijvoorbeeld 1,1 geeft een oversterfte van 10% van de patiëntenpopulatie weer ten opzichte van de standaardpopulatie. Op vergelijkbare wijze kan men ook gestandaardiseerde verhoudingen berekenen voor uitkomsten anders dan sterfte (Standardized Morbidity Ratio). Prognostische modellen kunnen in verschillende vormen worden gepresenteerd, zowel in tabellen als in figuren. Een voorbeeld van het presenteren van resultaten van een prognostische studie is te zien in . figuur 4.5. k2 k Precisie van de resultaten

Naast het uitdrukken van de prognose in een of meer samenvattende getallen is ook de precisie van de schattingen van belang: hoe zeker weten we dat dit het juiste getal is? Het 95%-betrouwbaarheidsinterval geeft de marge aan waarvan we met 95% zekerheid mogen aannemen dat de werkelijke waarde hierbinnen ligt. Het 95%-betrouwbaarheidsinterval wordt smaller, indien er meer patiënten in het onderzoek zijn opgenomen of meer patiënten de uitkomst hebben. Bij zeldzame uitkomsten zullen voor een nauwkeurige schatting van de prognose dus veel patiënten in het onderzoek moeten zijn opgenomen, bij vaak voorkomende uitkomsten relatief min-

4.3 • Prognose

55

der patiënten. Voor een nauwkeurige schatting van meerdere prognostische factoren moeten weer meer patiënten in het onderzoek zijn opgenomen dan wanneer slechts één factor wordt bekeken. Als globale vuistregel wordt vaak gehanteerd dat per prognostische factor minimaal tien patiënten met de uitkomst in de studie moeten zijn opgenomen. Stel dat in een onderzoek onder zeshonderd patiënten dertig patiënten de uitkomst hebben gekregen, dan kunnen dus maximaal drie prognostische factoren in een prognostisch model worden meegenomen. zz Toepasbaarheid k1k Overeenkomst met eigen patiënt(en) (externe validiteit)

De samenstelling van de groep patiënten in het onderzoek bepaalt voor een belangrijk deel de gerapporteerde prognose. Hiervoor is een duidelijke omschrijving van de patiënten belangrijk (punt 1 van de validiteit: ‘deelname’). Indien de groep patiënten in het onderzoek afwijkt van de patiënten in de eigen praktijk, dan zal ook de prognose mogelijk (sterk) afwijken. 55 Vertekening door verwijspatronen. Vaak wordt een patiënt enige malen van behandelaar naar behandelaar verwezen. De verwijzer maakt dan iedere keer op basis van de aard en ernst van de aandoening een keuze uit verschillende verwijsmogelijkheden. Dikwijls worden minder ernstige gevallen helemaal niet verwezen. In de regel worden patiënten met een ernstiger ziektebeeld (en dus een slechtere prognose) naar een (super)specialistisch centrum verwezen. Ook het tegenovergestelde kan echter van toepassing zijn: patiënten met een slechte prognose worden juist niet verwezen omdat verdere (super)specialistische behandeling geen zin meer heeft. 55 Vertekening door vroegopsporing (lead time bias). Indien door screening een aandoening waarvoor geen afdoende behandeling bestaat eerder wordt gediagnosticeerd, dan zal het lijken of de prognose beter wordt. Dit is slechts schijn: de ziekte wordt gewoon eerder ontdekt (zie 7 par. 4.6). 55 Vertekening door type behandelcentrum. Hieraan gerelateerd is de vertekening die optreedt indien er in een bepaald centrum veel belangstelling voor de aandoening bestaat. De resultaten zijn dan soms moeilijk te extrapoleren, omdat in dergelijke centra vaak sneller vervolgdiagnostiek wordt verricht, meer aandacht aan de patiënten wordt gegeven, meer ervaring aanwezig is en vaker geavanceerde behandelingen worden toegepast. De toepasbaarheid op de eigen patiënt(en) kan worden nagegaan met de volgende deelvragen: 1. Zijn de klinische karakteristieken van de in het onderzoek betrokken patiënten gelijk aan die van mijn patiënt(en)? 2. Zijn de onderzochte patiënten op dezelfde manier gediagnosticeerd? 3. Is het onderzoek in hetzelfde echelon uitgevoerd als waarin ik werkzaam ben? 4. Waren dezelfde faciliteiten voorhanden als voor de eigen patiënten ter beschikking zijn? 5. Is de ernst van de aandoening van de onderzochte patiënten gelijk aan die van de eigen patiënten? Een te strikte toepassing van deze vragen heeft waarschijnlijk tot gevolg dat er vrijwel geen enkel geschikt onderzoek zal worden gevonden. Het is daarom goed om bij een of meer negatieve antwoorden op voorgaande deelvragen de vraag om te draaien: is de groep patiënten uit het onderzoek zo verschillend van de eigen patiënt dat de resultaten helemaal niet kunnen worden gebruikt bij het geven van een prognose?

4

56

Hoofdstuk 4 • Kritisch beoordelen van een artikel

k2 k Invloed van de informatie op de behandeling van de patiënt

4

Indien de prognose gunstig is zonder behandeling zal dit aspect in het gesprek met de patiënt worden benadrukt en kan worden besloten geen behandeling te starten. Als de prognose zonder behandeling echter minder gunstig is en er een behandeling beschikbaar is die deze prognose gunstig kan beïnvloeden, zal dit een belangrijk onderdeel van het gesprek met de patiënt vormen. Nauwkeurige, valide prognostische informatie biedt de behandelaar dan de mogelijkheid een op de patiënt toegesneden number needed to treat te berekenen (zie 7 par. 4.4 en 7 H. 7). In de discussie met de patiënt zullen ook de aard en verwachte frequentie van mogelijke bijwerkingen moeten worden meegenomen (number needed to harm). Tot slot is ook de informatie dat de prognose ongunstig is en dat er weinig tot geen behandelingsmogelijkheden zijn belangrijk en informatief. Deze informatie kan de patiënt en zijn familie in staat stellen belangrijke besluiten te nemen. 4.3.3 Conclusie

Kennis over de prognose is van belang om de patiënt te informeren en om een weloverwogen keuze te kunnen maken voor een bepaalde behandeling of om juist af te zien van behandelen. Idealiter wordt het beloop van de ziekte uitgedrukt in een grafiek, omdat dit meer zegt dan een enkel cijfer. Bij het beoordelen van onderzoeken moet vooral worden opgelet of de onderzoekspopulatie voldoende is omschreven en of deze voldoende overeenkomsten heeft met het werkterrein van de behandelaar en de ernst en duur van de ziekte van de patiënt. Bij de beoordeling moet daarnaast worden gelet op volledigheid en duur van de follow-up, objectieve vaststelling van de uitkomsten, duidelijke rapportage van de prognostische factoren en de rapportage van relevante subgroepen met een verschillende prognose. Daarnaast is het noodzakelijk dat de te verwachten prognose gevalideerd is in een groep onafhankelijke patiënten. Ten slotte is het belangrijk dat de impact van de toepassing van een prognostisch model op het handelen van de behandelaar, de opbrengst voor de patiënt en de kosteneffectiviteit in een impactstudie wordt geëvalueerd. Literatuur Hayden JA, Windt DA van der, Cartwright JL, Côté P, Bombardier C. Assessing bias in studies of prognostic factors. Ann Intern Med 2013;158:280–6. Hemingway H, Croft P, Perel P, Hayden JA, Abrams K, Timmis A, Briggs A, Udumyan R, Moons KG, Steyerberg EW, Roberts I, Schroter S, Altman DG, Riley RD; PROGRESS Group. Prognosis research strategy (PROGRESS) 1: a framework for researching clinical outcomes. BMJ 2013 Feb 5;346:e5595. Hemingway H, Riley RD, Altman DG. Ten steps towards improving prognosis research. BMJ 2009;339:b4184. Hingorani AD, Windt DA van der, Riley RD, Abrams K, Moons KG, Steyerberg EW, Schroter S, Sauerbrei W, Altman DG, Hemingway H; PROGRESS Group. Prognosis research strategy (PROGRESS) 4: stratified medicine research. BMJ 2013 Feb 5;346:e5793. Moons KG, Altman DG, Vergouwe Y, Royston P. Prognosis and prognostic research: application and impact of prognostic models in clinical practice. BMJ 2009 Jun 4;338:b606. Moons KG, Royston P, Vergouwe Y, Grobbee DE, Altman DG. Prognosis and prognostic research: what, why, and how? BMJ 2009 Feb 23;338:b375. Riley RD, Hayden JA, Steyerberg EW, Moons KG, Abrams K, Kyzas PA, Malats N, Briggs A, Schroter S, Altman DG, Hemingway H; PROGRESS Group. Prognosis Research Strategy (PROGRESS) 2: prognostic factor research. PLoS Med. 2013 Feb;10(2):e1001380. Steyerberg EW, Moons KG, Windt DA van der, Hayden JA, Perel P, Schroter S, Riley RD, Hemingway H, Altman DG; PROGRESS Group. Prognosis Research Strategy (PROGRESS) 3: prognostic model research. PLoS Med 2013 Feb;10(2):e1001381.

4.4 • Therapie

57

4.4 Therapie W.J.J. Assendelft, J.G.P. Tijssen en R.J.P.M. Scholten 4.4.1 Inleiding

Vrijwel ieder patiëntencontact gaat gepaard met een behandelbeslissing. Ook de beslissing om even niets te doen is een impliciete behandelbeslissing: de prognose is zo gunstig of de behandelopties zijn zo weinig effectief dat behandeling niet nodig is of geen zin heeft. Juist ook bij therapie is het belangrijk de klinische vraag scherp te krijgen. De vraagstelling van een therapeutisch onderzoek kent drie kernelementen, te weten de ziekte (bijv. angina pectoris), de interventies (bijv. het effect van een aceremmer ten opzichte van een placebo) en het ziektebeloop (bijv. het verdwijnen van de klachten). In een therapeutisch onderzoek richt de belangstelling zich vaak op één specifieke behandeling. Meestal betreft het een behandeling met een medicament, maar ook andere interventies, zoals een chirurgische behandeling of een therapeutische aanpak in bredere zin (bijv. uitvoerige diagnostiek in combinatie met intensieve behandeling) kunnen worden bestudeerd. De behandeling waar het om draait, heet de indexbehandeling. Deze wordt vergeleken met een andere behandeling: de controlebehandeling. De ziekte wordt gedefinieerd in de insluitcriteria voor deelname aan het onderzoek. De uitsluitcriteria geven aan welke patiënten die aan de diagnostische criteria voldoen, om een andere reden niet aan het onderzoek kunnen deelnemen, bijvoorbeeld een contra-indicatie voor de onderzochte behandelingen. Een recentelijk ontwikkeld geneesmiddel kan worden vergeleken met een placebo, met een gebruikelijk geneesmiddel of met onthouding van medicamenteuze behandeling. De keuze van de controlebehandeling wordt bepaald doordat de onderzoeker vaststelt welke aspecten van de indexbehandeling moeten worden bestudeerd. Bij een geneesmiddel gaat de interesse meestal naar het effect van de stof (de chemische substantie) zelf. Mogelijke effecten die niet het gevolg zijn van de stof (bijv. het effect van de begeleiding van de arts, inbeelding) behoren buiten de vergelijking te blijven. Het geneesmiddel wordt daarom met een placebo vergeleken; de nietspecifieke (externe) effecten van de zorg worden daardoor buiten de vergelijking gehouden. Een therapeutisch effect wordt in ieder therapeutisch onderzoek gedefinieerd in termen van (bedoelde) verandering in het klinisch beloop. Het aspect van het klinisch beloop dat de behandelaar hoopt te beïnvloeden, wordt in deze context de uitkomst genoemd. Sterfte binnen een maand of binnen twee jaar, het optreden van een hartinfarct en het verdwijnen van klachten zijn bijvoorbeeld enkele in de cardiologie gehanteerde uitkomsten. Soms wordt gekozen voor de verandering in een kwantitatieve parameter, zoals het cholesterolgehalte of de bloeddruk. Vaak zijn er verschillende uitkomstmaten beschikbaar. De voorkeur gaat uit naar voor de patiënt relevante klinische uitkomsten (zoals overleving, fractuurincidentie, wondheling) of subjectieve patiëntgeoriënteerde uitkomstmaten (zoals dagelijks functioneren of kwaliteit van leven). Bij het zoeken naar een artikel zal dus allereerst de vraag volledig moeten worden uitgeschreven (zie 7 H. 2). Daarna moet naar een of meer geschikte artikelen worden gezocht. De ideaalste situatie is dat er over het onderwerp een systematische review van gerandomiseerde effectonderzoeken (randomised controlled trials (RCT’s)) bestaat (zie 7 par. 5.2). Indien dit niet het geval is, zal er moeten worden gezocht naar primaire onderzoeken. De RCT is dan het onderzoektype met de grootste ‘bewijskracht’. In volgorde van bewijskracht volgen dan het niet-gerandomiseerde cohortonderzoek, het patiëntcontroleonderzoek en de patiëntenserie. Aan de hand van de volgende criteria kunnen een RCT en een niet-gerandomiseerd vergelijkend cohortonderzoek worden beoordeeld. Het patiëntcontroleonderzoek wordt besproken in 7 par. 4.5. Het beoordelen van een patiëntenserie komt niet aan de orde.

4

58

Hoofdstuk 4 • Kritisch beoordelen van een artikel

4.4.2 Beoordeling van een gerandomiseerd effectonderzoek

4

De beoordeling van een gerandomiseerd effectonderzoek valt uiteen in de beoordeling van de validiteit, het belang van de uitkomsten en de toepasbaarheid van de resultaten. Bij de beoordeling is het belangrijk om niet alleen de opzet, maar ook juist de uitvoering van de trial te beoordelen. Hiervoor is het nuttig om bij de beoordeling ook het trialprotocol (tegenwoordig vaak apart gepubliceerd), trialregisters (zie extras.bsl.nl/inleidingebm) en eventuele registratiedossiers te betrekken. Beoordelingscriteria (checklist beschikbaar op extras.bsl.nl/inleidingebm) Validiteit 1. randomisatie 2. geblindeerde toewijzing van de interventie 3. blindering van patiënten en behandelaars 4. blindering van effectbeoordelaars 5. vergelijkbaarheid van de groepen aan het begin van het onderzoek 6. volledigheid van follow-up 7. analyse van patiënten in de groep waarin ze waren gerandomiseerd 8. gelijke behandeling van de groepen, afgezien van de interventie 9. selectieve publicatie 10. sponsoring Belang 1. grootte van het effect 2. precisie van de effectschatting Toepasbaarheid 1. overeenkomst van de patiënten in het onderzoek met de eigen patiënt(en) 2. haalbaarheid in de eigen praktijkvoering 3. voor en nadelen van behandeling voor de patiënt 4. ideeën en voorkeuren van de patiënt

zz Validiteit

Interne validiteit van een onderzoek impliceert dat het therapeutisch effect zuiver (= niet vertekend) wordt gemeten binnen de context van het onderzoek. Interne validiteit berust op een drietal kenmerken: 1. Weerspiegelt de vergelijking tussen de behandelingen dat aspect van de behandeling waarin men werkelijk geïnteresseerd is (of spelen externe effecten een rol)? 2. Zijn de behandelingsgroepen wat betreft prognose identiek samengesteld? 3. Is de wijze van waarneming (of bepaling) van de uitkomst identiek bij de behandelingsgroepen? De gebruikelijke methodieken om interne validiteit te bewerkstelligen zijn (zie . figuur 4.6): 55 het gebruik van een placebo of nepbehandeling (om de invloed van externe effecten gelijk te laten zijn); 55 het gebruik van aselecte behandelingstoewijzing (om wat betreft prognose vergelijkbare groepen te creëren); 55 het gebruik van blindering (om vergelijkbaarheid van informatie te garanderen).

59

4.4 • Therapie

in- en exclusiecriteria: afgeleid van klinische vraag

bronpopulatie

methode van randomisatie; blindering van randomisatie

randomisatie

groepen na randomisatie prognostisch vergelijkbaar

indexgroep

controlegroep

indexbehandeling

controlebehandeling

loss-to-follow-up acceptabel

follow-up

follow-up

geblindeerde uitkomstmeting, intention to treat-analyse

uitkomst

uitkomst

naast toegewezen behandeling gelijke behandeling en aandacht; blindering behandelaar; blindering patiënt

. Figuur 4.6 Schema van gerandomiseerd effectiviteitsonderzoek (randomised controlled trial; RCT) met bijbehorende beoordelingscriteria.

Deze methodieken hoeven of kunnen niet altijd worden toegepast. De onderliggende denktrant vormt echter een leidraad bij de beoordeling van interne validiteit. De hiervoor genoemde elementen zijn de belangrijkste onderdelen van de beoordeling van de interne validiteit. Een algemeen geaccepteerde checklist voor het beoordelen van de kwaliteit van RCT’s is de Cochrane Risk of Bias Tool. De belangrijkste elementen daarvan worden in deze paragraaf besproken. De CONSORT-lijst is eigenlijk als checklist voor het rapporteren van trials bedoeld, maar bevat eveneens een goed overzicht van de belangrijkste items. k1k Randomisatie

De gegevens van het onderzoek weerspiegelen het effect van de indexbehandeling (ten opzichte van de controlebehandeling) slechts dan wanneer de behandelingsgroepen wat betreft prognose vergelijkbaar zijn. Met andere woorden, men moet gelijke uitkomsten voor de groepen verwachten wanneer dezelfde behandeling zou worden gegeven. Een arts heeft van nature de neiging de intensiefste behandeling of de voorkeursbehandeling te geven aan de ernstigst zieke patiënt. Wanneer de arts een hoog risico vermoedt, vormt dit een indicatie voor behandeling. Deze (respectabele) attitude maakt een specifiek toewijzingsschema nodig bij de evaluatie van therapeutische effecten. Immers, patiënten die in de dagelijkse medische praktijk verschillende behandelingen krijgen, hebben per definitie een verschillende indicatiestelling en dus een verschillende prognose. Dit fenomeen, bekend als confounding by indication of indication bias, vormt een onoverkomelijke hindernis bij alle niet-experimentele evaluatie van therapie. Het is dus nodig dat de toewijzing van de behandeling op zodanige wijze tot stand komt dat iedere vorm van (bedoelde of onbedoelde) manipulatie van patiënten naar een geprefereerde behandeling is uitgesloten. Alleen dan kunnen wat betreft prognose vergelijkbare groepen worden verkregen. Randomisatie wordt gezien als de methode die hiervoor bij uitstek geschikt is. Immers, bij randomisatie is de behandelingstoewijzing volledig onvoorspelbaar en dus ongrijpbaar voor de behandelend arts. Uit een vergelijking van het beloop in twee groepen patiënten die niet via randomisatie tot stand gekomen zijn, kunnen geen harde conclusies worden getrokken over de effectiviteit van de indexbehandeling ten opzichte van de controlebehandeling.

4

60

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

Randomisatie is dus een methode waarbij wordt gebruikgemaakt van het toeval om de te onderzoeken interventie en de controlebehandeling(en) toe te wijzen aan de patiënt. De methode dient om selectiebias te voorkomen. Randomisatie houdt in dat ieder individu (of andere eenheid van randomisatie) een gelijke kans heeft om bij elk van de interventies betrokken te zijn. Een goede randomisatie kan bijvoorbeeld gebruikmaken van een tabel met aselecte (random)getallen of van een door een computer aangemaakte randomisatielijst. Soms willen onderzoekers zeker zijn dat per behandelcentrum, per behandelaar of per subgroep van patiënten ongeveer evenveel patiënten in de interventie- als in de controlegroep terechtkomen. Dit kan door per behandelaar of centrum een aparte randomisatie uit te voeren (gestratificeerde randomisatie). Ook kan ernaar worden gestreefd steeds ongeveer evenveel patiënten in de index- als in de controlegroep te hebben. Dit kan door de verdeling over de index- en controlegroep na een vast aantal patiënten steeds gelijk te zetten. Binnen een blok wordt de volgorde dan random bepaald, maar na ieder veelvoud van de blokgrootte is het aantal in beide groepen gelijk. Voorbeeld van een blokrandomisatie met een blokgrootte van 6 is: aabbab babbaa aabbab bbabaa (etc.). Een bijzondere manier van randomisatie is clusterrandomisatie: niet de patiënten worden gerandomiseerd, maar de behandellocatie of groep behandelaren. Voor meer details: zie kader Clusterrandomisatie. Er moet gewaarschuwd worden voor methodes van toewijzing, die soms wel als randomisatie beschreven zijn maar dit niet echt zijn: toewijzing op geboortedatum, volgorde van binnenkomst, dag van de week, maand van het jaar, dossiernummer. Deze methodes heten daarom ook wel quasi random. Clusterrandomisatie Soms is het niet mogelijk om op patiëntniveau te randomiseren, omdat patiënten in de controlegroep dan ook onderdelen van de interventie zouden kunnen krijgen. Dit speelt bijvoorbeeld wanneer een behandelaar of team na een uitgebreide training een probleem op een bepaalde manier moet aanpakken of wanneer de interventie een hele verandering van de zorg betekent. Een voorbeeld is de aanpak van stoppen-met-roken in een huisartsenpraktijk. Als zowel de assistente, de praktijkondersteuner als de huisarts bijzonder alert en getraind is, kunnen ze deze aanpak niet aselect toepassen op patiënten, zeker niet als de aanpak samengaat met posters in de wachtkamer. Een ander voorbeeld is screening: vaak doet een hele praktijk wel of niet mee, omdat anders patiënten die niet voor screening zijn uitgenodigd er toch van horen en alsnog de screening gaan vragen. De oplossing is dan clusterrandomisatie. Voor clusterrandomisatie geldt voor diverse validiteitsonderdelen, bijvoorbeeld uitval en blindering, dat deze voor het cluster en de patiënten apart moeten worden beoordeeld. Clusterrandomisatie heeft invloed op de manier waarop aan patiënten toestemming voor het onderzoek wordt gevraagd. Vaak is na randomisatie van de clusters al bekend welke interventie een patiënt zal krijgen. De toestemmingsvraag (vraag om aan een bepaalde behandelvorm mee te doen) zal er dus anders uitzien dan bij individuele randomisatie (waarbij de patiënt toestemming moet geven om bij toeval een behandelvorm toegewezen te krijgen). Bij een clustergerandomiseerde trial wordt namelijk ook aan de behandelaars toestemming voor de randomisatie gevraagd. Bij clustergerandomiseerde trials moet naast de vergelijkbaarheid van de patiënten op baseline ook de vergelijkbaarheid van de clusters worden gerapporteerd. In dit soort trials kunnen clusterkenmerken invloed hebben op het behandelresultaat. Voorbeelden hiervan

4.4 • Therapie

61

zijn ervaring en leeftijd van de behandelaars, maar ook factoren als urbanisatiegraad (platteland of stad) of grootte van een ziekenhuis kunnen voor sommige onderwerpen invloed op de uitkomst hebben. Clusterrandomisatie vergt ook een andere manier van statistische analyse. De gangbare statistiek gaat ervan uit dat de waarnemingen voor alle patiënten onafhankelijk van elkaar zijn. In een cluster delen patiënten echter sommige eigenschappen, zoals woonplaats of behandelaar. In de analyse moet dus rekening worden gehouden met deze overeenkomst binnen clusters. Ook moet rekening gehouden worden zowel met de variatie tussen de clusters als met de variatie tussen de patiënten. Dit geeft ten opzichte van individuele randomisatie minder onderscheidingskracht (power). In het algemeen neemt bij hetzelfde aantal patiënten de power meer toe als er voor meer clusters met relatief minder patiënten wordt gekozen dan voor minder clusters met relatief meer patiënten.

k2 k Geblindeerde toewijzing van de interventie

De randomisatieprocedure moet zodanig zijn ingericht dat wordt voorkomen dat degene die de patiënt beoordeelt en insluit op de hoogte kan zijn van de randomisatievolgorde (concealment of allocation). Goede manieren zijn: gebruik van centrale randomisatieschema’s, randomisatieschema’s die door een trialapotheek worden beheerd, genummerde en gecodeerde verpakkingen met identieke placebo en verummedicatie (= werkzame medicatie), genummerde, nietdoorzichtige enveloppen, een op locatie aanwezige computer waarvan de randomisatievolgorde pas wordt vrijgegeven na opgave van de patiëntenkarakteristieken. Bij een systematisch toewijzingsschema (bijv. om en om of toewijzing gebaseerd op geboorte- of opnamedag) is de behandelend arts tevoren op de hoogte van de toewijzing. Deze kennis vooraf kan de beslissing over toelating beïnvloeden en laat dus mogelijkheden tot manipulatie toe. Indien auteurs alleen melden dat zij geblindeerd hebben gerandomiseerd volstaat dat niet: de procedure moet beschreven zijn en kunnen worden beoordeeld. De in de toelichting bij het eerste criterium genoemde quasi random-procedures zijn per definitie niet blind voor randomisatie, omdat degene die de patiënt includeert, kan voorzien welke behandeling de patiënt gaat krijgen. Blindering van randomisatie moet worden onderscheiden van blindering van de patiënten en behandelaars (criterium 3) en blindering van de effectbeoordelaars (criterium 4). k3 k Blindering van patiënten en behandelaars

Door blindering van de patiënt wordt voorkomen dat a) hij bewust of onbewust een grotere navolging van het protocol zal hebben en b) de uitkomstmeting door voorkeuren voor behandeling wordt beïnvloed. Door blindering van de behandelaar wordt voorkomen dat hij – omdat hij op de hoogte is van de aard van de toegewezen behandeling – een bepaald enthousiasme zal uitstralen (selectieve vergroting van het placebo-effect) en een verschillende mate van het opvolgen van de richtlijnen in het onderzoeksprotocol zal hebben (door bijvoorbeeld aan de placebogroep aanvullende behandeling aan te bieden). Dit item wordt vaak voor iedere uitkomst of groep van uitkomsten (bijv. subjectieve en objectieve uitkomsten) apart beoordeeld. Blindering van patiënt en behandelaar wordt bereikt door de verumbehandeling (= werkzame behandeling) en de placebobehandeling identiek te maken. Medicijnen moeten dezelfde kleur, grootte, smaak en consistentie hebben. Ook niet-medicamenteuze placebo-interventies, zoals fysiotherapie of ruggordels, moeten voldoende identiek zijn om geloofwaardig over te komen. Evaluatie van het succes van blindering is gewenst.

4

62

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

Indien een onderzoek als dubbelblind wordt beschreven dient u goed na te gaan om wie het gaat: patiënt, behandelaar en/of effectbeoordelaar. Dit is op voorhand niet altijd duidelijk. In zogenoemde pragmatische trials, waarin behandelopties onder praktijkomstandigheden met elkaar worden vergeleken, is blindering van de patiënten vaak niet mogelijk. De auteurs dienen dan te beschrijven waarom dit niet mogelijk was en wat de consequenties daarvan zijn. Vanzelfsprekend is blindering van behandelaars in dergelijke pragmatische trials ook niet mogelijk. Anders dan bij een verklarende trial zijn in een pragmatische opzet de in de eerste alinea genoemde effecten onderdeel van de interventie, die niet geëlimineerd, maar liefst wel beschreven worden. k4 k Blindering van effectbeoordelaars

Door blindering van de effectbeoordelaar wordt voorkomen dat hij de effecten van interventieen controlebehandeling verschillend beoordeelt. Zoals ook gold bij het vorige item is evaluatie van het succes van blindering gewenst en dient u goed na te gaan of in geval van een als dubbelblind beschreven onderzoek, dit inderdaad de effectbeoordelaar betreft. De keuze van een ‘harde’ uitkomst (bijv. sterfte binnen zeven dagen) maakt geblindeerde verzameling van informatie overbodig. Mits voor iedere patiënt informatie over de gehele (van tevoren bepaalde) observatieduur wordt ingewonnen, is deze uitkomst niet gevoelig voor informatiebias. In deze laatste situatie kan blindering van de behandelend arts of van de patiënt nog steeds nodig zijn in verband met vergelijkbaarheid van niet-specifieke factoren, bijvoorbeeld met betrekking tot het voorschrijven van comedicatie. Ook dit item wordt vaak per uitkomst of groep van uitkomsten apart beoordeeld. k5 k Vergelijkbaarheid van de groepen aan het begin van het onderzoek

Dit criterium kan belangrijk zijn voor RCT’s, maar vooral voor niet-gerandomiseerde cohortonderzoeken. Bij niet-gerandomiseerd cohortonderzoek is het belangrijk extra aandacht te besteden aan de vergelijkbaarheid van de groepen. De groepen moeten aan het begin van het onderzoek op belangrijke prognostische kenmerken voldoende gelijk zijn. Theoretisch zouden de groepen alleen wat betreft de toegewezen therapie moeten verschillen. Bij beoordeling kan worden gelet op: 55 belangrijke prognostische variabelen, waaronder bijvoorbeeld ziekteduur, ernst, comedicatie, comorbiditeit; 55 uitgangswaarden van de belangrijkste uitkomstmaten; 55 demografische gegevens (geslacht, leeftijd). De vergelijkbaarheid op baseline moet in een tabel worden gerapporteerd. Het volstaat niet als de auteurs slechts beschrijven dat de groepen op baseline gelijk zijn. Kleine verschillen kunnen op basis van toeval optreden. Bij grote verschillen dient beredeneerd te worden in welke mate en in welke richting de resultaten kunnen worden beïnvloed. k6 k Volledigheid van follow-up

Het is belangrijk om per groep de aantallen patiënten bij randomisatie en bij follow-up te vergelijken. Aantallen en redenen voor uitval moeten gerapporteerd zijn. Ook als er geen uitvallers waren, dient dit te zijn beschreven. Indien de redenen van uitval uit het onderzoek of wanneer de absolute aantallen uitvallers tussen de groepen verschillend zijn en tot een vertekening van de uitkomsten kunnen leiden, heet dit selectieve loss-to-follow-up. Het is niet mogelijk op voorhand per indicatiegebied aan te geven welk percentage loss-to-follow-up nog acceptabel is.

4.4 • Therapie

63

Soms houden patiënten op met de studie-interventie, maar zijn nog wel beschikbaar voor de vervolgmetingen. De uitval voor de interventie en de uitval voor vervolgmetingen dienen apart te worden beschreven. Ook dit item wordt vaak voor iedere uitkomst of groep van uitkomsten apart beoordeeld. k7k Analyse van patiënten in de groep waarin ze waren gerandomiseerd

Patiënten die uitvallen bij een onderzoek, zijn vaak patiënten met wie het relatief goed gaat of met wie het juist relatief slecht gaat. Dit geldt ook voor patiënten die in de loop van het onderzoek de interventie (zoals onderzoeksmedicatie) staken. Wanneer deze patiënten niet in de analyse worden betrokken, kan vertekening ontstaan. Immers, bij selectieve uitval gaat de balans in het risicoprofiel (de prognose), die door randomisatie bewerkstelligd werd, verloren. In de situatie dat het al dan niet overlijden van de patiënt de uitkomst is van het onderzoek, kan deze uitkomst voor alle patiënten worden achterhaald, ongeacht of de patiënt de onderzoeksmedicatie heeft gestaakt. Wanneer op deze wijze de sterfte per behandelingsgroep wordt vastgesteld, spreekt men van een analyse volgens het intention to treat-principe. Dit betekent dus dat de patiënt, wat er ook gebeurt (overlijden aan een niet-gerelateerde oorzaak, beëindigen van de onderzoeksmedicatie, verhuizen etc.), blijft meetellen bij de groep waarin hij aan het begin van het onderzoek was ingedeeld. Ook wanneer de uitkomst minder ‘hard’ is, bijvoorbeeld het optreden van een beroerte, kan een analyse volgens het intention to treatprincipe plaatsvinden. Uitkomsten die optraden terwijl van de oorspronkelijk toegewezen behandeling was afgeweken (waaronder stoppen met de behandeling), worden in een intention to treat-analyse dus toegerekend aan de bij randomisatie toegewezen behandeling. De effecten van de indexbehandeling worden hierdoor verdund. Het waargenomen effect zal dus minder groot zijn dan in principe mogelijk is. In verklarende trials wordt dit door sommigen als nadeel gezien. Daar staat tegenover dat afwijkingen van de voorgeschreven behandeling ook in de dagelijkse klinische praktijk voorkomen, zodat aangenomen mag worden dat de intention to treat-analyse een realistisch beeld geeft van de te verwachten uitkomsten. Een alternatief is de per protocol-analyse, waarbij alleen gebeurtenissen in acht worden genomen die optraden vóór beëindiging van de onderzoeksmedicatie. In het algemeen leidt een dergelijke analyse tot een te optimistisch beeld van de indexbehandeling, een reden waarom de voorkeur wordt gegeven aan een analyse volgens het intention to treat-principe. In de situatie dat een therapeutisch experiment is uitgevoerd met als doelstelling te leren over de effecten van een interventie die onder perfecte omstandigheden is uitgevoerd (een verklarend onderzoek), wordt soms de voorkeur gegeven aan de per protocol-analyse. Het intention to treat-principe kan alleen worden toegepast wanneer de uitkomst in principe voor alle patiënten (achteraf) kan worden vastgesteld. Wanneer de uitkomst het resultaat van een meting is, bijvoorbeeld de afname van een depressiviteitschaal een halfjaar na randomisatie, kan het intention to treat-principe niet zonder meer worden toegepast. De mate van depressiviteit na zes maanden kan vaak niet voor alle patiënten worden vastgesteld. Het ligt voor de hand dat dit patiënten zijn die voortijdig ‘genezen’ of bij wie juist de klachten tot een onhoudbare situatie leiden. Het heeft in deze situatie van ontbrekende metingen de voorkeur de ontbrekende waarden in te vullen met een geloofwaardig alternatief. Soms kiest men ervoor de laatst gemeten waarde van de depressiviteitscore te substitueren voor de ontbrekende eindwaarde. Men spreekt dan van een last observation carried forward-analyse. Ook kan men nagaan wat de uitkomst is voor de uitvallers wanneer de gunstigste uitkomst wordt ingevuld (best case-analyse) of wanneer juist de slechtste uitkomst wordt gekozen (worst case-analyse). Ook zijn er computerprogramma’s die de uitkomsten op basis van de wel bekende gegevens

4

64

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

van de patiënt en de gegevens van de overige patiënten modelleren. Een analyse waarbij de patiënten met een ontbrekende eindwaarde worden weggelaten, kan onbetrouwbaar zijn. Wanneer geen substitutie kan plaatsvinden (bijv. door het geheel ontbreken van scores na randomisatie), is er vaak geen andere oplossing dan deze patiënten van de analyse uit te sluiten. In dat geval worden de desbetreffende patiënten als ‘niet-evalueerbaar’ gerapporteerd. De analyse geldt dan als betrouwbaar indien aannemelijk is dat de uitval in beide groepen vergelijkbaar is (criterium 6). Bij een intention to treat-analyse wordt dus steeds getracht alle gerandomiseerde patiënten in de analyse te betrekken. Slechts bij uitzondering worden patiënten als niet-evalueerbaar van de analyse uitgesloten. Op deze wijze wordt recht gedaan aan het principe dat randomisatie leidt tot vergelijkbare groepen en dat iedere afwijking hiervan een bedreiging vormt voor de interne validiteit. Er is één uitzondering. Indien achteraf ondubbelzinnig kan worden vastgesteld dat enkele patiënten (op grond van gegevens gemeten voor randomisatie) niet aan de inclusiecriteria voldeden, kan worden overwogen deze patiënten van de analyse uit te sluiten. De randomisatie heeft deze patiënten immers willekeurig over de behandelingsgroepen verdeeld. Het voordeel ligt in een betere toepasbaarheid van de resultaten van het onderzoek. De resultaten van de patiënten die niet aan de selectiecriteria voldeden, vertroebelen de beoogde indicatiestelling. k8 k Gelijke behandeling van de groepen, afgezien van de interventie

Als in een verklarende trial naar het geïsoleerde effect van een interventie wordt gezocht, dient de behandeling van de patiënten in de verschillende groepen, behalve het door randomisatie beoogde contrast, geen verschillen te vertonen. Bij goed geblindeerde behandelingen is de vergelijkbaarheid daarvan in de regel geen probleem. Bij de beoordeling kan worden gelet op: 55 co-interventies: verdeling van behandelingen anders dan de door randomisatie toegewezen behandeling(en). Soms worden deze door de onderzoekers onder controle en dus gelijk gehouden. In andere gevallen worden de co-interventies per groep gerapporteerd. Indien er geen melding van co-interventies wordt gemaakt, moet men op zijn hoede zijn; 55 contaminatie: in geval van contaminatie krijgt of zoekt de patiënt in de loop van het onderzoek precies de behandeling die eigenlijk aan de andere groep toegewezen is; 55 therapietrouw: indien de therapietrouw aan de toegewezen behandeling in de ene groep veel groter is dan in de andere, kan dit de interpretatie van de gegevens verstoren. Voor pragmatische trials, waarin behandelopties onder praktijkomstandigheden met elkaar worden vergeleken, geldt vanzelfsprekend niet dat co-interventies, contaminatie en therapietrouw gelijk moeten worden gehouden. Deze effecten zijn namelijk een natuurlijk onderdeel van de verschillende behandelopties. Om de toepasbaarheid van de studie (vergelijkbaarheid met de eigen situatie) te kunnen interpreteren (zie hierna bij paragraaf ‘Toepasbaarheid’) is het wel belangrijk dat deze kenmerken voor de te vergelijken interventies apart in voldoende detail worden beschreven. k9 k Selectieve publicatie

Sinds 2005 vragen belangrijke tijdschriften om registratie van trials, voorafgaand aan de inclusie van patiënten (zie extras.bsl.nl/inleidingebm voor een overzicht van trialregisters). Dit maakt de beoordeling van (ongewenste) afwijkingen van het trialprotocol achteraf mogelijk. Zo kan in het artikel een andere ‘primaire’ uitkomst worden gerapporteerd dan zoals gedefinieerd in het protocol (bijv. omdat de in het protocol genoemde primaire uitkomst uiteindelijk geen significant verschil opleverde). Ook worden niet altijd alle bestudeerde uitkomsten gerapporteerd.

65

4.4 • Therapie

Als voor een bepaalde uitkomst geen significant verschil wordt gevonden, wordt zo’n resultaat nog weleens weggelaten. Het moge duidelijk zijn dat dit ongewenst is: men wordt op deze wijze dan alleen maar geconfronteerd met ‘positieve’ resultaten. k10 k Sponsoring

De manier waarop een trial is gefinancierd kan invloed hebben op de uitkomsten hiervan. De manier en omvang van de sponsoring moet zijn beschreven. Het moet vermeden zijn dat de sponsor invloed op de uitkomsten heeft gehad. Dit moet dan ook expliciet zo worden gemeld. Als dit niet zo is moet worden nagegaan welke invloed sponsoring op de uitkomsten kan hebben. zz Belang k1k Grootte van het effect

De ruwe gegevens van een onderzoek bevatten alle informatie over het onderzochte behandelingseffect. In deze vorm is de informatie echter niet toegankelijk, noch voor de onderzoeker zelf, noch voor anderen. In de paragraaf ‘Resultaten’ van een artikel worden in de eerste plaats de onderzoeksbevindingen beschrijvend in beknopte vorm weergegeven. Naast deze beschrijvende gegevens worden ook statistische grootheden gepresenteerd, die de lezer behulpzaam zijn bij de interpretatie van de gegevens. Wij gebruiken de resultaten van het Epilog-onderzoek als illustratie van de onderliggende principes. Epilog was een gerandomiseerd onderzoek naar de effectiviteit van abciximab in vergelijking tot een placebo bij patiënten die een coronaire revascularisatie moesten ondergaan. Beide groepen kregen daarnaast een behandeling met heparine. Abciximab is een monoklonaal antilichaam tegen de glycoproteïne-IB/IIIA-receptor. De resultaten van het onderzoek luiden als volgt: behandeling

eindpunt

totaal

percentage

abciximab

48

935

5,1%

placebo

109

939

11,6%

Het klinisch beloop in de groepen patiënten wordt gekarakteriseerd door de proportie (fractie) patiënten die binnen dertig dagen overlijden, een hartinfarct krijgen, dan wel urgent gerevasculariseerd worden: voor de met abciximab behandelde groep 5,1% en voor de placebogroep 11,6%. Voor de individuele patiënt is dit percentage (proportie × 100%) de uitdrukking van het risico om gedurende de observatieperiode het eindpunt te ontwikkelen. Het effect van de indexbehandeling ten opzichte van de controlebehandeling wordt uitgedrukt in een effectschatting. Men kan het risico in de indexgroep delen door dat in de controlegroep; hierdoor ontstaat het relatieve risico (RR, relative risk, risicoratio of risk ratio). In het voorbeeld is RR gelijk aan: RR = 5,1% / 11,6% = 0,44 44

Dit houdt in dat abciximab het risico op het (gecombineerde) eindpunt tot een factor 0,44 doet afnemen. Een RR van 1 duidt op gelijke effectiviteit van de behandelingen, RR < 1 op een (in dit geval) gunstig effect en een RR > 1 op een ongunstig effect van de indexbehandeling ten opzichte van de controlebehandeling. Een maat die hier nauw mee verwant is, is de relatieve risicoreductie (RRR), die gedefinieerd wordt als:

4

66

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

In het voorbeeld is de relatieve risicoreductie gelijk aan 56%. Dit houdt dus in dat abciximab bij 56% van de patiënten het eindpunt voorkómt waar ze zonder abciximab wel terecht zouden zijn gekomen. Met andere woorden, door behandeling met abciximab neemt het risico op het eindpunt af met 56%. Door de risico’s van elkaar af te trekken ontstaat het risicoverschil (RV), ook wel absolute risicoreductie (ARR) genoemd. Voor abciximab is:

Dit houdt in dat met abciximab behandelde patiënten 6,5% minder kans hebben op het eindpunt. Of anders geformuleerd: wanneer honderd patiënten met abciximab worden behandeld, kunnen 6,5 eindpunten worden voorkomen. Nauw verwant met het RV is het ‘aantal nodige behandelingen om één gebeurtenis te voorkomen’ (number needed to treat (NNT)). In het voorbeeld is:

Dit houdt in dat vijftien tot zestien patiënten met abciximab behandeld moeten worden om één eindpunt meer te voorkomen dan met placebo bereikt zou zijn. Er moet op gewezen worden dat de NNT afhankelijk is van de follow-upduur en de kans op de gebeurtenis in de controlegroep (ook wel achtergrondrisico genoemd). Bij een langere follow-upduur is de kans op een gebeurtenis (eindpunt) vanzelfsprekend groter. Als de NNT’s van verschillende onderzoeken worden vergeleken, moet worden gecontroleerd of de followupduren ook vergelijkbaar zijn. De relatie tussen de NNT en het achtergrondrisico wordt verder toegelicht in de paragraaf ‘Toepasbaarheid’ hierna en in 7 H. 7. In veel situaties bestaat de neiging de voorkeur te geven aan het gebruik van de relatieve risicoreductie. Wanneer behandelingseffecten op deze wijze worden uitgedrukt, maken zij meer indruk dan wanneer het risicoverschil wordt gebruikt. Men vergelijke ‘het aantal eindpunten wordt met 56% teruggebracht’ met ‘bij honderd behandelingen worden 6,5 eindpunten voorkomen’. Uit onderzoek is gebleken dat clinici bij levensbedreigende aandoeningen minder geneigd zijn een nieuwe behandeling toe te passen wanneer het behandelingseffect werd weergegeven als risicoverschil dan wanneer de relatieve risicoreductie werd gebruikt. Daar staat tegenover dat het RV (en de hieruit afgeleide NNT) de gezondheidswinst relateert aan het benodigde aantal te behandelen patiënten. Zowel voor de individuele patiënt als voor de maatschappij (de gezondheidswinst kan direct worden uitgedrukt in relatie tot gemaakte kosten) is dit de relevantste parameter. Het gebruik van absolute of relatieve associatiematen levert dus een verschillend beeld op. Het verdient daarom de voorkeur dat de resultaten zowel in relatieve als in absolute manier beschreven of zelf uitgerekend (zie . tabel 4.5) worden. Als de oorspronkelijke getallen in het artikel gepresenteerd worden, kan men deze associatiematen ook zelf berekenen (zie . tabel 4.5). Hiervoor zijn overigens ook verschillende softwarepakketten beschikbaar, die via een zoekmachine zijn op te sporen, onder andere met de trefwoorden “EBM” en “calculator”.

67

4.4 • Therapie

. Tabel 4.5 Berekening van effectmaten (associatiematen) in een randomised controlled trial (RCT) of cohortonderzoek met dichotome uitkomsten (EXP[x]betekent: het natuurlijke getal e verheffen tot de macht x) notatie

uitkomst aanwezig

afwezig

Totaal

indexgroep (of blootgestelden)

a

b

a+b

referentiegroep (of niet-blootgestelden)

c

d

c+d

parameter

berekening

95%-betrouwbaarheidsinterval

kans op de uitkomst (risico) in de indexgroep

a / (a + b)

kans op de uitkomst (risico) in de referentiegroep

c / (c + d)

risicoverschil (RV)

a / (a + b) – c / (c + d)

RV ± 1,96 * √ [ ab / (a + b)3 + cd / (c + d)3 ]

relatieve risico (RR)

[a / (a + b)] / [c / (c + d)]

EXP [ LN(RR) ± 1,96 * √ [1 / a –1 / (a + b) +1 / c –1 / (c + d)] ]

relatieve risicoreductie (RRR)

1 – RR

via 95%-betrouwbaarheidsinterval voor RR

number needed to treat (NNT)

1 / RV

via 95%-betrouwbaarheidsinterval voor RV

k2 k Precisie van de effectschatting

De waargenomen risico’s, en dus de waargenomen RR en RV, zijn onderhevig aan toevalsvariatie: andere uitkomsten kunnen worden verwacht indien het onderzoek onder dezelfde omstandigheden opnieuw zou worden uitgevoerd. Deze ‘steekproefvariatie’ zorgt voor onzekerheid over de bepaling van het RR en het RV. Het is mogelijk deze onzekerheid over deze effectschattingen te kwantificeren. Hiervoor wordt het 95%-betrouwbaarheidsinterval gebruikt, dat bestaat uit een interval (rondom het waargenomen relatieve risico) van mogelijke waarden die geacht mogen worden te passen bij de waarnemingen. In het abciximab-voorbeeld (met een RR van 0,44) reikt het 95%-betrouwbaarheidsinterval van 0,32 tot 0,61. Het betrouwbaarheidsinterval kan worden gezien als een intervalschatting van het werkelijke relatieve risico. Dit betrouwbaarheidspercentage, volgens conventie op 95% gesteld, geeft het betrouwbaarheidsinterval een zodanige breedte dat het in 95% van de toepassingen het werkelijke relatieve risico omsluit. Op grond van deze eigenschap kan met 95% zekerheid worden gesteld dat het werkelijke relatieve risico ook in het berekende interval ligt. De breedte van het betrouwbaarheidsinterval weerspiegelt alleen informatie die werd verkregen uit het onderhavige onderzoek (en niet de overige informatie). Als zodanig kan het betrouwbaarheidsinterval gezien worden als een indicatie van de precisie (nauwkeurigheid) waarmee het behandelingseffect (RR) werd bepaald. De breedte van het interval is sterk afhankelijk van de grootte van de groepen: hoe groter de groepen, hoe smaller het betrouwbaarheidsinterval. Kleine onderzoeken hebben brede betrouwbaarheidsintervallen en leveren weinig informatie. Grote onderzoeken hebben smalle

4

68

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

betrouwbaarheidsintervallen en leveren veel informatie. Bij het opzetten van een onderzoek bepaalt de onderzoeker door de keuze van de groepsgrootte de precisie van het onderzoek. Een effectschatting (RR, RV, NNT) met betrouwbaarheidsinterval geeft een direct interpreteerbare beschrijving van de relevante informatie uit een onderzoek. Door de eerste wordt het behandelingseffect gekwantificeerd, door de tweede de zekerheid. Dit is de enig juiste methode, die dan ook bij elk onderzoek gehanteerd zou moeten worden. Helaas wordt deze methode niet altijd toegepast. Nog steeds worden resultaten gepresenteerd in de vorm van statistische toetsen met bijbehorende begrippen als ‘statistische significantie’ en ‘p < 0,05’. In tegenstelling tot het betrouwbaarheidsinterval, met behulp waarvan de onzekerheid over het waargenomen relatieve risico wordt gekwantificeerd, legt de statistische toets de nadruk op de vraag of de waargenomen uitkomsten nog verenigbaar zijn met de hypothese dat de indexbehandeling (middel) even effectief is als de controlebehandeling (placebo). Deze hypothese wordt de nulhypothese (H0) genoemd. Een statistische toets is een formeel beslissingsschema om, aan de hand van de resultaten van het onderzoek, een kwalitatieve uitspraak te doen over de werkzaamheid van het middel (of in statistisch jargon: om de nulhypothese al dan niet te verwerpen). De uitspraak wordt gedaan op geleide van de p-waarde: een getal tussen 0 en 1, dat uit de gegevens van het onderzoek kan worden berekend. De regel is als volgt: een behandelingseffect heet aanwezig (ofwel: de nulhypothese wordt verworpen) wanneer de berekende p-waarde kleiner is dan 0,05. Het onderzoekresultaat heet dan statistisch significant. Het getal 0,05 wordt de drempelwaarde genoemd en wordt genoteerd als alfa (α). Ook wordt de term ‘significantieniveau’ gehanteerd. Het is tevens mogelijk een andere drempelwaarde te kiezen, bijvoorbeeld 0,01. In dat geval spreekt men van statistische significantie op het 1-procentsniveau. Statistische significantie is een eigenschap van de onderzoekresultaten. De klinische relevantie van het behandelingseffect hangt vooral af van de grootte van het behandelingseffect, dat wil zeggen van de grootte van het waargenomen RR of het waargenomen RV. Vooral bij grote onderzoeken komt het voor dat bij een waargenomen RR dat klinisch gesproken nauwelijks van 1 verschilt toch significantie optreedt (zie . figuur 4.7). De statistische toets is dan gevoelig voor kleine, klinisch niet-relevante behandelingseffecten en is praktisch niet bruikbaar meer. Het omgekeerde komt echter veel vaker voor. Wanneer een onderzoek te klein is, heeft het een laag onderscheidingsvermogen. Dit houdt in dat het onderzoek niet in staat is klinisch relevante effecten statistisch te detecteren. De p-waarde is dus alleen een bruikbaar hulpmiddel bij het trekken van conclusies wanneer de onderzoeksgroepen voldoende groot zijn. Of het onderzoek voldoende groot was, valt niet uit de p-waarde af te lezen. De criteria voor ‘voldoende groot’ zijn niet gemakkelijk te geven. Daardoor is de betekenis van ‘significant’ en ‘niet-significant’ vaak moeilijk te schatten. Deze problemen zijn te vermijden door gebruik te maken van direct interpreteerbare effectschattingen zoals RR en RV, aangevuld met een betrouwbaarheidsinterval. zz Toepasbaarheid

De toepasbaarheid van trialresultaten op de individuele patiënt wordt uitgebreider beschreven in 7 H. 7. We beperken ons hier tot de hoofdzaken. k1k Overeenkomst van de patiënten in het onderzoek met de eigen patiënt(en)

Hiervoor moet worden beoordeeld of de eigen patiënt wel voldoet aan de in- en exclusiecriteria van het onderzoek. Bij de beoordeling kan worden gelet op bijvoorbeeld ziekteduur, ernst, comedicatie, comorbiditeit, het echelon waarin het onderzoek is uitgevoerd en demografische gegevens als geslacht en leeftijd. Het strikt toepassen van deze vergelijking zal opleveren dat vaak

69

4.4 • Therapie

klinisch relevant verschil

geen verschil

a b statistisch significant

klinisch belangrijk

klinisch onbelangrijk

c d statistisch niet significant

geen conclusie mogelijk

daadwerkelijk negatief

. Figuur 4.7 Onderscheid tussen statistische significantie en klinische relevantie. De verticale lijnen vertegenwoordigen de 95%-betrouwbaarheidsintervallen rond het verschil tussen indexbehandeling en referentiebehandeling: a. verschil is statistisch significant en klinisch relevant; b. verschil is statistisch significant maar klinisch onbelangrijk; c. verschil is statistisch niet significant en de klinische relevantie onzeker; d. verschil is statistisch niet significant en klinisch onbelangrijk. Bron: Berry, et al, 1986.

een passend onderzoek ontbreekt. Daarom moet eerder een kwalitatieve klinische afweging worden gemaakt: zijn er redenen om aan te nemen dat mijn patiënt anders op de interventie zal reageren dan de patiënten in het onderzoek? Verder moet nauwlettend aandacht worden geschonken aan rapportage van positieve effecten in bepaalde subgroepen, bijvoorbeeld alleen een positief effect bij mannen en niet bij vrouwen, of wel bij vrouwen ouder dan vijftig jaar, maar niet bij vrouwen jonger dan vijftig jaar. Door vele analyses na elkaar te doen, kan op basis van toeval een subgroep met een positief effect voor de therapie worden gevonden. Om dit soort fout-positieve bevindingen bij subgroeprapportages te voorkomen, kan aandacht worden besteed aan de volgende beoordelingscriteria: 55 Positieve resultaten in subgroepen die reeds voorafgaand aan het onderzoek waren benoemd, zijn geloofwaardiger dan resultaten in achteraf samengestelde subgroepen. 55 De biologische en klinische plausibiliteit is belangrijk. 55 Duidelijk significante en klinisch relevante verschillen zijn geloofwaardiger. 55 Een geïdentificeerde subgroep is geloofwaardiger indien deze consistent in een aantal verschillende onderzoeken is gevonden. 55 Een klein aantal subgroepanalyses beperkt de kans op fout-positieve bevindingen. k2 k Haalbaarheid in de eigen praktijkvoering

Hierbij zal moeten worden beoordeeld of de patiënt of de verzekering in staat is de kosten van de behandeling, inclusief de noodzakelijke controles, te betalen. Naast kosten bepalen de beschikbaarheid van voldoende geschoold personeel en speciale apparatuur de haalbaarheid.

4

70

Hoofdstuk 4 • Kritisch beoordelen van een artikel

Voor een pragmatische trial moet ook worden beoordeeld of de eigen praktijk wel voldoende lijkt op de controle-interventie, om zodoende te kunnen inschatten in hoeverre het trialresultaat ook leidt tot te behalen winst in de eigen praktijk wanneer de nieuwe interventie zou worden toegepast. k3 k Voor- en nadelen van behandeling voor de patiënt

4

De NNT hangt af van het absolute risico van een patiënt op de uitkomst. Een patiënt met een laag risico (en dus een gunstige prognose) heeft relatief minder baat bij een behandeling, wat tot uitdrukking komt in een grotere NNT. De NNT wordt in de behandelbeslissing afgewogen tegen met name de kosten en bijwerkingen (zie voor een uitgebreidere bespreking van deze afwegingen 7 H. 7). In een RCT zal derhalve – voor zover dat mogelijk is; zie 7 par. 4.5 – ook aan bijwerkingen aandacht moeten worden geschonken. Een RCT is door de vaak kleinere aantallen patiënten niet informatief voor zeldzame (ernstige) bijwerkingen. k4 k Ideeën en voorkeuren van de patiënt

De patiënt zal moeten worden geïnformeerd over de effectiviteit van de therapie en de mogelijke bijwerkingen. De patiënt kan dan mede bepalen aan welke uitkomstmaat hij de meeste waarde hecht. Dit kan soms duidelijk verschillen van wat de arts meent dat belangrijk is. De arts kan zich bijvoorbeeld vooral op de kans op overleven richten, terwijl de patiënt de kwaliteit van leven (bijv. het nog kunnen deelnemen aan verenigingsactiviteiten) het belangrijkst blijkt te vinden. Ook de waardering van bijwerkingen kan per patiënt verschillend zijn. Voor de ene patiënt is een verminderd libido onaanvaardbaar, terwijl het de andere patiënt niets uitmaakt. Sommige patiënten besluiten op basis van informatie of eerdere ervaringen (van henzelf of van familieleden) om bepaalde effectief bevonden behandelingen toch niet te willen ondergaan of behandelingen met minimale voordelen juist wel te willen ondergaan. 4.4.3 Conclusie

In deze paragraaf is in het bijzonder de beoordeling van de RCT aan de orde geweest. Door randomisatie en indien mogelijk blindering kunnen veel potentiële bronnen van vertekening van het therapieresultaat worden uitgeschakeld. Indien een RCT beschikbaar is of een systematische review van RCT’s, kan de arts zich hier in eerste instantie op richten. Het kritisch lezen van een RCT dient systematisch te gebeuren, omdat elk beoordelingsaspect een belangrijke verstorende invloed kan hebben. Ten slotte zal de arts zich een indruk moeten vormen van de effectiviteit van de interventie in zijn eigen setting en voor de individuele patiënt voor wie op dat moment een keuze moet worden gemaakt. De inschatting van de NNT speelt hierin een grote rol. De afwegingen die hierbij moeten worden gemaakt, worden uitgebreid besproken in 7 H. 7. Literatuur Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elbourne D, Gøtzsche PC, Lang T; CONSORT Group (Consolidated Standards of Reporting Trials). The revised CONSORT statement for reporting randomized trials: explanation and elaboration. Ann Intern Med 2001;134:663–94. Campbell MK, Piaggio G, Elbourne DR, Altman DG; CONSORT Group. Consort 2010 statement: extension to cluster randomised trials. BMJ 2012;345:e5661. Elbourne DR, Campbell MK. Extending the CONSORT statement to cluster randomized trials: for discussion. Stat Med 2001;20:489–96.

4.5 • Bijwerkingen en etiologie

71

Higgins JPT, Altman DG, Sterne JAC (editors). Chapter 8: Assessing risk of bias in included studies. In: Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 (updated March 2011). The Cochrane Collaboration, 2011. Available from 7 www.cochrane-handbook.org. Moher D, Schulz KF, Altman DG. The CONSORT statement: revised recommendations for improving the quality of reports of parallel-group randomised trials. Lancet 2001;357:1191–4. Schulz KF, Altman DG, Moher D; CONSORT Group. CONSORT 2010 statement: updated guidelines for reporting parallel group randomised trials. BMJ 2010;340:c332. Straus SE, Glasziou P, Richardson WS, Haynes RB. Evidence-based Medicine: How to practice and teach it. 4. Therapy. Fourth edition. Edinburgh: Churchill Livingstone, 2011. ISBN: 978-0-7020-3127–4. Zwarenstein M, Treweek S, Gagnier JJ, Altman DG, Tunis S, Haynes B, Oxman AD, Moher D; CONSORT group; Pragmatic Trials in Healthcare (Practihc) group. Improving the reporting of pragmatic trials: an extension of the CONSORT statement. BMJ 2008;337:a2390.

4.5 Bijwerkingen en etiologie E.P. van Puijenbroek, M. Offringa en R.J.P.M. Scholten 4.5.1 Inleiding

Wanneer we een patiënt behandelen met een geneesmiddel, dan dient dit uiteraard veilig te gebeuren. Het inschatten van de kans op het optreden van bijwerkingen is een belangrijke stap bij de therapiekeuze. Informatie over de incidentie van deze bijwerkingen is vaak afkomstig van grote epidemiologische onderzoeken. Er is bijvoorbeeld uit onderzoek bekend dat het risico op diepe veneuze trombose bij een derdegeneratie-anticonceptiepil hoger is dan bij een tweedegeneratiepil of dat bij sommige patiënten de behandeling met een nieuw type antidiabeticum een verhoogde kans geeft op het optreden van hart- en vaatziekten ten opzichte van een bestaand antidiabeticum. Maar hoe dient de kwaliteit van deze onderzoeken te worden beoordeeld en wat zijn de consequenties van deze bevindingen voor de patiënt die tegenover u zit? Onderzoek naar bijwerkingen heeft veel overeenkomsten met etiologisch onderzoek, het onderzoek naar oorzaken van ziekten. In etiologisch onderzoek is de determinant geen behandeling met een geneesmiddel, maar een potentieel schadelijke factor. Deze paragraaf heeft zowel betrekking op onderzoek naar ernstige bijwerkingen als etiologisch onderzoek. Omwille van de leesbaarheid wordt in de tekst voornamelijk uitgegaan van onderzoek naar bijwerkingen; de beschreven onderzoeksmethodes en principes zijn echter ook toepasbaar op etiologisch onderzoek. Er is dan sprake van blootstelling aan een schadelijke factor (bijv. roken) in plaats van een blootstelling aan een geneesmiddel. zz Ontdekken van bijwerkingen

Op het moment dat geneesmiddelen worden toegelaten op de markt is nog niet alle informatie over mogelijke bijwerkingen bekend. Hiervoor zijn verschillende redenen aan te geven. Onderzoeken die in de fase voor de registratie van geneesmiddelen worden uitgevoerd, veelal randomised controlled trials (RCT’s), zijn vooral gericht op het vaststellen van de effectiviteit van nieuwe middelen. Ze spelen echter een minder grote rol bij het ontdekken van bijwerkingen. De grootte van RCT’s is bovendien doorgaans ‘beperkt’ tot hooguit een paar duizend patiënten. Hierdoor kunnen alleen de vaak voorkomende bijwerkingen in een RCT aan het licht komen. Daarnaast worden bijwerkingen met een lange latentietijd, zoals de ontwikkeling van carcinomen, door de beperkte duur van de RCT’s evenmin ontdekt. Belangrijk is ook dat bij de inclusie vaak relatief gezonde proefpersonen worden geselecteerd, die meestal geen of weinig comedicatie gebruiken, niet zwanger zijn en bij wie geen sprake is van een uitgebreide comorbiditeit. Ook ouderen en kinderen worden veelal van deze onderzoeken uitgesloten. Tot

4

72

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

slot worden in RCT’s in de regel alle onverwachte klinische verschijnselen (adverse events) en niet alleen die met een causale relatie met het gebruikte geneesmiddel (adverse drug reactions ofwel de ‘echte’ bijwerkingen) verzameld. Hierdoor kan de interpretatie van gegevens over mogelijke bijwerkingen lastig zijn. De gegevens die voortkomen uit de RCT’s die in het kader van het preregistratieonderzoek worden uitgevoerd, zijn dus minder geschikt voor het op het spoor komen van nog onbekende bijwerkingen. In de meeste gevallen vindt signaleren van mogelijk nieuwe bijwerkingen plaats aan de hand van observaties in de dagelijkse praktijk. Onverwachte klinische verschijnselen bij een patiënt of een afwijkend beloop van een ziekte kunnen de arts op het spoor zetten van een mogelijke bijwerking. Door het publiceren van deze voorvallen in de vorm van case reports of het melden van deze observaties aan hiervoor aangewezen instanties worden ook anderen opmerkzaam gemaakt en zo kunnen soortgelijke waarnemingen eerder worden herkend. Casuïstiek neemt daarom in de huidige evidence-based wereld onveranderd een belangrijke plaats in. De ontdekking van nog onbekende bijwerkingen en het vaststellen van de incidentie hiervan zijn twee afzonderlijke zaken. Het analyseren van deze casuïstiek richt zich in de eerste plaats op het ontdekken van een nieuwe bijwerking en heeft dus een ander doel dan RCT’s, cohort- of patiëntcontroleonderzoek, waarbij kwantificeren van een mogelijke relatie veelal vooropstaat. De detectie van bijwerkingen Bij het ontdekken van bijwerkingen na het op de markt brengen van een geneesmiddel zijn observaties in de dagelijkse klinische praktijk van onmisbare waarde. Deze kunnen worden gemeld aan het Nederlands Bijwerkingen Centrum Lareb, waar nadere analyse van een mogelijk signaal van een nieuwe bijwerking plaatsvindt, onder meer aan de hand van andere meldingen uit soortgelijke centra wereldwijd. Door deze praktijkobservaties te publiceren kan een eerste signaal worden afgegeven dat een geneesmiddel een bepaalde bijwerking kan veroorzaken. Voor het daadwerkelijk bepalen van de incidentie van een bijwerking is aanvullend epidemiologisch onderzoek noodzakelijk.

zz Kwantificeren van de sterkte van het effect

Het is van belang om de samenhang tussen de mate van blootstelling aan het geneesmiddel en het optreden van bijwerkingen in een getal (puntschatter van de samenhang) uit te drukken. De bedoeling is dat deze schatter niet wordt beïnvloed door verstorende factoren. In de hiërarchie van validiteit van onderzoek komt de RCT op de eerste plaats, gevolgd door verschillende vormen van niet-experimenteel ofwel observationeel onderzoek, zoals cohort- en patiëntcontroleonderzoek. Minder ernstige, frequent voorkomende bijwerkingen zouden nog wel in het kader van een RCT kunnen worden opgespoord, maar voor de analyse van zeldzame en ernstige bijwerkingen moet worden gebruikgemaakt van grootschalige langdurige observationele cohort- of patiëntcontroleonderzoeken. In cohortonderzoek worden aan het geneesmiddel blootgestelde en niet-blootgestelde personen gedurende een voldoende lange periode gevolgd en wordt het optreden van de ongewenste bijwerking bestudeerd. Een bijzondere vorm van cohortonderzoek gericht op het onderzoek naar bijwerkingen is de ‘intensive monitoring’. Bij dit niet-gerandomiseerd onderzoek worden gebruikers van geneesmiddelen gedurende langere tijd gevolgd in cohorten van soms enkele tienduizenden gebruikers.

4.5 • Bijwerkingen en etiologie

73

In patiëntcontroleonderzoek wordt blootstelling aan het onderzochte geneesmiddel van patiënten met de bestudeerde bijwerking vergeleken met die van controlepersonen zonder de bijwerking. Door het observationele karakter kent onderzoek naar bijwerkingen een aantal methodologische problemen. Verstorende factoren kunnen de resultaten van dergelijk onderzoek flink vertekenen. Deze verstorende factoren zijn vaak factoren die zowel samenhangen met de bijwerking als met de kans op blootstelling aan het geneesmiddel (of andere interventie). Een voorbeeld hiervan is dat bepaalde geneesmiddelen worden voorgeschreven aan of bepaalde operaties worden uitgevoerd bij patiënten met een verhoogd risico op een ongunstige uitkomst. Denk bijvoorbeeld aan operaties bij obesitas (bariatrische chirurgie). Bij mensen met een ernstige morbide obesitas worden doorgaans de minst ingrijpende operaties uitgevoerd (bijv. maagverkleining door het aanleggen van een maagband), terwijl bij mensen met minder ernstige obesitas juist de ingrijpendere operaties worden uitgevoerd (zoals een combinatie van maagresectie en een bypassoperatie van de maag). Als beide groepen worden vergeleken met betrekking tot het optreden van morbiditeit en mortaliteit, kan het lijken alsof de minst ingrijpende operatie de meeste ongunstige uitkomsten (morbiditeit en overlijden) veroorzaakt, terwijl dit in werkelijkheid komt door de slechte uitgangspositie van de desbetreffende patiëntengroep. Men spreekt hier van confounding by indication. Indien het gaat om een bijwerking die nieuw is of een bijwerking waarbij het niet goed mogelijk is om te voorspellen wie het zal krijgen, is het bij het voorschrijven van het desbetreffende geneesmiddel niet mogelijk voor de arts om hier rekening mee te houden. Dit betekent dat er geen bedoeld verband is tussen het risico van optreden van de bijwerking en het voorschrijven van specifieke geneesmiddelen. Hiermee wordt de blootstelling als het ware door het toeval bepaald, net zoals bij een RCT. In dergelijke situaties is een observationeel onderzoek zeer valide. Dit neemt niet weg dat in de regel vergeleken met experimenteel onderzoek (RCT’s) de kans op vertekening bij observationeel onderzoek groter is. Beoordeling van de kwaliteit van publicaties over dit type onderzoek is dan ook met name gericht op de interne validiteit, waarbij wordt gekeken in hoeverre er sprake is van selectiebias, informatiebias en confounding. Ook bij een valide onderzoek dient alsnog te worden gekeken of er inderdaad sprake is van een oorzakelijk verband tussen het gebruik van het geneesmiddel en het optreden van de klinische verschijnselen. Met andere woorden: is er echt sprake van een bijwerking of is er een andere verklaring? Hierna wordt verder aandacht besteed aan de beoordeling van de kwaliteit van onderzoeken naar bijwerkingen en de betekenis van de gevonden onderzoekresultaten. Tot slot wordt gekeken hoe deze gegevens kunnen worden gebruikt bij de behandeling van de individuele patiënt. 4.5.2 Beoordeling van een onderzoek over bijwerkingen of etiologie

De beoordeling van een observationeel (niet-experimenteel) onderzoek over bijwerkingen of etiologie valt uiteen in de beoordeling van de interne validiteit ervan, het belang van de uitkomsten en de toepasbaarheid van de resultaten. De algemeen geaccepteerde Newcastle Ottawa Scale (NOS) is een checklist die gericht is op de beoordeling van cohort- of patiëntcontroleonderzoek. De belangrijkste onderdelen hiervan worden in deze paragraaf besproken. De STROBE-checklist wordt in dit kader ook vaak genoemd. STROBE is een checklist voor het rapporteren van observationele onderzoeken in bredere zin, maar bevat eveneens een goed overzicht van de belangrijkste items.

4

74

Hoofdstuk 4 • Kritisch beoordelen van een artikel

Beoordelingscriteria

4

(checklist beschikbaar op extras.bsl.nl/inleidingebm) Validiteit 1. definiëring van de te vergelijken groepen 2. afwezigheid van selectiebias 3. onafhankelijke (blinde) meting van blootstelling en uitkomsten 4. in cohortonderzoek: duur en volledigheid van follow-up 5. in patiëntcontroleonderzoek: nieuwe (incidente) ziektegevallen 6. in patiëntcontroleonderzoek: afwezigheid misclassificatie 7. adequate correctie (in de analyse) voor belangrijke prognostische factoren (confounders) Belang 1. grootte van het effect 2. precisie van de effectschatting Toepasbaarheid en implicatie 1. overeenkomst met de eigen patiënt(en) 2. kans op de bijwerking 3. de verwachtingen, voorkeuren en waarderingen 4. beschikbaarheid van alternatieve behandelingen

zz Validiteit k1k Definiëring van de te vergelijken groepen

De belangrijkste kenmerken van de onderzochte groepen moeten duidelijk zijn beschreven. Het gaat hier om demografische gegevens, de setting waarin het onderzoek plaatsvond, de criteria voor selectie in de cohorten (cohortonderzoek) of voor selectie van patiënten en controlepersonen (patiëntcontroleonderzoek), de definitie van blootstelling (aard, dosis, duur), de definitie van de uitkomst (de ongewenste bijwerking) en het moment van optreden ervan. Indien er factoren bestaan die de uitkomst sterk kunnen hebben beïnvloed en deze factoren niet gelijk over de onderzochte groepen waren verdeeld, dient erop gelet te worden dat voor deze confounders in de analyse ook is gecorrigeerd (zie item 7). k2 k Afwezigheid van selectiebias

Selectiebias is vertekening van de effectschatting ten gevolge van systematische fouten bij de selectie van onderzoeksdeelnemers. In cohortonderzoek is sprake van selectiebias, als de kans om uiteindelijk als zieke of niet-zieke in het onderzoek terecht te komen afhankelijk is van de blootstellingsstatus. Bij het onderzoek naar bijwerkingen van geneesmiddelen zou de kans op het krijgen van een bijwerking dus afhankelijk zijn van het al dan niet gebruiken van het geneesmiddel. Een bijzondere vorm van selectiebias is channeling, waarbij nieuwe geneesmiddelen vooral worden voorgeschreven aan patiënten die niet reageren op bestaande middelen of die last hebben van bijwerkingen. Door deze selectiebias worden de resultaten vertekend, doordat patiënten met ernstiger vormen van een aandoening meer kans hebben een bepaald geneesmiddel te ontvangen. Hierdoor kan ten onrechte een slechte uitkomst worden toegeschreven aan het gebruik van het middel.

4.5 • Bijwerkingen en etiologie

75

Omdat het al dan niet optreden van de bijwerking pas wordt bepaald na de blootstelling, is de kans op selectiebias in cohortonderzoek gering. Het risico van het selectief voorschrijven van geneesmiddelen aan patiënten, channeling, blijft echter aanwezig. Selectiebias vormt vooral een bedreiging in patiëntcontroleonderzoek. Selectiebias kan in deze gevallen optreden als de kans op inclusie in het onderzoek afhankelijk is van het gebruik van het geneesmiddel en daardoor niet hetzelfde is voor patiënten en controlepersonen. Bij patiëntcontroleonderzoek dienen de controlepersonen een goede afspiegeling te vormen van de bronpopulatie: de populatie waaruit de patiënten zijn voortgekomen. In feite moet het onderzoek zo zijn ontworpen dat de controlepersonen die in de toekomst ziek worden in een toekomstige versie van precies hetzelfde onderzoek als patiënten worden geselecteerd. Het is bijvoorbeeld onjuist als controlepersonen uit een ander land of een andere cultuur komen dan de patiënten. k3 k Onafhankelijke (blinde) meting van blootstelling en uitkomsten

Blootstelling (het al dan niet gebruiken van een geneesmiddel) en uitkomsten (het al dan niet krijgen van de bijwerking) dienen ieder op dezelfde wijze en onafhankelijk van elkaar te zijn bepaald. Als de onderzoeksvariabelen (blootstelling en uitkomsten) in beide groepen niet op vergelijkbare wijze zijn gemeten, is er sprake van onvergelijkbaarheid van informatie en dreigt informatiebias. Een speciale vorm hiervan is recall bias: deze treedt op in patiëntcontroleonderzoek als de patiënten zich de onderzochte blootstelling beter herinneren dan de controlepersonen. Indien een bijwerking op een geneesmiddel uitgebreid in het nieuws geweest is, dan bestaat het risico dat patiënten die de bijwerking kregen zich het gebruik van het geneesmiddel eerder herinneren. Dit komt nogal eens voor omdat patiënten de natuurlijke neiging hebben een verklaring te zoeken voor het feit dat zij ziek zijn geworden. Ook indien middelen recentelijk op de markt zijn en patiënten en zorgverleners meer gespitst zijn op het optreden van bijwerkingen, loopt men dit risico. De kans op informatiebias is minder bij objectieve uitkomsten (bijv. ‘plotse dood’), gestandaardiseerde, objectieve meetinstrumenten (bijv. vaststellen van blootstelling aan de hand van biochemisch onderzoek), objectieve beoordelingscriteria en door objectieve, onafhankelijke beoordelaars. k4 k In cohortonderzoek: duur en volledigheid van follow-up

De follow-upduur dient zodanig lang te zijn dat de bestudeerde uitkomst erin kan optreden. Bovendien mag het percentage uitvallers niet te groot zijn. Relatief grote uitval (loss-to-followup) maakt een cohortonderzoek gevoelig voor selectieve uitval. Dit is in het bijzonder het geval als de aantallen uitvallers en de redenen van uitval verschillen tussen de groepen met en zonder de onderzochte blootstelling. Aantallen en redenen voor uitval dienen gerapporteerd te zijn. Het is niet mogelijk op voorhand aan te geven welk percentage loss-to-follow-up in welke situatie nog acceptabel is. Als vuistregel wordt een loss-to-follow-up van minder dan 20% nog als acceptabel beschouwd, maar dan mogen er natuurlijk geen duidelijke verschillen zijn tussen de groepen met betrekking tot de redenen voor uitval. k5 k In patiëntcontroleonderzoek: nieuwe (incidente) ziektegevallen

In patiëntcontroleonderzoek dienen bij voorkeur incidente (nieuwe, bij voorkeur recente) ziektegevallen geselecteerd te worden, waardoor een homogene groep patiënten wordt verkregen. Bestaande (prevalente) ziektegevallen vormen, onder andere door verschillen in ziekteduur, een heterogene groep. Zo kan het feit dat iemand al jaren een zeldzame bindweefselziekte heeft, wijzen op de aanwezigheid van bepaalde gunstige prognostische factoren, welke factoren kunnen

4

76

Hoofdstuk 4 • Kritisch beoordelen van een artikel

ontbreken bij een acute en agressievere vorm van diezelfde ziekte na een toxische blootstelling. Men beschouwt dan in feite twee afzonderlijke ziektevormen. Om deze ziektevormen niet te vermengen en de bestudering van de relatie van de toxische blootstelling met de zeldzame ziekte niet te verstoren, kiest men daarom het liefst voor een homogene groep met recente (of juist gevorderde) ziektegevallen. k6 k In patiëntcontroleonderzoek: risico op misclassificatie

4

In patiëntcontroleonderzoek naar bijwerkingen bestaat het risico op misclassificatie. Er is dan een verschil is in de nauwkeurigheid waarmee de diagnose of de expositie is vastgesteld bij patiënten en controlepersonen. Misclassificatie kan non-differentieel zijn (voor patiënten en controlepersonen in gelijke mate) of differentieel (voor patiënten en controlepersonen in verschillende mate). In het eerste geval vindt men vaak een onderschatting van het werkelijke bestaande risico, in het tweede geval kan zowel sprake zijn van onder- als van overschatting. Indien van een geneesmiddel al langer bekend is dat het bepaalde bijwerkingen kan geven, is het niet ondenkbaar dat juist bij patiënten die aan het middel blootgesteld zijn geweest klinische verschijnselen ten onrechte als bijwerking gelabeld zijn. Een bijzonder vorm van misclassificatie kan optreden door protopathic bias. Hiervan is sprake wanneer een behandeling met een geneesmiddel wordt ingezet voor de behandeling van de eerste symptomen van een ziekte, waardoor het lijkt of deze ziekte veroorzaakt wordt door de ingezette behandeling, terwijl dit feitelijk niet zo is. Een voorbeeld is de behandeling met H2-blokkers, voorgeschreven voor de behandeling van maagklachten. Indien deze een eerste uiting zijn van een reeds aanwezig en zich ontwikkelend maagcarcinoom, dan kan ten onrechte de conclusie getrokken worden dat H2-blokkers ook een maagcarcinoom zouden kunnen veroorzaken. In verband met het risico op misclassificatie is nadere validatie van alle patiënten (cases) en controlepersonen aangewezen, bij voorkeur aan de hand van vooraf gedefinieerde criteria voor het bestaan van bijwerkingen, waarbij ook alternatieve verklaringen meegenomen worden. k7k Adequate correctie voor belangrijke prognostische factoren (confounders)

Het probleem van vertekening door confounding doet zich voor in elk niet-gerandomiseerd onderzoek. Beide onderzochte groepen dienen voldoende vergelijkbaar te zijn wat betreft de aanwezigheid van belangrijke prognostische factoren (anders dan de onderzochte interventie of blootstelling), anders bestaat er een kans op confounding. In een RCT wordt confounding in principe voorkómen door de randomisatie. In observationeel onderzoek zal vrijwel altijd sprake zijn van een ongelijke verdeling van prognostische factoren over de groepen. Om een zuiver beeld te verkrijgen van de associatie van de determinant met de uitkomst moet voor potentiële confounders gecorrigeerd worden door een gestratificeerde of multivariate analyse toe te passen waarin de belangrijkste confounders worden verdisconteerd. Bij de beoordeling van een artikel kan worden gelet op correctie voor belangrijke prognostische variabelen, waaronder bijvoorbeeld ziekteduur, aanwezigheid van risicofactoren, comedicatie, comorbiditeit en demografische gegevens zoals geslacht en leeftijd. zz Belang k1k Grootte van het effect

De uitkomsten van onderzoek naar bijwerkingen zijn in de regel dichotoom, met andere woorden, men krijgt wel of geen bijwerking. Het effect van blootstelling aan het geneesmiddel kan dan worden uitgedrukt in een relatief risico (RR), een oddsratio (OR) of in een risicoverschil (RV). In patiëntcontroleonderzoek kan alleen de OR worden gebruikt.

77

4.5 • Bijwerkingen en etiologie

In alle gevallen dient een analyse uitgevoerd te zijn waarmee ‘gecorrigeerd’ is voor potentiële confounders, bijvoorbeeld een multivariate logistische regressieanalyse. Het resultaat hiervan is dan een oddsratio die gecorrigeerd is voor alle confounders die door de onderzoekers in het multivariate regressiemodel zijn opgenomen. Ook kan bij cohortstudies een zogenoemde Cox-overlevingsduuranalyse gebruikt worden, waarmee het relatieve risico wordt geschat als (gecorrigeerde) hazard ratios. Alleen in een cohortonderzoek kan de uitkomst ook als een continue variabele worden uitgedrukt. Dit betekent dat de uitkomst binnen een bepaald interval iedere waarde kan aannemen, zoals bij bloeddruk of cholesterolwaarde het geval is. Het effect wordt dan uitgedrukt in een verschilscore (Engels: mean difference); deze dient ook weer door middel van multivariate lineaire regressie gecorrigeerd te zijn voor potentiële confounders. Uit de gecorrigeerde effectschattingen kan het number needed to harm (NNH) worden berekend (zie kader ‘Berekenen van numbers needed to harm’). Het NNH is in dit verband de tegenhanger van het number needed to treat (NNT). NNH’s kunnen worden afgeleid van RR’s en OR’s voor verschillende achtergrondrisico’s, dat wil zeggen het risico op de uitkomst in de niet-blootgestelde groep. k2 k Precisie van de effectschatting

Rond de hiervoor genoemde effectmaten dient een 95%-betrouwbaarheidsinterval te zijn berekend. Als het 95%-betrouwbaarheidsinterval de neutrale waarde uitsluit, stellen we dat de gevonden relatie tussen blootstelling en uitkomst statistisch significant is. In geval van de OR en het RR is de neutrale waarde 1; bij het RV en het verschil van gemiddelden (MD) is de neutrale waarde 0. Berekenen van numbers needed to harm (NNH) op basis van (gecorrigeerde) relatieve risico’s (RR’s) of oddsratio’s (OR’s) Formule voor RR: NNH = 1/[achtergrondrisico * RR – achtergrondrisico] Voorbeeld Achtergrondrisico = kans op de bijwerking in de controlegroep = 0,10 (10%). RR = 1,5 (de bijwerking komt anderhalf keer vaker voor in de interventiegroep). Dan is de kans op de bijwerking in de interventiegroep 1,5 * 0,10 = 0,15 (15%). Risicoverschil = 0,15 – 0,10 = 0,05 NNH = 1/(0,10 * 1,5 – 0,10) = 1/RV = 1/0,05 = 20 Formule voor OR: NNH = 1/[achtergrondrisico – 1/(1 + (1 – achtergrondrisico)/(OR × achtergrondrisico))] Voorbeeld Achtergrondrisico = kans op de bijwerking in de controlegroep = 0,10 (10%). OR = 2,0 (de odds op de bijwerking in de interventiegroep is twee keer zo hoog als de odds in de controlegroep).

4

78

Hoofdstuk 4 • Kritisch beoordelen van een artikel

4

NNH = 1/[0,10 – 1/(1 + (1 – 0,10)/(2,0 × 0,10))]

= 1/[0,10 – 1/(1 + (0,90)/( 0,20))]

= 1/[0,10 – 1/(1 + 4,50)]

= 1/[0,10 – 1/5,50]

= 1/[0,10 – 0,1818]

= 1/[– 0,0818]

= –12,2 Minteken negeren en afronden: NNH = 13

zz Toepasbaarheid en implicatie

Bij het toepassen van informatie uit voorliggende studies op de eigen patiënten speelt de externe validiteit, de generaliseerbaarheid van de resultaten, een grote rol. Niet alle resultaten uit studies zijn direct bruikbaar bij de individuele patiënt in de spreekkamer. De arts moet daarom zelf een inschatting maken van welke andere bijkomende factoren mogelijk van belang zijn bij het optreden van bijwerkingen bij deze patiënt. Hierbij spelen onder andere aspecten als aanleg, genetische factoren, comorbiditeit en gebruikte comedicatie een belangrijke rol. Om te besluiten dat de waargenomen associatie tussen het gebruik van het geneesmiddel en de bijwerking gevolgen heeft voor de behandeling van uw patiënt, dient u na te gaan of er inderdaad sprake is van een causale relatie, dat wil zeggen dat het gebruik van het geneesmiddel inderdaad de bijwerking tot gevolg heeft en of het gebruik van het geneesmiddel uw patiënt ook met voldoende waarschijnlijkheid kan schaden. Het bepalen van de causaliteit is niet eenvoudig. Wanneer er een verband is aangetoond tussen het gebruik van het geneesmiddel en het optreden van een klinisch verschijnsel staat nog niet vast dat dit daadwerkelijk een causaal verband is. Een daadwerkelijk oorzakelijk verband kan bijna nooit in één onderzoek worden vastgesteld, maar dient te worden gebaseerd op alle beschikbare informatie uit laboratoriumonderzoek, dierproeven, dosis-responsonderzoek, toxicologie of ervaringen met soortgelijke stoffen en liefst op grond van meerdere empirische onderzoeken bij patiënten die de behandeling hebben ondergaan. Bij dit soort evaluaties kan er onderscheid worden gemaakt tussen a) klinische verschijnselen die zonder de bedoelde blootstelling, het gebruik van het geneesmiddel, niet of nauwelijks voorkomen en b) verschijnselen die wel voorkomen in de bevolking, maar waarop de kans bij gebruik van een bepaald geneesmiddel verhoogd is (bijv. vertienvoudigd). Een voorbeeld van de eerste situatie is het optreden van focomelie (een aangeboren afwijking waarbij de ledematen van het kind onderontwikkeld of afwezig zijn) bij twee Australische pasgeborenen van wie de moeders in de zwangerschap thalidomide (Softenon) tegen misselijkheid hadden gebruikt. Het was toen duidelijk dat er sprake is van een daadwerkelijk causale relatie tussen het gebruik van thalidomide en het optreden van het specifieke beeld van de focomelie, omdat het verband zeer sterk was en omdat de achtergrondincidentie van focomelie zeer laag is. In de praktijk uiten bijwerkingen zich echter zelden in de vorm van een specifiek beeld, maar in de vorm van veelvoorkomende aandoeningen. De vraag die zich daarbij voordoet is of

79

4.5 • Bijwerkingen en etiologie

de incidentie van deze veelvoorkomende aandoeningen door het gebruik van een geneesmiddel wordt verhoogd. Voorbeelden hiervan zijn de vraag of er een verhoogde kans is op cataract na het gebruik van inhalatiecorticosteroïden, of leukemie bij kinderen vaker voorkomt na blootstelling aan elektromagnetische velden onder hoogspanningslijnen en of het risico op wiegendood op de kinderdagopvang groter is dan thuis. De bekende statisticus Sir Austin Bradford Hill postuleerde criteria die men kan gebruiken bij het vaststellen van een causale relatie (zie kader ‘Criteria voor de beoordeling van causaliteit’). Hoe meer van deze criteria van toepassing zijn, des te waarschijnlijker het is dat er inderdaad een oorzakelijk verband bestaat. Deze Bradford Hill-criteria kunnen ook bij individuele patiënten worden gebruikt. In feite is het startpunt van de signaaldetectie waar in de eerste paragraaf over werd gesproken. Criteria voor de beoordeling van de causaliteit van het verband tussen een determinant (blootstelling) en een uitkomst (bijwerking, ziekte) 1 tijdsrelatie

de blootstelling aan de risicofactor gaat vooraf aan het optreden van de ziekte

2 plausibiliteit

er is een plausibel verklarend pathofysiologisch mechanisme

3 consistentie

de relatie is in meerdere onderzoeken gevonden

4 biologische gradiënt

er is een dosis-responserelatie tussen de risicofactor en de ziekte; er is een verband tussen de mate van blootstelling en de sterkte van het effect

5 grootte van het effect

grote effecten kunnen moeilijker door andere factoren worden verklaard

6 interventie

de ziekte wordt minder vaak gezien als de blootstelling aan de risicofactor wordt gestaakt of vaker gezien indien de blootstelling wordt geïntensiveerd

7 specificiteit

de relatie is specifiek voor één ziekte – de blootstelling aan de risicofactor wordt gezien bij mensen met botkanker, niet bij andere vormen van kanker

8 coherentie van informatie

de relatie tussen de risicofactor en de ziekte is coherent met andere kennis over de omgevingsfactoren en de biologie

9 analogie

er bestaat een vergelijkbare geaccepteerde relatie tussen de blootstelling aan de risicofactor en de ziekte

Bron: Hill, Proc R Soc Med 1965;58:295-300.

Indien evidence over bijwerkingen uit onderzoeken naar de individuele patiënt moeten worden vertaald, dan dienen onderstaande punten in de overwegingen te worden meegenomen. k1k Overeenkomst met de eigen patiënt(en)

De kenmerken van de onderhavige patiënt moeten bij voorkeur voldoende overeenkomen met die van de in het onderzoek betrokken patiënten. Indien uw patiënt sterk afwijkt van de patiënten die in het onderzoek zijn onderzocht, kan het lastig zijn de toepasbaarheid van het gevonden effect bij de patiënt in te schatten. Zeker wanneer de evidence voortkomt uit een RCT, zal dit vaker het geval zijn omdat er, zoals eerder besproken, in de regel een strenge selectie

4

80

Hoofdstuk 4 • Kritisch beoordelen van een artikel

van patiënten voor RCT’s bestaat. Er dient een inschatting gemaakt te worden of het gevonden relatieve risico op de ongewenste uitkomst bij behandeling of blootstelling aan de schadelijke factor ten opzichte van niet-behandeling of blootstelling voor deze patiënt wel of niet zal gelden. Individuele factoren zoals het pathofysiologisch mechanisme en de ziekte-ernst van de patiënt kunnen de reden zijn dat uw patiënt mogelijk een hoger of juist een lager relatief risico op de bijwerking heeft dan in het onderzoek werd gevonden.

4

k2 k Kans op de bijwerking

De behandelaar dient zich af te vragen hoe de balans tussen werkzaamheid en schadelijkheid van de behandeling is. Is de kans op een bijwerking in relatie tot het beoogde gunstige effect van de behandeling bij deze patiënt zodanig hoog dat deze niet gestart zou moeten worden? Om deze vraag te beantwoorden dient eerst een schatting te worden gemaakt van het achtergrondrisico, het absolute risico van de patiënt op dezelfde klinische verschijnselen als de bijwerking bij afwezigheid van het gebruik van het geneesmiddel. Aan de hand van het relatieve risico of de oddsratio kan voor deze patiënt het NNH worden berekend (zie kader ‘Berekenen van numbers needed to harm’) en impliciet het risico op de bijwerking na blootstelling aan het geneesmiddel. Naast het NNH kan ook het NNT worden meegenomen in de afweging van de balans tussen baten (gunstig effect) en lasten (bijwerkingen) van behandeling (zie 7 par. 4.4). k3 k Beschikbaarheid van alternatieve behandelingen of preventieve maatregelen

Of een alternatieve behandeling met eventueel minder ernstige bijwerkingen kan worden toegepast of dat de behandeling eventueel kan worden gestaakt, hangt natuurlijk af van de beschikbaarheid van alternatieve behandelingen en de beschikbare informatie over de veiligheid van het staken. Ook de mogelijkheden tot preventie van de bijwerking dienen in de afwegingen te worden meegenomen. Is het bijvoorbeeld mogelijk periodieke controles uit te voeren die in een vroeg stadium de bijwerking kunnen opsporen, zoals een controle van een leverfunctie bij een langzaam ontwikkelende cholestatische leverfunctiestoornis, of ontwikkelt de bijwerking zich dermate snel dat periodieke controles weinig zin hebben, zoals bij een rhabdomyolyse het geval kan zijn. k4 k De verwachtingen, voorkeuren en waarderingen

De kans op een te verwachten gunstig resultaat van de behandeling moet worden afgewogen tegen de kans op het krijgen van een bijwerking en de invloed die dit zou hebben op de kwaliteit van leven. In samenspraak met de patiënt kan een geïnformeerde beslissing worden genomen op basis van de verhouding tussen baten en lasten voor deze patiënt: moet worden afgezien van deze interventie en moet een alternatieve therapie worden gezocht? Dit is vaak een persoonlijke en subjectieve afweging waarbij niet alleen de kans op een bijwerking meegenomen wordt tegen de achtergrond van de behandeling, maar ook mogelijkheden tot preventie en alternatieve behandelingen. 4.5.3 Conclusie

Primum non nocere is het aloude adagium in de geneeskunde. In deze paragraaf hebben we gezien dat vragen over etiologie en bijwerkingen, hoewel relatief minder vaak gesteld in de geneeskunde dan diagnostische en therapeutische vragen, belangrijk zijn. Het is niet eenvoudig een inschatting te maken of een interventie zoals het gebruik van geneesmiddelen de patiënt

Literatuur

81

misschien ook schade kan toebrengen. Zorgverleners worden vaak geconfronteerd met onderling tegenstrijdige evidence. Voor de analyse van het oorzakelijk verband en het berekenen van de sterkte van het effect dient vaak gebruikgemaakt te worden van onderzoeksvormen met een grotere kans op vertekening dan bij RCT’s, zoals case reports, patiëntcontroleonderzoek en cohortonderzoek. Er is dan ook vaak veel discussie over de ware oorzaak van ‘bijwerkingen’. Als de evidence aanwezig is, valide is en de risico’s van bijwerkingen en de kans op gunstige effecten voor de individuele patiënt kunnen worden geschat, is er ruimte voor een geïnformeerde beslissing over de vraag of voor de individuele patiënt moet worden afgezien van de voorliggende behandeling of dat er een alternatieve therapie moet worden gebruikt. Beleid rond bijwerkingen Om de informatie over mogelijke nieuwe bijwerkingen zo veel mogelijk te concentreren worden meldingen van bijwerkingen doorgegeven aan het Europese Geneesmiddelen Agentschap (EMA). Samen met het College ter Beoordeling van Geneesmiddelen (CBG) wordt er op deze manier voor gezorgd dat de productinformatie zo nodig wordt aangepast of in het uiterste geval geneesmiddelen van de markt worden gehaald. In de nieuwe Europese regelgeving over geneesmiddelveiligheid is een belangrijke rol weggelegd voor Post Authorisation Safety Studies (PASS). Deze studies zijn erop gericht om geïdentificeerde veiligheidsrisico’s zoals bijwerkingen te kwantificeren. Veelal betreft dit observationele studies. Als er bij een geneesmiddel een nieuwe bijwerking wordt vermoed, is er al snel behoefte aan informatie over de mate van voorkomen en informatie over mogelijke risicofactoren. Een wetenschappelijke analyse van de relatie tussen geneesmiddel en mogelijke bijwerking aan de hand van gecontroleerd onderzoek neemt naar verhouding veel tijd in beslag, wat op gespannen voet kan staan met de roep om maatregelen. In de praktijk kan het dus zo zijn dat beslissingen naar aanleiding van signalen over mogelijke bijwerkingen, bijvoorbeeld aanpassingen in de bijsluitertekst of het uit de handel nemen van geneesmiddelen, alleen op casuïstiek berust.

Literatuur Elm E von, Altman DG, Egger M, Pocock SJ, Gotzsche PC, Vandenbroucke JP for the STROBE initiative. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. Lancet 2007;370:1453–7. Hill AB. The environment and disease: association or causation? Proc R Soc Med 1965;58:295–300. Kelly WN, et al. Guidelines for submitting adverse event reports for publication. Drug Safety 2007;30(5):367–73. Stehouwer CDA. Rapportage van observationeel onderzoek: nuttige en welkome aanbevelingen ter verbetering. Ned Tijdschr Geneeskd 2008;152:182–4. Straus SE, Glasziou P, Richardson WS, Haynes RB. Evidence-based Medicine: How to practice and teach it. 7. Harm. Fourth edition. Edinburgh: Churchill Livingstone, 2011. ISBN: 978-0-7020-3127-4. Vandenbroucke JP. Het belang van medische casuïstiek te midden van ‘evidence-based’ geneeskunde en moleculaire verklaringen. Ned Tijdschr Geneeskd 2002;146:1699–70. Vandenbroucke JP. Observational Research, Randomised Trials, and Two Views of Medical Science. PLoS Med 2008;5(3):e67. doi:10.1371/journal.pmed.0050067. Wells GA, Shea B, Peterson J, O’Connell D, Welch V, Losos M, Tugwell P. The Newcastle-Ottawa Scale (NOS) for assessing the quality of nonrandomised studies in meta-analyses. 7 www.ohri.ca/programs/clinical_ epidemiology/oxford.asp. Geraadpleegd op 1 maart 2013.

4

82

Hoofdstuk 4 • Kritisch beoordelen van een artikel

4.6 Screening1 Y. van der Graaf, W.J.J. Assendelft en R.J.P.M. Scholten 4.6.1 Inleiding

4

Screening of vroege opsporing houdt in dat men personen die geen medische hulp zoeken gaat testen op de aanwezigheid van een afwijking. De bekendste voorbeelden van screening zijn de bevolkingsonderzoeken naar baarmoederhals- en borstkanker. Op deze manier kan men in een vroeg stadium een tumor opsporen die bij afwezigheid van screening pas jaren later tot klachten zou hebben geleid. Soms wordt onder screening ook het opsporen van risicofactoren zoals hoge bloeddruk of verhoogd cholesterol verstaan. Door gevonden risicofactoren te behandelen denkt men een latere complicatie (zoals hartinfarct of beroerte) te voorkomen. Ook bij het screenen van familieleden van mensen met een erfelijke afwijking screent men in principe op een verhoogde kans op bepaalde afwijkingen. Voorbeelden hiervan zijn de screening van familieleden van patiënten met een familiaire hypercholesterolemie of hartritmestoornissen. In principe verschillen deze screeningsprogramma’s niet van die waarbij men aantoonbare afwijkingen opspoort. De verschillen zitten vooral in het beleid dat naar aanleiding van de screeningsuitslag wordt gevoerd. Bij de screening op risicofactoren zal het beleid gericht zijn op de reductie van risicofactoren, terwijl bij de screening op aantoonbare afwijkingen meestal chirurgische verwijdering (borstkanker, dikkedarmpoliepen, aneurysma van de aorta) of gerichte behandeling (zoals bloedsuikerverlagende medicijnen bij diabetes of ijzersuppletie bij anemie) volgt. Screening lijkt op het eerste gezicht aantrekkelijk, omdat men de ziekte in een vroeg stadium opspoort en behandelt, wat de prognose gunstig zou moeten beïnvloeden. In het geval van kanker betekent vroegere detectie mogelijk een geringere kans op uitzaaiing en bij diabetes mogelijk minder kans op vasculaire complicaties. Een belangrijk nadeel van screening is echter dat men in het algemeen zeer veel mensen moet screenen om slechts enkele afwijkingen op te sporen. Zo vertonen bijvoorbeeld ongeveer drie van de duizend uitstrijkjes premaligne afwijkingen en lang niet alle verdachte uitstrijken zijn ook werkelijk een voorstadium van kanker (fout-positieven). Daarnaast kan screening veel ongerustheid teweegbrengen. Het is ook niet altijd zo dat afwijkingen die via screening worden ontdekt, vervolgens ook succesvol kunnen worden behandeld of dat de gescreende altijd met de behandeling instemt. Een voorbeeld van het eerste is screening op prostaatcarcinoom met het prostaatspecifiek antigeen (PSA), waarvan geen effect op de prostaatkankersterfte kon worden aangetoond. Een voorbeeld van het tweede is screening van zwangere vrouwen op downsyndroom met de bloedtripletest, waarbij de ouders besluiten om geen abortus te laten uitvoeren. In deze gevallen kan men zich afvragen wat de vroegere diagnose de patiënt of ouder heeft opgeleverd. Soms leidt de behandeling van de opgespoorde afwijking al direct tot schade, bijvoorbeeld als iemand overlijdt aan de behandeling van een aneurysma van de buikslagader dat bij screening is opgespoord. Voordat men kan gaan screenen, moet dus aan veel voorwaarden zijn voldaan. Behalve dat er een goede screeningstest voorhanden moet zijn, die acceptabel en niet-invasief is, moet er een goede behandeling van de opgespoorde afwijking beschikbaar zijn en screening moet uiteindelijk overtuigend aantoonbaar tot minder klinisch manifeste ziekte en sterfte leiden. In 1968 formuleerden Wilson en Jungner in een door de Wereldgezondheidsorganisatie uitgegeven publicatie de tien criteria waaraan een verantwoord bevolkingsonderzoek zou moeten voldoen. Hoewel deze criteria bijna een halve eeuw geleden werden geformuleerd, zijn ze nog steeds algemeen aanvaard. Er zijn nadien wel nieuwere lijstjes gemaakt, maar deze zijn een variatie op de door Wilson en Jungner aangedragen thema’s. 1

Voor een goed begrip van deze paragraaf dienen de paragrafen 4.2 tot en met 4.5 bestudeerd te zijn.

4.6 • Screening

83

Toetsing aan de criteria van Wilson en Jungner 1. De ziekte in kwestie moet een belangrijk gezondheidsprobleem zijn. 2. Er moet een aanvaarde behandeling bestaan voor de ziekte. 3. Er moeten faciliteiten bestaan van diagnose en behandeling. 4. Er moet een detecteerbare asymptomatische of vroeg-symptomatische fase bestaan. 5. Er moet een betrouwbare test voorhanden zijn. 6. Het testen moet aanvaardbaar zijn voor de bevolking. 7. Het natuurlijk beloop van de ziekte, met name hoe de asymptomatische fase in echte ziekte overgaat, moet voldoende bekend zijn. 8. Er moet consensus over bestaan wie men als patiënt zal behandelen. 9. De kosten om mensen op te sporen en te behandelen moeten economisch in evenwicht zijn met de uitgaven voor gezondheidszorg als geheel. 10. De vroege opsporing moet een continu proces zijn en geen eenmalige activiteit.

4.6.2 Beoordeling van een onderzoek naar de waarde van screening

Het proces van screening bestaat uit twee fasen. De eerste is het vaststellen van de afwijking met de screeningstest en de tweede de eventuele behandeling van de personen met de opgespoorde aandoening. Deze onderdelen moeten als één geheel worden geëvalueerd om de waarde van screening te kunnen vaststellen. Vaak wordt een onderzoek naar de effecten van screenen voorafgegaan door een aantal onderzoeken naar de diagnostische waarde van de gebruikte test, omdat het vrijwel onmogelijk is alle aspecten van screening in één onderzoek te bestuderen. Voordat de onderzoeken naar de effecten van borstkankerscreening werden uitgevoerd, moest er voldoende bewijs zijn dat de mammografie een goede diagnostische test is in de gangbare klinische situatie. Hetzelfde geldt voor het uitstrijkje van de baarmoederhals. Reeds tientallen jaren voor de toepassing van het uitstrijkje als screeningsinstrument bij vrouwen zonder klachten werd aangetoond dat met het uitstrijkje kwaadaardige cellen van de baarmoederhals konden worden opgespoord. zz A Evaluatie van de screeningstest

Een onderzoek naar een screeningstest moet in principe voldoen aan dezelfde criteria ten aanzien van de validiteit van de test, het belang van de uitkomsten en de toepasbaarheid van de resultaten als een diagnostisch onderzoek (zie 7 par. 4.2). Daarnaast is een aantal aspecten van belang die met name samenhangen met de lage prevalentie van de aandoening in de te screenen populatie en de afwezigheid van klachten. Deze prevalentie is afhankelijk van de aandoening waarop en de populatie waarin men screent en varieert van enkele promillen (preinvasieve baarmoederhalskanker) tot 5% (verwijding van de buikslagader). De gerapporteerde prevalentiecijfers bevatten ook vaak de afwijkingen waarop niet direct een behandeling wordt ingesteld. Bij de screening op het aneurysma bijvoorbeeld wordt slechts een klein deel (indien het aneurysma groter is dan vijf centimeter) van de opgespoorde aneurysma’s operatief verwijderd. Het grootste deel (ongeveer 70%) van de patiënten heeft een kleiner aneurysma (tussen de drie en vijf centimeter). In dat geval worden er regelmatig echo’s gemaakt om eventuele groei van het aneurysma vast te stellen. In de geneeskundige praktijk wordt aangeraden een diagnostische test niet uit te voeren wanneer de voorafkans op de aandoening lager is dan 30%, omdat anders de achterafkans meestal niet boven de 50% komt en men te maken krijgt met

4

84

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

een niet-informatieve testuitslag. Om deze reden kunnen alleen zeer sensitieve en specifieke tests in screeningssituaties worden gebruikt om ervoor te zorgen dat de positieve en negatieve voorspellende waarden acceptabel zijn. Het uitstrijkje van de baarmoederhals, maar ook het mammogram, zijn tests met een relatief hoge positief voorspellende waarde (of achterafkans), vooral in het licht van de lage prevalentie van afwijkingen (enkele afwijkingen per duizend gescreenden). Het screenen in hoogrisicogroepen kan de positief voorspellende waarde van een test aanzienlijk verhogen. Zo wordt in het bevolkingsonderzoek naar darmkanker aan alle mensen tussen de 55 en 75 jaar de niet-invasieve iFOBT-test aangeboden. Deze test kan kleine hoeveelheden bloed in de ontlasting opsporen. De mensen met een positieve test worden vervolgens voor de veel invasievere coloscopie uitgenodigd. Door de hogere leeftijd is de kans op kanker in de gescreende groep hoger. Bij de beoordeling van een onderzoek naar een screeningstest zijn behalve de in 7 par. 4.2 genoemde aspecten van diagnostische testen de volgende punten van belang. Beoordelingscriteria Voor de beoordeling van A) de waarde van een screeningstest en B) de effectiviteit van screening gelden dezelfde criteria als voor het beoordelen van een diagnostische test (7 par. 4.2) en interventieonderzoek (7 par. 4.4). De volgende punten vragen extra aandacht. A Screeningstest Validiteit 1. valide referentietest: follow-up lang genoeg om fout-negatieven op te sporen? 2. ziektekenmerken van de onderzochte personen (spectrum) 3. adequate beschrijving screeningstest Belang 1. diagnostische waarde van de screeningstest 2. precisie van de geschatte diagnostische parameters Toepasbaarheid 1. geschiktheid van de diagnostische test voor de te screenen populatie 2. beschikbaarheid en kosten van de diagnostische test 3. inschatting van de voorafkans 4. beïnvloeding van de handelwijze door de verkregen achterafkans B Effectiviteit van screening Validiteit 1. randomisatie (individueel of cluster) 2. vergelijkbaarheid van de groepen 3. follow-up 4. keuze van het eindpunt Belang 1. grootte van het effect 2. number needed to screen 3. kosteneffectiviteit

4.6 • Screening

85

zz Validiteit k1k Valide referentietest

Bij de evaluatie van een diagnostische test moet de referentietest de werkelijkheid zo goed mogelijk benaderen en patiënten zullen meestal de indextest en de referentietest ondergaan. Indien men in de kliniek voor het aantonen van een vaatvernauwing het invasieve contrastonderzoek wil vervangen door niet-invasief echografisch onderzoek, laat men bij de evaluatie van de nieuwe test alle patiënten ook nog het invasieve onderzoek ondergaan. Er is immers geen alternatief. In de screeningssituatie kan dit niet, omdat de personen die aan screening deelnemen geen klachten hebben. Het is niet ethisch een invasieve referentietest uit te voeren wanneer de screeningstest negatief is. Daarom kan die referentietest als dat een biopt of chirurgische excisie is alleen bij een positieve uitslag van de indextest worden gebruikt. De diagnostische waarde van zulke screeningstesten kan in feite pas worden berekend door de test-negatieven jaren te volgen en systematisch na te gaan of in deze groep de aandoening waarop werd gescreend niet alsnog is opgetreden. Op deze manier wordt inzicht verworven in de proportie fout-negatieven. Hierbij moet men zich goed realiseren dat men dan in feite gebruikmaakt van een tweede (minder betrouwbare) referentietest (differentiële verificatie). Van groot belang hierbij is de lengte van de follow-up waarin de gemiste afwijkingen aan het licht kunnen komen. Deze moet in overeenstemming zijn met de latentietijd van de aandoening. Bij baarmoederhalskanker kunnen bijvoorbeeld na tien jaar nog afwijkingen worden gesignaleerd die achteraf beschouwd bij screening al aanwezig geweest moeten zijn. Bij borstkanker kan deze follow-up korter zijn, maar moet deze toch minstens enkele jaren bedragen. Door kort na een eerste screeningstest eenzelfde tweede screeningstest uit te voeren kan het aantal fout-negatieven in een aantal screeningssituaties worden beperkt, waardoor de sensitiviteit hoger wordt. Bij de screening op baarmoederhalskanker ontstaat een deel van de fout-negatieve uitslagen doordat de afwijking niet in het uitstrijkje is terechtgekomen, een tweede uitstrijkje maakt dan de kans op het vangen van de afwijking groter. Indien een test fout-negatief is omdat de afwijking weliswaar aanwezig is, maar simpelweg te klein is om waargenomen te worden (bijv. mamma- of longtumor op foto of tumormarkers in het bloed), leidt een tweede test niet tot een verhoging van de sensitiviteit. Ook kan een tweede, andersoortige test worden toegevoegd om een scherpere indicatie te stellen voor invasieve of dure vervolgdiagnostiek of -behandeling. Zo wordt steeds vaker in de follow-up na een positief uitstrijkje een HPV-test gedaan, zodat de aanwezigheid van het HPVvirus – dat een rol heeft in het ontstaan van kanker – kan worden bepaald. Hierdoor kan beter worden beoordeeld of verder onderzoek nodig is: alleen degenen met een positieve HPV-test krijgen de vervolgdiagnostiek. k2 k Onafhankelijke (blinde) vergelijking van de screeningstest met de referentietest

Beide tests moeten onafhankelijk van elkaar (blind) worden beoordeeld. Dit betekent dat degene die de referentietest beoordeelt, geen kennis mag hebben van het resultaat van de screeningstest en vice versa. Soms echter kan degene die de referentietest beoordeelt, de uitslag van de screeningstest eenvoudig bevroeden. Zo zal het door de omvang van de gevonden afwijking voor de patholoog of chirurg vaak duidelijk zijn dat het om een afwijking gaat die met screening is opgespoord. Mammatumoren die met screening worden opgespoord zijn namelijk meestal niet palpabel en kleiner dan tumoren die in de curatieve sector worden gevonden. Bovendien worden in screeningsprogramma’s meestal alleen de mensen met een positieve test verwezen voor de referentietest.

4

86

Hoofdstuk 4 • Kritisch beoordelen van een artikel

k3 k Beoordeling van de indextest onafhankelijk van andere informatie die sterk samenhangt met de werkelijke ziektestatus van de patiënt

4

Indien de beoordelaar van de screeningstest beschikt over andere klinische informatie die gerelateerd is aan de werkelijke ziektestatus, wordt de overeenstemming met de referentietest kunstmatig hoger. Omdat van gescreenden vaak geen specifieke klachten bekend zijn, zal dit meestal geen erg grote rol spelen. Wel kan de kennis over andere factoren (zoals leeftijd, risicofactoren en familiaire belasting) op dezelfde wijze als klinische informatie de beoordeling beïnvloeden. k4 k Uitvoering van de referentietest onafhankelijk van de uitslag van de screeningstest

In de ideale situatie moet iedere deelnemer de referentietest ondergaan, ongeacht de uitslag van de screeningstest. Ook deze voorwaarde kan in de screeningssituatie zelden worden gerealiseerd. Er worden immers vrijwel uitsluitend personen met een positieve screeningstest onderworpen aan de (meestal invasieve) referentietest en de personen met een negatieve screeningstest zullen noodgedwongen aan een andere, minder valide referentietest worden onderworpen, bijvoorbeeld jarenlange follow-up (differentiële verificatie, zie ook item 1). k5 k Ziektekenmerken van de onderzochte personen (spectrum)

De waarde van een screeningstest dient onderzocht te zijn in de relevante populatie. In de Multicentre Aneurysm Screening Study (MASS) werden bijna 70.000 mannen in de leeftijd van 65-74 jaar onderzocht. Men richtte zich uitsluitend op mannen, omdat een aneurysma van de abdominale aorta bij vrouwen zeldzaam is, en men beperkte zich tot mannen van 65-74 jaar, omdat in deze groep de prevalentie relatief hoog is (4,9%) en de lichamelijke conditie over het algemeen zo goed dat een operatie kan worden uitgevoerd. Uitbreiding van de screeningsleeftijd naar boven zou te vaak leiden tot het opsporen van een aneurysma dat vanwege comorbiditeit niet kan worden verwijderd. k6 k Adequate beschrijving screeningstest

De criteria voor een positieve en negatieve testuitslag moeten bij een screeningstest duidelijk gedefinieerd zijn. Dit blijkt bij screening veel lastiger dan in de curatieve sector. In de curatieve sector presenteren patiënten zich met klachten en het hebben van klachten is weer sterk gerelateerd aan het ziektestadium en over het algemeen presteren diagnostische tests veel beter naarmate de ziekte gevorderd is. Plaveiselcelcarcinoomcellen zijn goed aan te tonen met een uitstrijkje van de baarmoederhals, maar wat betekent een preklinische afwijking zoals ‘geringe dysplasie’ in een uitstrijkje van de baarmoederhals? Van deze preklinische afwijkingen wordt geschat dat slechts 50% zal doorgroeien naar een invasief stadium. Hetzelfde geldt voor een verwijding van de buikslagader. Dat een verwijding van de aorta met een doorsnede van zeven centimeter abnormaal is en een operatie moet worden overwogen leidt tot weinig discussie, maar wat moet het beleid zijn bij een aneurysma van 4,5 centimeter? Door te screenen krijgen we te maken met afwijkingen waarvan we niet weten wat ze betekenen. Zo ging men in de klinische praktijk steeds kleinere aneurysma’s opereren, totdat de small aneurysm-trial liet zien dat men deze kleine aneurysma’s beter met echografie kunt vervolgen in plaats van direct een operatieve correctie uit te voeren. zz Belang k1k Diagnostische waarde van de screeningstest

Net als bij de beoordeling van een artikel over een diagnostische test moet worden vastgesteld hoe goed de screeningstest de aan- of afwezigheid van de aandoening kan voorspellen en worden

4.6 • Screening

87

de resultaten in een 2 × 2-tabel uitgezet (zie . tabel 4.1). In de praktijk heeft men zelden met dichotome testuitslagen te maken en afkappunten worden op grond van expertmeningen gekozen. Zelden echter zullen al deze afkappunten op empirisch onderzoek berusten, omdat doorgaans onvoldoende informatie voorhanden is over het natuurlijk beloop. Indien bij de screening een carcinoma in situ van de baarmoederhals wordt gevonden, zal de vrouw voor een biopsie (en histologisch onderzoek) naar een gynaecoloog worden verwezen. Indien echter een geringe dysplasie wordt gevonden, wordt er in de regel geen biopsie en histologisch onderzoek naar de verdachte afwijking gedaan. Dit betekent dat we niet geïnformeerd zijn over de referentiestandaard, die namelijk idealiter zou bestaan uit een afwachtend beleid, waarbij de progressie van geringe dysplasie respectievelijk carcinoma in situ tot invasief carcinoom wordt afgewacht. Wanneer men een artikel over een screeningstest beoordeelt, moet men nagaan of voor elke testuitslag apart de positief en negatief voorspellende waarde wordt gegeven. Deze zal voor een cytologische uitslag pap-IIIb heel wat hoger zijn dan voor een geringe dysplasie. De diagnostische waarde van de screeningstest is cruciaal voor de opbrengsten van screening en is sterk afhankelijk van de te detecteren afwijking en meestal niet te vatten in één waarde. De positief voorspellende waarde van een cervixuitstrijkje (pap-IIIb of IV) is rond de 70%. Hoewel dit relatief hoog is, betekent dit grote aantallen fout-positieven wanneer jaarlijks meer dan 800.000 vrouwen worden gescreend. Bij een geschatte specificiteit van de uitstrijk van 99% leidt dit tot minstens 8000 fout-positieven. k2 k Precisie van de geschatte diagnostische parameters

De schattingen van sensitiviteit, specificiteit, voorspellende waarden en likelihood ratios zijn onderhevig aan toevalsvariatie. Voor de betekenis hiervan zie 7 par. 4.2 over diagnostiek. zz Toepasbaarheid k1k Geschiktheid van de screeningstest voor de te screenen populatie

De personen bij wie u de test wilt toepassen moeten overeenkomen met de personen die in het onderzoek zijn beschreven. In de regel is het ziektestadium in de screeningssituatie anders dan in de curatieve geneeskunde. Dit heeft grote consequenties voor het onderscheidingsvermogen van een test. In de screeningssituatie wil men juist preklinische afwijkingen opsporen, waardoor tests die goed voldoen in de huisarts- of specialistische praktijk minder presteren in screeningssituaties. Omdat personen die aan screening deelnemen geen klachten hebben, weegt de belasting (straling, kans op complicaties) van de screeningstest zwaar. Meestal is de belasting van de gebruikte screeningstests laag, maar komt de belasting pas bij vervolgonderzoek om de hoek kijken. Bij de evaluatie van een screeningstest hoort ook een evaluatie van de belasting van de tests die worden uitgevoerd nadat de screeningstest positief is gebleken. Denk hierbij bijvoorbeeld aan het mammabiopt na een positief mammogram. Bij 50% van de doorverwezen vrouwen zal uit dit mammabiopt blijken dat er geen sprake is van borstkanker, terwijl intussen wel een chirurgische ingreep is uitgevoerd. Zo moet ook rekening worden gehouden met de belasting van bijvoorbeeld een colposcopie na een positief uitstrijkje of een coloscopie na een faecesscreening op occult bloedverlies. k2 k De beschikbaarheid en kosten van een screeningstest

De beschikbaarheid en kosten van een screeningstest zijn van groot belang, omdat vaak tienduizenden mensen de test zullen moeten ondergaan en slechts enkelen een positieve testuitslag hebben. Voor het bevolkingsonderzoek naar darmkanker in Nederland, gericht op mannen en vrouwen van 55 tot en met 75 jaar, zullen meer dan vier miljoen mensen in aanmerking komen.

4

88

Hoofdstuk 4 • Kritisch beoordelen van een artikel

Na volledige invoering betekent dit dat er jaarlijks 66.000 extra coloscopieën moeten worden verricht. Om die reden is gekozen voor een geleidelijke start zodat de betrokken beroepsgroepen zich hierop kunnen voorbereiden. k3 k De inschatting van de voorafkans

De inschatting van de voorafkans speelt net als bij de beoordeling van een diagnostisch artikel een belangrijke rol, omdat dit de opbrengst van een screeningsprogramma bepaalt.

4

k4 k Beïnvloeding van de handelwijze door de verkregen achterafkans

Een diagnostische test wordt uitgevoerd om zekerheid te krijgen of een patiënt wel of niet in aanmerking komt voor een behandeling. In principe ligt de achterafkans in de screeningssituatie vast, omdat een voorwaarde voor doelmatige screening is dat precies bekend is welk beleid moet worden gevolgd naar aanleiding van de uitkomsten van een bepaalde screeningstest. Indien bij een bepaald persoon de screeningsuitslag geen consequenties heeft, moet men deze persoon niet screenen. Indien een opgespoord aneurysma van de aorta nooit kan worden verwijderd vanwege ernstige comorbiditeit moet men hiernaar ook niet op zoek gaan, omdat de kwaliteit van leven van een patiënt niet (direct) zal verbeteren wanneer hij weet dat hij een onbehandelbaar aneurysma van de aorta heeft. Om deze reden is bijvoorbeeld pas recentelijk de screening op taaislijmziekte (mucoviscoïdose) in de neonatale screening opgenomen. De afgelopen jaren zijn de interventies op jonge leeftijd dermate effectief dat van vroegherkenning ook levensverlenging en hogere kwaliteit van leven kan worden verwacht. zz B Evaluatie van de effectiviteit van screening

Indien een valide screeningstest voorhanden is, is de volgende vraag of screening wel het beoogde effect heeft. Evaluatie van effectiviteit van screening geschiedt bij voorkeur door het uitvoeren van een gerandomiseerd onderzoek. De ene helft van de populatie krijgt met een bepaald interval (elke vijf jaar bij screening op baarmoederhalskanker, elke twee jaar bij screening op borstkanker) screening aangeboden en de andere helft niet. De sterfte aan de desbetreffende ziekte in de beide groepen wordt na een aantal jaren vergeleken en op deze manier kan worden vastgesteld of screening leidt tot een reductie en zo ja, hoe groot die reductie is. Vaak worden hier ook de kosten bij betrokken (kosteneffectiviteitsonderzoek) en wordt berekend hoeveel een gewonnen levensjaar kost. Het evalueren van screening is een kostbare en langdurige bezigheid. Bovendien is het moeilijk uit te leggen dat screening lang niet altijd beter is en vaak eist de populatie of de politiek in de controlegroep ook screening, omdat men het gevoel heeft dat die groep iets goeds wordt onthouden. Dit overkwam onderzoekers in de jaren zeventig van de vorige eeuw bij de opzet van een wetenschappelijk onderzoek naar baarmoederhalskanker. De politiek verhinderde een experiment waardoor er altijd twijfels zijn blijven bestaan over de effectiviteit van deze vorm van screening. Alleen nieuwe vormen van screening kunnen dus eigenlijk goed worden geëvalueerd in een gerandomiseerd experiment. Zo gauw de test (bijv. de echo van de aortadiameter) gemakkelijk verkrijgbaar is, wordt de vraag naar de test in de controlegroep zo groot dat het effect van screening wordt verdund. Om het effect van screening aan te tonen zijn vaak honderdduizenden mensen nodig, omdat het meestal gaat om aandoeningen die weinig voorkomen. In een lopend onderzoek naar de effecten van screening op prostaatkanker waaraan negen Europese landen meewerkten, werden in negen landen meer dan 150.000 mannen gerandomiseerd over de interventie (bepaling van het serumprostaatspecifieke antigeen (PSA)) en de controlegroep. Bij de beoordeling van een gerandomiseerd screeningsonderzoek moeten exact dezelfde overwegingen worden gehanteerd als die bij de evaluatie van een therapeutisch onderzoek. Hoe

4.6 • Screening

89

de interne validiteit van het onderzoek, het belang ervan en de toepasbaarheid van de interventie moeten worden beoordeeld is te vinden in 7 par. 4.4. Hierna staat een aantal punten die met name bij de uitvoering van een screeningsonderzoek van belang zijn. zz Validiteit k1k Randomisatie

Hoewel individuele randomisatie de voorkeur verdient, is dit om logistieke en methodologische redenen niet altijd mogelijk en wordt zogenoemde clusterrandomisatie toegepast (zie ook 7 par. 4.4). Bij clusterrandomisatie worden geen individuen gerandomiseerd maar groepen van individuen (clusters), bijvoorbeeld regio’s of huisartspraktijken. Met deze clusterrandomisatie probeert men ook vaak beïnvloeding door de screening (contaminatie) van de controlegroep te voorkomen. Contaminatie van de controlegroep leidt tot een vermindering van het contrast tussen gescreende personen en de controlegroep. Idealiter wordt een gerandomiseerde screeningstrial uitgevoerd op het moment dat er gerede twijfel bestaat over de waarde van de screeningstest. Indien de screeningstest (het uitstrijkje of de echografie van de aorta) al op grote schaal in de reguliere gezondheidszorg te verkrijgen is, is de kans dat personen uit de controlegroep ook de screeningstest ondergaan groot. Dit kan leiden tot verdunning van het screeningseffect en bij de evaluatie moet men hiermee rekening houden. k2 k Blindering van screeningstest en interventie

Blindering van de persoon is in de screeningssituatie niet mogelijk. Omdat het om zeer grootschalige onderzoeken gaat, kan contaminatie optreden en ook de personen uit de controlegroep zullen via de media of anderszins over de screeningsinterventie worden geïnformeerd. Als zij dat willen, kunnen zij zich vaak via hun arts laten screenen (uitstrijkje van de baarmoederhals, röntgenfoto van de borsten, echo van de buik). Ook blindering van de behandelaar zal vaak onmogelijk zijn, omdat de relatief vaak geringe omvang van de afwijking kan verraden dat het om een bij screening ontdekte afwijking gaat. k3 k Vergelijkbaarheid van de groepen aan het begin van het onderzoek

Onvergelijkbaarheid speelt vooral een rol bij evaluatie van screening waarin niet gerandomiseerd is en de effecten van screening moeten worden afgeleid uit observationele onderzoeken. Ook indien gerandomiseerd is, kan initiële vergelijkbaarheid van de groepen echter verloren gaan door selectieve selectie of participatie in clustergerandomiseerde trials, loss-tofollow-up en/of doordat een deel van de controlegroep toch in de reguliere gezondheidszorg de screeningstest ondergaat. Clusterrandomisatie kan soms tot onvergelijkbaarheid van de experimentele groep en de controlegroep leiden, als er bijvoorbeeld grote sociaaleconomische verschillen tussen de clusters bestaan en deze op hun beurt weer gekoppeld zijn aan de kans op ziekte. Zo komt borstkanker bijvoorbeeld frequenter voor in sociaaleconomisch hoge klassen en baarmoederhalskanker in sociaaleconomisch lage klassen. Onvergelijkbaarheid tussen de interventie- en de controlegroep kan ook ontstaan doordat de ziekte waarop men screent al latent aanwezig is. Indien men randomiseert is dat niet erg, omdat dit fenomeen zich in de controle- en de interventiearm voordoet. Het geeft echter aanleiding tot ernstige vertekening, indien personen met bij eerste inspectie reeds aanwezige ziekte alleen uit de interventiearm worden uitgesloten (ze zijn namelijk al ziek en komen dus niet in aanmerking voor de screening) en niet uit de controlearm (hier wordt de indicatiestelling voor de screening niet actief nagegaan). Indien men heeft gekozen voor clusterrandomisatie is het vaak niet mogelijk om hier in controle- en interventiearm identiek te handelen, omdat hierover in de controlearm onvoldoende informatie is. Indien de effecten van screening uit observationeel onderzoek

4

90

Hoofdstuk 4 • Kritisch beoordelen van een artikel

begin kanker bij A en B

4

A heeft een knobbeltje van 10 mm dat na 1,5 jaar wordt ontdekt bij een screeningsmammografie

B heeft een knobbel van 7 cm die na 4,5 jaar wordt ontdekt bij palpatie

A en B overlijden beiden na 8 jaar

0 ------------ 1 ------------ 2 ------------ 3 ------------ 4 ------------ 5 ------------ 6 ------------ 7 ------------ 8 -------

vertekening door vroege ontdekking (lead-time bias) . Figuur 4.8 Voorbeeld van vertekening van overlevingsduur door vroegopsporing (lead-time bias): het natuurlijk beloop van borstkanker. Bron: Rosser en Shaffir, 1998.

moeten worden geschat, is de kans op vertekening groot en krijgt men te maken met de zogenoemde length-time bias. Length-time bias speelt een rol, als men bijvoorbeeld de overleving vergelijkt van personen met een bij screening ontdekte tumor met die van personen bij wie de tumor buiten de screening werd opgespoord. Met screening worden relatief meer langzaam groeiende tumoren opgespoord. Deze tumoren hebben meestal een gunstiger prognose. De snelgroeiende tumoren worden vooral in de intervallen tussen twee screeningen opgespoord. k4 k Follow-up

Indien men randomiseert, kunnen de interventie- en controlearm op ieder moment in de tijd ten aanzien van het optreden van het gekozen eindpunt worden vergeleken. Grote problemen ontstaan wanneer niet is gerandomiseerd. Het vergelijken van overlevingscijfers in de gescreende en niet-gescreende groep leidt dan tot een kunstmatig gunstiger overlevingscijfer in de gescreende groep, doordat de ziekte door screening eerder wordt onderkend. De overleving is immers de periode tussen onderkenning van de ziekte en het tijdstip van overlijden aan de ziekte. Dit wordt ook wel lead-time bias genoemd en ontstaat doordat de diagnose wordt vervroegd terwijl het tijdstip van overlijden hetzelfde is (zie . figuur 4.8). k5 k De keuze van het eindpunt

Net als in een therapeutische trial is de keuze van het eindpunt cruciaal bij de evaluatie van screening. Men kan het optreden van de ziekte, sterfte aan de ziekte en totale sterfte als eindpunt in screeningsonderzoek nemen. Aan alle keuzes kleven echter nadelen. Omdat met screening afwijkingen worden opgespoord, is het vergelijken van de aantallen van de opgespoorde afwijkingen (tumoren, diabetes, hypertensie) ongeschikt. Men vergroot door de actieve opsporing immers zelf het aantal personen met de ziekte, om uiteindelijk minder gevorderde morbiditeit en sterfte aan de aandoening of de gevolgen van de risicofactor te voorkomen. Met het bevolkingsonderzoek naar baarmoederhalskanker spoort men dysplasie, carcinoma in situ en micro-invasief carcinoom op om invasieve carcinomen en sterfte hieraan te voorkomen. Bij de evaluatie van de borstkanker- en aneurysmascreening is sterfte gerelateerd aan de aandoening waarop wordt gescreend als eindpunt gekozen. Hierop is kritiek mogelijk, waarbij deze zich vooral richt op de subjectiviteit van de beoordeling van de doodsoorzaak. Veelal gebeurt het vaststellen van de doodsoorzaak niet ‘blind’ en de kennis dat de persoon aan screening heeft deelgenomen zou de beoordeling beïnvloed kunnen hebben. Daarnaast is de beoordeling van

4.6 • Screening

91

doodsoorzaken lastig en een deel van de doodsoorzaken wordt, afhankelijk van de ziekte, fout geclassificeerd. Vaak wordt een eindpunt gekozen dat niet ideaal is om de eenvoudige reden dat de keuze van het juiste eindpunt (totale sterfte) zou leiden tot vanwege de omvang onuitvoerbare onderzoeken. Dit komt doordat het aandeel van de sterfte aan de desbetreffende ziekte te klein is, de bereikte effecten te gering zijn en niet de gehele uitgenodigde populatie ook daadwerkelijk aan de screening deelneemt. Naast ziektespecifieke sterfte moet altijd de totale sterfte worden bekeken. Deze totale sterfte geeft indirect informatie over de kwaliteit van een gerandomiseerd onderzoek en bij vergelijkbaarheid van gescreende groep en controlegroep op het tijdstip van randomisatie verwacht men gelijke sterftekansen aan aandoeningen die geen relatie hebben met de ziekte waarop wordt gescreend. k6 k Het screeningsinterval

Het optimale screeningsinterval wordt vaak gebaseerd op kennis omtrent het natuurlijk beloop van een ziekte. Door gebruikmaking van allerlei mathematische modellen kan voor verschillende screeningsintervallen de kans op ziekte worden gesimuleerd. Zo werd op basis van deze modellen het screeningsinterval in het bevolkingsonderzoek naar baarmoederhalskanker verlengd van drie naar vijf jaar. Het screeningsinterval is vrijwel nooit onderwerp van gerandomiseerde onderzoeken waarin verschillende screeningsintervallen met elkaar worden vergeleken. Deze onderzoeken zijn vanwege hun benodigde grote omvang niet realiseerbaar. zz Het belang van de interventie

Net als bij de evaluatie van therapie wordt de grootte van het effect gekwantificeerd door het absolute risico in de gescreende groep te vergelijken met dat in de controlegroep. Zo was in de gescreende groep uit de Multicentre Aneurysm Screening Study (MASS) het absolute risico om te overlijden aan een aandoening gerelateerd aan het aneurysma 0,19% in een gemiddelde follow-upperiode van 4,1 jaar, terwijl dit in de controlegroep 0,33% was. Of men ook daadwerkelijk bereid is de inspanningen te verrichten die in dit onderzoek zijn gedaan om deze sterftereductie te bereiken, hangt in het bijzonder samen met de kosten en de negatieve aspecten van de screening. Om in vier jaar 47 doden ten gevolge van een aneurysma te voorkomen, moesten bijna 34.000 mannen een echo laten maken. Ook kan men zich afvragen of het gekozen eindpunt relevant is, maar omdat de sterfte aan het aneurysma zeldzaam is en slechts een zeer klein deel van de cardiovasculaire sterfte beslaat (3%), laat screening geen effecten zien op de cardiovasculaire sterfte. Analoog aan het number needed to treat (zie 7 par. 4.4) kan het number needed to screen worden berekend. Het number needed to screen is dan het aantal mensen dat gedurende een bepaalde periode gescreend moet worden om één dode te voorkomen. Hiervoor moet men weten wat de prevalentie van de aandoening is en welke sterftereductie bij ontdekking kan worden bereikt. Naast het primaire eindpunt moet in screeningsonderzoeken aandacht worden besteed aan kwaliteit-van-leven-aspecten. Hierbij moet men vooral waarderen hoe kwaliteit van leven gemeten is bij fout-positieve en fout-negatieve testuitslagen. Daarnaast moet ook worden nagegaan wat de invloed van de vroeg-herkenning en de daarna volgende behandeling op de kwaliteit van leven is. Sommige behandelingen zijn relatief kortdurend, zoals de operatieve verwijdering van een premaligne afwijking, en hebben daardoor een beperkt effect op de kwaliteit van leven, maar behandelingen kunnen ook zeer langdurig zijn, bijvoorbeeld na vroege opsporing van diabetes, nierfalen of cystische fibrose. Ook moet het aantal interventies nauwkeurig worden bijgehouden in de experimentele groep en de interventiegroep. Screening leidt vrijwel altijd tot overbehandeling, omdat afwijkingen worden opgespoord waaraan men nooit

4

92

Hoofdstuk 4 • Kritisch beoordelen van een artikel

zou overlijden en die soms zelfs helemaal geen klinische betekenis hebben. Dit fenomeen moet worden meegenomen in de afweging om wel of niet op een aandoening te screenen. 4.6.3 Conclusie

4

In deze paragraaf is de beoordeling van onderzoek naar de waarde van screening aan de orde gekomen. Bij de beoordeling van dergelijk onderzoek dienen zowel aspecten ten aanzien van de diagnostische waarde van de screeningstest te worden beschouwd als het effect van de screening zelf. In geval van screeningsonderzoek geldt voor beide componenten, dat nuanceringen dienen te worden aangebracht in de oorspronkelijke beoordelingscriteria voor diagnostisch onderzoek (7 par. 4.2) en interventieonderzoek (7 par. 4.4). De consequenties met betrekking tot fout-negatieven, fout-positieven en kwaliteit van leven dienen voldoende aandacht te krijgen, omdat in beginsel gezonde personen worden onderzocht. Omdat screeningsprogramma’s zeer kostbaar zijn en leiden tot politieke keuzen moet de kosteneffectiviteitsanalyse aan zeer hoge eisen voldoen. Literatuur Barratt A, Irwig L, Glasziou P, et al. Users’ guides to the medical literature. XVII. How to use guidelines and recommendations about screening. JAMA 1999;281:2029–34. Day NE. The theoretical basis for cancer screening. Cancer Treat Res 1996;86:9–24. Ilic D, Neuberger MM, Djulbegovic M, Dahm P. Screening for prostate cancer. Cochrane Database of Systematic Reviews 2013, Issue 1. Art. No.: CD004720. Klaveren RJ van, Oudkerk M, Mali WThM, Koning HJ de. Screenen op longkanker met de multidetector-CT: voorlopig nog af te raden. Ned Tijdschr Geneeskd 2008;152:125–8. RIVM. Bevolkingsonderzoek en Screeningen Beschikbaar 7 www.rivm.nl/Onderwerpen/Onderwerpen/B/ Bevolkingsonderzoeken_en_screeningen. Geraadpleegd op 28 december 2012. Straus SE, Glasziou P, Richardson WS, Haynes RB. Evidence-based Medicine: How to practice and teach it. 5. Diagnosis and screening. Fourth edition. Edinburgh: Churchill Livingstone, 2011. Wilson JMG, Jungner G. Principles and practice of screening for disease. Public Health Paper no 34. Genève: WHO, 1968.

4.7 Klinimetrie C.B. Terwee, H.C.W. de Vet en R.J.P.M. Scholten 4.7.1 Inleiding

In de jaren tachtig van de vorige eeuw introduceerde Alvan Feinstein de term ‘klinimetrie’ in de medische literatuur als een methodologische discipline die zich richt op het meten van klinische verschijnselen. Klinimetrie houdt zich bezig met de kwaliteit van klinische metingen. Daarbij gaat het zowel om de kwaliteit van de meetinstrumenten als om de kwaliteit van de metingen zelf. Bij klinische meetinstrumenten kan men denken aan bepalingen in het bloed en urine, beoordelingen van röntgenfoto’s, bevindingen van het lichamelijk onderzoek, vragenlijsten, interviews, observatiemethodes, dagboeken, et cetera. De kwaliteit van de meetinstrumenten hangt af van de meeteigenschappen van het instrument, de zogenoemde klinimetrische eigenschappen. De kwaliteit van de metingen zelf hangt af van de persoon die de metingen verricht (bijv. de mate van expertise), de persoon die gemeten wordt (bijv. cognitieve vermogens van de patiënt) en van omgevingsfactoren (bijv. tijdstip van de dag).

4.7 • Klinimetrie

93

Voor het stellen van de juiste diagnose, voor het inschatten van de prognose en voor het bepalen van de effectiviteit van een interventie zijn meetinstrumenten nodig. Deze dienen uiteraard van de hoogst mogelijke kwaliteit te zijn en het is dan ook van groot belang de kwaliteit van deze meetinstrumenten te bepalen. Vaak zijn er meerdere meetinstrumenten beschikbaar voor een bepaalde situatie en moet er een keuze worden gemaakt. Naast praktische overwegingen als kosten en belasting voor de patiënt, spelen de klinimetrische eigenschappen van het meetinstrument een belangrijke rol bij de keuze. Meetinstrumenten kunnen verschillende doelen hebben: 1. Het meten van de gezondheidstoestand van patiënten op één moment in de tijd, om onderscheid te kunnen maken tussen patiënten met een betere of slechtere gezondheidstoestand (discriminatie, bijv. diagnostiek). 2. Het meten van veranderingen in de gezondheidstoestand van patiënten in de tijd (evaluatie, bijv. effectonderzoek). 3. Het voorspellen van de gezondheidstoestand van patiënten in de toekomst (predictie, bijv. prognostisch onderzoek). Binnen elk van deze drie doelen kan men geïnteresseerd zijn in de meting van één patiënt (gebruik op individueel niveau), zoals in de dagelijkse klinische praktijk, of in de metingen van een groep patiënten (gebruik op groepsniveau), zoals in onderzoek. Het doel waarvoor men het meetinstrument wil gebruiken en het niveau waarop men wil meten, bepalen welke klinimetrische eigenschappen van belang zijn en hoe ‘goed’ de klinimetrische eigenschappen moeten zijn. 4.7.2 Beoordeling van een onderzoek naar de klinimetrische

eigenschappen van een meetinstrument

Het beoordelen van een onderzoek naar de klinimetrische eigenschappen van een meetinstrument bestaat, net als bij de beoordeling van andere soorten onderzoek, uit een beoordeling van de kwaliteit, het resultaat en de toepasbaarheid van het onderzoek. Bij de kwaliteit van het onderzoek gaat het erom dat de juiste methodes en analyses zijn toegepast in het klinimetrisch onderzoek. Pas als dit het geval is, kan men het belang van de resultaten beoordelen. Daarbij gaat het erom of de klinimetrische eigenschappen van een meetinstrument ‘goed genoeg’ zijn voor het gebruik van het meetinstrument voor een bepaald doel. We maken dus onderscheid tussen de kwaliteit van de klinimetrische studie (risk of bias) en de kwaliteit van het meetinstrument (resultaat). Na beoordeling van de kwaliteit van het onderzoek en de resultaten van de klinimetrische eigenschappen van het meetinstrument, moet worden beoordeeld in hoeverre de resultaten toepasbaar zijn op andere dan de in het onderzoek betrokken situaties. Dit wordt ook wel ‘generaliseerbaarheid’ genoemd. zz Validiteit

In een kwalitatief goed klinimetrisch onderzoek wordt de kwaliteit van de onderzochte meetinstrumenten zuiver (niet vertekend) bepaald binnen de context van het onderzoek. Ook moet de onderzoekspopulatie voldoende groot zijn om een betrouwbare uitspraak te kunnen doen over de klinimetrische eigenschappen. Een groepsgrootte van vijftig patiënten wordt over het algemeen als goed beschouwd, een groepsgrootte van honderd als uitstekend. Om de kwaliteit van een onderzoek te kunnen beoordelen is een duidelijke omschrijving nodig van de selectie van patiënten, de wijze waarop de data zijn verzameld en de data-analyses. Wanneer bepaalde aspecten van de klinimetrische studie niet goed beschreven zijn, wanneer de onderzoekspo-

4

94

Hoofdstuk 4 • Kritisch beoordelen van een artikel

QUALITY of a HR-PRO reliability internal consistency

4

reliability (test-retest, inter-rater, intra-rater)

measurement error (test-retest, inter-rater, intra-rater)

validity content validity face validity

construct validity

criterion validity (concurrent validity, predictive validity)

structural validity

hypothesestesting

responsiveness cross-cultural validity

responsiveness

interpretability

. Figuur 4.9 De COSMIN-taxonomie. (HR-PRO: Health Related Patient Reported Outcome).

pulatie te klein is of wanneer er sprake is van potentiële vormen van bias (bijv. selectiebias) of andere methodologische tekortkomingen, kunnen de klinimetrische eigenschappen van een meetinstrument niet goed worden beoordeeld. De kwaliteit van een klinimetrisch onderzoek kan worden bepaald met behulp van de COSMIN-richtlijnen (Consensus-based Standards for the selection of health status Measurement Instruments). COSMIN is een internationale groep onderzoekers die zich inzet voor het ontwikkelen van richtlijnen voor de selectie van meetinstrumenten voor gebruik in onderzoek en in de dagelijkse praktijk (7 www.cosmin.nl). De COSMIN-groep heeft een checklist ontwikkeld waarmee de kwaliteit van een klinimetrische studie kan worden beoordeeld. Omdat er in de literatuur een grote variatie aan klinimetrische termen en definities wordt gebruikt, heeft de COSMIN-groep door middel van een internationale consensusstudie een taxonomie van begrippen en definities ontwikkeld (zie . figuur 4.9), die de basis vormt voor de COSMIN-checklist. In de COSMIN-taxonomie worden drie domeinen van kwaliteit van een meetinstrument onderscheiden: betrouwbaarheid, validiteit en responsiviteit. Binnen deze domeinen worden verschillende meeteigenschappen onderscheiden. Voor elke klinimetrische eigenschap zijn internationale richtlijnen opgesteld hoe deze klinimetrische eigenschap moet worden bepaald (optimale design en statistische analyses). Naast deze drie domeinen wordt in de COSMINtaxonomie het begrip ‘interpreteerbaarheid’ genoemd als belangrijk kenmerk van een meetinstrument. Dit is echter geen klinimetrische eigenschap. De belangrijkste richtlijnen van COSMIN worden hieronder besproken. Voor details wordt verwezen naar de literatuur over COSMIN.

4.7 • Klinimetrie

95

k1k Betrouwbaarheid

Betrouwbaarheid is de mate waarin een meting vrij is van meetfouten. Binnen het domein betrouwbaarheid kan onderscheid worden gemaakt tussen de klinimetrische eigenschappen interne consistentie, meetfout en betrouwbaarheid. k1.1 k Interne consistentie

Interne consistentie is de mate waarin de items van het meetinstrument met elkaar samenhangen. In een uni-dimensionale (sub)schaal (bijv. een subschaal over beperkingen met lopen) geeft interne consistentie de mate weer waarin de items hetzelfde construct meten. Cronbach’s alpha is een algemeen geaccepteerde maat voor interne consistentie van een (sub)schaal. De Cronbach’s alpha geeft een soort gemiddelde correlatie weer tussen alle items in een schaal. Voordat de Cronbach’s alpha kan worden berekend, moet echter altijd eerst een factoranalyse zijn uitgevoerd om te kijken welke dimensies of subschalen er in een vragenlijst zijn te onderscheiden. In een factoranalyse zullen items die hoog met elkaar correleren één factor (of subschaal) vormen; items die laag met elkaar correleren worden aan verschillende factoren toegekend. De Cronbach’s alpha moet vervolgens per subschaal zijn bepaald. k1.2 k Meetfout

De meetfout omvat zowel de systematische als de toevallige (random) fout van een score die niet kan worden toegeschreven aan echte veranderingen in het construct dat het meetinstrument beoogt te meten. De meetfout geeft aan welke fout men kan verwachten bij herhaalde metingen, uitgedrukt in de eenheid van het meetinstrument. De meetfout van een personenweegschaal kan bijvoorbeeld wel vijfhonderd gram zijn. Dat betekent dat bij een herhaalde weging een persoon vijfhonderd gram zwaarder of lichter kan lijken te zijn als gevolg van meetfouten. De meetfout moet zijn bepaald door middel van een test-hertest-onderzoek, waarbij het meetinstrument twee keer is afgenomen bij een groep stabiele personen. De tijd tussen de metingen moet zo kort mogelijk zijn geweest om te zorgen dat de personen stabiel bleven. Als het meetinstrument bestaat uit een vragenlijst moet het interval niet zo kort zijn dat men zich de vorige resultaten nog kan herinneren. Bij vragenlijsten is een periode van twee weken meestal acceptabel. De eenvoudigst te berekenen maat voor meetfout is de limits of agreement. Hiertoe wordt in een figuur (een Bland & Altman-plot) het gemiddelde tussen de twee herhaalde metingen uitgezet tegen het verschil van de twee metingen (zie . figuur 4.10 voor een voorbeeld). Het gemiddelde verschil (uitgedrukt met de letter d, van difference) geeft de systematische meetfout weer. De afstand van de punten geeft aan hoe groot de meetfouten zijn. Als de meetfout klein is, liggen alle punten dicht bij de lijn. Per definitie ligt 95% van de verschillen tussen de twee metingen tussen d – 1,96 × SD en d + 1,96 × SD. Dit worden de limits of agreement genoemd. SD staat voor standaarddeviatie van het verschil, een maat voor de spreiding van de verschillen rond het gemiddelde. De SD geeft de toevallige meetfout weer. De interpretatie van de limits of agreement is als volgt: wanneer een meetinstrument voor een tweede maal wordt ingevuld, dan kan de tweede score zomaar d + 1,96 × SD punten hoger of d – 1,96 × SD punten lager zijn dan de eerste score, alleen vanwege de meetfout. Dit betekent dat alleen veranderingen in score die buiten de limits of agreement vallen, kunnen worden gezien als ‘echte’ veranderingen. De waarde 1,96 × SD wordt daarom wel smallest detectable change (SDC) genoemd. Een andere maat voor de meetfout is de zogenoemde standaardmeetfout (Standard Error of Measurement (SEM)). Deze SEM komt overeen met SD/√2. Dus SEM, SDC en limits of agreement zijn goede maten voor de meetfout.

4

96

Hoofdstuk 4 • Kritisch beoordelen van een artikel

40 30 20 10

4

0

d

-10 -20 -30 -40 -40

-20

0

20

40

60

80

100

120

. Figuur 4.10 Voorbeeld van een Bland & Altman-plot met bijbehorende limits of agreement. De limits of agreement lopen van –23,4 tot 14,2 punten. Bron: De Winter, et al. BMC Musculoskeletal Disorders 2004,5:18.

k1.3 k Betrouwbaarheid

Betrouwbaarheid is de mate waarin personen van elkaar kunnen worden onderscheiden, ondanks de meetfout. De betrouwbaarheid en de meetfout kunnen beide zijn bepaald in hetzelfde test-hertest-onderzoek. De intraclass correlatiecoëfficiënt (ICC) is een algemeen geaccepteerde maat voor het kwantificeren van de betrouwbaarheid van meetinstrumenten met continue uitkomsten, zoals bloeddruk of gewicht. In de ICC wordt de variatie tussen personen gedeeld door de totale variatie (= de variatie tussen personen plus de meetfout). De ICC is dus dat deel van de variatie in scores dat kan worden toegeschreven aan ‘echte’ verschillen tussen personen. Er kunnen verschillende soorten ICC’s zijn berekend. Voor test-hertest-betrouwbaarheid is de ICC voor absolute overeenstemming het geschiktst. Voor ordinale maten, dat wil zeggen schalen met een beperkt aantal opeenvolgende categorieën, bijvoorbeeld een 7-puntsschaal, is een gewogen Cohen’s kappa een goede maat. Kappa drukt de mate van overeenstemming tussen twee metingen of twee beoordelaars uit die boven de toevalsvariatie uitstijgt. Zou men louter het percentage overeenstemming berekenen, dan geeft dat een te optimistisch resultaat omdat hierbij geen rekening wordt gehouden met toevalsovereenkomst. k2 k Validiteit

Validiteit is de mate waarin het meetinstrument meet wat het beoogt te meten. Binnen het domein validiteit kan onderscheid worden gemaakt tussen de klinimetrische eigenschappen inhoudsvaliditeit, criteriumvaliditeit en constructvaliditeit. k2.1 k Inhoudsvaliditeit

Inhoudsvaliditeit is de mate waarin de inhoud van het meetinstrument een adequate afspiegeling is van het construct (datgene wat het meetinstrument beoogt te meten). Het construct moet daarom duidelijk zijn omschreven. In een goed onderzoek naar inhoudsvaliditeit wordt onderzocht of alle aspecten van het meetinstrument relevant zijn voor het te meten construct, voor de doelpopulatie waarin het instrument zal worden toegepast en voor het doel van de

4.7 • Klinimetrie

97

meting (bijv. om onderscheid te maken tussen groepen of om veranderingen in de tijd te meten). Ook wordt onderzocht of er geen relevante aspecten ontbreken. Bijvoorbeeld: bij een vragenlijst om functionele beperkingen te meten van patiënten met schouderklachten, moet aannemelijk worden gemaakt dat alle vragen betrekking hebben op het meten van functionele beperkingen en dat alle relevant zijn voor patiënten met schouderklachten. Ook moet aannemelijk worden gemaakt dat alle relevante (potentiële) beperkingen van patiënten met schouderklachten aan bod komen in de vragen. Het is hiervoor essentieel dat experts en patiënten uit de doelpopulatie (patiënten met schouderklachten) bij het ontwikkelen van het meetinstrument betrokken zijn geweest. Ten slotte moet worden aangetoond dat het meetinstrument begrijpelijk is. Bijvoorbeeld: een vragenlijst moet in makkelijke taal geschreven zijn en de vragen mogen niet op verschillende manieren interpreteerbaar zijn. Evenzo moeten de instructies bij een fysisch-diagnostische test duidelijk zijn zodat de test altijd op dezelfde manier wordt uitgevoerd. Het is dan ook van belang dat een pilotstudie is uitgevoerd om het meetinstrument uit te testen. k2.2 k Criteriumvaliditeit

Criteriumvaliditeit is de mate waarin de scores op het meetinstrument een adequate afspiegeling zijn van een gouden standaard. Bijvoorbeeld: de correlatie tussen het totale energieverbruik, berekend uit een vragenlijst naar de mate van lichamelijke activiteit, en het totale energieverbruik, berekend met de methode van dubbel gelabeld water. Voor deze correlatie wordt meestal de gangbare Pearson-correlatiecoëfficiënt gebruikt. Diagnostische testen kunnen soms worden vergeleken met een gouden standaard, waarbij de sensitiviteit en specificiteit kan worden bepaald (zie 7 par. 4.2). k2.3 k Constructvaliditeit

Voor veel metingen bestaat geen gouden standaard, bijvoorbeeld voor het meten van kwaliteit van leven. In dat geval kan criteriumvaliditeit niet worden bepaald en is men aangewezen op zogenoemde constructvaliditeit. Constructvaliditeit is de mate waarin de uitslagen van scores op het meetinstrument consistent zijn met resultaten van andere meetinstrumenten. Het te valideren meetinstrument moet dan hoog correleren met andere meetinstrumenten die hetzelfde construct beogen te meten (convergente validiteit) en laag correleren met meetinstrumenten die een ander construct beogen te meten (discriminante validiteit). Een vragenlijst voor het meten van lichamelijke activiteit, bijvoorbeeld, zou hoger moeten correleren met accelerometer-counts dan met body mass index of uithoudingsvermogen, omdat deze laatste door veel meer andere factoren dan alleen lichamelijke activiteit worden bepaald. Voor het op deze wijze meten van constructvaliditeit dienen vooraf hypothesen te worden opgesteld, bijvoorbeeld met betrekking tot onderlinge correlaties tussen de items, relaties met scores op andere meetinstrumenten. Ook kunnen verschillen in scores op het meetinstrument worden aangetoond tussen groepen waarvan men op grond van theoretische kennis verwacht dat ze verschillen in het construct dat het meetinstrument beoogt te meten (known-groups-validiteit). Wanneer men duidelijke verschillen in kwaliteit van leven verwacht tussen patiënten met en zonder chronische aandoening dan moet een valide kwaliteit-van-leven-instrument deze verschillen ook kunnen aantonen. Constructvaliditeit moet dus zijn bepaald aan de hand van specifieke hypothesen die zijn getoetst over verwachte verschillen tussen groepen of over verwachte relaties tussen het te valideren meetinstrument en andere meetinstrumenten, bijvoorbeeld in termen van verwachte

4

98

Hoofdstuk 4 • Kritisch beoordelen van een artikel

. Tabel 4.6 Voorbeelden van hypothesen voor constructvaliditeit (naar De Groot, et al. Osteoarthritis Cartilage 2007;15:109)

4

1

Een correlatie van ten minste 0.50 tussen de HOOS-subschaal Pijn en de SF-36-subschaal Lichamelijke Pijn. Bevestigd? Ja

2

Een correlatie van ten minste 0.50 tussen de HOOS-subschaal Pijn en de VAS Pijn. Bevestigd? Ja

3

De correlatie tussen de HOOS-subschaal ADL en de SF-36-subschaal Fysiek Functioneren is hoger dan de correlatie tussen de HOOS-subschaal Sport/Recreatie en de SF-36-subschaal Fysiek Functioneren. Bevestigd? Ja

4

De correlatie tussen de HOOS-subschaal Pijn en de SF-36-subschaal Lichamelijke Pijn moeten minstens 0.10 hoger zijn dan de correlatie tussen de HOOS-subschaal Pijn en de andere subschalen van de SF-36. Bevestigd? Ja

5

Een correlatie van ten minste 0.50 tussen alle subschalen van de HOOS en de OHS. Bevestigd? Ja

verschillen in gemiddeldes of verwachte correlaties (zie . tabel 4.6). Hoe specifieker de hypothesen en hoe meer er zijn bevestigd, des te beter de constructvaliditeit is aangetoond. Onder constructvaliditeit vallen ook structurele validiteit en crossculturele validiteit. Structurele validiteit is de mate waarin de scores op het meetinstrument een adequate afspiegeling zijn van de dimensionaliteit van het construct dat het instrument beoogt te meten. Door middel van factoranalyse moet zijn aangetoond dat het instrument inderdaad verschillende constructen meet, bijvoorbeeld pijn, stijfheid en functioneren. Voor deze drie dimensies moet men een aparte score berekenen. Crossculturele validiteit is de mate waarin de eigenschappen van een instrument hetzelfde zijn na vertaling of culturele aanpassing. Dit kan bijvoorbeeld worden aangetoond in een onderzoek waarin data uit twee landen met elkaar worden vergeleken. Men onderzoekt dan of de factor ‘structuur van het instrument’ in beide landen gelijk is (multipelegroepfactoranalyse). Een andere mogelijkheid is om te onderzoeken of items in een schaal op dezelfde wijze door patiënten met een dezelfde mate van beperking worden ingevuld. Bijvoorbeeld: in een onderzoek werd gevonden dat Nederlandse artrosepatiënten met dezelfde mate van fysieke beperkingen als Canadese artrosepatiënten in een vragenlijst minder moeite aangaven met het opstaan van een toilet. Dit bleek te komen doordat de toiletten in Nederland hoger zijn dan in Canada, waardoor het opstaan van het toilet in Nederland makkelijker is. Het item in de vragenlijst heeft dus niet helemaal dezelfde betekenis in Nederland als in Canada, er is sprake van differentieel itemfunctioneren (DIF). Hiermee zou rekening moeten worden gehouden wanneer onderzoekgegevens uit Nederland en Canada met elkaar worden vergeleken. k3 k Responsiviteit

Responsiviteit is het vermogen van een meetinstrument om veranderingen in de tijd te kunnen meten in het construct dat het meetinstrument beoogt te meten. Responsiviteit is een vorm van validiteit over de tijd (longitudinale validiteit). Dit kan dan ook op dezelfde manier bepaald worden als constructvaliditeit, namelijk door hypothesen te formuleren over verwachte correlaties tussen veranderingen in het meetinstrument en veranderingen in andere meetinstrumenten of over verwachte verschillen tussen veranderingen in het meetinstrument

4.7 • Klinimetrie

99

tussen groepen. Het verschil met constructvaliditeit is dat het bij constructvaliditeit gaat om verwachtingen ten aanzien van de scores zelf en bij responsiviteit om verwachtingen ten aanzien van veranderingen in scores. Wanneer er een gouden standaard beschikbaar is wordt een hoge correlatie verwacht tussen veranderingen in de gouden standaard en veranderingen in het meetinstrument. Responsiviteit moet dus in een longitudinaal onderzoek zijn aangetoond, waarin het instrument ten minste twee keer is afgenomen en waarbij het aannemelijk is dat (op zijn minst een deel van de) patiënten zijn (is) veranderd. Bij vragenlijsten wordt vaak bij follow-up een globale vraag (bijv. een 7-puntsschaal) voor de mate van ervaren herstel meegenomen, die door de patiënt zelf wordt ingevuld. Het antwoord op deze vraag kan dan worden vergeleken met de verandering in score op de vragenlijst. Door vervolgens de uitkomst te dichotomiseren in ‘niet veranderd’ en ‘wel verbeterd’ (of ‘wel verslechterd’), kan men de sensitiviteit en specificiteit van het meetinstrument berekenen. Een adequate maat die hier veel voor wordt gebruikt is de ROC-curve, die ook veel in de diagnostiek wordt gebruikt (zie 7 par. 4.2). In een ROC-curve wordt sensitiviteit uitgezet tegen 1-specificiteit, waarbij de mate van ervaren herstel als referentietest wordt gebruikt en de verandering in score op het meetinstrument als de indextest. Het oppervlakte onder de ROC-curve is een maat voor hoe goed het meetinstrument in staat is onderscheid te maken tussen personen die wel of niet veranderd zijn (volgens de referentietest). k4 k Interpreteerbaarheid

Van sommige meetinstrumenten zijn de scores direct interpreteerbaar, bijvoorbeeld in het geval van een vragenlijst over lichamelijke activiteit die het aantal minuten dat iemand bepaalde activiteiten per dag uitvoert, in kaart brengt. De score wordt uitgedrukt in het totaal aantal minuten activiteit per dag. Deze score is direct interpreteerbaar. Veel meetinstrumenten produceren echter scores die niet direct interpreteerbaar zijn. Wat betekent bijvoorbeeld een score van veertig punten op een kwaliteit-van-leven-schaal van 0-100? Gaat het dan slecht met een patiënt, is dat een indicatie voor behandeling? Hoe scoort de gemiddelde patiënt of de gemiddelde persoon uit de algemene bevolking op deze schaal? Als iemand na verloop van tijd vijf punten hoger scoort, is dat dan een belangrijke verbetering? Welk verschil in score is een minimaal klinisch relevant verschil? Dit soort vragen moet beantwoord zijn wil men het instrument kunnen gebruiken in de praktijk en voor onderzoek. Verschillende typen informatie kunnen bijdragen aan inzicht in de interpreteerbaarheid van scores, bijvoorbeeld gemiddelde scores (met standaarddeviatie) van een referentiepopulatie (bijv. de algemene bevolking, bij voorkeur zowel gemiddelde populatiescores als scores uitgesplitst naar leeftijd en geslacht), gemiddelde scores van ‘herkenbare’ subgroepen van patiënten (bijv. verschillende diagnosecategorieën), gemiddelde scores van patiënten voor en na een standaardbehandeling of gemiddelde verschilscores van patiënten per categorie van een globale vraag (bijv. een 7-puntsschaal) voor de mate van ervaren herstel. Hoe meer van dit soort gegevens beschikbaar zijn, hoe beter men in staat is absolute scores en verschilscores te interpreteren. Het is ook belangrijk om te weten hoeveel patiënten de laagst of hoogst mogelijke score hebben. Wanneer meer dan 15% van de gemeten patiënten de laagst (bodem) of hoogst (plafond) mogelijke score heeft, kan er sprake zijn van een bodem- of plafondeffect. Het zou kunnen zijn dat deze patiënten in werkelijkheid nog slechter of beter zijn dan de slechtst of best mogelijke score, maar dit niet kan worden gemeten met het instrument. Bodem- of plafondeffecten kunnen van invloed zijn op de klinimetrische eigenschappen van een instrument. Als er items ontbreken heeft het instrument een gebrekkige inhoudsvaliditeit. Ook kunnen patiënten aan de uiteinden van de schaal dan niet goed van elkaar worden onderscheiden, wat de

4

100

Hoofdstuk 4 • Kritisch beoordelen van een artikel

4

− verandering in score op het meetinstrument +

anker verbeterd volgens het anker

12 10

niet verbeterd volgens het anker

8 6 4 2

ROC-afkappunt

0 -2 -4 -6

. Figuur 4.11 Voorbeeld van een methode om de Minimal Important Change (MIC) te bepalen. Het ROCafkappunt geeft de MIC-waarde aan. Bron: De Vet, et al. Quality of Life Research 2007, 16:131-142.

betrouwbaarheid beperkt. Meer items aan het uiteinde van de schaal zouden deze mensen verder uit elkaar kunnen trekken. Tevens kan de responsiviteit van het meetinstrument beperkt zijn omdat patiënten aan het uiteinde van de schaal niet nog slechter of nog beter kunnen worden. Ook moet altijd een minimaal klinisch relevant verschil in score (Minimal Important Change (MIC)) op het meetinstrument zijn bepaald om verschilscores interpreteerbaar te maken en om powerberekeningen voor nieuwe studies te kunnen doen. Dit kan het beste met een zogenoemde anchor-based-methode. Bij anchor-based-methodes wordt een extern criterium gebruikt (een meetinstrument dat als anker dient), waaraan verschilscores op het meetinstrument worden gerelateerd. Voor evaluatiedoeleinden is dit anker vaak een globale vraag (bijv. een 7-puntsschaal) voor de mate van ervaren herstel die door de patiënt zelf wordt ingevuld. Voor het bepalen van het minimaal klinische relevant verschil tussen groepen (voor discriminatie) worden vaak klinische meetinstrumenten als anker gebruikt. Op basis van dit anker worden patiënten ingedeeld in patiënten die wel en patiënten die niet verbeterd zijn. In . figuur 4.11 is een voorbeeld te zien van een pijnschaal die loopt van –6 tot 12 punten. In de figuur is de verdeling van de scores op de pijnschaal weergegeven in de groepen patiënten die wel of niet verbeterd zijn volgens het anker (linker- en rechterdeel van de figuur). Het minimaal klinisch relevant verschil in score op het meetinstrument kan worden bepaald door met behulp van een ROC-curve het optimale afkappunt op het meetinstrument te bepalen: dat wil zeggen dat afkappunt dat het beste onderscheid kan maken tussen patiënten die wel of niet verbeterd zijn volgens het anker (net als in de diagnostiek, zie 7 par. 4.2). In het voorbeeld in . figuur 4.11 blijkt uit de ROC-analyse dat het optimale afkappunt ligt bij 2,5 punten. Dus de MIC is hier 2,5 punten. In de literatuur worden ook vaak distribution-based-methodes gebruikt, waarbij statistische maten worden gebruikt om het minimaal klinisch relevant verschil in score te bepalen. Zo kan men bijvoorbeeld een halve (baseline) standaarddeviatie als minimaal klinisch relevant verschil gebruiken of een waarde van 1*SEM of 1,96*SEM. Deze methodes geven echter geen informatie over de belangrijkheid van de verschilscores en zijn daarom geen goede maten om het minimaal klinisch relevante verschil te bepalen.

4.7 • Klinimetrie

101

Een andere manier om interpreteerbaarheid te bepalen is om te kijken of het meetinstrument klinisch relevante veranderingen kan onderscheiden van meetfouten. Voor het gebruik van meetinstrumenten bij individuele patiënten in de dagelijkse praktijk moet de meetfout kleiner zijn dan het minimaal klinisch relevante verschil (de MIC) om met 95% zekerheid een relevante verandering van meetfouten te kunnen onderscheiden. zz Resultaat van de klinimetrische eigenschappen

Wanneer we te maken hebben met een klinimetrisch onderzoek van hoge kwaliteit, moet vervolgens worden vastgesteld hoe goed de klinimetrische eigenschappen van een meetinstrument zijn. In . tabel 4.7 worden criteria gegeven voor goed klinimetrische eigenschappen. Een Cronbach’s alpha tussen de 0.70 en 0.95 wordt over het algemeen als goed beschouwd. Als de Cronbach’s alpha te hoog ( > 0.95) is, wijst dit op redundantie: er zitten dan te veel vragen in de (sub)schaal die zo goed als hetzelfde meten. Dit levert niets op maar verhoogt wel de belasting voor de patiënt. Een ICC of gewogen Kappa van ten minste 0.70 wordt in het algemeen acceptabel gevonden voor metingen op groepsniveau. Voor metingen op individueel niveau moet de betrouwbaarheid hoger zijn (net zoals de meetfout kleiner moet zijn). Vaak wordt dan een ICC-waarde van 0.90 als minimum genoemd. Om te kunnen beoordelen of de meetfout groot of klein is, moet worden bekeken of met deze meetfout klinisch relevante verschillen kunnen worden aangetoond. Hiervoor is het nodig te weten wat het kleinste verschil in score op het meetinstrument is dat men klinisch relevant vindt (MIC). Als het minimaal klinisch relevant verschil groter is dan de meetfout, is de meetfout acceptabel. Als het minimaal klinisch relevant verschil kleiner is dan de meetfout, betekent dit dat je dit klinisch relevant verschil niet kunt onderscheiden van een meetfout. De meetfout is dus te groot. Deze interpretatie geldt echter alleen voor het gebruik van meetinstrumenten bij individuele patiënten, dus wanneer men kijkt naar veranderingen in scores bij één patiënt. Wanneer men kijkt naar gemiddelde veranderingen in scores in groepen patiënten, mag men rekening houden met het feit dat meetfouten uitmiddelen in groepen. De meetfout van een groepsgemiddelde is dus kleiner dan de meetfout van één individuele meting. De SDC wordt in een groep kleiner met een factor √n (men spreekt dan van groeps-SDC), waarbij n de grootte van de groep weergeeft. Zo kan men zelf de groepsgrootte bepalen die nodig is om met het desbetreffende meetinstrument klinisch relevante verschillen op groepsniveau te kunnen onderscheiden van meetfouten. Op basis hiervan kan men beoordelen of het meetinstrument geschikt is om in de eigen situatie te gebruiken. Het is niet altijd noodzakelijk dat alle klinimetrische eigenschappen van een meetinstrument aan de gestelde eisen voldoen. Sommige klinimetrische eigenschappen zijn voor bepaalde toepassingen heel belangrijk, maar voor andere toepassingen niet. Interne consistentie is van belang voor vragenlijsten die uit meerdere items bestaan, waarvan verwacht wordt dat ze hoog met elkaar correleren. Een voorbeeld is een vragenlijst voor het meten van beperkingen in het uitvoeren van dagelijkse activiteit voor patiënten met artrose. In de vragenlijst wordt gevraagd hoeveel moeite de patiënt heeft met het uitvoeren van verschillende activiteiten. Verwacht wordt dat patiënten die moeite hebben met bijvoorbeeld honderd meter lopen en lopen op een ongelijke ondergrond, ook moeite zullen hebben met traplopen. Deze vragen zullen naar verwachting hoog met elkaar correleren. Echter, in een vragenlijst die lichamelijke activiteit meet, wordt gevraagd welke activiteiten iemand op een dag allemaal doet. Deze activiteiten hoeven helemaal niet met elkaar te correleren: als iemand voetbalt is het helemaal niet per se te verwachten dat iemand ook zwemt of basketbalt. In zo’n geval is interne consistentie niet relevant. Een hoge betrouwbaarheid is noodzakelijk voor discriminatieve doeleinden, wanneer

4

102

Hoofdstuk 4 • Kritisch beoordelen van een artikel

. Tabel 4.7 Beoordelingscriteria voor onderzoek naar de ontwikkeling en/of validering van een meetinstrument. Bron: Terwee, et al. J Clin Epidemiol 2007;60:34-42 meeteigenschap

oordeel

kwaliteitscriteria

+

Cronbach’s alpha(s) ≥ 0.70

?

Cronbach’s alpha niet bepaald OF dimensionaliteit onbekend

–

Cronbach’s alpha(s) < 0.70

+

ICC/gewogen Kappa ≥ 0.70 OF Pearson’s r ≥ 0.80

?

ICC/gewogen Kappa EN Pearson’s r niet bepaald

–

ICC/gewogen Kappa < 0.70 OF Pearson’s r < 0.80

+

MIC > SDC OF MIC buiten de LoA

?

MIC niet bepaald

–

MIC ≤ SDC OF MIC gelijk of binnen de LoA

+

alle items zijn relevant voor het construct, voor de doelgroep en voor het doel van de meting EN de inhoud van het meetinstrument dekt het construct volledig

?

niet genoeg informatie beschikbaar

–

niet alle items zijn relevant voor het construct, voor de doelgroep of voor het doel van de meting OF de inhoud van het meetinstrument dekt het construct niet volledig

+

de factoren verklaren ten minste 50% van de variantie

?

verklaarde variantie niet beschreven

–

de factoren verklaren < 50% van de variantie

+

correlaties met instrumenten die hetzelfde construct meten ≥ 0.50 OF ten minste 75% van de resultaten is in overeenstemming met de hypotheses EN correlaties met gerelateerde constructen zijn hoger dan met ongerelateerde constructen

?

alleen correlaties bepaald met ongerelateerde constructen

–

correlaties met instrumenten die hetzelfde construct meten < 0.50 OF < 75% van de resultaten zijn in overeenstemming met de hypotheses OF correlaties met gerelateerde constructen zijn lager dan met ongerelateerde constructen

+

geen verschil in factorstructuur OF geen belangrijke DIF tussen groepen

?

multipelegroepfactoranalyse niet toegepast EN DIF niet bepaald

–

verschillen in factorstructuur OF belangrijke DIF tussen groepen

Betrouwbaarheid interne consistentie

4 betrouwbaarheid

meetfout

Validiteit inhoudsvaliditeit

constructvaliditeit: – structurele validiteit – hypotheses toetsen

– crossculturele validiteit

103

4.7 • Klinimetrie

. Tabel 4.7 Vervolg meeteigenschap

oordeel

kwaliteitscriteria

criteriumvaliditeit

+

overtuigende argumenten dat de gouden standaard echt ‘goud’ is EN correlatie met gouden standaard ≥ 0.70

?

geen overtuigende argumenten dat de gouden standaard echt ‘goud’ is

–

correlatie met gouden standaard < 0.70

+

correlaties met veranderingen op instrumenten die hetzelfde construct meten ≥ 0.50 OF ten minste 75% van de resultaten in overeenstemming met de hypotheses OF AUC ≥ 0.70 EN correlaties met veranderingen in gerelateerde constructen zijn hoger dan met ongerelateerde constructen

?

alleen correlaties bepaald met ongerelateerde constructen

–

correlaties met veranderingen op instrumenten die hetzelfde construct meten < 0.50 OF < 75% van de resultaten in overeenstemming met de hypotheses OF AUC < 0.70 OF correlaties met veranderingen in gerelateerde constructen zijn lager dan met ongerelateerde constructen

Responsiviteit responsiviteit

MIC = minimal important change, SDC = smallest detectable change, LoA = limits of agreement, ICC = intraclass correlation coefficient, DIF = differential item functioning, AUC = area under the curve + = positief oordeel, ? = onbepaald oordeel, – = negatief oordeel

men personen met bijvoorbeeld een minder of meer ernstige vorm van ziekte van elkaar wil kunnen onderscheiden. Responsiviteit is van belang wanneer men het meetinstrument voor evaluatieve doeleinden wil gebruiken. Interpreteerbaarheid van scores is van groot belang voor elke toepassing van het meetinstrument. zz Toepasbaarheid

De klinimetrische eigenschappen van een meetinstrument zijn niet zonder meer generaliseerbaar van de ene naar de andere populatie. Een vragenlijst voor het meten van functionele beperkingen van volwassenen is bijvoorbeeld niet zonder meer valide voor het meten van functionele beperkingen van kinderen. Sommige vragen zijn misschien irrelevant voor kinderen (bijv. vragen over werk) terwijl belangrijke vragen voor kinderen kunnen ontbreken (bijv. vragen over buitenspelen). Evenzo is een meetinstrument met een goede betrouwbaarheid in een algemene populatie niet per definitie ook een betrouwbaar meetinstrument in een populatie ernstig zieke patiënten. Ernstig zieke patiënten zijn misschien moeilijker van elkaar te onderscheiden dan personen uit de algemene bevolking, waar hele gezonde en hele zieke mensen bij zitten. Ook is een meetinstrument dat ontwikkeld is voor discriminatieve doeleinden niet per definitie bruikbaar voor evaluatiedoeleinden. Voor evaluatiedoeleinden moeten de vragen of testuitslagen veranderbaar zijn en moet het meetinstrument responsief zijn, voor discriminatie hoeft dat niet. Om de generaliseerbaarheid van de klinimetrische studie naar een andere patiëntenpopulatie te kunnen beoordelen, is een goede beschrijving nodig van de inhoud en het doel van het meetinstrument en de populatie waarvoor het meetinstrument is ontwikkeld. Ook is een

4

104

Hoofdstuk 4 • Kritisch beoordelen van een artikel

goede beschrijving nodig van de populatie waarin de klinimetrische studie is uitgevoerd (diagnoses, demografische en klinische kenmerken, setting). Dit kan een andere populatie zijn dan de populatie waarvoor het meetinstrument is ontwikkeld. Ten slotte moet men beoordelen of de testomstandigheden (bijv. gebruik van zelfrapportage of interview, testopstelling) generaliseerbaar zijn.

4

4.7.3 Conclusie

Het kritisch beoordelen van een klinimetrisch artikel vereist enige kennis van zaken en praktische oefening. Men name het beoordelen van de inhoudsvaliditeit van een meetinstrument is een lastige zaak omdat men afhankelijk is van de vaak beperkte informatie die in het artikel is gepresenteerd. Met name is informatie over de constructen die het meetinstrument beoogt te meten, het doel waarvoor het meetinstrument is ontwikkeld en de itemselectie, vaak slecht gerapporteerd. Bij het beoordelen van een klinimetrisch artikel moet ook goed worden gelet op een voldoende duidelijke beschrijving van de populatie waarin de klinimetrische eigenschappen zijn bepaald en de wijze waarop de data zijn verzameld en geanalyseerd. Voor sommige klinimetrische eigenschappen bestaat consensus over de optimale methode, bijvoorbeeld Cronbach’s alpha voor het bepalen van interne consistentie, maar voor andere klinimetrische eigenschappen, bijvoorbeeld voor validiteit en responsiviteit, bestaat geen consensus. Ook worden er in de literatuur nauwelijks afkappunten beschreven voor wat ‘goede’ klinimetrische eigenschappen zijn en worden er nauwelijks uitspraken gedaan over de benodigde groepsgrootte voor klinimetrisch onderzoek. De hier gepresenteerde criteria en afkappunten zijn gebaseerd op de beschikbare literatuur en op jarenlange ervaring in het ontwikkelen en valideren van meetinstrumenten. Kennis over de klinimetrische eigenschappen van meetinstrumenten is van groot belang omdat er belangrijke beslissingen worden genomen op basis van de scores of testuitslagen van deze meetinstrumenten. Daarom is het onontbeerlijk dat we erop kunnen vertrouwen dat de scores betrouwbaar en valide zijn. In de praktijk valt hier vaak nog heel wat op aan te merken wanneer men een meetinstrument eens kritisch beoordeelt. Echter, juist deze kritische beoordeling moet bijdragen tot het signaleren van tekortkomingen, tot het opzetten van meer en beter klinimetrisch onderzoek en tot het verbeteren van de meetinstrumenten zelf. Literatuur Kirshner B, Guyatt G. A methodological framework for assessing health indices. J Chronic Dis. 1985;38:27–36. Mokkink LB, Terwee CB, Patrick DL, Alonso J, Stratford PW, Knol DL, et al. The COSMIN checklist for assessing the methodological quality of studies on measurement properties of health status measurement instruments: an international Delphi study. Qual Life Res 2010;19:539–549. Scientific Advisory Committee of the Medical Outcomes Trust. Assessing health status and quality-of-life instruments: Attributes and review criteria. Quality of Life Research. 2002;11:193–205. Terwee CB, Bot SDM, Boer MR de, Windt DAWM van der, Knol DL, Dekker J, Bouter LM, Vet HCW de. Quality criteria for clinimetric studies of health status questionnaires. J Clin Epidemiol. 2007;60:34–42. Vet HCW de, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol. 2003;56:1137–1141. Vet HCW de, Terwee CB, Knol DL, Bouter LM. When to use agreement versus reliability measures. J Clin Epidemiol. 2006;59:1033–1039. Vet HCW de, Terwee CB, Mokkink LM, Knol DL. Measurement in Medicine. Cambrige University Press, Cambridge 2011.

4.8 • Kwalitatief onderzoek

105

4.8 Kwalitatief onderzoek P.L.B.J. Lucassen en R. Reis 4.8.1 Inleiding

Gevraagd naar voorbeelden van wetenschappelijk onderzoek zullen de meeste gezondheidswerkers denken aan kwantitatief onderzoek zoals gerandomiseerd onderzoek met controlegroep (randomised controlled trials), onderzoek naar de diagnostische waarde van testen of onderzoek naar de prognose van ziekte. De medisch-wetenschappelijke tijdschriften publiceren in de laatste jaren echter steeds meer artikelen gebaseerd op kwalitatief onderzoek. Het aantal artikelen hierover, bijvoorbeeld geïndexeerd in PubMed, stijgt de afgelopen jaren snel. Daarom is het belangrijk meer van kwalitatief onderzoek te weten. Wij zullen ingaan op de aard van kwalitatief gezondheidsonderzoek, de mogelijkheden en beperkingen ervan, en hoe kwalitatieve benaderingen zich verhouden tot evidence-based medicine. Omdat deze vorm voor veel gebruikers mogelijk nieuw is, beginnen we met een samenvatting van de belangrijkste methodologische concepten. Daarna zullen we een aantal beoordelingscriteria geven. In de bespreking van de methodologische concepten zullen we als illustratie voor de verschillende stappen telkens in een kader een voorbeeld gebruiken uit een onderzoek naar de vraag hoe huisartsen omgaan met patiënten met somatisch onvoldoende verklaarde lichamelijke klachten (SOLK) in de huisartsenpraktijk. Huisartsen hebben moeite met patiënten die vaak met somatisch onvoldoende verklaarde lichamelijke klachten (SOLK) op het spreekuur komen. Gegeven de vooroordelen van huisartsen en de opvattingen van patiënten, wilden wij onderzoeken hoe huisartsen denken over het geven van uitleg. Dat deden wij met een focusgroeponderzoek. Daaruit bleek dat huisartsen goede uitleg belangrijk vinden, maar zich vaak onvoldoende bekwaam voelen om dit goed te doen. Ze gebruiken dan ook vaak niet-specifieke manieren om gerust te stellen. De meeste huisartsen zeggen de relatie met de patiënt in stand te willen houden, al is dat soms niet van harte. Een enkele huisarts zegt dat patiënten de dokter eigenlijk niet voor dergelijke problemen dient te consulteren.

4.8.2

Aard van de kwalitatieve benadering

Kwalitatief onderzoek verschilt in uitgangspunten en methodes van kwantitatief onderzoek. In de voorgaande paragrafen stond de kwantitatieve methode centraal. Kwantitatief onderzoek gaat over vragen als hoeveel, hoe vaak, hoe lang en ‘wat is de kans dat’. Kwantitatief onderzoek gaat dus over alles wat meetbaar, in getallen te vangen en weer te geven als gemiddelde en spreiding is. Kwantitatief onderzoek vindt meestal plaats in een veld dat al intensief verkend is. Het begint met een idee of hypothese, verzamelt vervolgens gegevens en trekt dan een conclusie. Het onderzoek wordt volgens een bepaalde, vaste structuur gepland; de meetmethodes liggen vast, evenals de analyse en er wordt tevoren afgesproken hoe men omgaat met onverwachte gebeurtenissen. Kwalitatief onderzoek daarentegen gaat over vragen als wat, waarom en hoe. Bijvoorbeeld: wat is de betekenis van de ziekte voor patiënten, hoe gaan patiënten om met ziekte, hoe reageren de naasten of waarom stoppen patiënten met de behandeling? Zulk onderzoek houdt zich niet bezig met getallen, maar met gesprekken en observaties.

4

106

Hoofdstuk 4 • Kritisch beoordelen van een artikel

In het onderzoek naar SOLK waren de vragen welke strategieën huisartsen hanteren bij patiënten met zulke klachten, hoe zij uitleg geven over die klachten en hoe hun relatie met zulke patiënten zich ontwikkelt. Hierover was weinig bekend. Een kwalitatieve benadering was dus geëigend. Antwoorden moesten komen van wat de deelnemende huisartsen ons wilden vertellen en er was geen hypothese vooraf.

4

Kwalitatief onderzoek vindt meestal plaats in een weinig ontgonnen veld. Daarom is er altijd een belangrijke rol voor zogenoemde inductie weggelegd: uit de data die verzameld worden, komen nieuwe thema’s, ideeën of toetsbare hypotheses naar boven. Bevindingen kunnen nieuwe vragen oproepen, die nieuwe methodes van dataverzameling of analyse nodig maken. Terwijl het in kwantitatief onderzoek onvergeeflijk is de vraagstelling, methodes of instrumenten gaandeweg het onderzoek te veranderen, wordt het in kwalitatief onderzoek juist toegejuicht als de bevindingen de analyse sturen. De analyse na een eerste ronde van dataverzameling ontwikkelt zich stap voor stap waarbij analysefasen afgewisseld worden met hernieuwde dataverzameling. Zo’n herhalend (iteratief) proces helpt mee te voorkomen dat de onderzoeker eigen, vooronderstelde categorieën en vooronderstellingen aan de werkelijkheid oplegt. Idealiter is er in kwalitatief onderzoek dus een voortschrijdende cyclus van dataverzameling (empirie), nadenken over de bevindingen (reflectie), koppeling aan of ontwikkeling van theorie, opnieuw dataverzameling en zo verder. Inductie wordt dus met deductie gecombineerd. In het onderzoek naar SOLK werd elke focusgroepsessie na afloop geanalyseerd. Dat leverde steeds nieuwe ideeën op die vervolgens werden toegevoegd aan de discussiehandleiding voor de volgende sessie. Ook werden gevonden thema’s in de loop van het onderzoek steeds verder verfijnd. Om een voorbeeld te noemen: bij vragen hoe huisartsen SOLK uitleggen aan patiënten kwamen zij met voorbeelden als ‘aan patiënten vertellen dat er geen sprake is van ziekte’ of ‘het hebben van klachten hoort bij het leven’; ook gaven huisartsen vaak een metafoor zoals de weegschaal van draagkracht en draaglast. Deze drie vormen van geruststellen hebben wij geschaard onder de noemer ‘op niet-specifieke wijze geruststellen’. Wij zochten in volgende focusgroepen expliciet naar verdere vormen hiervan. Zo ontwikkelden wij vanuit uitspraken van huisartsen categorieën waarmee inzichtelijk werd hoe huisartsen hun uitleg aan SOLK-patiënten vormgeven.

4.8.3 Theoretisch uitgangspunt

In artikelen met kwalitatief onderzoek zijn grofweg twee benaderingen te onderscheiden. Enerzijds is er onderzoek waarbij bij aanvang bewust geen theoretisch kader wordt aangegeven. Het hele onderzoeksproces begint dan bij de dataverzameling en ontwikkelt van daaruit op basis van de verworven gegevens een theorie. Dit noemt men de ‘gefundeerde theoriebenadering’ (grounded theory). Deze benadering komt in zuivere zin nauwelijks (meer) voor, zeker niet in gezondheidsonderzoek. Een van de redenen is dat onderzoekers vaak wel de beschikking hebben over eerder onderzoek. Regelmatig komt een vraagstelling voort uit ander kwantitatief of kwalitatief onderzoek. Zo kunnen in kwantitatief onderzoek samenhangen gevonden zijn waarbij een kwalitatief design kan helpen een verdere detaillering aan te brengen. Bij een randomised controlled trial kan kwalitatief onderzoek onder (een deel van) de deelnemers veel informatie geven over waarom een bepaalde interventie wel of niet werkt. In publicaties over kwalitatief onderzoek vindt men deze sturing door kwantitatieve data vaak beschreven onder het kopje ‘achtergrond’.

4.8 • Kwalitatief onderzoek

107

Anderzijds is er onderzoek waarbij heel bewust is gekozen voor een theoretisch uitgangspunt. Theorieën die onderzoek sturen bewegen zich op verschillende niveaus van abstractie. Er zijn de grote theorieën, denkrichtingen gebaseerd op veronderstellingen over hoe de werkelijkheid in elkaar steekt en hoe wij die kunnen kennen (dit noemt men de epistemologie). Het meeste kwantitatief onderzoek hanteert een zogenoemde positivistische denkrichting die als uitgangspunt een meetbare werkelijkheid heeft. Daar tegenover staan denkrichtingen die ervan uitgaan dat wat wij weten per definitie gekleurd is door het perspectief van waaruit die werkelijkheid wordt bezien. Op kwantitatieve onderzoekers maakt dat vaak een subjectieve en overbodige indruk: er is toch maar één waarheid? Het is bijvoorbeeld moeilijk twisten over de realiteit van biologische processen en de meetbaarheid van zaken als koorts of bloedwaarden. Maar bij vragen naar het hoe of waarom, waarbij sociale processen in het geding zijn, is het theoretisch perspectief van invloed op de manier van kijken, de vorm van gegevensverzameling, de wijze van analyse en dus ook op wat wordt gevonden. Theoretische benaderingen in kwalitatief onderzoek Bij een fenomenologische benadering is men vooral geïnteresseerd in hoe individuen betekenis geven aan bepaalde verschijnselen in hun leefomgeving. Deze individuele benadering zal vooral gebruikmaken van diepte-interviews en persoonlijke documenten. De symbolisch interactionistische benadering zoekt evenals de voorgaande benadering naar betekenis, maar doet dat door te onderzoeken hoe betekenissen tot stand komen door interacties tussen individuen. Naast diepte-interviews is participerende observatie een onderzoeksmethode die goed past bij deze benadering. Bij kritische theorie hanteert de onderzoeker een kritisch uitgangspunt ten aanzien van de huidige maatschappij. Hij/zij kijkt vooral naar hoe macht wordt uitgeoefend in bijvoorbeeld scholen, ziekenhuizen of bedrijven. Het bestuderen van maatschappelijke verschijnselen door een feministische lens is hiervan een voorbeeld. Een van de grote hedendaagse denkrichtingen van waaruit veel kwalitatief onderzoek plaatsvindt is praxistheorie. Dit perspectief richt de blik op hoe mensen vanuit hun (door de wereld gevormde) persoonlijke motivaties en intenties de wereld waarin ze leven vormgeven en veranderen. Praxistheorie kijkt naar de in specifieke contexten gesitueerde tactieken en strategieën die mensen volgen om hun doelen te bereiken, dus naar hun handelen en minder naar betekenis. Vanuit een praxisbenadering zou het onderzoek naar SOLK niet voor focusgroepen gekozen hebben. Deze methode levert namelijk informatie over hoe huisartsen denken, niet over hoe ze handelen. Vanuit een praxisbenadering zouden de onderzoekers daar op een andere manier wel zicht op hebben gekregen, bijvoorbeeld door gedurende langere tijd systematisch en minutieus interacties tussen de huisarts en zijn/haar patiënten in de spreekkamer te bestuderen en door zowel de patiënt als de huisarts daarover te bevragen.

In de praktijk zullen de meeste onderzoekers zichzelf zien als eclectisch. Zo zullen de meeste kwalitatieve onderzoekers aandacht hebben voor betekenis en velen beschouwen zich als kritische onderzoekers zonder dat zij zich tot die richting beperken. Grote theorieën die fungeren als overkoepelende kaders worden in artikelen zelden expliciet benoemd. Op een lager abstractieniveau zijn op specifieke vragen toegespitste kwalitatieve theorieën, modellen en concepten beschikbaar, die meestal wel in de tekst zijn te vinden. Zo zijn vanuit kwalitatief onderzoek verschillende modellen ontwikkeld om te begrijpen wat er in de communicatie tussen patiënten en dokters kan misgaan, alsook analytische instrumenten waarmee onderzoekers therapiekeuze en therapietrouw bestuderen. Ook voor processen van

4

108

Hoofdstuk 4 • Kritisch beoordelen van een artikel

stigmatisering en de rol van sociale netwerken bij ziekte zijn verschillende modellen voorhanden. Het veld van kwalitatief gezondheidsonderzoek is omvangrijk en ook theoretisch in voortdurende ontwikkeling; het is niet mogelijk er hier een afdoende beschrijving van te geven. 4.8.4 Waarnemingsmethodes

4

De meest voorkomende waarnemingsmethodes bij kwalitatief onderzoek zijn observatie, ondervraging en documentanalyse. Bij observatie onderscheidt men directe observatie en indirecte observatie. Bij directe observatie, ook wel participerende observatie genoemd, nemen de onderzoekers deel aan de activiteiten die worden bestudeerd. Participerende observatie is een belangrijke methode wanneer de onderzochte groep (artsen, patiënten et cetera) als een volk (ethnos) wordt beschouwd en hun interacties in de natuurlijke omgeving waar ze plaatsvinden worden bestudeerd, in dit geval het ziekenhuis (etnografisch design). Een tweede veelgebruikte manier van is de ondervraging. Dat kan zijn met een individu of met een groep. Een individueel interview is meestal halfopen (semigestructureerd). De interviewer voert dan het gesprek aan de hand van een tevoren opgestelde topiclijst, die ontstaat uit het vooraf bestuderen van en nadenken over de materie. De onderwerpen op de lijst dienen vooral als geheugensteun voor de interviewer en hoeven niet in een strakke volgorde te worden besproken. Zoals eerder werd uitgelegd kan de methode tijdens een kwalitatief onderzoek aan de hand van de bevindingen worden aangepast: bij een semigestructureerd interview kan de topiclijst na de eerste interviews aangepast worden als blijkt dat relevante thema’s er niet op staan of nieuwe thema’s zich aandienen. Individuele interviews zijn vooral geschikt voor gevoelige, persoonlijke ervaringen. De meest voorkomende vorm van groepsinterview is de focusgroepdiscussie. Meestal gaat het om groepen van zes tot acht deelnemers plus een gespreksleider en een observator. Hiermee kan men op relatief efficiënte wijze gegevens verzamelen over opvattingen, ideeën en ervaringen van mensen, waarbij expliciet gebruik wordt gemaakt van het onderling reageren op elkaar van de deelnemers. Bij alle vormen van interviews wordt het gesprek op band of video opgenomen, later uitgeschreven en met specifiek voor kwalitatief onderzoek ontwikkelde software geanalyseerd. In ons kwalitatieve onderzoek hebben wij bewust gebruikgemaakt van focusgroepdiscussies. Ten eerste omdat wij niet zozeer op zoek waren naar gevoelige persoonlijke ervaringen, maar naar opvattingen die door dokters gedeeld worden en ten tweede omdat in een groepsgesprek de deelnemers elkaar kunnen uitdagen en op nieuwe ideeën brengen, zodat de eindopbrengst groter is.

Documentanalyse is een weinig gebruikte vorm van kwalitatief onderzoek in het medisch veld. Het gaat om het analyseren van bestaande documenten zoals medische dossiers, rapporten, richtlijnen aan de hand van een specifieke onderzoeksvraag. Ook het onderzoeken van persoonlijke documenten zoals dagboeken past hierin. Een ander voorbeeld is de metasynthese: dit is een meta-analyse van kwalitatief onderzoek. 4.8.5 Selectie van deelnemers

Bij kwalitatief onderzoek is men niet geïnteresseerd in gemiddelden. Het doel is veel meer om een verschijnsel in al zijn facetten in kaart te brengen. Voor kwalitatief onderzoek is het dus

4.8 • Kwalitatief onderzoek

109

wenselijk mensen met zo verschillend mogelijke eigenschappen te zoeken als deelnemer aan het onderzoek. Men noemt deze wijze van verzamelen purposive sampling, ofwel doelgerichte rekrutering. Waar men bij kwantitatief onderzoek ernaar streeft selectiebias te vermijden, is men er bij kwalitatief onderzoek eigenlijk juist op uit om te selecteren. Bij het begin van kwalitatief onderzoek moet dus goed zijn nagedacht over de eigenschappen van deelnemers die variatie veroorzaken bij het verschijnsel. Vaak zijn dat de te verwachten kenmerken als leeftijd, geslacht en sociaaleconomische klasse. Terwijl bij kwantitatief onderzoek de grootte van de benodigde steekproef tevoren bepaald wordt in een powerberekening, is die grootte bij kwalitatief onderzoek geen tevoren berekende grootheid. Hoeveel personen men interviewt wordt daar vooral bepaald door de resultaten: krijgt men na een aantal interviews geen nieuwe informatie meer dan stopt men met insluiten van nieuwe deelnemers. Er is dan dataverzadiging ofwel saturatie bereikt. We hebben ernaar gestreefd een zo groot mogelijke variatie aan huisartsen te zoeken: huisartsen uit stad en platteland, jongere en oudere huisartsen, mannen en vrouwen, academische en niet-academisch werkende huisartsen. Wij verwachtten dat deze verschillen van invloed konden zijn op hoe huisartsen omgaan met patiënten met SOLK. Uit ons onderzoek bleek dat de deelnemende huisartsen het wel eens waren over de thema’s, maar dat de uitwerking verschilde. Zo lag het zwaartepunt bij de academisch werkzame huisartsen veel meer bij het belang van goede classificatie, terwijl de niet-academische huisartsen veel meer spraken over de dagelijks ervaren moeilijkheden in het omgaan met patiënten met SOLK. In de vijfde focusgroepdiscussie kwamen geen nieuwe thema’s meer naar boven, waarmee dataverzadiging was bereikt.

4.8.6 Validiteit en betrouwbaarheid

De kwaliteit van kwalitatief onderzoek wordt net als bij kwantitatief onderzoek bepaald door validiteit en betrouwbaarheid. Validiteit is de afwezigheid van systematische vertekeningen in het onderzoek, betrouwbaarheid de afwezigheid van toevallige vertekeningen. Het gaat om deugdelijke opzet versus deugdelijke uitvoering. Voor validiteit is het van belang dat de gekozen waarnemingsmethode bij de onderzoeksvraag past. Als de vraag van de onderzoeker gaat over handelingen van individuen of over hun gedrag, dan is niet ondervraging, maar observatie de juiste waarnemingsmethode. Een individueel interview over gedragingen levert geen informatie over die gedragingen maar is een weergave van wat het individu denkt of verhult over zijn gedragingen. Als de onderzoeksvraag gaat over individuele gevoelens dan zijn niet ondervragingen in een focusgroep, maar individuele interviews de juiste waarnemingsmethodes. Focusgroepen zijn wel geschikt voor de in een groep mensen gedeelde meningen. Daarnaast is het de vraag of de mening van de respondent die in een interview geuit wordt, overeenkomt met zijn mening in de context waarin die mening ertoe doet (ecologische geldigheid). Beide vormen van validiteit doen ertoe in ons onderzoek naar de opvattingen van huisartsen over hoe SOLK aan patiënten uitgelegd moet worden en over hoe huisartsen denken over de relatie met SOLK-patiënten. De focusgroepaanpak, waarin huisartsen, geselecteerd volgens het principe van purposive sampling, in opeenvolgende groepen met elkaar over dit onderwerp discussieerden en het feit dat na vijf groepen dataverzadiging werd bereikt, maken aannemelijk dat onze bevindingen weerspiegelen wat werkelijk bij de huisartsen

4

110

Hoofdstuk 4 • Kritisch beoordelen van een artikel

leeft. Maar onze bevindingen betroffen wat huisartsen zeggen te doen, niet wat ze in werkelijkheid doen. Het is mogelijk dat de huisarts in een groep collega’s sociaal wenselijke antwoorden geeft over hoe je je dient te gedragen bij SOLK-patiënten. Het is ook mogelijk dat veel meer huisartsen sterk afwijzend staan tegenover SOLK-patiënten die vaak komen. Ecologische geldigheid kon echter worden bereikt omdat deze studie onderdeel was van een groter onderzoek waarbij in een ander onderdeel video-opnames van consulten met SOLK-patiënten – dus actueel gedrag – werden bestudeerd.

4

De interne validiteit wordt verder versterkt door bij de deelnemers te controleren of zij de resultaten van het onderzoek herkennen (member check). Voor het beoordelen van de externe validiteit dient te worden gekeken naar de kwaliteit van de purposive sampling, naar de mate waarin het waarschijnlijk is dat de variatie vertegenwoordigd is in het onderzoek. Bij betrouwbaarheid gaat het om controleerbaarheid en reproduceerbaarheid. Het is natuurlijk duidelijk dat dit bij participerende observatie in het gedrang komt. De onderzoeker doet waarnemingen in de omgeving waarin hij meewerkt en kan die pas later noteren: de kans op onderzoekersbias is hier erg groot en de controleerbaarheid erg klein. De betrouwbaarheid is beter bij vormen van kwalitatief onderzoek waarbij men letterlijke teksten analyseert van ondervragingen of videobeelden: het onderzoeksmateriaal ligt vast en de analyse is desgewenst opnieuw te doen. Opnemen op audio- of videotape verhoogt dus de betrouwbaarheid. Om de betrouwbaarheid verder te vergroten gebruikt men vaak verschillende waarnemingsmethodes naast elkaar (dit noemt men ‘triangulatie’) en verschillende personen die de analyse uitvoeren. Triangulatie is overigens behalve voor betrouwbaarheid ook van belang voor de validiteit van het onderzoek, omdat men met verschillende methodes dichter bij de waarheid kan komen. Het analyseren van het materiaal door meerdere personen is op zich geen kwaliteitscriterium. Met het toenemen van het aantal kwalitatieve onderzoeken nam ook het aantal personen toe dat relatief onervaren aan de analyse begon. Een analyse door twee onervaren onderzoekers is dus op zich geen garantie voor de kwaliteit van het onderzoek. Men is zich dan ook in toenemende mate gaan richten op de competentie en het zelfinzicht (reflexiviteit) van de onderzoeker, ook al is dat er maar één. Transparantie van het proces van dataverzameling en inzicht in de ruwe data (bijv. door het gebruik van citaten uit de interviews) kunnen helpen de betrouwbaarheid te vergroten. Ons focusgroeponderzoek heeft gebruikgemaakt van opnames van de discussies op audiotape. De analyses zijn gedaan door twee onderzoekers onafhankelijk van elkaar. De resultaten zijn besproken met een onderzoeker die ervaren was zowel op het gebied van SOLK als op dat van kwalitatief onderzoek en de resultaten zijn besproken met onafhankelijke huisartsen die buiten het onderzoek stonden. In het artikel hebben wij laten zien op welk materiaal wij onze inzichten baseerden. Waar dat zinvol was werd uit de gesprekken geciteerd.

4.8.7 Analyse van kwalitatief onderzoeksmateriaal

Er is bij kwalitatief onderzoek sprake van een afwisseling tussen dataverzameling en analyse: analyse vindt dus tijdens het hele verloop van het onderzoek plaats. Een eerste analyse kan zo nieuwe gezichtspunten opleveren, die bij verdere waarnemingen nader kunnen worden geëxploreerd. Men analyseert uitgeschreven versies van waarnemingen; dit gaat meestal over

4.8 • Kwalitatief onderzoek

111

veel tekstmateriaal. Het interpreteren van wat er in die transcripten staat is de kern van de kwalitatieve analyse. De analyse begint met het vertrouwd raken met het materiaal door de transcripten goed door te lezen. Vervolgens gaat de onderzoeker – met de onderzoeksvragen in het achterhoofd – labels (codes) toekennen aan stukken tekst. Daarmee deelt hij de tekst op in kleinere betekenisvolle segmenten (reductie). De onderzoeker vergelijkt steeds nieuwe codes met reeds toegekende codes om toenemende verfijning mogelijk te maken, al naargelang de vragen die hij wil stellen. Wanneer een deel van het materiaal gecodeerd is, kan de onderzoeker met behulp van de codes nu het materiaal gaan sorteren, al naargelang de vragen die hij wil stellen. Bij elkaar horende codes kunnen gebundeld worden in concepten, thema’s, categorieën en patronen. Met deze concepten of thema’s onderzoekt hij vervolgens het resterende materiaal. Een goede kwalitatieve analyse wordt gekenmerkt door het in iedere fase actief zoeken naar stukken tekst die in tegenspraak zijn met de tot dan toe ontwikkelde visie. Een computerprogramma kan helpen bij het ordenen van tekst, het toekennen van codes, het combineren van codes, et cetera. Een computer kan niet helpen bij het proces van interpretatie. Voorbeelden van software voor kwalitatief onderzoek zijn Atlas.ti, NVivo en Kwalitan. Voor het coderen in ons onderzoek werd bijvoorbeeld het thema ‘op niet-specifieke wijze geruststellen’ geïdentificeerd. Dit thema bundelde drie codes waarmee wij manieren van uitleggen van huisartsen aan hun patiënten hadden gecodeerd: ‘aan patiënten vertellen dat er geen sprake is van ziekte’, ‘het hebben van klachten hoort bij het leven’ en gebruik van de metafoor van balans tussen draagkracht en draaglast.

4.8.8 Beoordeling van een kwalitatief onderzoek

Hoewel kwalitatief onderzoek niet standaard is en niet strak geprotocolleerd, bestaat er toch behoefte aan een instrument om te kunnen beoordelen of het onderzoek volgens de regels der kunst is gedaan. Er bestaat echter niet één algemeen geaccepteerd systeem voor het kritisch beoordelen van artikelen over kwalitatief onderzoek. De volgende aspecten zijn bij de beoordeling van belang (zie ook . tabel 4.8): zz Is er een goede vraagstelling?

Gezien het open karakter van kwalitatief onderzoek is het mogelijk dat de vraagstelling lopende het onderzoek wordt aangepast c.q. aangescherpt. Tijdens het schrijven van het onderzoeksverslag moet helder zijn op welke vragen het onderzoek antwoord heeft gegeven. Een goede kwalitatieve vraagstelling gaat uit van vragen naar ‘hoe’, ‘wat’ en ‘waarom’ en niet naar ‘hoeveel’ of ‘hoe vaak’. Bij de beoordeling moet de vraag worden beantwoord of een kwalitatief onderzoek wel de geschiktste methode is en of de vraagstelling niet eigenlijk een (verkapt) kwantitatieve is. zz Is de gebruikte waarnemingsmethode adequaat?

Een onderzoeker die iets wil weten over het gedrag van participanten en hen middels focusgroeponderzoek daarover gaat ondervragen, heeft een minder gelukkige keuze gemaakt qua methode. Hetzelfde geldt natuurlijk voor het aan de orde stellen van persoonlijke zaken in een groepsgesprek. De meeste kwalitatieve vragen zijn meerlagig en daarom worden in kwalitatief

4

112

Hoofdstuk 4 • Kritisch beoordelen van een artikel

. Tabel 4.8 Beoordelingscriteria kwalitatief onderzoek

4

item

uitwerking

Is er een goede vraagstelling?

Past de vraagstelling bij kwalitatief onderzoek? Is de vraagstelling relevant?

Is de gebruikte waarnemingsmethode adequaat?

Persoonlijke ervaringen, percepties: interview. Heersende opvattingen binnen een groep: focusgroep. Gedrag van mensen: observatie.

Is het samenstellen van de onderzoekspopulatie adequaat?

Bij kwalitatief onderzoek hoort purposive sampling; convenience sampling en random sampling zijn niet geschikt omdat ze niet gericht zijn op het selecteren van zo veel mogelijk variatie.

Is het materiaal adequaat verzameld?

De volgende kenmerken passen bij goed kwalitatief onderzoek: – topiclijst gebruikt; – deskundige interviewer; – cyclische afwisseling dataverzameling en analyse; – gestreefd naar saturatie; – selectiebias voorkomen of indien aanwezig beschreven.

Is het onderzoek controleerbaar?

Audio- of video-opnames

Is de analyse adequaat?

Cyclische afwisseling dataverzameling en analyse Is de analyse gedaan door deskundige onderzoekers? Is voldoende gezocht naar contrasterende meningen? Is de analyse in voldoende diepte beschreven? Biedt de beschrijving voldoende inzicht in de stappen waarmee de onderzoeker vanuit de data tot categorieën en conclusies komt? Zijn de citaten adequaat?

Is het uitgangspunt van de onderzoeker duidelijk?

Is het uitgangspunt duidelijk (vooral ook voor analyse belangrijk)?

Passen de conclusies bij het kwalitatieve karakter van het onderzoek?

De conclusie is kwalitatief geformuleerd. Dus niet iets als ‘meer dan de helft van de huisartsen heeft vooroordelen over SOLK’.

onderzoek vaak meerdere methodes naast of na elkaar gebruikt (bijv. thema’s uit focusgroepen worden uitgediept in individuele interviews). Het is belangrijk goed in kaart te brengen welke onderdelen van een vraagstelling met welke methode worden benaderd. zz Is het uitgangspunt van de onderzoeker duidelijk?

Er zijn vele benaderingen mogelijk van kwalitatief onderzoeksmateriaal. Het is van belang dat de onderzoeker aangeeft hoe hij naar dat materiaal gekeken heeft zodat de lezer zich een oordeel kan vormen of dat adequaat is gedaan. Als bijvoorbeeld gekozen is voor een fenomenologische benadering, dan moet de lezer kunnen zien of de onderzoeker ook werkelijk de betekenisverlening van individuen heeft onderzocht en niet iets anders, en op welke wijze zijn perspectief een rol speelde in de interpretatie van de data.

4.8 • Kwalitatief onderzoek

113

zz Is het samenstellen van de onderzoekspopulatie adequaat?

Het moet duidelijk zijn dat de onderzoeker moeite heeft gedaan om de variatie die er over het onderwerp bestaat op te nemen in de onderzoeksgroep. Het gaat er bij kwalitatief onderzoek immers om verschijnselen in brede zin in kaart te brengen. Een random steekproef of gebruik van opeenvolgende patiënten is geen goede methode. zz Is het materiaal adequaat verzameld?

Hierbij is de vraag of het artikel voldoende informatie bevat over hoe de data verzameld zijn. Het gaat dan om zaken als: hoe zijn deelnemers precies geïnterviewd, is er een topiclijst gebruikt, wat was de deskundigheid van de interviewer, was er een cyclische afwisseling tussen dataverzameling en analyse. De beschrijving van dit gedeelte moet zodanig zijn dat de lezer zich een goed oordeel kan vormen over hoe de data verzameld zijn en of de wijze van dataverzameling aansluit bij de vraagstelling. Ten slotte: is men doorgegaan met verzamelen van materiaal totdat saturatie werd bereikt? zz Is het onderzoek controleerbaar?

Controleerbaarheid van het materiaal is goed gewaarborgd bij alle vormen van rechtstreekse dataopslag zoals audio- en video-opnames. Het is dan in principe mogelijk de analyse te herhalen. Bij participerende observatie is dit vanzelfsprekend minder gewaarborgd. Transparantie, bijvoorbeeld door andere onderzoekers inzage te geven in de ruwe notities, helpt de controleerbaarheid vergroten. zz Is de analyse adequaat?

Beschrijft de onderzoeker in voldoende detail hoe de analyse is gedaan? Is de analyse afgewisseld met volgende periodes van dataverzameling? Is de onderzoeker adequaat getraind voor de analyse van het onderzoeksmateriaal of heeft hij bij de analyse gezorgd voor voldoende deskundigheid bij anderen? Heeft de onderzoeker voldoende naar contrasterende meningen gezocht? Dit kan goed worden beoordeeld aan de hand van de citaten die de onderzoeker als illustratie geeft. Die citaten moeten de gerapporteerde resultaten duidelijk ondersteunen. zz Passen de conclusies bij het kwalitatieve karakter van het onderzoek?

Een veel gemaakte fout is dat een onderzoeker kwantitatieve conclusies trekt na een kwalitatieve studie. Een fictief voorbeeld hiervan is dat de onderzoeker na een focusgroeponderzoek bij in totaal twintig huisartsen stelt dat de meerderheid van de huisartsen van mening is dat patiënten met onverklaarde klachten vaak medisch ingrijpen verlangen van hun dokter. 4.8.9 Kwalitatief onderzoek en evidence-based medicine

Uit deze paragraaf blijkt dat er grote verschillen zijn tussen kwalitatief en kwantitatief onderzoek waar het vraagstellingen, methodes van onderzoek, analyse en dus ook de validiteit en generaliseerbaarheid van bevindingen betreft. Omdat het perspectief van de onderzoeker een rol speelt in de sturing en in de analyse wordt dit type onderzoek door kwantitatief georiënteerde onderzoekers nogal eens aangemerkt als ‘subjectief ’ en ‘onwetenschappelijk’. Het type bewijs dat uit kwantitatief onderzoek komt geeft gemiddelden weer, maar abstraheert altijd van de werkelijkheid. De kwalitatieve onderzoeker heeft de opdracht die werkelijkheid in al zijn facetten aan het licht te brengen.

4

114

4

Hoofdstuk 4 • Kritisch beoordelen van een artikel

Evidence-based medicine wordt beschouwd als de norm voor de klinische praktijk. In het beeld van evidence-based medicine domineert de hiërarchie van bewijsvorming met als hoogste norm systematische reviews en gerandomiseerde experimenten met een controlegroep (RCT’s), als het om het aantonen van effectiviteit gaat. Maar bij evidence-based medicine moet in de klinische praktijk het beste bewijs dat voorhanden is, altijd worden gecombineerd met de klinische ervaring van de dokter en met de waarden van de patiënt (zie 7 par. 1.1.2). Zowel de klinische ervaring van de dokters als de waarden en behoeften van de patiënt zijn niet statisch maar ontwikkelen zich voortdurend en in relatie tot elkaar. Om die voortdurend veranderende ervaringen, perspectieven, waarden en behoeften te onderzoeken, is juist de kwalitatieve benadering geschikt. Kwalitatief onderzoek vormt daarom een integraal onderdeel van een evidence-based klinische praktijk. Literatuur Biomed Central. Qualitative research review guidelines – RATS. 7 www.biomedcentral.com/authors/rats (geraadpleegd 9 mei 2013). Clark JP: How to peer review a qualitative manuscript. In Peer Review in Health Sciences. Second edition. Edited by Godlee F, Jefferson T. London: BMJ Books; 2003:219–235. Giacomini MK, Cook DJ. Users’ guides to the medical literature: XXIII. Qualitative research in health care A. Are the results of the study valid? JAMA 2000;284:357–62. Greenhalgh T. Papers that go beyond numbers (qualitative research). In Greenhalgh T. How to read a paper. London: Blackwell Publishing, 2010. Jong J de, Reis R, Poortinga Y. Onderzoeksmethodologie. In Jong J de, Colijn S. red. Handboek culturele psychiatrie en psychotherapie. Utrecht: De Tijdstroom, 2010. Lucassen PL, Olde Hartman TC. red. Kwalitatief onderzoek. Praktische methoden voor de medische praktijk. Houten: Bohn Stafleu van Loghum, 2007. Noyes J, Popay J, Pearson A, Hannes K, Booth A. Chapter 20: Qualitative research and Cochrane reviews. In Higgins JPT, Green S (editors), Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 (updated March 2011). The Cochrane Collaboration, 2011. Available from 7 www.cochrane-handbook.org. Olde Hartman TC, Hassink-Franke LJ, Lucassen PL, Spaendock KP van, Weel C van. Explanations and relations. How do general practitioners deal with patients with persistent medically unexplained symptoms: a focus group study. BMC Family Practice 2009;10:444–55. Pope C, Mays N. Qualitative research in health care. London: Blackwell Publishing Ltd, 2006.

115

Kritisch beoordelen van een artikel: secundair onderzoek 5.1 Inleiding – 116 R.J.P.M. Scholten, W.J.J. Assendelft en M. Offringa 5.2 Systematische reviews van interventieonderzoek – 118 W.J.J. Assendelft, R.J.P.M. Scholten, W. de Ruijter en L.M. Bouter 5.2.1 Inleiding – 118 5.2.2 Opbouw van een systematische review van interventieonderzoek – 118 5.2.3 Beoordeling van systematische reviews – 123 5.2.4 Nieuwe vormen van systematische reviews – 126 5.2.5 Conclusie – 127

5.3 Systematische reviews van onderzoek naar de waarde van een diagnostische test – 127 M.M.G. Leeflang, R.J.P.M. Scholten, F. Buntinx en P.M.M. Bossuyt 5.3.1 Inleiding – 127 5.3.2 Beoordeling van een diagnostische systematische review – 128 5.3.3 Conclusie – 134

5.4 Systematische reviews van observationeel onderzoek – 135 D.A.W.M. van der Windt, M.P.A. Zeegers en R.J.P.M. Scholten 5.4.1 Inleiding – 135 5.4.2 Beoordeling van een systematische review van observationeel onderzoek – 136 5.4.3 Meta-analyse van observationeel onderzoek – 140 5.4.4 Conclusie – 144

Literatuur – 145

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_5, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

5

116

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

5.1 Inleiding R.J.P.M. Scholten, W.J.J. Assendelft en M. Offringa

5

Zoals in 7 H. 3 is uitgelegd, is het een goede gewoonte, en erg efficiënt, bij een nog onbeantwoorde vraag uit de praktijk eerst te zoeken naar geaggregeerde evidence, ofwel systematische reviews (secundair onderzoek). Als een goede, recente systematische review gevonden is, is alle beschikbare evidence betreffende het klinische probleem overzichtelijk samengevat en kan men deze samengevatte evidence toepassen in de eigen situatie. Is de review minder recent, dan kan de behandelaar zelf de review eventueel aanvullen met recente onderzoeken met gebruikmaking van dezelfde methodes als beschreven in de review. Een systematische review gaat uit van een expliciete vraagstelling, een zorgvuldige, uitputtende zoekstrategie, een objectieve selectie van onderzoeken die de vraagstelling betreffen, beoordeling van de kwaliteit van de aldus geselecteerde onderzoeken en een transparante presentatie van de resultaten. Indien de verschillende onderzoeken in de review voldoende op elkaar lijken wat betreft de onderzochte deelnemers, de determinanten (interventies, blootstelling of prognostische factoren) en uitkomsten, kan naast een kwalitatieve samenvatting van de resultaten tevens een kwantitatieve samenvatting onderdeel zijn van een systematische review. Zo’n meta-analyse leidt tot zeer nauwkeurige schattingen van het effect van de determinant en geeft ook de mogelijkheid subgroepspecifieke effecten te onderscheiden. De voordelen van een systematische review zijn duidelijk: het proces is systematisch, transparant en reproduceerbaar. Omdat de systematische review op valide wijze de resultaten uit verschillende onderzoeken samenvat, is deze voor de behandelaar dus een efficiënte manier om snel een valide antwoord op een klinische vraag te krijgen. Systematische reviews zijn vaak onderdeel van richtlijnen (zie 7 H. 6). Een richtlijn is een document met aanbevelingen, adviezen en handelingsinstructies ter ondersteuning van de dagelijkse praktijkvoering in de gezondheidszorg. Een evidence-based richtlijn bestaat idealiter uit een bundeling van systematische reviews en richtlijnen kunnen daardoor op dezelfde wijze worden gebruikt voor het beantwoorden van een klinische vraag als systematische reviews. De beoordeling van systematische reviews betreft, net zoals de beoordeling van primair onderzoek, de validiteit, het belang en de toepasbaarheid. zz Validiteit

Een systematische review is weliswaar systematisch, maar er kunnen wel degelijk verstorende elementen zijn ingeslopen. Daarom dient men kritisch te kijken naar de wijze waarop de review is uitgevoerd. Over het algemeen wordt beoordeeld of de methodes van samenvatten (zoals die ook zijn beschreven in 7 H. 2, 7 H. 3 en 7 H. 4 van dit boek) goed zijn toegepast. De beoordeling betreft derhalve de formulering van de vraagstelling, de uitgebreidheid en diepgang van de zoekstrategie, de wijze waarop selectie van onderzoeken heeft plaatsgevonden, de wijze waarop de kwaliteit van de in de review opgenomen onderzoeken is beoordeeld en verdisconteerd en de uitvoering en geldigheid van een eventueel uitgevoerde meta-analyse. Mogelijke bronnen van vertekening die specifiek zijn voor systematische reviews, zijn zogenoemde taalbias (alleen selectie van artikelen die in een beperkt taalgebied zijn gepubliceerd, bijvoorbeeld alleen Engelstalige onderzoeken) en publicatie- of uitkomstbias (selectieve publicatie van onderzoeken of uitkomsten). Ook wordt vaak aandacht besteed aan mogelijke belangenverstrengeling door partijen die belang hebben bij de uitkomsten.

5.1 • Inleiding

117

zz Belang

Indien is vastgesteld dat de zojuist beoordeelde review in opzet en uitvoering valide is en indien een meta-analyse is uitgevoerd, kan worden overgegaan tot de beoordeling van het belang van de resultaten. Net als bij de afzonderlijke onderzoeken (zie 7 H. 4) wordt in een meta-analyse het resultaat uitgedrukt met behulp van een puntschatter en een 95%-betrouwbaarheidsinterval. De interpretatie van de verschillende effectmaten (associatiematen) is uitvoerig beschreven in de verschillende paragrafen van 7 H. 4. Meta-analyse of poolen is echter alleen zinvol en valide, als de ingrediënten van de meta-analyse voldoende op elkaar lijken (ofwel homogeen zijn). Klinische kennis is nodig om te kunnen beoordelen of de afzonderlijke in de review opgenomen onderzoeken voldoende vergelijkbaar zijn met betrekking tot de onderzochte personen, determinanten (interventies, blootstelling of prognostische factor) en uitkomsten. Is dit niet het geval, dan spreekt men van heterogeniteit. Pooling is dan vaak niet zomaar mogelijk en kan zelfs leiden tot onjuiste of slecht interpreteerbare resultaten. Bij de interpretatie van een meta-analyse dient men dan ook goed na te gaan of de meta-analyse wel geoorloofd was. zz Toepasbaarheid

Het beoordelen van de toepasbaarheid van de resultaten van systematische reviews verloopt in principe op precies dezelfde wijze als bij primair onderzoek, zoals beschreven in 7 H. 4. Indien geen meta-analyse kon worden uitgevoerd en alleen een kwalitatieve samenvatting van de resultaten is gepresenteerd, vergt het beoordelen van de toepasbaarheid enige improvisatie. Soms kan men uit de review zelf die onderzoeken selecteren die het best aansluiten bij de eigen vraagstelling, wat de beoordeling van de toepasbaarheid vergemakkelijkt. zz Dit hoofdstuk

In de volgende paragrafen worden criteria aangereikt voor het beoordelen van de validiteit en het interpreteren van de resultaten van systematische reviews. Achtereenvolgens komen systematische reviews van onderzoeken naar de effectiviteit van interventies (therapie en preventie), systematische reviews van onderzoeken naar de waarde van een diagnostische test, en systematische reviews van observationeel onderzoek aan de orde. Hoewel de principes van het uitvoeren van systematische reviews gelden voor alle domeinen van evidence-based medicine, heeft ieder domein zo zijn eigen eigenaardigheden en vergt de beoordeling daarvan meer aandacht. De beoordeling van richtlijnen wordt in 7 H. 6 besproken. Alle checklists die in de volgende paragrafen worden gepresenteerd, zijn te downloaden van extras.bsl.nl/inleidingebm. Deze checklists behandelen de belangrijkste onderdelen van AMSTAR, de inmiddels internationaal algemeen geaccepteerde state-of-the-art checklist voor het beoordelen van systematische reviews. Literatuur Assendelft WJJ, Scholten RJPM, Hoving JL, Offringa M, Bouter LM. De praktijk van systematische reviews. VIII. Zoeken en beoordelen van systematische reviews. Ned Tijdschr Geneeskd 2001;145:1625–31. Higgins JPT, Green S (red.). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 (updated March 2011). The Cochrane Collaboration, 2011 (geraadpleegd op 1 maart 2013). Beschikbaar op 7 www. cochrane-handbook.org. Khan K, Kunz R, Kleijnen J, Antes G. Systematic reviews to support evidence-based medicine. 2nd edition. London: Royal Society of Medicine, 2011. Shea BJ, Bouter LM, Peterson J, Boers M, Andersson N, Ortiz Z, Ramsay T, Bai A, Shukla VK, Grimshaw JM. External Validation of a Measurement Tool to Assess Systematic Reviews (AMSTAR). PLoS ONE, 2007;2:e1350. Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, Porter AC, Tugwell P, Moher D, Bouter LM. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007;7:10.

5

118

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

5.2 Systematische reviews van interventieonderzoek1 W.J.J. Assendelft, R.J.P.M. Scholten, W. de Ruijter en L.M. Bouter 5.2.1 Inleiding

5

Zoals in 7 par. 5.1 is uiteengezet, gaat een systematische review uit van een expliciete vraagstelling, een zorgvuldige, uitputtende zoekstrategie, een objectieve selectie van onderzoeken, beoordeling van de kwaliteit van de geselecteerde onderzoeken en een transparante presentatie van de resultaten. Deze opbouw geldt ook voor een systematische review van interventieonderzoek. Idealiter is een systematische review van interventieonderzoek gebaseerd op randomised controlled trials (RCT’s), omdat RCT’s de minste kans op vertekening geven. Systematische reviews van niet-gerandomiseerde onderzoeken bevinden zich dan ook op een lager niveau van bewijs. Men moet zich echter realiseren dat voor veel onderwerpen en interventies RCT’s simpelweg ontbreken of onmogelijk zijn. Het zou bijvoorbeeld onethisch zijn nog een gerandomiseerd onderzoek met placebo naar postexpositieprofylaxe bij hiv uit te voeren, terwijl aan de hand van retrospectief onderzoek reeds bekend is dat de relatieve risicoreductie van direct toegediend zidovudine als enige behandeling al 79% is. In dat geval kan ook een systematische review gebaseerd op observationeel onderzoek worden uitgevoerd (zie 7 par. 5.4). Naast een kwalitatieve samenvatting van de resultaten bevat een systematische review van interventieonderzoek vaak ook een kwantitatieve samenvatting (statistische pooling of metaanalyse). Dit getalsmatig combineren van gegevens uit verschillende onderzoeken vergroot de precisie van de effectschattingen en maakt analyse van subgroepen mogelijk die wellicht gevoeliger zijn voor een interventie. In deze paragraaf wordt eerst aandacht besteed aan de opbouw van een systematische review van interventieonderzoek en de beoordeling van een meta-analyse. Daarna worden handvatten aangereikt voor de beoordeling van dergelijke reviews. 5.2.2 Opbouw van een systematische review van interventieonderzoek

Voor de beoordeling van de methodologische kwaliteit van een systematische review is het belangrijk alle relevante onderdelen van een review goed te begrijpen. zz Vraagstelling

Een systematische review moet uitgaan van een expliciete klinische vraagstelling (zie 7 H. 2). De noodzakelijke ingrediënten van een dergelijke vraag zijn: de patiëntencategorie, de interventie, de controle-interventie, de uitkomst en eventueel ook de gewenste follow-upduur. Hiervoor wordt het Engelse acroniem PICO gebruikt: Patients, Intervention, Control, Outcome. Een voorbeeld van een vraagstelling is: wat is bij patiënten met een tenniselleboog (patients) de effectiviteit, uitgedrukt in mate van ervaren herstel en pijn (outcome), van corticosteroïdinjecties (intervention) ten opzichte van een placebo of afwachtend beleid (control)? Vaak wordt echter voor een review een minder scherp geformuleerde vraagstelling genomen. Dan worden een of meer onderdelen van de PICO niet of minder uitgebreid uitgewerkt. De lezer moet zich in die situatie steeds afvragen welke van de conclusies van de review zijn gebaseerd op de onderdelen van de P, de I, de C en de O die de lezer bij het klinische probleem voor ogen 1

Voor een goed begrip van deze paragraaf dient paragraaf 4.4 bestudeerd te zijn.

119

5.2 • Systematische reviews van interventieonderzoek

# treffers door zoekactie databases

# treffers door zoekactie andere bronnen

# treffers na ontdubbeling

# treffers gescreend

# treffers uitgesloten

# voltekstartikelen beoordeeld voor opname

# voltekstartikelen uitgesloten; met redenen erbij

# voltekstartikelen opgenomen in kwalitatieve synthese

# voltekstartikelen opgenomen in kwantitatieve synthese (metaanalyse) . Figuur 5.1 Flowdiagram van de selectie van studies voor een systematische review.

heeft. Vraag u dus steeds af of de review niet gaat over een bredere of andere vraagstelling dan de PICO waarin u eigenlijk bent geïnteresseerd. zz Zoekactie

Uitgaande van de vraagstelling dient op gestructureerde wijze uitgebreid (sensitief) in de internationale literatuur te zijn gezocht. Er mogen immers geen studies worden gemist. Een minimumvereiste hiervoor is een zoekactie in de elektronische databases MEDLINE, EMBASE (zie 7 H. 3), het Cochrane Central Register of Controlled Trials (zie 7 H. 9) en controle van de referenties van de verzamelde artikelen. Optionele aanvullende zoekacties zijn: zoeken in (gespecialiseerde) trialregisters, het aanschrijven van experts en fabrikanten en het handmatig doorzoeken van medisch-wetenschappelijke tijdschriften. De zoekacties en de selectie worden bij voorkeur in een flowdiagram weergegeven (zie . figuur 5.1). De zoekactie dient gezien de actualiteit van een onderwerp voldoende recent te zijn. Algemene richtlijnen hiervoor zijn niet te geven, maar reviews van ouder dan vijf jaar dienen met grote voorzichtigheid te worden gebruikt. De lezer kan met de zoektermen van de review zelf in een elektronische database zoeken naar recentere onderzoeken en kijken of deze in lijn zijn met de conclusies van de review. zz Selectie

De selectie van de artikelen die in de systematische review zijn geïncludeerd, moet bij voorkeur door ten minste twee reviewers aan de hand van expliciete in- en exclusiecriteria onafhankelijk van elkaar zijn uitgevoerd. In veel reviews wordt de inclusie beperkt tot publicaties in de talen die de reviewers zelf machtig zijn (meestal het Engels). Het is niet duidelijk of dit vaak tot afwijkende conclusies

5

120

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

(bias) leidt. De impact van een taalrestrictie kan per review verschillend zijn (over- of onderschatting van het effect van de interventie). Voor een review over het effect van acupunctuur mogen bijvoorbeeld niet-Engelstalige trials niet ontbreken. zz Kwaliteitsbeoordeling

5

De validiteit van de aanbevelingen in een systematische review hangt sterk af van de kwaliteit van de oorspronkelijke RCT’s. Er is een veelheid aan kwaliteitsbeoordelingslijsten beschikbaar. Van een aantal interne validiteitsitems wordt algemeen aangenomen dat zij bij tekortkomingen tot vertekening kunnen leiden: manier van randomiseren, geblindeerde toewijzing van de interventie (concealment of allocation), blindering van de uitkomstmeting, volledigheid van de follow-up (in het bijzonder: geen selectieve uitval) en selectieve rapportage van uitkomsten (zie ook 7 par. 4.4). Ook is belangrijk dat sponsoring van een RCT en de mogelijke invloed van de sponsor op de uitkomsten worden beoordeeld. Een in de systematische review gebruikte kwaliteitsbeoordelingslijst dient dus ten minste deze items te bevatten. Net als de selectie dient de kwaliteitsbeoordeling in de systematische review door ten minste twee reviewers onafhankelijk van elkaar te zijn uitgevoerd. zz Beschrijving van de beschouwde onderzoeken en resultaten

In een systematische review dienen de gegevens die direct bij de vraagstelling aansluiten op overzichtelijke wijze te worden gepresenteerd. Dit betreft een beschrijving van de patiënten, de interventies en de uitkomsten die in de afzonderlijke onderzoeken zijn bestudeerd, zodat de lezer van de review een goede indruk krijgt van de ingrediënten van de review. De resultaten uit de oorspronkelijke RCT’s worden per uitkomstmaat apart in een voor alle RCT’s identieke associatiemaat uitgedrukt. In een systematische review wordt dus geen genoegen genomen met de mededeling dat een gevonden verschil in een RCT al dan niet statistisch significant is. Voor dichotome uitkomstmaten (bijv. wel/niet genezen) wordt de associatie uitgedrukt in de oddsratio (OR), het relatieve risico (RR) of het risicoverschil (RV) met het bijbehorende 95%-betrouwbaarheidsinterval (95%-BI), voor continue variabelen (bijv. opnameduur in dagen) in een al dan niet gestandaardiseerde verschilscore met 95%-BI. Dit overzicht wordt zo mogelijk in de vorm van een zogenoemde forest plot gepresenteerd (zie . figuur 5.2). Ook deze data-extractie moet bij voorkeur door ten minste twee reviewers onafhankelijk van elkaar geschieden. zz Combineren van resultaten

In de meta-analyse of statistische pooling worden de gegevens die in het kader van een systematische review zijn vergaard statistisch samengevoegd om te komen tot één overall schatting van het effect van de bestudeerde interventie. Daarnaast wordt natuurlijk ook gekeken naar eventuele verschillen tussen de onderzoeken onderling (heterogeniteit). Voor het combineren van effectschattingen (pooling) zijn diverse statistische technieken beschikbaar. Met behulp van statistische pooling wordt een schatting van het effect van een interventie verkregen, die gebaseerd is op het grootst mogelijke aantal patiënten, waardoor een maximale precisie wordt verkregen (smalle betrouwbaarheidsintervallen), zodat ook kleine effecten gedetecteerd kunnen worden. . Figuur 5.2 is een voorbeeld van een meta-analyse naar de effectiviteit van corticosteroïden versus placebo bij bacteriële meningitis, met overlijden als uitkomst. Soms zijn de gebruikte meetinstrumenten voor een uitkomstmaat verschillend, zodat deze niet rechtstreeks te combineren zijn. Depressie wordt bijvoorbeeld met een groot aantal verschillende meetschalen geëvalueerd. De uitkomsten kunnen in dat geval worden omgeschreven (gestandaardiseerd) naar zogenoemde standardised mean differences (ook wel effect sizes

study or subgroup

treatment events total

control events total

weight

risk ratio M-H, fixed, 95% Cl

28 43 47 16 36 144 63 245 27 26 51 49 49 30 293 218 49 163 41 13 228 55 29 74

2.6% 0.3% 5.0% 0.7% 3.0% 5.6% 0.2% 10.4% 0.3%

1.3% 0.1%

1.27 [0.69, 2.34] 2.00 [0.19, 21.24] 0.90 [0.56, 1.46] 0.38 [0.04, 3.26] 0.71 [0.33, 0.87] 0.48 [0.24, 0.96] 2.33 [0.22, 25.03] 0.53 [0.33, 0.87] 1.86 [0.18, 19.38] not estimable 0.34 [0.01, 8.15] 0.32 [0.01, 7.68] not estimable 0.32 [0.01, 7.63] 1.01 [0.80, 1.29] 0.85 [0.50, 1.45] 0.94 [0.06, 14.65] 0.87 [0.52, 1.46] 2.05 [0.79, 5.33] 0.36 [0.02, 8.05] 1.06 [0.90, 1.26] not estimable 0.56 [0.15, 2.14] 3.21 [0.13, 77.60]

total (95% Cl) 2024 2017 total events 362 393 heterogeneity: Chi2 = 20.57 , df = 20 (P = 0.42): I2 = 3% test for overall effect: Z = 1.34 (P = 0.18)

100.0%

0.92 [0.82, 1.04]

Bademosi 1979 Belsey 1969 Bennett 1963 Bhaumik 1998 Ciana 1995 De Gans 2002 DeLemos 1969 Girgis 1989 Kanra 1995 Kilpi 1995 King 1994 Lebel 1988a Lebel 1988b Lebel 1989 Molyneux 2002 Nguyen 2007 Odio 1991 Peltola 2007 Qazi 1996 Sankar 2007 Scarborough 2007 Schaad 1993 Thomas 1999 Wald 1995

12 2 16 1 8 11 2 21 2 0 0 0 0 0 96 22 1 23 12 0 129 0 3 1

24 43 38 14 34 157 54 225 29 32 50 51 51 31 305 217 52 166 48 12 231 60 31 69

11 1 22 3 12 21 1 43 1 0 1 1 0 1 91 26 1 26 5 1 120 0 5 0

0.4% 0.4% 0.4% 23.6% 6.6% 0.3% 6.7% 1.4% 0.4% 30.6%

5

121

5.2 • Systematische reviews van interventieonderzoek

risk ratio M-H, fixed, 95% Cl

0.1

0.2

0.5

favours treatment

1

2

5

10

favours control

. Figuur 5.2 Voorbeeld van een meta-analyse uit de Cochrane Database of Systematic Reviews: corticosteroïden versus placebo bij acute bacteriële meningitis, met als uitkomst mortaliteit. Ieder horizontaal lijntje geeft de uitkomst weer van een onderzoek, waarbij het lijntje het 95%-betrouwbaarheidsinterval (95%-BI) aangeeft. Het vierkantje in het midden van de lijn geeft de puntschatter van het relatieve risico (RR). Aan elk onderzoek is een gewicht gegeven. Hoe groter het onderzoek, des te groter het gewicht. Het relatieve gewicht van het onderzoek staat onder ‘weight’ en is ook af te lezen aan de grootte van het bij het onderzoek behorende blokje en aan de breedte van het betrouwbaarheidsinterval. De ruit is het gecombineerde (statistisch gepoolde) resultaat van de zeventien onderzoeken. De verticale lijn geeft een RR van 1 (neutrale waarde) aan. Resultaten die links van de verticale lijn liggen wijzen hier op een gunstig effect van de onderzochte therapie ten opzichte van de controlegroep. De p-waarde van de test voor heterogeniteit is 0,42 en de I2 3%. Er lijken dus geen aanwijzingen te bestaan voor heterogeniteit. Of corticosteroïden bij bacteriële meningitis effectiever zijn dan een placebo blijft volgens deze meta-analyse onduidelijk: het RR is 0,92 en het 95%-BI (0,82-1,04) omvat de neutrale waarde. Bron: Van de Beek, et al. Cochrane Database of Systematic Reviews 2010, Issue 9. Art. No.:CD004405.

genoemd). Deze zijn dan wel weer te poolen. De klinische interpretatie van de uitkomsten van een dergelijke pooling is echter lastig, omdat een effect size zich moeilijk laat terugvertalen naar een klinisch gangbare uitkomst, omdat dat er meerdere zijn. Pooling is het meest in het oog springende, maar tegelijkertijd ook een veelvuldig verkeerd begrepen en misbruikt onderdeel van een systematische review. Net als bij de analyse van gegevens binnen een RCT doen statistische softwarepakketten braaf hun werk indien de gegevens per onderzoek worden ingevoerd. Voorwaarde voor pooling is echter dat de onderzoeken zowel klinisch als statistisch voldoende gelijk (homogeen) zijn om bij elkaar gevoegd te mogen worden. Is dat niet het geval, dan spreekt men van heterogeniteit. Er is sprake van klinische heterogeniteit als de interventies, patiënten of de uitkomstmaten niet voldoende vergelijkbaar zijn (zie . figuur 5.3). De beoordeling van klinische homogeniteit is bij uitstek een zaak voor de clinicus. Hiervoor zijn geen goede beoordelingscriteria beschikbaar. Klinische heterogeniteit

122

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

onderzoeken klinisch homogeen?

nee

klinisch homogene subgroepen?

ja

ja

5

nee

statistische homogeniteit? nee

niet poolen

exploreren (metaregressie- of subgroepanalyse)

ja

poolen (random-effectsmodel)

poolen (fixed-effectmodel)

. Figuur 5.3 Analyse van heterogeniteit in de resultaten van individuele onderzoeken in een systematische review.

kan worden voorkomen door vooraf (a priori) voldoende vergelijkbare subgroepen te definiëren. Indien deze niet voorhanden zijn, moet worden afgezien van pooling. Indien de resultaten van de verschillende onderzoeken ondanks de aanname van klinische homogeniteit (sterk) uiteenlopen, spreekt men van statistische heterogeniteit. Statistische heterogeniteit kan berusten op toeval, daadwerkelijke verschillen tussen de onderzoeken (klinische heterogeniteit) of verschillen in methodologische kwaliteit tussen onderzoeken. Vaak echter zal de oorzaak ervan onbekend zijn. De inschatting van statistische homogeniteit is lastig. Hiervoor bestaat weliswaar een chikwadraattoets, maar aan de hand van deze relatief ongevoelige statistische toets kan gemakkelijk ten onrechte worden geconcludeerd dat er geen verschil is tussen de onderzoeken (homogeniteit kan niet worden verworpen). Als de meta-analyse namelijk weinig en vooral kleine onderzoeken bevat (en dat is vaak het geval), moeten de verschillen tussen de effectschattingen van de afzonderlijke onderzoeken erg groot zijn om de homogeniteitstoets significant te krijgen (p-waarde < 0,05). Heterogeniteit wordt in dat geval gewoonweg niet opgepikt door de toets. Statistici spreken dan van een gebrek aan onderscheidingsvermogen. Door het significantieniveau van de toets iets ruimer te nemen (p-waarde < 0,1) kan men enigszins aan dit gebrek aan onderscheidingsvermogen tegemoetkomen. De interpretatie van de chi-kwadraattoets is als volgt: bij een waarde lager dan de afkapwaarde (bijv. p < 0,1) wordt homogeniteit verworpen en wordt aangenomen dat sprake is van heterogeniteit. Een betere, maar lastig over te brengen methode voor het bepalen van homogeniteit is visuele inspectie van de mate van overlap van de betrouwbaarheidsintervallen van de effectschattingen in de afzonderlijke onderzoeken. Als er voldoende overlap is, is er geen sprake van statistische heterogeniteit. Formele criteria hiervoor zijn helaas niet te geven. Naast de chi-kwadraattoets kan statistische heterogeniteit aan de hand van de zogenoemde I2-statistiek gekwantificeerd worden. In een meta-analyse bestaan twee bronnen van variatie: variatie tussen personen (steekproefvariatie) en variatie tussen onderzoeken (heterogeniteit).

5.2 • Systematische reviews van interventieonderzoek

123

I2 geeft aan hoeveel procent van de totale variatie in de meta-analyse op het conto van heterogeniteit kan worden geschreven. Bij een I2 < 30% is nauwelijks sprake van heterogeniteit en bij een I2 > 60% van aanzienlijke heterogeniteit (in welk geval eigenlijk niet gepoold mag worden). Bij statistische heterogeniteit kan men de heterogeniteit modelleren, verklaren of geheel afzien van pooling (zie . figuur 5.3). De heterogeniteit wordt soms echter geheel genegeerd, waarbij de statistische methode ten onrechte niet wordt aangepast (toepassing van het ‘fixedeffectmodel’). Probleem hierbij is dat het fixed-effectmodel sneller significante uitkomsten geeft (te lage p-waarde of te smal betrouwbaarheidsinterval) dan het ‘random-effectsmodel’ (zie hierna) en dat de uitkomst dan klinisch moeilijk te interpreteren is. Door toepassing van het zogenoemde random-effectsmodel voor pooling kan met de verschillen tussen onderzoeken rekening worden gehouden. Het random-effectsmodel modelleert de aanwezige heterogeniteit, het houdt rekening met variatie tussen onderzoeken en geeft daardoor in de regel bredere betrouwbaarheidsintervallen. Dit model geeft dus minder snel significante resultaten dan het fixed-effectmodel. Een andere optie is heterogeniteit trachten te verklaren door subgroepanalyses uit te voeren. Dat kan door per studie de resultaten van een groep die een bepaalde kenmerk vertoont (bijv. acute lage rugpijn of behandelduur > 1 maand) te verzamelen en apart te poolen. Het resultaat van deze pooling wordt dan vergeleken met de resultaten van de andere groep (bijv. chronische lage rugpijn of behandelduur ≤ 1 maand). Wanneer statistisch diverse kenmerken tegelijk in een pooling worden ingebracht spreekt men van ‘metaregressietechnieken’. Met subgroepanalyses kunnen vragen als: ‘Werkt de interventie beter wanneer zij langer wordt volgehouden?’, Of: ‘Is er verschil in effect van de interventie bij acute en chronische patiënten?’ worden geanalyseerd. Dergelijke subgroepanalyses dienen bij voorkeur te worden gebaseerd op een aan de systematische review voorafgaand analyseplan om ‘visexpedities’ naar mogelijke redenen en het daarmee samenhangende risico op fout-positieve bevindingen te voorkomen. Subgroepanalyses achteraf, die niet vooraf in het protocol waren opgenomen, kunnen slechts als hypothesegenererend worden beschouwd en niet als hypothesetoetsend (bewijzend); het post hoc-karakter ervan dient daarvoor in de review te worden vermeld. In veel situaties met heterogeniteit, ten slotte, is geheel afzien van pooling wellicht de beste oplossing. zz Sensitiviteitsanalyses

Na de berekening van een overalleffect wordt vaak ook nagegaan hoe gevoelig (sensitief) het resultaat is voor veranderingen in bijvoorbeeld de insluitcriteria voor de meta-analyse of de kwaliteit van de ingesloten RCT’s. Het resultaat in een bepaalde subgroep van onderzoeken (bijv. alleen maar studies betreffende jonge patiënten of alleen maar RCT’s van hoge kwaliteit) wordt vergeleken met het resultaat in alle onderzoeken. Als de waarde van de gepoolde schatting sterk verschilt, dient het resultaat van de review met grote voorzichtigheid te worden geïnterpreteerd (het resultaat is dan weinig ‘robuust’). 5.2.3 Beoordeling van systematische reviews

Het aantal systematische reviews in de internationale literatuur stijgt exponentieel. De uitkomsten van een systematische review zijn echter pas valide en toepasbaar in de klinische praktijk indien de vraagstelling van de review voldoende aansluit bij de praktische vraagstelling van de clinicus, de methodes aansluiten bij de vraagstelling en als de methodologische kwaliteit van de systematische review voldoende is. Een voorbeeld van een instrument voor de beoordeling van systematische reviews is AMSTAR. De PRISMA-lijst is bedoeld als checklist voor tijdschriftre-

5

124

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

. Tabel 5.1 Checklist voor de beoordeling van systematische reviews (checklist beschikbaar op extras.bsl.nl/inleidingebm) item

toelichting

vraagstelling

systematische review dient uit te gaan van een expliciete vraagstelling (PICO)

zoekactie

ten minste MEDLINE, EMBASE, Cochrane Central Register of Controlled Trials en controle van referenties van verzamelde artikelen de zoekactie in ten minste één database dient volledig te zijn uitgeschreven gezien actualiteit onderwerp voldoende recent

5

selectie

bij voorkeur door twee reviewers onafhankelijk van elkaar aan de hand van expliciete in- en exclusiecriteria geen taalrestrictie selectie is in een flowdiagram weergegeven (zie . figuur 5.1)

kwaliteitsbeoordeling

bij voorkeur door twee reviewers onafhankelijk van elkaar expliciet en daardoor reproduceerbaar voor anderen manier van randomiseren, concealment of allocation, blindering van de uitkomstmeting

data-extractie en -presentatie

resultaten op eenduidige wijze gepresenteerd

combineren van resultaten

pooling indien studies klinisch en statistisch homogeen

heterogeniteit

indien aanwezig beschreven en adequaat opgelost

resultaten

relevant voor de vraagstelling

conclusie

ondersteund door de resultaten

per studie wordt per uitkomstmaat een puntschatter van het effect en betrouwbaarheidsinterval gepresenteerd

subgroepanalyse gebaseerd op vooraf opgesteld analyseplan

dacties en bevat eveneens een goed overzicht van de belangrijkste items. In . tabel 5.1 zijn de belangrijkste punten samengevat. Daarnaast zijn er rond de beoordeling van systematische reviews nog twee aspecten die aandacht verdienen: publicatie- en uitkomstbias en tegenstrijdige systematische reviews over hetzelfde onderwerp. zz Selectieve publicatie

Selectieve publicatie van onderzoeken wordt publicatiebias genoemd. Onderzoeken waar geen (significant) verschil tussen experimentele en controlebehandeling wordt aangetoond of waarin de controlegroep het beter doet dan de experimentele interventiegroep, worden nogal eens niet gepubliceerd. Op die manier kunnen ‘positieve’ onderzoeken (onderzoeken met een duidelijk gunstig effect in het voordeel van de interventie) de overhand krijgen in de review. Een meta-analyse overschat dan het effect van de interventie (publicatiebias). Aanwijzingen voor publicatiebias kunnen in beeld worden gebracht door middel van een funnelplot (omgekeerde trechter) (zie . figuur 5.4). In deze plot wordt de grootte van de effect-

standard error of log oddsratio

0

0

0

1

1

1

2

2

2

3

0,1

0,33 0,6 1

3

3

0,1

5

125

5.2 • Systematische reviews van interventieonderzoek

0,33 0,6 1

3

3

0,1

0,33 0,6 1

3

relative risk . Figuur 5.4 Funnelplot en publicatiebias. Links: symmetrische plot in afwezigheid van bias (de lichtgekleurde rondjes vertegenwoordigen kleine studies waarin geen positief effect werd gevonden). Midden: asymmetrische plot door publicatiebias (kleinere studies waarin geen effect werd gevonden, ontbreken, omdat ze niet gepubliceerd zijn). Rechts: asymmetrische plot door bias die wordt veroorzaakt door kleine studies van onvoldoende methodologische kwaliteit waarin er een overschatting is van het effect. Donkere stippellijn is de gepoolde oddsratio en de lichte lijn geeft de neutrale waarde 1 aan (geen effect). Bron: Sterne, et al. BMJ 2001;323:101–5.

schatting uitgezet tegen een maat voor de precisie van de effectschatting (bijv. 1 gedeeld door de standaardfout of 1 gedeeld door de steekproefomvang van het onderzoek). Wanneer de trechter niet symmetrisch is, kan sprake zijn van publicatiebias. De vorm van een funnelplot wordt echter ook door andere factoren beïnvloed, zoals de keuze van de effectmaat, heterogeniteit en de invloed van (kleine) onderzoeken van slechte methodologische kwaliteit. Een asymmetrische funnelplot wordt dus niet altijd veroorzaakt door publicatiebias. Een vergelijkbare en wellicht nog veel meer voorkomende vorm van publicatiebias is selectieve publicatie van uitkomsten (uitkomstbias). Uitkomsten met een niet-significant effect van de interventie worden vaak (bewust of onbewust) buiten de rapportage gelaten, wat kan leiden tot een overschot aan ‘positieve’ uitkomsten in de publicaties (interne publicatiebias) en dus in de review. Analoog aan voorgaande redenering leidt deze uitkomstbias dan tot overschatting van de daadwerkelijke effecten. zz Tegenstrijdige reviews

Vaak vindt de clinicus meerdere reviews over hetzelfde onderwerp. De conclusies van verschillende reviews over (schijnbaar) hetzelfde onderwerp zijn soms echter tegenstrijdig. De oorzaak van de verschillen kan met behulp van een algoritme worden geanalyseerd (zie . Figuur 5.5). In de regel lukt het aan de hand van dit algoritme om een of meer eenduidige systematische reviews te selecteren en tot een beslissing te komen. Het is bij tegenstrijdige systematische reviews over hetzelfde onderwerp allereerst belangrijk om te kijken welke systematische review een vraagstelling heeft die het dichtst bij de eigen klinische vraag staat. Indien dezelfde RCT’s in de verschillende systematische reviews zijn ingesloten, kan men zich richten op de methodologisch beste systematische review. Indien er geen verschil in kwaliteit is, zal de lezer een nauwkeurige analyse moeten maken van de manier waarop de gegevens zijn geëxtraheerd (bijv. door twee reviewers onafhankelijk van elkaar), hoe met heterogeniteit is omgegaan en of de uitkomsten op de juiste manier zijn gepoold. Indien niet dezelfde RCT’s zijn ingesloten, dan moet allereerst worden beoordeeld of bij dezelfde vraagstelling wel dezelfde selectiecriteria voor onderzoeken zijn gehanteerd en of de reviews in actualiteit verschillen. Indien deze factoren het verschil niet verklaren, dan kan het wel of

126

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

dezelfde vraagstelling SRs? ja dezelfde RCT’s in SRs ingesloten?

ja dezelfde kwaliteit SRs? ja, let dan op: methode data-extractie in SRs heterogeniteit RCT’s methode van datasynthese in SRs

5

nee: selecteer SR met de hoogste kwaliteit

nee selecteer SR met vraagstelling dichtst bij eigen klinische vraag nee dezelfde selectiecriteria RCT’s?

ja, let dan op: uitvoering zoekstrategie voor RCT’s toepassing selectiecriteria voor RCT’s

nee, let dan op: inclusie van ongepubliceerde RCT’s kwaliteit RCT’s als inclusiecriterium taalrestrictie voor opname RCT’s

. Figuur 5.5 Algoritme voor het kiezen van de best passende systematische review (SR) wanneer er over hetzelfde onderwerp systematische reviews met tegenstrijdige conclusies beschikbaar zijn. Bron: Jadad, et al. Can Med Assoc J 1997;156:1411–6.

niet opnemen van ongepubliceerde onderzoeken het verschil verklaren. Daarnaast kunnen de systematische reviews onderling verschillen in een eventuele beperking op grond van taal of methodologische kwaliteit van de RCT’s. Indien er met betrekking tot al deze criteria geen verschil bestaat, dan kunnen de verschillen in conclusie mogelijk worden verklaard door de verschillen in de praktische uitvoering van het zoeken en selecteren, waarbij vooral de uitvoering hiervan door twee personen onafhankelijk van elkaar menselijke fouten helpt te beperken. 5.2.4 Nieuwe vormen van systematische reviews

De laatste jaren is een tweetal nieuwe vormen van systematische reviews in opkomst: de ‘individuele patiëntendata’-meta-analyse, kortweg IPD-meta-analyse genoemd, en de ‘netwerkmeta-analyse’. De essentie van de IPD-meta-analyse is dat de reviewers hierbij op patiëntniveau beschikken over de gegevens van de verschillende onderzoeken die deel uitmaken van de meta-analyse. De actieve participatie van de oorspronkelijke onderzoekers van die studies is daarbij dus onmisbaar. Omdat men beschikt over de gegevens op patiëntniveau kunnen op flexibele wijze subgroepanalyses worden uitgevoerd. Dit is verreweg de grootste kracht van een IPD-meta-analyse. In een IPD-meta-analyse kan vaak ook gebruikgemaakt worden van soms nog niet gepubliceerde gegevens, bijvoorbeeld langetermijnuitkomsten. Ook kunnen de verschillende variabelen beter worden gestandaardiseerd. Belangrijk nadeel is de enorme arbeidsintensiviteit en dus kosten die een IPD-meta-analyse met zich brengt. Soms zijn interventies niet direct met elkaar vergeleken (geen head-to-head comparison), maar zijn ze ieder voor zich wel met een andere zelfde interventie vergeleken. Die overeenkomstige controle-interventie kan dan als ankerpunt voor de effectiviteitsbepaling dienen. Een netwerk-meta-analyse zet de effectiviteit van meerdere therapieën (bijv. A en B) tegen elkaar af door de verschillen van deze therapieën A en B ten opzichte van een andere interventie (bijv. C). Zij wordt daarom ook wel multiple-treatment-meta-analysis genoemd. Uitgaande van het principe dat het verschil A-C ten opzichte van het verschil B-C overeenkomt met het verschil A-B, levert een netwerk-meta-analyse op een indirecte manier dus informatie over A versus B, afgeleid uit de studies met dezelfde controle-interventie (C). Het netwerk kan steeds complexer worden naarmate meer verschillende therapieën (D, E, F etc.) worden toegevoegd.

5.3 • Systematische reviews van onderzoek naar de waarde van een diagnostische test

127

5.2.5 Conclusie

De systematische review verschaft op een transparante en reproduceerbare manier snel inzicht in een grote hoeveelheid informatie. Systematische reviews dienen vaak als basis voor klinische richtlijnen. Indien dergelijke richtlijnen ontbreken, is de systematische review een efficiënte en valide manier om inzicht te krijgen in een bepaald onderwerp. Het is bij een klinische vraagstelling van belang systematische reviews te selecteren die bij de vraagstelling aansluiten en van een zo hoog mogelijke methodologische kwaliteit zijn. Literatuur Higgins JPT, Green S (red.). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 (updated March 2011). The Cochrane Collaboration, 2011 (geraadpleegd op 1 maart 2013). Beschikbaar op 7 www. cochrane-handbook.org. Jadad AR, Cook DJ, Browman GP. A guide to interpreting discordant systematic reviews. Can Med Assoc J 1997;156:1411–6. Khan K, Kunz R, Kleijnen J, Antes G. Systematic reviews to support evidence-based medicine. 2nd edition. London: Royal Society of Medicine, 2011. Moher D, Liberati A, Tetzlaff J, Altman DG; The PRISMA Group. Preferred Reporting Items for Systematic Reviews and Meta-Analyses: The PRISMA Statement. PLoS Med 2009;6(7): e1000097. Salanti, G, Schmid, CH, Research Synthesis Methods special issue on network meta-analysis: introduction from the editors. Res Synth Method 2012;3:69–70. doi:10.1002/jrsm.1050. Shea BJ, Bouter LM, Peterson J, Boers M, Andersson N, Ortiz Z, Ramsay T, Bai A, Shukla VK, Grimshaw JM. External Validation of a Measurement Tool to Assess Systematic Reviews (AMSTAR). PLoS ONE 2007;2:e1350. Shea BJ, Grimshaw JM, Wells GA, Boers M, Andersson N, Hamel C, Porter AC, Tugwell P, Moher D, Bouter LM. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews. BMC Med Res Methodol 2007;7:10.

5.3 Systematische reviews van onderzoek naar de waarde van een

diagnostische test2

M.M.G. Leeflang, R.J.P.M. Scholten, F. Buntinx en P.M.M. Bossuyt 5.3.1 Inleiding

De ingrediënten van een systematische review van onderzoek naar de waarde van een diagnostische test zijn dezelfde als die van een systematische review van randomised controlled trials (RCT’s) (zie 7 par. 5.2): een duidelijke vraagstelling, een uitgebreide zoekactie, duidelijk omschreven selectieprocedure en data-extractie, een kritische beoordeling van de methodologische kwaliteit (validiteit) van de oorspronkelijke onderzoeken, een adequate analyse en een duidelijke presentatie van de resultaten. Er zijn echter ook verschillen. Waar een systematische review van RCT’s één uitkomstmaat analyseert en samenvat, heeft een diagnostische systematische review altijd met twee uitkomstmaten te maken die onderling gecorreleerd zijn: sensitiviteit en specificiteit. Bij voorkeur gebruiken we meta-analysemethodes die beide tegelijkertijd samenvatten. Verder verschillen onderzoeken naar diagnostische tests enorm in opzet, waarbij veel onderzoek ook nog eens methodologisch tekortschiet. De opvattingen over wat een goede ma2

Voor een goed begrip van dit hoofdstuk dienen de paragrafen 4.2 en 5.2 bestudeerd te zijn.

5

128

5

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

nier is om dergelijk onderzoek op te zetten zijn pas vrij laat goed ontwikkeld. Soms hanteren onderzoekers een ander afkappunt om de resultaten van de bestudeerde indextest als ‘hoog’ of ‘laag’ te bestempelen, als ‘normaal’ dan wel ‘abnormaal’. Verschillende onderzoekers bestuderen dezelfde test, maar in verschillende groepen patiënten. Om al deze redenen is bij een diagnostische review nog meer heterogeniteit te verwachten dan, bijvoorbeeld, bij reviews van RCT’s. Al deze problemen nemen niet weg dat ook een diagnostische systematische review op een efficiënte, valide, transparante en reproduceerbare manier de stand van zaken met betrekking tot de waarde van een diagnostische test kan samenvatten. Omdat de hierboven genoemde variatie eerder regel dan uitzondering is, maakt het onderzoeken van deze variatie een substantieel deel uit van een diagnostische review. Daarbij moet onderscheid worden gemaakt tussen echte, klinische verschillen (door verschillen in aard van de patiënten of aard van de test) en kunstmatige, methodologische verschillen (door gebreken in onderzoeksopzet of rapportage). De aanbevelingen die hierna worden gegeven, zijn dan ook bedoeld om te beoordelen in welke mate een review in die opzet geslaagd is. Het laatste punt van verschil tussen systematische reviews van RCT’s en diagnostisch onderzoek is de interpretatie van de resultaten. De variatie in onderzoeken bemoeilijkt de interpretatie, vooral als dit gepaard gaat met veel variatie in afkappunten en variatie in patiëntkenmerken. Daarbij staat een test in de praktijk nooit op zichzelf, dus zal de (toekomstige) rol van de test in de praktijk meegenomen moeten worden in die interpretatie. 5.3.2 Beoordeling van een diagnostische systematische review

De beoordeling van een diagnostische systematische review valt uiteen in de beoordeling van de validiteit ervan, het belang van de uitkomsten en de toepasbaarheid van de resultaten. AMSTAR, het eerdergenoemde instrument voor de beoordeling van systematische reviews, kan ook worden gebruikt voor de beoordeling van diagnostische reviews. In . tabel 5.2 zijn de belangrijkste punten daarvan samengevat en toegesneden op diagnostische reviews. zz Vraagstelling

Net als bij een systematische review van interventieonderzoek dient een diagnostische review een duidelijke vraagstelling te bevatten met een adequate beschrijving van de volgende elementen: de onderzochte patiëntengroep, de indextest(s) en de ziekte of aandoening waarvoor de test wordt gebruikt. Deze elementen dienen duidelijk beschreven te zijn in de review. Van de onderzochte patiëntengroep is het belangrijk te weten met welke klachten ze gekomen zijn, om welke setting het gaat (huisartsenpraktijk of specialist) en welke diagnostische tests reeds zijn uitgevoerd voordat de indextest wordt toegepast. Van de indextest(s) willen we graag weten om hoeveel en welke indextests het gaat en wat de rol van deze test(s) in de praktijk is. Zal de test worden gebruikt om ziekte uit te sluiten of juist om deze aan te tonen? Een test die wordt gebruikt om mensen uit te sluiten, wordt een triagetest genoemd: bij een negatieve testuitslag kan de patiënt worden gerustgesteld en naar huis gestuurd, bij een positieve testuitslag gaat de patiënt een vervolgtraject in. In dat geval willen we zeker weten dat een patiënt die naar huis wordt gestuurd, geen fout-negatieve uitslag had en dus willen we een hoge sensitiviteit. Als we niet te veel patiënten onnodig het vervolgtraject in willen sturen, willen we zo weinig mogelijk fout-positieve uitslagen en dus een zo hoog mogelijke specificiteit. Als meerdere tests worden geëvalueerd, willen we graag weten wat de relatie van deze tests ten opzichte van elkaar is: zal de ene test de andere vervangen of is er een gelijkwaardige keuze tussen een aantal tests en willen we de sensitiefste of specifiekste hebben. Als de te evalueren indextest wordt

5.3 • Systematische reviews van onderzoek naar de waarde van een diagnostische test

129

. Tabel 5.2 Checklist voor het beoordelen van systematische reviews van onderzoek naar de waarde van een diagnostische test (checklist beschikbaar op extras.bsl.nl/inleidingebm) item

toelichting

vraagstelling

vermelding van een expliciete vraagstelling

zoekactie

ten minste MEDLINE en EMBASE, controle van referenties van verzamelde artikelen en overleg met een of meerdere inhoudelijke experts, geen diagnostische zoekfilters gebruikt

selectie

liefst geen taalrestrictie bij voorkeur door ≥ 2 reviewers onafhankelijk van elkaar aan de hand van expliciete in- en exclusiecriteria

kwaliteitsbeoordeling

bij voorkeur door ≥ 2 reviewers onafhankelijk van elkaar

data-extractie

bij voorkeur door ≥ 2 reviewers onafhankelijk van elkaar

presentatie van gegevens

resultaten op eenduidige wijze gepresenteerd ten aanzien van:

expliciet en daardoor reproduceerbaar voor anderen aan de hand van een geaccepteerde checklist (bij voorkeur QUADAS-2) met ten minste items betreffende het design, de referentietest (aard en toepassing), review bias, work-up bias en spectrum van zieken en niet-zieken

onderzochte populatie: per onderzoek het spectrum van de onderzochte patiënten en de setting waarin het onderzoek is uitgevoerd, met speciale aandacht voor het al dan niet geselecteerd zijn van de onderzoekspopulatie, bijvoorbeeld door verwijzing index- en referentietest: wijze van uitvoering en criteria voor duiden testresultaat indextestkarakteristieken: per indextest samenvattende 2 × 2-tabel of een combinatie van aantal onderzochte personen, prevalentie van de onderzochte aandoening, sensitiviteit en specificiteit

combineren van resultaten en analyse van heterogeniteit

schatten van summary ROC-curve (sROC-curve) of samenvattende schatters van sensitiviteit en specificiteit aan de hand van bivariate of HSROC-methode

resultaten

relevant voor de vraagstelling

conclusie

ondersteund door de resultaten

subgroepanalyse of metaregressieanalyse indien duidelijke heterogeniteit aanwezig is

toegepast na een serie gangbare tests, spreekt men van een add-on test. We willen dan de diagnostische waarde van die add-on test, plus de tests waaraan deze wordt toegevoegd, het liefste vergelijken met alleen die van de oorspronkelijke tests. Tot slot willen we weten om welke ziekte of aandoening het gaat, welke referentietest gebruikt gaat worden om deze aan te tonen en hoe goed deze referentietest is. zz Zoekactie

Uitgaande van de vraagstelling dient uitgebreid en op gestructureerde wijze in de internationale literatuur te zijn gezocht. Minimumvereisten hiervoor zijn een zoekactie in de elektronische databases MEDLINE en EMBASE, controle van de referenties van de verzamelde artikelen (zie 7 H. 3) en overleg met een of meerdere inhoudelijke experts. Artikelen over diagnostische tests zijn moeilijk terug te vinden. Het is belangrijk dat de auteurs daarom de zoekactie voldoende ‘breed’ hebben opgezet en geen standaard diagnostische zoekfilters hebben gebruikt om de zoekactie in te perken.

5

130

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

zz Selectie van artikelen

Er dienen duidelijke in- en exclusiecriteria vermeld te zijn voor de selectie van in de systematische review op te nemen artikelen. De selectie van artikelen dient bij voorkeur door ten minste twee reviewers onafhankelijk van elkaar te zijn geschied. Hoewel geen empirisch onderzoek is gedaan naar de invloed van taalrestricties op het resultaat van een diagnostische review (bijv. alleen inclusie van Engelstalige onderzoeken), kan een beperking tot een of meerdere talen leiden tot minder precieze en mogelijk ook vertekende schattingen. zz Kwaliteitsbeoordeling

5

Uiteraard dient ook aandacht besteed te zijn aan bepaling van de methodologische kwaliteit van de in de review opgenomen onderzoeken. Kwaliteit dient ook hier te worden opgevat als de vatbaarheid voor vertekening in de resultaten door tekortkomingen in de opzet. De beoordeling dient door ten minste twee reviewers onafhankelijk van elkaar te zijn uitgevoerd. Er bestaat een gevalideerde checklist voor de beoordeling van diagnostisch onderzoek in een systematische review: QUADAS-2. Deze lijst is samengesteld op basis van de kennis die bestaat over vatbaarheid voor vertekening. Dit betreft onder meer de representativiteit van de patiënten, keuze en gebruik van de referentietest, selectief of gedeeltelijk verifiëren van de resultaten van de indextest en blindering van de beoordelaars. De belangrijkste items van deze lijst zijn in 7 par. 4.2 besproken. Deze kenmerken mogen in geen geval worden samengevat in een QUADAS-‘score’. Beter is het om te rapporteren hoeveel van de artikelen in de review aan een of meer items items in QUADAS-2 voldoen en hoeveel niet. zz Data-extractie

Ook de data-extractie dient bij voorkeur door ten minste twee reviewers onafhankelijk van elkaar te zijn geschied. Gezien de gebrekkige kwaliteit en rapportage van veel artikelen over onderzoek naar de waarde van diagnostische tests wordt vaak een slechts matige interbeoordelaarsovereenstemming gerapporteerd. zz Presentatie van gegevens

In een diagnostische systematische review dienen de gegevens van de oorspronkelijke onderzoeken op overzichtelijke wijze te worden gepresenteerd, zodat de lezer een goed beeld kan krijgen van de aard van de onderzochte patiëntenpopulaties en de testkarakteristieken. Een test is bij voorkeur geëvalueerd in de klinische situatie waar deze gebruikt zal worden; de klinische situatie dient dan ook te worden vermeld (patiënten bij de huisarts of patiënten verwezen naar de chirurg). Van de deelnemers dient te worden vermeld hoe ze zich presenteerden, de ernst van de symptomen en de leeftijdsverdeling en geslachtsverdeling. Van de deelnemers die uiteindelijk een positieve referentietest bleken te hebben (de ‘zieken’, de groep die de indextest hoopt te identificeren), zijn daarnaast de verdeling van de ernst van de aandoening (bijv. partiële en totale meniscuslaesies) en de frequentie van bijkomende laesies (bijv. voorstekruisbandrupturen) belangrijk. Bij de deelnemers met een negatieve referentietest, de ‘niet-zieken’, moet worden aangegeven of zij dezelfde symptomen hadden als de ‘zieken’ of dat het bijvoorbeeld gezonde vrijwilligers waren. Verder dient duidelijk te worden aangegeven welke indextest werd gebruikt (soms bestaan verschillen tussen kits of verschillen in deskundigheid van de beoordelaars) en welke referentietest. De gebruikelijkste manier om de resultaten van een onderzoek naar de diagnostische eigenschappen van een test weer te geven is een 2 × 2-tabel. Van een dergelijke tabel kunnen de meeste andere indices (zoals sensitiviteit, specificiteit, voorspellende waarden, likelihood ratios) worden afgeleid (zie ook 7 par. 4.2). Om die reden dient een samenvattende tabel van

study Greco

TP FP FN

TN

sensitivity

specificity

1989

3

6

5

32 0,38 [0,09, 0,76] 0,84 [0,69, 0,94]

Hawnaur 1994

12

4

4

29 0,75 [0,48, 0,93] 0,88 [0,72, 0,97]

Heuck

1997

16

2

2

22 0,89 [0,65, 0,99] 0,92 [0,73, 0,99]

Ho

1992

0

0

5

15 0,00 [0,00, 0,45] 1,00 [0,82, 1,00]

Hricak

1988

9

2

2

44 0,82 [0,48, 0,98] 0,96 [0,85, 0,99]

Janus

1989

3

2

1

16 0,75 [0,19, 0,99] 0,89 [0,65, 0,99]

Kim

1990

3

1

12

44 0,20 [0,04, 0,48] 0,98 [0,88, 1,00]

Kim

1993

7

2

22 167 0,24 [0,10, 0,44] 0,99 [0,96, 1,00]

Kim

1994

23

5

14 230 0,62 [0,45, 0,78] 0,98 [0,95, 0,99]

Subak

1995

8

5

5

5

131

5.3 • Systematische reviews van onderzoek naar de waarde van een diagnostische test

sensitivity

specificity

53 0,62 [0,32, 0,86] 0,91 [0,81, 0,97] 0

0,2 0,4 0,6 0,8

10

0,2 0,4 0,6 0,8

1

. Figuur 5.6 Resultaten van tien onderzoeken naar de accuratesse van MRI voor het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom. TP = true positive; FP = false positive; FN = false negative; TN = true negative. Bron: Scheidler J, et al. JAMA 1997;278:1096–101.

de resultaten van een systematic review dan ook bij voorkeur de ruwe getallen uit de 2 × 2-tabel van elk afzonderlijk onderzoek te bevatten. Worden deze 2 × 2-tabellen niet gepresenteerd, dan dienen in ieder geval het totale aantal onderzochte personen, de prevalentie van de onderzochte aandoening en de sensitiviteit en specificiteit te zijn vermeld. . Figuur 5.6 geeft een mooi voorbeeld hoe de resultaten van de afzonderlijke onderzoeken kunnen worden gepresenteerd. De figuur betreft tien onderzoeken naar de waarde van MRI voor het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom en geeft naast de numerieke resultaten een grafische weergave (forest plot) van de sensitiviteit en specificiteit van de afzonderlijke onderzoeken. Eenvoudig is te zien dat vooral de sensitiviteit sterk varieert. zz Meta-analyse

Omdat verschillen in resultaten eerder regel dan uitzondering vormen, is het niet altijd eenvoudig om bij diagnostische reviews tot samenvattende schatters te komen. Een review zal dan ook in de eerste plaats de bronnen van de variabiliteit moeten onderzoeken. In een aantal gevallen is het wel mogelijk om, bij voldoende homogeniteit, tot samenvattende schatters te komen. Een methode daartoe staat hierna beschreven. zz Resultaten en conclusie

De gebruikswaarde van een diagnostische systematische review wordt vergroot door een adequate uitleg en bespreking van de resultaten en bijpassende conclusies in relatie tot de eigen klinische vraagstelling. zz Beoordeling van een diagnostische meta-analyse

Net als bij een systematische review van interventieonderzoek kan bij een diagnostische metaanalyse onderscheid gemaakt worden tussen het berekenen van samenvattende effectschatters en onderzoek naar bronnen van heterogeniteit. Er ontstaat geleidelijk een consensus over de ideale wijze om een diagnostische metaanalyse uit te voeren. Belangrijk om te weten is dat een onderzoek naar de diagnostische accuratesse niet één maat oplevert (zoals een relatief risico of risicoverschil), maar twee met elkaar samenhangende maten: de sensitiviteit (in de groep patiënten met de ziekte) en de specificiteit (in de groep patiënten zonder de ziekte). Omdat deze parameters met elkaar samenhangen, moet een meta-analyse met beide rekening houden. Onderzoeken met een hogere sensitiviteit hebben in de regel een lagere specificiteit en omgekeerd. Dat kan het geval zijn door een

132

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

1,0 0,9 0,8

sensitiviteit

0,7

0,5 0,4 0,3 0,2 0,1

0

9

8

7

6

5

4

3

2

1

0

0,

0,

0,

0,

0,

0,

0,

0,

0,

0,

0,0

1,

5

0,6

specificiteit . Figuur 5.7 Relatie tussen sensitiviteit (Y-as) en specificiteit (X-as) van MRI voor het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom en de geschatte summary Receiver Operating Characteristiccurve (sROC-curve) van tien onderzoeken. De hoogte van de blokjes is evenredig met het aantal vrouwen met metastasen (zieken) en de breedte met het aantal zonder metastasen (niet-zieken) in de afzonderlijke onderzoeken. De sROC-curve bestrijkt louter het gebied waarvoor gegevens voorhanden zijn. De zwarte stip geeft de gemiddelde sensitiviteit en specificiteit weer en de ellips het 95%-betrouwbaarheidsinterval rond deze gemiddelden. Bron: Scheidler J, et al. JAMA 1997;278:1096–101.

verschil in het afkappunt, maar ook door verschillen in de ingesloten patiënten of door een verschil in de gehanteerde methodes. De invloed van de keuze van het afkappunt op de verhouding tussen de sensitiviteit en specificiteit van een indextest kan worden gevisualiseerd door een zogenoemde ROC-curve (zie 7 figuur 4.3). Deze in 7 par. 4.2 besproken curve geeft, binnen één onderzoek, de relatie weer tussen de sensitiviteit en specificiteit voor verschillende afkappunten van de indextest. In een diagnostische meta-analyse heeft men echter niet te maken met sensitiviteit-specificiteitsparen uit één onderzoek, maar met paren uit verschillende onderzoeken. Als in die onderzoeken verschillende afkappunten zijn gehanteerd, zijn sensitiviteit en specificiteit negatief gecorreleerd en kan een curve worden berekend die er net zo uitziet als een ROC-curve (zie . figuur 5.7). Ieder blokje in de curve van . figuur 5.7 representeert nu echter de combinatie van de waarden van sensitiviteit en 1 minus specificiteit voor ieder afzonderlijk onderzoek, elk met een eigen afkappunt. Er zijn tien onderzoeken en dus tien blokjes. Een dergelijke samenvattende ROCcurve wordt in het Engels Summary ROC curve genoemd (sROC-curve). De sROC-curve van . figuur 5.7 bevat tien onderzoeken naar de waarde van MRI voor het aantonen van lymfekliermetastasen bij vrouwen met cervixcarcinoom. Hoewel de MRI niet op een continue schaal wordt gemeten, is hier toch sprake van een vergelijkbare situatie als in 7 figuur 4.3: de ene arts duidt de MRI blijkbaar eerder positief dan de andere. In dit voorbeeld verschillen de afkappunten waarschijnlijk onbewust (impliciet). In andere gevallen (continue meetwaarden) kan dit expliciet zijn, zoals in het voorbeeld van het serumglucosegehalte. Een diagnostische meta-analyse dient dus een nadere analyse van het mogelijke bestaan van verschillende afkappunten (impliciet of expliciet) te bevatten. Als er aanwijzingen zijn voor

5.3 • Systematische reviews van onderzoek naar de waarde van een diagnostische test

133

het bestaan van een (impliciet of expliciet) afkappunt, dan is de sROC-curve in principe de samenvatting van de resultaten. Een sROC-curve wordt op dezelfde wijze geïnterpreteerd als een ROC-curve (zie 7 par. 4.2): hoe groter het oppervlak tussen de curve en de diagonaal, des te beter het onderscheidingsvermogen van de test. Er bestaan verschillende methodes om een sROC-curve te bepalen. Het voordeel van de recentelijk ontwikkelde verfijndere methodes, zoals de hierarchical summary ROC (HSROC-) methode en de bivariate random effects-methode, is dat ze rekening houden met die variatie in afkappunten en andere bronnen van heterogeniteit die tussen de verschillende onderzoeken kunnen bestaan. Verder kan via beide methodes een samenvattend punt in de ROC-ruimte worden berekend. Deze geeft dan de samenvattende sensitiviteit en specificiteit aan. Een dergelijk samenvattend punt vereenvoudigt de interpretatie van de analyse. Systematische reviews die niet een van beide genoemde methodes gebruiken, zullen soms de sensitiviteit en specificiteit van een test onder- of overschatten. Maar het belangrijkste bezwaar tegen deze oudere methodes is dat ze geen rekening houden met het fenomeen dat sensitiviteit en specificiteit met elkaar correleren en samen variëren met de afkapwaarde en dat ze geen goede weergave geven van de variatie tussen de studies. Er bestaat bij veel lezers en auteurs een voorkeur om voorspellende waarden te gebruiken. Hiervoor gelden echter dezelfde bezwaren die voor het gebruik van voorspellende waarden uit primair onderzoek gelden: voorspellende waarden zijn direct afhankelijk van de prevalentie van de ziekte in de onderzochte populatie. Om die reden geven andere lezers weer de voorkeur aan het gebruik van likelihood ratios in plaats van sensitiviteit en specificiteit. Deze kunnen dan met behulp van een prevalentie worden omgezet in voorspellende waarden. Het is echter niet aan te raden om afzonderlijke meta-analyses van likelihood ratios uit te voeren. Ook hier gaat het om twee grootheden die samenhangen – hogere likelihood ratios van een positief testresultaat gaan samen met minder extreme likelihood ratios voor een negatief resultaat – en met die samenhang moet rekening worden gehouden. Verder kan een meta-analyse van likelihood ratios ook onmogelijke waarden opleveren. Als op de juiste wijze samengestelde schatters van sensitiviteit en specificiteit zijn verkregen, kan men beter daarvan alsnog likelihood ratios en eventueel voorspellende waarden afleiden. Met behulp van de juiste statistische methodes voor meta-analyse, zoals de bivariate random effects-methode, kan men aan de hand van subgroepanalyses of metaregressieanalyse verder onderzoek doen naar mogelijke bronnen van heterogeniteit. Dit betreft bijvoorbeeld patiëntkarakteristieken (leeftijd, geslacht), setting (eerste lijn versus specialistische setting), ziektekenmerken (spectrum, ernst, duur) en verschillen in uitvoering van de indextest of referentietest. Ook kan worden nagegaan of de heterogeniteit mogelijk het gevolg is van vertekening door een gebrekkige onderzoeksopzet. Omdat in diagnostische systematische reviews heterogeniteit vaker regel is dan uitzondering, omdat de sensitiviteiten fors heterogeen kunnen zijn, bij homogene specificiteiten en omgekeerd, en omdat eventuele heterogeniteit vaak samenhangt met het verschil in afkappunten, wordt in dit soort reviews meestal geen heterogeniteit gemeten met behulp van de chi-kwadraattoets of de I2-statistiek (zie 7 par. 5.2). zz Interpretatie van de resultaten

Als de heterogeniteit beperkt is en het redelijk is een samenvattende effectschatting te berekenen voor de sensitiviteit en specificiteit van de indextest (inclusief een 95%-betrouwbaarheidsinterval), dan is de interpretatie relatief eenvoudig. Met behulp van de samenvattende sensitiviteit kan dan worden bepaald welk percentage van de zieken (gemiddeld genomen) zal worden gemist door de test en met behulp van de samenvattende specificiteit kan dan worden bepaald welk percentage van de niet-zieken (gemiddeld genomen) door de test zal worden aangezien

5

134

5

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

voor ‘wel ziek’. Klinische informatie is nodig om iets te kunnen zeggen over de gevolgen voor de fout-negatieven en de fout-positieven. Zullen de ‘zieken’ die door de test worden gemist onterecht naar huis worden gestuurd? En wat zal dit voor gevolgen hebben voor die patiënten? Dit hangt samen met de ernst van de aandoening en eventuele alternatieve mogelijke diagnoses. Zullen de ‘niet-zieken’ die door de test onterecht als ‘positief ’ worden aangemerkt direct worden behandeld? En hoe zwaar is die behandeling? Of zullen ze eerst worden doorverwezen voor eventuele vervolgtests? Een inschatting van het percentage zieken in een populatie (de prevalentie of voorafkans op ziekte) zal dan helpen een inschatting te maken van hoeveel mensen zullen worden gemist of onterecht zullen worden gediagnosticeerd. Op die manier kunnen ook verschillende tests of verschillende scenario’s met elkaar worden vergeleken. Is echter sprake van veel heterogeniteit, dan moet daarmee bij de interpretatie rekening worden gehouden. Vooral als deze heterogeniteit samenhangt met een grote variatie aan afkappunten, is het lastig aan te geven bij welk afkappunt de test het ‘goed doet’. Men lette er dan bijvoorbeeld op in welk gebied de curve en/of de punten die de onderzoeken voorstellen, liggen. Uit . figuur 5.7 kan men afleiden dat MRI specifiek is: als met MRI lymfekliermetastasen worden gevonden, dan kan men er vrij zeker van zijn dat die er ook werkelijk zijn. De sensitiviteit van MRI is echter zeer heterogeen en men zal uit de review moeten destilleren welke schatter het meest overeenkomt met de eigen situatie. Het kan zijn dat uit de cijfers en de figuur blijkt dat een goede sensitiviteit wordt gevonden in studies die overeenkomen met uw eigen setting of net andersom. Het kan ook zijn dat de heterogeniteit tot het besluit leidt dat er (nog) onvoldoende kennis ter beschikking is om tot een goed oordeel te komen. Het is belangrijk te beseffen dat alleen de waarde van een test vaak onvoldoende is om een besluit te kunnen nemen over het al dan niet inzetten van een test. De consequenties van testen voor bijvoorbeeld de fout-positieven en fout-negatieven zijn belangrijk. Maar het is ook belangrijk te beseffen dat tests invloed hebben op het vervolgtraject. Als van een bestaand testprotocol wordt aangenomen dat het redelijk accuraat is en weinig fouten maakt, kan door het toevoegen van een screenings- of triagetest de populatie veranderen, waardoor het bestaande testprotocol misschien meer fouten gaat maken. Dit kan bijvoorbeeld gebeuren als de screeningstest de ‘makkelijk’ te diagnosticeren patiënten er uitfiltert en alleen de moeilijke gevallen overblijven. zz Beoordeling van de toepasbaarheid van de systematische review

Als de diagnostische systematische review voldoende valide is, dan dient uiteraard bekeken te worden of het gevonden wetenschappelijke bewijs ook toepasbaar is op de onderhavige patiënt. Hiervoor gelden dezelfde criteria en overwegingen als bij het toepassen van de resultaten van primair diagnostisch onderzoek, zoals beschreven in 7 par. 4.2. 5.3.3 Conclusie

Een diagnostische systematische review kan op een efficiënte, transparante en reproduceerbare wijze inzicht verschaffen in de stand van kennis over de eigenschappen van een diagnostische test. Ten opzichte van één primair onderzoek heeft een systematische review als bijkomend voordeel dat het wetenschappelijke bewijs afkomstig is uit verschillende klinische situaties, waardoor de resultaten van een valide systematische review beter toepasbaar zijn en daardoor waarschijnlijk beter aansluiten bij een in de praktijk geboren klinische vraag.

5.4 • Systematische reviews van observationeel onderzoek

135

Literatuur Buntinx F, Aertgeerts B, Macaskill P. Guidelines for conducting systematic reviews of studies evaluating the accuracy of diagnostic tests. In Knottnerus JA, Buntinx F (eds). The evidence base of clinical diagnosis. Oxford: Blackwell Publishing Ltd Wiley Publ, 2008. Deeks JJ, Bossuyt PM, Gatsonis C (red.), Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy Version 1.0. The Cochrane Collaboration, 2010 (geraadpleegd op 1 maart 2013). Beschikbaar op: 7 http:// srdta.cochrane.org/. Gatsonis C, Paliwal P. Meta-analysis of diagnostic and screening test accuracy evaluations: methodologic primer. AJR Am J Roentgenol 2006;187:271–81. Leeflang MM, Deeks JJ, Gatsonis C, Bossuyt PM; Cochrane Diagnostic Test Accuracy Working Group. Systematic reviews of diagnostic test accuracy. Ann Intern Med 2008;149:889–97. Leeflang MM, Scholten RJ, Rutjes AW, Reitsma JB, Bossuyt PM. Use of methodological search filters to identify diagnostic accuracy studies can lead to the omission of relevant studies. J Clin Epidemiol 2006;59:234–40. Reitsma JB, Glas AS, Rutjes AW, Scholten RJ, Bossuyt PM, Zwinderman AH. Bivariate analysis of sensitivity and specificity produces informative summary measures in diagnostic reviews. J Clin Epidemiology 2005;58:982–90. Whiting PF, Rutjes AW, Westwood ME, Mallett S, Deeks JJ, Reitsma JB, Leeflang MM, Sterne JA, Bossuyt PM; QUADAS-2 Group. QUADAS-2: a revised tool for the quality assessment of diagnostic accuracy studies. Ann Intern Med 2011;155:529–36.

5.4 Systematische reviews van observationeel onderzoek3 D.A.W.M. van der Windt, M.P.A. Zeegers en R.J.P.M. Scholten 5.4.1 Inleiding

In deze paragraaf wordt het beoordelen en interpreteren van systematische reviews van observationeel onderzoek besproken. Observationeel onderzoek kan gericht zijn op de beantwoording van vele soorten onderzoeksvragen, maar is grofweg in te delen in drie categorieën: Etiologisch onderzoek, gericht op het vaststellen van oorzaken van ziekten. Er zijn bijvoor1. beeld systematische reviews verschenen over werkgerelateerde risicofactoren voor schouderpijn, clustering van prostaatkanker in families of de associatie tussen slaappositie van baby’s en de kans op wiegendood. Prognostisch onderzoek, gericht op de bestudering van het beloop van ziekten en van 2. factoren die invloed op het beloop uitoefenen. Systematische reviews van prognostisch onderzoek zijn in opkomst. Voorbeelden zijn reviews over het beloop van elleboogklachten, de prognose van depressie bij ouderen of de invloed van genetische factoren op het beloop van darmkanker. 3. Onderzoek naar ernstige bijwerkingen van interventies. In deze laatste categorie zijn relatief veel systematische reviews verschenen, bijvoorbeeld over de kans op een myocardinfarct bij gebruik van Cox-2-remmers (ontstekingsremmende medicatie) voor gewrichtsklachten of de kans op trombose bij gebruik van derde generatie orale anticonceptiva. Diagnostisch onderzoek is strikt genomen ook observationeel onderzoek, maar wordt vanwege een aantal specifieke kenmerken apart besproken (zie 7 par. 5.3). De opbouw van een review van observationeel onderzoek is dezelfde als die van een review van gerandomiseerd onderzoek (zie 7 par. 5.2). Het uitgangspunt is een expliciete vraagstelling en een zorgvuldige zoekstrategie. De beoordeling van de kwaliteit van de geselecteerde 3

Voor een goed begrip van deze paragraaf dienen de paragrafen 4.3, 4.5 en 5.2 bestudeerd te zijn.

5

136

5

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

onderzoeken en een transparante presentatie van de resultaten zijn belangrijke onderdelen van iedere review. Een kwantitatieve samenvatting van de resultaten (statistische pooling of metaanalyse) is bij een systematische review van observationeel onderzoek gecompliceerder dan bij een systematische review van gerandomiseerd onderzoek, en niet altijd mogelijk, in welk geval de analyse moet worden beperkt tot een kwalitatieve analyse van de beschikbare gegevens of onderzoek naar bronnen van heterogeniteit. Het uitvoeren van een systematische review van observationeel onderzoek is niet altijd eenvoudig. In tegenstelling tot reviews van gerandomiseerd onderzoek heeft de reviewer vaak te maken met verschillende soorten onderzoeksdesigns (zie 7 par. 4.3 en 7 par. 4.5 voor een beschrijving hiervan). Voor het beantwoorden van dezelfde vraagstelling is vaak zowel patiënt controleonderzoek als prospectief cohortonderzoek voorhanden. Hierdoor kunnen allerlei kenmerken in de opzet van de geselecteerde onderzoeken sterk variëren, zoals de selectie van controlepersonen of het niveau van blindering. Daarnaast kunnen observationele onderzoeken sterk variëren ten aanzien van de te onderzoeken determinant (risicofactor of prognostische factor), selectie van de onderzoekspopulatie en de definitie van de uitkomstmaat. De kans dat onderzoekresultaten zijn beïnvloed door allerlei verstorende factoren (confounders) is relatief groot in observationeel onderzoek (zie ook 7 par. 4.5). Bij het beoordelen van systematische reviews van observationeel onderzoek dient daarom goed te worden gelet op de wijze waarop de kwaliteit van geselecteerde onderzoeken is beoordeeld, of voldoende rekening is gehouden met de mogelijke invloed van verstorende factoren en of voldoende aandacht is besteed aan het exploreren van bronnen van heterogeniteit van onderzoekresultaten. Net als bij reviews van gerandomiseerd of diagnostisch onderzoek kan hierbij onderscheid worden gemaakt tussen verschillende oorzaken voor heterogeniteit: 55 verschillen in kenmerken van de onderzoekspopulatie, risicofactoren of prognostische factoren, uitkomstmaten (klinische heterogeniteit); 55 methodologische verschillen door gebreken in de onderzoeksopzet of rapportage (methodologische heterogeniteit); 55 toevalsvariatie. 5.4.2 Beoordeling van een systematische review van observationeel

onderzoek

De beoordeling van een systematische review van observationeel onderzoek valt uiteen in de beoordeling van de validiteit ervan, het belang van de uitkomsten en de toepasbaarheid van de resultaten. Ook voor de beoordeling van systematische reviews van observationeel onderzoek kan AMSTAR gebruikt worden. In . tabel 5.3 zijn de belangrijkste punten daarvan samengevat en toegesneden op dit type review. De MOOSE-checklist wordt in dit kader ook vaak genoemd. MOOSE is echter een checklist voor het rapporteren van systematische reviews van observationele onderzoeken, maar bevat eveneens een goed overzicht van de belangrijkste items. zz Vraagstelling

De relevantie van het onderwerp van de review en de noodzaak van het uitvoeren van een systematische review dienen in de inleiding helder te zijn beschreven. Ook een systematische review van observationeel onderzoek dient uit te gaan van een expliciete vraagstelling, waarin de onderzoekspopulatie, de determinant en de uitkomsten zijn gedefinieerd. Bij etiologisch onderzoek gaat het om de invloed van een risicofactor op het ontstaan van ziekte in een bepaalde populatie, bij prognostisch onderzoek om de patiëntencategorie, de aard van de prognostische

5.4 • Systematische reviews van observationeel onderzoek

137

. Tabel 5.3 Checklist voor de beoordeling van systematische reviews van observationeel onderzoek (checklist beschikbaar op extras.bsl.nl/inleidingebm) item

toelichting

vraagstelling

vermelding van een expliciete vraagstelling

zoekactie

ten minste MEDLINE en controle van referenties van relevante reeds verzamelde artikelen

selectie

bij voorkeur door ≥ 2 reviewers onafhankelijk van elkaar aan de hand van expliciete in- en exclusiecriteria bij voorkeur geen taalrestrictie

kwaliteitsbeoordeling

bij voorkeur door ≥ 2 reviewers onafhankelijk van elkaar expliciet en daardoor reproduceerbaar voor anderen geaccepteerde checklist, met items betreffende onder meer het design, selectie van deelnemers, beschrijving van risicofactoren of prognostische factoren, controle voor confounding, volledigheid van follow-up (bij cohortonderzoek)

data-extractie

bij voorkeur door ≥ 2 reviewers onafhankelijk van elkaar heldere beschrijving data-extractieprocedure, vooral ten aanzien van definitie en eenheid van de determinant (risicofactor of prognostische factor) en de uitkomst

presentatie van gegevens

resultaten op eenduidige wijze gepresenteerd ten aanzien van: samenstelling onderzoekspopulatie determinant: risicofactor of prognostische factor uitkomst: ziekte, beloop van de ziekte of bijwerking van therapie mogelijke verstorende factoren (confounders) resultaten: effect per eenheid van de determinant, gecorrigeerd voor alle relevante confounders

combineren van resultaten en analyse van heterogeniteit

pooling alleen van methodologisch en klinisch homogene (subgroepen van) onderzoekresultaten subgroepanalyses of metaregressieanalyse zijn gebaseerd op vooraf opgesteld analyseplan en betreffen potentiële bronnen van klinische of methodologische heterogeniteit indien pooling niet mogelijk of verstandig: kwalitatieve analyse, rekening houdend met methodologische kwaliteit, consistentie van resultaten, sterkte van de associatie, invloed van confounding

resultaten

relevant voor de vraagstelling

conclusie

ondersteund door de resultaten

factoren en het beloop van de ziekte (kans op herstel, persisterende klachten, complicaties of overlijden), bij onderzoek naar bijwerkingen om het type interventie bij een bepaalde patiëntencategorie en de aard van de bijwerkingen. Een voorbeeld van een etiologische vraagstelling is: hebben gezonde volwassenen (patiënten) die meer dan drie koppen koffie per dag drinken (determinant) een grotere kans op overlijden als gevolg van een myocardinfarct (uitkomst) dan mensen die geen of weinig koffie drinken (vergelijking)? Een voorbeeld van een prognostische

5

138

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

vraagstelling is: welke psychosociale factoren (determinant) voorspellen bij patiënten met een nieuwe episode van lage rugpijn (patiënten) de kans op persisterende klachten na zes maanden (uitkomst)? zz Zoekactie

5

Uitgaande van de vraagstelling dient op gestructureerde wijze uitgebreid in de internationale literatuur te zijn gezocht. Een minimumvereiste hiervoor is een zoekactie in de elektronische database MEDLINE en controle van de referenties van relevante, reeds verzamelde artikelen. Een zoekactie in EMBASE of specialistische databases zoals Cinahl of PsychInfo zal waarschijnlijk aanvullende relevante publicaties opleveren en is een belangrijke toevoeging. Een andere aanvullende mogelijkheid om relevante onderzoeken te identificeren is het controleren van de citaties van sleutelpublicaties via Google Scholar of Web of Science. Eventuele restricties in de zoekactie moeten zijn beschreven. Hierbij kan worden gedacht aan restrictie in jaartal van publicatie, publicatiestatus (wel of niet gepubliceerd) of in taal. Voor observationeel onderzoek is de kans op publicatiebias groot. Zowel auteurs als tijdschriftredacties zijn wellicht terughoudend met het publiceren van kleinschalig onderzoek waarin slechts zwakke associaties zonder statistische significantie worden gevonden. De kans op publicatie van observationeel onderzoek waarin opvallende of sterke associaties worden gerapporteerd is aanzienlijk groter. Hierdoor moet wellicht de voorkeur worden gegeven aan een systematische review waarin niet alleen gepubliceerd materiaal is geselecteerd, maar ook is gezocht naar ongepubliceerde gegevens, zoals congresverslagen en interne rapporten. Helaas is het identificeren van ongepubliceerd observationeel onderzoek een vrijwel onmogelijke opgave. Ook moet rekening worden gehouden met het feit dat ongepubliceerd onderzoek meestal geen kwaliteitscontrole heeft ondergaan, zoals de peer review-procedure van wetenschappelijke tijdschriften. De kans op publicatiebias kan wel worden ingeschat aan de hand van een zogenoemde funnelplot (zie 7 par. 5.2) en deze figuur wordt dan ook vaak in een systematische review van observationeel onderzoek gepresenteerd. zz Selectie

Een uitputtende zoekactie naar observationeel onderzoek zal een groot aantal treffers opleveren, waarvan een aanzienlijk deel niet relevant is voor de systematische review. De selectie van artikelen die moeten worden geïncludeerd dient bij voorkeur door twee reviewers onafhankelijk van elkaar te geschieden aan de hand van expliciete in- en exclusiecriteria. De in- en exclusiecriteria dienen aan te sluiten bij de vraagstelling en dienen duidelijk te zijn beschreven, zodat voor de lezer duidelijk is waarover de review precies gaat. In veel reviews wordt de inclusie beperkt tot publicaties in de talen die de reviewers zelf meester zijn (meestal het Engels). Hoewel language bias voor systematische reviews van observationeel onderzoek niet is aangetoond, is niet uitgesloten dat reviews met taalrestricties minder valide zijn. zz Kwaliteitsbeoordeling

De validiteit van de conclusies van de systematische review is deels afhankelijk van de methodologische kwaliteit van de geselecteerde onderzoeken. Zoals eerder aangegeven is de kans op vertekening van onderzoekresultaten (confounding) in observationeel onderzoek relatief groot, in het bijzonder doordat er geen sprake is van randomisatie. Hierdoor zijn verstorende factoren, zoals roken in onderzoek naar de associatie tussen alcoholconsumptie en blaaskanker, waarschijnlijk niet gelijk verdeeld over de blootstellingsgroepen: mensen die veel alcohol gebruiken roken wellicht vaker en hebben alleen daarom al een verhoogde kans op blaaskanker.

5.4 • Systematische reviews van observationeel onderzoek

139

Hierdoor kan de rol van alcoholconsumptie als risicofactor van blaaskanker worden overschat. In de kwaliteitsbeoordeling van een systematische review van observationeel onderzoek moet dan ook uitgebreid aandacht worden besteed aan de mogelijke invloed van verstorende factoren. Onderzoek heeft laten zien dat een associatie kan worden overschat, wanneer onvoldoende is gecorrigeerd voor verstorende factoren en wanneer (bij etiologisch onderzoek en onderzoek naar bijwerkingen) sprake is van een patiëntcontroleonderzoek. Patiëntcontroleonderzoek is gevoeliger voor selectiebias en informatiebias dan prospectief cohortonderzoek (zie 7 par. 4.5). Bij systematische reviews van prognostisch onderzoek is het belangrijk dat de volledigheid van follow-up is meegenomen in de beoordeling van geselecteerde onderzoeken. Patiënten die snel herstellen van een klacht of ziekte zullen wellicht eerder uitvallen, terwijl patiënten met persisterende klachten gedurende lange tijd bereid zijn om metingen te ondergaan of vragenlijsten in te vullen. Dit kan de resultaten van prognostisch onderzoek beïnvloeden. De reviewers dienen duidelijk te beschrijven op welke aspecten zij de oorspronkelijke onderzoeken hebben beoordeeld. Er is een flink aantal criterialijsten beschikbaar die kunnen worden gebruikt voor de beoordeling van de kwaliteit van observationeel onderzoek. Een internationaal geaccepteerde lijst is de Newcastle Ottawa Scale (NOS), die de genoemde elementen van een goede checklist bevat (zie ook 7 par. 4.5). Het resultaat van deze kwaliteitsbeoordeling dient per individueel onderzoek in de review te zijn gerapporteerd. Evenals de selectie van onderzoek dient de kwaliteitsbeoordeling in de systematische review door ten minste twee reviewers onafhankelijk van elkaar te zijn uitgevoerd. In een systematische review naar de associatie tussen depressie en de kans op een cerebrovasculair accident (beroerte) werd bijvoorbeeld de validiteit van alle geïncludeerde cohortonderzoeken beoordeeld op basis van het responspercentage bij de start van het onderzoek en bij de follow-up, de duur van de follow-up, de wijze waarop depressie was vastgesteld (vragenlijst of diagnostisch interview), de wijze waarop de uitkomst was gemeten (mortaliteit en morbiditeit als gevolg van de beroerte), het analyseplan en de generaliseerbaarheid van de resultaten naar andere populaties. De resultaten van de kwaliteitsbeoordeling werden gepresenteerd voor alle onderzoeken en de mogelijke invloed van kwaliteit op de onderzoekresultaten werd geanalyseerd door middel van subgroepanalyses. zz Data-extractie

In geval van observationeel onderzoek betreft de data-extractie kenmerken van de bestudeerde blootstelling of prognostische factor (bijv. welke eenheid van alcoholconsumptie is gebruikt, welke typen ontstekingsremmende medicatie zijn vergeleken of welke psychosociale factoren zijn bestudeerd). Tevens dient informatie te worden verzameld over potentieel verstorende factoren die in de oorspronkelijke onderzoeken zijn gemeten. Voor elk onderzoek dient ten slotte het voor deze factoren gecorrigeerde effect per eenheid van blootstelling te worden geëxtraheerd. Soms zijn reviewers genoodzaakt deze gegevens zelf te reconstrueren, wat gewoonlijk gepaard gaat met een aanzienlijke hoeveelheid aannames. Het data-extractieproces dient duidelijk te zijn beschreven, vooral ten aanzien van de definitie en eenheid van de determinant (risicofactor of prognostische factor) en de uitkomst (gecorrigeerde effectschatting). Ook dataextractie dient bij voorkeur door twee reviewers onafhankelijk van elkaar plaats te vinden. zz Presentatie van gegevens

In een systematische review dienen de gegevens die direct bij de vraagstelling aansluiten op overzichtelijke wijze te worden gepresenteerd. De belangrijkste methodologische en klinische kenmerken van elk van de geselecteerde onderzoeken moeten zijn beschreven. Het gaat om de volgende gegevens:

5

140

5

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

55 onderzochte populatie: de wijze van selectie van de onderzoekspopulatie (bijv. ‘aselecte steekproef uit het register van twintig huisartspraktijken in de provincie Limburg’), tijdsperiode, leeftijds- en geslachtsverdeling; in geval van prognostisch onderzoek en onderzoek naar schadelijke bijwerkingen: gegevens over de ziekte, zoals aard, ernst en stadium, en zorgsetting (eerstelijn of specialistische zorg); 55 blootstelling: definitie, eenheid en wijze van vaststelling van de risicofactor of prognostische factor; in geval van onderzoek naar schadelijke bijwerkingen: gegevens over de onderzochte interventie (dosis, duur van medicatiegebruik etc.); 55 uitkomsten (ziekte/schadelijke bijwerking/beloop van ziekte): definitie, wijze van vast stelling (diagnostische criteria voor vaststellen van de ziekte of bijwerking, of definitie van kenmerken van het beloop van de ziekte); 55 verstorende factoren (confounders): aard en eenheid van alle gemeten confounders; 55 resultaten: de effectschatting (sterkte van de gevonden associatie), meestal in de vorm van een oddsratio, relatief risico of hazard ratio; wanneer men op zoek is naar een (causaal) verband tussen een specifieke determinant en de uitkomst moet hierbij zijn gekozen voor de effectschatting die is gecorrigeerd voor alle relevante confounders. zz Meta-analyse

Indien de geselecteerde onderzoeken voldoende vergelijkbaar zijn, kunnen de resultaten worden gecombineerd tot een algemene schatting van de bestudeerde associatie. Bij observationeel onderzoek zal echter vaak sprake zijn van grote verschillen in onderzoekresultaten (heterogeniteit). Deze variatie kan door toeval, maar ook door werkelijke verschillen tussen onderzoeken worden verklaard, zoals verschillen in kenmerken van de onderzoekspopulatie, de wijze waarop de determinant is vastgesteld of de definitie van de uitkomst. Een systematische review van observationeel onderzoek dient de invloed van bronnen van methodologische of klinische heterogeniteit op de uitkomst te onderzoeken. Indien statistische pooling niet mogelijk of verstandig is, kan worden volstaan met een kwalitatieve samenvatting van de resultaten. De wijze waarop bronnen van heterogeniteit kunnen worden bestudeerd wordt verder toegelicht in de volgende paragraaf, ‘Meta-analyse van observationeel onderzoek’. zz Resultaten en conclusie

Evenals bij andere systematische reviews is het belangrijk dat de resultaten van een review van observationeel onderzoek aansluiten bij de vraagstelling. Conclusies dienen te worden ondersteund door de resultaten. Een goede presentatie van de resultaten, inclusief heldere en goed onderbouwde conclusies en aanbevelingen, verhogen de bruikbaarheid van een review van observationeel onderzoek. 5.4.3 Meta-analyse van observationeel onderzoek zz Data-extractie

Door middel van meta-analyse (statistische pooling) worden de resultaten van de geselecteerde onderzoeken statistisch samengevoegd om te komen tot een gecombineerde schatting van de sterkte van de bestudeerde associatie. Een veelgebruikte effectmaat in observationeel onderzoek is de oddsratio (OR). In cohortonderzoek kan naast de oddsratio ook het relatieve risico of de hazard ratio worden gebruikt. Indien de kans op ziekte of op een bijwerking klein is (zoals het geval is bij de associatie tussen alcoholconsumptie en blaaskanker of de kans op myocardinfarct bij gebruik van Cox-2-remmers), is de waarde van een oddsratio ongeveer gelijk aan

141

5.4 • Systematische reviews van observationeel onderzoek

. Tabel 5.4 Resultaten van 11 onderzoeken naar de associatie tussen overwerk en kans op hart- en vaatziekten (naar Virtanen, et al, 2012) referentie

land

onderzoeksdesign

onderzoekspopulatie

aantal cases

relatieve risico* (95% BI)

1

VS

patiëntcontrole

200

100

3,55 (2,35 – 5,36)

2

Zweden

patiëntcontrole

171

62

2,57 (1,37 – 4,84)

3

VS

patiëntcontrole

100

50

1,79 (0,80 – 4,01)

4

Nederland

patiëntcontrole

266

133

1,66 (1,01 – 2,72)

5

Japan

patiëntcontrole

526

195

2,44 (1,30 – 3,60)

6

Japan

patiëntcontrole

705

260

2,10 (1,30 – 3,60)

7

Japan

patiëntcontrole

94

47

14,00 (1,92 – 102,20)

8

Japan

cohort

824

42

1,10 (0,53 – 2,26)

9

Japan

cohort

1615

38

1,24 (0,60 – 2,55)

10

Denemarken

cohort

4943

591

1,28 (0,91 – 1,79)

11

Engeland

cohort

6014

369

1,61 (1,16 – 2,23)

* Gecorrigeerd voor leeftijd, geslacht en in enkele onderzoeken voor sociaaleconomische status. BI: betrouwbaarheidsinterval. Bron: Virtanen et al. Am J Epidemiol 2012;176(7):586–96.

het relatieve risico en zijn ze uitwisselbaar. De associatie wordt in originele publicaties meestal weergegeven in de vorm van een (gecorrigeerde) effectschatting met bijbehorend 95%-betrouwbaarheidsinterval. In . tabel 5.4 worden de resultaten gepresenteerd van elf onderzoeken naar de associatie tussen het maken van veel overuren en de kans op hart- en vaatziekten. De resultaten lopen sterk uiteen; hoewel alle onderzoekresultaten wijzen op een associatie tussen overwerk en de kans op hart- en vaatziekten, varieert het relatieve risico tussen 1,1 tot 14,0 en zijn de associaties niet in alle onderzoeken statistisch significant. Er is hier duidelijk sprake van methodologische heterogeniteit, aangezien er zowel patiënt controleonderzoeken als cohortonderzoeken in deze review zijn geïncludeerd. Tevens kan er sprake zijn van verschillen tussen onderzoeken in de wijze waarop blootstelling aan de determinant is gedefinieerd. Zo kan bij het vaststellen van het aantal werkuren in het ene onderzoek overwerk (ongeacht het aantal uren) worden vergeleken met normale werktijden, terwijl in een ander onderzoek het absolute aantal werkuren per week wordt meegenomen. Indien men in een meta-analyse onderzoeken wil opnemen die blootstelling op verschillende manieren hebben geoperationaliseerd, moeten de blootstellingscategorieën eerst vergelijkbaar worden gemaakt. Deze procedure dient in een systematische review van observationeel onderzoek duidelijk te zijn beschreven. zz Exploreren van bronnen van heterogeniteit

Zoals hierboven aangegeven is er bij observationeel onderzoek vaak sprake van grote verschillen in onderzoekresultaten (heterogeniteit). Deze variatie kan door toeval worden verklaard, maar meestal zijn er belangrijke klinische of methodologische verschillen tussen onderzoeken. De reviewers dienen in dit geval terughoudend te zijn bij het uitvoeren van een meta-analyse. In het verleden is forse kritiek geuit op meta-analyses van observationeel onderzoek. Hoewel

5

142

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

in meta-analyses soms een zeer precieze schatting van een effect werd gerapporteerd, bleek het verband vaak zwak en was de kans op vertekening groot. Dit heeft in sommige publicaties geleid tot onjuiste conclusies over risicofactoren van ziekten of bijwerkingen van bepaalde interventies. Zo werd op basis van een meta-analyse van observationeel onderzoek de associatie tussen chloor in drinkwater en de kans op diverse vormen van kanker fors overschat, doordat verschillen in de wijze waarop de effectschattingen waren gepresenteerd niet werden herkend door de reviewers. Door middel van subgroepanalyses of metaregressieanalyse kan de invloed van verschillen tussen onderzoeken op de effectschatting worden bestudeerd. Deze methodes worden hierna kort beschreven.

5

Subgroepanalyse De mogelijke invloed van bronnen van heterogeniteit kan worden onderzocht met behulp van subgroepanalyses. Deze analyses dienen in een systematische review bij voorkeur te zijn gebaseerd op een vooraf gedefinieerd analyseplan. In de systematische review naar de associatie tussen overwerk en hart- en vaatziekten lieten subgroepanalyses bijvoorbeeld zien dat de patiëntcontroleonderzoeken een sterkere associatie gaven dan de cohortonderzoeken (gepoold relatief risico 2,43 versus 1,39). Dit wijst vermoedelijk op een overschatting van de associatie op basis van de patiëntcontroleonderzoeken als gevolg van selectiebias (inadequate selectie van controlepersonen) of informatiebias (gebrekkige blindering). Andere belangrijke bronnen van heterogeniteit in deze systematische review bleken de definitie van overwerk, de wijze waarop in de originele onderzoeken voor confounding was gecorrigeerd, het percentage mannen in de onderzoekspopulatie en het land waarin het onderzoek was uitgevoerd. Metaregressieanalyse In een metaregressieanalyse kan de invloed van meerdere onderzoek-

kenmerken tegelijk op de gecombineerde effectschatting worden bestudeerd. De individuele onderzoeken zijn de eenheid van analyse, zoals patiënten dat zijn in een gewone regressieanalyse. De onderzoekkenmerken zijn de onafhankelijke variabelen in het model en de effectschattingen van de individuele onderzoeken de afhankelijke variabelen. Voor een voorbeeld kijken we opnieuw naar de resultaten van het onderzoek naar de associatie tussen overwerk en hart- en vaatziekten (zie . tabel 5.4). Door middel van metaregressieanalyse kan net als bij een subgroepanalyse de invloed van onderzoektype op de effectschatting worden bestudeerd. De verschillende stappen bij het interpreteren van een metaregressieanalyse staan beschreven in het kader. Metaregressieanalyse De berekeningen voor een metaregressieanalyse moeten worden uitgevoerd op afhankelijke variabelen die bij benadering normaal zijn verdeeld. Daarom wordt voor elk onderzoek de logaritme van het relatieve risico (ln(RR)) genomen (of de logaritme van de oddsratio (ln(OR)). Een metaregressiemodel waarin de invloed van onderzoektype op de associatie tussen overwerk en hart- en vaatziekten wordt bestudeerd ziet er als volgt uit: Geschatte ln(RR) = a + b * onderzoektype. De codering van onderzoektype is: 0 = cohortonderzoek, 1 = patiëntcontroleonderzoek. De computer geeft: a = 0,3293 en b = 0,5586, dus: geschatte ln(RR) = 0,3293 + 0,5586 * onderzoektype. De gepoolde ln(RR) voor cohortonderzoeken (onderzoektype = 0) is: 0,3293 + (0,5586 * 0) = 0,3293. Het gepoolde relatieve risico voor cohortonderzoeken is dan: exp[0,3293] = 1,39. De gepoolde ln(RR) voor patiëntcontroleonderzoeken is: 0,3293 + (0,5586 * 1) = 0,8879. Het gepoolde RR voor patiëntcontroleonderzoeken is dan: exp[0,8879] = 2,43.

143

5.4 • Systematische reviews van observationeel onderzoek

3 2,5

ln (OR)

2 1,5 1 0,5 0 1955

1960

1965

1970

1975

1980

1985

1990

1995

jaar van onderzoek . Figuur 5.8 Resultaten van 21 patiëntcontroleonderzoeken naar de associatie tussen slaaphouding en wiegendood (buikligging versus rug- of zijligging). De grootte van het symbool weerspiegelt de precisie van de effectschatting. Bron: Dwyer, et al. J Clin Epidemiol 2001;54:440–7.

De resultaten van de metaregressieanalyse laten zien dat het gepoolde relatieve risico voor cohortonderzoeken lager is dan dat voor patiëntcontroleonderzoeken (1,39 versus 2,43). Het onderzoektype blijkt de associatie tussen overwerk en hart- en vaatziekten te modificeren en is dus een bron van heterogeniteit in deze systematische review. Dit verschil hadden we ook al hiervoor met de subgroepanalyse gevonden. In een metaregressieanalyse kunnen echter meerdere onderzoekkenmerken tegelijk worden meegenomen. Een dergelijke analyse kan daardoor meer inzicht geven in de sterkte van een associatie in relevante subgroepen van patiënten. Een knelpunt van metaregressie is echter dat het aantal kenmerken dat tegelijkertijd kan worden geanalyseerd afhankelijk is van het aantal onderzoeken dat beschikbaar is. Meestal kan hierdoor slechts een beperkt aantal kenmerken worden bestudeerd. . Figuur 5.8 geeft een grafische weergave van de resultaten van een andere metaregressieanalyse. Bij onderzoek naar wiegendood blijkt dat de sterkte van de gerapporteerde associatie, hier weergegeven als ln(OR), ofwel de natuurlijke logaritme van de oddsratio, wordt beïnvloed door het jaar waarin het onderzoek is uitgevoerd. Voor dit fenomeen kunnen diverse verklaringen worden geformuleerd. Wellicht nam in de loop van de tijd de methodologische kwaliteit van de onderzoeken toe, met name wat betreft het selecteren van controlepersonen of het meten van expositie. Subgroepanalyses lieten al zien dat kwalitatief goede onderzoeken een sterkere effectschatting rapporteerden. Er kan echter ook sprake zijn van publicatiebias in de laatste tien tot vijftien jaar van onderzoek. De aandacht voor een mogelijk verband tussen buikligging en wiegendood nam in de jaren tachtig van de vorige eeuw sterk toe. Het is mogelijk dat in latere jaren kleinere onderzoeken en onderzoeken met een lage effectschatting minder snel werden gepubliceerd.

5

144

Hoofdstuk 5 • Kritisch beoordelen van een artikel: secundair onderzoek

zz Kwalitatieve samenvatting van resultaten

5

In systematische reviews van observationeel onderzoek zal statistische pooling van onderzoekresultaten vaak niet mogelijk zijn, doordat sprake is van aanzienlijke, onverklaarde heterogeniteit of doordat de benodigde gegevens niet beschikbaar zijn. Vaak wordt in deze reviews gekozen voor een kwalitatieve samenvatting van de resultaten. Het is belangrijk dat een dergelijke kwalitatieve analyse op systematische, transparante wijze wordt uitgevoerd. Diverse factoren kunnen in deze synthese worden meegewogen, waaronder de methodologische kwaliteit van de primaire onderzoeken. Bij systematische reviews van etiologisch onderzoek of onderzoek naar bijwerkingen is het belangrijk om de causale relatie tussen risicofactor en ziekte of tussen behandeling en bijwerking zo goed mogelijk te onderbouwen. De criteria voor causaliteit van Hill (zie ook 7 par. 4.5) kunnen hierbij behulpzaam zijn en worden in reviews van observationeel onderzoek vaak gebruikt om de resultaten zo goed mogelijk samen te vatten. In een systematische review van onderzoek naar arbeidsgerelateerde risicofactoren voor schouderpijn werd bijvoorbeeld meer waarde gehecht aan de resultaten van prospectief cohortonderzoek dan aan patiëntcontrole- of cross-sectioneel onderzoek. Cohortonderzoek geeft immers meer informatie over het temporele verband tussen risicofactor en uitkomst. Tevens werd de plausibiliteit van de gerapporteerde associaties, de consistentie van resultaten, de sterkte van de associatie en de aanwezigheid van een dosis-responsrelatie in de kwalitatieve analyse meegewogen. In systematische reviews van prognostisch onderzoek kan het combineren van onderzoekresultaten lastig zijn wanneer de prognostische waarde van meerdere factoren wordt bestudeerd. Vaak is prognostisch onderzoek gericht op de vraag welke combinatie van factoren het beste het beloop van een ziekte kan voorspellen (zie ook 7 par. 4.3). Hiervoor is het niet noodzakelijk dat de prognostische factor een direct oorzakelijk verband heeft met de uitkomst. Confounding is in dit type onderzoek een minder belangrijk probleem, maar het is wel van belang dat alle mogelijke prognostische factoren in de analyse zijn meegenomen. De resultaten worden meestal gepresenteerd in de vorm van een prognostisch (multivariabel) model waarin de waarde van diverse prognostische factoren tegelijk wordt geanalyseerd. De methode voor het uitvoeren van een meta-analyse van verschillende prognostische modellen is nog in ontwikkeling. In een dergelijke review van prognostisch onderzoek wordt er meestal voor gekozen om voor alle mogelijke prognostische factoren de univariate associatie met de uitkomst te presenteren en te volstaan met een kwalitatieve samenvatting van de resultaten. 5.4.4 Conclusie

Een systematische review van observationeel onderzoek verschaft op een transparante en reproduceerbare manier inzicht in een grote hoeveelheid informatie betreffende de etiologie of prognose van een ziekte of de mogelijke bijwerkingen van een interventie. Het is bij een klinische vraagstelling van belang om systematische reviews te selecteren die bij de vraagstelling aansluiten en van een zo hoog mogelijke methodologische kwaliteit zijn. Observationeel onderzoek is gevoelig voor vertekening en wordt gekenmerkt door aanzienlijke methodologische en klinische heterogeniteit. In systematische reviews van observationeel onderzoek moet hiermee rekening zijn gehouden. Het is verstandig de resultaten van een metaanalyse met voorzichtigheid te beschouwen.

Literatuur

145

Literatuur Chou R, Helfand M. Challenges in systematic reviews that assess treatment harms. Ann Intern Med 2005;142:1090–9. Pan A, Sun Q, Okereke OI, Rexrode KM, Hu FB. Depression and risk of stroke morbidity and mortality: a metaanalysis and systematic review. JAMA 2011;306:1241–9. Sanderson S, Tatt ID, Higgins JPT. Tools for assessing quality and susceptibility for bias in observational studies in epidemiology: a systematic review and annotated bibliography. Int J Epidemiol 2007;36:666–76. Stroup DF, Berlin JA, Morton SC, Olkin I, Williamson GD, Rennie D, Moher D, Becker BJ, Sipe TA, Thacker SB. Metaanalysis of observational studies in epidemiology: a proposal for reporting. Meta-analysis Of Observational Studies in Epidemiology (MOOSE) group. JAMA 2000;283:2008–12. Thompson SG, Higgins JPT. How should meta-regression analyses be undertaken and interpreted? Stat Med 2002;21:1559–73. Virtanen M, Heikkilä K, Jokela M, Ferrie JE, Batty GD, Vahtera J, Kivimäki M. Long working hours and coronary heart disease: a systematic review and meta-analysis. Am J Epidemiol. 2012;176:586–96.

5

147

Evidence-based richtlijnen J.S. Burgers, W.J.J. Assendelft en J.J.E. van Everdingen

6.1 Inleiding – 148 6.2 Beoordelen van een richtlijn – 149 6.2.1 Kwaliteit van de richtlijn – 149 6.2.2 Validiteit van de aanbevelingen – 153 6.2.3 Toepasbaarheid in de eigen context – 159

6.3 Zoeken naar richtlijnen, zelf maken of implementeren – 160 6.4 Conclusie – 160 Literatuur – 160

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_6, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

6

148

Hoofdstuk 6 • Evidence-based richtlijnen

6.1 Inleiding

6

Richtlijnen hebben een belangrijke functie in de vertaalslag van onderzoekresultaten en nieuwe inzichten naar de klinische praktijk. Zij bevatten aanbevelingen ter ondersteuning van de besluitvorming in de zorg en dragen bij aan het verbeteren van de kwaliteit van zorg. Richtlijnen zijn gebaseerd op samenvattingen van wetenschappelijk onderzoek en afwegingen van de voor- en nadelen van de verschillende zorgopties, aangevuld met expertise en ervaringen van zorgprofessionals en zorggebruikers. De laatste jaren hebben richtlijnen een prominente plaats gekregen in het totale kwaliteitsbeleid en worden ze in toenemende mate gebruikt in het kader van gezamenlijke behandelbeslissingen (shared decision making), zorgcontractering, toezicht en handhaving. Vanaf het begin van de jaren tachtig van de vorige eeuw worden in Nederland al richtlijnen ontwikkeld. In de loop van de jaren negentig werd de literatuur in voor iedereen toegankelijke databases opgeslagen en kwamen er steeds meer systematische reviews. Er kon dan ook veel meer dan vroeger met recht worden gesproken van ‘evidence-based’ richtlijnen. Daarbij ging het oude principe om de richtlijn niet alleen te baseren op het beste beschikbare wetenschappelijke bewijs, maar ook op klinische expertise en patiëntvoorkeuren (zoals ook gepropageerd door de ‘evidence-based medicine’-werkwijze) niet verloren. De methode van evidence-based richtlijnontwikkeling is nu al lange tijd de nationale en internationale standaard. Naast de wetenschappelijke onderbouwing is het bij deze methode van belang dat tijdens de ontwikkeling rekening wordt gehouden met de toekomstige implementatie (zie . figuur 6.1). Om de kloof tussen theorie en praktijk te overbruggen, moeten richtlijnen goed uitvoerbaar zijn. Richtlijnen zijn onafhankelijke informatiebronnen, ontwikkeld door organisaties die geloofwaardig en betrouwbaar zijn en geen bindingen hebben met partijen die mogelijk belang hebben bij de uitkomsten. Richtlijnen1 moeten worden onderscheiden van zorgstandaarden en protocollen. Zorgstandaarden geven vanuit het patiëntenperspectief een functionele beschrijving van de zorg, met aandacht voor preventie, zelfmanagement en de organisatie van zorg. Zij richten zich vooral op chronische ziekte, met extra nadruk op multidisciplinaire samenwerking (‘ketenzorg’). Zorgstandaarden zijn, net als richtlijnen, zo veel mogelijk gebaseerd op wetenschappelijk onderbouwde inzichten en voorzien van prestatie-indicatoren. Een belangrijk verschil is dat richtlijnen zich richten op ervaren knelpunten in de zorg en dat zorgstandaarden het hele continuüm van zorg beschrijven. Een protocol kan worden beschouwd als een nadere specificatie van een richtlijn, waarin precies wordt aangegeven hoe er moet worden gehandeld en welke stappen moeten worden gevolgd bij een specifiek klinisch probleem. Deze worden vaak afgeleid van landelijke richtlijnen en lokaal (in een ziekenhuis of regio) opgesteld. Terwijl een richtlijn enige ruimte overlaat voor interpretatie en aanpassing aan de specifieke omstandigheden, heeft een protocol een meer dwingend karakter doordat het formuleringen bevat waaraan men zich dient te houden. Richtlijnen zijn niet meer weg te denken uit de dagelijkse praktijk. Vrijwel elke beroepsgroep beschikt over richtlijnen, ontwikkeld binnen de eigen kring (monodisciplinair) of samen met andere disciplines (multidisciplinair). Ook worden behandelaars steeds vaker geconfronteerd met richtlijnen die (internationaal of nationaal) door anderen zijn gemaakt en gepubliceerd. Indien de beroepsgroep over een bepaald onderwerp zelf geen richtlijn heeft, kan worden bezien of een richtlijn van elders in de eigen situatie bruikbaar is (zie ook 7 H. 3). Ook is het in overleg met andere disciplines belangrijk te kunnen beoordelen of de richtlijnen van de gesprekspartner valide en toepasbaar zijn. Dit kan het maken van onderlinge afspraken 1

Het Nederlands Huisartsen Genootschap noemt zijn richtlijnen (enigszins verwarrend) ‘standaarden’.

149

6.2 • Beoordelen van een richtlijn

evidence-based richtlijnontwikkeling literatuursearch opstellen zoekcriteria

opstellen selectiecriteria literatuurselectie

opstellen uitgangsvragen

kritisch beoordelen geselecteerde literatuur

knelpuntenanalyse

samenvatten literatuur in evidencetabellen

implementatie publicatie en disseminatie

schrijven conceptteksten

vaststellen richtlijn en autorisatie

discussie conceptteksten

aanscherpen richtlijntekst commentaarronde vaststellen conceptrichtlijn

aanpassen conceptteksten ontwikkeling indicatoren

. Figuur 6.1 Cyclus van evidence-based richtlijnontwikkeling.

sterk vereenvoudigen. Iedere arts zal dus als gebruiker en mogelijk ook als betrokkene bij een richtlijncommissie met deze vorm van evidencesynthese worden geconfronteerd. 6.2 Beoordelen van een richtlijn

Een richtlijn bestaat uit een set van aanbevelingen over een specifiek probleem in de zorg. Bij de beoordeling van een richtlijn moet onderscheid worden gemaakt tussen: 55 de kwaliteit van de richtlijn als geheel, in het bijzonder de methode en de verslaglegging daarvan; 55 de validiteit van de aanbevelingen. Een goede richtlijn wordt gekenmerkt door een zorgvuldig en adequaat doorlopen ontwikkelproces en inhoudelijk goede aanbevelingen die bij toepassing in de praktijk leiden tot optimale zorg. 6.2.1 Kwaliteit van de richtlijn

Voor het beoordelen van de kwaliteit van de richtlijn staat het AGREE II- (Appraisal Instrument for Guidelines, Research and Evaluation) Instrument ter beschikking. Het AGREE II-instrument bevat 23 items onderverdeeld in zes domeinen (zie kader). Elk domein beslaat een aparte dimensie van kwaliteit van richtlijnen. Het is verleidelijk om alle scores per item op te tellen en het gemiddelde uit te rekenen. Het gebruik van een dergelijke geaggregeerde score voor de kwaliteit van een richtlijn wordt echter ontraden. Een meer genuanceerd en bruikbaar oordeel wordt verkregen door per domein na te gaan wat de sterke en zwakke kanten van de richtlijn zijn.

6

150

Hoofdstuk 6 • Evidence-based richtlijnen

AGREE II-instrument De items worden beoordeeld met behulp van een 7-puntsschaal (van 1 – zeer oneens – tot 7 – zeer eens). Het is beschikbaar op extras.bsl.nl/inleidingebm. Onderwerp en doel 1. Het doel van de richtlijn is specifiek beschreven. 2. De vraag/vragen die in de richtlijn aan de orde komt/komen, is/zijn specifiek beschreven. 3. De populatie (patiënten/algemene bevolking) waarop de richtlijn van toepassing is, is specifiek beschreven.

6

Betrokkenheid van belanghebbenden 4. De leden van de werkgroep die de richtlijn heeft ontwikkeld, komen uit alle relevante beroepsgroepen. 5. Het perspectief en de voorkeuren van de doelpopulatie (patiënten/algemene bevolking) zijn nagegaan. 6. De beoogde gebruikers van de richtlijn zijn duidelijk benoemd. Methodologie 7. Er zijn systematische methodes gebruikt voor het zoeken naar wetenschappelijk bewijsmateriaal. 8. De criteria voor het selecteren van het wetenschappelijk bewijsmateriaal zijn duidelijk beschreven. 9. De sterke punten en beperkingen van het wetenschappelijk bewijsmateriaal zijn beschreven. 10. De gebruikte methodes om de aanbevelingen op te stellen, zijn duidelijk beschreven. 11. Gezondheidswinst, bijwerkingen en risico’s zijn overwogen bij het opstellen van de aanbevelingen. 12. Er bestaat een expliciet verband tussen de aanbevelingen en het onderliggende bewijsmateriaal. 13. De richtlijn is voor publicatie door externe experts beoordeeld. 14. Een procedure voor herziening van de richtlijn is vermeld. Helderheid en presentatie 15. De aanbevelingen zijn specifiek en ondubbelzinnig. 16. De verschillende beleidsopties zijn duidelijk vermeld. 17. De kernaanbevelingen zijn gemakkelijk te herkennen. Toepassing 18. De richtlijn beschrijft de bevorderende en belemmerende factoren bij het toepassen van de richtlijn. 19. De richtlijn geeft advies en/of hulpmiddelen voor toepassing van de aanbevelingen in de praktijk. 20. De mogelijke implicaties van het toepassen van de aanbevelingen voor de kosten en benodigde middelen zijn overwogen. 21. De richtlijn geeft criteria om te toetsen of de richtlijn wordt gevolgd. Onafhankelijkheid van de opstellers 22. De opvattingen van de financierende instantie hebben de inhoud van de richtlijn niet beïnvloed. 23. Conflicterende belangen van leden van de richtlijnwerkgroep zijn vastgelegd en besproken.

6.2 • Beoordelen van een richtlijn

151

Hierna wordt de inhoud per domein toegelicht en wordt vermeld aan welke eisen die onderdelen moeten voldoen om tot een maximale score te komen. zz Onderwerp en doel

In een goede richtlijn zijn het doel van de richtlijn en de mogelijke gevolgen van de richtlijn voor patiëntenpopulaties en de samenleving in detail beschreven. De te verwachten gezondheidswinst van de richtlijn is specifiek voor het klinische probleem. Een richtlijn gaat bij uitstek in op ervaren problemen en knelpunten in de praktijk. Deze worden vertaald naar uitgangsvragen, waarop de richtlijn een antwoord probeert te geven; bijvoorbeeld wat is de beste behandeling voor recidiverende keelamandelontsteking? Deze vragen zijn specifiek beschreven in de richtlijn en zijn vertaald in zoekvragen met behulp van het PICO-systeem (zie 7 H. 2). Ook kan de richtlijn de kosten in de uitkomst betrekken, bijvoorbeeld in de vorm van een kosteneffectiviteitsanalyse van de belangrijkste behandelopties. Een voorbeeld van een specifieke uitgangsvraag is: ‘Reduceert screening van de algemene bevolking door middel van de faeces occultbloedtest de sterfte aan colorectaal carcinoom?’ zz Betrokkenheid van belanghebbenden

Dit domein richt zich op de mate waarin de richtlijn is toegespitst op de beoogde gebruikers. Bij de ontwikkeling van de richtlijn zijn idealiter alle belanghebbenden betrokken. In de richtlijn staat informatie over de samenstelling, discipline en relevante deskundigheid van de werkgroepleden. Voor een hoge score in dit domein is het van belang de ervaringen van patiënten en hun verwachtingen van de zorg na te gaan. Hiervoor kunnen diverse methodes worden gebruikt, bijvoorbeeld door vertegenwoordigers van patiënten in de werkgroep op te nemen, door interviews of focusgroepen met patiënten of door literatuuronderzoek naar patiëntenervaringen. Ook de beoogde gebruikers van de richtlijn – de doelgroep – moeten in de richtlijn duidelijk zijn benoemd, zodat zij kunnen vaststellen of de richtlijn voor hen relevant is. De beoogde gebruikers van bijvoorbeeld een richtlijn over lage rugpijn kunnen huisartsen, neurologen, orthopedisch chirurgen, radiologen, oefentherapeuten, reumatologen en fysiotherapeuten zijn. zz Methodologie

Een betrouwbare evidence-based richtlijn staat of valt bij de methode waarmee het bewijsmateriaal is verzameld en samengesteld en hoe dit is vertaald naar aanbevelingen voor de praktijk. De strategie waarmee de literatuur is verzameld en geselecteerd, is dan in detail beschreven, inclusief zoektermen, geraadpleegde bronnen en de periode waarover artikelen zijn verzameld. Mogelijke bronnen zijn elektronische databases (bijv. MEDLINE, EMBASE, Cinahl), databases van systematische reviews (bijv. Cochrane Library, DARE), handmatig gescreende tijdschriften, congresverslagen en andere richtlijnen (bijv. US National Guideline Clearinghouse, Guidelines International Network) (zie ook 7 H. 3). De sterke punten en beperkingen van het wetenschappelijk bewijs dienen te worden samengevat en toegelicht, eventueel met gebruikmaking van evidencetabellen en een graderingsysteem (zie 7 par. 6.2). In het ideale geval bestaat de richtlijn uit een serie (geactualiseerde) systematische reviews (zie 7 H. 5). Is geen systematische review voorhanden, dan zijn de methodes van samenvatten duidelijk beschreven. De methodes die zijn gebruikt bij het opstellen van de aanbevelingen zijn beschreven, evenals de wijze waarop men tot de uiteindelijke conclusies is gekomen. Voorbeelden van dergelijke methodes zijn een stemmingssysteem of formele consensustechnieken (bijv. Delphi- of Glaser-technieken). In een goede richtlijn zijn de punten aangegeven waarover men van mening verschilde en hoe deze werden opgelost. Bij het opstellen van de aanbevelingen zijn de voor- en nadelen van de

6

152

6

Hoofdstuk 6 • Evidence-based richtlijnen

diverse beleidsopties afgewogen, met bijvoorbeeld ook aandacht voor eventuele bijwerkingen en de korte- en langetermijnrisico’s van de aanbevelingen. Essentieel is dat er in de tekst van de richtlijn een expliciete onderbouwing is van de individuele aanbevelingen. Deze kan bestaan uit een bespreking van literatuur, maar ook uit argumentaties van de werkgroep. Bij elke aanbeveling is een referentielijst vermeld of wordt expliciet aangegeven dat er geen relevante literatuur is gevonden. Voorts is de richtlijn ook extern beoordeeld voordat zij is gepubliceerd, net als bij wetenschappelijke artikelen in peer reviewed tijdschriften. De referenten mogen niet betrokken zijn geweest bij de richtlijnwerkgroep en onder hen zijn zowel klinische experts op het gebied van de richtlijn als enkele methodologische experts. Ook vertegenwoordigers van patiënten kunnen als referent optreden. Soms wordt een conceptrichtlijn enige tijd voor commentaar op een website gezet. Vanwege de continue stroom aan nieuwe literatuur – potentieel nieuw bewijsmateriaal die invloed kan hebben op de aanbevelingen in de richtlijn – bevat de richtlijn ook informatie over de geldigheidsduur en een procedure voor herziening van de richtlijn. zz Helderheid en presentatie

Aangezien richtlijnen vooral werkers in de gezondheidszorg en patiënten helpen bij het nemen van beslissingen in de praktijk, is het noodzakelijk dat zij eenvoudig te begrijpen, patiëntgericht en gebruikersvriendelijk zijn. Een goede richtlijn bevat specifieke, eenduidige aanbevelingen en geeft heldere informatie over de keuzemogelijkheden en de mogelijke consequenties van de beleidsopties. Als er twijfel bestaat over het beste beleid, dan is deze twijfel expliciet in de richtlijn vermeld. Een aanbeveling in een richtlijn die het beleid bij ernstige depressie beschrijft, kan bijvoorbeeld de volgende behandelingsalternatieven bevatten: a) psychotherapie; b) medicamenteuze therapie; c) combinatie van a en b. Psychotherapie heeft als eerstekeuzetherapie ongeveer gelijke effectiviteit als antidepressiva. Antidepressiva hebben bijwerkingen. Sommige patiënten hebben weerstand tegen psychotherapie en vinden dit ook te tijdrovend. In een gesprek kunnen deze aspecten dan tegen elkaar worden afgewogen. Een goede richtlijn is in een aantrekkelijk format gepresenteerd, wat het gebruik in de praktijk bevordert. De relevantste aanbevelingen zijn gemakkelijk te vinden, door ze bijvoorbeeld samen te vatten in een kader of door ze te presenteren als stroomdiagrammen of algoritmen. zz Toepassing

In dit domein gaat het om de effecten van de toepassing van de richtlijn in de praktijk en de mogelijk praktische en financiële barrières die hierbij moeten worden geslecht. Richtlijnen die praktisch niet uitvoerbaar of haalbaar zijn, zijn zinloos en verspilde moeite. Daarom wordt reeds bij de ontwikkeling van de richtlijnen nagegaan of de aanbevelingen passen binnen de huidige organisatie van de zorg en in de routines van de praktijk en de tijdsdruk van het werk. Organisatorische veranderingen die nodig zijn om de aanbevelingen toe te passen zijn in de richtlijn besproken. Een richtlijn over beroerte kan bijvoorbeeld adviseren dat de zorg wordt gecoördineerd in speciale stroke-units. Naast een samenvatting kunnen andere hulpmiddelen worden ingezet om de toepassing in de praktijk te bevorderen, zoals patiëntenfolders, computerondersteuning en nascholingsmateriaal. De toepassing van de aanbevelingen kan aanvullende middelen vereisen, bijvoorbeeld meer gespecialiseerd personeel, nieuwe apparatuur of

6.2 • Beoordelen van een richtlijn

153

behandeling met een duur geneesmiddel, wat consequenties kan hebben voor het gezondheidszorgbudget. In de richtlijn dienen deze kostenimplicaties te zijn besproken. Om het effect van de richtlijn in de praktijk na te gaan, bevat een goede richtlijn een lijst met toetscriteria of indicatoren. Deze zijn afgeleid van de belangrijkste aanbevelingen uit de richtlijn en betreffen een meetbaar kenmerk met een signaalfunctie voor (een aspect van) de kwaliteit van patiëntenzorg. Deze criteria kunnen procesindicatoren en uitkomstindicatoren omvatten. Een procesindicator geeft weer in hoeverre volgens de richtlijn is gewerkt. Een voorbeeld is het percentage patiënten met diabetes mellitus, zonder risicofactoren voor retinopathie, dat elke twee jaar een oogheelkundige controle ondergaat, gerelateerd aan een tevoren gestelde norm (men zou kunnen streven naar 100%: iedere patiënt). Een uitkomstindicator geeft weer of die zorg ook tot daadwerkelijke resultaten heeft geleid, zoals een vermindering van het percentage diabetespatiënten dat blind is geworden door retinopathie (de norm zou kunnen zijn: 30% minder dan in de voorafgaande periode). Zo maken indicatoren het de zorgverleners mogelijk om te controleren of zij de gewenste zorg leveren en om onderwerpen voor verbeteringen te identificeren. In toenemende mate worden indicatoren ook gebruikt voor het afleggen van verantwoording naar externe partijen en voor eventuele prestatiebeloning. zz Onafhankelijkheid van de opstellers

Een toenemend aantal richtlijnen wordt gefinancierd, direct of indirect, uit externe bronnen. Een goede richtlijn meldt deze bronnen en geeft expliciet aan dat de opvattingen en belangen van de financierende instantie geen invloed hebben gehad op de uiteindelijke aanbevelingen. Ook werkgroepleden kunnen bepaalde belangen hebben bij de richtlijn, bijvoorbeeld als een werkgroeplid op het gebied van het onderwerp van de richtlijn onderzoek doet dat wordt gesponsord door een farmaceutisch bedrijf. De conflicterende belangen van de werkgroepleden dienen bij aanvang van het proces bekend te zijn en worden in de richtlijn vermeld, net als bij publicaties in de meeste medisch-wetenschappelijke tijdschriften. 6.2.2 Validiteit van de aanbevelingen

Nadat de richtlijn als geheel is beoordeeld, wordt vervolgens naar de inhoud en betrouwbaarheid van de individuele aanbevelingen gekeken. Ook al is een richtlijn in grote lijnen zorgvuldig ontwikkeld, toch kan het zijn dat sommige aanbevelingen aanvechtbaar zijn, bijvoorbeeld omdat er belangrijke studies zijn gemist, de evidence eenzijdig of verkeerd wordt geïnterpreteerd, of dat er bij de vertaalslag naar de praktijk bepaalde aspecten zijn onderbelicht, zoals veiligheid en patiëntvoorkeuren. Een richtlijn bevat meestal gemiddeld dertig tot veertig aanbevelingen, met uitschieters naar boven van meer dan honderd. In feite is elke aanbeveling het resultaat van een samenvattend (systematisch) literatuuronderzoek, dat op dezelfde wijze zou kunnen worden beoordeeld als een systematische review (zie 7 H. 5). Daarnaast moet van elke aanbeveling de toepasbaarheid in de eigen klinische situatie worden nagegaan. Voor de beoordeling is zowel methodologische als klinische expertise vereist. zz Validiteit van het samenvatten van het beschikbare bewijs

Het samenvatten van het beschikbare bewijs vereist een zorgvuldige en uitgebreide procedure en speciale expertise (zie . figuur 6.2). Dit is arbeidintensief en duur. Bij het samenvatten wordt rekening gehouden met de verschillende dimensies van bewijs: het onderzoektype, de kwaliteit van de afzonderlijke onderzoeken, de consistentie van de resultaten (indien meer onderzoeken

6

154

Hoofdstuk 6 • Evidence-based richtlijnen

onderwerp en uitgangsvragen afbakenen van het onderwerp knelpuntenanalyse formuleren van uitgangsvragen opstellen van beantwoordbare zoekvragen

6

literatuursearch in databases: 1. Cochrane Library 2. MEDLINE/PubMed 3. EMBASE 4. Cinahl 5. PsychInfo 6. richtlijndatabases (US National Guidelines Clearinghouse, Guidelines International Network)

volgorde van zoeken (voorbeeld therapie): 1. evidence-based richtlijnen 2. systematische reviews 3. gerandomiseerde klinische trials 4. gecontroleerde klinische trials 5. cohortonderzoeken 6. patiëntcontroleonderzoeken 7. overig

selecteren en beoordelen van literatuur: selectie van literatuur met vooraf gedefineerde in- en exclusiecriteria beoordeling van geselecteerde literatuur, aan de hand van een adequaat literatuurbeoordelingsformulier graderen van literatuur naar mate van bewijs (tabel 6.1 en 6.2)

samenvatten van literatuur: in vaste tekstopbouw: 1. bespreking literatuur 2. conclusie met niveau van bewijs 3. overige overwegingen 4. aanbeveling met verwijzing naar evidence-tabel . Figuur 6.2 Zoeken, beoordelen, selecteren en samenvatten van literatuur ten behoeve van een richtlijn.

beschikbaar zijn), de generaliseerbaarheid (‘directheid’), de precisie waarmee een effect is vastgesteld, de grootte van het effect en de klinische relevantie van de gehanteerde uitkomstmaten. De validiteit van het onderzoektype is hierbij het eerste ordeningsprincipe. De wens om het bestaande materiaal samen te vatten wordt bij het maken van een richtlijn minder gestuurd door de kwaliteit van het bewijs dan bij systematische reviews. Systematische reviews worden vaak alleen geschreven als er voldoende primaire onderzoeken van hoge validiteit beschikbaar

155

6.2 • Beoordelen van een richtlijn

. Tabel 6.1 Niveaus van bewijs voor interventiestudies volgens het GRADE-systeem onderzoeksdesign

aanvankelijk bewijsniveau

lager bewijsniveau indien*

hoger bewijsniveau indien*

uiteindelijk bewijsniveau

gerandomiseerd onderzoek

hoog

kwaliteit van onderzoek: – ernstige beperkingen (–1) – zeer ernstige beperkingen (–2) consistentie van resultaten: – belangrijke inconsistentie (–1) – zeer belangrijke inconsistentie (–2) directheid van bewijsvoering: – enige onzekerheid (–1) – belangrijke onzekerheid (–2) nauwkeurigheid: – onnauwkeurige effectschattingen (–1) – zeer onnauwkeurige effectschattingen (–2) publicatiebias: – waarschijnlijk (–1) – zeer waarschijnlijk (–2)

grootte van effect of associatie: – groot effect (+1) – zeer groot effect (+2) bewijs van dosisresponsrelatie (+1) alle plausibele confounders zouden het effect hebben verminderd (+1)

hoog

observationeel onderzoek

laag

matig

laag

zeer laag

* –1 of +1 = verlaagt of verhoogt het bewijs met één niveau (bijv. van hoog naar matig of van laag naar matig) –2 of +2 = verlaagt of verhoogt het bewijs met twee niveaus (bijv. van hoog naar laag of van laag naar hoog)

zijn; systematische reviews van de Cochrane Collaboration bijvoorbeeld zijn in de regel beperkt tot RCT’s (zie 7 H. 9). De synthese voor een richtlijn is echter bedoeld om het beleid te onderbouwen met het best beschikbare bewijs. Sommige aanbevelingen zullen moeten worden gebaseerd op bewijs met een lagere zeggingskracht dan van een RCT. Een vast systeem waarmee het beschikbare bewijs naar validiteit wordt geordend (levels of evidence), werd voor het eerst toegepast in Canada in 1979. Momenteel wordt een dergelijk systeem overal in de wereld toegepast binnen organisaties voor richtlijnontwikkeling; zo ook in Nederland. Het gangbaarst, nationaal en internationaal, is het GRADE-systeem (zie . tabel 6.1). Het is belangrijk inzicht te hebben in de onderzoektypen en onderdelen die voor de verschillende soorten vragen (diagnostisch, prognostisch, therapeutisch en bijwerkingen) de hoogste bewijskracht hebben. Eerst zal men zoeken naar een actuele systematische review en als die van goede kwaliteit is, hoeft niet verder te worden gezocht (zie 7 H. 5). Allereerst kan dan bij het zoeken en selecteren van literatuur worden gezocht naar onderzoeken met de hoogste bewijskracht (bijv. RCT’s voor een therapievraag of cohortonderzoek voor een vraag over ernstige schade). Daarnaast kan het zinvol zijn methodologische kernelementen te onderscheiden die binnen een bepaald onderzoektype de onderzoeken met de hoogste validiteit

6

156

Hoofdstuk 6 • Evidence-based richtlijnen

vertegenwoordigen. Bij een prognostisch onderzoek (zie ook 7 par. 4.3) is het bijvoorbeeld van belang dat alle patiënten op een gelijk moment in het beloop van de ziekte zijn ingesloten. Dit heet een inceptiecohort. Een belangrijk criterium is de duur van de follow-up en de mate van uitval van patiënten. Vaak wordt hiervoor de ondergrens van 20% genomen. Door op deze kernelementen te letten kan specifiek naar de beste onderzoeken binnen een bepaald onderzoektype worden gezocht (zie 7 H. 3) of kunnen bij de beoordeling snel (dus zonder alle beoordelingscriteria te hoeven doornemen) de betere van de slechtere onderzoeken worden onderscheiden. Indien de klinische vraag een prognostische is en er geen goede systematische review beschikbaar is, zal verder moeten worden gezocht naar individuele onderzoeken met een duidelijk inceptiecohort, voldoende follow-up en niet te veel uitval. Dit is vaak al op basis van de samenvatting van onderzoeken te beoordelen. De validiteit van de gevolgde procedure is afhankelijk van de volgende criteria.

6

kBetrekken k van alle belangrijke opties en uitkomsten

Een richtlijn geeft antwoord op verschillende uitgangsvragen. Bij de uitwerking van elke uitgangsvraag is het belangrijk hierin zowel de interventies waarover de richtlijn gaat te betrekken, als de gangbare alternatieven. Bij een richtlijn over operatieve ingrepen bij overmatig menstrueel bloedverlies zal dus ook het alternatief van medicamenteuze behandeling in ogenschouw moeten worden genomen. Vaak zijn er verschillende uitkomstmaten beschikbaar. Idealiter is een richtlijn gebaseerd op evident klinisch relevante uitkomsten (zoals overleving, fractuurincidentie, wondheling) of op subjectieve patiëntgeoriënteerde uitkomstmaten (zoals dagelijks functioneren of kwaliteit van leven). Het is een probleem wanneer het merendeel van de onderzoeken slechts surrogaatuitkomsten (bijv. cholesterolspiegel, botmineraaldichtheid) rapporteert en niet de ‘harde’ klinische uitkomst (bijv. myocardinfarct, femurfractuur). Dit gebeurt vaak omdat de omvang van het onderzoek te gering is of de duur te kort om klinische eindpunten te kunnen rapporteren. De waarde van een surrogaatuitkomst neemt toe wanneer aan meer van de volgende criteria wordt voldaan: er is een aangetoond sterk en consistent verband met een klinische of patiëntgeoriënteerde uitkomst (bijv. tussen HbA1c en hart- en vaatziekten) en de rol van de surrogaatuitkomst is biologisch en pathofysiologisch plausibel. kAdequate k procedure om het beschikbare bewijs te identificeren, te selecteren en te combineren Zoeken Volgens de principes van evidence-based medicine wordt in de literatuur op systema-

tische wijze gezocht naar een zo hoog mogelijk bewijs en wordt dit transparant weergegeven. Bij richtlijnontwikkeling wordt de hiërarchie van evidence gevolgd. Dus als er bij een therapeutische uitgangsvraag een aantal RCT’s (randomised controlled trials) is gevonden die voldoen aan de criteria, dan hoeft er niet verder te worden gezocht naar onderzoek met een lagere mate van bewijs (bijv. cohortonderzoek). Als er onvoldoende bewijsmateriaal beschikbaar is, gaat men door met zoeken; als er verder niets wordt gevonden (dat komt geregeld voor), dan wordt expliciet aangegeven dat er onvoldoende bewijs is. Voor een richtlijn moet dus zeer uitgebreid in verschillende databases zijn gezocht (zie 7 H. 3). De literatuur en eventuele evidencetabellen kunnen uit een bestaande richtlijn worden overgenomen, mits het literatuuronderzoek goed is uitgevoerd en beschreven in de richtlijn. (‘uit een bestaande richtlijn’ is toegevoegd). Meestal is nog wel een update van de literatuur noodzakelijk (zie . tabel 6.2).

Te (n = 83)

TE (n = 278)

6,6 (SD 6,4) vs 0,6 weken (SD 0,9) 9,2 (SD 11,8) vs 0,6 werkdagen (SD 2,0) aantal weken met antibiotica aantal gemiste werkdagen 12 mnd voor TE en 12 mnd na TE

slechts 45% van de deelnemers (40% vs 49%) ontwikkelde een tonsillitis gedurende de studieperiode

geen

als een patiënt een tonsillitis kreeg werd deze als failure beschouwd en stopte de studie voor deze patiënt

TE-groep: 18 patiënten ‘genezen’, 2 patiënten tevreden over resultaat niet-chirurgische groep: 14 patiënten ‘genezen’, 6 patiënten wilden alsnog chirurgie

83% ten minste 1 tonsillitisepisode in afgelopen 6 mnd

12 mnd

behandeld met placebo (n = 57)

behandeld met azithromycine 500 mg (n = 53)

aantal patiënten dat zelf zegt te zijn genezen van hun klachten

resultaten

aantal tonsillitiden in de afgelopen 6 mnd

18-24 mnd

penicilline V bij tonsillitis (n = 20)

TE (n = 20)

uitkomstmaten

geen

studieduur

controlegroep (aantal patiënten)

interventiegroep (aantal patiënten)

RCT = randomised controlled trial; TE = tonsillectomie; SD = standaarddeviatie

patiënten met 3 of meer tonsillitiden in afgelopen jaar

C

retrospectief d.m.v. mailing

Bhattacharyya 2001 en 2002

patiënten die 12 mnd op de wachtlijst staan voor TE

C

Fox 2006

patiënten van 16 jaar of ouder met ten minste 4 tonsillitisepisoden per jaar, gedurende ten minste 2 jaar

retrospectief via vragenlijst

RCT

Lildholdt 2003

B

populatiekenmerken (indicatie, gemiddelde leeftijd, geslacht, aantal patiënten, exclusiecriteria)

patiënten met 3 of meer tonsillitisepisoden in elk van de afgelopen 2 jaar

RCT

Stafford 1986

mate van bewijs

B

type onderzoek

auteur, jaartal

. Tabel 6.2 Voorbeeld evidencetabel (niet volledig) van interventieonderzoek: effectiviteit van (adeno)tonsillectomie bij volwassenen

6.2 • Beoordelen van een richtlijn

157

6

158

Hoofdstuk 6 • Evidence-based richtlijnen

Selecteren Op basis van de titels en abstracts van de artikelen die als resultaat uit de zoekactie zijn verkregen, moet een selectie van potentieel relevante literatuur zijn gemaakt. Voorafgaand aan het bestuderen van de resultaten van de zoekactie moeten criteria zijn opgesteld voor het selecteren van artikelen voor de beoordelingsfase. Deze selectiecriteria kunnen sterk per onderwerp verschillen. Voorbeelden van criteria zijn studieomvang, duur van de follow-up, uitkomstmaten, echelon (eerstelijn, tweedelijn) en leeftijd van de studiepopulatie. Het is van groot belang dat deze criteria goed worden gedocumenteerd zodat het proces zo transparant mogelijk wordt weergegeven. Beoordelen en graderen De geselecteerde artikelen moeten vervolgens zijn beoordeeld op hun

6

methodologische kwaliteit. Hierbij kan gebruikgemaakt zijn van speciale beoordelingsformulieren of checklists (zie extras.bsl.nl/inleidingebm). Hiermee kunnen per studietype de belangrijkste vormen van bias worden geëvalueerd. Naar aanleiding van deze beoordeling wordt elke studie ingedeeld naar bewijskracht (zie . tabel 6.1). Indien er voldoende goede studies zijn, worden de studies met een minder goede methodologische kwaliteit geëxcludeerd. Samenvatten Vervolgens moet het beschikbare bewijs inzichtelijk zijn geordend. Dat kan bij-

voorbeeld door het bewijs samen te vatten in een conclusie waaraan een niveau van bewijs wordt gekoppeld. Het belangrijkste bewijsmateriaal kan ook nog worden samengevat in een evidencetabel (zie . tabel 6.2). Zo is het voor de lezer van de richtlijn snel duidelijk op basis van welk wetenschappelijk bewijs de aanbevelingen zijn geformuleerd. In de evidencetabel wordt opgenomen op welke patiëntenpopulatie de studie betrekking had, welke interventie of diagnostische test in het onderzoek werd toegepast, welke uitkomstmaten werden gehanteerd en natuurlijk de resultaten van de onderzoeken. kAdequate k procedure om de waarde van het bewijs te vertalen naar aanbevelingen voor de praktijk

Bij het opstellen van aanbevelingen spelen naast het bewijs uit de literatuur andere factoren een rol, bijvoorbeeld kosten of beschikbaarheid. Dit zijn ‘overige overwegingen’ die bij voorkeur apart van de bespreking van de literatuur worden vermeld. Op deze manier wordt duidelijk hoe de werkgroep tot een bepaalde aanbeveling is gekomen. Het kan gaan om de volgende aspecten: 55 klinische relevantie (bijv. sterkte van het effect, consistentie van het bewijs, generaliseerbaarheid); 55 veiligheid (bijv. bijwerkingen, risico’s of complicaties op de korte en lange termijn); 55 patiëntenperspectief (bijv. behoeften van de patiënt, te verwachten therapietrouw (compliance) en tevredenheid); 55 professioneel perspectief (bijv. tijdbesparing of -verlies bij invoeren interventie, risico’s voor de professional); 55 beschikbaarheid van voorzieningen (bijv. van apparatuur, ervaring en deskundigheid); 55 kosten(effectiviteit) en macro-economische gevolgen voor het gezondheidszorgbudget; 55 zorgorganisatie (bijv. verandering in zorgproces, infrastructuur, vergoeding door verzekeraars); 55 juridische consequenties (wetgeving); 55 ethische overwegingen; 55 industriële belangen (gesponsorde studies tonen vrijwel altijd positieve resultaten).

6.2 • Beoordelen van een richtlijn

159

Het is belangrijk dat wordt aangegeven hoe deze aspecten in de aanbeveling zijn betrokken. 6.2.3 Toepasbaarheid in de eigen context

De toepasbaarheid van een aanbeveling kan slechts ten dele in een nationale richtlijncommissie worden bepaald. Belangrijke determinanten van de toepasbaarheid van aanbevelingen uit de richtlijn, zoals beschikbaarheid en financiering, kunnen het best lokaal of regionaal worden bepaald. Deze kunnen dan in overleg met de belangrijkste lokaal betrokken instanties en personen worden geoperationaliseerd in werkafspraken, formularia, stroomdiagrammen en (computerondersteunde) protocollen. Om de haalbaarheid van implementatie van een richtlijn te kunnen inschatten moet op een aantal zaken worden gelet. 55 De ziektelast in de soort gezondheidszorgvoorziening of de regio waarin de arts werkzaam is. In de huisartspraktijk kan de voorafkans op een aandoening zo laag zijn dat een test die in het ziekenhuis wel zinvol ((kosten)effectief) is, daar beter niet kan worden ingevoerd (zie 7 par. 4.2). Sommige aandoeningen zijn zo zeldzaam dat de voorzieningen hiervoor het best in een beperkt aantal ziekenhuizen kunnen worden geconcentreerd. Ook kunnen er aanmerkelijke regionale verschillen zijn in de behoefte aan bepaalde zorg. De drugshulpverlening concentreert zich bijvoorbeeld in het bijzonder rond de grote steden. Nieuwe behandelingsmogelijkheden kunnen dan ook het best daar als eerste worden geïmplementeerd. 55 De waardering van patiënten en de gemeenschap voor bepaalde interventies of uitkomsten. Hierin kunnen belangrijke lokale, regionale of nationale en internationale verschillen bestaan. Dit is een belangrijk criterium wanneer moet worden beoordeeld of een niet in het eigen land en voor de eigen beroepsgroep ontwikkelde richtlijn bruikbaar is. Op basis van hetzelfde wetenschappelijk bewijs wordt in veel Angelsaksische landen bijvoorbeeld vaker antibiotica voor een middenoorontsteking gegeven dan in Nederland. In Nederland is een afwachtend beleid beter geaccepteerd en worden de kosten en bijwerkingen anders gewaardeerd. 55 De afweging van de kosten van implementatie tegen andere gezondheidszorgprioriteiten. Het implementeren van een aanbeveling voor medicamenteuze behandeling van gedragsstoornissen bij kinderen zal misschien inhouden dat elders in het ziekenhuis of in de regio minder geld beschikbaar is voor bedden voor patiënten met een cerebrovasculair accident. 55 Barrières voor implementatie bij de patiënt of in de gemeenschap. Deze barrières kunnen geografisch zijn (de voorziening is te ver weg of niet aanwezig), organisatorisch (het huisartsenlaboratorium sluit om zes uur), traditioneel (‘we hebben het altijd zo gedaan’), autoritair (‘onze manier van werken is de beste’), juridisch (‘wat zijn de consequenties als we het ineens anders gaan doen?’, bijvoorbeeld geen schedelfoto’s bij hoofdtrauma) of gedragsmatig (niets is zo weerbarstig als gewoonten, zowel bij de arts als bij de patiënt). Als er grote barrières worden geïdentificeerd, moet worden nagegaan of het mogelijk is en de moeite loont deze weg te nemen. De aanwezigheid van barrières heeft niets te maken met de validiteit van de richtlijn. Aandacht hiervoor is wel een belangrijke voorwaarde voor een kansrijke implementatie. Het zijn juist de gezondheidswerkers die in hun dagelijkse praktijk de barrières het beste kunnen aangeven en mogelijke oplossingen kunnen aandragen.

6

160

Hoofdstuk 6 • Evidence-based richtlijnen

6.3 Zoeken naar richtlijnen, zelf maken of implementeren

6

Het kan zinvol zijn over de grens te kijken, indien er over een bepaald onderwerp geen nationale of lokale richtlijn voor de beroepsgroep beschikbaar is. Op internet en in gedrukte vorm zijn duizenden richtlijnen beschikbaar. De eerdergenoemde richtlijndatabases van het US National Guidelines Clearinghouse en het Guidelines International Network (G-I-N) bevatten veel evidence-based ontwikkelde richtlijnen (zie extras.bsl.nl/inleidingebm). De kwaliteit en actualiteit van de daarin gepresenteerde richtlijnen verschillen echter sterk. Eerdergenoemde beoordelingscriteria kunnen worden gebruikt om bij afwezigheid van een nationale of lokale richtlijn te beoordelen of een richtlijn uit een ander land mogelijk bruikbaar is. Ook kan besloten worden zelf een richtlijn te maken. Dit vereist een grote inspanning en naast klinische expertise is methodologische kennis noodzakelijk. Ook dient er ervaring te zijn met het werken met taakgerichte groepen. Het ontwikkelen van een evidence-based richtlijn is een intensief proces en is op lokaal niveau en zonder specifieke ondersteuning niet aan te raden. Gezondheidswerkers kunnen de beste bijdrage aan verbetering van de gezondheidszorg leveren door op lokaal niveau mee te denken over de implementatie op de werkvloer van bestaande richtlijnen. Natuurlijk zijn er altijd commissieleden (generalisten en (super)specialisten) voor de nationale richtlijncommissies nodig. Deelnemen aan een richtlijncommissie is een tijdrovende, maar zeer leerzame en dankbare ervaring. Toch is te verwachten dat de meeste gezondheidswerkers vooral consumenten van richtlijnen zullen zijn. Actieve en kritische consumenten wel te verstaan, aangezien de implementatie op de werkvloer door iedereen zal moeten worden voorbereid en ondersteund. Evaluatie van het gebruik op de werkvloer kan weer leiden tot een aanpassing van de richtlijn op landelijk niveau. 6.4 Conclusie

In het maken en beoordelen van richtlijnen komen veel facetten van het evidence-based werken samen: stellen van de juiste vragen, uitgebreid zoeken van literatuur, transparant proces van selectie en weging van het materiaal, afstemmen van de onderzoeksbevindingen met de praktijk. Richtlijnen ondersteunen de zorgprofessional door in een document een veelheid van praktijkvragen systematisch te beantwoorden. De beoordeling van een richtlijn richt zich zowel op de methodologische aspecten als op de toepasbaarheid van de aanbevelingen. Een goede richtlijn is transparant en expliciet over de gemaakte keuzes. Literatuur Brouwers MC, Kho ME, Browman GP, Burgers JS, Cluzeau F, Feder G, et al.; AGREE Next Steps Consortium. AGREE II: Advancing guideline development, reporting and evaluation in health care. J Clin Epidemiol. 2010; 63:1308–11. Burgers J, Smolders M, Wollersheim H, Grol R. Richtlijnen als hulpmiddel bij de verbetering van de zorg. In Grol R, Wensing M (red.). Implementatie: effectieve verandering in de patiëntenzorg. 4e druk. Maarssen: Reed Elsevier, 2012:153–192. Everdingen JJE van, Dreesens DHH, Burgers JS, Swinkels JA, Weijden T van der, Barneveld TA van (red.). Evidence-based richtlijnontwikkeling. Een leidraad voor de praktijk. Houten: Bohn Stafleu van Loghum, 2014. GRADE Working Group 7 www.gradeworkinggroup.org (geraadpleegd op 10 mei 2013).

Literatuur

161

Guyatt GH, Oxman AD, Vist G, et al. for the GRADE Working Group. Rating quality of evidence and strength of recommendations GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336:924–926. Regieraad Kwaliteit van Zorg. Richtlijn voor richtlijnen (herziene versie). Den Haag, maart 2012 (7 www.regieraad.nl).

6

163

Bewijs toepassen op individuele patiënten M. Offringa, P.P.G. van Benthem en S. Middeldorp

7.1 Inleiding – 164 7.2 Betekenis en bruikbaarheid van evidence – 165 7.2.1 Individualiseren: kwalitatieve aspecten – 166 7.2.2 Kwantitatieve aspecten – 168 7.2.3 Waardeoordelen in beslissingen, ‘shared decision making’ – 169

7.3 Vijf stappen bij het toepassen van evidence bij complexe beslissingen – 170 7.4 Conclusie – 173 Literatuur – 174

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_7, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

7

164

Hoofdstuk 7 • Bewijs toepassen op individuele patiënten

7.1 Inleiding

7

In de definitie van evidence-based medicine (het zorgvuldig, expliciet en oordeelkundig gebruik van het huidige beste bewijsmateriaal om, gezamenlijk met de individuele patiënt, beslissingen te nemen ten aanzien van klinisch handelen) wordt gesproken over de individuele patiënt. Zoals in de eerdere hoofdstukken is besproken, verwijst het zorgvuldig, expliciet en oordeelkundig gebruik naar de vertaalslag die men moet maken om ‘het beste bewijsmateriaal’ (de studieresultaten) succesvol toe te passen op de individuele patiënt, waarbij recht wordt gedaan aan de individuele omstandigheden van de patiënt. Maar hoe moet de evidence-based practicus deze vertaalslag maken? Bij velen bestaat de opvatting dat de resultaten van klinische trials en systematische reviews per definitie niet toepasbaar zijn in de dagelijkse praktijk, omdat de patiënten in het onderzoek andere patiënten zijn dan de gangbare eigen patiënt. Op basis van de gebruikte inclusie- en exclusiecriteria en de vereiste dat de patiënt toestemming geeft om mee te doen in het onderzoek, zal er hoogstwaarschijnlijk een selectie zijn opgetreden, waarvan de gevolgen in het artikel vaak niet zijn terug te vinden. Bekend is dat patiënten die deelname aan een wetenschappelijk onderzoek weigeren, vaak een andere prognose of therapietrouw hebben dan diegenen die wel hebben meegedaan. Men meent verder dat de in een onderzoek gegeven behandeling meestal bovengemiddeld goed is, waardoor patiënten het in een onderzoek altijd beter zullen doen dan in de dagelijkse praktijk. De setting waarin het onderzoek wordt uitgevoerd is ook vaak anders dan die waarin de arts die de evidence wil toepassen zelf werkt. Ten slotte hangt de bruikbaarheid van de informatie sterk af van de mate waarin de vaardigheid van de diagnosticus (echografist, interventieradioloog) of de behandelaar (chirurg, fysiotherapeut, psychotherapeut) het succes van de behandeling bepaalt; de behandelaars in onderzoeken zijn vaak geselecteerd op hun buitengewone vaardigheden. Op deze manier kan er een kloof ontstaan tussen wetenschappelijke feiten en de feiten zoals deze gelden in de dagelijkse praktijk. Evidence uit klinisch onderzoek heeft echter wel degelijk betekenis voor de praktijk, al is er een expliciete vertaalslag nodig. De vraag die de evidence-based practicus zich stelt is: ‘Gelden de resultaten van dat gepubliceerde onderzoek ook voor de patiënt die nu bij mij in de spreekkamer zit?’ De volgende vraag is in hoeverre voor de individuele patiënt de voorspelde absolute verlaging van een risico opweegt tegen de kans op bijwerkingen. Wanneer weegt de vermindering van het risico op een herseninfarct op tegen het risico op een bloeding tijdens antistollingsbehandeling of wanneer weegt het te verwachten voordeel van een operatie op tegen het operatierisico? Voor de patiënt met zijn eigen voorkeuren is hier een belangrijke rol weggelegd in de uiteindelijke beslissing over de behandeling. Dit proces noemt met ook wel evidence-based shared decision making. In de praktijk kan dit verwarrende situaties opleveren, waarbij de behandelaar wellicht de indruk krijgt dat het verstandig toepassen van evidence bij individuele patiënten eigenlijk te moeilijk is. In dit hoofdstuk wordt ingegaan op de verschillende aspecten van het toepassen van evidence bij de individuele patiënt. Daarbij komen kwalitatieve en kwantitatieve aspecten aan bod, samen met de voorkeuren van de patiënt in het licht van de voor- en nadelen van interventies. Het meeste theoretische en empirische werk op dit terrein heeft betrekking op het toepassen van evidence rond medicamenteuze behandeling en therapeutische ingrepen. Dit denkkader kan ook worden gebruikt bij het toepassen van evidence rond diagnostische interventies, bij uitspraken over de (onbehandelde) prognose en bij het denken over de kans op bijwerkingen.

7.2 • Betekenis en bruikbaarheid van evidence

165

7.2 Betekenis en bruikbaarheid van evidence

Medisch onderzoek vindt altijd bij geselecteerde personen plaats. De betekenis van de resultaten ligt niet zozeer in de directe informatie die uit het onderzoek is verworven als wel in de toepasbaarheid van die informatie bij patiënten in de dagelijkse praktijk. In een klinische trial worden patiënten niet bestudeerd om zelf een betere behandeling te krijgen, maar vooral om te bepalen wat bij toekomstige patiënten het optimale beleid is. Centraal in de beoordeling van de toepasbaarheid van de resultaten is, of de behandelaar gelooft dat de pathofysiologie bij de patiënt die voor hem zit overeenkomt met de onderliggende pathofysiologie van de patiënten die aan de trial meededen. Als steun kan hij nagaan of de eigen patiënt aan de in- en exclusiecriteria van het onderzoek zou hebben voldaan. Deze kwalitatieve afweging kan ook worden omgedraaid: zijn er redenen om aan te nemen dat mijn patiënt anders op de interventie zal reageren dan de patiënten in het onderzoek? Indien de pathofysiologie bij de individuele patiënt zeker anders is omdat er relevante comorbiditeit is, bijvoorbeeld een nierinsufficiëntie of diabetes mellitus, moet vervolgens worden beoordeeld of dit gevolgen heeft voor met name de effectiviteit van de behandeling met betrekking tot de gewenste effecten of juist meer voor de kans op bijwerkingen. Alle trials naar het nut van endarteriëctomie van de arteria carotis bij patiënten met een ernstige carotisstenose om herseninfarcten te voorkómen, zijn gedaan bij mannen. De vraag of dit toepasbaar is bij vrouwen hangt af van inzichten in de pathofysiologie van bloedvatobstructie bij vrouwen en de inschatting van hun operatierisico. Indien de prognose ten aanzien van het krijgen van een herseninfarct bij vrouwen met ernstige carotisstenose beter is dan bij mannen en vrouwen een hoger operatierisico zouden hebben, lijkt een operatie minder aantrekkelijk dan wanneer aannemelijk kan worden gemaakt dat de prognose ten aanzien van het krijgen van een herseninfarct bij vrouwen juist slechter is dan bij mannen en vrouwen een lager operatierisico hebben. In klinische trials worden patiënten met comorbiditeit bijna altijd uitgesloten. Een hogere leeftijd staat hier vaak voor relevante comorbiditeit. Toch is bij enkele veelvoorkomende ziekten en behandelingen wel bekend dat een behandeling meer of minder effectief is bij patiënten met relevante comorbiditeit, al weet men niet precies waarom. Als bekend is dat groepen patiënten met diabetes mellitus een lagere relatieve risicoreductie ten aanzien van het voorkomen van een herseninfarct hebben, dan kan dat het gevolg zijn van een geringere invloed van het effect van de interventie op het eindorgaan bij deze patiëntengroep (de bloedvatverstopping neemt sterker toe) of van een toename van de kans op een herseninfarct als gevolg van de operatie. Voor de individuele patiënt is het netto-effect van de behandeling dus belangrijk: verbetering van de kans op de gunstige uitkomst, met aftrek van de kans op een onaangename (of fatale) bijwerking. De afzonderlijke bijdrage van gunstige en ongunstige effecten is uit de presentatie van de resultaten van de trial echter vaak niet af te leiden. Samengestelde uitkomstmaten zoals totaal aantal herseninfarcten of totale sterfte zijn nuttig, maar geven geen inzicht in de relatieve bijdrage van enerzijds de gunstige en anderzijds de ongunstige consequenties van de behandeling aan deze uitkomsten. Bij het op deze wijze afwegen of evidence uit een onderzoek toegepast kan worden bij een patiënt uit de dagelijkse praktijk, zijn drie begrippen van belang: generaliseerbaarheid, extrapolatie en toepasbaarheid. zz Generaliseerbaarheid

Met generaliseerbaarheid (of externe validiteit) wordt bedoeld de mate waarin de resultaten van een onderzoek geldig zijn voor individuen buiten het onderzoek met weliswaar dezelfde

7

166

Hoofdstuk 7 • Bewijs toepassen op individuele patiënten

klinische kenmerken, maar levend in andere geografische gebieden en in andere tijdperiodes. De centrale aanname is dat de onderliggende pathofysiologie voor individuen buiten het onderzoek dezelfde is als voor de patiënten in het onderzoek. zz Extrapoleerbaarheid

7

Extrapoleerbaarheid is de mate waarin de resultaten van een onderzoek in een groep met andere demografische en klinische kenmerken kunnen worden toegepast. Men doet aannamen en voorspellingen buiten datgene wat in het onderzoek is waargenomen en gemeten en men houdt hierbij rekening met een andere onderliggende pathofysiologie en dus met een andere effectiviteit van de behandeling. Er wordt extrapolatie naar andere patiënten, verwante behandelingen en andere gezondheidsuitkomsten onderscheiden. Zo kan men zich bijvoorbeeld per ziektebeeld en per behandeling afvragen of de resultaten van een klinische trial bij patiënten tussen de 40 en 55 jaar geëxtrapoleerd kunnen worden naar patiënten tussen de 55 en 65 jaar of naar kinderen. Een geval van extrapolatie betreft ook de effecten van chemotherapie op overleving en welbevinden van oudere patiënten met kanker. Over deze effecten bij verschillende vormen van kanker is weliswaar veel evidence, maar die is vaak afkomstig uit trials bij patiënten die jonger zijn dan 65 jaar. In de praktijk is de helft van de patiënten met kanker ouder dan 65 jaar. Bij hen is niet alleen de prognose slechter, maar chemotherapie wordt door hen ook minder goed verdragen. Bij ouderen moet daarom een potentieel grotere winst in overleving worden afgewogen tegen een grotere kans op bijwerkingen die mogelijk zelfs de primair gewenste uitkomst, overleving, negatief kunnen beïnvloeden. Een goed voorbeeld van het probleem van extrapolatie betreft de effectiviteit en veiligheid van behandeling met orale antistolling met vitamine-K-antagonisten. Volgens een onderzoek uit 2008 zou 40% van de patiënten die met een bloeding ten gevolge van antistollingsbehandeling werden opgenomen in het ziekenhuis geëxcludeerd zijn van de trials die de effectiviteit en veiligheid van deze behandeling hebben onderzocht. De auteurs vergeleken in dit onderzoek het aantal aanwezige exclusiecriteria bij patiënten met een antistollinggerelateerde bloeding met die van patiënten die eveneens antistolling gebruikten maar voor een andere indicatie werden opgenomen. Hieruit bleek dat het risico op een ernstige bloeding sterk toenam met het aantal aanwezige exclusiecriteria bij een patiënt. Om de afweging van beoogd voordeel versus de kans op nadeel (bloedingen in dit geval) goed te kunnen maken, is het dus van belang dat de voorschrijvende arts zich afvraagt of zijn of haar patiënt wat betreft een onderliggende pathofysiologie voldoende lijkt op de trialpatiënten op wie de cijfers die aan de afweging ten grondslag liggen zijn gebaseerd. zz Toepasbaarheid

De term ‘toepasbaarheid’ slaat op de dagelijkse klinische praktijk zoals die zich lokaal voordoet. Men denkt zowel aan de generaliseerbaarheid en extrapolatie van de evidence naar de eigen patiënt, als aan de aan- of afwezigheid van een diagnostische of therapeutische techniek in het eigen ziekenhuis, de aan- of afwezigheid van de juiste infrastructuur, et cetera. Zo is het vanzelfsprekend dat een nieuwe operatietechniek pas kan worden ingevoerd nadat de lokale chirurg deze heeft aangeleerd. 7.2.1 Individualiseren: kwalitatieve aspecten

Hoe moet een behandelaar nu beslissen of hij een behandeling wel of niet moet toepassen bij een individuele patiënt? In zo’n situatie stelt hij zichzelf vier vragen:

7.2 • Betekenis en bruikbaarheid van evidence

167

1. Welke effecten heeft de behandeling, zowel gunstige als ongunstige? 2. Hoe goed is de kwaliteit van de onderzoeken waarin deze effecten zijn vastgesteld? 3. Zijn deze effecten voor mijn patiënt klinisch belangrijk? 4. Wegen bij deze patiënt de voordelen van de behandeling op tegen de nadelen? Deugdelijke onderzoeken zoals systematische reviews en andere hoogkwalitatieve evidencebronnen kunnen helpen bij de beantwoording van de eerste twee vragen. Deze onderzoeken geven een zo valide en precies mogelijke schatting van de effecten van een behandeling op de klinische uitkomst van de gemiddelde patiënt, zowel gunstige als ongunstige. De laatste twee vragen moeten worden gesteld en worden beantwoord in de context van de individuele patiënt. Indien een review aangeeft dat behandeling A 25% meer patiënten geneest dan de standaardbehandeling B, betekent dit dat het genezingspercentage gemiddeld 25% hoger ligt. Dat wil echter nog niet zeggen dat voor een individuele patiënt de kans op genezing altijd 25% stijgt. Daarbij spelen andere factoren een belangrijke rol, namelijk de voor de individuele patiënt specifieke aspecten van de ziekte en klinische risicofactoren. Het gaat er voor de individuele patiënt uiteindelijk om of er een gunstig netto-effect is te verwachten. Het opsporen en beschrijven van subgroepen die geen baat hebben of zelfs schade ondervinden van de behandeling is hierbij een gebruikelijke methode. Men spreekt dan van het zoeken naar ‘effectmodificatie’: voor de ene groep is er een ander effect dan voor de andere groep. Zo kan men zoeken naar evidence over positieve effecten bij mannen en niet bij vrouwen, of bij vrouwen ouder dan vijftig jaar, maar niet bij vrouwen jonger dan vijftig jaar. Op een enkel geval na zijn dergelijke duidelijke verschillen echter zeldzaam. Vaker komt een zogenoemde kwantitatieve effectmodificatie (of interactie) voor, waarbij de grootte van het gunstige effect varieert tussen verschillende groepen patiënten, of het gevolg zijn van bijvoorbeeld hogere doseringen of juist onvoldoende therapietrouw. Op basis van beschikbare evidence rond een interventie kan onderscheid worden gemaakt tussen drie situaties waarin op grond van de resultaten van individuele onderzoeken en systematische reviews conclusies kunnen worden getrokken: 1. Het is waarschijnlijk dat de interventie in een bepaalde setting, populatie of patiëntengroep meer goed dan kwaad doet (situatie a met mogelijk een klinisch relevant effect en situatie b zonder klinisch relevant effect, in 7 figuur 4.8). 2. Het is onwaarschijnlijk dat de interventie meer goed dan kwaad doet (situatie d in 7 figuur 4.8). 3. Het is onzeker of de interventie meer goed dan kwaad doet (situatie c in 7 figuur 4.8). In het eerste geval moet men zich afvragen of er redenen zijn om aan te nemen dat de interventie niet zou werken bij de eigen patiënt. Als die redenen er niet zijn, kan de behandeling worden toegepast (uiteraard moeten de variatie in de individuele respons op de behandeling en de kans op ongewenste bijwerkingen worden meegewogen). Als er onzekerheid is over het netto-effect in de eigen patiëntenpopulatie, moet men zich als behandelaar afvragen of het misschien toch mogelijk is dat de interventie bij de eigen patiënten meer goed dan kwaad doet. Dan is het namelijk de moeite waard bestaande gegevens verder te analyseren of zo mogelijk de patiënt aan een nieuwe klinische trial te laten deelnemen (zie situatie c in 7 figuur 4.8). Er is dan sprake van ‘geen bewijs van effect’ (no evidence of effect). Als effectiviteit onwaarschijnlijk is, moet de interventie worden ontraden en moet een alternatief worden gezocht. Men spreekt dan van evidence of no effect (situatie d in 7 figuur 4.8). Vanaf hier gaan we ervan uit dat het op basis van onderzoek waarschijnlijk is dat de interventie in de eigen setting en patiëntengroep meer goed dan kwaad doet.

7

168

Hoofdstuk 7 • Bewijs toepassen op individuele patiënten

7.2.2 Kwantitatieve aspecten

7

Van een behandeling die is onderzocht in een klinische trial wordt vaak alleen het gemiddelde behandeleffect gerapporteerd. Het behandeleffect van individuele patiënten wijkt vrijwel altijd af van dit gemiddelde. Denk aan de verbetering van de kwaliteit van leven op een schaal met honderd punten: de ene patiënt verbetert wat meer dan de andere. Als het gaat om een dichotome gezondheidsuitkomst, bijvoorbeeld de vijfjaarsoverleving, bereikt de individuele patiënt deze uitkomst wel of niet. Behandelbeslissingen worden genomen op basis van een inschatting van de kans dat de patiënt de ongunstige gezondheidsuitkomst zal bereiken en of die kans kan worden verkleind. Het mechanisme van reductie van het individuele risico op de ongunstige uitkomst door de interventie varieert per ziekte en behandeling. Zoals in 7 par. 4.4 is besproken, is het meest gebruikte model gebaseerd op de aanname dat het relatieve risico constant is voor alle patiënten (multiplicatieve model: risico in de interventiegroep is de vermenigvuldiging van relatief risico en achtergrondrisico). Voor dit model vonden Furukawa en medewerkers onlangs ook bewijsmateriaal. Dit heeft tot gevolg dat het absolute effect afhankelijk is van het achtergrondrisico (percentage gebeurtenissen – events – in de controlegroep). Dit model staat in contrast met het additieve model, waarbij ongeacht het achtergrondrisico de behandeling tot een vast percentage verbetering leidt (risicoverschil van interventie- en controlegroep is steeds constant en dus niet afhankelijk van het achtergrondrisico). Een en ander wordt geïllustreerd in het hypothetische voorbeeld in . tabel 7.1. Bij patiënt A met hypercholesterolemie zijn de risico’s op het krijgen van een hartinfarct en het te verwachten effect van de behandeling met cholesterolverlagers gelijk aan die in de trial. Bij patiënt B is de relatieve risicoreductie weliswaar dezelfde als in de trial, maar het achtergrondrisico (of de kans op een ongunstige afloop) is de helft van dat van de patiënten in de trial, omdat patiënt niet rookt, geen overgewicht heeft, een weinig stressvol bestaan leidt en slechts een licht verhoogd cholesterol heeft. Dit leidt tot een geringer absoluut effect van de behandeling. Het number needed to treat (NNT) is in dit geval dus hoger. Behandeling is dan bij deze patiënt minder efficiënt dan bij patiënt A. Bij patiënt C is de relatieve risicoreductie gehalveerd ten opzichte van die in de trial door bijvoorbeeld een versnelde metabolisering van het geneesmiddel bij een jongere patiënt of een lagere therapietrouw; bij hetzelfde achtergrondrisico leidt dit tot een geringer absoluut effect en daardoor een groter NNT. Deze behandeling is zinvoller bij patiënten die het medicament normaal metaboliseren. Dit is een simpele voorstelling van zaken. Met recentelijk ontwikkelde methodes kan soms vóór een behandeling begint het te verwachten effect worden voorspeld op basis van de klinische kenmerken van een individuele patiënt door gebruik te maken van bestaande risicoscores of een nieuw predictiemodel. In hun NTvG-artikel uit 2012 illustreren de auteurs met gegevens van de ‘Justification for the use of statins in prevention’ (JUPITER)-trial dit met een predictiemodel voor de primaire preventie van cardiovasculaire ziekte met rosuvastatine. Zij laten zien dat het individuele behandeleffect van rosuvastatine eenvoudig en betrouwbaar kan worden geschat aan de hand van het absolute risico van een patiënt op cardiovasculaire ziekte en het relatieve behandeleffect uit de trial. In de spreekkamer kan het verwachte individuele behandeleffect worden afgewogen tegen de potentiële nadelen van een behandeling. Voor deze afweging introduceerden Nederlandse onderzoekers onlangs het begrip number willing to treat, het maximale aantal patiënten dat men wil behandelen om bij één patiënt het gewenste resultaat te bereiken.

169

7.2 • Betekenis en bruikbaarheid van evidence

. Tabel 7.1 Behandeleffecten in verschillende groepen in vergelijking tot het effect in de groep die in de klinische trial werd onderzocht groep

achtergrondrisico op de ongunstige uitkomst

relatieve risicoreductie

absolute risicoreductie

number needed to treat

trial

0,10

0,50

0,05

20

patiënt A

0,10

0,50

0,05

20

patiënt B

0,05

0,50

0,025

40

patiënt C

0,10

0,25

0,025

40

Hoe effectief is de behandeling bij deze patiënt? Het NNT hangt mede af van het absolute risico van een patiënt op de ongunstige uitkomst. Een patiënt met een laag risico (en dus een gunstige prognose) heeft relatief minder baat bij een behandeling, wat tot uitdrukking komt in een hoger NNT. De NNT wordt in de behandelbeslissing afgewogen tegen met name de bijwerkingen en andere zaken, zoals kosten.

Een andere bron van informatie over effectmodificatie is een meta-analyse met data van individuele patiënten, een IPD-meta-analyse. In een IPD-meta-analyse verzamelt men de originele, individuele patiëntgegevens uit een aantal trials en berekent men op basis daarvan een effectschatter. In subgroepanalyses worden de behandeleffecten voor specifieke, multivariate patiënten risicoprofielen geschat. Het gebruik van individuele patiëntgegevens heeft een aantal voordelen: de originele gegevens en de resultaten van gepubliceerde analyses worden gecontroleerd; de vergelijkbaarheid tussen studies in definities, coderingen en analyses wordt vergroot; het is mogelijk om complexere statistische analyses te verrichten, zoals pooling van tijdsafhankelijke gegevens en multivariate regressieanalyse. Ook kunnen bij een IPD-meta-analyse soms extra gegevens worden gebruikt die niet in het oorspronkelijke artikel stonden, zoals gezondheidsuitkomsten na langere follow-up. De zo vastgestelde verschillende achtergrondrisico’s per subgroep zijn goed bruikbaar bij het extrapoleren en vaststellen van individuele achtergrondrisico’s. 7.2.3 Waardeoordelen in beslissingen, ‘shared decision making’

Nadat informatie over de verwachte effectiviteit van de therapie en de mogelijke bijwerkin gen is uitgewisseld, kan worden besproken of starten met de behandeling of juist afwachten de wenselijke optie is. Hierbij kan de patiënt aangeven aan welke uitkomstmaat hij de meeste waarde hecht. De mening van de patiënt kan op dit punt natuurlijk verschillen van die van de arts. Klassiek is de situatie waarin de arts de nadruk vooral op de overleving legt, terwijl de patiënt meer geïnteresseerd blijkt te zijn in kwaliteit-van-leven-aspecten, zoals het kunnen blijven bezoeken van familie en vrienden. Ook kan de vrees voor of waardering van bepaalde bijwerkingen per patiënt verschillen. Sommige patiënten zullen op basis van informatie of eerdere ervaringen (van henzelf of familieleden) besluiten bepaalde effectief bevonden behandelingen toch niet te willen ondergaan. Een situatie waarin waardeoordelen een rol spelen, is bijvoorbeeld de keuze voor behandeling met anticoagulantia om een herseninfarct te voorkómen bij patiënten jonger dan 65 jaar met atriumfibrilleren. Aan de ene kant is er het gunstige effect op het feit dat de kans op een herseninfarct klein is, aan de andere kant moet men zich realiseren dat het gebruik van medicijnen gepaard kan gaan met het risico van een hersenbloeding of een andere ernstige bloeding.

7

170

7

Hoofdstuk 7 • Bewijs toepassen op individuele patiënten

Uit een model gebaseerd op een serie onderzoeken bleek dat men gemiddeld veertig mensen drie jaar moet behandelen om één extra herseninfarct te voorkómen. Als die risicoberekening aan patiënten werd voorgelegd, gaven zij in meerderheid de voorkeur aan behandeling, ook al loopt men het risico van een bloeding. Toch zijn er ook patiënten die kiezen voor het nalaten van de interventie. Bij het nemen van beslissingen is de kwantitatieve klinische uitkomst alleen dus niet genoeg. Omgaan met onzekerheid, risicoperceptie, risicovermijding (het gevoel dat het nodig is om tenminste iets te doen) en vele andere factoren spelen mee bij het toepassen van evidence in de dagelijkse praktijk. Naarmate er meer evidence is, wordt de noodzaak van op waardeoordelen gebaseerde keuzes groter. Het ontbreken van bewijsmateriaal roept echter ook het inzetten van waardeoordelen op: lack of evidence zal sommigen aanzetten tot maximaal handelen, terwijl anderen juist voor het afwachten bij gebrek aan bewijs zullen kiezen (in dubio abstine). Over het algemeen neemt men aan dat interventies met curatieve intentie hogere risico’s op bijwerkingen rechtvaardigen. Daarnaast geldt bij gebrek aan bewijs van effectiviteit een grotere rol voor bijwerkingen in de afweging tot al of niet toepassen van de interventie. Bij de toepassing van evidence moet men dus altijd individualiseren. Waardeoordelen spelen hierbij een onmiskenbare rol (zie 7 figuur 1.1). In feite bevat elke medische beslissing een waardeoordeel. Uit de feiten alleen kan men namelijk niet afleiden hoe te handelen. De interactie tussen de patiënt en de behandelaar is en blijft hierin beslissend: de keuzes die worden gemaakt berusten zowel op evidence als op waardeoordelen. Het expliciet maken van de alternatieve opties en het informeren van de patiënt behoren tot de taak van de arts. Daarbij moet men zoeken naar een manier waarop de patiënt met kwantitatieve informatie kan worden geïnformeerd, zonder hem onzeker te maken. 7.3 Vijf stappen bij het toepassen van evidence bij complexe

beslissingen

In de jaren negentig van de vorige eeuw is door Glasziou en Irwig een vijfstapsbenadering voorgesteld om in complexe beslissingssituaties de hiervoor besproken principes vlot toe te passen. Deze aanpak komt neer op een onderzoek naar de verhouding tussen voor- en nadelen van een interventie in het licht van de risico’s bij een individuele patiënt. Een juiste toepassing van deze methode steunt op het identificeren van factoren die: 55 het achtergrondrisico van de patiënt bepalen; 55 het gunstige effect van de behandeling modificeren; 55 de kans op gezondheidsrisico’s van de behandeling bepalen. zz Stap 1 Maak een lijst van alle voordelen en alle nadelen van de interventie

Deze lijst kan men baseren op allerlei gegevens uit leerboeken, compendia, bijsluiters en op de eigen praktijkervaring. In . tabel 7.2 is zo’n opsomming opgenomen voor twee preventieve behandelingen. Voor het vaststellen van de kansen op nadelige effecten zal men soms apart in de literatuur moeten zoeken. Daarbij komt men vaak op cohortonderzoek en patiëntcontroleonderzoek uit (zie 7 par. 4.5). Maar ook klinische trials en systematische reviews beschouwen in toenemende mate meerdere relevante uitkomsten, waaronder de ongewenste bijwerkingen. Zo zijn antiaritmica ook onderzocht op hun pro-aritmische effecten, en trombolyse en antistolling op de kans op ernstige bloedingen. Vooral voor patiënten met een laag risico op de primaire uitkomst (sterfte of ernstige cardiovasculaire complicaties) kunnen deze bijwerkingen van groot belang zijn.

7.3 • Vijf stappen bij het toepassen van evidence bij complexe beslissingen

171

. Tabel 7.2 Potentiële voor- en nadelen van twee preventieve behandelingen voordelen

nadelen

hypertensiebehandeling bij ouderen verlagen van cardiovasculaire en niet-cardiovasculaire sterfte

jicht

verlagen van niet-fatale cerebrovasculaire accidenten

huidafwijkingen spierkrampen misselijkheid duizeligheid fenomeen van Raynaud kortademigheid hoofdpijn droge mond diarree

screening op colonkanker verlagen van de kans op invasieve colorectale tumoren (verbetering prognose)

fout-positief screeningsresultaat met uitgebreide diagnostiek

verlagen van sterfte aan colorectale tumoren

perforatie van het colon pijn angst

zz Stap 2 Onderzoek hoe het behandeleffect afhangt van het achtergrondrisico

In de meeste gevallen is het relatieve effect redelijk constant bij verschillende patiëntengroepen, zoals in het geval van cholesterolverlagers en antihypertensiva in relatie tot cardiovasculaire complicaties en in het geval van bloedverdunners bij patiënten met atriumfibrilleren in relatie tot een herseninfarct. Het absolute effect – bijvoorbeeld de absolute afname van de kans op sterfte – is zoals hiervoor besproken dan vooral afhankelijk van het achtergrondrisico van de patiënt. Patiënten met een hoog risico hebben een grotere kans om te profiteren van de voordelen van de behandelingen, terwijl patiënten met een laag achtergrondrisico over het algemeen weinig baat bij en des te meer last hebben van behandelingen (zie . tabel 7.1). zz Stap 3 Onderzoek of er verschillende relatieve effecten zijn beschreven in verschillende situaties (effectmodificatie)

Het is mogelijk dat er in klinisch onderzoek bij verschillende groepen patiënten met verschillende risicofactoren andere relatieve effecten zijn gevonden dan in de gehele groep. Of er is informatie uit een IPD-meta-analyse. Bekende voorbeelden zijn een hogere tumorstadiëring en de hormoonreceptorstatus van bepaalde tumoren die het relatieve effect van de chemotherapeutische behandeling duidelijk beïnvloeden. Ook bij een vroegtijdige behandeling, bij een betere compliance van de patiënt, bij een hogere dosis of bij een langduriger behandeling kan het relatieve effect van een behandeling veranderen. Al deze factoren staan gezamenlijk bekend als effectmodificatoren. Dit kan ook gelden voor de kans op (late) bijwerkingen: na chemotherapie plus radiotherapie voor de ziekte van Hodgkin was bij de overlevers de kans op een tweede primaire tumor gedurende het leven hoger dan bij patiënten die alleen chemotherapie of alleen radiotherapie hadden gehad en bovendien werd het relatieve risico hoger naarmate de behandeling langer geleden was.

7

172

Hoofdstuk 7 • Bewijs toepassen op individuele patiënten

zz Stap 4 Bepaal de absolute risicoreducties voor de individuele patiënt

In de klinische praktijk gaat het altijd om de absolute risico’s voor de patiënt. De verbetering onder behandeling kan worden uitgedrukt in de number needed to treat (NNT), zowel voor gunstige effecten als voor bijwerkingen. Deze NNT varieert met het achtergrondrisico van de patiënt: de NNT om een ongewenste uitkomst te voorkómen, wordt hoger als dit achtergrondrisico lager wordt (zie . tabel 7.1). We hebben dus een inschatting nodig van het achtergrondrisico van de patiënt, zowel wat betreft de kans op de te vermijden gezondheidstoestand (mortaliteit, morbiditeit), als de kans op een ongewenst effect – die onder behandeling hoger kan worden. Vaak moet dan buiten het kader van de gevonden klinische trial of review naar informatie uit andere prognostische onderzoeken worden gezocht. Nog mooier is informatie uit een prospectieve registratie van patiënten en de uitkomsten in de eigen setting. Een voorbeeld uit de stollingsziekten: het risico op veneuze trombose of longembolie van mensen met factor V Leiden die in de algemene populatie worden gevonden is lager dan bij patiënten die zijn getest omdat ze een symptomatisch familielid hebben.

7

zz Stap 5 Weeg de voordelen van behandelen af tegen de nadelen

De absolute risicoreductie, al dan niet uitgedrukt in termen van NNT, moet nu worden afgewogen tegen de absolute risico’s van ernstige bijwerkingen (NNH). Als er geen of relatief geringe bijwerkingen bestaan, dan is deze afweging natuurlijk gemakkelijk. De algemene last van de behandeling en de kosten geven dan de doorslag. Een voorbeeld hiervan zijn de statinen bij patiënten met hypercholesterolemie. In de regel bestaat er echter wel een kans op vervelende of soms zelfs levensbedreigende bijwerkingen. Het absolute risico van deze bijwerkingen moet dan worden vergeleken met de kans op het hebben van voordeel. Deze laatste afweging – wegen de voordelen op tegen de nadelen? – lijkt vaak wel duidelijk op basis van de informatie die bij stap 4 is verzameld. Toch kiezen patiënten met kennelijk dezelfde kansen vaak voor verschillende behandelingen. De waardering van de patiënt voor de uitkomsten speelt daarin een hoofdrol. Hoe waardeert de patiënt het mogelijke scenario van een behandeling die de kans op een hartaanval nauwelijks reduceert, maar wel een gevaarlijke beenmergdepressie veroorzaakt? Het optimale scenario is in dit geval natuurlijk het niet-optreden van het hartinfarct én het niet-optreden van beenmergdepressie. De vraag is dan hoe groot de kans op dit scenario is als niet wordt behandeld. Daartussenin zijn nog andere scenario’s denkbaar, met een variabele waarschijnlijkheid en elk met hun waardering. Met formele besliskundige technieken kan een inschatting worden gemaakt van de optimale strategie in het licht van kansen op de gebeurtenissen en waarderingen door de patiënt. Vaak zijn er echter te weinig gegevens om deze werkwijze volledig te kunnen ondersteunen met getallen uit patiëntgebonden onderzoek. Toch lijkt het nuttig deze stappen van 1 tot 5 te doorlopen en waar nodig zelf een kans in te schatten die op de patiënt het meest van toepassing lijkt. Hopelijk zullen de klinische informatiesystemen de behandelaars en de patiënten in de toekomst in staat stellen moeilijke afwegingen zo veel mogelijk met kwantitatieve gegevens te ondersteunen. Ook is te hopen dat in de toekomst bij het ontwerpen van klinische trials meer rekening wordt gehouden met de eindgebruikers van de informatie, de behandelaar en zijn patiënt, en dat alle relevante uitkomsten worden bestudeerd en gerapporteerd, waarbij de inbreng van de patiënt een belangrijke rol moet spelen. Voorts moeten bij het ontwerpen van klinische trials de in- en exclusiecriteria kritisch worden bekeken met het oog op latere implementatie

7.4 • Conclusie

173

van de resultaten, waarbij er waarschijnlijk grotere, pragmatische trials moeten komen, met heterogene patiëntengroepen, aan de hand waarvan via subgroepanalyse effectmodificatie kan worden bestudeerd. In systematische reviews moet de aanwezigheid van relevante subgroepen als bron van heterogeniteit tussen onderzoeken steeds worden onderzocht en moeten hypothesen kunnen worden gevormd. Beslissingsfactoren Factoren in de beslissing om de resultaten van een klinische trial of een systematische review wel of niet te gebruiken en de behandeling bij een individuele patiënt toe te passen: 55 Is de behandeling mogelijk in mijn setting? 55 Wat zijn de voor- en nadelen van de behandeling? 55 Is op grond van verschillen in relevante biologische factoren of pathofysiologische verschillen de aan de interventie toegeschreven relatieve risicoreductie bij mijn patiënt mogelijk anders? Is er sprake van comorbiditeit of contra-indicaties voor de behandeling die de succeskans kunnen verminderen? Is de manier waarop de behandeling zal worden toegepast zo anders dat de kans op gunstige en ongunstige effecten anders zal uitvallen? Zijn er sociale factoren die de kans op succesvolle toepassing van de interventie verkleinen? Zijn er redenen om aan te nemen dat in dit geval de compliance met de behandeling lager zal zijn, met een bijbehorende kleinere kans op succes? 55 Hoe groot is het absolute risico van de ongewenste uitkomst bij deze patiënt en is in dit licht de behandeling efficiënt? 55 Wat wil de patiënt zelf?

7.4 Conclusie

Bij het toepassen van evidence moet men allereerst rekening houden met de verschillende dimensies van bewijs: het onderzoektype, de consistentie van de resultaten (indien meer onderzoeken beschikbaar zijn), de kwaliteit van de afzonderlijke onderzoeken, de precisie waarmee een effect is vastgesteld, de grootte van het effect en de klinische relevantie van de gehanteerde uitkomstmaten. Een vertaalslag van hoogkwalitatieve groepsevidence naar het individuele geval is hierna mogelijk: de behandelaar gebruikt hierbij zijn pathofysiologische kennis en alle informatie die kan aangeven of de behandeling bij zijn patiënt wel effectief zal zijn. Er is altijd de vraag of de voordelen van de interventie opwegen tegen de eventuele nadelen. Voorkeuren van de patiënt dienen aan te sluiten bij de afweging van deze voor- en nadelen; een waardeoordeel van de personen die de behandeling zullen ontvangen hoort daarom altijd bij de beslissing betrokken te worden. In een ideale wereld is de behandeling altijd zeer effectief en wordt elke iatrogene schade voorkomen. In onze huidige wereld zijn echter veel dagelijkse klinische vragen nog niet te beantwoorden op basis van evidence. En, zoals hiervoor geschetst, evidence is op zichzelf nooit dwingend, zij geeft slechts informatie over de te nemen beslissingen. Het doel van een klinische beslissing is uiteindelijk de keuze voor een behandeling die het klinisch beloop verbetert in de door de patiënt gewenste zin. Een van de belangrijkste taken van de moderne arts is het informeren van de patiënt over de kansen op ongewenste uitkomsten en de effecten van behandeling.

7

174

Hoofdstuk 7 • Bewijs toepassen op individuele patiënten

Literatuur

7

Dorresteijn JAN, Wassink AMJ, Steyerber EW, Graaf Y van der, Visseren FLJ. Behandeleffect bij individuele patiënten voorspellen. Ned Tijdschr Geneeskd. 2012;156:A4510. Furukawa TA, Guyatt GH, Griffith LE. Can we individualize the ‘number needed to treat’? An empirical study of summary effect measures in meta-analyses. Int J Epidemiol 2002 Feb;31(1):72–6. Glasziou PP, Irwig LM. An evidence based approach to individualizing treatment. BMJ 1995;311:135–69. Levi M, Hovingh GK, Cannegieter SC, Vermeulen MR, Buller HR, Rosendaal FR. Bleeding in patients receiving vitamin K-antagonists that would have been excluded from trials on which the indication for anticoagulation was based. Blood 2008 May;111(9):4471–6. Locadia M, Bossuyt PM, Stalmeier PF, Sprangers MA, Dongen CJ van, Middeldorp S, Bank I, Meer J van der, Hamulyák K, Prins MH. Treatment of venous thromboembolism with vitamin K antagonists: patients’ health state valuations and treatment preferences. Thromb Haemost 2004 Dec;92(6):1336–41. Lubsen J, Tijssen JG. Large trials with simple protocols: Indications and contraindications. Control Clin Trials 1989;10:151S–60S. Sont JK, Stiphout WA van, Noordijk EM, Molenaar J, Zwetsloot-Schonk JH, Willemze R, Vandenbroucke JP. Increased risk of second cancers in managing Hodgkins disease: the 20-year Leiden experience. Ann Hematol 1992 Nov;65(5):213–8. Rovers MM, Reitsma JB. Meta-analyse op basis van individuele-patiëntengegevens. Ned Tijdschr Geneeskd. 2012;156:A4743

175

Evidence-based medicine in de praktijk M. Offringa, P.P.G. van Benthem en W.J.J. Assendelft

8.1 Inleiding – 176 8.2 Hindernissen en oplossingen – 176 8.3 Wat heeft men nodig? – 177 8.4 Evidence-based medicine in de dagelijkse praktijk – 178 8.4.1 Op een ziekenhuisafdeling – 179 8.4.2 Op een polikliniek – 180 8.4.3 In de huisartspraktijk – 180 8.4.4 Journal-clubs nieuwe stijl – 181

8.5 Beschouwing – 182

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_8, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

8

176

Hoofdstuk 8 • Evidence-based medicine in de praktijk

8.1 Inleiding

Het doel van evidence-based medicine (EBM) is behandelaars in staat te stellen het actuele en beste bewijsmateriaal efficiënt te traceren en te beoordelen op methodologische kwaliteit en bruikbaarheid in de context van de individuele patiënt. Een van de uitdagingen hierbij is om het nieuwe relevante bewijsmateriaal zo snel mogelijk toe te passen bij patiënten die daar baat bij zouden kunnen hebben. Ook is het zaak interventies waarvan het duidelijk is dat ze niet effectief zijn, niet verder te gebruiken. In dit hoofdstuk komt de vraag aan de orde hoe men in de eigen praktijk alle stappen van de EBM-methode kan implementeren en welke randvoorwaarden daarvoor nodig zijn. We beginnen met het bespreken van een aantal hindernissen die men hierbij kan tegenkomen en behandelen vervolgens de voorwaarden voor een geslaagde, systematische implementatie op de werkplek. 8.2 Hindernissen en oplossingen

8

Bij het toepassen van de EBM-methode in de dagelijkse praktijk kan men worden geconfronteerd met een aantal mogelijke obstakels. Wanneer de enthousiaste behandelaar – al dan niet na een cursus of na het doorlezen van een leerboek – met EBM aan de slag wil, stuit hij namelijk op een aantal hindernissen: 55 De methode van EBM staat soms op gespannen voet met de gangbare praktijkvoering (bijv. ‘tien minuten per patiënt’). 55 Voor de practicus zijn de (vak)specifieke evidence-based uitgaven vaak duur, soms wat minder praktijkgericht en daarom lastiger te lezen. De Engelse taal maakt de bronnen vaak minder toegankelijk. 55 Er zijn diverse Nederlandstalige bronnen die op evidence gebaseerde adviezen geven: protocollen van de specialistische wetenschappelijke verenigingen, de standaarden van het Nederlands Huisartsen Genootschap, de richtlijnen van het CBO en de wetenschappelijke verenigingen, het Farmacotherapeutisch Kompas en regionale en lokale protocollenklappers. De manier waarop de evidence wordt samengevat verschilt echter sterk. En op basis van hetzelfde materiaal worden soms tegenstrijdige adviezen gegeven (zie ook 7 H. 6). 55 De toepasbaarheid van zelf gevonden evidence bij individuele patiënten roept veel vragen op. Zo is het methodologisch meest valide onderzoek vaak uitgevoerd met zeer selecte patiëntenpopulaties. De beslissing over toepasbaarheid bij de eigen patiënt kan dan lastig zijn (zie ook 7 H. 7). 55 Men staat er alleen voor, want niet alle collega’s in het ziekenhuis voldoen aan de noodzakelijke randvoorwaarden: kennis van en toegang tot de relevante bronnen van evidence (elektronische literatuurbestanden en goede websites), ervaring met de bijbehorende onderling verschillende zoekstrategieën, de mogelijkheid om eenvoudig artikelen aan te vragen, voldoende kennis van onderzoeksmethodologie om de verschillende soorten artikelen op waarde te kunnen schatten. Voor een aantal van deze hindernissen zijn in de afgelopen jaren oplossingen gevonden die blijken te werken (zie . tabel 8.1). In het vervolg van dit hoofdstuk geven we aanknopingspunten voor een succesvolle toepassing van EBM in de dagelijkse praktijk.

177

8.3 • Wat heeft men nodig?

. Tabel 8.1 Implementatie hindernissen en oplossingen hindernis

oplossing

omvang en complexiteit van het medisch-wetenschappelijk onderzoek

gebruik bronnen waarin informatie is samengevoegd en van commentaar voorzien

ontwikkelen van klinisch beleid op basis van de evidence

gebruik bestaande richtlijnen of maak ze met collega’s start een journal-club met een ‘richtlijnenoogmerk’

toepassen van de evidence door: slechte toegang tot evidence slechte toegang tot richtlijnen

zorg voor een snelle en betrouwbare toegang tot de bronnen

organisatorische barrières

zoek prikkels en mogelijkheden om betere integratie van evidence in de praktijk te bewerkstelligen

minder effectieve nascholing

ontwikkel uw vaardigheden door gerichte nascholing en stimuleer collega’s dit ook te doen

8.3 Wat heeft men nodig? zz Toegang tot evidence

Het belangrijkste middel om frustraties te voorkómen is een snelle toegang tot de evidence. Zoeken naar informatie heeft een hoge ‘waarde’, tenzij het een enorme hoeveelheid tijd en werk kost om aan de benodigde evidence te komen. Deze tijd kan worden opgesplitst in zoektijd in de (elektronische) media en in de tijd die het kost om de gevonden informatie full text op uw bureau te krijgen. Zowel een snelle internetverbinding als een goede routine om interessante referenties in gedrukte vorm te verkrijgen zijn dus belangrijk. Dit is een van de redenen waarom het in de meeste gevallen legitiem is om zoekstrategieën te beperken tot tijdschriften of andere bronnen die full text ter beschikking zijn op uw werkplek. Neem, indien u deze mogelijkheid hebt, contact op met de bibliotheek van uw instelling. Er is vaak veel meer mogelijk dan u denkt. Indien u op internet een paar goede sites hebt gevonden (zie 7 H. 3) is het zaak deze sites gemakkelijk te kunnen terugvinden. De methode die hiervoor ter beschikking staat is om zogenoemde favorieten (bookmarks) te maken en om de goede sites op een gestructureerde manier onder diverse relevante kopjes in verschillende mappen op te slaan. U kunt uw collega’s per e-mail interessante artikelen en weblinks toesturen. Verder is een databaseprogramma om referenties en zoekacties op te slaan (zoals Procite, Refman, Endnote) aan te raden. zz Scholing

Het op elke werkplek installeren van toegang tot de evidence impliceert ook het geven van onderwijs in het gebruik van de techniek en de bronnen. Voor het scholen van uzelf en uw collega’s en voor het opslaan en het presenteren van uw activiteiten zijn een overheadprojector, een LCD-display of een beamer en een diaprogramma als Microsoft PowerPoint erg handig. Veel EBM-websites stellen namelijk goed onderwijsmateriaal in de vorm van PowerPoint-presentaties ter beschikking. Door kleine aanpassingen van deze bestaande presentaties kan eenvoudig ‘eigen’ onderwijsmateriaal worden ontwikkeld. Op verscheidene plaatsen in Nederland en

8

178

Hoofdstuk 8 • Evidence-based medicine in de praktijk

België worden momenteel cursussen georganiseerd om de vaardigheden aan te leren en aan te scherpen. U kunt besluiten of u behoefte hebt aan een zoekcursus, een critical appraisal-cursus of een (vaak meerdaagse) EBM-cursus waarin alle facetten aan de orde komen. Onderwerpen voor onderwijs en training

8

55 bekendheid met EBM-bronnen, inclusief richtlijnenwebsites 55 wat is er in de lokale bibliotheek: databases, tijdschriften, andere bronnen, hulp van clinical librarians 55 gebruik van internet 55 oefenen met de belangrijkste EBM-bronnen 55 principes van zoeken in een bibliografische database 55 begrip en gebruik van methodologische zoekfilters 55 beperkingen van MEDLINE 55 opslaan zoekstrategie en zoekresultaat 55 leren identificeren en formuleren van zoekbare vragen 55 veelgebruikte EBM-terminologie 55 kritisch beoordelen individuele artikelen (etiologie, diagnose, therapie, prognose), kwalitatief onderzoek, systematische reviews en richtlijnen aan de hand van de checklists 55 presenteren van een EBM-topic 55 toepassen in de praktijk, patiëntenvoorlichting

8.4 Evidence-based medicine in de dagelijkse praktijk

Klassiek is dat enthousiaste behandelaars in het begin moeite hebben om de evidence te vinden, kritisch te beoordelen en toe te passen. Met een geringe investering zijn deze vaardigheden echter goed te ontwikkelen, zeker als men het evidence-based werken inbouwt in de dagelijkse of wekelijkse routine van de praktijkvoering (tijdens overdrachten, patiëntbesprekingen, refereeravonden etc.). Dit inbouwen van evidence-based werken behoeft organisatie op verschillende niveaus. Er zijn inmiddels verschillende modellen bekend die laten zien dat dit goed mogelijk is, zowel op een ziekenhuisafdeling en op de polikliniek, als in de huisarts- of fysiotherapiepraktijk. Wij bespreken deze drie settingen nu kort. Niveaus waarop evidence-based werken georganiseerd moet worden 55 bij uzelf (blijf ermee bezig na de ‘cursus’ en houd uw vaardigheden op niveau) 55 bij vakgenoten met wie u dagelijks samenwerkt (stuur ze op cursus, start EBM-besprekingen) 55 in de groep collega’s (vakgroep, maatschap etc.), tijdens onderwijs: blijf vragen naar de onderbouwing van sterke meningen en adviezen 55 bij de instelling waar u werkt (onderzoek de mogelijkheden van de lokale bibliotheek, zoek EBM-collega’s in uw ziekenhuis, organiseer vakoverstijgende besprekingen met hen) 55 bij vakgenoten en andere werkers in de nationale gezondheidszorg (bijv. via evidencebased richtlijnontwikkeling)

8.4 • Evidence-based medicine in de dagelijkse praktijk

179

8.4.1 Op een ziekenhuisafdeling

Geschat wordt dat op een klinische afdeling dagelijks per drie patiënten twee beslismomenten ontstaan en er gemiddeld vijftien beslissingen per dag worden genomen waarvoor men betrouwbare informatie nodig heeft (zie 7 H. 2). Trisha Greenhalgh, huisarts en hoogleraar eerstelijnsgeneeskunde aan de London School of Medicine and Dentistry, heeft de basis voor deze beslissingen treffend samengevat: 55 traditie… (‘dat doen we hier altijd zo’); 55 een anekdote… (‘tien jaar geleden hadden we precies zo’n geval’); 55 één artikel… (‘volgens deze auteurs moet je in zo’n geval absoluut altijd…’); 55 het advies van een expert… (‘in mijn ervaring is bij deze patiënten…’); 55 financiële overwegingen… (‘die dure nieuwe middelen zijn toch niet echt beter’); 55 op basis van een grondige zoektocht naar, het kritisch beoordelen van en ten slotte het gebruik van bewijsmateriaal (evidence-based)! De valkuilen van de eerste vijf benaderingen behoeven inmiddels geen betoog meer. zz Aanknopingspunten voor een EBM-aanpak

Het ochtendrapport geeft belangrijke aanknopingspunten voor implementatie van EBM. Het ochtendrapport is een centrale en traditionele bijeenkomst in opleidingsziekenhuizen, met als functie de dienstoverdracht en de bespreking van nieuwe opnamen. Het is ook een sociaal moment. Het is heel goed mogelijk onopgeloste problemen zodanig voor te bereiden dat ze aanleiding geven tot een korte discussie met de groep, wat kan worden gevolgd door het formuleren van een PICO-vraag en een zoekstrategie voor het vinden van relevant en valide materiaal, waarop dan later wordt teruggekomen. Het formuleren van een klinische vraag met zoekstrategie en het terugkoppelen van het gevondene kan ook onderdeel zijn van het visitelopen, de bespreking van opgenomen patiënten, de internchirurgische overdracht, de röntgenbespreking of de patiëntenbespreking door coassistenten. Maar ook op de grand rounds en de refereeravond kunnen onderwerpen zeer goed op de EBM-manier worden besproken. In elke specifieke leersituatie kan ervoor worden gekozen het accent per bespreking op een van de vijf EBM-stappen te leggen. Als voorbeeld van de uitwerking van EBM-werken kan de aanpak op de afdeling neonatologie in het Emma Kinderziekenhuis AMC worden genomen. Hier wordt met succes elke week de evidence-based neonatologiebespreking gehouden. Coassistenten, arts-assistenten, fellows en stafleden spelen hierin allen een rol. Het doel is de gevonden evidence ook daadwerkelijk te implementeren, althans als deze kwalitatief goed genoeg blijkt en relevant is. De wekelijkse exercitie wordt vastgelegd in een critically appraised topic (CAT): een kort verslag van het hele proces op één A4. Inmiddels zijn CAT’s een verplicht onderdeel van de medisch-specialistische vervolgopleidingen. De evidence-based neonatologieweek, in acht stappen 1. Maandag 8.00-8.30 uur: een van de dienstdoende specialisten en een assistent vormen het EBM-team van de week. 2. Maandag 8.30-9.15 uur: tijdens de weekendoverdracht komen onopgeloste klinische problemen ter sprake. Er wordt vervolgens een keuze gemaakt welk probleem ter hand wordt genomen. 3. Maandag 9.15-12.00 uur: het EBM-team herformuleert het probleem en bereidt de zoekstrategie voor.

8

180

Hoofdstuk 8 • Evidence-based medicine in de praktijk

4. Maandag 12.00 uur tot dinsdag 12.00 uur: de zoekactie wordt verricht, relevante artikelen en hoofdstukken worden geselecteerd. 5. Dinsdag 12.00 uur tot donderdag 9.00 uur: de relevante artikelen en hoofdstukken worden kritisch gelezen. 6. Donderdag 9.00-13.00 uur: het EBM-team bereidt een presentatie voor. 7. Donderdag 13.00-14.00 uur: presentatie, discussie, voorstellen voor implementatie en planning van de verdere implementatiestappen. 8. Vóór vrijdag 16.30 uur: afronden van de CAT (critically appraised topic: een kort verslag van het hele proces op één A4).

8.4.2 Op een polikliniek

8

Op een polikliniek kunnen verschillende mogelijkheden worden overwogen. Bij de voorbespreking van categorieën nieuwe problemen op de polikliniek kan het accent liggen op de aanpak van algemene en veelvoorkomende problemen. Naast de bespreking van achtergrondvragen (zie 7 H. 2) kan aandacht worden besteed aan de evidence voor diagnostisch onderzoek en de waarde van therapeutische strategieën. Hiervoor is het ontwikkelen en actualiseren van CAT’s een goede vorm. Bij de nabespreking van een nieuwe patiënt ligt het accent op de werkdiagnose en de behandelstrategie. Hierbij kan aandacht worden besteed aan het formuleren van de PICO, de evidence voor diagnostisch onderzoek bij die patiënt en de waarde van verschillende therapeutische strategieën. Tevens kan aandacht worden besteed aan het trainen van zoekstrategieën. Bij de nabespreking van een vervolgconsult van een chronische patiënt ligt het accent op optimaliseren van het beleid. Hierbij kan aandacht worden besteed aan de waarde van therapeutische strategieën en het betrekken van de verwachtingen en voorkeuren van de patiënt in het behandelbeleid. Sommige ziekenhuizen in het buitenland zijn ertoe overgegaan een speciaal evidence centre op te richten, waar clinici met hun vragen op een snelle manier worden geholpen. Men kan daar een literatuursearch, een search gecombineerd met een kritische beoordeling of een compleet evidence report over een bepaald probleem vragen. 8.4.3 In de huisartspraktijk

Vanzelfsprekend spelen de standaarden van het Nederlands Huisartsen Genootschap een grote rol in het evidence-based werken van de Nederlandse huisarts. Daarnaast zijn er echter veel situaties waarin een standaard geen uitkomst brengt. In de huisartspraktijk doen zich namelijk veel situaties voor waar bij het ontbreken van of als aanvulling op een standaard een uitgebreidere evidence-based aanpak kan worden geïntroduceerd. Allereerst kan de voorgaande ziekenhuisaanpak ook worden gebruikt bij het opleiden van coassistenten en bij huisartsen in opleiding. Een dergelijke manier van werken kan ook worden toegepast om het eigen handelen van een huisarts te optimaliseren. Natuurlijk is dit laatste veel leuker indien het in de vorm van een toetsgroep of journal-club gebeurt. Er zijn veel overlegsituaties waarin kan worden besloten het evidence-based werken een plaats te geven, zoals de klinische avond in het ziekenhuis, de patiëntenbespreking in het hometeam of de huisartsengroep, of het farmacotherapeutisch overleg. Daarbij kan volgens het model van een journal-

8.4 • Evidence-based medicine in de dagelijkse praktijk

181

club of een critically appraised topic (CAT) worden gewerkt. CAT’s spelen ook een belangrijke rol in het EBM-onderwijs in de opleiding. Ten slotte kan de EBM-aanpak zelfs het bezoek van een artsenbezoeker meer diepgang geven. U kunt vragen om de productinformatie van tevoren op te sturen. Aan de hand van de kritische beoordeling kan dan over de plaats van het desbetreffende geneesmiddel in de huisartspraktijk worden gediscussieerd. Er zijn vrij veel boeken en websites die zich specifiek op de huisarts richten. Zie extras.bsl.nl/inleidingebm. Wees eerlijk: hoe evidence-based werkt u in de dagelijkse praktijk? Hebt u: 55 een lichamelijk onderzoek verricht met als doel de waarschijnlijkheid van verschillende mogelijke diagnosen vast te stellen dan wel uit te sluiten? 55 gedacht aan de specifieke risicofactoren bij uw patiënt en bijkomende problemen zoals comorbiditeit? 55 waar nodig gezocht naar hierbij direct relevante informatie in systematische reviews, richtlijnen, klinische trials en andere bronnen? 55 de kwaliteit van het bewijsmateriaal beoordeeld of laten beoordelen en de toepasbaarheid van de informatie bij uw patiënt bepaald? 55 de klinische, psychologische, sociale en andere problemen van uw patiënt geïnventariseerd en samen met de patiënt prioriteiten gesteld? 55 de voors en tegens van de openstaande beleidsopties met uw patiënt besproken en zijn voorkeuren laten mee wegen om te komen tot een shared evidence-based decision?

8.4.4 Journal-clubs nieuwe stijl

Journal-clubs bestaan in ziekenhuizen en huisartsengroepen. Bij toerbeurt refereert een van de leden van de club een artikel uit een tevoren toegewezen belangrijk tijdschrift. Ze zijn echter in de klassieke opzet niet overal even populair meer. Omdat de voorbereiding slechts door één groepslid wordt uitgevoerd, worden de anderen in een meer passieve rol geduwd. Steeds vaker worden daarom journal-clubs omgevormd volgens de EBM-principes. Klinische problemen worden vertaald in een zoekopdracht en één à twee artikelen worden kritisch beoordeeld met het oog op implementatie in de praktijk. Het mooiste is het onderwerp van een journal-club te laten aansluiten bij een recent patiëntenprobleem. Bij de voorbereiding van een EBM-presentatie in een journal-club houdt men het volgende voor ogen: Het kader van de vraag moet worden geschetst, alsmede de herkomst van het arti kel. In plaats van een uitputtende opsomming van methode, resultaten (tabellen en figuren) en overwegingen van de auteurs, wordt de presentatie gericht op het belang van het onderzoek bin nen het probleemgebied, de exacte vraagstelling, de belangrijkste resultaten en het belang van deze resultaten voor het beleid in de eigen praktijk. Over het algemeen zijn voor een dergelijke presentatie vijf sheets of dia’s nodig: 1. achtergrond van het probleem: ziektebeeld, stand van zaken van de behandeling, actuele problemen, situeren van het te refereren onderzoek; 2. zoekstrategie en gebruikte elektronische bronnen; 3. titel van het onderzoek, de vraagstelling, gebruikte methode om antwoord op deze vraag te geven, primaire uitkomst, gebruikte meetinstrumenten;

8

182

Hoofdstuk 8 • Evidence-based medicine in de praktijk

. Tabel 8.2 Anatomie van een CAT clinical bottom line

met een focus op de toepasbaarheid in de praktijk

question

relevante klinische vraag, herkenbare onderdelen PICO-structuur (Patient, Intervention, Comparison, Outcome)

background

Waarom deze vraag? Hoe is deze vraag ontstaan?

search strategy and outcome

Waar gezocht (PubMed e.d.) en met welke zoektermen? Welke limits zijn gebruikt? Hoeveel artikelen gevonden, hoeveel relevant voor beantwoording van de vraag? Hoe is dat bepaald? Wat waren inclusie- en exclusiecriteria van de artikelen?

relevant paper(s)

tabel

author & date

8

patient group

study type

intervention comparison outcomes

results

study weaknesses

conclusion

antwoord op de gestelde vraag en het niveau van aanbeveling

comment(s)

beperkingen van de beschouwde onderzoeken en van de CAT zelf

name, date

degene die de CAT heeft gemaakt en de datum waarop

level

4. belangrijkste resultaat met betrekking tot de vraagstelling, kwantitatieve bespreking van het effect met een 95%-betrouwbaarheidsinterval, secundaire resultaten, interpretatie en conclusie van de auteurs zelf; 5. commentaar van de presentator: plaats resultaten in de context van alle andere informatie, bias of andere methodologische valkuilen, relevantie voor de eigen praktijk, conclusie en (eventueel) implementatie. Deze gestructureerde inleiding wordt in circa twintig, maximaal dertig minuten gehouden. Het is nuttig het resultaat van een dergelijke presentatie en van de discussie met collega’s vast te leggen. Dat kan op verschillende manieren, bijvoorbeeld in de vorm van een CAT (zie . tabel 8.2). 8.5 Beschouwing

De moderne arts wordt steeds vaker geconfronteerd met de vraag wat de onderbouwende evidence is voor de te nemen behandelbeslissing. Het is dan ook zaak vanaf de werkplek toegang te hebben tot deze evidence. In de meeste gevallen is het nodig de organisatie van de praktijkvoering te evalueren en na te gaan waar er mogelijkheden zijn om barrières voor implementatie van de EBM-werkwijze uit de weg te ruimen. Factoren die soms als belemmerend worden ervaren kunnen juist ook stimulerend werken, bijvoorbeeld als patiënten de behandelaar vragen alleen behandelingen voor te schrijven waarvoor goed bewijsmateriaal bestaat. Velen verwachten dat deze vraag naar onderbouwing van de zijde van de patiënt in de nabije toekomst de belangrijkste stimulans voor het gebruik van evidence in de klinische praktijk zal zijn. De patiënt heeft via het internet ook toegang

8.5 • Beschouwing

183

tot kennis. Dit zal de kenniskloof tussen arts en patiënt verkleinen. Zeker indien de patiënt geaggregeerde evidence heeft weten te vinden, die door erkende instellingen/personen tot stand is gekomen. Dit biedt de kans om echt te komen tot shared evidence-based decisions. Evidence-based medicine is in essentie dan ook antiautoritaire geneeskunde. Toch vindt men op bepaalde afdelingen in Nederland nog sporen van de oude praktijken, de ‘alternatieven voor evidence-based medicine’, te weten eminence-based medicine, vehemence-based medicine, eloquence-based medicine, providence-based medicine, diffidence-based medicine, nervousnessbased medicine en confidence-based medicine. Deze soorten praktijkvoering uit het verleden zijn ooit treffend besproken in een artikel door Isaacs en Fitzgerald. Werken volgens de EBM-methode is uitdagend, relevant en nuttig. Het is de standaard in de Nederlandse zorg aan het worden. Om echter te voorkomen dat EBM een holle of weerzinwekkende kreet wordt of dat enthousiaste clinici bij hun eerste pogingen gefrustreerd raken, moet er een planmatige introductie, begeleiding en afstemming komen. Investeringen moeten worden gedaan en worden gestimuleerd en gefaciliteerd door directies, leidinggevenden en zorgverzekeraars. Veel Nederlandse gezondheidswerkers en instellingen hebben dit inmiddels gedaan. Op andere plaatsen dienen de voorwaarden verder te worden gecreëerd. Landelijk is er inmiddels een kritische massa behandelaars en opleiders die de principes en praktijk van EBM beheersen en kunnen overdragen aan collega’s (in opleiding). Het ontwikkelen van systematische reviews van relevant bestaand onderzoeksmateriaal moet verder worden gestimuleerd, waarna op basis van het beste beschikbare bewijsmateriaal door de verschillende wetenschappelijke beroepsverenigingen hoogkwalitatieve richtlijnen kunnen worden ontwikkeld en gebruikt. Op basis van – samen met patiënten(verenigingen) – geïdentificeerde kennislacunes kan onderzoek naar relevante problemen worden gestimuleerd. Ten slotte moet ook het EBM-proces zelf tot onderwerp van theoretisch en empirisch onderzoek worden gemaakt, waarbij de verbetering die de op evidence gebaseerde geneeskunde in zorguitkomsten brengt meetbaar moet worden gemaakt. Op basis van deze kennis kan dan worden nagedacht over de plaats van evidence in de optimale dagelijkse geneeskundige zorg. Tips om te beginnen 55 Bedenk drie situaties in uw praktijkvoering waar u het werken volgens de EBM-methode zou kunnen introduceren. 55 Zoek collega’s met wie u een EBM-journal-club kunt beginnen. 55 Inventariseer welke computerhardware en -software u al hebt en welke investeringen nog nodig zijn. 55 Onderzoek de beschikbaarheid van de diverse databases op uw werkplek en vul deze eventueel aan. Hebt u eenvoudige toegang tot full text-artikelen op uw vakgebied? 55 Vraag uzelf af hoe goed u bent in de verschillende EBM-stappen en maak een (na)scholingsprogramma voor uzelf. 55 Overleg met de financieel verantwoordelijke in uw instelling of met de lokale zorgverzekeraar hoe gelden kunnen worden vrijgemaakt voor investeringen in materialen (abonnementen, hard- en software) en training.

Er liggen veel kansen voor EBM in de praktijk. Essentieel is een planmatige, doordachte introductie.

8

185

De Cochrane Collaboration L. Hooft en R.J.P.M. Scholten

9.1 Missie – 186 9.2 Organisatie van de Cochrane Collaboration – 187 9.2.1 Cochrane Review Groups – 187 9.2.2 Fields – 190 9.2.3 The Consumer Network – 191 9.2.4 Methods Groups – 191 9.2.5 Cochrane Centres – 191

9.3 Participeren in de Cochrane Collaboration – 192 9.4 De Cochrane Library – 192 9.5 De impact van Cochrane-reviews – 193 9.6 Conclusie – 195

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8_9, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

9

186

Hoofdstuk 9 • De Cochrane Collaboration

9.1 Missie

9

De Cochrane Collaboration is vernoemd naar de internist Archie Cochrane. Al in de jaren zeventig van de vorige eeuw stelde hij voor om groepen van specialisten te vormen. Deze groepen zouden zich moeten richten op het samenvatten en actueel houden van alle bestaande evidence over de werkzaamheid van medische interventies op hun interessegebied. Zijn voorstel leidde in de jaren tachtig tot het oprichten van een internationaal samenwerkingsverband dat de Oxford Database of Perinatal Trials tot stand bracht, de voorloper van de Cochrane Library. Zijn aanbevelingen leidden tot de opening van het eerste Cochrane Centre in Oxford in 1992 en tot de oprichting van de Cochrane Collaboration in 1993. De Cochrane Collaboration is inmiddels een internationaal netwerk van meer dan 28.000 toegewijde mensen uit meer dan honderd landen. De organisatie heeft tot doel om mensen (niet alleen zorgverleners, maar ook beleidsmakers, en patiënten en hun verzorgers) te ondersteunen bij het nemen van weloverwogen beslissingen over de gezondheidszorg. Evidencebased beslissingen dienen bij voorkeur gebaseerd te worden op geaggregeerde evidence, zoals systematische reviews van goede kwaliteit. De Cochrane Collaboration beoogt al het beschikbare bewijs over het effect van medische behandelingen samen te vatten in de vorm van systematische reviews. Het werk van de Cochrane Collaboration wordt internationaal erkend als dé maatstaf voor kwaliteit. Geïnspireerd door het succes van de Cochrane-reviews over de effectiviteit van interventies is de Cochrane Collaboration in 2008 tevens gestart met het maken en verspreiden van systematische reviews van diagnostische test accuratesse (DTA). Resultaten van individuele studies worden op een vergelijkbare systematische wijze bijeengebracht en samengevat. DTA Cochrane-reviews zijn echter gecompliceerder dan systematische reviews van gerandomiseerde klinische trials. Het merendeel van het reviewwerk wordt gedaan op vrijwillige (onbetaalde) basis. Het gaat hier bijvoorbeeld om clinici die in eigen tijd een bepaald onderwerp systematisch bijhouden, onderzoekers die ter voorbereiding van een onderzoeksproject de stand van zaken betreffende hun onderzoeksonderwerp systematisch in kaart brengen of richtlijnontwikkelaars die verschillende onderwerpen systematisch samenvatten ter onderbouwing van hun richtlijn. Door internationale samenwerking en afstemming beoogt de Cochrane Collaboration dubbel werk te voorkomen teneinde de schaars beschikbare mensen en middelen optimaal te kunnen inzetten. Ook wordt gepropageerd materialen en producten met elkaar te delen. Zo kan men kosteloos beschikken over de Cochrane Handbooks voor het uitvoeren van systematische reviews (zie 7 http://handbook.cochrane.org/ en 7 http://srdta.cochrane.org/) en over Review Manager (RevMan), de door de Collaboration ontwikkelde software voor het maken van systematische reviews en het uitvoeren van meta-analyse (zie 7 www.ims.cochrane.org/revman). Het belangrijkste product van de Cochrane Collaboration is de Cochrane Database of Systematic Reviews, onderdeel van de Cochrane Library (zie 7 par. 9.4). Deze elektronische database bevat systematische reviews, meer dan vijfduizend tot dusver, die actueel worden gehouden. De motivatie voor het uitvoeren van dit monnikenwerk is duidelijk: gezien de enorme stroom wetenschappelijke publicaties en de beperkte tijd die beroepsbeoefenaren in de gezondheidszorg hebben om deze te lezen, kan het soms jaren duren voordat de resultaten van patiëntgebonden onderzoek in de dagelijkse praktijk zijn ingevoerd. Er is dus behoefte aan goede, actuele samenvattingen over de stand van zaken van de medische wetenschap. Een belangrijk kenmerk van de samenvattingen die onder auspiciën van de Cochrane Collaboration tot stand gekomen zijn, is onafhankelijkheid. De Cochrane Collaboration is een non-profitorganisatie en de productie van Cochrane-reviews wordt niet gestuurd door partijen die mogelijk belang hebben bij de resultaten van reviews, zoals de farmaceutische

9.2 • Organisatie van de Cochrane Collaboration

187

THE COCHRANE COLLABORATION® . Figuur 9.1 Logo van de Cochrane Collaboration.

industrie of financiers van de gezondheidszorg. De verschillende groeperingen binnen de Cochrane Collaboration worden gefinancierd door een verscheidenheid van bronnen, zoals overheden, universiteiten, ziekenhuizen, fondswervende- en gezondheidszorginstellingen of zelfs persoonlijke donaties. Het logo van de Cochrane Collaboration (zie . figuur 9.1) bevat een voorbeeld van een deel van de resultaten van een van de eerste systematische reviews. Tussen de twee C’s staat een grafische weergave van een systematische review van zeven gerandomiseerde onderzoeken. Elk horizontaal lijntje geeft de uitkomst van een onderzoek weer, waarbij de lengte van het lijntje het 95%-betrouwbaarheidsinterval aangeeft. Het derde lijntje betreft overigens een Nederlands onderzoek uit 1980. De ruit is het gecombineerde (statistisch gepoolde) resultaat van de zeven onderzoeken. Resultaten die links van de verticale lijn (relatieve risico is 1) liggen, wijzen in deze meta-analyse op een gunstig effect van de onderzochte therapie ten opzichte van de controlegroep. Het diagram toont wat aan het eind van de jaren zeventig van de vorige eeuw uit gerandomiseerd onderzoek bekend was over het effect van het toedienen van corticosteroïden aan vrouwen met een dreigende vroeggeboorte op de overlevingskansen van hun kind. De conclusie van deze systematische review was dat de kans dat een te vroeg geborene aan de gevolgen van de vroeggeboorte overlijdt met ongeveer 30% wordt verminderd indien vóór de geboorte corticosteroïden aan de moeder worden toegediend ter bevordering van de foetale longrijpheid. Vóór het verschijnen van deze systematische review in 1989 hadden veel obstetrici en kinderartsen zich niet gerealiseerd dat deze behandeling zo effectief was. Als gevolg hiervan zijn in de tussentijd vele baby’s onnodig overleden. Dit is een van de vele voorbeelden die aangeven dat het achterwege blijven van actuele systematische overzichten grote gevolgen kan hebben. 9.2 Organisatie van de Cochrane Collaboration

De Cochrane Collaboration bestaat uit verschillende groeperingen (in Cochrane jargon entities genoemd) met specifieke kerntaken, die hierna worden beschreven (zie . figuur 9.2). The Steering Group houdt toezicht op het beleid van de Cochrane Collaboration en bestaat uit afgevaardigden vanuit de diverse groeperingen binnen de organisatie. 9.2.1 Cochrane Review Groups

De Cochrane Review Groups (CRG’s) zijn ongetwijfeld de belangrijkste groepering van de Cochrane Collaboration. Er zijn momenteel meer dan vijftig van deze reviewgroepen. CRG’s

9

Hoofdstuk 9 • De Cochrane Collaboration

fr o m

188

Fields

se

nt

a ti

ves

The Steering Group pr

e

Cochrane Centres

t

f re

or

po is made u

sup The Consumer Network

p

Methods Groups

Cochrane Review Groups

. Figuur 9.2 De structuur en organisatie van de Cochrane Collaboration.

9

bestrijken een specialisme, ziektegebied of een bepaalde aandoening, bijvoorbeeld nierziekten (Renal Group), kinderkanker (Childhood Cancer Group) of beroerte (Stroke Group). Een actueel overzicht van de CRG’s kan gevonden worden op 7 www.cochrane.org/contact/reviewgroups. De thuisbases van de CRG’s zijn verspreid over de hele wereld. Nederland huisvest twee CRG’s (zie . tabel 9.1): de Fertility Regulation Group in Leiden en de Childhood Cancer Group in Amsterdam. De Back Group in Amsterdam deelt haar thuisbasis met Toronto, Canada. Iedere reviewgroep wordt gecoördineerd door een redactie (editorial team) die verantwoordelijk is voor de prioritering van de onderwerpen en de kwaliteit van systematische reviews (door de reviewers te maken). Het belangrijkste verschil tussen Cochrane-reviewgroepen en redacties van ‘papieren’ tijdschriften is dat experts van CRG’s hun auteurs bijstaan bij het maken van de review en veel input leveren. Ondersteund door de reviewgroep schrijven de auteurs eerst een protocol waarin wordt uiteengezet hoe zij de review zullen gaan uitvoeren. Dit protocol wordt voorgelegd aan peer reviewers en na goedkeuring gepubliceerd in de Cochrane Database of Systematic Reviews. Op deze wijze wordt bekendgemaakt dat aan dit onderwerp wordt gewerkt, zodat dubbel werk kan worden voorkomen. Daarna verzamelen en beoordelen de reviewers diagnostische test accuratesse of gerandomiseerde onderzoeken (of andere soorten interventie-onderzoek: het motto is de best available evidence te gebruiken) en schrijven zij de uiteindelijke systematische review. Ook dit wordt eerst voorgelegd aan peer reviewers en na goedkeuring gepubliceerd in de Cochrane Database of Systematic Reviews. Na afronding van de review is men echter niet klaar. Het elektronisch gepubliceerde overzicht moet periodiek worden aangepast naar aanleiding van eventueel nieuw verschenen informatie. De review wordt dus voortdurend actueel gehouden. Een andere belangrijke taak van CRG’s is het onderhouden van een zogenoemd specialised register, een database met verwijzingen naar voor de onderwerpen van de CRG relevante randomised controlled trials (RCT’s). Deze specialised registers bevatten naast downloads van MEDLINE en EMBASE ook referenties naar artikelen uit niet-geïndexeerde tijdschriften (tijdschriften die niet in deze twee belangrijke databases zijn opgenomen) en referenties die door handmatig doorzoeken van specialistische tijdschriften boven tafel zijn gekomen. Hieronder vallen ook verwijzingen naar bijvoorbeeld conferentieverslagen. Alle RCT’s en CCT’s in het

9.2 • Organisatie van de Cochrane Collaboration

189

. Tabel 9.1 Cochrane-groepen met een Nederlandse thuisbasis Fertility Regulation Group opgericht

1997

doelstelling

het maken en actueel houden van systematische reviews over de effectiviteit van processen waarmee mensen hun vruchtbaarheid, familiegrootte en geboorte-interval regelen

thuisbasis

Leids Universitair Medisch Centrum, Leiden

website

7 www.lumc.nl/1060/cochrane

Childhood Cancer Group opgericht

2006

doelstelling

het maken en actueel houden van systematische reviews over interventies en diagnostische tests voor kinderen en jongvolwassenen met kanker met betrekking tot preventie, behandeling, ondersteunende zorg, psychosociale zorg, palliatieve zorg en de late effecten van behandeling

thuisbasis

Emma Kinderziekenhuis/Academisch Medisch Centrum, Amsterdam

website

7 www.ccg.cochrane.org

Back Group opgericht

1996

doelstelling

het maken en actueel houden van systematische reviews over interventies en diagnostische tests voor aandoeningen van de rug en nek

thuisbasis

Vrije Universiteit medisch centrum, Amsterdam (gedeeld met Toronto, Canada)

website

7 www.cochrane.iwh.on.ca

Rehabilitation and Related Therapies Field opgericht

1995

doelstelling

het identificeren van onderwerpen binnen het aandachtsgebied van het Field, mensen enthousiasmeren voor het maken van een systematische review die aansluit bij de behoeften van het Field en het onderhouden van een specialised register voor het Field

thuisbasis

Universiteit Maastricht, Maastricht

website

7 www.cebp.nl

Primary Health Care Field opgericht

2007 (wijziging thuisbasis)

doelstelling

het bevorderen van de kwaliteit, de hoeveelheid, de verspreiding, de toegankelijkheid en de toepasselijkheid van Cochrane systematische reviews die relevant zijn voor de eerstelijnszorg

thuisbasis

Universitair Medisch Centrum St Radboud, Nijmegen (gedeeld met collega’s uit NieuwZeeland en Ierland)

website

7 www.cochraneprimarycare.org

Screening and Diagnostic Tests Methods Group opgericht

1996

doelstelling

ontwikkelen en evalueren van methodes voor systematische reviews en meta-analyses betreffende diagnostiek en screening

9

190

Hoofdstuk 9 • De Cochrane Collaboration

. Tabel 9.1 Vervolg thuisbasis

Academisch Medisch Centrum, Amsterdam

website

7 www.sdtmg.cochrane.org

Prognosis Methods Group opgericht

2008

doelstelling

ontwikkelen en evalueren van methodes voor systematische reviews en meta-analyses betreffende prognose

thuisbasis

Julius Centrum, Universitair Medisch Centrum Utrecht, Utrecht (gedeeld met Melbourne, Australië)

website

7 www.prognosismethods.cochrane.org

Belgian Branch of the Dutch Cochrane Centre

9

opgericht

2002

doelstelling

bevorderen van het maken, onderhouden en verspreiden van systematische reviews, Belgische auteurs werven, ondersteunen en trainen, en een bijdrage leveren aan Review Groups, Fields, Methods Groups en andere entities van de Cochrane Collaboration

thuisbasis

Katholieke Universiteit Leuven, Leuven, België

website

7 www.cebam.be

Dutch Cochrane Centre opgericht

1994

doelstelling

bevorderen van het maken, onderhouden en verspreiden van systematische reviews en bevorderen van de toepassing van evidence-based medicine in Nederland, werven, opleiden en ondersteunen van Nederlandse auteurs en bijdragen aan het internationale Cochrane netwerk

thuisbasis

Academisch Medisch Centrum, Amsterdam

website

7 www.cochrane.nl

specialised register worden vervolgens tevens opgenomen in The Cochrane Central Register of Controlled Trials (CENTRAL, zie 7 par. 9.4). CENTRAL en de specialised registers van de CRG’s zijn zeer belangrijke bronnen van evidence voor systematische reviews en waardevolle producten van de Cochrane Collaboration. 9.2.2 Fields

De Cochrane Review Groups hebben, met een enkele uitzondering, doorgaans een ziekte(categorie) als uitgangspunt. Bij de activiteiten van Cochrane Fields (ook wel Networks genoemd) kan het gaan om een categorie patiënten (bijv. kinderen), een setting in de gezondheidszorg (eerste lijn) of een groep therapieën (paramedische zorg). Een actueel overzicht van Cochrane Fields kan gevonden worden op 7 www.cochrane.org/contact/fields-networks. Nederland herbergt twee Fields: het Rehabilitation and Related Therapies Field in Maastricht en het Primary Health Care Field in Nijmegen (zie . tabel 9.1).

9.2 • Organisatie van de Cochrane Collaboration

191

Fields behartigen de belangen van hun aandachtsgebied in de relevante CRG’s. Bovendien zorgt een Field ervoor dat alle gerandomiseerde onderzoeken van hun aandachtsgebied worden opgespoord en in een specialised register worden opgenomen teneinde reviewers te ondersteunen bij het zoeken naar studies tijdens het uitvoeren van de review. Ook brengen zij de activiteiten van de Cochrane Collaboration onder de aandacht van hun vakgenoten op (inter)nationale congressen. 9.2.3 The Consumer Network

Een speciaal Field is het Consumer Network. Dit is opgericht binnen de Cochrane Collaboration om de belangen van de consumers (patiënten) te kunnen laten behartigen door ervaringsdeskundigen. Patiënten leveren een belangrijke bijdrage aan verschillende Cochrane-groeperingen. Zo biedt het Consumer Network gelegenheid tot het houden van overleg tussen en het informeren van consumers en ondersteunt het de deelname van consumers bij Cochranewerkzaamheden. Patiënten worden bijvoorbeeld actief betrokken bij het bepalen van relevante uitkomstmaten voor (nieuwe) systematische reviews. Ook verzorgt het Consumer Network de productie van zogenoemde plain language summaries, samenvattingen van Cochrane-reviews zonder medisch-technische terminologie (zie 7 www.summaries.cochrane.org). 9.2.4 Methods Groups

Voor het ontwikkelen van de methodes en statistiek betreffende het verrichten van een systematische review zijn verschillende Methods Groups gevormd. Het doel is nieuwe of betere methodes te ontwikkelen. Technische en methodologische problemen die zich in ieder stadium van het maken en verspreiden van een systematische review kunnen voordoen, vormen het onderwerp voor deze Methods Groups. Op de jaarlijkse bijeenkomsten van de Cochrane Collaboration, de Cochrane Colloquia, organiseren deze Methods Groups drukbezochte workshops. Een actueel overzicht van Cochrane Methods Groups kan gevonden worden op 7 www. cochrane.org/contact/methods-groups. Van twee groepen komen de coördinatoren uit Nederland: van de Screening and Diagnostic Tests Methods Group en de Prognosis Methods Group (zie . tabel 9.1). 9.2.5 Cochrane Centres

Cochrane Centres vertegenwoordigen de Cochrane Collaboration in een bepaalde regio of bepaald taalgebied, in principe vervullen medewerkers van Cochrane Centres de rol van ambassadeur van de Cochrane Collaboration. Het Dutch Cochrane Centre vertegenwoordigt de Cochrane Collaboration in Nederland en de Belgian Branch of the Dutch Cochrane Centre in België (zie . tabel 9.1). Cochrane Centres proberen mensen enthousiast te maken voor het maken van een Cochrane-review, hen te trainen en zo nodig te assisteren bij het uitvoeren van de review. Zij doen dit door het aanbieden van cursussen en workshops aan personen die een Cochrane-review gaan schrijven. Verder leveren Centres ondersteuning aan Review Groups, Methods Groups en Fields in hun regio (zie . tabel 9.1). Ook participeren medewerkers in en initiëren onderzoek gericht op het verder ontwikkelen en verbeteren van de kwaliteit van systematische reviews en coördineren zij de activiteiten van de Cochrane Collaboration in hun

9

192

Hoofdstuk 9 • De Cochrane Collaboration

regio, zoals het promoten van evidence-based medicine en het bevorderen van de toegankelijkheid van Cochrane-reviews. 9.3 Participeren in de Cochrane Collaboration

Een van de motto’s van de Cochrane Collaboration is ‘Enabling wide participation’: deelname aan de Cochrane Collaboration staat in principe open voor iedereen. De meest voor de hand liggende manier om een bijdrage aan de Collaboration te leveren is het schrijven van een review (zie kader ‘Schrijven van een systematische review’ voor de procedure). Ook kan men zich opwerpen als peer reviewer voor protocollen en reviews. Wil men het eigen aandachtsgebied profileren, dan kan dat door deelname aan het desbetreffende Field. Heeft men ervaringsdeskundigheid op een bepaald ziektegebied, dan ligt participatie aan het Consumer Network voor de hand en heeft men bijzondere methodologische of statistische expertise, dan kan men zich aansluiten bij een Methods Group. Schrijven van een systematische review voor de Cochrane Collaboration

9

1. Kijk in de Cochrane Library of iemand wellicht al met dit onderwerp bezig is en een protocol of review heeft gepubliceerd. Is dat niet het geval: 2. Stel uw reviewteam samen, dat bij voorkeur bestaat uit een mix van personen met inhoudelijke en methodologische deskundigheid en ervaring. 3. Meld de titel van uw review aan bij de desbetreffende Cochrane Review Group en gebruik hiervoor een titelregistratieformulier (TRF). Indien akkoord: 4. Volg de workshop ‘Ontwikkelen van een systematische review’ bij het Dutch Cochrane Centre of de Belgian Branch. 5. Schrijf het protocol en later de review in samenwerking met en ondersteund door de reviewgroep. Maak hierbij gebruik van het programma Review Manager (RevMan). 6. Houd uw review up-to-date.

Voor gedetailleerde instructies: zie de website van de desbetreffende Cochrane Review Group en het Reviewers’ Handbook. Ook kunt u altijd contact opnemen met de Managing Editor van de Review Group. Nederland levert een aanzienlijke bijdrage aan de Cochrane Collaboration: wij nemen op dit moment de vijfde plaats in wat betreft het aantal deelnemers aan de Cochrane Collaboration en zijn daarmee na het Verenigd Koninkrijk, Australië, de Verenigde Staten en Canada het eerste niet-Engelstalige land op de lijst van deelnemers. Informatie over hoe met bepaalde Review Groups, Centres of Fields contact kan worden opgenomen is te vinden op de website van de Cochrane Collaboration (7 www.cochrane.org). Voor meer informatie kan men uiteraard tevens terecht bij het regionale Cochrane Centre: het Dutch Cochrane Centre (7 www.cochrane.nl) of de Belgian Branch (7 www.cebam.be). 9.4 De Cochrane Library

De Cochrane Library (7 www.thecochranelibrary.com) is het belangrijkste product van de Cochrane Collaboration. De Cochrane Library bestaat uit verschillende elektronische databases en wordt uitgegeven via internet, waar de abstracts en de plain language summaries van de reviews

9.5 • De impact van Cochrane-reviews

193

overigens ook kosteloos kunnen worden geraadpleegd. De Cochrane Library bevat simpele zoekopties en ook zoeksystemen voor gevorderden, gebaseerd op MeSH-termen (zie 7 H. 3). De Cochrane Library bevat onder meer de volgende databases: 55 De Cochrane Database of Systematic Reviews: een database met complete reviews en protocollen voor reviews. De protocollen worden gepubliceerd om bekend te maken dat aan deze onderwerpen wordt gewerkt, zodat duplicatie wordt voorkomen. Deze database bevat ook systematische reviews van empirisch methodologisch onderzoek. 55 Het Cochrane Central Register of Controlled Trials: de compleetste database met verwijzingen naar (quasi) gerandomiseerde onderzoeken. Het bevat ook referenties naar onderzoeken die gepubliceerd zijn in tijdschriften die niet in MEDLINE of EMBASE voorkomen en referenties die door handmatig zoeken van specialistische tijdschriften zijn geïdentificeerd. 55 Het Cochrane Methodology Register: een database met verwijzingen naar artikelen over de methodologie en statistiek voor het maken van systematische reviews. 9.5 De impact van Cochrane-reviews

In deze paragraaf worden enkele voorbeelden gegeven van situaties waarin Cochrane-reviews een belangrijke rol hebben gespeeld in het besluitvormingsproces van beroepsbeoefenaars in de gezondheidszorg, beleidsmakers en consumers. zz Het effect van antibiotica bij otitis media bij kinderen

In 1997 verscheen een Cochrane-review over het effect van antibiotica bij otitis media bij kinderen. Uit de review bleek dat antibiotica een bescheiden effect sorteerden op de pijnklachten in de eerste paar dagen, maar geen effect hadden op de gehoorklachten. Na antibioticagebruik werden echter meer bijwerkingen waargenomen. Naar aanleiding van deze review werd in een huisartspraktijk in het Verenigd Koninkrijk een onderzoek opgezet waarin de ouders van kinderen met een middenoorontsteking door middel van een korte schriftelijke uitleg op de hoogte werden gebracht van de resultaten van de review. Er werd een recept uitgeschreven voor antibiotica en het werd aan de ouders overgelaten of zij hiervan gebruik wilden maken. Vergeleken met een controlepraktijk trad 20% meer reductie op in antibioticagebruik voor otitis media ten opzichte van de voorgaande periode. zz Het effect van albuminesuppletie op de sterfte

In 1998 zorgde een Cochrane-review over het effect van albuminesuppletie bij patiënten in kritieke toestand op de sterfte van patiënten met hypovolemie, brandwonden of hypalbuminemie voor nogal wat opschudding en publiciteit. In de review waren aanwijzingen gevonden voor een mogelijke oversterfte na albuminesuppletie waarna het toepassen ervan drastisch terugliep, ondanks een sterke lobby van de fabrikanten van albumineoplossingen. Naar aanleiding hiervan werd een groot gerandomiseerd klinisch experiment uitgevoerd waarin suppletie met albumine werd vergeleken met fysiologische zoutoplossing. Uit deze grote trial bleek dat albuminesuppletie geen reductie in sterfte gaf en ook niet tot oversterfte leidde. Er werden geen verschillen in andere uitkomsten waargenomen. De conclusie is nog steeds terughoudend te zijn met albuminesuppletie.

9

194

Hoofdstuk 9 • De Cochrane Collaboration

zz Het effect en de bijwerkingen van kinkhoestvaccinaties

In 2004 verscheen een systematische review over kinkhoestvaccins waarin cellulaire vaccins werden vergeleken met acellulaire vaccins. De acellulaire vaccins bleken effectiever te zijn dan de cellulaire vaccins en aanzienlijk minder ernstige bijwerkingen te hebben. Op basis van deze review adviseerde de Gezondheidsraad de minister zo snel mogelijk over te gaan op het gebruik van een acellulair combinatievaccin. zz Het effect van type hulpverlening tijdens de Aziatische tsunami

9

Op 26 december 2004 verwoestte een tsunami vele kusten van landen grenzend aan de Indische Oceaan. Bij rampen behoort een eenmalige debriefing tot de standaardzorg. Slachtoffers of hulpverleners bij rampen krijgen de gelegenheid om hun emoties (individueel of in een groep) te uiten. Het doel van deze eenmalige debriefing is om directe psychologische nood te verminderen evenals de ontwikkeling van psychologische nood te voorkomen, in het bijzonder een posttraumatische stressstoornis (PTSS). De coördinator van het South Asian Cochrane Network maakte deel uit van een van de teams die werden gevormd door de overheid om psychosociale steun te verlenen. Zijn team controleerde eerst het bewijsmateriaal en vond een relevante Cochrane-review over de effecten van eenmalige debriefing. De review gaf aan dat de posttraumatische stresssymptomen en de andere psychiatrische symptomen niet significant verminderden. Sterker nog, in één studie werd een significant verhoogd risico op PTSS gevonden een jaar na de eenmalige debriefing. Naar aanleiding van deze resultaten is geadviseerd om terughoudend te zijn met het verlenen van eenmalige debriefing aan slachtoffers van de tsunami. zz Het effect van griepremmers

Neuraminidaseremmers, zoals oseltamivir, worden in veel landen (ook in Nederland) regelmatig voorgeschreven aan grieppatiënten die met complicaties in het ziekenhuis belanden. In veel landen zijn uit angst voor een grieppandemie (o.a. tijdens de vogelgriepuitbraak (H5N1) in 2005 en de Mexicaanse griep in 2009) voorraden aangelegd om (kwetsbare) mensen al bij de eerste ziekteverschijnselen te beschermen tegen nieuw opduikende griepvirussen waartegen nog geen vaccin is. Het idee was dat griepremmers de verspreiding van het virus zouden vertragen en dat patiënten minder ernstig ziek zouden worden. In 2012 verscheen een nieuwe versie van een eerder in 2009 gepubliceerde Cochrane-review over de effectiviteit van griepremmers, zoals zanamivir en oseltamivir. Naast het beschrijven en samenvatten van gepubliceerde RCT’s hebben de onderzoekers hun dataset uitgebreid met rapporten en documenten met niet-gepubliceerde informatie over de werkzaamheid van deze middelen. Deze werden verkregen van fabrikanten uit de Verenigde Staten, het Verenigd Koninkrijk, Europa en Japan en de Europese Geneesmiddelen Autoriteit (EMA). Helaas hebben de reviewauteurs moeten concluderen dat het niet te zeggen valt of het gebruik van remmers ernstige complicaties bij grieppatiënten, zoals longontsteking, voorkómt. Dat komt mede doordat niet alle fabrikanten onderzoekgegevens openbaar beschikbaar hebben willen stellen. Als gevolg van deze Cochrane-review blijven de griepremmersvoorraden waarschijnlijk grotendeels ongebruikt, tenzij toekomstige analyses tot andere inzichten zullen leiden. In april 2013 maakte een van de fabrikanten namelijk bekend dat hij bereid is om alle gegevens openbaar te maken, maar pas nadat hij bepaalde gegevens heeft bewerkt om zo de privacy van patiënten en de commerciële belangen te beschermen. Hopelijk zullen deze gegevens uiteindelijk ter beschikking worden gesteld en bruikbaar zijn, zodat een compleet overzicht kan worden geven over de werkzaamheid van dergelijke middelen.

9.6 • Conclusie

195

9.6 Conclusie

De Cochrane Collaboration neemt in de medisch-wetenschappelijke literatuur en de medische praktijk een belangrijke plaats in, zoals duidelijk wordt geïllustreerd door de hiervoor beschreven voorbeelden. Het feit dat de productie van Cochrane-reviews niet wordt gestuurd door partijen die mogelijk belang hebben bij de resultaten van reviews is een belangrijke reden voor deze verworven positie. Bovendien heeft de Cochrane Collaboration als doel voortdurend nieuwe of betere methodes te ontwikkelen voor het verrichten van een systematische review. Dit is een goede zaak, aangezien systematische reviews kunnen helpen bij het nemen van geïnformeerde beslissingen en dus kunnen leiden tot een belangrijke verandering in de gezondheidszorg.

9

197

Bijlagen Verklarende woordenlijst – 199 Register – 207

199

Verklarende woordenlijst

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

200

Verklarende woordenlijst

Cursief geschreven woorden in de tekst van de begrippenlijst verwijzen naar andere in de lijst opgenomen begrippen. Verklarende woordenlijst a-priorikans Zie voorafkans. a-posteriorikans Zie achterafkans. absolute risico Zie risico. absolute risicoreductie (Eng: absolute risk reduction; ARR) Zie risicoverschil (RV). absolute risicotoename (Eng: absolute risk increase; ARI) Zie risicoverschil (RV). achterafkans In diagnostisch onderzoek: de kans op de vermoede ziekte of aandoening op basis van een diagnostische testuitslag. achtergrondrisico Kans (of risico) op de bestudeerde uitkomst in de referentiegroep (controlegroep). Ook baseline risk genoemd.

associatiemaat Zie effectmaat. attributief risico (Eng: attributable risk) Zie risicoverschil (RV). baseline risk Zie achtergrondrisico. betrouwbaarheid Afwezigheid van toevallige fouten. Bijvoorbeeld betrouwbaarheid van een meetinstrument: een meetinstrument is betrouwbaar als verschillende onderzoekers onafhankelijk van elkaar (of dezelfde onderzoeker op verschillende momenten) met dit meetinstrument vrijwel dezelfde uitkomsten kunnen verkrijgen. Ook wel reproduceerbaarheid genoemd.

betrouwbaarheidsinterval Het interval van numerieke waarden waarvan we met een bepaalde zekerheid mogen aannemen dat de werkelijke waarde van de parameter erin ligt. Zo geeft een 95%-betrouwbaarheidsinterval de waarden aan waarvan we met 95% zekerheid mogen aannemen dat de werkelijke waarde van de bestudeerde parameter zich ertussen bevindt. Hoe smaller het betrouwbaarheidsinterval, des te preciezer de schatting van de waarde van de bestudeerde parameter. Een betrouwbaarheidsinterval wordt smaller naarmate er meer patiënten in het onderzoek zijn opgenomen. bias (vertekening) Vertekening van de resultaten van een onderzoek door systematische fouten die worden veroorzaakt door de manier waarop een empirisch onderzoek is ontworpen en uitgevoerd. Zie ook selectiebias, informatiebias en confounding. blinde beoordeling testuitslagen In diagnostisch onderzoek: beoordeling van het resultaat van de ene test zonder kennis van het resultaat van de andere test (ofwel onafhankelijke (blinde) beoordeling van de indextest en de referentietest en vice versa). blindering in effectonderzoek Onwetendheid over de toegewezen behandeling in effectonderzoek. Blindering van de patiënt: door blindering van de patiënt wordt voorkomen dat deze door zijn voorkeuren bewust of onbewust een grotere compliance met het protocol zal hebben en de uitkomstmeting daardoor wordt beïnvloed. Blindering van de patiënt wordt bereikt door de index- en referentiebehandeling uiterlijk identiek te maken (in de vorm van een placebobehandeling). Blindering van de behandelaar: door blindering van de behandelaar wordt voorkomen dat deze, omdat hij op de hoogte is van de aard van de toegewezen behandeling, een bepaald enthousiasme zal uitstralen (selectieve vergroting van het placebo-effect) en zich in verschillende mate aan het onderzoeksprotocol zal houden (door bijvoorbeeld aan de placebogroep aanvullende behandeling aan te bieden). Blindering van de effectbeoordelaar: door blindering van de effectbeoordelaar wordt voorkomen dat deze de effecten van index- en referentiebehandeling verschillend zal beoordelen. Indien een onderzoek als dubbelblind wordt beschreven betreft dit meestal blindering van de patiënt en de effectbeoordelaar.

case-control study Zie patiëntcontroleonderzoek. clusterrandomisatie (Eng: cluster randomisation) Randomisatie op het niveau van groepen individuen (in plaats van aparte individuen). Soms is het niet mogelijk om op patiëntniveau te randomiseren, omdat patiënten in de

Verklarende woordenlijst

201

controlegroep dan ook onderdelen van de interventie zouden kunnen krijgen. Dit speelt bijvoorbeeld wanneer een behandelaar of team na een uitgebreide training een probleem op een bepaalde manier moet aanpakken of wanneer de interventie een hele verandering van de zorg betekent.

cohort Omschreven groep personen die in de tijd worden gevolgd. cohortonderzoek Een onderzoek, uitgaande van cohorten van personen met de te onderzoeken determinant (bijvoorbeeld aanwezigheid van of blootstelling aan een risicofactor, schadelijke stof, leefstijlfactor, persoonskenmerk) en personen zonder die determinant. De onderzochte personen worden gevolgd in de tijd en dienen bij aanvang vrij te zijn van de onderzochte uitkomst en nog in staat te zijn de onderzochte uitkomst te krijgen. Per groep wordt vastgesteld hoeveel personen gedurende de follow-upperiode de uitkomst krijgen. De sterkte van het verband tussen de determinant en de uitkomst kan worden uitgedrukt in een risicoverschil, een relatief risico of een oddsratio.

confounding Vermenging van het effect van de bestudeerde determinant (centrale determinant) op de uitkomst door andere determinanten. Een determinant is een confounder als deze zelf een onafhankelijke determinant is van de bestudeerde uitkomst én gerelateerd is met de centrale determinant, maar geen tussenschakel is in de keten tussen de centrale determinant en de uitkomst. Een voorbeeld van confounding: het relatieve risico voor het optreden van een myocardinfarct van personen met factor X ten opzichte van personen zonder factor X bedraagt 4. Als het percentage rokers onder personen met factor X hoger is dan onder personen zonder die factor, wordt een deel van de myocardinfarcten bij personen met X mogelijk veroorzaakt door roken. Na correctie in de analyse voor roken bedraagt het relatieve risico 2. Roken, een determinant van myocardinfarct, is in dit voorbeeld een confounder voor de relatie tussen factor X en myocardinfarct.

constructvaliditeit De mate waarin de uitslagen van scores op een meetinstrument consistent zijn met de resultaten van andere meetinstrumenten. Het te valideren meetinstrument moet hoog correleren met andere meetinstrumenten die hetzelfde construct beogen te meten (convergente validiteit) en laag correleren met meetinstrumenten die een ander construct beogen te meten (divergente validiteit). controlegroep Zie referentiegroep. criteriumvaliditeit De mate waarin de scores op een meetinstrument een adequate afspiegeling zijn van een gouden standaard.

cross-sectional study (transversaal onderzoek) Zie dwarsdoorsnedeonderzoek. cumulatieve incidentie De proportie (het percentage) van nieuw optredende gebeurtenissen (bestudeerde uitkomsten, ziektegevallen) in een omschreven groep personen (cohort) in een vastgestelde periode. Hetzelfde als het risico of de kans op de onderzochte gebeurtenis. doelmatigheid Werkzaamheid van een interventie vastgesteld in interventieonderzoek onder voor de onderzochte groep gangbare dagelijkse omstandigheden (medische zorg). Deze vorm van evaluatie omvat zowel de effectiviteit als het gangbare gebruik in de praktijk. Zie ook effectiviteit. dwarsdoorsnedeonderzoek Onderzoek waarbij op één moment in de tijd de aan- of afwezigheid van zowel de determinant als de uitkomst wordt vastgesteld. Door het ontbreken van een volgorde in tijd tussen determinant en uitkomst is een dwarsdoorsnedeonderzoek doorgaans ongeschikt voor het vaststellen van causale relaties (behalve bij onveranderlijke determinanten die per definitie voorafgaan aan de uitkomst, zoals genetische factoren).

effectiveness Zie doelmatigheid. effectiviteit Werkzaamheid van een interventie zoals vastgesteld in interventieonderzoek onder ideale omstandigheden. Geeft antwoord op de vraag: hebben patiënten meer baat dan schade van deze interventie indien ze de instructies volledig opvolgen (volledig compliant zijn)? Zie ook doelmatigheid. effectmaat Eenheid waarmee het effect in een groep wordt afgezet tegen dat in een andere groep. Voorbeelden van effectmaten (associatiematen) zijn het risicoverschil, het relatieve risico en de oddsratio. efficacy Zie effectiviteit. evidencetabel Overzicht van de belangrijkste studies die antwoord geven op een bepaalde uitgangsvraag; bedoeld om het gebruikte bewijsmateriaal overzichtelijk en compact weer te geven voor de lezer van de richtlijn. fout-negatieven In diagnostisch onderzoek: personen die op grond van de uitslag van een diagnostische test (indextest) ten onrechte als niet-ziek worden geduid.

202

Verklarende woordenlijst

fout-positieven In diagnostisch onderzoek: personen die op grond van de uitslag van een diagnostische test (indextest) ten onrechte als ziek worden geduid. gouden standaard In diagnostisch onderzoek: de test waarvan algemeen wordt geaccepteerd dat deze de werkelijke situatie (ziek of niet-ziek) het beste weergeeft, ook wel referentietest genoemd. Bij afwezigheid van een gouden standaard wordt de te bestuderen indextest vaak vergeleken met de best voorhanden zijnde referentietest of wordt het langetermijnbeloop van de aandoening als referentietest gebruikt. Uitkomsten van onderzoeken kunnen onderling verschillen omdat verschillende referentietesten zijn gebruikt. GRADE (Grading of Recommendations Assessment, Development and Evaluation) Werkgroep die zich bezighoudt met de stagering van wetenschappelijk bewijs (de ‘levels of evidence’) en aanbevelingen doet voor ordening van het wegingsproces van wetenschappelijk bewijs. Zie ook level of evidence. inceptiecohort Een cohort van personen die in hetzelfde stadium (doorgaans een zo vroeg mogelijk stadium) van de onderzochte aandoening of ziekte verkeren.

incidentie Het aantal nieuw optredende gebeurtenissen (bestudeerde uitkomsten, ziektegevallen) in een populatie gedurende een vastgestelde periode. Zie ook cumulatieve incidentie. indexgroep In een randomised controlled trial of cohortonderzoek: de groep personen die de onderzochte interventie ontvangen of blootgesteld zijn. indextest In diagnostisch onderzoek: de test waarvan de eigenschappen worden onderzocht. informatiebias Vertekening van de effectschatting ten gevolge van systematische fouten bij het meten van de onderzoeksvariabelen (blootstelling, uitkomsten, confounders) waardoor misclassificatie optreedt. Misclassificatie kan non-differentieel zijn (onafhankelijk van de blootstellingsstatus of uitkomst; de proportie misclassificatie is dan in beide groepen hetzelfde) of differentieel (afhankelijk van de blootstellingsstatus of uitkomst; de proportie misclassificatie is dan in beide groepen ongelijk). Non-differentiële misclassificatie leidt altijd tot een onderschatting (verdunning of uitdoving) van het effect (de waarde van de schatting gaat in de richting van de neutrale waarde); het effect van differentiële misclassificatie kan beide kanten opgaan (onderschatting of overschatting van het effect). inhoudsvaliditeit De mate waarin de inhoud van een meetinstrument een adequate afspiegeling is van hetgeen het meetinstrument beoogt te meten. interne consistentie De mate waarin de onderdelen (items) van een meetinstrument met elkaar samenhangen. intention-to-treat-analyse Analyse waarbij de allocatie van de patiënt bij randomisatie wordt gerespecteerd. Iedere patiënt blijft in de oorspronkelijk door randomisatie gevormde groep, ongeacht de uiteindelijk toegepaste behandeling en eventuele co-interventies, non-compliance en dergelijke. Zie ook per-protocol-analyse.

klinimetrie Methodologische discipline die zich richt op het meten van klinische verschijnselen. Klinimetrie houdt zich bezig met de kwaliteit van klinische metingen. Daarbij gaat het zowel om de kwaliteit van de meetinstrumenten als om de kwaliteit van de metingen zelf. kwalitatief onderzoek Onderzoek naar opvattingen, meningen, gedragingen en gevoelens van personen over een duidelijk omschreven onderwerp. Men hanteert daarbij kwalitatieve methoden, zoals interview, (participerende) observatie, focusgroep en Delphi-methode. De resultaten zijn niet te kwantificeren (in cijfers uit te drukken) en niet te generaliseren. Kwalitatief onderzoek is veelal gericht op het ontwikkelen van hypothesen of het begrijpen van onderliggende processen.

lead-time bias Vertekening van de overlevingsduur door vroegopsporing. Indien door screening een aandoening waarvoor geen afdoende behandeling bestaat eerder wordt gediagnosticeerd, dan zal het lijken of de prognose beter wordt. Dit is echter slechts schijn, omdat de ziekte gewoon eerder wordt ontdekt.

length-time bias Indien de effecten van screening uit observationeel onderzoek moeten worden geschat, is de kans op vertekening groot en krijgt men te maken met de zogenoemde length-time bias. Length-time bias speelt een rol als men bijvoorbeeld de overleving vergelijkt van personen met een bij screening ontdekte tumor met die van personen bij wie de tumor buiten de screening werd opgespoord. Met screening worden namelijk relatief meer langzaam groeiende tumoren opgespoord. Deze tumoren hebben meestal een gunstiger prognose. De snelgroeiende tumoren worden vooral in de intervallen tussen twee screeningen opgespoord. De screening lijkt dus gezondheidswinst op te leveren, terwijl het verschil in overleving slechts een selectiefenomeen (bias) betreft.

Verklarende woordenlijst

203

level of evidence Niveau van bewijsvoering om wetenschappelijke literatuur te graderen. Aan een onderzoek wordt meer zeggingskracht toegekend wanneer de opzet en uitvoering van het onderzoek zodanig zijn dat de kans op systematische vertekening van de uitkomst kleiner is. Zie ook GRADE.

likelihood ratio van een negatieve test (LR–) In diagnostisch onderzoek: de verhouding tussen het vóórkomen van een negatieve uitslag op de indextest bij personen met de ziekte en het vóórkomen van een negatieve testuitslag bij personen zonder de ziekte. Een diagnostische test is informatiever naarmate de LR– dichter tot 0 nadert. likelihood ratio van een positieve test (LR+) In diagnostisch onderzoek: de verhouding tussen het vóórkomen van een positieve uitslag op de indextest bij personen met de ziekte en het vóórkomen van een positieve testuitslag bij personen zonder de ziekte. Een diagnostische test is informatiever naarmate de LR+ dichter tot oneindig nadert. meta-analyse Onderdeel van een systematische review waarin kwantificering van de resultaten plaatsvindt. In een meta-analyse worden de afzonderlijke resultaten gecombineerd tot één overallschatting van het effect van de bestudeerde interventie (poolen). Meta-analyse kan daarnaast tevens een analyse van bronnen van heterogeniteit bevatten. MeSH-heading Afkorting van Medical Subject Heading. Trefwoord waarmee elk artikel in de MEDLINE-databank is geïndexeerd en kan worden opgespoord. Deze index van meer dan 16.000 trefwoorden is hiërarchisch georganiseerd. De trefwoorden staan in onderling (hiërarchisch) verband en zijn bijeengebracht in een thesaurus. negatief voorspellende waarde (VW–) In diagnostisch onderzoek: achterafkans op de afwezigheid van ziekte bij een negatieve uitslag van de indextest, ofwel de proportie niet-zieken (vastgesteld met de referentietest of gouden standaard) onder de personen met een negatieve uitslag op de indextest. Wordt ook voorspellende waarde negatieve testuitslag genoemd.

neutrale waarde Waarde van de parameter onder de nulhypothese. In vergelijkend onderzoek: de waarde van de associatiemaat waarvoor geen verschil in effect tussen de onderzochte groepen bestaat. In geval van het relatieve risico (RR) of de odds ratio (OR) is de neutrale waarde ‘1’; in geval van het risicoverschil (RV) of een (gestandaardiseerde) verschilscore is de neutrale waarde ‘0’. Zie ook betrouwbaarheidsinterval en significantie.

nulhypothese Wetenschappelijke, toetsbare bewering over de werkelijkheid. Voorbeelden van nulhypothesen zijn: ‘De prevalentie van astma onder kinderen is 5%’, en: ‘Er is geen verschil in behandelingseffect tussen penicilline en placebo.’ Zie ook betrouwbaarheidsinterval, p-waarde en significantie.

number needed to harm (NNH) Het aantal patiënten dat moet worden blootgesteld aan de schadelijke factor om één ongewenste gebeurtenis meer te krijgen dan zonder blootstelling zou zijn verkregen. Het NNH is afhankelijk van het achtergrondrisico.

number needed to treat (NNT) Het aantal patiënten dat met de interventie dient te worden behandeld om één gewenste gebeurtenis meer te bereiken dan met de referentiebehandeling zou zijn verkregen. Het NNT is afhankelijk van het achtergrondrisico.

odds De verhouding tussen de kans op het optreden van een bepaalde gebeurtenis en de kans op het niet-optreden ervan. Als de kans op genezing 0,75 (75%) bedraagt, dan is de kans op geen genezing 0,25 (25%) en de odds voor genezing 0,75/0,25 = 3. In woorden: de kans op genezing is drie keer zo groot als de kans op geen genezing. oddsratio (OR) De verhouding tussen twee odds. De oddsratio is een maat voor de sterkte van het verband tussen een determinant en een uitkomst. In cohortonderzoek geeft de oddsratio de verhouding weer van de odds voor de bestudeerde uitkomst (ziekte) van blootgestelden en die van niet-blootgestelden (ziekte-oddsratio). In patiëntcontroleonderzoek geeft de oddsratio de verhouding weer van de odds voor blootstelling van patiënten en die van controlepersonen (blootstellings-oddsratio). Ziekte-oddsratio en blootstellings-oddsratio verschillen weliswaar conceptueel, maar zijn mathematisch identiek. Bij zeldzame uitkomsten (waarvan doorgaans sprake is in patiëntcontroleonderzoek) is de oddsratio een goede schatter van het relatieve risico. Als de oddsratio gelijk is aan 1 (neutrale waarde) is er geen relatie of verschil in effect.

p-waarde De kans op het vinden van een effect zoals in het onderhavige onderzoek onder de aanname dat de nulhypothese waar is. Voorbeeld: in een onderzoek wordt een risicoverschil (RV) gevonden van 0,25 (25%). De nulhypothese luidt ‘RV = 0’ en de gevonden p-waarde is 0,03. Dit betekent: als het RV in werkelijkheid 0 is (ofwel als er in werkelijkheid geen verschil in effect is tussen beide groepen), dan zal bij oneindig keer herhalen van een onderzoek zoals het onderhavige, in 3% van de gevallen een RV gevonden worden dat 0,25 of meer afwijkt van 0.

204

Verklarende woordenlijst

patiëntcontroleonderzoek Een onderzoek uitgaande van personen met de bestudeerde ziekte of aandoening waarbij een controlegroep wordt geselecteerd van personen zonder de bestudeerde ziekte of aandoening. Vervolgens wordt per groep vastgesteld hoeveel personen in elk van deze groepen tevoren blootgesteld geweest zijn aan de bestudeerde determinant(en). De sterkte van het verband tussen de determinant en de uitkomst kan alleen worden uitgedrukt in een oddsratio.

patiëntenserie Verslag van de karakteristieken en de uitkomsten van een serie vergelijkbare patiënten (ongecontroleerd onderzoek met weinig wetenschappelijke zeggingskracht). per-protocol-analyse Analyse waarbij alleen gegevens van patiënten worden gebruikt die volledig volgens het onderzoeksprotocol zijn behandeld. Zie ook intention-to-treat-analyse. PICO-methode Patients, Intervention, Control, Outcome; dit acroniem omschrijft de vier elementen van een specifieke klinische vraag waarmee kan worden gezocht in de wetenschappelijke literatuur, bijvoorbeeld via MEDLINE.

placebo Interventie die volledig gelijk is aan de onderzochte interventie, maar dan zonder het werkzame gedeelte. Placebo wordt in een onderzoek aan deelnemers in de referentiegroep gegeven. In geval van medicatie dient het placebo dezelfde kleur, grootte, smaak en consistentie te hebben als het onderzochte middel. Ook bij niet-medicamenteuze interventies, zoals fysiotherapie, kan placebobehandeling worden gegeven.

poolen Het combineren van de resultaten van afzonderlijke onderzoeken tot één overallschatting van het effect. positief voorspellende waarde (VW+) In diagnostisch onderzoek: achterafkans op de aanwezigheid van ziekte bij een positieve uitslag van de indextest, ofwel de proportie zieken (vastgesteld met de referentietest of gouden standaard) onder de personen met een positieve uitslag op de indextest. Wordt ook voorspellende waarde positieve testuitslag genoemd. prevalentie De proportie personen met een ziekte in een gemeenschap op een gegeven moment. Kan worden uitgedrukt voor één meetmoment (puntprevalentie) of voor een bepaalde periode (periodeprevalentie). In diagnostisch onderzoek is de puntprevalentie de voorafkans (a-priorikans) op de ziekte. protocol Een protocol heeft het karakter van een voorschrift of een in de praktijk gehanteerde regel, bijvoorbeeld als afgeleide van een richtlijn. Een protocol is specifiek en gaat vooral in op de organisatorische context op de werkvloer. Geven richtlijnen aan wat, in de meeste gevallen, moet worden gedaan, protocollen beschrijven hóe dat dient te geschieden. Protocollen worden daarom ook veelal lokaal geformuleerd, rekening houdend met de mogelijkheden en beperkingen van de desbetreffende praktijk.

publicatiebias Vertekening in meta-analyse van gepubliceerde onderzoeken die wordt veroorzaakt door het feit dat onderzoeken met positieve resultaten meer kans hebben om gepubliceerd te worden dan onderzoeken met negatieve resultaten. Het gevolg is dat in overzichten van gepubliceerde literatuur de behandeling positievere resultaten lijkt op te leveren dan in werkelijkheid het geval is.

randomisatie Aselecte (willekeurige) toewijzing (allocatie). Bij randomisatie wordt gebruikgemaakt van het toeval om behandeling aan index- of referentiegroep(en) toe te wijzen. Randomisatie houdt in dat ieder individu (of andere eenheid van randomisatie) een gelijke kans heeft om elk van de interventies te krijgen. Een goede randomisatie maakt gebruik van bijvoorbeeld een tabel met aselecte getallen of een door een computer aangemaakte randomisatielijst. Er dient te worden gewaarschuwd voor andere methoden van toewijzing die als randomisatie worden beschreven, maar dit niet echt zijn: toewijzing op geboortedatum, volgorde van binnenkomst, dag van de week, maand van het jaar, dossiernummer. Deze methoden heten wel ‘quasi random’ en zijn minder valide. Zie ook clusterrandomisatie.

randomised controlled trial (RCT) Onderzoek waarin het effect van een interventie wordt vergeleken met dat van een controle-interventie en waarbij aselecte toewijzing (randomisatie) van patiënten aan de indexgroep en referentiegroep wordt toegepast.

referentiegroep In patiëntcontroleonderzoek: de groep personen zonder de bestudeerde ziekte of aandoening. In een randomised controlled trial of cohortonderzoek: de groep personen die de onderzochte interventie niet ontvangen of niet blootgesteld zijn. referentietest Zie gouden standaard. relatieve risico (RR) Verhouding van de kans op de bestudeerde uitkomst in twee cohorten personen. Het relatieve risico is een maat voor de sterkte van het verband tussen een determinant en een uitkomst. In cohortonderzoek

Verklarende woordenlijst

205

geeft het relatieve risico de verhouding weer van de kans op de bestudeerde uitkomst (bijvoorbeeld sterfte of ziekte) van blootgestelden en die van niet-blootgestelden per eenheid van de determinant. In randomised controlled trials geeft het relatieve risico de verhouding weer van de kans op de bestudeerde uitkomst in de indexgroep en die in de referentiegroep. Als het relatieve risico gelijk is aan 1 (neutrale waarde) is er geen relatie of verschil in effect.

relatieve risicoreductie (RRR) De proportionele verlaging van het risico op een ongunstige uitkomst door toepassing van de interventie.

reproduceerbaarheid De mate waarin een meting vrij is van meetfouten. responsiviteit Het vermogen van een meetinstrument om veranderingen in de tijd te kunnen meten in het construct dat het meetinstrument beoogt te meten. reviewbias In diagnostisch onderzoek: vertekening van de karakteristieken van een indextest door niet-onafhankelijke beoordeling van de indextest en referentietest. In de regel zal dit leiden tot een kunstmatig hogere overeenstemming van de indextest met de referentietest.

richtlijn Een document met aanbevelingen, gericht op het verbeteren van de kwaliteit van zorg, berustend op systematische samenvattingen van wetenschappelijk onderzoek en afwegingen van de voor- en nadelen van de verschillende zorgopties, aangevuld met expertise en ervaringen van zorgprofessionals en zorggebruikers. Zie 7 www.regieraad.nl/fileadmin/ 7 www.regieraad.nl/publiek/Downloads/Gericht_op_richtlijnen/Richtlijn_voor_ Richtlijnen_herziene_versie.pdf.

risico De kans op het krijgen van de bestudeerde uitkomst (sterfte, ziekte, aandoening of behandelingsresultaat). Als de bestudeerde uitkomst in een groep van honderd patiënten 25 keer wordt waargenomen, is het risico (of de kans) op de uitkomst 0,25 (ofwel 25%). risicoverschil (RV) Het absolute verschil van de kansen op de uitkomst tussen twee groepen personen (index- en referentiegroep of blootgestelden en niet-blootgestelden). Ook bekend onder de namen absolute risicoreductie (absolute risk reduction; ARR), absolute risicotoename (absolute risk increase; ARI) en attributief risico (attributable risk). selectiebias Vertekening van de effectschatting ten gevolge van systematische fouten bij de selectie van onderzoeksdeelnemers. Selectiebias in patiëntcontroleonderzoek: de kans om als blootgestelde of niet-blootgestelde in het onderzoek terecht te komen is afhankelijk van de ziektestatus. In cohortonderzoek: de kans om als zieke of nietzieke in het onderzoek terecht te komen is afhankelijk van de blootstellingsstatus.

sensitiviteit In diagnostisch onderzoek: de proportie terecht-positieven onder de zieken, ofwel de proportie van de groep personen met de onderzochte ziekte die met de indextest terecht als ziek wordt geclassificeerd.

significantie Situatie waarin de p-waarde lager is dan een vooraf vastgestelde onbetrouwbaarheidsdrempel (doorgaans 5%) of indien het betrouwbaarheidsinterval de neutrale waarde van de bestudeerde parameter niet omvat. specificiteit In diagnostisch onderzoek: de proportie terecht-negatieven onder de niet-zieken, ofwel de proportie van een groep personen zonder de onderzochte ziekte die met de indextest terecht als niet-ziek wordt geclassificeerd.

spectrum (ziektespectrum) Verscheidenheid van ziektekenmerken van de onderzochte personen. spectrumbias In diagnostisch onderzoek: vertekening van de resultaten betreffende de karakteristieken van een diagnostische test ten gevolge van een onjuiste keuze van het spectrum van zieken en/of niet-zieken. De waarde van een indextest dient te zijn onderzocht in een relevante groep van zieken (‘indicated population’) zoals men die in de praktijk ook zou tegenkomen. Personen met de ziekte kunnen verschillen in ernst, stadium of duur van de ziekte. Als in een bepaalde setting normaliter sprake is van een breed ziektespectrum en de indextest wordt onderzocht bij louter personen met relatief ernstiger aandoeningen, dan zullen de diagnostische eigenschappen van de indextest (sensitiviteit, specificiteit, likelihood ratio) doorgaans worden overschat. De groep niet-zieken moet bij voorkeur bestaan uit personen met aandoeningen die in de praktijk makkelijk tot verwarring met de onderzochte aandoening leiden. Hierdoor zal de proportie fout-positieven toenemen (hetgeen in de dagelijkse praktijk ook het geval zou zijn), waardoor de specificiteit afneemt.

systematische fout Fout die wordt gemaakt bij het ontwerp en de uitvoering van een empirisch onderzoek. Systematische fouten leiden tot vertekening van de resultaten. Zie ook bias, selectiebias, informatiebias en confounding. systematische review Een systematisch overzicht van de stand van zaken van medisch-wetenschappelijk onderzoek. Een systematische review is transparant en reproduceerbaar en gaat uit van een expliciete vraagstelling, een

206

Verklarende woordenlijst

uitgebreide zoekstrategie, een ondubbelzinnige procedure voor selectie van onderzoeken, een beoordeling van de kwaliteit van de onderzoeken en een transparante presentatie van de resultaten.

terecht-negatieven In diagnostisch onderzoek: personen die op grond van de uitslag van een diagnostische test (indextest) terecht als niet-ziek worden geduid.

terecht-positieven In diagnostisch onderzoek: personen die op grond van de uitslag van een diagnostische test (indextest) terecht als ziek worden geduid.

transversaal onderzoek Zie dwarsdoorsnedeonderzoek. type-I-fout Het ten onrechte verwerpen van een juiste nulhypothese. De kans hierop is α, welke door de onderzoeker wordt bepaald (meestal wordt α, ofwel de onbetrouwbaarheidsdrempel, op 5% gesteld).

type-II-fout Het ten onrechte niet verwerpen van een onjuiste nulhypothese. De kans hierop is β, welke onder meer afhangt van de steekproefomvang. Hoe groter de steekproef, des te kleiner β en des te kleiner de kans op een type-II-fout.

uitkomstbias Selectieve publicatie van uitkomsten. Uitkomsten met een niet-significant effect van de interventie worden vaak (bewust of onbewust) buiten de rapportage gelaten, hetgeen kan leiden tot een overschot aan ‘positieve’ uitkomsten in de review en daardoor tot een overschatting van het effect. Zie ook publicatiebias. validiteit Afwezigheid van systematische fouten. Bijvoorbeeld validiteit van een meetinstrument: een meetinstrument is valide als het werkelijk meet wat het beoogt te meten.

verification bias Zie work-up bias. voorafkans In diagnostisch onderzoek: de kans op de vermoede ziekte of aandoening in de onderzochte groep personen. Is hetzelfde als de prevalentie van de ziekte of aandoening. voorspellende waarde negatieve testuitslag (VW–) Zie negatief voorspellende waarde (VW–). voorspellende waarde positieve testuitslag (VW+) Zie positief voorspellende waarde (VW+). work-up bias In diagnostisch onderzoek: vertekening van de karakteristieken van een indextest door selectieve toepassing van de referentietest (‘opwerking’).

207

Register

R.J.P.M. Scholten et al. (Red.), Inleiding in evidence-based medicine, DOI 10.1007/978-90-313-9904-8, © 2014 Bohn Stafleu van Loghum, onderdeel van Springer Media BV

208

Register

95%-betrouwbaarheidsinterval 33, 45, 54, 67, 117

A

aanbeveling 7, 151 absolute risicoreductie (ARR) 66, 168, 172 achterafkans 40, 45, 46, 88 achtergrondrisico 66, 168, 171 ACP Journal Club (tijdschrift) 6 additief model 168 add-on test 46, 129 adverse drug reaction 72 adverse events 72 afkappunt 37, 42, 132 AGREE- (Appraisal Instrument for Guidelines, Research and Evaluation) instrument 149 alternatieve behandeling 80 analyse –– gestratificeerd 76 –– multivariate 76 anchor-based-methode 100 area under the curve 45 aselecte –– behandelingstoewijzing 58 –– steekproef 35 associatiemaat 33, 66 attendering door PubMed 27 authority-based 21 Automatic Term Mapping 23

B

background question 13 baseline risk 3 behandelingseffect 65 behandelingstoewijzing, aselect 58 behoefte aan informatie 20 belang van resultaten 33, 52 belangenverstrengeling 116 beoordeling –– diagnostische meta-analyse 131 –– diagnostische systematische review 128 –– richtlijn 149 –– systematische review observationeel onderzoek 136 –– systematische reviews 123 beoordelingscriteria 37 besliskunde, klinisch 170 beslissingsondersteuningssysteem 22

bestcase –– analyse 63 –– scenario 50 betrouwbaarheid 110 betrouwbaarheidsinterval 33, 45, 68 bevolkingsonderzoek 82 bewijsdimensies 153 bewijskracht 57, 158 bibliografische database 23 bijblijven 27 bijwerkingen 71, 80, 135, 171 –– voorbeeldvraag 16 bivariate random effects-methode 133 blindering 36, 58, 60, 89 –– behandelaars 61 –– effectbeoordelaars 62, 120 –– patiënten 61 –– randomisatie 61 blokrandomisatie 60 bodemeffect 99 bronpopulatie 75

C

CancerLit 138 casuïstiek 72 CATs 27 causaliteit 78 CBO-richtlijnen 176 Centrum voor Evidence-Based Medicine (CEBAM) 27 channeling 74, 75 chi-kwadraattoets 122 Cinahl 26, 138, 151 Clinical Evidence (boek) 22, 28 Clinical Knowledge Summaries 26 Clinical Queries 25 clusterrandomisatie 60, 89 Cochrane Central Register of Controlled Trials 119, 193 Cochrane Centre 186, 191 Cochrane Collaboration 186 –– organisatie 187 Cochrane Database of Systematic Reviews 28, 186, 193 Cochrane Fields 190 Cochrane Handbook 186 Cochrane Library 23, 151, 186, 192 Cochrane Methodology Register 193 Cochrane Review Groups 187 Cochrane-review –– impact 193 Cohen’s kappa 96 cohortonderzoek 48, 72 –– niet-gerandomiseerd 57

co-interventies 64 comedicatie 78 comorbiditeit 78 concealment of allocation 61, 120 conflicterend belang 153 confounders 136 confounding 76 confounding by indication 59, 73 constructvaliditeit 97 contaminatie 64 controlebehandeling 57, 59 COSMIN –– richtlijnen 94 –– taxonomie 94 Cox-overlevingsduuranalyse 77 criteriumvaliditeit 97 critically appraised topic (CAT) 27, 179, 181, 182 Cronbach’s alpha 95

D

DARE 151 database, bibliografisch 23 data-extractie 130, 140 Delphi-techniek 151 diagnostic calculators 45 diagnostische –– misclassificatie 42 –– test accuratesse (DTA), systematische reviews van 186 diagnostische test –– belasting 47 –– geschiktheid 45 –– waarde 35 dierproeven 78 differentieel itemfunctioneren (DIF) 98 differentiële verificatie 36, 85 distribution-based-methode 100 dosis-responsonderzoek 78 drempelwaarde 68 dubbelblind onderzoek 62

E

EBM zie evidence-based medicine 3 ecologische geldigheid 109 effect size 120 effectmaat 33, 66 effectmodificatie 167, 171 effectonderzoek, gerandomiseerd 58 effectschatting 65, 67, 140

209

Register

EMBASE 23, 119, 129, 138, 151, 188 etiologie, voorbeeldvraag 12 etiologisch onderzoek 135 evidence 4 –– bruikbaarheid 165 –– geaggregeerd 22, 116 –– toepassen 170 evidence of no effect 167 evidence-based –– bijblijven 27 –– bronnen 22 –– richtlijnen 22, 116 –– richtlijnontwikkeling 148 –– rubrieken in tijdschriften 27 –– tijdschriften 27 –– zoeken 21, 24 Evidence-based Health Care (tijdschrift) 6 evidence-based medicine 3 –– dagelijkse praktijk 176 –– gevaren 7 –– huisartspraktijk 180 –– kritiek 6 –– kwalitatief onderzoek 114 –– misbruik 7 –– polikliniek 180 –– ziekenhuisafdeling 179 Evidence-based Medicine (tijdschrift) 6 Evidence-based Nursing (tijdschrift) 6 evidencetabel 156, 158 externe validiteit 33, 55, 78, 165 extrapolatie 166

F

Farmacotherapeutisch Kompas 176 Fields 190 fixed-effectmodel 123 focusgroepdiscussie 108 follow-up 50, 62, 75, 120, 156 foreground question 13 forest plot 131 fout-negatieven 38, 46, 91 fout-positieven 38, 46, 91 funnelplot 124

G

geaggregeerde evidence 22, 116 gemiddelde scores 99 generaliseerbaarheid 78, 165

gerandomiseerd effectonderzoek 58 gestratificeerde –– analyse 76 –– randomisatie 60 gevaren van evidence-based medicine 7 GIN zie Guidelines International Network 22 Glaser-techniek 151 Guidelines International Network (GIN) 22, 151

A–L

–– individueel 108 intraclass correlatiecoëfficiënt (ICC) 96 IPD-meta-analyse 126, 169

J

journal-clubs 181

K H

haalbaarheid 69 hazard ratio 77 heterogeniteit 117, 141 Hill-criteria 79, 144 HSROC-methode 133 huisartspraktijk, evidence-based medicine 180

I

impact Cochrane-reviews 193 implementatie –– barrières 159 –– richtlijnen 159 imputeren 50 inceptiecohort 49, 156 incorporatiebias 37 indexbehandeling 57, 59 indextest 34, 85, 130 –– diagnostische waarde 38 indication bias 59 indicatoren 153 individualiseren 166 individuele patiënten 167 informatiebehoefte 20 informatiebias 75 inhoudsvaliditeit 96 insluitcriteria 57, 119, 130, 138 intensive monitoring 72 intention to treat –– analyse 63 –– principe 63 interne validiteit 33, 58 internet 177 internetrubrieken 27 interpreteerbaarheid 99 interventieonderzoek 118 interview –– groeps- 108

kennispiramide 21 klinimetrie 92 klinimetrische eigenschappen 93 klinische –– homogeniteit 122 –– informatie 21 –– relevantie 68 kosteneffectiviteits –– analyse 151 –– onderzoek 88 kritiek op evidence-based medicine 6 kwalitatief onderzoek 105 –– aard 105 –– analyse 110 –– beoordelingscriteria 112 –– betrouwbaarheid 110 –– documentanalyse 108 –– ecologische geldigheid 109 –– iteratief proces 106 –– kritisch beoordelen 111 –– observatie 108 –– ondervraging 108 –– purposive sampling 109 –– theoretische benaderingen 107 –– validiteit 109 –– waarnemingsmethodes 108 kwaliteit van leven 91 kwaliteitsaspecten 37 kwaliteitsbeoordeling 138 kwaliteitsbeoordelingslijsten 120 kwantitatief onderzoek –– selectie van deelnemers 109

L

laboratoriumonderzoek 78 last observation carried forwardanalyse 63 lead-time bias 55, 90 length-time bias 90 level of evidence 4, 155

210

Register

likelihood ratio 133 –– negatieve test (LR–) 41 –– positieve test (LR+) 40 limits 26 limits of agreement 95 loss-to-follow-up 50, 75

M

mean difference (MD) 77 mediane overlevingsduur 52 Medical Subject Headings (MeSH) 23 medicatievoorschrijfsysteem 22 MEDLINE 23, 119, 129, 138, 151, 188 meetfout 95 MeSH-termen 23 meta-analyse 117, 140 metaregressieanalyse 142 methode –– anchor-based- 100 –– distribution-based- 100 methodologisch filter 24 methodologische betrouwbaarheid 33 Methods Groups 191 minimaal klinisch relevant verschil 100 Minimal Important Change (MIC) 100 misbruik van evidence-based medicine 7 misclassificatie 76 –– diagnostisch 42 multiple-treatment-meta-analysis 126 multiplicatief model 168 multivariate analyse 76 My NCBI 27

N

National Guideline Clearinghouse 22, 151 Nederlands Huisartsen Genootschap 176 negatief voorspellende waarde (VW–) 38 netwerk-meta-analyse 126 niet-experimenteel onderzoek 72 niet-gerandomiseerd cohortonderzoek 57 NNT zie number needed to treat 66

no evidence of effect 167 nomogram 41 nulhypothese 68 number needed to harm (NNH) 56, 77 number needed to screen 91 number needed to treat (NNT) 56, 66, 77, 168 number willing to treat 168

O

observatieduur 50 observationeel onderzoek 48, 72, 135 odds 41 oddsratio (OR) 76, 140 onafhankelijke (blinde) vaststelling 51, 75, 85 onderscheidingsvermogen 68 onderzoek –– bijwerkingen 135 –– dosis-respons- 78 –– dubbelblind 62 –– etiologisch 135 –– interventie- 118 –– laboratorium- 78 –– niet-experimenteel 72 –– observationeel 72, 135 –– primair 34 –– prognostisch 135 –– secundair 116 opbouw –– systematische reviews 118, 135 opstellen van aanbevelingen 158 overbehandeling 91

P

partiële verificatie 36 patiëntcontroleonderzoek 57 patiëntenselectie 35 patiëntenvoorkeuren 7, 70 Patient-Oriented Evidence that Matters (POEMs) 27 per protocol-analyse 63 PICO-systeem 14, 118 placebo 58 placebobehandeling 61 plafondeffect 99 POEMs zie Patient-Oriented Evidence that Matters 27 polikliniek, evidence-based medicine 180

poolen 117, 121 positief voorspellende waarde (VW+) 38 posteriorkans 40 power 61 precisie van schattingen 54 prevalentie 40 primair onderzoek 34 prioriteiten in vragen 13 prognose 48 –– voorbeeldvraag 15 prognostisch onderzoek 135 prognostische factoren 48, 51 protocol 148 PsychInfo 138 PsychLit 23 publicatiebias 116, 124, 138 PubMed 23 purposive sampling 109

Q

QUADAS 37, 130 quasi random 60

R

random-effectsmodel 123 randomisatie 59, 89 –– blindering 61 –– blok- 60 –– cluster- 60 –– gestratificeerde 60 –– power 61 randomised controlled trials (RCT) 24, 57, 118 recall bias 75 receiver operating characteristiccurve zie ROC-curve 42 referentietest 34, 85, 130 relatief risico (RR) 65, 76, 131, 140, 168 relatieve risicoreductie (RRR) 65 relative risk 65 responsiviteit 98 resultaten, combineren 120 review bias 36 RevMan 186 richtlijn 22, 116 –– beoordeling 149 –– implementatie 159 –– kwaliteit 149 –– ontwikkeling 160 –– zoeken 160

211

Register

risicoratio 65 risicoverschil (RV) 66, 76, 131 risk ratio 65 ROC-curve (receiver operating characteristic-curve) 42, 132

systematische –– reviews 22, 116 –– reviews van diagnostische test accuratesse (DTA) 186 –– reviews, opbouw 118

S

T

scholing 177 screening 82 –– effectiviteit 84 –– evaluatie 83 screeningsinterval 91 screeningstest 35, 84 secundair onderzoek 116 see related citations 26 selectie –– van artikelen 119 –– van patiënten 35 selectiebias 60, 74 selectiecriteria 158 selectieve –– loss-to-follow-up 62 –– rapportage van uitkomsten 120 –– uitval 37, 75, 120 sensitief zoeken 24 sensitiviteit 35, 38, 42, 131 sensitiviteitsanalyse 123 significantieniveau 68 somatisch onvoldoende verklaarde lichamelijke klachten (SOLK) 105 specificiteit 35, 38, 42, 131 specifiek zoeken 24 spectrum 86 standaardisatie 54 standaardmeetfout 95 standardised mean difference 120 Standardized Mortality Ratio 54 statistische –– heterogeniteit 122 –– homogeniteit 122 –– pooling 140 –– significantie 68 –– toets 68 steekproef –– aselect 35 –– variatie 122 subgroepanalyse 142 subgroepen 51, 69 Summary ROC curve (sROCcurve) 132 SUMSearch 26 surrogaatuitkomst 156 synopsis 22

taalbias 116, 138 tegenstrijdige reviews 125 terecht-negatieven 38 terecht-positieven 38 testresultaat, niet-interpreteerbaar 37 therapeutisch effect 57, 58 therapie, voorbeeldvraag 14 therapietrouw 64 thesaurus 26 toepasbaarheid 17, 45, 55, 64, 68, 78, 87, 152, 159, 166 toepasbaarheid van resultaten 33, 117, 134 toevalsvariatie 45 trefwoorden, zoeken op 23 triagetest 35, 46 triangulatie 110 TRIP 26

U

uitgangsvraag 151 uitkomstbias 116, 125 uitkomstmaat 156 uitsluitcriteria 57, 119, 130, 138 uitval 60, 75, 156 –– selectief 37, 120

V

validatietraject 51 valide referentietest 36 validiteit 33, 49, 85, 109, 153 –– construct- 97 –– criterium- 97 –– crossculturele 98 –– externe 33, 55, 78, 165 –– inhouds- 96 –– interne 33, 58 –– known-groups- 97 –– longitudinale 98 –– responsiviteit 98 –– structurele 98 vergelijkbaarheid van groepen 62

L–Z

verificatie –– differentieel 36, 85 –– partieel 36 vertekening 55 verwijspatronen 49 –– vertekening door 55 vijfjaarsoverleving 52 vijfstapsmethode 5, 170 voorafkans 40, 45, 46, 88 voorbeeldvraag –– bijwerkingen 16 –– etiologie 12 –– prognose 15 –– therapie 14 voorkeuren van patiënten 7, 70 voorspellend model 51 voorspellende waarde 38 –– negatieve testuitslag (VW–) 38 –– positieve testuitslag (VW+) 38 vraagstelling 12, 118, 128, 136 vrije tekst, zoeken op 23

W

waardeoordelen 169 website 27 Wilson en Jungner-criteria 82 work-up bias 36 worstcase –– analyse 63 –– scenario 50

Z

ziekenhuisafdeling, evidencebased medicine 179 ziektespectrum 35 zoekactie 23, 119, 129, 138 zoekfilter 24 zoektermen 23 zoekvraag 151