Corel Ventura - CAP-8.CHP
Transcript
Corel Ventura - CAP-8.CHP
CAPITOLO 8 LE RASSEGNE SISTEMATICHE IN MEDICINA DI LABORATORIO: POTENZIALITÀ, PRINCIPI E LIMITI Andrea Rita Horvath, Daniel Pewsner, Matthias Egger I pazienti e la società in genere si aspettano che i medici basino il loro approccio ad un problema clinico su un ragionamento diagnostico informato e razionale. Questo presuppone che il medico comprenda ed applichi prontamente i principi del medical decision making, che include la stima della probabilità pretest (prevalenza) della malattia che sta considerando ed applichi le informazioni appropriate relative alle caratteristiche ed al potere discriminante degli esami diagnostici. Un risultato di laboratorio modificherà in modo diverso, a seconda delle caratteristiche dell’esame, la probabilità pre-test in modo da produrre una probabilità post-test, che influenzerà poi le decisioni sugli esami successivi, sulla terapia o su entrambe (1). In medicina di laboratorio e in molti altri campi, è diventato semplicemente impossibile per il singolo leggere, valutare criticamente e fare la sintesi dello stato delle conoscenze attuali o anche solo mantenersi aggiornato con regolarità (2). Le rassegne sono diventate degli strumenti essenziali per tutti quanti vogliono mantenersi aggiornati con le novità che si stanno accumulando nello specifico campo di interesse. Le rassegne sono anche necessarie per identificare le aree in cui le evidenze disponibili sono insufficienti e sono necessarie ulteriori ricerche. Tuttavia, da quando Mulrow (3) e Oxman e Guyatt (4) hanno attirato l’attenzione sulla cattiva qualità delle rassegne narrative degli anni 80, è diventato chiaro che le rassegne convenzionali possono costituire una fonte di informazioni inaffidabile. In risposta a questa situazione, ci si è concentrati in modo cre- 1 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger scente su metodi formalizzati di esaminare in modo sistematico la letteratura in modo da produrre delle sintesi formulate in modo esplicito, riproducibili ed aggiornate circa gli effetti degli interventi in sanità (5-7). Questa attività è stata comunque fino ad oggi in gran parte limitata alla valutazione della efficacia ed della efficienza in termini economici di interventi terapeutici e preventivi. Questo è illustrato in Figura 1, che mostra il numero delle rassegne sistematiche e metaanalisi di trial controllati randomizzati e di studi di valutazione di esami diagnostici pubblicati dal 1986 al 2002. Se lo scopo ultimo della medicina di laboratorio è il miglioramento degli outcome clinici e della prognosi, l’efficacia degli interventi diagnostici e del monitoraggio di laboratorio deve idealmente essere valutato in trial clinici (8). Esempi classici della valutazione dell’impatto clinico di un esame (e delle azioni terapeutiche successive al risultato di un esame) sono i trial randomizzati. Sfortunatamente, si riesce di rado a valutare gli effetti degli esami diagnostici in trial randomizzati (una ricerca condotta su Medline nell’aprile 2003 combinando il tipo di pubblicazione trial controllati randomizzati ed il medical subject heading "laboratory techniques and procedures", ha selezionato solo 28 articoli). In questo articolo saranno considerate rassegne sistematiche e meta-analisi di studi di valutazione di esami diagnostici; è chiaramente utile esaminare in modo sistematico e valutare in modo critico l’evidenza disponibile circa l’accuratezza degli esami per quelle malattie e quei fattori di rischio per i quali esistono degli interventi efficaci. Figure 1 Number of publications concerning systematic reviews and meta-analysis 1986 to 2001 [Medline search using text word and medical subject (MESH) heading “meta-analysis” and text word “systematic review” combined with keywords denoting randomized controlled trials (open bars) and keywords denoting diagnostic test evaluation studies (solid bars).] 2 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti RASSEGNA SISTEMATICA, PANORAMICA O META-ANALISI? Molti termini sono usati contemporaneamente per descrivere l’esame sistematico delle evidenze della ricerca, e tra questi "rassegna sistematica", "metaanalisi", "sintesi della ricerca", "panoramica" e "fare un pool". Chalmers e Altman (9) hanno definito la ricerca sistematica come una rassegna che è stata preparata usando un approccio sistematico, documentato in una sezione materiali e metodi, in modo da minimizzare i bias e gli errori casuali. Una rassegna sistematica può o meno comprendere una meta-analisi; un’analisi statistica dei risultati di studi indipendenti, che hanno in genere lo scopo di produrre una stima unica complessiva degli effetti di una terapia o dell’accuratezza di un esame. La distinzione tra rassegna sistematica e meta-analisi è importante poiché è sempre appropriato e desiderabile in linea di principio fare una rassegna sistematica di un insieme di dati, ma può essere talvolta inappropriato o perfino fuorviante riunire con tecniche statistiche i risultati di studi separati. Gli autori del presente capitolo ritengono che spesso chi prepara queste rassegne non riesce a resistere alla tentazione di combinare studi anche quando la meta-analisi discutibile o chiaramente inappropriata. Le rassegne narrative tradizionali tendono avere un ambito più ampio, rivolgendosi ad eziologia, patogenesi, diagnosi, gestione clinica e prognosi di una condizione mentre le rassegne sistematiche si rivolgono a problemi più ristretti e specifici. Le rassegne narrative, gli editoriali ed i commenti possono esprimere un’opinione, fare speculazioni o ipotesi ed incoraggiare nuove idee e dibattiti. Anche se le rassegne narrative tendono ad essere soggettive ed ad essere più esposte a bias ed errore rispetto alle rassegne sistematiche, continuano ad avere un ruolo importante nella letteratura medica (2, 10) DOVE TROVARE RASSEGNE SISTEMATICHE IN MEDICINA DI LABORATORIO Il numero delle rassegne sistematiche di studi diagnostici è aumentato lentamente negli ultimi 10 anni (Figura 1). Una fonte molto usata per trovare rassegne sistematiche di alta qualità è la Cochrane Library (http://www.update-software.com/cochrane/). E’ possibile, tuttavia, trovare solo un numero limitato di rassegne sistematiche in questa banca dati, che riguarda soprattutto gli interventi terapeutici. Un numero recente (4/2002) comprendeva 1519 rassegne ma solo sette erano relative a procedure diagnostiche (0.5%), nove a screening (0.6%) e 19 a monitoraggio (1.3%). Sono state attivate molte altre banche dati, come il MEDION, che contiene più di 1000 riferimenti a rassegne ed articoli metodologici su studi diagnostici (disponibile all’indirizzo [email protected]). La banca dati DARE (http://agatha.york.ac.uk/darehp.htm), pubblicata anche sulla Cochrane Library, e i giornali ACP Journal Club 3 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger (http://hiru.mcmaster.ca/acpjc/default.htm) e Evidence-Based Medicine (http://www.bmjpg.com/template.cfm?name_specjou_be) comprendono abstract strutturati e commenti di rassegne diagnostiche che soddisfano gli standard metodologici. La banca dati del Committee on Evidence-Based Laboratory Medicine della International Federation of Clinical Chemistry and Laboratory Medicine consiste di circa 50 rassegne sistematiche in chimica clinica, alcune delle quali sono valutate criticamente e sono seguite da un breve riassunto (http://www.ckchl-mb.nl/ifcc). Per una raccolta di banche dati evidence-based, gli autori raccomandano di usare la banca dati della School for Health and Related Research (ScHARR) della University of Sheffield (http://www.sheffield.ac.uk/_scharr/ir/netting/). FASI DI UNA RASSEGNA SISTEMATICA Le sezioni seguenti riassumono le fasi della rassegne sistematiche. Queste fasi sono riassunte nella Figura 2 e lo schema vuole solo servire come introduzione elementare. I lettori che desiderano fare una rassegna sistematica devono consultare gli altri capitoli di questo volume e altre fonti (1, 5-7, 11). Il Cochrane Reviewers’ Handbook, anche se focalizzato sui trial clinici che può essere scaricato gratuitamente da internet, può essere una utile guida (12). Preparare un protocollo Le rassegne devono essere considerate studi osservazionali delle evidenze (13). Le fasi coinvolte sono simili a quelle di ogni altra ricerca: formulazione del quesito, raccolta ed analisi dei dati, interpretazione dei risultati. Analogamente, devono essere scritti in anticipo un protocollo di studio dettagliato che dichiara in modo esplicito il quesito che deve essere affrontato, il sottogruppo di interesse, i metodi ed i criteri che devono essere impiegati per identificare e scegliere gli studi di interesse e per estrarre e analizzare le informazioni. Questo è importante per evitare bias causati da decisioni influenzate dai dati. Per esempio, possono essere esclusi studi che producono dei risultati inattesi o non desiderati da modifiche post hoc dei criteri di inclusione. Analogamente, analisi non pianificate di sottogruppi suggerite dai dati possono produrre risultati spuri. Mentre deve essere fatto ogni sforzo per rispettare un protocollo predeterminato, si deve riconoscere che questo non è sempre possibile o appropriato. Di regola, i cambiamenti nel protocollo devono essere documentati e registrati. I protocolli delle rassegne Cochrane sono pubblicati in anticipo, consentendo a chi le legge di valutare quanto il processo di revisione ha rispettato il progetto originale (14). Il protocollo della rassegna dovrebbe essere idealmente concepito da un gruppo di revisori esperti sia nell’argomento di interesse sia nelle tecniche di 4 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti sintesi dell’attività di ricerca. La composizione del gruppo dipende dal quesito e dall’ambito della rassegna. In generale il panel di esperti deve rappresentare le professioni importanti che nell’area interessata dalla rassegna. Per esempio, se la 1. Formulare il quesito della rassegna (vedere anche capitolo 2) Essere il più possibile specifici 2. Definire i criteri di inclusione ed esclusione degli studi Definire chiaramente l’esame in valutazione e quello di riferimento, malattia o condizione, caratteristiche dei pazienti e tipo di struttura sanitaria in cui viene eseguito lo studio, misura di outcome, tipo di studio 3. Individuare gli studi di interesse (vedere anche capitolo 6) Progettare una strategia di ricerca in collaborazione con un bibliotecario/esperto di ricerche bibliografiche Valutare se controllare gli articoli indicati in bibliografia, ricercare manualmente i giornali fondamentali e consultare esperti 4. Selezionare gli studi Far controllare i criteri di scelta da due osservatori indipendenti, risolvere le discrepanze per consenso Tenere registrazione degli studi esclusi 5. Estrarre gli studi e valutare la loro qualità (vedere anche capitolo 5) Progettare e collaudare il modulo per la estrazione dei dati e la lista di controllo per la valutazione della qualità Valutare la presenza di specifici bias Considerare la possibilità della estrazione dei dati e la valutazione della qualità da parte di due osservatori indipendenti, risolvere le discrepanze per consenso 6. Analizzare e presentare i risultati (vedere anche capitolo 7) Tabulare i risultati dei singoli studi Valutare i grafici dei likelihood ratio Esaminare l’eterogeneità tra gli studi Considerare la meta-analisi di tutti gli studi o dei sottogruppi di studi 7. Interpretare i dati Considerare i limiti Considerare la forza delle evidenze Considerare le implicazioni economiche Considerare le implicazione per le ricerche future Figure 2 Steps in the process of systematic reviewing [adapted from Egger et al. (13)] 5 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger rassegna riguarda l’uso delle strisce reattive per l’esame delle urine nella diagnostica dei pazienti con sintomi di infezione delle vie urinarie in medicina primaria, il gruppo potrebbe comprendere laboratoristi, medici di medicina generale ed infermiere. E’ anche utile che facciano parte del gruppo un bibliotecario esperto o un esperto di ricerche bibliografiche e un bio-statistico. Il protocollo potrebbe avere una struttura simile a quella dei protocolli Cochrane: • Copertina con informazioni sul gruppo che ha compiuto la rassegna • Sezione di introduzione • Quesito dello studio • Definizione dell’esame diagnostico in valutazione • Definizione della (e) condizione(i), esame(i) di riferimento, e popolazione(i) di pazienti • Criteri di inclusione ed esclusione degli studi (per esempio, i revisori possono volere escludere gli studi diagnostici caso-controllo) • Strategia della ricerca • Valutazione della qualità degli studi • Estrazione dei dati • Analisi statistica e riassunto delle misure Formulare il quesito Il cuore di ogni ricerca sistematica è un quesito definito in modo chiaro ed è essenziale per guidare la preparazione della rassegna, comprese le strategie per individuare e scegliere gli studi, per valutare in modo critico la loro rilevanza e validità e per definire a priori l’analisi dell’eterogeneità tra gli studi. Il quesito deve definire chiaramente il tipo di esame di laboratorio in valutazione, la malattia o condizione e il tipo di struttura sanitaria di interesse. Devono essere specificati anche il tipo di studi che sono rilevanti alla risposta del quesito Che tipo di esame? L’esame oggetto della rassegna deve essere clinicamente rilevante nella pratica corrente. L’esame deve essere definito chiaramente e, se appropriato, devono essere fornite informazioni cliniche dettagliate. Spesso, può essere di interesse l’esecuzione di esami nuovi (e costosi). Questo esame può essere confrontato nella stessa rassegna ad altri esami (più vecchi). Per esempio, Balk et al (15) hanno esaminato l’accuratezza di biomarcatori per la diagnosi di ischemia cardiaca acuta in un dipartimento di emergenza e l’hanno confrontata con quella di creatina chinasi, troponina I e T. 6 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti Che tipo di esame di riferimento? Considerazioni di tipo pratico limitano spesso la scelta del "gold standard" ideale; questo significa che, spesso, studi che possono presentare bias di verifica (vedi il box per una panoramica dei bias che minacciano gli studi della accuratezza diagnostica) dovranno essere inseriti nella rassegna. Per esempio, "l’esame del tempo" gioca spesso un ruolo importante come ulteriore standard di riferimento. Gli esami di riferimento devono essere definiti chiaramente nel protocollo. Questo inserimento faciliterà anche lo sviluppo di strategie appropriate di ricerca per individuare gli studi. Che tipo di misura di outcome? Le valutazioni, come già menzionato, devono impiegare idealmente l’approccio dei trial controllati randomizzati, con degli outcome clinici "solidi". Questo risulta tuttavia fattibile di rado e la maggior parte degli studi di valutazione di esami diagnostici deve concentrarsi su una misura di accuratezza diagnostica (vedi anche capitolo 4). Tali misure delle prestazioni di un esame possono essere classificate a seconda che misurino le prestazioni globali di un esame in un singolo valore o valutino aspetti specifici di prestazione (ad esempio sensibilità e specificità). Le misure specifiche saranno influenzate dalla scelta della soglia che separa gli esami positivi da quelli negativi mentre le misure globali devono essere indipendenti dalla calibrazione dell’esame. Un altro aspetto importante è se la misura è influenzata dalla prevalenza della malattia in questione (misure condizionali) o non è influenzata (misure incondizionali) (20). E’ consigliabile che chi prepara delle rassegne si concentri su misure incondizionali di accuratezza diagnostica, come sensibilità, specificità o likelihood ratio (misure specifiche) o odds ratio diagnostici (misure globali) (20). I likelihood ratio indicano quante volte è più probabile che si verifichi un risultato di un esame in un individuo con la condizione target piuttosto che in una persona senza la condizione (21). Presentano numerosi vantaggi: • I likelihood forniscono una informazione diretta della capacità di un esame di confermare una malattia (likelihood ratio di un esame positivo o likelihood ratio positivo) o di escludere una malattia (likelihood ratio di un esame negativo o likelihood ratio negativo). In genere sono considerati clinicamente utili risultati di esami positivi con ratio superiori a 10 e risultati di esami negativi con ratio inferiori a 0.1 (21). • I likelihood ratio consentono di usare il teorema di Bayes per calcolare direttamente le probabilità post-test dalla probabilità pre-test. E’ disponibile a questo scopo un nomogramma di uso molto semplice (22). • Nel caso di misure continue, i likelihood ratio possono essere calcolati facilmente da soglie multiple. 7 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger Per queste ragioni, si raccomanda l’uso dei likelihood ratio nelle rassegne sistematiche relative ad esami di laboratorio. Che tipo di malattia? La scelta di un esame è strettamente legata alla definizione della malattia o della condizione di interesse. Lo stesso esame può essere usato nella diagnosi di condizioni diverse ma avere prestazioni diverse in queste condizioni. Per esempio, la potenza diagnostica della proteina C reattiva è eccellente nell’endocardite ma modesta nell’appendicite (23,24). E’ importante che chi prepara la rassegna definisca non solo la malattia ma anche lo stadio o gli stadi della malattia a cui è interessato. Che tipo di pazienti? E’ cruciale definire la popolazione ed il contesto di interesse. Variabili importanti che influenzeranno spesso la prestazione di un esame diagnostico comprendono la distribuzione di età e di sesso, la presenza o meno di comorbosità ed il fatto che i soggetti abbiano una vita autonoma, o vivano in case di riposo, siano seguiti da centri di assistenza primaria o siano ospedalizzati in centri di assistenza secondaria o terziaria. Esistono forti argomentazioni per non limitare la rassegna a specifiche popolazione o specifici contesti; l’entità di variazione della prestazione dell’esame osservata fornirà spesso informazioni utili. Inoltre più sono ampi spettro e contesto della popolazione, maggiore sarà il numero di lettori che troveranno informazioni utili al contesto in cui operano. Che tipo di progetto di studio? Valutazioni di esami diagnostici aggiornate secondo lo stato dell’arte sono basate su soggetti arruolati in modo prospettico, applicano lo stesso esame di riferimento a tutti i partecipanti e valutano i risultati in cieco (vedi anche capitolo 5). Studi diagnostici caso-controllo, studi che usano esami di riferimento diversi o non appropriati e studi di cattiva qualità tendono a sovrastimare le prestazioni dell’esame (16) e alcuni autori di rassegne possono decidere di escludere le valutazioni di esami che non soddisfano dei criteri di qualità minimi. Se i revisori sono più restrittivi nei loro criteri di inclusione per gli studi, sarà meno probabile che identifichino studi che sono rilevanti al quesito. Anche se esaminare studi che probabilmente non forniranno dati affidabili è un esercizio frustrante, è importante dimostrare che l’evidenza disponibile per un esame particolare è inadeguata e che sono necessari ulteriori studi di qualità elevata. L’inclusione di studi diversi in termini di qualità metodologica può permettere anche di dimostrare empiricamente il bias (16). L’inclusione di tutti gli studi che soddisfano dei criteri di inclusione di base e la successiva analisi degli studi raggruppati a seconda 8 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti della qualità, può rappresentare spesso la strategia migliore. Eseguendo degli esami di laboratorio, si modifica la probabilità pre-test e si ottiene la probabilità post-test. Per l’interpretazione dei risultati di un esame è quindi essenziale conoscere la probabilità pre-test o la prevalenza della malattia sospettata nella popolazione di interesse. Una stima della probabilità pre-test può essere ricavata dagli studi di valutazione dell’esame; tuttavia, può essere utile eseguire delle ulteriori ricerche della letteratura e presentare una rassegna più completa delle stime della prevalenza comprendendo uno spettro più ampio di popolazioni e di contesti clinici (25). Individuare e selezionare gli studi Esaminare i dettagli tecnici delle ricerche bibliografiche nel campo della medicina di laboratorio va oltre lo scopo del capitolo ed il lettore è rimandato al capitolo 6. L’identificazione degli studi diagnostici per la rassegna sistematica richiede sia una ricerca elettronica sia una ricerca manuale. Le ricerche manuali possono comprendere l’esame dei giornali fondamentali e della bibliografia delle rassegne pubblicate in precedenza, dei trattati e di altri articoli importanti (26). Le ricerche manuali rappresentano uno strumento importante per individuare studi diagnostici. L’attenzione deve essere concentrata su quei giornali che più probabilmente pubblicano studi di esami diagnostici. Questi giornali possono essere identificati su Medline (Tabella 1). Non deve sorprendere che giornali che si occupano di medicina di laboratorio occupino i primi posti di questa lista. Sfortunatamente, non esiste un singolo termine di ricerca che indichi studi diagnostici nelle banche dati elettroniche. Si stima che la sovrapposizione nella copertura dei giornali tra le due banche date più usate, Medline ed EMBASE, sia intorno al 35% (27). Naturalmente la sovrapposizione di una ricerca particolare eseguita nelle due banche dati sarà di entità diversa a seconda della ricerca. Si dovranno considerare anche ricerche in altre banche dati. La frequenza in cui compaiono i termini "sensibilità e specificità" in una banca dati fornisce qualche indicazione circa la banca dati che contiene il numero maggiore di studi di valutazioni di esami diagnostici (Tabella 2). Guidano questa lista Medline ed EMBASE. Valutazione della qualità dello studio La valutazione attenta della qualità metodologica e di altre caratteristiche dello studio è una componente importante delle rassegne sistematiche (vedi anche capitolo 5). Fattori rilevanti da considerare sono correlati sia alla validità interna (assenza di bias) che alla validità esterna (generalizzabilità) degli studi. La 9 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger validità di uno studio di validazione diagnostica non deve essere confusa con l’accuratezza o con l’affidabilità della ripetizione di un test che descrive la capacità di un determinato esame di fornire lo stesso risultato quando eseguito nella stessa popolazione in epoche diverse Il disegno ottimale delle valutazioni di un esame diagnostico è basato su un Tabella 1 Lista dei giornali che pubblicano molti studi di valutazione diagnosticaa Rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 a Numero di articoli 1996 - 2000 994 920 718 573 543 471 430 361 310 308 306 301 294 290 280 271 254 253 251 243 239 230 229 218 213 212 207 204 198 195 Giornale J-CHROMATOGR-B-BIOMED-SCI-APPL J-CLIN-MICROBIOL RADIOLOGY CLIN-CHEM J-CHROMATOGR-A AM-J-CARDIOL AJR-AM-J-ROENTGENOL ANAL-BIOCHEM J-NUCL-MED J-AM-COLL-CARDIOL J-UROL LANCET CHEST CANCER GASTROINTEST-ENDOSC J-VIROL-METHODS J-MAGN-RESON-IMAGING ULTRASOUND-OBSTET-GYNECOL J-PHARM-BIOMED-ANAL EUR-HEART-J OBSTET-GYNECOL MAGN-RESON-MED BMJ AM-J-GASTROENTEROL CIRCULATION EUR-RESPIR-J ANTICANCER-RES AJNR-AM-J-NEURORADIOL CRIT-CARE-MED AM-HEART-J Risultati dalla ricerca con i termini "sensitivity and specificity" in Medline 1996-2000. 10 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti confronto prospettico in cieco del test in valutazione con il test di riferimento (gold standard) in una serie consecutiva di pazienti selezionati da una popolazione clinica rilevante e ben definita (16, 28, 29). La popolazione di pazienti deve coprire l’intero spettro della malattia e deve essere rappresentativa del paziente in cui l’esame in via di sperimentazione sarà eseguito in futuro. Sono molti i bias che si conoscono minacciare la validità delle valutazioni di un esame diagnostico, compreso il bias di spettro, il bias dovuto ad un esame di riferimento non appropriato, il bias di verifica e quello di incorporazione (vedi box) Come deve essere valutata la qualità di uno studio? Esistono essenzialmente due approcci: punteggi di qualità che producono dei punteggi riassuntivi e liste di controllo che valutano le componenti della qualità che si ritengono importanti, senza calcolare un punteggio complessivo (30, 31). Alcuni di questi strumenti tendono a confondere la qualità dell’articolo con la qualità del disegno e dell’esecuzione di uno studio poiché valutano se è stato riportato qualcosa piuttosto che se lo studio è stato condotto correttamente. Nel campo dei trial clinici, vi è evidenza che il punteggio riassuntivo può essere fuorviante anche se basato su aspetti rilevanti di qualità metodologica, a causa dell’attribuzione di un peso inappropriato ai diversi aspetti (32). Sulla base di lavori precedenti (33,34), gli autori hanno sviluppato la lista di controllo allegata (vedi Appendice) che copre i punti seguenti: • condizione target e descrizione dell’esame in valutazione • scelta dei partecipanti allo studio • descrizione della popolazione studiata • esame di riferimento Tabella 2 Banche dati elencate secondo il numero di studi di valutazione di test diagnostici indicizzatia Banca dati Medline (dal 1966) EMBASE (dal 1974) Science citation index (dal 1980) BIOSIS previews (dal 1970) CANCERLIT (dal 1967) Nursing and allied health (dal 1982) PSYCINFO (dal 1987) Alternative and complementary medicine (dal 1985) Numero di articoli 97133 39996 29058 21611 20787 2880 1727 115 a Ricerca nel 2001 con il termine "sensitivity and specificity" nel sistema di ricerca DataStar, che comprende più di 300 banche dati. 11 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger • analisi statistica e presentazione dei risultati La lista di controllo si conclude con una valutazione complessiva dello studio e la probabilità della presenza di bias diversi. I lettori sono incoraggiati a sviluppare il loro strumento, adattato alle necessità ed alle circostanze della loro rassegna. E’ una buona pratica nelle rassegne sistematiche coinvolgere due revisori indipendenti in ogni valutazione di informazioni che prevede una interpretazione soggettiva. Questo principio, che si applica anche alla valutazione della qualità dello studio, consente una analisi dell’accordo tra gli osservatori. In caso di conflitto di interpretazione, questo può essere risolto per consenso o coinvolgendo un terzo valutatore. E’ consigliabile usare un campione di articoli pilota per assicurare che i revisori applichino in modo consistente i criteri di validità. Sintesi e presentazione dei risultati Una volta che gli studi sono stati selezionati, sono stati valutati criticamente ed i dati sono stati estratti, le caratteristiche ed i risultati degli studi inclusi devono essere presentati in forma di tabella. Tipicamente questa tabella comprenderà likelihood ratio, sensibilità e specificità insieme con le caratteristiche principali dello studio, come aspetti chiave di qualità metodologica e caratteristiche delle popolazioni e del contesto in cui è stato condotto lo studio. I risultati ottenuti in ogni trial sono mostrati in un grafico forest plot insieme al loro intervallo di confidenza (vedi anche capitolo 7), un tipo di presentazione originariamente sviluppato per i trial clinici (35). I likelihood ratio positivi e negativi possono essere presentati nello stesso grafico. Un esempio, adattato da una meta-analisi di studi dedicati alla troponina T nella diagnosi di infarto acuto del miocardio nei dipartimenti di emergenza (15), è mostrato nella Figura 3. Ogni studio è rappresentato da un punto alla destra ed alla sinistra di una linea verticale. Il punto alla sinistra corrisponde alla stima del likelihood ratio negativo, mentre la linea orizzontale rappresenta il suo intervallo di confidenza al 95%. Analogamente, il punto e la linea orizzontale alla destra corrisponde alla stima ed all’intervallo di confidenza al 95% del likelihood ratio positivo. La linea verticale solida corrisponde al likelihood ratio di 1, che rappresenta un risultato di un test che non ha nessun effetto sulla probabilità pre-test. Infine, i diamanti nella parte inferiore del grafico rappresentano i likelihood ratio, combinati con il loro intervallo di confidenza al 95%, ottenuti dalla meta-analisi. E’ stata usata una scala logaritmica, che ha numerosi vantaggi (36). E’ molto importante notare che il valore ed il suo reciproco, per esempio, 0.5 e 2, che rappresentano likelihood ratio negativi e positivi dello stesso ordine di grandezza, saranno equidistanti da 1.0. Inoltre, likelihood ratio positivi e negativi occuperanno lo stesso spazio sul grafico e gli intervalli di confidenza 12 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti saranno simmetrici. Tali grafici di likelihood ratio consentono quindi una rapida valutazione della stima della capacità di un determinato risultato di un test di confermare o escludere una diagnosi da studi diversi. In questo esempio, la determinazione della troponina T è più utile per confermare l’infarto del miocardio piuttosto che escluderla. E’ anche chiaro che i vari studi presentano una certa eterogeneità, anche se non estrema, che potrebbe essere dovuta a differenze nelle popolazioni di pazienti esaminati, nella qualità degli studi (generalmente bassa) o a differenze nelle soglie diagnostiche (15). Deve essere eseguita una meta-analisi? Le rassegne sistematiche di interventi terapeutici e preventivi usano spesso meta-analisi per combinare statisticamente risultati da trial controllati randomizzati. Questo è appropriato per un gruppo di trial di qualità metodologica elevata che hanno esaminato lo stesso intervento in popolazioni di pazienti ed ambiti clinici comparabili; ogni trial clinico fornirà una stima senza bias dell’effetto dello stesso trattamento (37). La variabilità che è osservata tra i trial può essere attribuita alla variazione casuale e la meta-analisi dovrebbe quindi fornire una stima egualmente priva di bias dell’effetto del trattamento, con un aumento nella precisione della stima. Nel caso degli studi osservazionali, compresi gli studi di accuratezza dell’esame, si verifica una situazione completamente differente. A causa dell’effetto del bias, degli effetti soglia e delle differenze nello spettro della malattia nelle popolazioni studiate, gli studi possono produrre stime affette da bias ed eterogenee della prestazione dell’esame. Combinando con tecniche statistiche più studi di valutazione di un esame si possono quindi ottenere spesso stime precise ma che presentano bias e risultano di applicabilità incerta. Le meta-analisi dovrebbero essere considerate solo se gli studi sono selezionati da popolazioni e contesti clinici simili, sono stati usati test in valutazione e di riferimento comparabili ed è improbabile che presentino bias. Anche quando questi criteri sono soddisfatti, può essere presente una eterogeneità tra i risultati degli studi talmente grossolana che è inappropriato riassumere le prestazioni di un test in una singola figura. In generale, l’attenta ricerca delle possibili cause di eterogeneità può chiarire di più del calcolo matematico di una misura complessiva dell’accuratezza del test (38). In questo contesto è cruciale l’esplorazione di possibili effetti soglia che sono causati da definizioni diverse di positività in studi diversi. La possibilità di un effetto soglia deve essere sempre valutato, dal punto di vista statistico e grafico costruendo un grafico che ha come assi sensibilità e 1 - specificità (grafico della Receiver Operating Characteristics, vedi anche capitolo 7) (38). In assenza degli effetti soglia (ed altre importanti fonti di 13 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger eterogeneità come differenze in qualità dello studio, caratteristiche del paziente, ambito clinico e variabilità nei test in valutazione e di riferimento), si possono calcolare medie pesate di likelihood ratio, sensibilità o specificità usando metodi standard, come illustrato nella Figura 3 (20). Una discussione dettagliata degli aspetti metodologici nella meta-analisi di studi di valutazione dei test diagnostici è fornita altrove (20, 38-40). Interpretazione e discussione dei risultati La sezione discussione dovrebbe avere una struttura chiara, con un paragrafo iniziale che riassume i risultati principali e contiene, di solito, i punti (41, 42): • Aspetti di forza e di debolezza della rassegna, compresi una valutazione della probabilità di bias • Aspetti di forza e di debolezza rispetto alle altre rassegne, se applicabile Figure 3 Likelihood ratio plot of eight studies of troponin T in the diagnosis of acute myocardial infarction. Key: The black points and horizontal line correspond to negative and positive likelihood ratios and 95% confidence intervals. The arrows indicate that confidence intervals extend beyond 1. The diamonds at the bottom of the graph represents the combined likelihood ratios from (random effects) meta-analysis. The results indicate that troponin T testing is more useful to rule the diagnosis in (combined likelihood ratio 5.4) than to rule it out (0.7). [Adapted from Balk et al. (15)] 14 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti • Grado di eterogeneità tra studi, e possibili spiegazioni della eterogeneità • Applicabilità dei risultati a popolazioni e ambiti clinici diversi, tenendo in con- siderazione le strategie diagnostiche correnti • Implicazioni per clinici e politici, comprese considerazioni di bilancio tra benefici, danni e costi attesi dall’uso del test in questione • Quesiti che non hanno trovato risposta ed ambiti di ricerca futura Una parte importante della sezione discussione è costituita da una breve valutazione della qualità metodologica degli studi, con enfasi particolare sui bias tipici che influenzano gli studi diagnostici, sul bias di pubblicazione e sugli altri bias rilevati nell’articolo. Se esiste una chiara evidenza di bias e se l’analisi di sensibilità mostra che questo potrebbe influenzare seriamente le conclusioni, i revisori non dovrebbero esimersi dal raccomandare che le evidenze non siano considerate (43). Oltre ad identificare i limiti della loro rassegna, i revisori dovrebbero discutere le potenziali fonti di eterogeneità nei risultati. Tale eterogeneità non dovrebbe essere vista solo come un problema nella rassegna ma anche come una opportunità che può portare ad ulteriore conoscenza. Vi sono dei fattori identificabili che possono modificare le prestazioni del test? Come menzionato, questi fattori potrebbero comprendere differenze nella applicazione e nell’interpretazione del test ed altre ragioni per gli effetti soglia e le differenze nello spettro della malattia. La discussione circa l’applicabilità dei risultati in ambiti di popolazione differenti dipenderà dalla conoscenza di circostanze particolari. Per quanto riguarda l’applicabilità dei risultati di una rassegna, i revisori dovrebbero essere cauti e non assumere che il loro particolare ambito, o le circostanze relative agli studi compresi nella rassegna, siano necessariamente le stesse di quelle di altri autori (42). Altri tipi di evidenza, che possono essere importanti nell’interpretare i risultati degli studi di valutazione dei test, comprendono studi di prevalenza (questi possono essere formalmente compresi nella rassegna), ma anche studi sulle prestazioni dello stesso test in altre malattie o sulle prestazioni di altri test nella stessa condizione e di studi di processi fisiologici o biochimici (compresi studi su animali) che sono rilevanti in questo contesto. LIMITI E PROBLEMI NON RISOLTI Nonostante l’importanza cruciale di un uso appropriato dei test diagnostici e di screening nella decisione clinica, la costruzione di una base di evidenze assemblate in modo sistematico e valutate in modo critico per la valutazione di interventi diagnostici e di screening è appena cominciata. Le rassegne sistematiche sono sempre utili per riassumere le evidenze disponibili, valutare la qualità degli studi pubblicati e spiegare la variazione nei risultati tra studi. Tuttavia, sia le potenzialità che i limi- 15 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger ti delle rassegne sistematiche nella valutazione delle tecnologie diagnostiche in medicina di laboratorio sono molto meno bene definite che nella valutazione della efficacia e della efficienza degli interventi terapeutici e preventivi. Considerate, per esempio, il bias di pubblicazione e i bias correlati nella disseminazione dei risultati della ricerca. Nella letteratura dei trial controllati randomizzati, l’esistenza di questi bias è ben documentata; il bias di publicazione può distorcere i risultati perché è più probabile che i trial con risultati statisticamente significativi siano pubblicati e che siano pubblicati più rapidamente rispetto ai trial senza risultati significativi (44). Tra i trial pubblicati, è più probabile che quelli con risultati significativi siano citati ed è più probabile che siano pubblicati più di una volta; questo significa che più probabilmente essi saranno identificati ed inseriti nelle rassegne. Questi bias sono importanti in medicina di laboratorio? Probabilmente si, ma l’evidenza di questo è oggi modesta. Uno studio recente ha dimostrato che studi più piccoli tendono a riportare una migliore accuratezza del test, che può essere dovuta al bias di pubblicazione, ma gli autori hanno concluso che sono necessarie ulteriori ricerche per chiarire i meccanismi alla base di questi risultati (45). La decisione di eseguire un test e l’interpretazione dei risultati di un test sono di solito giudicati nel contesto di altre informazioni. La valutazione della esecuzione di un test diagnostico dovrebbe quindi idealmente integrare i dati sulla prevalenza della malattia, le caratteristiche della malattia, l’uso e l’interdipendenza di numerosi test. Dovrebbero essere considerati anche l’impatto sulle decisioni riguardanti ulteriori test e terapie e gli effetti sugli outcome dei pazienti, tenendo conto anche di costi e valori. Di fronte ad un compito così colossale, sembra che i revisori si siano accontentati di un obiettivo più raggiungibile; le rassegne sistematiche pubblicate e le meta-analisi tendono ad essere basate su studi di un singolo test che sono stati valutati isolatamente e questo limita la loro utilità ed applicabilità. Inoltre, il ritmo rapido delle innovazioni nella tecnologia diagnostica comporta che gli studi di valutazione possono risultare superati una volta completati. Di quale evidenza hanno bisogno i clinici per praticare la Evidence-Based Laboratory Medicine e, in generale, per migliorare l’efficienza diagnostica? Le barriere che si oppongono all’uso ottimale e all’interpretazione appropriata dei dati di valutazione dei test nella pratica clinica sono oggi poco comprese. I likelihood ratio e le regole predittive sono proposte per convertire le probabilità pretest di malattia in probabilità post-test, che dovrebbe superare molti dei bias cognitivi che influenzano i processi di problem solving diagnostico (46). Tuttavia, in pratica continuano a dominare metodi informali di revisione delle opinioni. E’ necessario continuare la ricerca sulle barriere all’uso ottimale ed all’interpretazione appropriata dei dati di valutazione dei test nella pratica clinica. Oggi la base delle evidenze sui test diagnostici e sulla probabilità pre-test ricorda la situazione che esisteva negli anni 80 per quanto riguarda l’efficacia e l’efficienza dei trattamenti. Gli autori hanno suggerito che devono essere istituiti 16 Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti una attività collaborativa internazionale ed una Bayes Library of Diagnostic Studies and Reviews, in analogia alla Cochrane Library, al fine di porre rimedio a questa situazione (22, 44). Alla luce delle difficoltà descritte, è necessario un dibattito internazionale per definire il modo migliore per procedere, ma di sicuro i tempi sono maturi per una base di evidenze assemblate in modo sistematico a sostegno della medicina di laboratorio. RINGRAZIAMENTI Siamo grati a molti colleghi e amici che hanno fatto commenti sulle versioni preliminari, hanno fornito materiale e ci hanno incoraggiato. Tra questi: Markus Battaglia, Heiner Bucher, Fritz Grossenbacher, Christoph Minder, Doug Altman, Jürg Bleuer, Patrick Bossuyt, Iain Chalmers, Jon Deeks, Paul Dieppe, Paul Glasziou, Les Irwig, Peter Jüni, Jeroen Lijmer, Gerben ter Riet e David Simel. Bias comuni che minacciano gli studi di valutazione degli esami diagnostici Bias di spettro: Può essere introdotto quando un esame è valutato in una popolazione che non è rappresentativa degli ambiti in cui l’esame sarà usato. L’esempio classico è quello dello "studio diagnostico caso-controllo" quando un gruppo di pazienti con una ma lattia nota è confrontato con soggetti che non presentano la malattia. In questo caso i pazienti con condizioni poco definite o borderline e condizioni che imitano la malattia target sono, per definizione, esclusi. Questo può portare ad una grossolana esagerazione dell’accuratezza dell’esame (16). Bias dovuto ad esame di riferimento non appropriato: Se l’esame di riferimento usato non corrisponde al migliore esame disponibile (gold standard), l’accuratezza dell’esame sarà sovrastimata. L’entità della sovrastima dipende dalla prevalenza della condizione target (17). Bias di revisione: si verifica quando l’esame di riferimento è interpretato conoscendo i risultati dell’esame in valutazione e viceversa. Questo porta spesso ad una sovrastima dell’accuratezza dell’esame, soprattutto se l’interpretazione dei risultati dell’esame è soggettiva (16). Bias di verifica parziale: Non tutti i pazienti con risultati negativi all’esame in valutazione sono sottoposti all’esame di riferimento. Alcuni pazienti sono esclusi o sono considerati veri negativi. Questo può portare ad una sovrastima di sensibilità e specificità o ad una sovrastima della sensibilità e ad una sottostima della specificità (18). Bias di verifica differenziale: Non tutti i pazienti con risultati negativi all’esame in valutazione sono sottoposti all’esame di riferimento (spesso invasivo) ma sono sottoposti ad un diverso esame di riferimento (meno invasivo). Questo può portare ancora ad una sovrastima dell’accuratezza dell’esame (16, 18). Bias di incorporazione: Un tipo di bias di verifica in cui il risultato dell’esame in valutazione è combinato con il risultato dell’esame di riferimento e forma quindi parte dell’esame di riferimento. Questo porterà ad una sovrastima dell’accuratezza dell’esame perché esame in valutazione e di riferimento non sono indipendenti (19). 17 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger APPENDICE Lista di controllo per valutare criticamente gli studi diagnostici 1. Riferimento bibliografico dello studio Riferimento N 1.1. Autori 1.2. Titolo 1.3. Giornale, anno 2. Condizione target e descrizione dei test in valutazione 2.1. Quale condizione target è stata ___________________________________ valutata? 2.2. Quale (i) test è stato (sono stati) ___________________________________ valutato (i)? 2.3. Sono stati definiti cut-off multipli? Si No 2.4. Quali erano i valori di cut-off? ___________________________________ ___________________________________ 2.5. Sono state fornite informazioni circa Si No la variabilità tra osservatori? 2.6. Sono state definite le caratteristiche Si No metodo del test di prestazioni tecniche del test in sensibilità analitica: specificità: valutazione accuratezza: precisione: altro: 2.7. L’interpretazione del test si basava Si No su una interpretazione soggettiva? 2.8. Indicare il numero degli osservatori _____kappa________non dato coinvolti (dare la statistica kappa) 2.9. Come sono stati risolti i conflitti ___________________________________ ___________________________________ 3. Reclutamento dei partecipanti allo studio 3.1 In che modo sono stati selezionati i partecipanti allo studio? 3.2 Era uno studio diagnostico casocontrollo? 3.3 I pazienti con diagnosi ignota sono stati reclutati per lo studio in modo prospettico o retrospettivo? 3.4 La selezione dei pazienti è stata influenzata da fattori di rischio, sintomi, risultati di esami precedenti? Precisare 18 Consecutivo Casuale Altro, specificare ___________________________________ Si No Commento Prospettico Retrospettivo Fattori di rischio Sintomi Risultati precedenti Commento: Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti Lista di controllo per valutare criticamente gli studi diagnostici(continua) 4. Descrizione della popolazione studiata 4.1 Quale era la distribuzione in relazione ad età, sesso, razza e categoria sociodemografica della popolazione dello studio 4.2 Erano descritti i sintomi della popolazione target? 4.3 Erano presenti sintomi? 4.4. Quanto erano gravi i sintomi? Dare un punteggio o un grado 4.5. Quale era la prevalenza delle condizioni co-morbose 4.6. Quale era la popolazione più frequentemente rappresentata? Popolazione generale (indagine sanitaria, screening) Età media intervallo altro specificare: ___________________________________ Maschio-femmina:numero:__/__ o %__/__ Razza_____________Altro Categoria sociodemografica Si No ___________________________________ ___________________________________ ___________________________________ Condizione_________prev.:______% Condizione_________prev.:______% Assistenza sanitaria primaria Assistenza sanitaria secondaria (pazienti inviati da area ben definita) Assistenza sanitaria secondaria (pazienti inviati da area mal definita) 5. Applicazione dell’esame (degli esami) di riferimento 5.1 Quali test di riferimento sono stati ___________________________________ usati 5.2 Lo standard di riferimento è stato Tutti applicato a tutti o solo ad una parte dei Una parte partecipanti? 5.3 Sono stati usati altri standard di Si No riferimento? Specificare 5.4 Se uno dei test di riferimento era Tempo _____________________________ l’evoluzione clinica senza terapia, per Non menzionato quanto tempo sono stati seguiti i pazienti? 5.5 E’ stata applicata qualche terapia dal Si No momento in cui è stato applicato il test al momento in cui è stato applicato il test di riferimento? 5.6 Sono state fornite informazioni circa Si No la variabilità intra- ed inter-osservatore? 5.7 Sono state indicate le caratteristiche Si No metodo: tecniche delle prestazioni del test? Sensibilità analitica Specificità Accuratezza Precisione Altro 5.8 L’interpretazione del test di Si No riferimento si basa su una interpretazione soggettiva? 5.9 Indicate il numero degli osservatori __________________kappa Non indicato coinvolti (indicare le statistiche kappa) 19 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger Lista di controllo per valutare criticamente gli studi diagnostici (continua) 5.10 Come è stato risolto il disaccordo? ___________________________________ Si 5.11 Il risultato del test in valutazione ha No Non menzioanto influenzato l’applicazione del test di riferimento 5.12 La presenza o l’assenza di segni o Si sintomi della malattia target ha No Non menzioanto influenzato l’applicazione 5.13 I risultati del test in valutazione sono Si stati interpretati senza conoscere il test di No Non menzioanto riferimento? 5.14 I risultati del test di riferimento sono Si stati interpretati senza conoscere il test in No Non menzioanto valutazione? 5.15 Il valutatore aveva a disposizione Si informazioni cliniche rilevanti quando No Non menzioanto valutava il test di valutazione o quello di riferimento? 6. Presentazione dei risultati ed analisi statistica 6.1 Numero di pazienti Arruolati Sottoposti al test in valutazione Sottoposti al test di riferimento Analizzati Esclusi dall’analisi ______________ ______________ ______________ ______________ ______________ 6.2 Quali erano le ragioni per l’esclusione dall’analisi? 6.3 Quanti risultati del test erano determinati? 6.4 Quanti risultati del test erano indeterminati? 6.5 Quanti di questi ultimi sono stati analizzati con tecniche statistiche? 6.6 Quanti risultati dell’accuratezza del test sono stati riportati? ___________________________________ Sensibilità? Intervallo di confidenza (IC) Specificità? (IC) Likelihood ratio positivo? IC Likelihood ratio negativo? IC Area sotto la curva ROC? IC? Odds ratio diagnostico (DOR) IC? Altre misure (PPV, NPV, accuratezza, ecc.)? sens___% IC:_________ pec___% IC:_________ LR+ve___% IC:_________ LR-ve___% IC:_________ area___% IC:_________ DOR___% IC:_________ ___________________________________ 20 ___________________________________ ___________________________________ ___________________________________ Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti Lista di controllo per valutare criticamente gli studi diagnostici(continua) 6.7 Quali erano i risultati? Completare una tabella (tabelle) 2 x 2 per tutti i pazienti e gruppi rilevanti, indicare i grafici delle curve ROC o altre statistiche con gli intervalli di confidenza al 95% 6.8 Quale era la prevalenza della Complessiva_______% popolazione target complessiva e nei Sottogruppi__________________________ sottogruppi clinicamente rilevanti? 7.Valutazione complessiva delle caratteristiche dello studio 7.1 Qual è la prevalenza della condizione target in questo studio rispetto a contesti simili di altri studi? Alta media bassa 7.2 Qual è la probabilità del bias spettro in questo studio? 7.3 Qual è la probabilità del bias verifica differenziale in questo studio? 7.4 Qual è la probabilità del bias verifica parziale in questo studio? 7.5 Qual è la probabilità del bias revisione in questo studio? di Alta media bassa di Alta media bassa molto bassa di Alta media bassa molto bassa di Molto alta 7.6 Qual è la probabilità del bias di incorporazione in questo studio? Alta media alta molto bassa media bassa bassa 7.7 La scelta del test di riferimento è si no appropriata? altra: ____________ Alta media bassa 7.8 Quanto è probabile che le descrizioni dei test e delle popolazioni consentano di riprodurre i risultati dello studio? 8. Decisione Questo studio soddisfa i criteri di qualità di base per l’inclusione? Se no, specificare perchè BIBLIOGRAFIA 1. 2. 3. Black EA, Bordley DR, Tape TG, Panzer RJ. Diagnostic strategies for common medical problems. Philadelphia: American College of Physicians, 1999. Horton R. The information wars. Lancet 1999;353:164-5. Mulrow CD. The medical review article: state of the science. Ann Intern Med 1987;106:485-8. 21 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22 Oxman AD, Guyatt GH. Guidelines for reading literature reviews. Can Med Assoc J 1988;138: 697-703. Egger M, Smith GD, Altman DG. Systematic reviews in health care:Metaanalysis in context. London: BMJ Books, 2001. Mulrow CD, Cook D. Systematic reviews: synthesis of best evidence for health care decisions. Philadelphia: American College of Physicians, 1998. Glasziou P, Irwig L, Bain C, Colditz G. Systematic reviews in health care: a practical guide. Cambridge, UK: Cambridge University Press, 2001. Bossuyt PM, Lijmer JG, Mol BW. Randomised comparisons of medical tests: sometimes invalid, not always efficient. Lancet 2000;356:1844-7. Chalmers I, Altman D. Systematic reviews. London: BMJ Publishing Group, 1995. Egger M, Ebrahim S, Smith GD. Where now for meta-analysis? Int J Epidemiol. 2002;31:1-5. Knottnerus JA. The evidence base of clinical diagnosis. London: BMJ Publishing Group, 2002. Clarke M, Oxman AD, eds. Cochrane reviewers’ handbook 4.1.6 [updated January 2003]. http://www.cochrane.dk/cochrane/handbook/handbook.htm (accessed April 2003). Egger M, Davey Smith G. Principles and procedures. In: Egger M, Smith GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in context, London: BMJ Books, 2001. Antes G, Oxman AD. The Cochrane collaboration. In: Egger M, Smith GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in context,. London: BMJ Books, 2001:447-58. Balk EM, Ioannidis JP, Salem D, Chew PW, Lau J. Accuracy of biomarkers to diagnose acute cardiac ischemia in the emergency department: a meta-analysis. Ann Emerg Med 2001;37:478-94. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, van der Meulen JH, et al. Empirical evidence of design-related bias in studies of diagnostic tests. J Am Med Assoc 1999;282:1061-6. Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. Designing studies to ensure that estimates of test accuracy are transferable. Br Med J 2002;324:669-71. Panzer RJ, Suchman AL, Griner PF. Workup bias in prediction research. Med Decis Making 1987;7:115-9. Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating the efficacy of diagnostic tests. N Engl J Med 1978;299:926-30. Deeks JJ. Systematic reviews of evaluations of diagnostic and screening tests. In: Egger M, Smith GD, Altman DG, eds. Systematic reviews in health care: metaanalysis in context,. London: BMJ Books, 2001:248-82. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results and will they help me in caring for my patients? J Am Med Assoc Le rassegne sistematiche in Medicina di laboratorio: potenzialità, principi e limiti 1994;271:703-7. 22. Fagan TJ. Nomogram for Bayes theorem. N Engl J Med 1975;293:257. 23. Hogevik H, Olaison L, Andersson R, Alestig K. C-reactive protein is more sensitive than erythrocyte sedimentation rate for diagnosis of infective endocarditis. Infection 1997;25:82-5. 24. Andersson RE, Hugander AP, Ghazi SH, Ravn H, Offenbartl SK, Nystrom PO, et al. Diagnostic value of disease history, clinical presentation, and inflammatory parameters of appendicitis. World J Surg 1999;23:133-40. 25. Pewsner D, Bleuer JP, Jüni P, et al. Do we need a Bayes Collaboration? Proposal for a diagnostic database. 13th Cochrane Colloquium, Cape Town, South Africa, October 2000. 26. van der Weijden T, IJzermans CJ, Dinant GJ, van Duijn NP, de Vet R, Buntinx F. Identifying relevant diagnostic studies in MEDLINE. The diagnostic value of the erythrocyte sedimentation rate (ESR) and dipstick as an example. Fam Pract 1997;14:204-8. 27. Smith BJ, Darzins PJ, Quinn M, Heller RF. Modern methods of searching the medical literature. Med J Aust 1992;157:603-11. 28. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. Getting better but still not good. J Am Med Assoc 1995;274:645-51. 29. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of the study valid? J Am Med Assoc 1994;271:389-91. 30. Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S, et al. Assessing the quality of randomized controlled trials: an annotated bibliography of scales and checklists. Control Clin Trials 1995;16:62-73. 31. Moher D, Jadad AR, Tugwell P. Assessing the quality of randomised controlled trials. Current issues and future directions. Int J Technol Assess Hlth Care 1996;12:195-208. 32. Jüni P, Witschi A, Bloch R, Egger M. The hazards of scoring the quality of clinical trial for meta-analysis. J Am Med Assoc 1999;282:1054-60. 33. Arrivé L, Renard R, Carrat F, Belkacem A, Dahan H, Le Hir P, et al.A scale of methodological quality for clinical studies of radiologic examinations. Radiology 2000;217:69-74. 34. Bruns DE, Huth EJ, Magid E, Young DS. Toward a checklist for reporting of studies of diagnostic accuracy of medical tests. Clin Chem 2000;46:8935. 35. Egger M, Smith GD, O’Rourke K. Rationale, potentials and promise of systematic reviews . In Egger M, Smith GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in context. London: BMJ Books, 2001:23-42. 36. Galbraith R. A note on graphical presentation of estimated odds ratios from several clinical trials. Stat Med 1988;7:889-94. 37. Egger M, Schneider M, Davey Smith G. Spurious precision? Meta-analysis 23 Andrea Rita Horvath, Daniel Pewsner, Matthias Egger of observational studies. Br Med J 1998;316:140-5. 38. Lijmer JG, Bossuyt PM, Heisterkamp SH. Exploring sources of heterogeneity in systematic reviews of diagnostic tests. Stat Med 2002;21:1525-37. 39. Oosterhuis WP, Niessen RW, Bossuyt PM. The science of systematic reviewing studies of diagnostic tests. Clin Chem Lab Med 2000;38:577-88. 40. Irwig L, Tosteson AN, Gatsonis C, Leu J, Colditz G, Chalmers TC, et al. Guidelines for meta-analyses evaluating diagnostic tests. Ann Intern Med 1994;120:667-76. 41. Docherty M, Smith R. The case for structuring the discussion of scientific papers. Br Med J 1999;318:1224-5. 42. Clarke M, Oxman AD, eds. Interpreting results. Cochrane reviewers’ handbook 4.1.6 [updated January 2003]; Section 4. http://www.cochrane. dk/cochrane/handbook/handbook.htm (accessed April 2003). 43. Sterne JA, Egger M, Smith GD. Systematic reviews in health care: Investigating and dealing with publication and other biases in meta-analysis. Br Med J 2001;323:101-5. 44. Egger M, Dickersin K, Davey Smith G. Problems and limitations in conducting systematic reviews. In: Egger M, Smith GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in context. London: BMJ Books, 2001:43-68. 45. Song F, Khan KS, Dinnes J, Sutton AJ. Asymmetric funnel plots and publication bias in meta-analyses of diagnostic accuracy. Int J Epidemiol 2002;31:88-95. 46. Elstein AS, Schwartz A. Clinical problem solving and diagnostic decision making: a selective review of the cognitive research literature. In: Knottnerus JA, ed. The evidence base of clinical diagnosis. London: BMJ Publishing Group, 2002:179-95. 47. Straus SE. Reporting diagnostic tests. Br Med J 2003;326:3-4. 24