Corel Ventura - CAP-8.CHP

Transcript

Corel Ventura - CAP-8.CHP
CAPITOLO 8
LE RASSEGNE SISTEMATICHE IN MEDICINA DI
LABORATORIO: POTENZIALITÀ, PRINCIPI E LIMITI
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
I pazienti e la società in genere si aspettano che i medici basino il loro approccio ad un problema clinico su un ragionamento diagnostico informato e razionale. Questo presuppone che il medico comprenda ed applichi prontamente i
principi del medical decision making, che include la stima della probabilità pretest (prevalenza) della malattia che sta considerando ed applichi le informazioni
appropriate relative alle caratteristiche ed al potere discriminante degli esami
diagnostici. Un risultato di laboratorio modificherà in modo diverso, a seconda
delle caratteristiche dell’esame, la probabilità pre-test in modo da produrre una
probabilità post-test, che influenzerà poi le decisioni sugli esami successivi, sulla terapia o su entrambe (1).
In medicina di laboratorio e in molti altri campi, è diventato semplicemente
impossibile per il singolo leggere, valutare criticamente e fare la sintesi dello
stato delle conoscenze attuali o anche solo mantenersi aggiornato con regolarità
(2). Le rassegne sono diventate degli strumenti essenziali per tutti quanti vogliono mantenersi aggiornati con le novità che si stanno accumulando nello specifico campo di interesse. Le rassegne sono anche necessarie per identificare le aree
in cui le evidenze disponibili sono insufficienti e sono necessarie ulteriori ricerche. Tuttavia, da quando Mulrow (3) e Oxman e Guyatt (4) hanno attirato l’attenzione sulla cattiva qualità delle rassegne narrative degli anni 80, è diventato
chiaro che le rassegne convenzionali possono costituire una fonte di informazioni inaffidabile. In risposta a questa situazione, ci si è concentrati in modo cre-
1
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
scente su metodi formalizzati di esaminare in modo sistematico la letteratura in
modo da produrre delle sintesi formulate in modo esplicito, riproducibili ed aggiornate circa gli effetti degli interventi in sanità (5-7). Questa attività è stata comunque fino ad oggi in gran parte limitata alla valutazione della efficacia ed della efficienza in termini economici di interventi terapeutici e preventivi. Questo è
illustrato in Figura 1, che mostra il numero delle rassegne sistematiche e metaanalisi di trial controllati randomizzati e di studi di valutazione di esami diagnostici pubblicati dal 1986 al 2002.
Se lo scopo ultimo della medicina di laboratorio è il miglioramento degli outcome clinici e della prognosi, l’efficacia degli interventi diagnostici e del monitoraggio di laboratorio deve idealmente essere valutato in trial clinici (8). Esempi classici della valutazione dell’impatto clinico di un esame (e delle azioni terapeutiche successive al risultato di un esame) sono i trial randomizzati. Sfortunatamente, si riesce di rado a valutare gli effetti degli esami diagnostici in trial randomizzati (una ricerca condotta su Medline nell’aprile 2003 combinando il tipo
di pubblicazione trial controllati randomizzati ed il medical subject heading "laboratory techniques and procedures", ha selezionato solo 28 articoli). In questo
articolo saranno considerate rassegne sistematiche e meta-analisi di studi di valutazione di esami diagnostici; è chiaramente utile esaminare in modo sistematico e valutare in modo critico l’evidenza disponibile circa l’accuratezza degli
esami per quelle malattie e quei fattori di rischio per i quali esistono degli interventi efficaci.
Figure 1
Number of publications concerning systematic reviews and meta-analysis 1986 to 2001 [Medline search using text word and medical subject (MESH) heading “meta-analysis” and text
word “systematic review” combined with keywords denoting randomized controlled trials
(open bars) and keywords denoting diagnostic test evaluation studies (solid bars).]
2
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
RASSEGNA SISTEMATICA, PANORAMICA O META-ANALISI?
Molti termini sono usati contemporaneamente per descrivere l’esame sistematico delle evidenze della ricerca, e tra questi "rassegna sistematica", "metaanalisi", "sintesi della ricerca", "panoramica" e "fare un pool". Chalmers e Altman (9) hanno definito la ricerca sistematica come una rassegna che è stata preparata usando un approccio sistematico, documentato in una sezione materiali e
metodi, in modo da minimizzare i bias e gli errori casuali. Una rassegna sistematica può o meno comprendere una meta-analisi; un’analisi statistica dei risultati di studi indipendenti, che hanno in genere lo scopo di produrre una stima
unica complessiva degli effetti di una terapia o dell’accuratezza di un esame. La
distinzione tra rassegna sistematica e meta-analisi è importante poiché è sempre
appropriato e desiderabile in linea di principio fare una rassegna sistematica di
un insieme di dati, ma può essere talvolta inappropriato o perfino fuorviante riunire con tecniche statistiche i risultati di studi separati. Gli autori del presente
capitolo ritengono che spesso chi prepara queste rassegne non riesce a resistere
alla tentazione di combinare studi anche quando la meta-analisi discutibile o
chiaramente inappropriata.
Le rassegne narrative tradizionali tendono avere un ambito più ampio, rivolgendosi ad eziologia, patogenesi, diagnosi, gestione clinica e prognosi di una
condizione mentre le rassegne sistematiche si rivolgono a problemi più ristretti e
specifici. Le rassegne narrative, gli editoriali ed i commenti possono esprimere
un’opinione, fare speculazioni o ipotesi ed incoraggiare nuove idee e dibattiti.
Anche se le rassegne narrative tendono ad essere soggettive ed ad essere più
esposte a bias ed errore rispetto alle rassegne sistematiche, continuano ad avere
un ruolo importante nella letteratura medica (2, 10)
DOVE TROVARE RASSEGNE SISTEMATICHE IN MEDICINA DI
LABORATORIO
Il numero delle rassegne sistematiche di studi diagnostici è aumentato lentamente negli ultimi 10 anni (Figura 1). Una fonte molto usata per trovare rassegne sistematiche di alta qualità è la Cochrane Library (http://www.update-software.com/cochrane/). E’ possibile, tuttavia, trovare solo un numero limitato di
rassegne sistematiche in questa banca dati, che riguarda soprattutto gli interventi
terapeutici. Un numero recente (4/2002) comprendeva 1519 rassegne ma solo
sette erano relative a procedure diagnostiche (0.5%), nove a screening (0.6%) e
19 a monitoraggio (1.3%). Sono state attivate molte altre banche dati, come il
MEDION, che contiene più di 1000 riferimenti a rassegne ed articoli metodologici su studi diagnostici (disponibile all’indirizzo [email protected]). La banca dati DARE (http://agatha.york.ac.uk/darehp.htm), pubblicata
anche sulla Cochrane Library, e i giornali ACP Journal Club
3
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
(http://hiru.mcmaster.ca/acpjc/default.htm) e Evidence-Based Medicine
(http://www.bmjpg.com/template.cfm?name_specjou_be) comprendono abstract strutturati e commenti di rassegne diagnostiche che soddisfano gli standard metodologici. La banca dati del Committee on Evidence-Based Laboratory
Medicine della International Federation of Clinical Chemistry and Laboratory
Medicine consiste di circa 50 rassegne sistematiche in chimica clinica, alcune
delle quali sono valutate criticamente e sono seguite da un breve riassunto
(http://www.ckchl-mb.nl/ifcc). Per una raccolta di banche dati evidence-based,
gli autori raccomandano di usare la banca dati della School for Health and Related Research (ScHARR) della University of Sheffield (http://www.sheffield.ac.uk/_scharr/ir/netting/).
FASI DI UNA RASSEGNA SISTEMATICA
Le sezioni seguenti riassumono le fasi della rassegne sistematiche. Queste
fasi sono riassunte nella Figura 2 e lo schema vuole solo servire come introduzione elementare. I lettori che desiderano fare una rassegna sistematica devono
consultare gli altri capitoli di questo volume e altre fonti (1, 5-7, 11). Il Cochrane Reviewers’ Handbook, anche se focalizzato sui trial clinici che può essere
scaricato gratuitamente da internet, può essere una utile guida (12).
Preparare un protocollo
Le rassegne devono essere considerate studi osservazionali delle evidenze
(13). Le fasi coinvolte sono simili a quelle di ogni altra ricerca: formulazione del
quesito, raccolta ed analisi dei dati, interpretazione dei risultati. Analogamente,
devono essere scritti in anticipo un protocollo di studio dettagliato che dichiara
in modo esplicito il quesito che deve essere affrontato, il sottogruppo di interesse, i metodi ed i criteri che devono essere impiegati per identificare e scegliere
gli studi di interesse e per estrarre e analizzare le informazioni. Questo è importante per evitare bias causati da decisioni influenzate dai dati. Per esempio, possono essere esclusi studi che producono dei risultati inattesi o non desiderati da
modifiche post hoc dei criteri di inclusione. Analogamente, analisi non pianificate di sottogruppi suggerite dai dati possono produrre risultati spuri. Mentre
deve essere fatto ogni sforzo per rispettare un protocollo predeterminato, si deve
riconoscere che questo non è sempre possibile o appropriato. Di regola, i cambiamenti nel protocollo devono essere documentati e registrati. I protocolli delle
rassegne Cochrane sono pubblicati in anticipo, consentendo a chi le legge di valutare quanto il processo di revisione ha rispettato il progetto originale (14).
Il protocollo della rassegna dovrebbe essere idealmente concepito da un
gruppo di revisori esperti sia nell’argomento di interesse sia nelle tecniche di
4
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
sintesi dell’attività di ricerca. La composizione del gruppo dipende dal quesito e
dall’ambito della rassegna. In generale il panel di esperti deve rappresentare le
professioni importanti che nell’area interessata dalla rassegna. Per esempio, se la
1. Formulare il quesito della rassegna (vedere anche capitolo 2)
Essere il più possibile specifici
2. Definire i criteri di inclusione ed esclusione degli studi
Definire chiaramente l’esame in valutazione e quello di riferimento, malattia o condizione, caratteristiche dei pazienti e tipo di struttura sanitaria in cui viene eseguito lo
studio, misura di outcome, tipo di studio
3. Individuare gli studi di interesse (vedere anche capitolo 6)
Progettare una strategia di ricerca in collaborazione con un bibliotecario/esperto di
ricerche bibliografiche
Valutare se controllare gli articoli indicati in bibliografia, ricercare manualmente i
giornali fondamentali e consultare esperti
4. Selezionare gli studi
Far controllare i criteri di scelta da due osservatori indipendenti, risolvere le discrepanze per consenso
Tenere registrazione degli studi esclusi
5. Estrarre gli studi e valutare la loro qualità (vedere anche capitolo 5)
Progettare e collaudare il modulo per la estrazione dei dati e la lista di controllo per
la valutazione della qualità
Valutare la presenza di specifici bias
Considerare la possibilità della estrazione dei dati e la valutazione della qualità da
parte di due osservatori indipendenti, risolvere le discrepanze per consenso
6. Analizzare e presentare i risultati (vedere anche capitolo 7)
Tabulare i risultati dei singoli studi
Valutare i grafici dei likelihood ratio
Esaminare l’eterogeneità tra gli studi
Considerare la meta-analisi di tutti gli studi o dei sottogruppi di studi
7. Interpretare i dati
Considerare i limiti
Considerare la forza delle evidenze
Considerare le implicazioni economiche
Considerare le implicazione per le ricerche future
Figure 2
Steps in the process of systematic reviewing [adapted from Egger et al. (13)]
5
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
rassegna riguarda l’uso delle strisce reattive per l’esame delle urine nella diagnostica dei pazienti con sintomi di infezione delle vie urinarie in medicina primaria, il gruppo potrebbe comprendere laboratoristi, medici di medicina generale ed infermiere. E’ anche utile che facciano parte del gruppo un bibliotecario
esperto o un esperto di ricerche bibliografiche e un bio-statistico. Il protocollo
potrebbe avere una struttura simile a quella dei protocolli Cochrane:
• Copertina con informazioni sul gruppo che ha compiuto la rassegna
• Sezione di introduzione
• Quesito dello studio
• Definizione dell’esame diagnostico in valutazione
• Definizione della (e) condizione(i), esame(i) di riferimento, e popolazione(i) di
pazienti
• Criteri di inclusione ed esclusione degli studi (per esempio, i revisori possono
volere escludere gli studi diagnostici caso-controllo)
• Strategia della ricerca
• Valutazione della qualità degli studi
• Estrazione dei dati
• Analisi statistica e riassunto delle misure
Formulare il quesito
Il cuore di ogni ricerca sistematica è un quesito definito in modo chiaro ed è
essenziale per guidare la preparazione della rassegna, comprese le strategie per
individuare e scegliere gli studi, per valutare in modo critico la loro rilevanza e
validità e per definire a priori l’analisi dell’eterogeneità tra gli studi.
Il quesito deve definire chiaramente il tipo di esame di laboratorio in valutazione, la malattia o condizione e il tipo di struttura sanitaria di interesse. Devono
essere specificati anche il tipo di studi che sono rilevanti alla risposta del quesito
Che tipo di esame?
L’esame oggetto della rassegna deve essere clinicamente rilevante nella pratica corrente. L’esame deve essere definito chiaramente e, se appropriato, devono essere fornite informazioni cliniche dettagliate. Spesso, può essere di interesse l’esecuzione di esami nuovi (e costosi). Questo esame può essere confrontato
nella stessa rassegna ad altri esami (più vecchi). Per esempio, Balk et al (15)
hanno esaminato l’accuratezza di biomarcatori per la diagnosi di ischemia cardiaca acuta in un dipartimento di emergenza e l’hanno confrontata con quella di
creatina chinasi, troponina I e T.
6
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
Che tipo di esame di riferimento?
Considerazioni di tipo pratico limitano spesso la scelta del "gold standard"
ideale; questo significa che, spesso, studi che possono presentare bias di verifica
(vedi il box per una panoramica dei bias che minacciano gli studi della accuratezza diagnostica) dovranno essere inseriti nella rassegna. Per esempio, "l’esame
del tempo" gioca spesso un ruolo importante come ulteriore standard di riferimento. Gli esami di riferimento devono essere definiti chiaramente nel protocollo. Questo inserimento faciliterà anche lo sviluppo di strategie appropriate di ricerca per individuare gli studi.
Che tipo di misura di outcome?
Le valutazioni, come già menzionato, devono impiegare idealmente l’approccio dei trial controllati randomizzati, con degli outcome clinici "solidi". Questo
risulta tuttavia fattibile di rado e la maggior parte degli studi di valutazione di
esami diagnostici deve concentrarsi su una misura di accuratezza diagnostica
(vedi anche capitolo 4). Tali misure delle prestazioni di un esame possono essere
classificate a seconda che misurino le prestazioni globali di un esame in un singolo valore o valutino aspetti specifici di prestazione (ad esempio sensibilità e
specificità). Le misure specifiche saranno influenzate dalla scelta della soglia
che separa gli esami positivi da quelli negativi mentre le misure globali devono
essere indipendenti dalla calibrazione dell’esame. Un altro aspetto importante è
se la misura è influenzata dalla prevalenza della malattia in questione (misure
condizionali) o non è influenzata (misure incondizionali) (20).
E’ consigliabile che chi prepara delle rassegne si concentri su misure incondizionali di accuratezza diagnostica, come sensibilità, specificità o likelihood ratio (misure specifiche) o odds ratio diagnostici (misure globali) (20). I likelihood
ratio indicano quante volte è più probabile che si verifichi un risultato di un esame in un individuo con la condizione target piuttosto che in una persona senza
la condizione (21). Presentano numerosi vantaggi:
• I likelihood forniscono una informazione diretta della capacità di un esame di
confermare una malattia (likelihood ratio di un esame positivo o likelihood ratio positivo) o di escludere una malattia (likelihood ratio di un esame negativo
o likelihood ratio negativo). In genere sono considerati clinicamente utili risultati di esami positivi con ratio superiori a 10 e risultati di esami negativi con
ratio inferiori a 0.1 (21).
• I likelihood ratio consentono di usare il teorema di Bayes per calcolare direttamente le probabilità post-test dalla probabilità pre-test. E’ disponibile a questo
scopo un nomogramma di uso molto semplice (22).
• Nel caso di misure continue, i likelihood ratio possono essere calcolati facilmente da soglie multiple.
7
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
Per queste ragioni, si raccomanda l’uso dei likelihood ratio nelle rassegne sistematiche relative ad esami di laboratorio.
Che tipo di malattia?
La scelta di un esame è strettamente legata alla definizione della malattia o
della condizione di interesse. Lo stesso esame può essere usato nella diagnosi di
condizioni diverse ma avere prestazioni diverse in queste condizioni. Per esempio, la potenza diagnostica della proteina C reattiva è eccellente nell’endocardite
ma modesta nell’appendicite (23,24). E’ importante che chi prepara la rassegna
definisca non solo la malattia ma anche lo stadio o gli stadi della malattia a cui è
interessato.
Che tipo di pazienti?
E’ cruciale definire la popolazione ed il contesto di interesse. Variabili importanti che influenzeranno spesso la prestazione di un esame diagnostico comprendono la distribuzione di età e di sesso, la presenza o meno di comorbosità ed
il fatto che i soggetti abbiano una vita autonoma, o vivano in case di riposo, siano seguiti da centri di assistenza primaria o siano ospedalizzati in centri di assistenza secondaria o terziaria. Esistono forti argomentazioni per non limitare la
rassegna a specifiche popolazione o specifici contesti; l’entità di variazione della
prestazione dell’esame osservata fornirà spesso informazioni utili. Inoltre più
sono ampi spettro e contesto della popolazione, maggiore sarà il numero di lettori che troveranno informazioni utili al contesto in cui operano.
Che tipo di progetto di studio?
Valutazioni di esami diagnostici aggiornate secondo lo stato dell’arte sono
basate su soggetti arruolati in modo prospettico, applicano lo stesso esame di riferimento a tutti i partecipanti e valutano i risultati in cieco (vedi anche capitolo
5). Studi diagnostici caso-controllo, studi che usano esami di riferimento diversi
o non appropriati e studi di cattiva qualità tendono a sovrastimare le prestazioni
dell’esame (16) e alcuni autori di rassegne possono decidere di escludere le valutazioni di esami che non soddisfano dei criteri di qualità minimi. Se i revisori
sono più restrittivi nei loro criteri di inclusione per gli studi, sarà meno probabile
che identifichino studi che sono rilevanti al quesito. Anche se esaminare studi
che probabilmente non forniranno dati affidabili è un esercizio frustrante, è importante dimostrare che l’evidenza disponibile per un esame particolare è inadeguata e che sono necessari ulteriori studi di qualità elevata. L’inclusione di studi
diversi in termini di qualità metodologica può permettere anche di dimostrare
empiricamente il bias (16). L’inclusione di tutti gli studi che soddisfano dei criteri di inclusione di base e la successiva analisi degli studi raggruppati a seconda
8
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
della qualità, può rappresentare spesso la strategia migliore.
Eseguendo degli esami di laboratorio, si modifica la probabilità pre-test e si
ottiene la probabilità post-test. Per l’interpretazione dei risultati di un esame è
quindi essenziale conoscere la probabilità pre-test o la prevalenza della malattia
sospettata nella popolazione di interesse. Una stima della probabilità pre-test
può essere ricavata dagli studi di valutazione dell’esame; tuttavia, può essere utile eseguire delle ulteriori ricerche della letteratura e presentare una rassegna più
completa delle stime della prevalenza comprendendo uno spettro più ampio di
popolazioni e di contesti clinici (25).
Individuare e selezionare gli studi
Esaminare i dettagli tecnici delle ricerche bibliografiche nel campo della medicina di laboratorio va oltre lo scopo del capitolo ed il lettore è rimandato al capitolo 6. L’identificazione degli studi diagnostici per la rassegna sistematica richiede sia una ricerca elettronica sia una ricerca manuale. Le ricerche manuali
possono comprendere l’esame dei giornali fondamentali e della bibliografia delle rassegne pubblicate in precedenza, dei trattati e di altri articoli importanti
(26). Le ricerche manuali rappresentano uno strumento importante per individuare studi diagnostici. L’attenzione deve essere concentrata su quei giornali
che più probabilmente pubblicano studi di esami diagnostici. Questi giornali
possono essere identificati su Medline (Tabella 1). Non deve sorprendere che
giornali che si occupano di medicina di laboratorio occupino i primi posti di
questa lista.
Sfortunatamente, non esiste un singolo termine di ricerca che indichi studi
diagnostici nelle banche dati elettroniche. Si stima che la sovrapposizione nella
copertura dei giornali tra le due banche date più usate, Medline ed EMBASE, sia
intorno al 35% (27). Naturalmente la sovrapposizione di una ricerca particolare
eseguita nelle due banche dati sarà di entità diversa a seconda della ricerca. Si
dovranno considerare anche ricerche in altre banche dati. La frequenza in cui
compaiono i termini "sensibilità e specificità" in una banca dati fornisce qualche
indicazione circa la banca dati che contiene il numero maggiore di studi di valutazioni di esami diagnostici (Tabella 2). Guidano questa lista Medline ed EMBASE.
Valutazione della qualità dello studio
La valutazione attenta della qualità metodologica e di altre caratteristiche
dello studio è una componente importante delle rassegne sistematiche (vedi anche capitolo 5). Fattori rilevanti da considerare sono correlati sia alla validità interna (assenza di bias) che alla validità esterna (generalizzabilità) degli studi. La
9
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
validità di uno studio di validazione diagnostica non deve essere confusa con
l’accuratezza o con l’affidabilità della ripetizione di un test che descrive la capacità di un determinato esame di fornire lo stesso risultato quando eseguito nella
stessa popolazione in epoche diverse
Il disegno ottimale delle valutazioni di un esame diagnostico è basato su un
Tabella 1
Lista dei giornali che pubblicano molti studi di valutazione diagnosticaa
Rango
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
a
Numero di articoli
1996 - 2000
994
920
718
573
543
471
430
361
310
308
306
301
294
290
280
271
254
253
251
243
239
230
229
218
213
212
207
204
198
195
Giornale
J-CHROMATOGR-B-BIOMED-SCI-APPL
J-CLIN-MICROBIOL
RADIOLOGY
CLIN-CHEM
J-CHROMATOGR-A
AM-J-CARDIOL
AJR-AM-J-ROENTGENOL
ANAL-BIOCHEM
J-NUCL-MED
J-AM-COLL-CARDIOL
J-UROL
LANCET
CHEST
CANCER
GASTROINTEST-ENDOSC
J-VIROL-METHODS
J-MAGN-RESON-IMAGING
ULTRASOUND-OBSTET-GYNECOL
J-PHARM-BIOMED-ANAL
EUR-HEART-J
OBSTET-GYNECOL
MAGN-RESON-MED
BMJ
AM-J-GASTROENTEROL
CIRCULATION
EUR-RESPIR-J
ANTICANCER-RES
AJNR-AM-J-NEURORADIOL
CRIT-CARE-MED
AM-HEART-J
Risultati dalla ricerca con i termini "sensitivity and specificity" in Medline 1996-2000.
10
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
confronto prospettico in cieco del test in valutazione con il test di riferimento
(gold standard) in una serie consecutiva di pazienti selezionati da una popolazione clinica rilevante e ben definita (16, 28, 29). La popolazione di pazienti
deve coprire l’intero spettro della malattia e deve essere rappresentativa del paziente in cui l’esame in via di sperimentazione sarà eseguito in futuro. Sono
molti i bias che si conoscono minacciare la validità delle valutazioni di un esame diagnostico, compreso il bias di spettro, il bias dovuto ad un esame di riferimento non appropriato, il bias di verifica e quello di incorporazione (vedi box)
Come deve essere valutata la qualità di uno studio? Esistono essenzialmente
due approcci: punteggi di qualità che producono dei punteggi riassuntivi e liste
di controllo che valutano le componenti della qualità che si ritengono importanti,
senza calcolare un punteggio complessivo (30, 31). Alcuni di questi strumenti
tendono a confondere la qualità dell’articolo con la qualità del disegno e
dell’esecuzione di uno studio poiché valutano se è stato riportato qualcosa piuttosto che se lo studio è stato condotto correttamente. Nel campo dei trial clinici,
vi è evidenza che il punteggio riassuntivo può essere fuorviante anche se basato
su aspetti rilevanti di qualità metodologica, a causa dell’attribuzione di un peso
inappropriato ai diversi aspetti (32).
Sulla base di lavori precedenti (33,34), gli autori hanno sviluppato la lista di
controllo allegata (vedi Appendice) che copre i punti seguenti:
• condizione target e descrizione dell’esame in valutazione
• scelta dei partecipanti allo studio
• descrizione della popolazione studiata
• esame di riferimento
Tabella 2
Banche dati elencate secondo il numero di studi di valutazione di test diagnostici indicizzatia
Banca dati
Medline (dal 1966)
EMBASE (dal 1974)
Science citation index (dal 1980)
BIOSIS previews (dal 1970)
CANCERLIT (dal 1967)
Nursing and allied health (dal 1982)
PSYCINFO (dal 1987)
Alternative and complementary medicine (dal 1985)
Numero di articoli
97133
39996
29058
21611
20787
2880
1727
115
a
Ricerca nel 2001 con il termine "sensitivity and specificity" nel sistema di ricerca DataStar, che
comprende più di 300 banche dati.
11
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
• analisi statistica e presentazione dei risultati
La lista di controllo si conclude con una valutazione complessiva dello studio
e la probabilità della presenza di bias diversi. I lettori sono incoraggiati a sviluppare il loro strumento, adattato alle necessità ed alle circostanze della loro rassegna.
E’ una buona pratica nelle rassegne sistematiche coinvolgere due revisori indipendenti in ogni valutazione di informazioni che prevede una interpretazione
soggettiva. Questo principio, che si applica anche alla valutazione della qualità
dello studio, consente una analisi dell’accordo tra gli osservatori. In caso di conflitto di interpretazione, questo può essere risolto per consenso o coinvolgendo
un terzo valutatore. E’ consigliabile usare un campione di articoli pilota per assicurare che i revisori applichino in modo consistente i criteri di validità.
Sintesi e presentazione dei risultati
Una volta che gli studi sono stati selezionati, sono stati valutati criticamente
ed i dati sono stati estratti, le caratteristiche ed i risultati degli studi inclusi devono essere presentati in forma di tabella. Tipicamente questa tabella comprenderà
likelihood ratio, sensibilità e specificità insieme con le caratteristiche principali
dello studio, come aspetti chiave di qualità metodologica e caratteristiche delle
popolazioni e del contesto in cui è stato condotto lo studio. I risultati ottenuti in
ogni trial sono mostrati in un grafico forest plot insieme al loro intervallo di confidenza (vedi anche capitolo 7), un tipo di presentazione originariamente sviluppato per i trial clinici (35).
I likelihood ratio positivi e negativi possono essere presentati nello stesso
grafico. Un esempio, adattato da una meta-analisi di studi dedicati alla troponina
T nella diagnosi di infarto acuto del miocardio nei dipartimenti di emergenza
(15), è mostrato nella Figura 3. Ogni studio è rappresentato da un punto alla destra ed alla sinistra di una linea verticale. Il punto alla sinistra corrisponde alla
stima del likelihood ratio negativo, mentre la linea orizzontale rappresenta il suo
intervallo di confidenza al 95%. Analogamente, il punto e la linea orizzontale
alla destra corrisponde alla stima ed all’intervallo di confidenza al 95% del likelihood ratio positivo. La linea verticale solida corrisponde al likelihood ratio di
1, che rappresenta un risultato di un test che non ha nessun effetto sulla probabilità pre-test. Infine, i diamanti nella parte inferiore del grafico rappresentano i
likelihood ratio, combinati con il loro intervallo di confidenza al 95%, ottenuti
dalla meta-analisi. E’ stata usata una scala logaritmica, che ha numerosi vantaggi (36). E’ molto importante notare che il valore ed il suo reciproco, per esempio, 0.5 e 2, che rappresentano likelihood ratio negativi e positivi dello stesso ordine di grandezza, saranno equidistanti da 1.0. Inoltre, likelihood ratio positivi e
negativi occuperanno lo stesso spazio sul grafico e gli intervalli di confidenza
12
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
saranno simmetrici.
Tali grafici di likelihood ratio consentono quindi una rapida valutazione della
stima della capacità di un determinato risultato di un test di confermare o escludere una diagnosi da studi diversi. In questo esempio, la determinazione della
troponina T è più utile per confermare l’infarto del miocardio piuttosto che
escluderla.
E’ anche chiaro che i vari studi presentano una certa eterogeneità, anche se
non estrema, che potrebbe essere dovuta a differenze nelle popolazioni di pazienti esaminati, nella qualità degli studi (generalmente bassa) o a differenze
nelle soglie diagnostiche (15).
Deve essere eseguita una meta-analisi?
Le rassegne sistematiche di interventi terapeutici e preventivi usano spesso
meta-analisi per combinare statisticamente risultati da trial controllati randomizzati. Questo è appropriato per un gruppo di trial di qualità metodologica elevata
che hanno esaminato lo stesso intervento in popolazioni di pazienti ed ambiti clinici comparabili; ogni trial clinico fornirà una stima senza bias dell’effetto dello
stesso trattamento (37). La variabilità che è osservata tra i trial può essere attribuita alla variazione casuale e la meta-analisi dovrebbe quindi fornire una stima
egualmente priva di bias dell’effetto del trattamento, con un aumento nella precisione della stima. Nel caso degli studi osservazionali, compresi gli studi di accuratezza dell’esame, si verifica una situazione completamente differente. A
causa dell’effetto del bias, degli effetti soglia e delle differenze nello spettro della malattia nelle popolazioni studiate, gli studi possono produrre stime affette da
bias ed eterogenee della prestazione dell’esame. Combinando con tecniche statistiche più studi di valutazione di un esame si possono quindi ottenere spesso stime precise ma che presentano bias e risultano di applicabilità incerta.
Le meta-analisi dovrebbero essere considerate solo se gli studi sono selezionati da popolazioni e contesti clinici simili, sono stati usati test in valutazione e
di riferimento comparabili ed è improbabile che presentino bias. Anche quando
questi criteri sono soddisfatti, può essere presente una eterogeneità tra i risultati
degli studi talmente grossolana che è inappropriato riassumere le prestazioni di
un test in una singola figura. In generale, l’attenta ricerca delle possibili cause di
eterogeneità può chiarire di più del calcolo matematico di una misura complessiva dell’accuratezza del test (38). In questo contesto è cruciale l’esplorazione di
possibili effetti soglia che sono causati da definizioni diverse di positività in studi diversi. La possibilità di un effetto soglia deve essere sempre valutato, dal
punto di vista statistico e grafico costruendo un grafico che ha come assi sensibilità e 1 - specificità (grafico della Receiver Operating Characteristics, vedi anche capitolo 7) (38). In assenza degli effetti soglia (ed altre importanti fonti di
13
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
eterogeneità come differenze in qualità dello studio, caratteristiche del paziente,
ambito clinico e variabilità nei test in valutazione e di riferimento), si possono
calcolare medie pesate di likelihood ratio, sensibilità o specificità usando metodi
standard, come illustrato nella Figura 3 (20). Una discussione dettagliata degli
aspetti metodologici nella meta-analisi di studi di valutazione dei test diagnostici
è fornita altrove (20, 38-40).
Interpretazione e discussione dei risultati
La sezione discussione dovrebbe avere una struttura chiara, con un paragrafo
iniziale che riassume i risultati principali e contiene, di solito, i punti (41, 42):
• Aspetti di forza e di debolezza della rassegna, compresi una valutazione della
probabilità di bias
• Aspetti di forza e di debolezza rispetto alle altre rassegne, se applicabile
Figure 3
Likelihood ratio plot of eight studies of troponin T in the diagnosis of acute myocardial infarction. Key: The black points and horizontal line correspond to negative and positive likelihood ratios and 95% confidence intervals. The arrows indicate that confidence intervals extend beyond 1. The diamonds at the bottom of the graph represents the combined
likelihood ratios from (random effects) meta-analysis. The results indicate that troponin T
testing is more useful to rule the diagnosis in (combined likelihood ratio 5.4) than to rule it
out (0.7). [Adapted from Balk et al. (15)]
14
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
• Grado di eterogeneità tra studi, e possibili spiegazioni della eterogeneità
• Applicabilità dei risultati a popolazioni e ambiti clinici diversi, tenendo in con-
siderazione le strategie diagnostiche correnti
• Implicazioni per clinici e politici, comprese considerazioni di bilancio tra benefici, danni e costi attesi dall’uso del test in questione
• Quesiti che non hanno trovato risposta ed ambiti di ricerca futura
Una parte importante della sezione discussione è costituita da una breve valutazione della qualità metodologica degli studi, con enfasi particolare sui bias tipici che influenzano gli studi diagnostici, sul bias di pubblicazione e sugli altri
bias rilevati nell’articolo. Se esiste una chiara evidenza di bias e se l’analisi di
sensibilità mostra che questo potrebbe influenzare seriamente le conclusioni, i
revisori non dovrebbero esimersi dal raccomandare che le evidenze non siano
considerate (43).
Oltre ad identificare i limiti della loro rassegna, i revisori dovrebbero discutere le
potenziali fonti di eterogeneità nei risultati. Tale eterogeneità non dovrebbe essere
vista solo come un problema nella rassegna ma anche come una opportunità che
può portare ad ulteriore conoscenza. Vi sono dei fattori identificabili che possono
modificare le prestazioni del test? Come menzionato, questi fattori potrebbero comprendere differenze nella applicazione e nell’interpretazione del test ed altre ragioni
per gli effetti soglia e le differenze nello spettro della malattia.
La discussione circa l’applicabilità dei risultati in ambiti di popolazione differenti dipenderà dalla conoscenza di circostanze particolari. Per quanto riguarda l’applicabilità dei risultati di una rassegna, i revisori dovrebbero essere cauti e non assumere che il loro particolare ambito, o le circostanze relative agli studi compresi nella rassegna, siano necessariamente le stesse di quelle di altri autori (42).
Altri tipi di evidenza, che possono essere importanti nell’interpretare i risultati degli studi di valutazione dei test, comprendono studi di prevalenza (questi
possono essere formalmente compresi nella rassegna), ma anche studi sulle prestazioni dello stesso test in altre malattie o sulle prestazioni di altri test nella
stessa condizione e di studi di processi fisiologici o biochimici (compresi studi
su animali) che sono rilevanti in questo contesto.
LIMITI E PROBLEMI NON RISOLTI
Nonostante l’importanza cruciale di un uso appropriato dei test diagnostici e di
screening nella decisione clinica, la costruzione di una base di evidenze assemblate
in modo sistematico e valutate in modo critico per la valutazione di interventi diagnostici e di screening è appena cominciata. Le rassegne sistematiche sono sempre
utili per riassumere le evidenze disponibili, valutare la qualità degli studi pubblicati
e spiegare la variazione nei risultati tra studi. Tuttavia, sia le potenzialità che i limi-
15
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
ti delle rassegne sistematiche nella valutazione delle tecnologie diagnostiche in
medicina di laboratorio sono molto meno bene definite che nella valutazione
della efficacia e della efficienza degli interventi terapeutici e preventivi.
Considerate, per esempio, il bias di pubblicazione e i bias correlati nella disseminazione dei risultati della ricerca. Nella letteratura dei trial controllati randomizzati, l’esistenza di questi bias è ben documentata; il bias di publicazione
può distorcere i risultati perché è più probabile che i trial con risultati statisticamente significativi siano pubblicati e che siano pubblicati più rapidamente rispetto ai trial senza risultati significativi (44). Tra i trial pubblicati, è più probabile che quelli con risultati significativi siano citati ed è più probabile che siano
pubblicati più di una volta; questo significa che più probabilmente essi saranno
identificati ed inseriti nelle rassegne. Questi bias sono importanti in medicina di
laboratorio? Probabilmente si, ma l’evidenza di questo è oggi modesta. Uno studio recente ha dimostrato che studi più piccoli tendono a riportare una migliore
accuratezza del test, che può essere dovuta al bias di pubblicazione, ma gli autori hanno concluso che sono necessarie ulteriori ricerche per chiarire i meccanismi alla base di questi risultati (45).
La decisione di eseguire un test e l’interpretazione dei risultati di un test sono di
solito giudicati nel contesto di altre informazioni. La valutazione della esecuzione di
un test diagnostico dovrebbe quindi idealmente integrare i dati sulla prevalenza della malattia, le caratteristiche della malattia, l’uso e l’interdipendenza di numerosi
test. Dovrebbero essere considerati anche l’impatto sulle decisioni riguardanti ulteriori test e terapie e gli effetti sugli outcome dei pazienti, tenendo conto anche di costi e valori. Di fronte ad un compito così colossale, sembra che i revisori si siano accontentati di un obiettivo più raggiungibile; le rassegne sistematiche pubblicate e le
meta-analisi tendono ad essere basate su studi di un singolo test che sono stati valutati isolatamente e questo limita la loro utilità ed applicabilità. Inoltre, il ritmo rapido delle innovazioni nella tecnologia diagnostica comporta che gli studi di valutazione possono risultare superati una volta completati.
Di quale evidenza hanno bisogno i clinici per praticare la Evidence-Based
Laboratory Medicine e, in generale, per migliorare l’efficienza diagnostica? Le
barriere che si oppongono all’uso ottimale e all’interpretazione appropriata dei
dati di valutazione dei test nella pratica clinica sono oggi poco comprese. I likelihood ratio e le regole predittive sono proposte per convertire le probabilità pretest di malattia in probabilità post-test, che dovrebbe superare molti dei bias cognitivi che influenzano i processi di problem solving diagnostico (46). Tuttavia,
in pratica continuano a dominare metodi informali di revisione delle opinioni. E’
necessario continuare la ricerca sulle barriere all’uso ottimale ed all’interpretazione appropriata dei dati di valutazione dei test nella pratica clinica.
Oggi la base delle evidenze sui test diagnostici e sulla probabilità pre-test ricorda la situazione che esisteva negli anni 80 per quanto riguarda l’efficacia e
l’efficienza dei trattamenti. Gli autori hanno suggerito che devono essere istituiti
16
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
una attività collaborativa internazionale ed una Bayes Library of Diagnostic Studies and Reviews, in analogia alla Cochrane Library, al fine di porre rimedio a
questa situazione (22, 44). Alla luce delle difficoltà descritte, è necessario un dibattito internazionale per definire il modo migliore per procedere, ma di sicuro i
tempi sono maturi per una base di evidenze assemblate in modo sistematico a
sostegno della medicina di laboratorio.
RINGRAZIAMENTI
Siamo grati a molti colleghi e amici che hanno fatto commenti sulle versioni
preliminari, hanno fornito materiale e ci hanno incoraggiato. Tra questi: Markus
Battaglia, Heiner Bucher, Fritz Grossenbacher, Christoph Minder, Doug Altman, Jürg Bleuer, Patrick Bossuyt, Iain Chalmers, Jon Deeks, Paul Dieppe, Paul
Glasziou, Les Irwig, Peter Jüni, Jeroen Lijmer, Gerben ter Riet e David Simel.
Bias comuni che minacciano gli studi di valutazione degli esami diagnostici
Bias di spettro: Può essere introdotto quando un esame è valutato in una popolazione che
non è rappresentativa degli ambiti in cui l’esame sarà usato. L’esempio classico è quello
dello "studio diagnostico caso-controllo" quando un gruppo di pazienti con una ma lattia
nota è confrontato con soggetti che non presentano la malattia. In questo caso i pazienti con
condizioni poco definite o borderline e condizioni che imitano la malattia target sono, per
definizione, esclusi. Questo può portare ad una grossolana esagerazione dell’accuratezza
dell’esame (16).
Bias dovuto ad esame di riferimento non appropriato: Se l’esame di riferimento usato
non corrisponde al migliore esame disponibile (gold standard), l’accuratezza dell’esame
sarà sovrastimata. L’entità della sovrastima dipende dalla prevalenza della condizione target (17).
Bias di revisione: si verifica quando l’esame di riferimento è interpretato conoscendo i risultati dell’esame in valutazione e viceversa. Questo porta spesso ad una sovrastima
dell’accuratezza dell’esame, soprattutto se l’interpretazione dei risultati dell’esame è soggettiva (16).
Bias di verifica parziale: Non tutti i pazienti con risultati negativi all’esame in valutazione
sono sottoposti all’esame di riferimento. Alcuni pazienti sono esclusi o sono considerati
veri negativi. Questo può portare ad una sovrastima di sensibilità e specificità o ad una sovrastima della sensibilità e ad una sottostima della specificità (18).
Bias di verifica differenziale: Non tutti i pazienti con risultati negativi all’esame in valutazione sono sottoposti all’esame di riferimento (spesso invasivo) ma sono sottoposti ad un
diverso esame di riferimento (meno invasivo). Questo può portare ancora ad una sovrastima dell’accuratezza dell’esame (16, 18).
Bias di incorporazione: Un tipo di bias di verifica in cui il risultato dell’esame in valutazione è combinato con il risultato dell’esame di riferimento e forma quindi parte dell’esame
di riferimento. Questo porterà ad una sovrastima dell’accuratezza dell’esame perché esame
in valutazione e di riferimento non sono indipendenti (19).
17
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
APPENDICE
Lista di controllo per valutare criticamente gli studi diagnostici
1. Riferimento bibliografico dello studio
Riferimento N
1.1. Autori
1.2. Titolo
1.3. Giornale, anno
2. Condizione target e descrizione dei test in valutazione
2.1. Quale condizione target è stata ___________________________________
valutata?
2.2. Quale (i) test è stato (sono stati) ___________________________________
valutato (i)?
2.3. Sono stati definiti cut-off multipli?
Si
No
2.4. Quali erano i valori di cut-off?
___________________________________
___________________________________
2.5. Sono state fornite informazioni circa
Si
No
la variabilità tra osservatori?
2.6. Sono state definite le caratteristiche
Si
No metodo del test
di prestazioni tecniche del test in sensibilità analitica:
specificità:
valutazione
accuratezza:
precisione:
altro:
2.7. L’interpretazione del test si basava
Si
No
su una interpretazione soggettiva?
2.8. Indicare il numero degli osservatori _____kappa________non dato
coinvolti (dare la statistica kappa)
2.9. Come sono stati risolti i conflitti
___________________________________
___________________________________
3. Reclutamento dei partecipanti allo studio
3.1 In che modo sono stati selezionati i
partecipanti allo studio?
3.2 Era uno studio diagnostico casocontrollo?
3.3 I pazienti con diagnosi ignota sono
stati reclutati per lo studio in modo
prospettico o retrospettivo?
3.4 La selezione dei pazienti è stata
influenzata da fattori di rischio, sintomi,
risultati di esami precedenti?
Precisare
18
Consecutivo
Casuale
Altro, specificare
___________________________________
Si
No Commento
Prospettico
Retrospettivo
Fattori di rischio
Sintomi
Risultati precedenti
Commento:
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
Lista di controllo per valutare criticamente gli studi diagnostici(continua)
4. Descrizione della popolazione studiata
4.1 Quale era la distribuzione in
relazione ad età, sesso, razza e
categoria
sociodemografica
della
popolazione dello studio
4.2 Erano descritti i sintomi della
popolazione target?
4.3 Erano presenti sintomi?
4.4. Quanto erano gravi i sintomi? Dare
un punteggio o un grado
4.5. Quale era la prevalenza delle
condizioni co-morbose
4.6. Quale era la popolazione più
frequentemente
rappresentata?
Popolazione
generale
(indagine
sanitaria, screening)
Età
media
intervallo
altro specificare:
___________________________________
Maschio-femmina:numero:__/__ o %__/__
Razza_____________Altro
Categoria sociodemografica
Si
No
___________________________________
___________________________________
___________________________________
Condizione_________prev.:______%
Condizione_________prev.:______%
Assistenza sanitaria primaria
Assistenza sanitaria secondaria (pazienti
inviati da area ben definita)
Assistenza sanitaria secondaria (pazienti
inviati da area mal definita)
5. Applicazione dell’esame (degli esami) di riferimento
5.1 Quali test di riferimento sono stati ___________________________________
usati
5.2 Lo standard di riferimento è stato
Tutti
applicato a tutti o solo ad una parte dei
Una parte
partecipanti?
5.3 Sono stati usati altri standard di
Si
No
riferimento? Specificare
5.4 Se uno dei test di riferimento era Tempo _____________________________
l’evoluzione clinica senza terapia, per
Non menzionato
quanto tempo sono stati seguiti i
pazienti?
5.5 E’ stata applicata qualche terapia dal
Si
No
momento in cui è stato applicato il test al
momento in cui è stato applicato il test di
riferimento?
5.6 Sono state fornite informazioni circa
Si
No
la variabilità intra- ed inter-osservatore?
5.7 Sono state indicate le caratteristiche
Si
No metodo:
tecniche delle prestazioni del test?
Sensibilità analitica
Specificità
Accuratezza
Precisione
Altro
5.8 L’interpretazione del test di
Si
No
riferimento si basa su una interpretazione
soggettiva?
5.9 Indicate il numero degli osservatori __________________kappa
Non indicato
coinvolti (indicare le statistiche kappa)
19
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
Lista di controllo per valutare criticamente gli studi diagnostici (continua)
5.10 Come è stato risolto il disaccordo? ___________________________________
Si
5.11 Il risultato del test in valutazione ha
No
Non menzioanto
influenzato l’applicazione del test di
riferimento
5.12 La presenza o l’assenza di segni o
Si
sintomi della malattia target ha
No
Non menzioanto
influenzato l’applicazione
5.13 I risultati del test in valutazione sono
Si
stati interpretati senza conoscere il test di
No
Non menzioanto
riferimento?
5.14 I risultati del test di riferimento sono
Si
stati interpretati senza conoscere il test in
No
Non menzioanto
valutazione?
5.15 Il valutatore aveva a disposizione
Si
informazioni cliniche rilevanti quando
No
Non menzioanto
valutava il test di valutazione o quello di
riferimento?
6. Presentazione dei risultati ed analisi statistica
6.1 Numero di pazienti
Arruolati
Sottoposti al test in valutazione
Sottoposti al test di riferimento
Analizzati
Esclusi dall’analisi
______________
______________
______________
______________
______________
6.2 Quali erano le ragioni per l’esclusione
dall’analisi?
6.3 Quanti risultati del test erano
determinati?
6.4 Quanti risultati del test erano
indeterminati?
6.5 Quanti di questi ultimi sono stati
analizzati con tecniche statistiche?
6.6 Quanti risultati dell’accuratezza del
test sono stati riportati?
___________________________________
Sensibilità? Intervallo di confidenza (IC)
Specificità? (IC)
Likelihood ratio positivo? IC
Likelihood ratio negativo? IC
Area sotto la curva ROC? IC?
Odds ratio diagnostico (DOR) IC?
Altre misure (PPV, NPV, accuratezza,
ecc.)?
sens___%
IC:_________
pec___%
IC:_________
LR+ve___% IC:_________
LR-ve___% IC:_________
area___%
IC:_________
DOR___%
IC:_________
___________________________________
20
___________________________________
___________________________________
___________________________________
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
Lista di controllo per valutare criticamente gli studi diagnostici(continua)
6.7 Quali erano i risultati? Completare
una tabella (tabelle) 2 x 2 per tutti i
pazienti e gruppi rilevanti, indicare i
grafici delle curve ROC o altre statistiche
con gli intervalli di confidenza al 95%
6.8 Quale era la prevalenza della Complessiva_______%
popolazione target complessiva e nei Sottogruppi__________________________
sottogruppi clinicamente rilevanti?
7.Valutazione complessiva delle caratteristiche dello studio
7.1 Qual è la prevalenza della condizione
target in questo studio rispetto a contesti
simili di altri studi?
Alta
media
bassa
7.2 Qual è la probabilità del bias
spettro in questo studio?
7.3 Qual è la probabilità del bias
verifica differenziale in questo studio?
7.4 Qual è la probabilità del bias
verifica parziale in questo studio?
7.5 Qual è la probabilità del bias
revisione in questo studio?
di
Alta
media
bassa
di
Alta
media
bassa
molto bassa
di
Alta
media
bassa
molto bassa
di
Molto alta
7.6 Qual è la probabilità del bias di
incorporazione in questo studio?
Alta
media
alta
molto bassa
media
bassa
bassa
7.7 La scelta del test di riferimento è
si
no
appropriata?
altra: ____________
Alta
media
bassa
7.8 Quanto è probabile che le descrizioni
dei test e delle popolazioni consentano di
riprodurre i risultati dello studio?
8. Decisione
Questo studio soddisfa i criteri di qualità
di base per l’inclusione?
Se no, specificare perchè
BIBLIOGRAFIA
1.
2.
3.
Black EA, Bordley DR, Tape TG, Panzer RJ. Diagnostic strategies for
common medical problems. Philadelphia: American College of Physicians,
1999.
Horton R. The information wars. Lancet 1999;353:164-5.
Mulrow CD. The medical review article: state of the science. Ann Intern
Med 1987;106:485-8.
21
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22
Oxman AD, Guyatt GH. Guidelines for reading literature reviews. Can
Med Assoc J 1988;138: 697-703.
Egger M, Smith GD, Altman DG. Systematic reviews in health care:Metaanalysis in context. London: BMJ Books, 2001.
Mulrow CD, Cook D. Systematic reviews: synthesis of best evidence for
health care decisions. Philadelphia: American College of Physicians, 1998.
Glasziou P, Irwig L, Bain C, Colditz G. Systematic reviews in health care:
a practical guide. Cambridge, UK: Cambridge University Press, 2001.
Bossuyt PM, Lijmer JG, Mol BW. Randomised comparisons of medical
tests: sometimes invalid, not always efficient. Lancet 2000;356:1844-7.
Chalmers I, Altman D. Systematic reviews. London: BMJ Publishing
Group, 1995.
Egger M, Ebrahim S, Smith GD. Where now for meta-analysis? Int J Epidemiol. 2002;31:1-5.
Knottnerus JA. The evidence base of clinical diagnosis. London: BMJ Publishing Group, 2002.
Clarke M, Oxman AD, eds. Cochrane reviewers’ handbook 4.1.6 [updated
January 2003]. http://www.cochrane.dk/cochrane/handbook/handbook.htm
(accessed April 2003).
Egger M, Davey Smith G. Principles and procedures. In: Egger M, Smith
GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in
context, London: BMJ Books, 2001.
Antes G, Oxman AD. The Cochrane collaboration. In: Egger M, Smith
GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in
context,. London: BMJ Books, 2001:447-58.
Balk EM, Ioannidis JP, Salem D, Chew PW, Lau J. Accuracy of biomarkers to diagnose acute cardiac ischemia in the emergency department: a
meta-analysis. Ann Emerg Med 2001;37:478-94.
Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, van der Meulen JH, et al. Empirical evidence of design-related bias in studies of diagnostic tests. J Am Med Assoc 1999;282:1061-6.
Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. Designing studies to
ensure that estimates of test accuracy are transferable. Br Med J
2002;324:669-71.
Panzer RJ, Suchman AL, Griner PF. Workup bias in prediction research.
Med Decis Making 1987;7:115-9.
Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating
the efficacy of diagnostic tests. N Engl J Med 1978;299:926-30.
Deeks JJ. Systematic reviews of evaluations of diagnostic and screening
tests. In: Egger M, Smith GD, Altman DG, eds. Systematic reviews in
health care: metaanalysis in context,. London: BMJ Books, 2001:248-82.
Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What are the results
and will they help me in caring for my patients? J Am Med Assoc
Le rassegne sistematiche in Medicina di laboratorio:
potenzialità, principi e limiti
1994;271:703-7.
22. Fagan TJ. Nomogram for Bayes theorem. N Engl J Med 1975;293:257.
23. Hogevik H, Olaison L, Andersson R, Alestig K. C-reactive protein is more
sensitive than erythrocyte sedimentation rate for diagnosis of infective endocarditis. Infection 1997;25:82-5.
24. Andersson RE, Hugander AP, Ghazi SH, Ravn H, Offenbartl SK, Nystrom
PO, et al. Diagnostic value of disease history, clinical presentation, and inflammatory parameters of appendicitis. World J Surg 1999;23:133-40.
25. Pewsner D, Bleuer JP, Jüni P, et al. Do we need a Bayes Collaboration?
Proposal for a diagnostic database. 13th Cochrane Colloquium, Cape
Town, South Africa, October 2000.
26. van der Weijden T, IJzermans CJ, Dinant GJ, van Duijn NP, de Vet R,
Buntinx F. Identifying relevant diagnostic studies in MEDLINE. The diagnostic value of the erythrocyte sedimentation rate (ESR) and dipstick as
an example. Fam Pract 1997;14:204-8.
27. Smith BJ, Darzins PJ, Quinn M, Heller RF. Modern methods of searching
the medical literature. Med J Aust 1992;157:603-11.
28. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in
diagnostic test research. Getting better but still not good. J Am Med Assoc
1995;274:645-51.
29. Jaeschke R, Guyatt GH, Sackett DL. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. A. Are the results of
the study valid? J Am Med Assoc 1994;271:389-91.
30. Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S, et al. Assessing the quality of randomized controlled trials: an annotated bibliography of scales and checklists. Control Clin Trials 1995;16:62-73.
31. Moher D, Jadad AR, Tugwell P. Assessing the quality of randomised controlled trials. Current issues and future directions. Int J Technol Assess
Hlth Care 1996;12:195-208.
32. Jüni P, Witschi A, Bloch R, Egger M. The hazards of scoring the quality of
clinical trial for meta-analysis. J Am Med Assoc 1999;282:1054-60.
33. Arrivé L, Renard R, Carrat F, Belkacem A, Dahan H, Le Hir P, et al.A scale of methodological quality for clinical studies of radiologic examinations.
Radiology 2000;217:69-74.
34. Bruns DE, Huth EJ, Magid E, Young DS. Toward a checklist for reporting
of studies of diagnostic accuracy of medical tests. Clin Chem 2000;46:8935.
35. Egger M, Smith GD, O’Rourke K. Rationale, potentials and promise of systematic reviews . In Egger M, Smith GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in context. London: BMJ Books,
2001:23-42.
36. Galbraith R. A note on graphical presentation of estimated odds ratios from
several clinical trials. Stat Med 1988;7:889-94.
37. Egger M, Schneider M, Davey Smith G. Spurious precision? Meta-analysis
23
Andrea Rita Horvath, Daniel Pewsner, Matthias Egger
of observational studies. Br Med J 1998;316:140-5.
38. Lijmer JG, Bossuyt PM, Heisterkamp SH. Exploring sources of heterogeneity in systematic reviews of diagnostic tests. Stat Med 2002;21:1525-37.
39. Oosterhuis WP, Niessen RW, Bossuyt PM. The science of systematic reviewing studies of diagnostic tests. Clin Chem Lab Med 2000;38:577-88.
40. Irwig L, Tosteson AN, Gatsonis C, Leu J, Colditz G, Chalmers TC, et al.
Guidelines for meta-analyses evaluating diagnostic tests. Ann Intern Med
1994;120:667-76.
41. Docherty M, Smith R. The case for structuring the discussion of scientific
papers. Br Med J 1999;318:1224-5.
42. Clarke M, Oxman AD, eds. Interpreting results. Cochrane reviewers’
handbook 4.1.6 [updated January 2003]; Section 4. http://www.cochrane.
dk/cochrane/handbook/handbook.htm (accessed April 2003).
43. Sterne JA, Egger M, Smith GD. Systematic reviews in health care: Investigating and dealing with publication and other biases in meta-analysis. Br
Med J 2001;323:101-5.
44. Egger M, Dickersin K, Davey Smith G. Problems and limitations in conducting systematic reviews. In: Egger M, Smith GD, Altman DG, eds. Systematic reviews in health care: meta-analysis in context. London: BMJ
Books, 2001:43-68.
45. Song F, Khan KS, Dinnes J, Sutton AJ. Asymmetric funnel plots and publication bias in meta-analyses of diagnostic accuracy. Int J Epidemiol
2002;31:88-95.
46. Elstein AS, Schwartz A. Clinical problem solving and diagnostic decision
making: a selective review of the cognitive research literature. In: Knottnerus JA, ed. The evidence base of clinical diagnosis. London: BMJ Publishing Group, 2002:179-95.
47. Straus SE. Reporting diagnostic tests. Br Med J 2003;326:3-4.
24