La statistica ei test diagnostici
Transcript
La statistica ei test diagnostici
La statistica e i test diagnostici Laura Ventura Dipartimento di Scienze Statistiche Università degli Studi di Padova [email protected] XXIII Settimana della Cultura Scientifica e Tecnologica Liceo Scientifico “P. Paleocapa” Rovigo, 10 Aprile 2013 Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 1/ 36 Dal dottore: Prologo Sceneggiatura. • Ambientazione: nello studio del pediatra del vostro fratellino. • Il bambino piagnucola e la mamma appare piuttosto agitata. • Vostra mamma: ”Il mio piccino ha la febbre alta e la lingua a lampone. Dottore . . . che sia la scarlattina?????” Da Wikipedia: La scarlattina è una malattia infettiva acuta contagiosa, caratteristica dell’età 6-12 anni, che si manifesta con febbre e enantema. A differenza di rosolia, varicella ecc. è l’unica provocata da batteri. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 2/ 36 Dal dottore: Primo tempo L’indagine. • Il dottore prende un tampone faringeo, lo passa leggermente sulle tonsille del bimbo. Quindi inserisce il bastoncino nell’apposito astuccio e attende l’esito. • Il test diagnostico (tampone faringeo) è positivo. • Il medico sa anche che nella popolazione in età 6-12 anni la proporzione di soggetti affetti da una certa malattia (prevalenza) è del 10%. E sa anche che il tampone fornisce la risposta corretta nel 98% dei casi. Sulla base dell’esito, il dottore può comunicare alla mamma quanto vale la probabilità che il figlio abbia davvero la scarlattina, dato che è risultato positivo al test. Il secondo tempo alla fine del seminario. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 3/ 36 Test diagnostico • Una delle ragioni principali per effettuare misurazioni cliniche è fornire uno strumento di supporto alle diagnosi. • La misurazione clinica fornisce un test diagnostico, che consente di classificare i soggetti in due gruppi: gruppo dei pazienti sani (M− ) e gruppo dei pazienti malati (M+ ). • Il test è positivo (T+ ) se segnala la presenza della malattia ed è negativo (T− ) se non la segnala. Ma perchè la statistica è utile al test diagnostico? Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 4/ 36 Un esempio • Misure della creatinachinasi (CK) in pazienti con angina instabile (AI) ed infarto miocardico acuto (IMA). • I dati: 1 2 3 4 IMA 92 93 94 95 96 AI 3 4 5 6 7 8 creat 9 119 120 creat 3.13 3.49 3.58 3.61 ... 5.86 5.88 4.49 5.27 5.71 ... 8.93 9.31 pat AI AI AI AI AI AI IMA IMA IMA IMA IMA • Dal momento che i pazienti con IMA tendono a presentare valori di CK maggiori, questa misurazione può rappresentare un test diagnostico? Se sı̀, come scegliere il punto di soglia? Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 5/ 36 Test diagnostico • Ipotesi di interesse: valutare l’accuratezza diagnostica del test basato sulla misura della CK per discriminare tra pazienti con IMA (malati) e con AI (sani). • Il CK più basso tra i pazienti con IMA è 4.49. • Una soglia inferiore a k = 4.49 permette di identificare tutti i pazienti con IMA. Ma il 58% dei pazienti con AI è al di sopra di quella soglia. IMA AI 3 4 5 6 7 8 creat Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 9 • È importante capire la classificazione dei pazienti a seconda della soglia k fissata. 6/ 36 Una prima analisi con soglia di CK fissata Distribuzioni di CK nei due gruppi. 6 AI 9 0.6 0.4 IMA 0.2 AI 3 6 IMA 9 0.0 Density 3 Histogram of IMA 0.0 0.1 0.2 0.3 0.4 0.4 0.2 0.0 Density 0.6 Histogram of AI 0 2 4 6 8 10 CK • Consideriamo una soglia di CK pari a k = 5. • Il test diagnostico è positivo (T+ ) se CK > 5. • Quali sono le conseguenze della scelta del cut-off k = 5? Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 7/ 36 0.4 0.6 Distribuzioni di CK nei due gruppi IMA 0.0 0.2 AI 0 2 4 6 8 10 CK Con k = 5 si commettono due errori: • si classificano alcuni pazienti AI (sani) come IMA (malati) • si classificano alcuni pazienti IMA (malati) come AI (sani) Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 8/ 36 0.0 0.2 0.4 0.6 Distribuzioni ideali nei due gruppi 0 2 4 6 8 10 12 CK Con k = 5 non si commettono errori: • si classificano tutti i pazienti AI come sani • si classificano tutti i pazienti IMA come malati Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 9/ 36 0.0 0.2 0.4 0.6 Distribuzioni peggiori nei due gruppi 2 3 4 5 6 7 8 CK La classificazione del paziente avviene lanciando una moneta. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 10/ 36 Falsi Positivi e Falsi Negativi • In genere le distribuzioni delle misurazioni del test diagnostico nei due gruppi (pazienti M+ e pazienti M− ) si sovrappongono. • Per ogni soglia k (criterion value o cut-off) ci saranno: 1. dei pazienti malati correttamente classificati come positivi (TP = True Positive o Veri Positivi) 2. dei pazienti malati classificati come negativi (FN = False Negative o Falsi Negativi) 3. dei pazienti sani correttamente classificati come negativi (TN = True Negative o Veri Negativi) 4. dei pazienti sani classificati come positivi (FP = False Positive o Falsi Positivi) Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 11/ 36 La matrice di confusione • I quattro valori TP, FN, TN e FP possono essere rappresentati in una tabella a doppia entrata (matrice di confusione o tabella di errata classificazione) che conta il numero di casi classificati correttamente o meno: Test Positivo Test Negativo Totale Paziente Malato Paziente Sano TP (Veri Positivi) FN (Falsi Negativi) FP (Falsi Positivi) TN (Veri Negativi) TP + FN FP + TN Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 Totale TP + FP FN + TN 12/ 36 L’accuratezza del test diagnostico Test Positivo Test Negativo Totale Paziente Malato Paziente Sano TP (Veri Positivi) FN (Falsi Negativi) FP (Falsi Positivi) TN (Veri Negativi) TP + FN FP + TN Totale TP + FP FN + TN • La validità del test può essere misurata tramite la corretta classificazione dei pazienti sani e malati. • L’accuratezza del test è definita come accuratezza = Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 TP+TN TP+FN+FP+TN 13/ 36 Cosa chiediamo a un test? • Ma a partire dalla classificazione, si possono ottenere due importanti indici della qualità del test: la sensibilità e la specificità. • La sensibilità (sensitivity) è definita come sensibilità = TP TP+FN ed esprime la proporzione di Veri Positivi (TP) rispetto al numero totale di positivi effettivi, ossia di pazienti malati (TP+FN). Un test diagnostico è sensibile al 100% quando tutti i malati risultano positivi. • La specificità (specificity) è definita come specificità = TN FP+TN e misura la proporzione di Veri Negativi (TN) rispetto al numero totale di negativi effettivi, ossia di pazienti sani (FP+TN). Un test diagnostico è specifico al 100% quando tutti i sani risultano negativi. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 14/ 36 Sensibilità e Specificità • È chiaro che un test diagnostico sensibile e specifico al 100% non lascerebbe dubbi. • Un test specifico ha alta capacità di classificare i SANI come NEGATIVI al test (basso rischio di Falsi Positivi). • Un test sensibile ha alta capacità di classificare i MALATI come POSTIVI al test (basso rischio di Falsi Negativi). • I valori della sensibilità e della specificità dipendono ovviamente dalla soglia k fissata nella classificazione. • L’aspirazione è minimizzare gli errori. P.S. Per la scarlattina, sensibilità e specificità sono entrambe del 98% Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 15/ 36 Sensibilità o Specificità? 0 4 8 CK Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 0.6 0.0 0.3 0.6 0.3 0.0 0.0 0.3 0.6 • Per un valore elevato di k, i Veri Positivi e la sensibilità decrescono, con la specificità e i Veri Negativi che aumentano. • Per un valore basso di k, i Veri Positivi e la sensibilità aumentano, e i Veri Negativi e la specificità diminuiscono. • Elevata sensibilità e bassa specificità o viceversa? • Se la malattia è a grave rischio e richiede un intervento immediato, è preferibile un test molto sensibile. • Se la malattia ha conseguenze non gravi, è meglio un test molto specifico. 0 4 CK 8 0 4 8 CK 16/ 36 Nell’esempio • Il calcolo della sensibilità e della specificità per un valore della soglia fissato a k = 5 per i dati sul CK fornisce: Test Positivo (creat> 5) Test Negativo (creat≤ 5) Totale IMA (M+ ) 26 1 27 AI (M− ) 16 77 93 Totale 42 78 120 • accuratezza = (26+77)/120 = 0.858 • sensibilità = 26/27 = 0.962 • specificità = 77/93 = 0.827 Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 17/ 36 Adeguatezza del test diagnostico: la curva ROC • Uno strumento per valutare l’adeguatezza di un test diagnostico, basato sulla sensibilità e specificità, è fornito dalla curva ROC. • È stata introdotta negli anni della II Guerra Mondiale nel contesto della teoria delle comunicazioni, per lo studio di particolari immagini radar rilevate nei campi di battaglia, dove si rendeva necessario che il ricevitore del segnale riconoscesse il segnale proveniente da oggetti bellici rispetto al rumore di fondo. • È stata poi ampiamente utilizzata in altri ambiti applicativi, tra cui in particolare in controllo della qualità e in statistica medica. • Ricordiamo che i valori della sensibilità e della specificità sono determinati dal valore di soglia k adottato. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 18/ 36 La curva ROC • Si pensi di far variare la soglia k e di calcolare in corrispondenza di ogni valore di k la sensibilità e la specificità. Il complesso delle sensibilità e delle specificità ai vari livelli discriminanti può essere rappresentato graficamente con la cosiddetta curva ROC. • Si tratta di un diagramma cartesiano in cui sono riportati i punti di coordinate (1-specificità, sensibilità). • Come si interpreta? Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 19/ 36 Interpretazione della curva ROC • Un test perfetto dal punto di vista diagnostico (assenza di sovrapposizione tra i due gruppi) è rappresentato da una curva ROC che passa per l’angolo superiore sinistro del sistema di assi cartesiani (100% specificità, 100% sensibilità). Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 20/ 36 Interpretazione della curva ROC • Al contrario, la bisettrice dell’angolo nell’origine corrisponde alla classificazione casuale dei pazienti. Pertanto, un buon test diagnostico avrà curva ROC il più sopra possibile della diagonale. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 21/ 36 Interpretazione della curva ROC • Nelle situazioni reali: Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 22/ 36 Curva ROC per CK 0.6 0.4 0.0 0.2 Hit Rate 0.8 1.0 ROC Curve 0.0 0.2 0.4 0.6 0.8 1.0 False Alarm Rate Potrebbe essere utile avere una misura sintetica ed oggettiva dell’efficacia del test, attraverso un indicatore di sintesi della curva ROC. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 23/ 36 Area sotto la curva ROC • Un indicatore molto utilizzato della bontà del test diagnostico è costituito dall’area sottesa alla curva ROC (AUC = Area Under the Roc Curve). • Sia X la variabile che rappresenta la misura nel gruppo dei pazienti sani e Y quella nel gruppo dei pazienti malati. L’AUC può essere espressa come AU C = P (X < Y ) 0.0 0.2 0.4 0.6 • Tale quantità, in letteratura, è nota anche come modello sollecitazione-resistenza (stress-strength model). 0 2 4 6 8 10 CK Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 24/ 36 Interpretazione AUC L’interpretazione del valore dell’AUC avviene convenzionalmente secondo la seguente scala: • AU C = 0.5: test non informativo • 0.5 < AU C ≤ 0.7: test poco accurato • 0.7 < AU C ≤ 0.9: test moderatamente accurato • 0.9 < AU C < 1.0: test altamente accurato • AU C = 1.0: test perfetto Nei dati su CK si trova AU C = 0.975: il test diagnostico basato su CK è altamente accurato. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 25/ 36 Confronto di test diagnostici tramite curve ROC È intuitivo come la curva ROC (e l’AUC) possa essere anche utilizzata per confrontare l’efficienza di test diagnostici differenti di una particolare patologia: la curva più spostata verso il centro del grafico appartiene all’esame peggiore. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 26/ 36 Scelta della soglia k ottimale: accuratezza • È possibile determinare in maniera automatica un valore per la soglia k per discriminare tra i due gruppi di pazienti, che risponda ad un qualche criterio di ottimalità. • Ad esempio, tra le misure di adeguatezza della previsione in una matrice di confusione, la più immediata è costituita dalla frazione totale di casi correttamente classificati: TP + TN accuratezza = TP +FN +FP +TN 0.8 0.6 Average accuracy −→ k ∗ = 5.89 0.2 0.4 0.6 0.4 0.0 0.2 Hit Rate 0.8 1.0 ROC Curve 0.0 0.4 0.8 False Alarm Rate 3 4 5 6 7 8 9 Cutoff Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 27/ 36 Nell’esempio • Il calcolo della sensibilità e della specificità per il valore della soglia fissato a k = 5.89 per i dati sul CK fornisce: Test Positivo (creat> 5) Test Negativo (creat≤ 5) Totale IMA (M+ ) 19 8 27 AI (M− ) 0 93 93 Totale 19 101 120 • accuratezza = (19+93)/120 = 0.93 • sensibilità = 19/27 = 0.70 • specificità = 93/93 = 1.0 Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 28/ 36 Scelta della soglia k ottimale: distanza • Il punto sulla curva ROC più vicino all’angolo superiore sinistro rappresenta il miglior compromesso tra sensibilità e specificità. • La distanza di ogni punto della curva ROC al punto (0,1) è p d = (1 − Sensibilità)2 + (1 − Specificità)2 Capitolo 1. La curva ROC • Il cut-off ottimale è il punto con distanza minore. −→ kd∗ = 5.70 sensibilità=0.925 specificità=0.967 Figura 6. Criterio della minima distanza d e indice di Youden J. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 29/ 36 Scelta della soglia k ottimale: distanza • L’indice J di Youden misura la distanza verticale tra la change line e il generico punto della curva ROC J = Sensibilità + Specificità − 1 • Il cut-off ottimale è il punto con distanza J massima. Capitolo 1. La curva ROC −→ kJ∗ = 5.70 sensibilità=0.925 specificità=0.967 coincide con kd∗ Figura 6. Criterio della minima distanza d e indice di Youden J. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 30/ 36 Scelta della soglia k ottimale: considerazioni • Per concludere, si nota che la scelta della soglia k non può essere dettata solo da considerazioni di tipo probabilistico volte a minimizzare la proporzione di classificazioni errate. • È anche necessario basarsi sul prevedibile impatto di tipo sanitario, economico, sociale, ecc. di ciascuno dei due tipi di misclassificazione (Falsi Positivi e Falsi Negativi). • Ad esempio, per malattie ad alta contagiosità potrebbe essere opportuno minimizzare la quota di Falsi Negativi, e quindi privilegiare la sensibilità a scapito della specificità. Viceversa, in altre situazioni (quali, ad esempio, malattie non contagiose, trattabili soltanto con una terapia molto costosa o invasiva) il prezzo di un Falso Positivo sarà verosimilmente superiore a quello di un Falso Negativo, e quindi la soglia k verrà determinata in modo da privilegiare la specificità. Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 31/ 36 Ritorniamo dal dottore: Secondo tempo Definiamo gli eventi: • M+ = (il bimbo ha la scarlattina) • M− = (il bimbo non ha la scarlattina) • T+ = (il test è risultato positivo) • T− = (il test è risultato negativo) e assegniamo i valori: • P(M+ ) = 0.10 • P(M− ) = 1 − 0.9 = 0.1 • P(T+ | M+ ) = P(T− | M− ) = 0.98 • P(T− | M+ ) = P(T+ | M− ) = 0.02 Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 32/ 36 La tabella Paziente Malato Paziente Sano Totale Test Positivo Test Negativo P(M+ ∩T+ ) P(M+ ∩T− ) P(M− ∩T+ ) P(M− ∩T− ) P(T+ ) P(T− ) Totale P(M+ )=0.1 P(M− )=0.9 • Da P(T+ | M+ ) = P(M+ ∩T+ ) / P(M+ ) = 0.98, si trova P(M+ ∩T+ ) = P(T+ | M+ ) P(M+ ) = 0.98 × 0.1 = 0.098 • Analogamente: P(M− ∩T− ) = 0.098 e P(T− ∩ M+ ) = P(T+ ∩ M− ) = 0.02 × 0.9 = 0.018 • Vogliamo P(M+ | T+ ) Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 33/ 36 Da P(M+ ) a P(M+ | T+ ) Paziente Malato Paziente Sano Totale Test Positivo Test Negativo P(M+ ∩T+ ) P(M+ ∩T− ) P(M− ∩T+ ) P(M− ∩T− ) P(T+ ) P(T− ) Totale P(M+ )=0.1 P(M− )=0.9 P (M + |T + ) = P (M + ∩ T + )/P (T + ) P (T + |M + )P (M + ) = P (M + ∩ T + ) + P (M − ∩ T + ) P (T + |M + )P (M + ) = P (T + |M + )P (M + ) + P (T + |M − )P (M − ) 0.98 × 0.1 = = 0.844 0.98 × 0.1 + 0.02 × 0.9 (P.S. questo è il Teorema di Bayes) Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 34/ 36 Teorema di Bayes • Vi è una probabilità a priori che il paziente sia malato (P(M+ ) = 0.10). • Si conoscono le proprietà del test diagnostico (sensibilità e specificità). • Vi è l’evidenza sperimentale: il test risulta positivo. • Tramite il teorema di Bayes si aggiorna la P(M+ ) in P(M+ |T+ ), ottendendo la probabilità a posteriori. P (M + |T + ) = P (T + |M + )P (M + ) P (T + |M + )P (M + ) + P (T + |M − )P (M − ) Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 35/ 36 THE END Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013 36/ 36