La statistica ei test diagnostici

Transcript

La statistica ei test diagnostici
La statistica e i test diagnostici
Laura Ventura
Dipartimento di Scienze Statistiche
Università degli Studi di Padova
[email protected]
XXIII Settimana della Cultura Scientifica e Tecnologica
Liceo Scientifico “P. Paleocapa”
Rovigo, 10 Aprile 2013
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
1/ 36
Dal dottore: Prologo
Sceneggiatura.
• Ambientazione: nello studio del pediatra del vostro fratellino.
• Il bambino piagnucola e la mamma appare piuttosto agitata.
• Vostra mamma: ”Il mio piccino ha la febbre alta e la lingua a
lampone. Dottore . . . che sia la scarlattina?????”
Da Wikipedia:
La scarlattina è una malattia infettiva acuta contagiosa, caratteristica dell’età
6-12 anni, che si manifesta con febbre e enantema.
A differenza di rosolia, varicella ecc.
è
l’unica provocata da batteri.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
2/ 36
Dal dottore: Primo tempo
L’indagine.
• Il dottore prende un tampone faringeo, lo passa leggermente
sulle tonsille del bimbo. Quindi inserisce il bastoncino
nell’apposito astuccio e attende l’esito.
• Il test diagnostico (tampone faringeo) è positivo.
• Il medico sa anche che nella popolazione in età 6-12 anni la
proporzione di soggetti affetti da una certa malattia
(prevalenza) è del 10%. E sa anche che il tampone fornisce la
risposta corretta nel 98% dei casi.
Sulla base dell’esito, il dottore può comunicare alla mamma quanto
vale la probabilità che il figlio abbia davvero la scarlattina, dato
che è risultato positivo al test.
Il secondo tempo alla fine del seminario.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
3/ 36
Test diagnostico
• Una delle ragioni principali per effettuare misurazioni cliniche
è fornire uno strumento di supporto alle diagnosi.
• La misurazione clinica fornisce un test diagnostico, che
consente di classificare i soggetti in due gruppi: gruppo dei
pazienti sani (M− ) e gruppo dei pazienti malati (M+ ).
• Il test è positivo (T+ ) se segnala la presenza della malattia ed
è negativo (T− ) se non la segnala.
Ma perchè la statistica è utile al test diagnostico?
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
4/ 36
Un esempio
• Misure della creatinachinasi (CK) in pazienti con angina
instabile (AI) ed infarto miocardico acuto (IMA).
• I dati:
1
2
3
4
IMA
92
93
94
95
96
AI
3
4
5
6
7
8
creat
9
119
120
creat
3.13
3.49
3.58
3.61
...
5.86
5.88
4.49
5.27
5.71
...
8.93
9.31
pat
AI
AI
AI
AI
AI
AI
IMA
IMA
IMA
IMA
IMA
• Dal momento che i pazienti con IMA tendono a presentare
valori di CK maggiori, questa misurazione può rappresentare
un test diagnostico? Se sı̀, come scegliere il punto di soglia?
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
5/ 36
Test diagnostico
• Ipotesi di interesse: valutare l’accuratezza diagnostica del
test basato sulla misura della CK per discriminare tra pazienti
con IMA (malati) e con AI (sani).
• Il CK più basso tra i pazienti
con IMA è 4.49.
• Una soglia inferiore a k = 4.49
permette di identificare tutti i
pazienti con IMA. Ma il 58%
dei pazienti con AI è al di
sopra di quella soglia.
IMA
AI
3
4
5
6
7
8
creat
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
9
• È importante capire la
classificazione dei pazienti a
seconda della soglia k fissata.
6/ 36
Una prima analisi con soglia di CK fissata
Distribuzioni di CK nei due gruppi.
6
AI
9
0.6
0.4
IMA
0.2
AI
3
6
IMA
9
0.0
Density
3
Histogram of IMA
0.0 0.1 0.2 0.3 0.4
0.4
0.2
0.0
Density
0.6
Histogram of AI
0
2
4
6
8
10
CK
• Consideriamo una soglia di CK pari a k = 5.
• Il test diagnostico è positivo (T+ ) se CK > 5.
• Quali sono le conseguenze della scelta del cut-off k = 5?
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
7/ 36
0.4
0.6
Distribuzioni di CK nei due gruppi
IMA
0.0
0.2
AI
0
2
4
6
8
10
CK
Con k = 5 si commettono due errori:
• si classificano alcuni pazienti AI (sani) come IMA (malati)
• si classificano alcuni pazienti IMA (malati) come AI (sani)
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
8/ 36
0.0
0.2
0.4
0.6
Distribuzioni ideali nei due gruppi
0
2
4
6
8
10
12
CK
Con k = 5 non si commettono errori:
• si classificano tutti i pazienti AI come sani
• si classificano tutti i pazienti IMA come malati
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
9/ 36
0.0
0.2
0.4
0.6
Distribuzioni peggiori nei due gruppi
2
3
4
5
6
7
8
CK
La classificazione del paziente avviene lanciando una moneta.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
10/ 36
Falsi Positivi e Falsi Negativi
• In genere le distribuzioni delle misurazioni del test diagnostico nei
due gruppi (pazienti M+ e pazienti M− ) si sovrappongono.
• Per ogni soglia k (criterion value o cut-off) ci saranno:
1. dei pazienti malati correttamente classificati come positivi (TP
= True Positive o Veri Positivi)
2. dei pazienti malati classificati come negativi (FN = False
Negative o Falsi Negativi)
3. dei pazienti sani correttamente classificati come negativi (TN
= True Negative o Veri Negativi)
4. dei pazienti sani classificati come positivi (FP = False Positive
o Falsi Positivi)
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
11/ 36
La matrice di confusione
• I quattro valori TP, FN, TN e FP possono essere rappresentati
in una tabella a doppia entrata (matrice di confusione o
tabella di errata classificazione) che conta il numero di casi
classificati correttamente o meno:
Test Positivo
Test Negativo
Totale
Paziente Malato
Paziente Sano
TP (Veri Positivi)
FN (Falsi Negativi)
FP (Falsi Positivi)
TN (Veri Negativi)
TP + FN
FP + TN
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
Totale
TP + FP
FN + TN
12/ 36
L’accuratezza del test diagnostico
Test Positivo
Test Negativo
Totale
Paziente Malato
Paziente Sano
TP (Veri Positivi)
FN (Falsi Negativi)
FP (Falsi Positivi)
TN (Veri Negativi)
TP + FN
FP + TN
Totale
TP + FP
FN + TN
• La validità del test può essere misurata tramite la corretta
classificazione dei pazienti sani e malati.
• L’accuratezza del test è definita come
accuratezza =
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
TP+TN
TP+FN+FP+TN
13/ 36
Cosa chiediamo a un test?
• Ma a partire dalla classificazione, si possono ottenere due
importanti indici della qualità del test: la sensibilità e la specificità.
• La sensibilità (sensitivity) è definita come
sensibilità =
TP
TP+FN
ed esprime la proporzione di Veri Positivi (TP) rispetto al numero
totale di positivi effettivi, ossia di pazienti malati (TP+FN). Un test
diagnostico è sensibile al 100% quando tutti i malati risultano
positivi.
• La specificità (specificity) è definita come
specificità =
TN
FP+TN
e misura la proporzione di Veri Negativi (TN) rispetto al numero
totale di negativi effettivi, ossia di pazienti sani (FP+TN). Un test
diagnostico è specifico al 100% quando tutti i sani risultano negativi.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
14/ 36
Sensibilità e Specificità
• È chiaro che un test diagnostico sensibile e specifico al 100%
non lascerebbe dubbi.
• Un test specifico ha alta capacità di classificare i SANI come
NEGATIVI al test (basso rischio di Falsi Positivi).
• Un test sensibile ha alta capacità di classificare i MALATI
come POSTIVI al test (basso rischio di Falsi Negativi).
• I valori della sensibilità e della specificità dipendono
ovviamente dalla soglia k fissata nella classificazione.
• L’aspirazione è minimizzare gli errori.
P.S. Per la scarlattina, sensibilità e specificità sono entrambe del 98%
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
15/ 36
Sensibilità o Specificità?
0
4
8
CK
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
0.6
0.0
0.3
0.6
0.3
0.0
0.0
0.3
0.6
• Per un valore elevato di k, i Veri Positivi e la sensibilità
decrescono, con la specificità e i Veri Negativi che aumentano.
• Per un valore basso di k, i Veri Positivi e la sensibilità
aumentano, e i Veri Negativi e la specificità diminuiscono.
• Elevata sensibilità e bassa specificità o viceversa?
• Se la malattia è a grave rischio e richiede un intervento
immediato, è preferibile un test molto sensibile.
• Se la malattia ha conseguenze non gravi, è meglio un test
molto specifico.
0
4
CK
8
0
4
8
CK
16/ 36
Nell’esempio
• Il calcolo della sensibilità e della specificità per un valore della
soglia fissato a k = 5 per i dati sul CK fornisce:
Test Positivo (creat> 5)
Test Negativo (creat≤ 5)
Totale
IMA (M+ )
26
1
27
AI (M− )
16
77
93
Totale
42
78
120
• accuratezza = (26+77)/120 = 0.858
• sensibilità = 26/27 = 0.962
• specificità = 77/93 = 0.827
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
17/ 36
Adeguatezza del test diagnostico: la curva ROC
• Uno strumento per valutare l’adeguatezza di un test
diagnostico, basato sulla sensibilità e specificità, è fornito
dalla curva ROC.
• È stata introdotta negli anni della II Guerra Mondiale nel
contesto della teoria delle comunicazioni, per lo studio di
particolari immagini radar rilevate nei campi di battaglia, dove
si rendeva necessario che il ricevitore del segnale riconoscesse
il segnale proveniente da oggetti bellici rispetto al rumore di
fondo.
• È stata poi ampiamente utilizzata in altri ambiti applicativi,
tra cui in particolare in controllo della qualità e in statistica
medica.
• Ricordiamo che i valori della sensibilità e della specificità sono
determinati dal valore di soglia k adottato.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
18/ 36
La curva ROC
• Si pensi di far variare la soglia k e di calcolare in
corrispondenza di ogni valore di k la sensibilità e la specificità.
Il complesso delle sensibilità e delle specificità ai vari livelli
discriminanti può essere rappresentato graficamente con la
cosiddetta curva ROC.
• Si tratta di un diagramma cartesiano in cui sono riportati i
punti di coordinate (1-specificità, sensibilità).
• Come si interpreta?
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
19/ 36
Interpretazione della curva ROC
• Un test perfetto dal punto di vista diagnostico (assenza di
sovrapposizione tra i due gruppi) è rappresentato da una
curva ROC che passa per l’angolo superiore sinistro del
sistema di assi cartesiani (100% specificità, 100% sensibilità).
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
20/ 36
Interpretazione della curva ROC
• Al contrario, la bisettrice dell’angolo nell’origine corrisponde
alla classificazione casuale dei pazienti. Pertanto, un buon
test diagnostico avrà curva ROC il più sopra possibile della
diagonale.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
21/ 36
Interpretazione della curva ROC
• Nelle situazioni reali:
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
22/ 36
Curva ROC per CK
0.6
0.4
0.0
0.2
Hit Rate
0.8
1.0
ROC Curve
0.0
0.2
0.4
0.6
0.8
1.0
False Alarm Rate
Potrebbe essere utile avere una misura sintetica ed oggettiva
dell’efficacia del test, attraverso un indicatore di sintesi della curva
ROC.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
23/ 36
Area sotto la curva ROC
• Un indicatore molto utilizzato della bontà del test diagnostico
è costituito dall’area sottesa alla curva ROC (AUC = Area
Under the Roc Curve).
• Sia X la variabile che rappresenta la misura nel gruppo dei
pazienti sani e Y quella nel gruppo dei pazienti malati. L’AUC
può essere espressa come
AU C = P (X < Y )
0.0
0.2
0.4
0.6
• Tale quantità, in letteratura, è nota anche come modello
sollecitazione-resistenza (stress-strength model).
0
2
4
6
8
10
CK
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
24/ 36
Interpretazione AUC
L’interpretazione del valore dell’AUC avviene convenzionalmente
secondo la seguente scala:
• AU C = 0.5: test non informativo
• 0.5 < AU C ≤ 0.7: test poco accurato
• 0.7 < AU C ≤ 0.9: test moderatamente accurato
• 0.9 < AU C < 1.0: test altamente accurato
• AU C = 1.0: test perfetto
Nei dati su CK si trova AU C = 0.975: il test diagnostico basato
su CK è altamente accurato.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
25/ 36
Confronto di test diagnostici tramite curve ROC
È intuitivo come la curva ROC (e l’AUC) possa essere anche
utilizzata per confrontare l’efficienza di test diagnostici differenti di
una particolare patologia: la curva più spostata verso il centro del
grafico appartiene all’esame peggiore.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
26/ 36
Scelta della soglia k ottimale: accuratezza
• È possibile determinare in maniera automatica un valore per la
soglia k per discriminare tra i due gruppi di pazienti, che
risponda ad un qualche criterio di ottimalità.
• Ad esempio, tra le misure di adeguatezza della previsione in
una matrice di confusione, la più immediata è costituita dalla
frazione totale di casi correttamente classificati:
TP + TN
accuratezza =
TP +FN +FP +TN
0.8
0.6
Average accuracy
−→ k ∗ = 5.89
0.2
0.4
0.6
0.4
0.0
0.2
Hit Rate
0.8
1.0
ROC Curve
0.0
0.4
0.8
False Alarm Rate
3
4
5
6
7
8
9
Cutoff
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
27/ 36
Nell’esempio
• Il calcolo della sensibilità e della specificità per il valore della
soglia fissato a k = 5.89 per i dati sul CK fornisce:
Test Positivo (creat> 5)
Test Negativo (creat≤ 5)
Totale
IMA (M+ )
19
8
27
AI (M− )
0
93
93
Totale
19
101
120
• accuratezza = (19+93)/120 = 0.93
• sensibilità = 19/27 = 0.70
• specificità = 93/93 = 1.0
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
28/ 36
Scelta della soglia k ottimale: distanza
• Il punto sulla curva ROC più vicino all’angolo superiore sinistro
rappresenta il miglior compromesso tra sensibilità e specificità.
• La distanza di ogni punto della curva ROC al punto (0,1) è
p
d = (1 − Sensibilità)2 + (1 − Specificità)2
Capitolo 1. La curva ROC
• Il cut-off ottimale è il punto
con distanza minore.
−→ kd∗ = 5.70
sensibilità=0.925
specificità=0.967
Figura 6. Criterio della minima distanza d e indice di Youden J.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
29/ 36
Scelta della soglia k ottimale: distanza
• L’indice J di Youden misura la distanza verticale tra la change
line e il generico punto della curva ROC
J = Sensibilità + Specificità − 1
• Il cut-off ottimale è il punto
con distanza J massima.
Capitolo 1. La curva ROC
−→ kJ∗ = 5.70
sensibilità=0.925
specificità=0.967
coincide con kd∗
Figura 6. Criterio della minima distanza d e indice di Youden J.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
30/ 36
Scelta della soglia k ottimale: considerazioni
• Per concludere, si nota che la scelta della soglia k non può
essere dettata solo da considerazioni di tipo probabilistico
volte a minimizzare la proporzione di classificazioni errate.
• È anche necessario basarsi sul prevedibile impatto di tipo
sanitario, economico, sociale, ecc. di ciascuno dei due tipi di
misclassificazione (Falsi Positivi e Falsi Negativi).
• Ad esempio, per malattie ad alta contagiosità potrebbe essere
opportuno minimizzare la quota di Falsi Negativi, e quindi
privilegiare la sensibilità a scapito della specificità. Viceversa,
in altre situazioni (quali, ad esempio, malattie non contagiose,
trattabili soltanto con una terapia molto costosa o invasiva) il
prezzo di un Falso Positivo sarà verosimilmente superiore a
quello di un Falso Negativo, e quindi la soglia k verrà
determinata in modo da privilegiare la specificità.
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
31/ 36
Ritorniamo dal dottore: Secondo tempo
Definiamo gli eventi:
• M+ = (il bimbo ha la scarlattina)
• M− = (il bimbo non ha la scarlattina)
• T+ = (il test è risultato positivo)
• T− = (il test è risultato negativo)
e assegniamo i valori:
• P(M+ ) = 0.10
• P(M− ) = 1 − 0.9 = 0.1
• P(T+ | M+ ) = P(T− | M− ) = 0.98
• P(T− | M+ ) = P(T+ | M− ) = 0.02
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
32/ 36
La tabella
Paziente Malato
Paziente Sano
Totale
Test Positivo
Test Negativo
P(M+ ∩T+ )
P(M+ ∩T− )
P(M− ∩T+ )
P(M− ∩T− )
P(T+ )
P(T− )
Totale
P(M+ )=0.1
P(M− )=0.9
• Da P(T+ | M+ ) = P(M+ ∩T+ ) / P(M+ ) = 0.98, si trova
P(M+ ∩T+ ) = P(T+ | M+ ) P(M+ ) = 0.98 × 0.1 = 0.098
• Analogamente: P(M− ∩T− ) = 0.098 e
P(T− ∩ M+ ) = P(T+ ∩ M− ) = 0.02 × 0.9 = 0.018
• Vogliamo P(M+ | T+ )
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
33/ 36
Da P(M+ ) a P(M+ | T+ )
Paziente Malato
Paziente Sano
Totale
Test Positivo
Test Negativo
P(M+ ∩T+ )
P(M+ ∩T− )
P(M− ∩T+ )
P(M− ∩T− )
P(T+ )
P(T− )
Totale
P(M+ )=0.1
P(M− )=0.9
P (M + |T + ) = P (M + ∩ T + )/P (T + )
P (T + |M + )P (M + )
=
P (M + ∩ T + ) + P (M − ∩ T + )
P (T + |M + )P (M + )
=
P (T + |M + )P (M + ) + P (T + |M − )P (M − )
0.98 × 0.1
=
= 0.844
0.98 × 0.1 + 0.02 × 0.9
(P.S. questo è il Teorema di Bayes)
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
34/ 36
Teorema di Bayes
• Vi è una probabilità a priori che il paziente sia malato (P(M+ )
= 0.10).
• Si conoscono le proprietà del test diagnostico (sensibilità e
specificità).
• Vi è l’evidenza sperimentale: il test risulta positivo.
• Tramite il teorema di Bayes si aggiorna la P(M+ ) in
P(M+ |T+ ), ottendendo la probabilità a posteriori.
P (M + |T + ) =
P (T + |M + )P (M + )
P (T + |M + )P (M + ) + P (T + |M − )P (M − )
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
35/ 36
THE END
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
36/ 36