La statistica ei test diagnostici

Transcript

La statistica e i test diagnostici
Laura Ventura
Dipartimento di Scienze Statistiche
Università degli Studi di Padova
[email protected]
XXIII Settimana della Cultura Scientifica e Tecnologica
Liceo Scientifico “P. Paleocapa”
Rovigo, 10 Aprile 2013
Liceo Scientifico “P. Paleocapa”, Rovigo, 10 Aprile 2013
1/ 36
Dal dottore: Prologo
Sceneggiatura.
• Ambientazione: nello studio del pediatra del vostro fratellino.
• Il bambino piagnucola e la mamma appare piuttosto agitata.
• Vostra mamma: ”Il mio piccino ha la febbre alta e la lingua a
lampone. Dottore . . . che sia la scarlattina?????”
Da Wikipedia:
La scarlattina è una malattia infettiva acuta contagiosa, caratteristica dell’età
6-12 anni, che si manifesta con febbre e enantema.
A differenza di rosolia, varicella ecc.
è
l’unica provocata da batteri.
2/ 36
Dal dottore: Primo tempo
L’indagine.
• Il dottore prende un tampone faringeo, lo passa leggermente
sulle tonsille del bimbo. Quindi inserisce il bastoncino
nell’apposito astuccio e attende l’esito.
• Il test diagnostico (tampone faringeo) è positivo.
• Il medico sa anche che nella popolazione in età 6-12 anni la
proporzione di soggetti affetti da una certa malattia
(prevalenza) è del 10%. E sa anche che il tampone fornisce la
risposta corretta nel 98% dei casi.
Sulla base dell’esito, il dottore può comunicare alla mamma quanto
vale la probabilità che il figlio abbia davvero la scarlattina, dato
che è risultato positivo al test.
Il secondo tempo alla fine del seminario.
3/ 36
Test diagnostico
• Una delle ragioni principali per effettuare misurazioni cliniche
è fornire uno strumento di supporto alle diagnosi.
• La misurazione clinica fornisce un test diagnostico, che
consente di classificare i soggetti in due gruppi: gruppo dei
pazienti sani (M− ) e gruppo dei pazienti malati (M+ ).
• Il test è positivo (T+ ) se segnala la presenza della malattia ed
è negativo (T− ) se non la segnala.
Ma perchè la statistica è utile al test diagnostico?
4/ 36
Un esempio
• Misure della creatinachinasi (CK) in pazienti con angina
instabile (AI) ed infarto miocardico acuto (IMA).
• I dati:
1
2
3
4
IMA
92
93
94
95
96
AI
3
4
5
6
7
8
creat
9
119
120
creat
3.13
3.49
3.58
3.61
...
5.86
5.88
4.49
5.27
5.71
...
8.93
9.31
pat
AI
AI
AI
AI
AI
AI
IMA
IMA
IMA
IMA
IMA
• Dal momento che i pazienti con IMA tendono a presentare
valori di CK maggiori, questa misurazione può rappresentare
un test diagnostico? Se sı̀, come scegliere il punto di soglia?
5/ 36
Test diagnostico
• Ipotesi di interesse: valutare l’accuratezza diagnostica del
test basato sulla misura della CK per discriminare tra pazienti
con IMA (malati) e con AI (sani).
• Il CK più basso tra i pazienti
con IMA è 4.49.
• Una soglia inferiore a k = 4.49
permette di identificare tutti i
pazienti con IMA. Ma il 58%
dei pazienti con AI è al di
sopra di quella soglia.
IMA
AI
3
4
5
6
7
8
creat
9
• È importante capire la
classificazione dei pazienti a
seconda della soglia k fissata.
6/ 36
Una prima analisi con soglia di CK fissata
Distribuzioni di CK nei due gruppi.
6
AI
9
0.6
0.4
IMA
0.2
AI
3
6
IMA
9
0.0
Density
3
Histogram of IMA
0.0 0.1 0.2 0.3 0.4
0.4
0.2
0.0
Density
0.6
Histogram of AI
0
2
4
6
8
10
CK
• Consideriamo una soglia di CK pari a k = 5.
• Il test diagnostico è positivo (T+ ) se CK > 5.
• Quali sono le conseguenze della scelta del cut-off k = 5?
7/ 36
0.4
0.6
Distribuzioni di CK nei due gruppi
IMA
0.0
0.2
AI
0
2
4
6
8
10
CK
Con k = 5 si commettono due errori:
• si classificano alcuni pazienti AI (sani) come IMA (malati)
• si classificano alcuni pazienti IMA (malati) come AI (sani)
8/ 36
0.0
0.2
0.4
0.6
Distribuzioni ideali nei due gruppi
0
2
4
6
8
10
12
CK
Con k = 5 non si commettono errori:
• si classificano tutti i pazienti AI come sani
• si classificano tutti i pazienti IMA come malati
9/ 36
0.0
0.2
0.4
0.6
Distribuzioni peggiori nei due gruppi
2
3
4
5
6
7
8
CK
La classificazione del paziente avviene lanciando una moneta.
10/ 36
Falsi Positivi e Falsi Negativi
• In genere le distribuzioni delle misurazioni del test diagnostico nei
due gruppi (pazienti M+ e pazienti M− ) si sovrappongono.
• Per ogni soglia k (criterion value o cut-off) ci saranno:
1. dei pazienti malati correttamente classificati come positivi (TP
= True Positive o Veri Positivi)
2. dei pazienti malati classificati come negativi (FN = False
Negative o Falsi Negativi)
3. dei pazienti sani correttamente classificati come negativi (TN
= True Negative o Veri Negativi)
4. dei pazienti sani classificati come positivi (FP = False Positive
o Falsi Positivi)
11/ 36
La matrice di confusione
• I quattro valori TP, FN, TN e FP possono essere rappresentati
in una tabella a doppia entrata (matrice di confusione o
tabella di errata classificazione) che conta il numero di casi
classificati correttamente o meno:
Test Positivo
Test Negativo
Totale
Paziente Malato
Paziente Sano
TP (Veri Positivi)
FN (Falsi Negativi)
FP (Falsi Positivi)
TN (Veri Negativi)
TP + FN
FP + TN
Totale
TP + FP
FN + TN
12/ 36
L’accuratezza del test diagnostico
Test Positivo
Test Negativo
Totale
Paziente Malato
Paziente Sano
TP (Veri Positivi)
FN (Falsi Negativi)
FP (Falsi Positivi)
TN (Veri Negativi)
TP + FN
FP + TN
Totale
TP + FP
FN + TN
• La validità del test può essere misurata tramite la corretta
classificazione dei pazienti sani e malati.
• L’accuratezza del test è definita come
accuratezza =
TP+TN
TP+FN+FP+TN
13/ 36
Cosa chiediamo a un test?
• Ma a partire dalla classificazione, si possono ottenere due
importanti indici della qualità del test: la sensibilità e la specificità.
• La sensibilità (sensitivity) è definita come
sensibilità =
TP
TP+FN
ed esprime la proporzione di Veri Positivi (TP) rispetto al numero
totale di positivi effettivi, ossia di pazienti malati (TP+FN). Un test
diagnostico è sensibile al 100% quando tutti i malati risultano
positivi.
• La specificità (specificity) è definita come
specificità =
TN
FP+TN
e misura la proporzione di Veri Negativi (TN) rispetto al numero
totale di negativi effettivi, ossia di pazienti sani (FP+TN). Un test
diagnostico è specifico al 100% quando tutti i sani risultano negativi.
14/ 36
Sensibilità e Specificità
• È chiaro che un test diagnostico sensibile e specifico al 100%
non lascerebbe dubbi.
• Un test specifico ha alta capacità di classificare i SANI come
NEGATIVI al test (basso rischio di Falsi Positivi).
• Un test sensibile ha alta capacità di classificare i MALATI
come POSTIVI al test (basso rischio di Falsi Negativi).
• I valori della sensibilità e della specificità dipendono
ovviamente dalla soglia k fissata nella classificazione.
• L’aspirazione è minimizzare gli errori.
P.S. Per la scarlattina, sensibilità e specificità sono entrambe del 98%
15/ 36
Sensibilità o Specificità?
0
4
8
CK
0.6
0.0
0.3
0.6
0.3
0.0
0.0
0.3
0.6
• Per un valore elevato di k, i Veri Positivi e la sensibilità
decrescono, con la specificità e i Veri Negativi che aumentano.
• Per un valore basso di k, i Veri Positivi e la sensibilità
aumentano, e i Veri Negativi e la specificità diminuiscono.
• Elevata sensibilità e bassa specificità o viceversa?
• Se la malattia è a grave rischio e richiede un intervento
immediato, è preferibile un test molto sensibile.
• Se la malattia ha conseguenze non gravi, è meglio un test
molto specifico.
0
4
CK
8
0
4
8
CK
16/ 36
Nell’esempio
• Il calcolo della sensibilità e della specificità per un valore della
soglia fissato a k = 5 per i dati sul CK fornisce:
Test Positivo (creat> 5)
Test Negativo (creat≤ 5)
Totale
IMA (M+ )
26
1
27
AI (M− )
16
77
93
Totale
42
78
120
• accuratezza = (26+77)/120 = 0.858
• sensibilità = 26/27 = 0.962
• specificità = 77/93 = 0.827
17/ 36
Adeguatezza del test diagnostico: la curva ROC
• Uno strumento per valutare l’adeguatezza di un test
diagnostico, basato sulla sensibilità e specificità, è fornito
dalla curva ROC.
• È stata introdotta negli anni della II Guerra Mondiale nel
contesto della teoria delle comunicazioni, per lo studio di
particolari immagini radar rilevate nei campi di battaglia, dove
si rendeva necessario che il ricevitore del segnale riconoscesse
il segnale proveniente da oggetti bellici rispetto al rumore di
fondo.
• È stata poi ampiamente utilizzata in altri ambiti applicativi,
tra cui in particolare in controllo della qualità e in statistica
medica.
• Ricordiamo che i valori della sensibilità e della specificità sono
determinati dal valore di soglia k adottato.
18/ 36
La curva ROC
• Si pensi di far variare la soglia k e di calcolare in
corrispondenza di ogni valore di k la sensibilità e la specificità.
Il complesso delle sensibilità e delle specificità ai vari livelli
discriminanti può essere rappresentato graficamente con la
cosiddetta curva ROC.
• Si tratta di un diagramma cartesiano in cui sono riportati i
punti di coordinate (1-specificità, sensibilità).
• Come si interpreta?
19/ 36
Interpretazione della curva ROC
• Un test perfetto dal punto di vista diagnostico (assenza di
sovrapposizione tra i due gruppi) è rappresentato da una
curva ROC che passa per l’angolo superiore sinistro del
sistema di assi cartesiani (100% specificità, 100% sensibilità).
20/ 36
• Al contrario, la bisettrice dell’angolo nell’origine corrisponde
alla classificazione casuale dei pazienti. Pertanto, un buon
test diagnostico avrà curva ROC il più sopra possibile della
diagonale.
21/ 36
• Nelle situazioni reali:
22/ 36
Curva ROC per CK
0.6
0.4
0.0
0.2
Hit Rate
0.8
1.0
ROC Curve
0.0
0.2
0.4
0.6
0.8
1.0
False Alarm Rate
Potrebbe essere utile avere una misura sintetica ed oggettiva
dell’efficacia del test, attraverso un indicatore di sintesi della curva
ROC.
23/ 36
Area sotto la curva ROC
• Un indicatore molto utilizzato della bontà del test diagnostico
è costituito dall’area sottesa alla curva ROC (AUC = Area
Under the Roc Curve).
• Sia X la variabile che rappresenta la misura nel gruppo dei
pazienti sani e Y quella nel gruppo dei pazienti malati. L’AUC
può essere espressa come
AU C = P (X < Y )
0.0
0.2
0.4
0.6
• Tale quantità, in letteratura, è nota anche come modello
sollecitazione-resistenza (stress-strength model).
0
2
4
6
8
10
CK
24/ 36
Interpretazione AUC
L’interpretazione del valore dell’AUC avviene convenzionalmente
secondo la seguente scala:
• AU C = 0.5: test non informativo
• 0.5 < AU C ≤ 0.7: test poco accurato
• 0.7 < AU C ≤ 0.9: test moderatamente accurato
• 0.9 < AU C < 1.0: test altamente accurato
• AU C = 1.0: test perfetto
Nei dati su CK si trova AU C = 0.975: il test diagnostico basato
su CK è altamente accurato.
25/ 36
Confronto di test diagnostici tramite curve ROC
È intuitivo come la curva ROC (e l’AUC) possa essere anche
utilizzata per confrontare l’efficienza di test diagnostici differenti di
una particolare patologia: la curva più spostata verso il centro del
grafico appartiene all’esame peggiore.
26/ 36
Scelta della soglia k ottimale: accuratezza
• È possibile determinare in maniera automatica un valore per la
soglia k per discriminare tra i due gruppi di pazienti, che
risponda ad un qualche criterio di ottimalità.
• Ad esempio, tra le misure di adeguatezza della previsione in
una matrice di confusione, la più immediata è costituita dalla
frazione totale di casi correttamente classificati:
TP + TN
accuratezza =
TP +FN +FP +TN
0.8
0.6
Average accuracy
−→ k ∗ = 5.89
0.2
0.4
0.6
0.4
0.0
0.2
Hit Rate
0.8
1.0
ROC Curve
0.0
0.4
0.8
False Alarm Rate
3
4
5
6
7
8
9
Cutoff
27/ 36
Nell’esempio
• Il calcolo della sensibilità e della specificità per il valore della
soglia fissato a k = 5.89 per i dati sul CK fornisce:
Test Positivo (creat> 5)
Test Negativo (creat≤ 5)
Totale
IMA (M+ )
19
8
27
AI (M− )
0
93
93
Totale
19
101
120
• accuratezza = (19+93)/120 = 0.93
• sensibilità = 19/27 = 0.70
• specificità = 93/93 = 1.0
28/ 36
Scelta della soglia k ottimale: distanza
• Il punto sulla curva ROC più vicino all’angolo superiore sinistro
rappresenta il miglior compromesso tra sensibilità e specificità.
• La distanza di ogni punto della curva ROC al punto (0,1) è
p
d = (1 − Sensibilità)2 + (1 − Specificità)2
Capitolo 1. La curva ROC
• Il cut-off ottimale è il punto
con distanza minore.
−→ kd∗ = 5.70
sensibilità=0.925
specificità=0.967
Figura 6. Criterio della minima distanza d e indice di Youden J.
29/ 36
Scelta della soglia k ottimale: distanza
• L’indice J di Youden misura la distanza verticale tra la change
line e il generico punto della curva ROC
J = Sensibilità + Specificità − 1
• Il cut-off ottimale è il punto
con distanza J massima.
Capitolo 1. La curva ROC
−→ kJ∗ = 5.70
sensibilità=0.925
specificità=0.967
coincide con kd∗
Figura 6. Criterio della minima distanza d e indice di Youden J.
30/ 36
Scelta della soglia k ottimale: considerazioni
• Per concludere, si nota che la scelta della soglia k non può
essere dettata solo da considerazioni di tipo probabilistico
volte a minimizzare la proporzione di classificazioni errate.
• È anche necessario basarsi sul prevedibile impatto di tipo
sanitario, economico, sociale, ecc. di ciascuno dei due tipi di
misclassificazione (Falsi Positivi e Falsi Negativi).
• Ad esempio, per malattie ad alta contagiosità potrebbe essere
opportuno minimizzare la quota di Falsi Negativi, e quindi
privilegiare la sensibilità a scapito della specificità. Viceversa,
in altre situazioni (quali, ad esempio, malattie non contagiose,
trattabili soltanto con una terapia molto costosa o invasiva) il
prezzo di un Falso Positivo sarà verosimilmente superiore a
quello di un Falso Negativo, e quindi la soglia k verrà
determinata in modo da privilegiare la specificità.
31/ 36
Ritorniamo dal dottore: Secondo tempo
Definiamo gli eventi:
• M+ = (il bimbo ha la scarlattina)
• M− = (il bimbo non ha la scarlattina)
• T+ = (il test è risultato positivo)
• T− = (il test è risultato negativo)
e assegniamo i valori:
• P(M+ ) = 0.10
• P(M− ) = 1 − 0.9 = 0.1
• P(T+ | M+ ) = P(T− | M− ) = 0.98
• P(T− | M+ ) = P(T+ | M− ) = 0.02
32/ 36
La tabella
Paziente Malato
Paziente Sano
Totale
Test Positivo
Test Negativo
P(M+ ∩T+ )
P(M+ ∩T− )
P(M− ∩T+ )
P(M− ∩T− )
P(T+ )
P(T− )
Totale
P(M+ )=0.1
P(M− )=0.9
• Da P(T+ | M+ ) = P(M+ ∩T+ ) / P(M+ ) = 0.98, si trova
P(M+ ∩T+ ) = P(T+ | M+ ) P(M+ ) = 0.98 × 0.1 = 0.098
• Analogamente: P(M− ∩T− ) = 0.098 e
P(T− ∩ M+ ) = P(T+ ∩ M− ) = 0.02 × 0.9 = 0.018
• Vogliamo P(M+ | T+ )
33/ 36
Da P(M+ ) a P(M+ | T+ )
Paziente Malato
Paziente Sano
Totale
Test Positivo
Test Negativo
P(M+ ∩T+ )
P(M+ ∩T− )
P(M− ∩T+ )
P(M− ∩T− )
P(T+ )
P(T− )
Totale
P(M+ )=0.1
P(M− )=0.9
P (M + |T + ) = P (M + ∩ T + )/P (T + )
P (T + |M + )P (M + )
=
P (M + ∩ T + ) + P (M − ∩ T + )
P (T + |M + )P (M + )
=
P (T + |M + )P (M + ) + P (T + |M − )P (M − )
0.98 × 0.1
=
= 0.844
0.98 × 0.1 + 0.02 × 0.9
(P.S. questo è il Teorema di Bayes)
34/ 36
Teorema di Bayes
• Vi è una probabilità a priori che il paziente sia malato (P(M+ )
= 0.10).
• Si conoscono le proprietà del test diagnostico (sensibilità e
specificità).
• Vi è l’evidenza sperimentale: il test risulta positivo.
• Tramite il teorema di Bayes si aggiorna la P(M+ ) in
P(M+ |T+ ), ottendendo la probabilità a posteriori.
P (M + |T + ) =
P (T + |M + )P (M + )
P (T + |M + )P (M + ) + P (T + |M − )P (M − )
35/ 36
THE END
36/ 36

La statistica ei test diagnostici

Transcript

Documenti analoghi

Le anime dei suoni, i suoni dell`anima

236-1 Formazione giuridica Alunni PRIMO BIENNIO

CURRICULUM VITAE Giacomo Sguotti Nato a Rovigo il 24/11/1958

426-1 Rettifica data Computer Grafica

Locandina Lab. di fotografia 5 2016-17

Curriculum - Rivoluzione Cristiana

Daniele Gatti intervistato da La Voce di Rovigo

Richiesta partecipazione al corso per la certificazione di lingua

Mercatino libro usato 2013