Analisi della sopravvivenza - Università degli Studi della Basilicata

Transcript

Analisi della sopravvivenza - Università degli Studi della Basilicata
Analisi della sopravvivenza
Grazia Vurro
Anno Accademico 2010-2011
Indice
1 Introduzione
1
2 Sperimentazione clinica
2
3 Importanza di un’analisi time-to-event
3
4 Stima della funzione di sopravvivenza
6
4.1 Metodo di Kaplan-Meier . . . . . . . . . . . . . . . . . . . . .
7
4.2 Fondamenti teorici del metodo di Kaplan-Meier . . . . . . . . 11
5 Confronto tra due curve di sopravvivenza
15
6 Software statistico: SPSS
19
1
Introduzione
L’analisi della sopravvivenza può essere interpretata come caso particolare
dell’analisi dell’affidabilità. Ricordiamo alcuni concetti chiave della teoria
1
1 INTRODUZIONE
dell’affidabilità.
Collasso. Si definisce collasso del componente o del sistema lo stato in cui
esso cessa di funzionare.
Tempo necessario al collasso. Se un componente è messo in condizioni
di stress in un istante temporele t = 0 e viene osservato fino a quando
collassa, la durata della vita o il tempo necessario al collasso è una
variabile aleatoria indicata generalmente con T.
Guasto. Si definisce guasto la cessazione di un dispositivo ad adempiere
la funzione richiesta (guasto totale) oppure la variazione della sua
prestazione (guasto parziale).
Nell’analisi della sopravvivenza in sistema preso in considerazione è il paziente
e il guasto è rappresentato dal cosiddetto evento avverso indicato generalmente con la sigla AE ( adverse event).
Evento avverso. Per evento avverso si intende ogni evento di interesse
per l’indagine clinica come la morte di un paziente, l’insorgere di effetti
collaterali dovuti all’assunzione di nuovi farmaci, la guarigione da una
determinata malattia oggetto di studio.
E’ chiaro, quindi, fin da subito che l’analisi della sopravvivenza non ha come
unico oggetto lo studio dell’evento morte, ma ogni evento di interesse. Per
usare termini anglosassoni diremo che la survival analysis rientra tra le timeto-event analysis. In altri termini, l’analisi della sopravvivenza si occupa
dell’analisi dell’incidenza di un determinato evento in un determinato arco
temporale intendendosi con incidenza il numero dei pazienti che sviluppano
l’evento.
2
3 IMPORTANZA DI UN’ANALISI TIME-TO-EVENT
2
Sperimentazione clinica
Per apprezzarne al meglio le sue potenzialità, prima di iniziare la costruzione
formale dell’analisi della sopravvivenza sarebbe utile capire il contesto medico nel quale si applica . Supponiamo che un gruppo di ricercatori un’azienda
farmaceutica sintetizzi un nuovo farmaco per la cura di certa malattia. La
fase nella quale praticamente si testa la sua efficacia è chiamata sperimentazione clinica o clinical trial. La sperimentazione clinica consta di quattro
fasi , in ognuna delle quali la statistica gioca un importante ruolo.
Fase 1: Farmacologia clinica e tossicità che ha come obiettivo l’accertamento della tollerabilità e la determinazione di un dosaggio accettabile del farmaco.
Fase 2: Indagine clinica iniziale dell’effetto del trattamento in cui si
testa il farmaco su in campione ridotto per valutarne l’efficacia.
Fase 3: Valutazione del trattamento su larga scala considerata la fase
più importante e spesso identificata con il termine ricerca clinica, in cui
si testa il farmaco su campioni più ampi, confrontandolo spesso con altri
trattamenti esistenti.
Fase 4: Farmacovigilanza in cui si valutano gli effetti collaterali a lungo
termine del farmaco e gli effetti dello stesso sulla mortalità.
3
Importanza di un’analisi time-to-event
. Mettere in relazione l’AE con il tempo è di fondamentale importanza, cosı̀
come mostra il seguente esempio.
3
3 IMPORTANZA DI UN’ANALISI TIME-TO-EVENT
Supponiamo che un’azienda farmaceutica sia nella fase 3 o 4 della sperimentazione clinica di un nuovo farmaco che dovrebbe favorire la guarigine da
una certa malattia, cioè ridurre il tempo di attesa necessario ad osservare
l’evento guarigione. Supponiamo che il campione di pazienti sia costituito da
20 unità e supponiamo di suddividerli in due gruppi omogenei ciascuno con
10 unità:
gruppo attivo al quale verrà somministrato il nuovo farmaco;
gruppo placebo al quale verrà somministrato placebo ovvero qualsiasi sostanza o terapia innocua somministrata al paziente facendogli credere che
sia un trattamento necessario.
Supponiamo di aver osservato i seguenti dati:
Id Paziente
o
1
x
2
x
3
o
Placebo
4
x
5
x
6
o
7
x
8
o
9
o
10
x
11
o
12
o
13
x
Active
14
x
15
o
16
x
17
o
18
o
19
20
x
1
g
2
3
4
5
6
7
8
9
10
11
12
13
Figura 1: Esempio
4
14
15
16
17
18
19
20
3 IMPORTANZA DI UN’ANALISI TIME-TO-EVENT
In questo diagramma si è rappresentato sull’asse delle ascisse i tempi di
risposta, ovvero l’intervallo di tempo tra l’inizio dello studio, giorno 0, e il
verificarsi dell’ EA e sull’asse delle ordinate i pazienti oggetto dello studio
individuabili da un codice identificativo. Il verificarsi dell’ AE è indicato con
×, mentre i pazienti che alla fine dello studio non hanno verificato l’AE sono
contrassegnati da ◦.
La domanda che ci poniamo è se in virtù di questi dati osservati possiamo
affermare che effettivamente il farmaco sia efficace. Operando un semplice
confronto tra i gruppi sulla base dei pazienti con evento, dovremmo dire
che, poichè in entrambi i gruppi i pazienti con AE sono 5 su 10, ovvero il
50%, e considerando per questa proporzione un intervallo di confidenza al
95%, non esiste una significativa differenza tra i due gruppi. Questo modo di
operare pecca palesemente di superficialità, perchè se osserviamo i pazienti
con AE nei due gruppi e li mettiamo in relazione con i rispettivi tempi di
risposta riscontriamo che nel gruppo attivo l’evento avviene nei primi giorni
dello studio mentre nel gruppo placebo il verificarsi dell’AE è distribuito
uniformemente nella durata dello studio.
Id Paziente Gruppo Placebo
Tempi di risposta
2
4
8
9
5
11
3
14
6
18
5
3 IMPORTANZA DI UN’ANALISI TIME-TO-EVENT
Id Paziente Gruppo Attivo
Tempi di risposta
20
1
11
2
15
4
17
5
14
6
Questo fa pensare ad una relazione nel gruppo attivo tra il verificarsi
dell’evento e il nuovo farmaco , relazione che il semplice confronto delle proporzioni dell’AE non mette in risalto. Inoltre, se si pensa che se lo studio
fosse durato più a lungo probabilmente altri pazienti avrebbero verificato
l’AE, si capisce l’estrema importanza di relazionare l’AE al tempo. Esiste
altresı̀ un’ulteriore problematica che questo metodo non risolverebbe, ovvero
l’esistenza nella pratica di numerosi dati troncati o censurati. Infatti accade spesso che pazienti escano dallo studio (persi al follow-up )prima del
suo termine e prima che sviluppino l’AE. Per esempio, potremmo essere nella
seguente situazione:
Id Paziente
o
1
x
2
x
3
o
Placebo
4
x
5
x
6
o
7
x
8
x
9
o
10
x
11
o
12
o
13
x
Active
14
x
15
o
16
x
17
o
18
x
19
20
x
1
g
2
3
4
5
6
7
8
9
10
6
11
12
13
14
15
16
17
18
19
20
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
in cui i pazienti con ◦ in corrispondenza di un tempo minore della durata
dello studio sono quelli persi al follow-up. Dovremmo escludere dalle nostre
considerazioni tali pazienti , ma in effetti la loro presenza nello studio fino
alla data di uscita fornisce comunque un’informazione utile di cui bisogna
tener conto. L’analisi della sopravvivenza supera tutti questi limiti.
4
Stima della funzione di sopravvivenza
Sia T la variabile aleatoria che rappresenta i tempi di risposta. Sia F (t) :=
P (T ≤ t) la funzione di ripartizione che rappresenta la probabilità che l’AE si
verifichi in un intervallo di tempo minore o uguale a t. Sia S(t) := 1 − F (t) =
P (T > t) la funzione di sopravvivenza ovvero la probabilità che l’ AE si verifichi dopo t.
La stima della funzione di sopravvivenza può avvenire sia con metodi parametrici che con metodi non parametrici. E’ chiaro che se non si conosce
a priori la distribuzione teorica di T bisogna necessariamente ricorrere a
metodi non parametrici. Accade spesso in campo medico di non conoscere
la distribuzione di T ed è per questo che molto diffusi sono i metodi non
parametrici. Qui illustreremo il metodo di Kaplan-Meier per la stima della
funzione di sopravvivenza rientrante tre i metodi non parametrici.
Lo illustreremo prima in pratica senza formalismi e poi in teoria, mostrando come esso derivi da una particolare applicazione del metodo di massima
verosimiglianza.
7
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
4.1
Metodo di Kaplan-Meier
Sia N il numero dei soggetti ammessi allo studio e sia J il numero dei tempi
distinti di risposta ( J ≤ N ) rilevati nel campione ed ordinati in modo crescente: t1 ≤ t2 ≤ · · · ≤ tJ .
Sia dj il numero di soggetti che presentano l’evento al tempo tj . ( Ovviamente dj > 1 solamente nel caso in cui più soggetti presentano tempi di
risposta uguali.)
Sia nj il numero di soggetti esposti al rischio al tempo tj e cioè tutti quei
soggetti vivi e sotto osservazione appena prima di tj .
Se non vi sono evidenti ragioni contrarie, si assume che l’esperienza di vita
dei soggetti persi di vista o che terminano lo studio senza evento sia la stessa
di coloro che verificano l’ evento durante lo studio, dunque essi sono inclusi
nell’insieme degli esposti a rischio sino a che sono sotto osservazione. Si noti
che le quantità dj e nj sono definite soltanto in corrispondenza dei tempi di
risposta e non anche dei tempi troncati.
Una stima della probabilità condizionata di morire all’istante tj , che indicheremo con qj , è data da:
qbj =
dj
nj
j = 1, 2, · · ·, J
e quindi la probabilità condizionata di sopravvivere all’istante tj , che indicheremo con pj , è stimata da:
pbj = 1 − qbj =
nj − dj
nj
j = 1, 2, · · ·, J.
Il prodotto delle stime delle probabilità pj ci fornisce la stima della probabilita
cumulativa di sopravvivere ad un istante fissato sapendo che si è vissuti
fino all’istante precedente. Indicando con Pj la probabilità di sopravvivere
8
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
all’istante tj e a ciascuno degli istanti precedenti a tj , avremo che:
Pbj = pb1 · pb2 · · · pbj ,
da cui si ottiene la seguente formula di ricorrenza:
Pbj = Pbj−1 · pbj .
Si assume che Pb0 = pb0 = 1, intendendo con ciò che la probabilità di sopravvivere oltre l’istante di inizio studio e fino al primo tempo di risposta osservato
sia pari ad 1. Osserviamo che in ognuno dei punti tj dell’asse dei tempi la
curva di sopravvivenza varia di un fattore pari a
nj −dj
nj
, anzi più precisamente
tale variazione avviene appena prima tj ovvero la curva di sopravvivenza è
una funzione a gradini, che in corrispondenza dei tempi di risposta presenta
punti di discontinuità (essendo continua in tali punti solo da destra).
In accordo con Greenwood (1926), la varianza di Pj sarà:
V ar(Pbj ) = Pbj
2
j
j
X
2X
dh
qbh
= Pbj
.
n
b
n
hp
h
h (nh − dh )
h=1
h=1
Assumendo che la statistica Pbj sia distribuita approssimativamente in modo
gaussiano , l’intervallo di confidenza con coefficiente di confidenza 1 − α sarà:
Pbj ± z1− α2
q
V ar(Pbj ).
Torniamo all’esempio 2 e riassumiamo nella seguente tabella i calcoli relativi
alla probabilità di sopravvivenza:
9
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
Id Paz Gruppo Placebo
ti
ni
di
qi
pi
Pi
2
4
10
1
1
10
0.9
0.9
8
9
9
1
1
9
0.89
0.8
5
11
8
1
1
8
0.88 0.70
3
14
7
1
1
7
0.86 0.60
7
15∗
-
-
-
-
-
9
17
5
1
1
5
0.8
0.48
6
18
4
1
1
4
1
19∗
-
-
-
-
-
4
20∗
-
-
-
-
-
10
20∗
-
-
-
-
-
0.75 0.36
Id Paz Gruppo Attivo
ti
ni
di
qi
pi
Pi
20
1
10
1
1
10
0.9
0.9
11
2
9
1
1
9
0.89
0.8
12
4∗
-
-
-
-
-
15
4
7
1
1
7
0.86
0.69
17
5
6
1
1
6
0.83
0.57
14
6
5
1
1
5
0.80
0.46
19
9
4
1
1
4
0.75
0.34
16
10∗
-
-
-
-
-
13
20∗
-
-
-
-
-
18
20∗
-
-
-
-
-
Possiamo ora rappresentare la curva di sopravvivenza :
10
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
Funzione di Sopravvivenza
S (t i)
1
0,9
0,9
0,8
0,8
0,69
0,70
0,60
0,57
0,48
0,46
0,36
0,34
ti
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Gruppo attivo
Gruppo placebo
Figura 2: Curva di sopravvivenza
4.2
Fondamenti teorici del metodo di Kaplan-Meier
Sia T la variabile casuale tempo di sopravvivenza. Si consideri una popolazione omogenea in cui la v.c. T sia discreta e supponiamo che i valori che
essa assume siano: t1 ≤ t2 ≤ · · ·. La funzione di probabilità, la funzione di
distribuzione e la funzione di sopravvivenza sono rispettivamente:
f (tj ) = P r(T = t)
F (tj ) = P r(T ≤ tj )
S(tj ) = P r(T > tj ).
La stima non parametrica della funzione di sopravvivenza fu motivata da
Kaplan e Meier nell’articolo del 1958 con un uso particolare del metodo della
11
19
20
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
massima verosimiglianza. Essi costruirono la funzione di verosimiglianza senza riferirsi ad una specifica classe di funzioni di distribuzioni, ma sfruttando
solamente le proprietà di una generica funzione di sopravvivenza.
E’ necessario fare alcune precisazioni: una riguardante la continuità della
funzione e l’altra sulla notazione per i tempi troncati.
• La funzione di sopravvivenza è una funzione continua solo a destra nei
punti tj , ovvero
P (tj ) 6= P (tj − 0) con P (tj − 0) = lim P (tj − x)
x→0
e poichè la P (t) varia solo in corrispondenza dei valori tj , si ha che :
P (tj − 0) = P (tj−1 ).
• Poichè P (tj ) esclude, mentre P (tj −0) include la probabilità che T = tj ,
per ottenerla ne faremo la differenza ( ci servirà per costruire la L)
• Sia cj il numero dei soggetti che in quanto persi di vista o terminato lo
studio senza l’AE forniscono tempi di osservazione troncati nell’intervallo [tj , tj+1 ), dunque t∗i,j ∈ [tj , tj+1 ) con i = 1, 2, ..., cj e j = 0, 1, ..., J
è il generico tempo troncato che cade in detto intervallo. In particolare,
definiti t0 = 0 e tJ+1 = ∞, i tempi troncati rilevati prima di t1 sono
appartenenti all’intervallo [0, t1 ), mentre quelli rilevati dopo tJ saranno
appartenenti a [tJ , ∞).
Costruiamo la funzione di verosimiglianza , ricordandone la definizione.
Sia (X1 , X2 , ..., Xn ) un campione casuale di v.c. i.i.d. con legge fϑ (x). Indichiamo con (x1 , x2 , ..., xn ) il valore dell’osservazione. Chiamiamo funzione
12
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
di verosimiglianza la funzione
Lϑ (x1 , x2 , ..., xn ) = fϑ (x1 , x2 , ..., xn ) =
n
Y
fϑ (xi ).
i=1
La funzione di verosimiglianza potrà scriversi come il prodotto dei seguenti
fattori:
c0
Y
P (t∗i,0 )
i=1
[P (t1 − 0) − P (t1 )]d1 ·
c1
Y
P (t∗i,1 )
i=1
...
dJ
[P (tJ − 0) − P (tJ )]
·
cJ
Y
P (t∗i,J )
i=1
Riscriviamo la L considerando che: P (tj − 0) = P (tj−1 ).
[P (tj − 0) − P (tj )]dj = [P (tj−1 ) − P (tj )]dj
Obiettivo è determinare quei valori che massimizzano la funzione. Osserviamo che per rendere massima la funzione a P (t∗i,j )) deve essere associato
il valore più grande possibile e lo si può fare assegnandoli la probabilità di
sopravvivere oltre l’estremo inferiore dell’intervallo in cui il tempo troncato
si è verificato, cioè:
t∗i,j ∈ [tj , tj+1 ) → P (t∗i,j ) = P (tj )
13
4 STIMA DELLA FUNZIONE DI SOPRAVVIVENZA
Dunque avremo:
c0
Y
P (t∗i,0 ) = P (t0 )c0 = 1
i=1
c1
Y
P (t∗i,1 ) = P (t1 )c1
i=1
...
cJ
Y
P (t∗i,J ) = P (tJ )cJ
i=1
La funzione di verosimiglianza diventa:
L=
J
Y
[P (tj+1 ) − P (tj )]dj P (tj )cj
j=1
Ricordando che:
P (tj ) = p1 · p2 · ... · pj−1 · pj
P (tj−1 ) = p1 · p2 · ... · pj−1
avremo che:
P (tj−1 ) − P (tj ) = (p1 · p2 · ... · pj−1 )(1 − pj )
Possiamo riscrivere L come :
L=
J
Y
qj )dj (p1 · p2 · ... · pj )cj =
(p1 · p2 · ... · pj−1
j=1
J
Y
(p1 · p2 · ... · pj−1 )dj +cj
(1 − pj )cj
(p1 · p2 · ... · pj−1 )dj +cj
qj j
j=1
J
Y
j=1
J
Y
n −dj
pj j
d
qj j
j=1
14
d +cj
=
d
qj j =
5 CONFRONTO TRA DUE CURVE DI SOPRAVVIVENZA
n −dj
Osserviamo che pe ogni j fissato pj j
d
qj j rappresenta la probabilità di
ottenere una sequenza di dj successi con probabilità qj ed nj − dj insuccessi
con probabilità pj (v.c. binomiale) che risulta massima quando :
qb =
5
dj
nj
Confronto tra due curve di sopravvivenza
L’interesse di un ricercatore clinico non è solo rivolto alla stima della probabilità cumulativa di sopravvivenza, ma anche al confronto dell’esperienza di
vita di due insiemi di soggetti sottoposti a differenti trattamenti. Purtroppo, in campo bio-medico è estremamente difficile avere a priori conoscenze
sufficienti per ipotizzare la forma delle sottostanti funzioni teoriche di sopravvivenza ( per esempio esponenziale, di Weibull, etc), pertanto anche per
il confronto di curve di sopravvivenza è spesso necessario far ricorso a metodi
non parametrici.
Qui illustreremo il metodo noto come Log-rank test proposto da Mantel nel
1966. Il fondamento logico di questo test è facilmente comprensibile a livello
intuitivo e ciò giustifica il suo ampio uso nella ricerca clinica.
Sia N il numero di pazienti sotto osservazione.Si supponga di aver attribuito
con una procedura casuale (randomizzazione) la metà dei pazienti al trattamento A e l’altra metà al trattamento B. Sotto l’ipotesi che i due trattamenti
abbiano la stessa efficacia, ci si attende che il numero di pazienti con AE in
un determinato giorno sia circa lo stesso in entrambi i gruppi, ma in realtà
può capitare che questo numero sia differente in ciascun gruppo, ossia che vi
sia uno scostamento tra eventi attesi ed eventi osservati. L’eventuale scostamento tra queste quantità farebbe pensare alla possibilità che un trattamento
15
5 CONFRONTO TRA DUE CURVE DI SOPRAVVIVENZA
sia più efficace o meno dell’altro ed il ricorso al pertinente test, statistico consente di determinare il livello di significatività di tale scostamento.
L’ipotesi attinente l’efficacia dei due trattamenti si esprime usualmente in
termini di rischio istantaneo di morte intendendo con ciò quello che avevamo
precedentemente indicato con q.
Indicando con H0 l’ipotesi nulla e con H1 l’ipotesi alternativa si ha:
H0 : qA (t) = qB (t) ⇔ H0 : ϑ = 1
H1 : qA (t) = ϑqB (t) ⇔ H1 : ϑ 6= 1
dove ϑ è l’incognita costante di proporzionalità. Quando ϑ < 1 il trattamento
A è più efficace di quello B, è vero il contrario quando ϑ > 1.
Le informazioni si possono riassumere nella seguente tabella di contingenza
2 × 2:
Gruppi
Paz. con AE a tj
Paz. senza AE a tj
Paz. a rischio prima di tj
A
dAj
nAj − dAj
nAj
B
dBj
nBj − dBj
nBj
Totali
dj
nj − dj
nj
Benchè dAj , dBj , nAj , nBj siano v.c. dipendenti dalla esperienza precedente
di sopravvivenza e dal processo di troncamento, il test di significatività può
essere costruito solo considerandole fisse ad ogni tempo tj , ciò comporta che
solo una di queste può essere costruita condizionatamente ai volori marginali
osservati, generalmente si considera dAj e si dimostra che essa è una v.c.
ipergeometrica. Essendo una v.c. ipergeometrica, sotto H0 , il valore atteso
E(dAj ) di dAj è:
E(dAj ) = nAj
16
dj
nj
5 CONFRONTO TRA DUE CURVE DI SOPRAVVIVENZA
e la sua varianza:
h
dj
dj i³ nj − nAj ´
V ar(dAj ) = nAj (1 − )
.
nj
nj
nj − 1
Osserviamo che la varianza è data dal prodotto di due termini: la parentesi
quadra che è la varianza di una v.c. binomiale e la parentesi tonda che è il
fattore di correzione per il campionamento da un insieme di dimensione nj .
¤
P £
La v.c. Jj=1 dAj − E(dAj ) è distribuita in modo gaussiano e la statistica:
PJ
Q=
j=1
£
PJ
¤2
dAj − E(dAj )
j=1
V ar(dAj )
è distribuita asintoticamente come una χ2 con un grado di libertà.
Applichiamo ora questo test all’esempio precedente per valutare l’efficienza
del trattamento somministrato al gruppo attivo rispetto a quello placebo.
Consideriamo le dieci tabelle di contingenza, una per ogni tempo di risposta. In riferimento ad ognuna di queste dobbiamo calcolare E(dP i) e V ar(dP i),
dove dP i indica il numero di pazienti del gruppo placebo con evento all’istante ti .
t1 = 1
d
n-d
n
Placebo
0
10
10
Attivo
1
9
10
TOT
1
19
20
t2 = 2
d
n-d
n
Placebo
0
10
10
Attivo
1
8
9
TOT
1
18
19
⇒ E(dP 1 ) =
1
2
⇒ E(dP 2 ) =
10
19
17
V ar(dP 1 ) =
V ar(dP 2 ) =
1
4
90
361
5 CONFRONTO TRA DUE CURVE DI SOPRAVVIVENZA
t3 = 4
d
n-d
n
Placebo
1
9
10
Attivo
1
7
8
TOT
2
16
18
t4 = 5
d
n-d
n
Placebo
0
9
9
Attivo
1
5
6
TOT
1
14
15
t5 = 6
d
n-d
n
Placebo
0
9
9
Attivo
1
4
5
TOT
1
13
14
t6 = 9
d
n-d
n
Placebo
1
8
9
Attivo
1
3
4
TOT
2
11
13
t7 = 11
d
n-d
n
Placebo
1
7
8
Attivo
0
2
2
TOT
1
9
10
t8 = 14
d
Placebo
1
6
7
Attivo
0
2
2
TOT
1
8
9
⇒ E(dP 3 ) =
10
9
V ar(dP 3 ) =
640
1377
⇒ E(dP 4 ) =
9
15
V ar(dP 4 ) =
6
25
⇒ E(dP 5 ) =
9
14
V ar(dP 5 ) =
45
196
⇒ E(dP 6 ) =
18
13
V ar(dP 6 ) =
66
169
⇒ E(dP 7 ) =
4
5
V ar(dP 7 ) =
4
25
n-d n
⇒ E(dP 8 ) =
18
7
9
V ar(dP 8 ) =
14
81
6 SOFTWARE STATISTICO: SPSS
t9 = 17
d
n-d n
Placebo
1
4
5
Attivo
0
2
2
TOT
1
6
7
t1 0 = 18
d n-d
n
Placebo
1
3
4
Attivo
0
2
2
⇒ E(dP 9 ) =
5
7
⇒ E(dP 10 ) =
V ar(dP 9 ) =
2
3
5
7
V ar(dP 10 ) =
2
9
TOT
1 5 6
Calcolando il quadrato della somma gli scostamenti del valore osservato
dal valore atteso e la somma delle varianze ricaviamo la statisticaa test:
Q =
2,97
2,58
= 1, 15. Poichè Q < 3.841 ( valore della v.c. chi-quadrato con
un grado di libertà in corrispondenza di α = 0.05), l’ipotesi nulla non può
essere rigettata e dunque le differenze osservate nei due gruppi non sono
significative.
6
Software statistico: SPSS
Esistono numerosi software statistici che permettono di condurre un’analisi
della sopravvivenza tra cui SPSS.
Il programma necessita di tre variabili: i tempi di risposta di tutti i pazienti
( non necessariamente ordinati) , l’indicazione dei dati troncati, l’indicazione
del gruppoo di appartenenza del paziente. L’output della procedura di analisi mostra una tabella riepilogativa riguardante la stima delle probabilità di
sopravvivenza , l’esito del log-rank test e il plot della funzione di sopravvivenza. Abbiamo utilizzato il software per testare i dati dell’esempio precedente.
Il risultato è il seguente:
19
6 SOFTWARE STATISTICO: SPSS
Kaplan-Meier
Case Processing Summary
Censored
Gruppo
0
Gruppo
0
1
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
Total N
N of Events
10
6
4
Percent
40,0%
1
10
6
4
40,0%
Overall
20
12
8
40,0%
Time
4,000
9,000
11,000
14,000
15,000
17,000
18,000
19,000
20,000
20,000
1,000
2,000
4,000
4,000
5,000
6,000
9,000
10,000
20,000
20,000
Status
1
1
1
1
0
1
1
0
0
0
1
1
1
0
1
1
1
0
0
0
N
Survival Table
Cumulative Proportion Surviving at the Time
Estimate
Std. Error
0,900
0,095
0,800
0,126
0,700
0,145
0,600
0,155
.
.
0,480
0,164
0,360
0,161
.
.
.
.
.
.
0,900
0,095
0,800
0,126
0,700
0,145
.
.
0,583
0,161
0,467
0,166
0,350
0,160
.
.
.
.
.
.
Overall Comparisons
Chi-Square
Log Rank (Mantel-Cox)
1,150
Test of equality of survival distributions for the different levels of Gruppo.
20
N of Cumulative
Events
1
2
3
4
4
5
6
6
6
6
1
2
3
3
4
5
6
6
6
6
df
1
N of Remaining
Cases
9
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
Sig.
0,284
6 SOFTWARE STATISTICO: SPSS
21