1 L`Utilizzo dell`Algoritmo CART nelle Valutazione di

Transcript

1 L`Utilizzo dell`Algoritmo CART nelle Valutazione di
L’Utilizzo dell’Algoritmo CART nelle Valutazione di Efficacia in Supporto all’Attività di HTA
Cinzia Di Novi*
La spesa sanitaria pubblica costituisce da decenni una delle principali voci in uscita del Bilancio
dello Stato ed è di gran lunga la principale voce di spesa sotto il controllo delle Amministrazioni
regionali. A fronte di un trend crescente della spesa sanitaria e al progresso incalzante di tecnologie
sempre più costose, in supporto ai policy makers, oggi esiste e si sta sempre più ampliando una nuova
area di ricerca conosciuta come Health Technology Assessment (HTA) dove per “Health Technology”
si intendono tutte le procedure diagnostiche e terapeutiche: farmaci, procedure medico-chirurgiche, test,
esami, attrezzature, dispositivi e apparecchiature.
Lo stadio ancora “precoce” dell’HTA in Italia ha enfatizzato fino ad oggi il ruolo dell' HospitalBased HTA. Presso l’Azienda Ospedaliero-Universitaria San Giovanni Battista di Torino (Molinette),
da gennaio 2007 le decisioni relative all’acquisto di tecnologie e apparecchiature sanitarie sono vagliate
dalla Commissione Aziendale di Health Technology Assessment. La Commissione Aziendale di Health
Technology Assessment ha il compito di effettuare valutazioni di costo-efficacia relativamente
all’introduzione di attrezzature sanitarie e dispositivi medici, al loro impatto complessivo sul sistema
assistenziale e ad un’analisi sui determinanti relativi al loro utilizzo. Questo breve articolo ha
l’obiettivo di mostrare come l’applicazione dell’algoritmo Classification and Regression Trees (CART)
nelle valutazione di efficacia possa costituire un supporto all’attività di HTA dell’AUO San Giovanni
Battista di Torino. L’algoritmo CART è utilizzato in diverse discipline tra cui le scienze mediche, la
sociologia e l’economia sanitaria. CART produce stime di efficacia semplici e intuitive che hanno lo
scopo di supportare la Commissione di Health Technology Assessment aziendale per effettuare scelte
appropriate e strategiche.
*
Università del Piemonte Orientale, Dipartimento di Politiche Pubbliche e Scelte Collettive, Alessandria. e-mail:
[email protected]
1
L’Algoritmo CART
La procedura CART (Classification And Regression Trees) è stata introdotta da Breiman et al.
(1984) e presenta i risultati sottoforma di diagramma ad albero rovesciato, caratteristica peculiare che
lo distingue dalle altre procedure statistiche tradizionali.
CART è una procedura non parametrica pertanto non è necessario pre-testare la normalità o altre
assunzioni che riguardano la distribuzione statistica dei dati. L’albero finale include solo le variabili
indipendenti che risultano essere predittive della variabile dipendente; le altre variabili indipendenti
non predittive non hanno effetto sul risultato finale; anche sotto questo aspetto CART si differenzia
dalle altre procedure statistiche tradizionali.
La struttura di un classification tree include i nodi non terminali (parent nodes), i quali hanno
due discendenti diretti (child nodes), ed i nodi terminali che non subiscono ulteriori bipartizioni
(terminal nodes). Il primo nodo radice (root node) contiene tutte le osservazioni. Dal nodo radice
discendono due “nodi figli”. Ogni child node, che indichiamo con la lettera t contiene un
sottocampione del campione originale, in cui i membri condividono le stesse caratteristiche, che
influenzano la variabile dipendente di interesse. Ogni t , a sua volta, costituisce un potenziale parent
node che può essere ancora suddiviso in due child node. Il processo continua fino a che l’albero non
termina la sua crescita. I nodi terminali sono i nodi finali dell’albero decisionale e contengono insiemi
di osservazioni che vanno a formare classi molto omogenee al loro interno e il più possibile eterogenee
tra loro. Il metodo è binario e ricorsivo: binario poiché ogni parent node si divide in due discendenti
diretti e ricorsivo poiché i nodi (non terminali) nati dalla suddivisione del parent node in due
discendenti diretti possono diventare, a loro volta, parent node e suddivisi in due nodi successivi.
Seguendo Breiman et. al. vi sono alcuni step importanti da seguire quando si costruisce un
albero decisionale con la procedura CART; gli step includono: adottare un criterio di bontà della
tecnica con i cui i nodi vengono suddivisi da parent nodes a child nodes (split criterion); stabilire una
regola di arresto di crescita dell’albero (stopping rule). Una volta che un nodo viene riconosciuto come
terminale, fissare una regola che permetta di stabilire come classificare i casi che in esso sono contenuti.
Il processo inizia con una domanda binaria che stabilisce se l’osservazione si collocherà nel
nodo di destra tr o di sinistra tl. Lo regola di bipartizione dipende dalle caratteristiche della variabile
indipendente X. Se X è una variabile continua la suddivisione in due nodi avrà la forma X ≤ s o X>s
2
dove s è una costante e rappresenta la soglia per la bipartizione. Se X è una variabile categorica, allora
lo suddivisione assumerà la forma X ∈ S oppure forma X ∉ S dove S è un sottoinsieme non vuoto di X.
La risposta alla domanda binaria contemplerà solo “sì” o “no”. Se l’osservazione soddisferà il criterio
sarà collocata a destra, in caso contrario a sinistra.
Il processo continuerà fino a che non verranno raggiunti nodi terminali che saranno tra di loro più
eterogenei possibile ma che, allo stesso tempo, andranno a costituire classi molto omogenee al loro
interno. Il criterio con i cui i nodi vengono suddivisi da parent nodes a child nodes sarà tanto buono
quanto più alto sarà il grado di omogeneità in ogni nodo figlio ovvero quanto minimo sarà il grado di
impurità di ciascun nodo.
Nel case-report che verrà presentato qui di seguito si è adottata come criterio di suddivisione la
funzione di diversità di Gini. In base a questa funzione vengono individuate le suddivisioni che
minimizzano l’ eterogeneità dei nodi figlio rispetto al valore della variabile dipendente. Il metodo di
Gini si basa sulle probabilità quadratiche di appartenenza per ciascuna categoria della variabile
dipendente. Questo valore raggiunge il minimo (zero) quando tutti i casi di un nodo rientrano in
un’unica categoria. Una volta individuata la suddivisione migliore per il nodo radice, il CART ripete il
processo di ricerca per ogni nodo figlio continuando a bipartire finché non è più possibile alcuna
suddivisione. Il processo di bipartizione è impossibile quando un nodo è costituito da un solo caso
oppure quando tutti i casi che compongono un nodo appartengono alla stessa classe.
Come in ogni forma di inferenza statistica, è importante capire se esiste incertezza
nell’inferenza. Nei modelli di regressione l’incertezza prende forma attraverso l’errore standard dei
parametri stimati. Le misure di varianza invece sono più complicate nei modelli CART. Esistono,
diverse tecniche per validare il modello. Esse consistono nell’utilizzare un sottocampione di dati come
test per l’intero campione. Verrebbe creato un albero o più alberi T e usati come test di convalida per
gli altri dati.
Tra i metodi di validazione si è adottata la validazione incrociata (cross validation)
utilizzando tre sottocampioni. La convalida incrociata, infatti, divide l’intero campione in diversi
sottocampioni. I modelli ad albero vengono quindi generati escludendo di volta in volta i dati da
ciascun sottocampione: il primo albero si basa su tutti i casi eccetto quelli contenuti nel primo
sottocampione, il secondo albero si basa su tutti i casi eccetto quelli contenuti nel secondo sotto
campione e così via.
3
Infine, è possibile lasciare che l’albero decisionale cresca senza limite, oppure deciderne
l’estensione attraverso una regola di arresto. In questo lavoro ho fissato, come regola di arresto, che il
numero minimo di osservazioni che ciascun nodo dovrà contenere dovrà essere pari a cinque.
L’algoritmo CART ha lavorato su dati osservati relativi ad una tecnologia sanitaria emergente:
la tecnologia“under-vacuum sealing of tissues” (UVS).
Under-Vacuum Sealing(UVS) of Tissue
A partire dal mese di ottobre 2008 è stata introdotta nell’Azienda Ospedaliero-Universitaria San
Giovanni Battista di Torino una nuova procedura di conservazione dei tessuti che sfrutta il principio del
sottovuoto. La nuova procedura “under-vacuum sealing of tissues” (UVS) consente l’invio dei
campioni istologici dalle sale operatorie all’anatomia patologica rappresentando una alternativa
all’immersione in formalina inserita tra le sostanze cancerogene di gruppo 1 (IARC, 2006).
L’Ospedale Molinette rappresenta una realtà di grande dimensione con 1.162 posti-letto, che ha
registrato nel 2008 circa 54.560 ricoveri, e oltre 40.000 esami istopatologici. Lo studio è stato
condotto su un arco temporale di circa 6 mesi: da Ottobre 2008 ad Aprile 2009. Sono stati distribuiti
una serie di questionari che hanno consentito di intervistare lo staff delle sale operatorie ed il personale
dell’anatomia patologica. I dati raccolti, per un totale di 175 operatori intervistati, sono stati utilizzati
per valutare la soddisfazione del personale, lo stato di conservazione dei tessuti e la presenza di
eventuali danni istologici di conservazione dei tessuti con la procedura “under-vacuum sealing of
tissues” (UVS) versus la tradizionale procedura di fissazione con formalina. Da un primo studio
(pubblicato sull’autorevole rivista internazionale Science of the Total Environment) sono emersi
risultati piuttosto incoraggianti: oltre al risparmio economico che la procedura UVS consente rispetto
alla conservazione in formalina (la conservazione tradizionale comporterebbe l’acquisto del fissativo e
il suo smaltimento) il sistema sotto-vuoto riduce la probabilità di riportare danni nei preparati istologici
(che si verificano a causa dell’ “iper/ipofissazione” nella tradizionale conservazione con formalina) e
contribuisce ad una migliore conservazione del campione. Inoltre, lo studio ha rilevato una maggiore
soddisfazione degli operatori di sala operatoria e dell’anatomia patologica che lavorerebbero in
condizioni di maggiore sicurezza ambientale legate all’eliminazione (o ad una drastica riduzione) della
formalina utilizzata nelle camere operatorie (Di Novi et al., 2010).
4
Qui di seguito applicheremo l’algoritmo CART per verificare se l’introduzione del sistema che
utilizza il principio del sottovuoto ha contribuito alla scomparsa di sintomi quali nausea, rinite,
lacrimazione, sintomi spesso causati dall’utilizzo della formalina. Gli operatori sanitari hanno risposto
alla seguente domanda: “Lamenta sintomi (nausea, rinite, senso di oppressione al torace o difficoltà di
respiro, senso di bruciore, lacrimazione) mentre esegue la procedura di conservazione dei tessuti?”.
E’ stata in seguito costruita una variabile binaria che assume valore uno se l’intervistato soffre di
sintomi, zero se non ha riportato alcun sintomo.
Variabili Indipendenti
Tra le variabili indipendenti, che predicono la presenza di sintomi quali nausea, rinite, senso di
oppressione al torace o difficoltà di respiro, senso di bruciore, lacrimazione, sono state incluse: (i)
caratteristiche demografiche; (ii) la presenza di allergie;
(i)
Caratteristiche Demografiche. Tra le variabili indipendenti sono state considerate sesso, età,
residenza nell’ area metropolitana Torinese (come proxy di esposizione ad inquinamento
atmosferico che potrebbe influire in particolare sui sintomi respiratori). Per poter sfruttare
la procedura CART sono state create variabili binarie: l’età è stata suddivisa in classi; il
campione presenta un’età media di circa 40 anni, con un range che va dai 22 ai 60 anni. La
variabile età1 indica la prima classe che include gli individui di età compresa tra i 22 e i 30
anni. Segue la variabile età2 che include gli operatori di età compresa tra i 30 e i 40 anni,
età3 con un range che va dai 40 ai 50 anni, e infine età4 che comprende gli over 50. Inoltre,
è stata costruita una variabile area_metropolitana, che assume valore 1 se l’intervistato
risiede nell’area metropolitana Torinese, 0 se l’operatore sanitario vive fuori dall’area
metropolitana. La variabile sesso invece assume valore 1 se l’operatore intervistato è di
sesso maschile e 2 se femminile.
(ii)
Allergie: Anche la variabile “allergie” è stata è stata suddivisa in due modalità: soffre di
allergie, astma, rinite, eritemi e non soffre di allergie. Le forme allergiche considerate sono
quelle che hanno come bersaglio le vie respiratorie (asma, rinite allergica perenne, rinite
allergica stagionale) o che presentano sintomi tipici come prurito, arrossamento, eruzioni
cutanee. La variabile “allergie” è stata inserita per controllare per eventuali fattori di
confondimento.
5
(iii)
Tra le variabili dipendenti è stata inserita inoltre la variabile di interesse UVS che assume
valore 1 se l’operatore ha utilizzato la procedura sotto-vuoto, 0 se la conservazione dei
tessuti è avvenuta con formalina.
Risultati
La Tabella 1 riporta le statistiche descrittive: il campione è composto da 175 operatori sanitari
che presentano un età media di 40 anni ( simile per i due gruppi 40,18 per gli intervistati che utilizzano
la procedura UVS contro 40,44 per gli operatori che hanno utilizzato formalina);
il 74% degli
intervistati è di sesso femminile, l’81% risiede a Torino o nell’area metropolitana torinese. Il 27% degli
intervistati soffre di allergie. Il 39% (69 su 175 operatori intervistati) del campione utilizza per la
conservazione dei tessuti la nuova tecnologia basata sul principio del sottovuoto.
Dal diagramma ad albero rovesciato (Figura 1) prodotto dall’algoritmo CART emerge che la
presenza di sintomi sarebbe influenzato principalmente dalla procedura utilizza per la conservazione
dei tessuti: dal nodo radice è possibile vedere che il 22,9 per cento degli intervistati ha riportato di
soffrire di almeno uno dei seguenti sintomi: nausea, rinite, senso di oppressione al torace o difficoltà di
respiro, senso di bruciore, lacrimazione. Il primo ramo vede come primo nodo figlio la procedura di
conservazione: in particolare tra coloro che utilizzano il sottovuoto solo il 4,3 per cento riporta sintomi
respiratori contro il 34,9 per cento tra coloro che utilizzano formalina.
Il diagramma prodotto
dall’algoritmo CART riporta che tra coloro che utilizzano formalina per la preparazione e la
conservazione dei tessuti lamentano più spesso sintomi le donne che soffrono di forme di allergie.
Nonostante la procedura di fissazione dei tessuti avvenga sotto cappa chimica con filtro
specifico, e in ambienti ben areati con occhiali di sicurezza e con guanti idonei, la formalina resta il
principale responsabile di bruciore, nausea, tosse e respirazione asmatica. La procedura UVS
rappresenta sicuramente un’efficace alternativa alla formalina, non solo perché si presenta altrettanto
efficace nella conservazione dei tessuti (Di Novi et al., 2010), ma anche perché permetterebbe di
limitare le fonti di inquinamento indoor nei laboratori di istopatologia contribuendo ad una maggiore
sicurezza per gli operatori sanitari.
6
Variabili
Full Sample
Mean
UVS
Std.
Mean
Formalina
Std. Dev.
Mean
Std.
Dev.
Età
Sesso
Uomo=1
Dev.
40.3428
9.6797
40.1884
10.2221
40.4434
9.3585
Uomo=24.71%
-
Uomo=27.54%
-
Uomo=24.53%
-
Donna=74.29%
Donna=72.46%
Donna=75.47%
Donna=2
Area
0.8103
0.3931
0.7971
0.8190
0.3868
0.2711
0.4458
0.2898
0.2641
0.4429
Metropolitana
Allergie
N.Obs.
175
69
106
Tabella 1: Statistiche Descrittive
7
Figura 1: Diagramma ad Albero UVS
Figura 2: Diagramma ad Albero UVS
Figura 1: Diagramma ad Albero UVS
8
Bibliografia
1. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. (1984) “Classification Regression Trees”,
Wadsworth International Group, Belmont, California.
2. Bussolati G, Chiusa L, Cimino A, D'Armento G. Tissue transfer to pathology labs: under
vacuum is the safe alternative to formalin. Virchows Arch. 2008 Feb;452(2):229-31.
3. Di Novi C., Minniti D., Zampirolo G., S. Barbaro S., Cimino A. and Bussolanti G. (2010),
“ Vacuum-based Preservation of Surgical Specimens: An Environmentally-safe Step Towards a
Formalin-free Hospital”, Science of Total Environment, 408: 3092-3095.
9