1 L`Utilizzo dell`Algoritmo CART nelle Valutazione di
Transcript
1 L`Utilizzo dell`Algoritmo CART nelle Valutazione di
L’Utilizzo dell’Algoritmo CART nelle Valutazione di Efficacia in Supporto all’Attività di HTA Cinzia Di Novi* La spesa sanitaria pubblica costituisce da decenni una delle principali voci in uscita del Bilancio dello Stato ed è di gran lunga la principale voce di spesa sotto il controllo delle Amministrazioni regionali. A fronte di un trend crescente della spesa sanitaria e al progresso incalzante di tecnologie sempre più costose, in supporto ai policy makers, oggi esiste e si sta sempre più ampliando una nuova area di ricerca conosciuta come Health Technology Assessment (HTA) dove per “Health Technology” si intendono tutte le procedure diagnostiche e terapeutiche: farmaci, procedure medico-chirurgiche, test, esami, attrezzature, dispositivi e apparecchiature. Lo stadio ancora “precoce” dell’HTA in Italia ha enfatizzato fino ad oggi il ruolo dell' HospitalBased HTA. Presso l’Azienda Ospedaliero-Universitaria San Giovanni Battista di Torino (Molinette), da gennaio 2007 le decisioni relative all’acquisto di tecnologie e apparecchiature sanitarie sono vagliate dalla Commissione Aziendale di Health Technology Assessment. La Commissione Aziendale di Health Technology Assessment ha il compito di effettuare valutazioni di costo-efficacia relativamente all’introduzione di attrezzature sanitarie e dispositivi medici, al loro impatto complessivo sul sistema assistenziale e ad un’analisi sui determinanti relativi al loro utilizzo. Questo breve articolo ha l’obiettivo di mostrare come l’applicazione dell’algoritmo Classification and Regression Trees (CART) nelle valutazione di efficacia possa costituire un supporto all’attività di HTA dell’AUO San Giovanni Battista di Torino. L’algoritmo CART è utilizzato in diverse discipline tra cui le scienze mediche, la sociologia e l’economia sanitaria. CART produce stime di efficacia semplici e intuitive che hanno lo scopo di supportare la Commissione di Health Technology Assessment aziendale per effettuare scelte appropriate e strategiche. * Università del Piemonte Orientale, Dipartimento di Politiche Pubbliche e Scelte Collettive, Alessandria. e-mail: [email protected] 1 L’Algoritmo CART La procedura CART (Classification And Regression Trees) è stata introdotta da Breiman et al. (1984) e presenta i risultati sottoforma di diagramma ad albero rovesciato, caratteristica peculiare che lo distingue dalle altre procedure statistiche tradizionali. CART è una procedura non parametrica pertanto non è necessario pre-testare la normalità o altre assunzioni che riguardano la distribuzione statistica dei dati. L’albero finale include solo le variabili indipendenti che risultano essere predittive della variabile dipendente; le altre variabili indipendenti non predittive non hanno effetto sul risultato finale; anche sotto questo aspetto CART si differenzia dalle altre procedure statistiche tradizionali. La struttura di un classification tree include i nodi non terminali (parent nodes), i quali hanno due discendenti diretti (child nodes), ed i nodi terminali che non subiscono ulteriori bipartizioni (terminal nodes). Il primo nodo radice (root node) contiene tutte le osservazioni. Dal nodo radice discendono due “nodi figli”. Ogni child node, che indichiamo con la lettera t contiene un sottocampione del campione originale, in cui i membri condividono le stesse caratteristiche, che influenzano la variabile dipendente di interesse. Ogni t , a sua volta, costituisce un potenziale parent node che può essere ancora suddiviso in due child node. Il processo continua fino a che l’albero non termina la sua crescita. I nodi terminali sono i nodi finali dell’albero decisionale e contengono insiemi di osservazioni che vanno a formare classi molto omogenee al loro interno e il più possibile eterogenee tra loro. Il metodo è binario e ricorsivo: binario poiché ogni parent node si divide in due discendenti diretti e ricorsivo poiché i nodi (non terminali) nati dalla suddivisione del parent node in due discendenti diretti possono diventare, a loro volta, parent node e suddivisi in due nodi successivi. Seguendo Breiman et. al. vi sono alcuni step importanti da seguire quando si costruisce un albero decisionale con la procedura CART; gli step includono: adottare un criterio di bontà della tecnica con i cui i nodi vengono suddivisi da parent nodes a child nodes (split criterion); stabilire una regola di arresto di crescita dell’albero (stopping rule). Una volta che un nodo viene riconosciuto come terminale, fissare una regola che permetta di stabilire come classificare i casi che in esso sono contenuti. Il processo inizia con una domanda binaria che stabilisce se l’osservazione si collocherà nel nodo di destra tr o di sinistra tl. Lo regola di bipartizione dipende dalle caratteristiche della variabile indipendente X. Se X è una variabile continua la suddivisione in due nodi avrà la forma X ≤ s o X>s 2 dove s è una costante e rappresenta la soglia per la bipartizione. Se X è una variabile categorica, allora lo suddivisione assumerà la forma X ∈ S oppure forma X ∉ S dove S è un sottoinsieme non vuoto di X. La risposta alla domanda binaria contemplerà solo “sì” o “no”. Se l’osservazione soddisferà il criterio sarà collocata a destra, in caso contrario a sinistra. Il processo continuerà fino a che non verranno raggiunti nodi terminali che saranno tra di loro più eterogenei possibile ma che, allo stesso tempo, andranno a costituire classi molto omogenee al loro interno. Il criterio con i cui i nodi vengono suddivisi da parent nodes a child nodes sarà tanto buono quanto più alto sarà il grado di omogeneità in ogni nodo figlio ovvero quanto minimo sarà il grado di impurità di ciascun nodo. Nel case-report che verrà presentato qui di seguito si è adottata come criterio di suddivisione la funzione di diversità di Gini. In base a questa funzione vengono individuate le suddivisioni che minimizzano l’ eterogeneità dei nodi figlio rispetto al valore della variabile dipendente. Il metodo di Gini si basa sulle probabilità quadratiche di appartenenza per ciascuna categoria della variabile dipendente. Questo valore raggiunge il minimo (zero) quando tutti i casi di un nodo rientrano in un’unica categoria. Una volta individuata la suddivisione migliore per il nodo radice, il CART ripete il processo di ricerca per ogni nodo figlio continuando a bipartire finché non è più possibile alcuna suddivisione. Il processo di bipartizione è impossibile quando un nodo è costituito da un solo caso oppure quando tutti i casi che compongono un nodo appartengono alla stessa classe. Come in ogni forma di inferenza statistica, è importante capire se esiste incertezza nell’inferenza. Nei modelli di regressione l’incertezza prende forma attraverso l’errore standard dei parametri stimati. Le misure di varianza invece sono più complicate nei modelli CART. Esistono, diverse tecniche per validare il modello. Esse consistono nell’utilizzare un sottocampione di dati come test per l’intero campione. Verrebbe creato un albero o più alberi T e usati come test di convalida per gli altri dati. Tra i metodi di validazione si è adottata la validazione incrociata (cross validation) utilizzando tre sottocampioni. La convalida incrociata, infatti, divide l’intero campione in diversi sottocampioni. I modelli ad albero vengono quindi generati escludendo di volta in volta i dati da ciascun sottocampione: il primo albero si basa su tutti i casi eccetto quelli contenuti nel primo sottocampione, il secondo albero si basa su tutti i casi eccetto quelli contenuti nel secondo sotto campione e così via. 3 Infine, è possibile lasciare che l’albero decisionale cresca senza limite, oppure deciderne l’estensione attraverso una regola di arresto. In questo lavoro ho fissato, come regola di arresto, che il numero minimo di osservazioni che ciascun nodo dovrà contenere dovrà essere pari a cinque. L’algoritmo CART ha lavorato su dati osservati relativi ad una tecnologia sanitaria emergente: la tecnologia“under-vacuum sealing of tissues” (UVS). Under-Vacuum Sealing(UVS) of Tissue A partire dal mese di ottobre 2008 è stata introdotta nell’Azienda Ospedaliero-Universitaria San Giovanni Battista di Torino una nuova procedura di conservazione dei tessuti che sfrutta il principio del sottovuoto. La nuova procedura “under-vacuum sealing of tissues” (UVS) consente l’invio dei campioni istologici dalle sale operatorie all’anatomia patologica rappresentando una alternativa all’immersione in formalina inserita tra le sostanze cancerogene di gruppo 1 (IARC, 2006). L’Ospedale Molinette rappresenta una realtà di grande dimensione con 1.162 posti-letto, che ha registrato nel 2008 circa 54.560 ricoveri, e oltre 40.000 esami istopatologici. Lo studio è stato condotto su un arco temporale di circa 6 mesi: da Ottobre 2008 ad Aprile 2009. Sono stati distribuiti una serie di questionari che hanno consentito di intervistare lo staff delle sale operatorie ed il personale dell’anatomia patologica. I dati raccolti, per un totale di 175 operatori intervistati, sono stati utilizzati per valutare la soddisfazione del personale, lo stato di conservazione dei tessuti e la presenza di eventuali danni istologici di conservazione dei tessuti con la procedura “under-vacuum sealing of tissues” (UVS) versus la tradizionale procedura di fissazione con formalina. Da un primo studio (pubblicato sull’autorevole rivista internazionale Science of the Total Environment) sono emersi risultati piuttosto incoraggianti: oltre al risparmio economico che la procedura UVS consente rispetto alla conservazione in formalina (la conservazione tradizionale comporterebbe l’acquisto del fissativo e il suo smaltimento) il sistema sotto-vuoto riduce la probabilità di riportare danni nei preparati istologici (che si verificano a causa dell’ “iper/ipofissazione” nella tradizionale conservazione con formalina) e contribuisce ad una migliore conservazione del campione. Inoltre, lo studio ha rilevato una maggiore soddisfazione degli operatori di sala operatoria e dell’anatomia patologica che lavorerebbero in condizioni di maggiore sicurezza ambientale legate all’eliminazione (o ad una drastica riduzione) della formalina utilizzata nelle camere operatorie (Di Novi et al., 2010). 4 Qui di seguito applicheremo l’algoritmo CART per verificare se l’introduzione del sistema che utilizza il principio del sottovuoto ha contribuito alla scomparsa di sintomi quali nausea, rinite, lacrimazione, sintomi spesso causati dall’utilizzo della formalina. Gli operatori sanitari hanno risposto alla seguente domanda: “Lamenta sintomi (nausea, rinite, senso di oppressione al torace o difficoltà di respiro, senso di bruciore, lacrimazione) mentre esegue la procedura di conservazione dei tessuti?”. E’ stata in seguito costruita una variabile binaria che assume valore uno se l’intervistato soffre di sintomi, zero se non ha riportato alcun sintomo. Variabili Indipendenti Tra le variabili indipendenti, che predicono la presenza di sintomi quali nausea, rinite, senso di oppressione al torace o difficoltà di respiro, senso di bruciore, lacrimazione, sono state incluse: (i) caratteristiche demografiche; (ii) la presenza di allergie; (i) Caratteristiche Demografiche. Tra le variabili indipendenti sono state considerate sesso, età, residenza nell’ area metropolitana Torinese (come proxy di esposizione ad inquinamento atmosferico che potrebbe influire in particolare sui sintomi respiratori). Per poter sfruttare la procedura CART sono state create variabili binarie: l’età è stata suddivisa in classi; il campione presenta un’età media di circa 40 anni, con un range che va dai 22 ai 60 anni. La variabile età1 indica la prima classe che include gli individui di età compresa tra i 22 e i 30 anni. Segue la variabile età2 che include gli operatori di età compresa tra i 30 e i 40 anni, età3 con un range che va dai 40 ai 50 anni, e infine età4 che comprende gli over 50. Inoltre, è stata costruita una variabile area_metropolitana, che assume valore 1 se l’intervistato risiede nell’area metropolitana Torinese, 0 se l’operatore sanitario vive fuori dall’area metropolitana. La variabile sesso invece assume valore 1 se l’operatore intervistato è di sesso maschile e 2 se femminile. (ii) Allergie: Anche la variabile “allergie” è stata è stata suddivisa in due modalità: soffre di allergie, astma, rinite, eritemi e non soffre di allergie. Le forme allergiche considerate sono quelle che hanno come bersaglio le vie respiratorie (asma, rinite allergica perenne, rinite allergica stagionale) o che presentano sintomi tipici come prurito, arrossamento, eruzioni cutanee. La variabile “allergie” è stata inserita per controllare per eventuali fattori di confondimento. 5 (iii) Tra le variabili dipendenti è stata inserita inoltre la variabile di interesse UVS che assume valore 1 se l’operatore ha utilizzato la procedura sotto-vuoto, 0 se la conservazione dei tessuti è avvenuta con formalina. Risultati La Tabella 1 riporta le statistiche descrittive: il campione è composto da 175 operatori sanitari che presentano un età media di 40 anni ( simile per i due gruppi 40,18 per gli intervistati che utilizzano la procedura UVS contro 40,44 per gli operatori che hanno utilizzato formalina); il 74% degli intervistati è di sesso femminile, l’81% risiede a Torino o nell’area metropolitana torinese. Il 27% degli intervistati soffre di allergie. Il 39% (69 su 175 operatori intervistati) del campione utilizza per la conservazione dei tessuti la nuova tecnologia basata sul principio del sottovuoto. Dal diagramma ad albero rovesciato (Figura 1) prodotto dall’algoritmo CART emerge che la presenza di sintomi sarebbe influenzato principalmente dalla procedura utilizza per la conservazione dei tessuti: dal nodo radice è possibile vedere che il 22,9 per cento degli intervistati ha riportato di soffrire di almeno uno dei seguenti sintomi: nausea, rinite, senso di oppressione al torace o difficoltà di respiro, senso di bruciore, lacrimazione. Il primo ramo vede come primo nodo figlio la procedura di conservazione: in particolare tra coloro che utilizzano il sottovuoto solo il 4,3 per cento riporta sintomi respiratori contro il 34,9 per cento tra coloro che utilizzano formalina. Il diagramma prodotto dall’algoritmo CART riporta che tra coloro che utilizzano formalina per la preparazione e la conservazione dei tessuti lamentano più spesso sintomi le donne che soffrono di forme di allergie. Nonostante la procedura di fissazione dei tessuti avvenga sotto cappa chimica con filtro specifico, e in ambienti ben areati con occhiali di sicurezza e con guanti idonei, la formalina resta il principale responsabile di bruciore, nausea, tosse e respirazione asmatica. La procedura UVS rappresenta sicuramente un’efficace alternativa alla formalina, non solo perché si presenta altrettanto efficace nella conservazione dei tessuti (Di Novi et al., 2010), ma anche perché permetterebbe di limitare le fonti di inquinamento indoor nei laboratori di istopatologia contribuendo ad una maggiore sicurezza per gli operatori sanitari. 6 Variabili Full Sample Mean UVS Std. Mean Formalina Std. Dev. Mean Std. Dev. Età Sesso Uomo=1 Dev. 40.3428 9.6797 40.1884 10.2221 40.4434 9.3585 Uomo=24.71% - Uomo=27.54% - Uomo=24.53% - Donna=74.29% Donna=72.46% Donna=75.47% Donna=2 Area 0.8103 0.3931 0.7971 0.8190 0.3868 0.2711 0.4458 0.2898 0.2641 0.4429 Metropolitana Allergie N.Obs. 175 69 106 Tabella 1: Statistiche Descrittive 7 Figura 1: Diagramma ad Albero UVS Figura 2: Diagramma ad Albero UVS Figura 1: Diagramma ad Albero UVS 8 Bibliografia 1. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. (1984) “Classification Regression Trees”, Wadsworth International Group, Belmont, California. 2. Bussolati G, Chiusa L, Cimino A, D'Armento G. Tissue transfer to pathology labs: under vacuum is the safe alternative to formalin. Virchows Arch. 2008 Feb;452(2):229-31. 3. Di Novi C., Minniti D., Zampirolo G., S. Barbaro S., Cimino A. and Bussolanti G. (2010), “ Vacuum-based Preservation of Surgical Specimens: An Environmentally-safe Step Towards a Formalin-free Hospital”, Science of Total Environment, 408: 3092-3095. 9