caratterizzazione di segnale e rumore in misure pet cerebrali
Transcript
caratterizzazione di segnale e rumore in misure pet cerebrali
C A R AT T E R I Z Z A Z I O N E D I S E G N A L E E R U M O R E I N M I S U R E PET CEREBRALI ilaria grasso Relatori: Prof. Sandro Squarcia, Dr. Andrea Chincarini Correlatore: Prof. Piero Calvini Io, la parabola che preferisco è la fine del mondo, perché non ho paura, in quanto che sarò già morto da un secolo. Dio separerà le capre dai pastori, una a destra e una a sinistra. Al centro quelli che andranno in purgatorio, saranno più di mille miliardi! Più dei cinesi! E Dio avrà tre porte: una grandissima, che è l’inferno; una media, che è il purgatorio; e una strettissima, che è il paradiso. Poi Dio dirà: “Fate silenzio tutti quanti!”. E poi li dividerà. A uno qua e a un altro là. Qualcuno che vuole fare il furbo vuole mettersi di qua, ma Dio lo vede e gli dice: “Uè, addò vai!”. Il mondo scoppierà, le stelle scoppieranno, il cielo scoppierà, Corzano si farà in mille pezzi, i buoni rideranno e i cattivi piangeranno. Quelli del purgatorio un po’ ridono e un po’ piangono, i bambini del limbo diventeranno farfalle. Io, speriamo che me la cavo. (Io speriamo che me la cavo, Marcello D’Orta) P R E FA Z I O N E Uno degli aspetti fondamentali della fisica è il concetto di misura. Misurare non significa semplicemente fornire una valutazione quantitativa di un osservabile, ma è un concetto complesso che coinvolge modelli teorici, esperimenti, strumenti statistici e di elaborazione, per arrivare all’individuazione e l’estrazione del segnale e, complementariamente, alla caratterizzazione del rumore. È ormai consueto che la fisica venga applicata in altri ambiti e uno dei più comuni è l’ambito medico; nel quale vi sono casi in cui i parametri si prestano ad essere trattati come quantità fisiche e, quindi, vengono inseriti nel comune schema di misura, ma anche sistemi per i quali è necessario elaborare processi di misura alternativi. Il punto cruciale che distingue questi ultimi sistemi dal paradigma fisico è l’assenza di un modello eziologico esatto in cui inquadrare il fenomeno esaminato. Questo rende necessario utilizzare il confronto di due popolazioni: una in cui è attestata la presenza del segnale, l’altra in cui è assente, per dedurre il segnale stesso. In questo paradigma di misura la definizione stessa del segnale dipende dalla scelta del metodo per discriminarne la presenza o l’assenza. Un caso emblematico di quanto detto è il processo di misura dei biomarcatori legati a patologie di difficile diagnosi; come, ad esempio, le patologie neurodegenerative. La malattia di Alzheimer rientra tra i casi in cui la misura deve essere elaborata a partire da due gruppi clinici distinti e tra i marcatori più promettenti dal punto di vista diagnostico vi è il metabolismo del glucosio a livello cerebrale. In questa tesi abbiamo appunto affrontato misure del metabolismo cerebrale in soggetti cognitivamente normali e affetti dalla malattia di Alzheimer. Esaminando immagini, realizzate attraverso tecniche di tomografia a emissione di positroni (PET), che rivelano la distribuzione del fluorodesossiglucosio: un radiofarmaco formato da 18 F ingegnerizzato per legarsi alle cellule in funzione della loro attività metabolica. Dopo un trattamento preliminare dei dati, volto a ridurre le differenze tra le immagini esaminate non legate alla presenza della patologia, abbiamo implementato 4 diversi metodi, abbiamo confrontato tra loro le prestazioni ottenute e, infine, li abbiamo verificati su un campione di soggetti indipendente. A conclusione del lavoro svolto abbiamo fornito una stima dell’andamento dell’incertezza dovuta alla scelta del metodo di analisi sul marcatore utilizzato. v Il lavoro è stato realizzato nell’ambito del progetto di ricerca “nextMR”, volto a creare strumenti computazionali in grado di fornire un indice accurato per la diagnosi precoce di patologie neurodegenerative cerebrali ed a migliorare la capacità diagnostica su grandi quantità di dati tramite lo sviluppo di procedure di calcolo automatiche. vi INDICE Prefazione 1 introduzione 1.1 Misura, segnale e rumore . . . . . . . . . . . . . . . . . 1.1.1 La misura nel paradigma della Fisica classica . 1.1.2 Confronto con l’approccio medico . . . . . . . . 1.1.3 Diagnostica: clinica e biomarkers . . . . . . . . . 1.2 Il Segnale in “Neuroimaging” . . . . . . . . . . . . . . . 1.2.1 FDG-PET: formazione del segnale . . . . . . . . 1.3 Il rumore nelle immagini PET . . . . . . . . . . . . . . . 1.4 Il Rumore in “Neuroimaging” . . . . . . . . . . . . . . . 1.4.1 Rumore Fisiologico . . . . . . . . . . . . . . . . . 1.4.2 Rumore dovuto al processo di Elaborazione delle Immagini . . . . . . . . . . . . . . . . . . . . . 1.4.3 Rumore di Gold Standard . . . . . . . . . . . . . 1.4.4 Rumore dovuto al Modello assunto per descrivere la Patologia . . . . . . . . . . . . . . . . . . 2 ricerca e estrazione del segnale 2.1 Caso di Studio: Misura della Neurodegenerazione legata alla malattia di Alzheimer . . . . . . . . . . . . . . 2.1.1 Alzheimer e Mild Cognitive Impairment . . . . 2.1.2 Il modello di neurodegenerazione: “Cascata Amiloide” . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 La misura della neurodegenerazione . . . . . . 2.1.4 L’interpretazione del biomarcatore nell’FDG-PET 2.2 Strumenti per l’elaborazione delle immagini e l’estrazione del segnale . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Strumenti per la selezione delle immagini . . . 2.2.2 Strumenti per la normalizzazione delle immagini 2.2.3 Strumenti per l’individuazione delle caratteristiche significative del sistema . . . . . . . . . . 2.2.4 Strumenti statistici . . . . . . . . . . . . . . . . . 3 sviluppo del modello su una popolazione test 3.1 Estrazione del segnale . . . . . . . . . . . . . . . . . . . 3.1.1 La selezione delle immagini: il Quality Check . 3.1.2 Normalizzazione Spaziale . . . . . . . . . . . . . 3.1.3 Normalizzazione d’Intensità . . . . . . . . . . . 3.1.4 Strumenti per la classificazione dei soggetti . . 3.2 Elaborazione del segnale: due metodi per la Feature Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Metrica 1: media dei conteggi sulle ROI . . . . 3.2.2 Metrica 2: distanza dal cluster dei controlli . . . v 1 1 1 2 3 4 4 8 9 10 11 11 12 15 15 15 18 20 20 21 23 24 31 33 37 37 38 39 45 47 51 52 56 vii viii indice Metrica 3: proiezione dei punti su una componente principale . . . . . . . . . . . . . . . . . . . 3.2.4 Metrica 4: distanza dal cluster dei controlli . . . 3.2.5 Compatibilità . . . . . . . . . . . . . . . . . . . . 4 validazione 4.1 Validazione dei metodi . . . . . . . . . . . . . . . . . . . 4.1.1 La Cross-Validazione . . . . . . . . . . . . . . . . 4.1.2 Considerazioni sulla validazione dei metodi . . 4.2 Ottimizzazione delle metriche . . . . . . . . . . . . . . . 4.3 Risultati della prestazione complessiva . . . . . . . . . 4.4 Validazione dei metodi su un dataset indipendente . . 4.5 Risultati della prestazione complessiva . . . . . . . . . 5 discussione 5.1 Discussione dei risultati . . . . . . . . . . . . . . . . . . 5.1.1 Considerazioni conclusive . . . . . . . . . . . . . 5.2 Ulteriori considerazioni metodologiche . . . . . . . . . 5.2.1 Confronto tra Registrazione Deformabile e Affine. 5.2.2 Normalizzazione d’Intensità e Feature Selection 5.2.3 ROI e Modello “Cascata Amiloide” . . . . . . . 6 conclusioni 59 61 63 65 65 65 66 67 70 71 74 77 77 80 80 80 81 82 85 bibliografia 89 3.2.3 1 INTRODUZIONE 1.1 misura, segnale e rumore Se volessimo descrivere semplicemente il concetto di misura, potremmo dire che misurare significa fornire una valutazione quantitativa di un’osservabile. Lo scopo del misurare è, infatti, proprio quello di stabilire i valori numerici che le grandezze, che descrivono un determinato fenomeno, possono assumere. La semplicità di tale definizione nasconde un processo articolato formato da svariati elementi, alcuni dei quali sono: lo sviluppo di modelli teorici, l’applicazione di metodi statistici, l’individuazione e l’estrazione del segnale dal rumore e la trattazione di quest’ultimo. 1.1.1 La misura nel paradigma della Fisica classica Di seguito introdurremo brevemente i vari passaggi coinvolti nel processo di misura, consapevoli di non poter, in questa sede, presentare esaustivamente l’argomento. Effettuare una misura in fisica significa, prima di tutto, assumere che fenomeni complessi possano essere descritti utilizzando modelli idealizzati relativamente semplici: si pensi alla meccanica classica e all’idealizzazione dei corpi come punti materiali. Il primo passo per eseguire una misura è l’osservazione del fenomeno: una buona osservazione deve essere oggettiva, ovvero non deve dipendere dall’osservatore, deve essere quantificabile, riproducibile e inoltre, una eventuale nuova osservazione non deve essere condizionata dalla prima fatta. Dopodiché deve essere possibile ricondurre il fenomeno osservato a un modello teorico, tipicamente un complesso di equazioni matematiche che deriva da un piccolo insieme di principi basilari. Una buona teoria soddisfa due condizioni: deve descrivere accuratamente un’estesa serie di osservazioni sulla base di un modello che contenga solo pochi elementi arbitrari e deve essere consistente1 . Se la teoria ha le caratteristiche descritte si possono fare predizioni precise riguardo ai risultati di osservazioni future. 1 Una teoria formale si dice consistente se in essa è impossibile dimostrare una contraddizione. Esistono due livelli di consistenza: la consistenza sintattica, secondo la quale, se una teoria è consistente non si può dimostrare contemporaneamente un’affermazione e il suo contrario e la consistenza semantica, secondo la quale, una teoria consistente ammette almeno un modello, cioè un linguaggio per cui gli assiomi della teoria stessa siano veri. 1 2 introduzione A questo punto è necessario validare la teoria e verificare l’affidabilità delle predizioni tramite un esperimento. Esso può essere condotto studiando direttamente o indirettamente il fenomeno in esame, deve caratterizzarne pienamente tutti gli aspetti, ad esempio il segnale e il rumore, e deve fornire la valutazione quantitativa cercata, ovvero la misura del fenomeno stesso. Quando anche solo alcune delle caratteristiche descritte delle varie fasi di misura vengono meno, l’intero processo può non fornire la valutazione quantitativa dell’osservabile in esame e dunque il fenomeno risultare non misurabile. 1.1.2 Confronto con l’approccio medico Risulta semplice applicare il concetto di misura, precedentemente introdotto, a quantità fisiche come il tempo, lo spazio o la carica, questa semplicità discende dalla quotidiana necessità di misurare queste entità che ha reso intuitiva l’applicazione del processo di misura stesso. Potrebbe essere meno chiaro, invece, applicare tale concetto ad altri campi, come quello medico. Indubbiamente vi sono alcuni parametri fisiologici che si prestano ad essere trattati come quantità fisiche, ad esempio la pressione sanguigna, la concentrazione di glucosio, la massa corporea e ai quali è intuitivamente applicabile il concetto di misura; per altri fenomeni, le varie fasi del processo di misura, precedentemente illustrate, non sono facilmente individuabili. Ci si può lecitamente chiedere, quindi, in quali aspetti la fisica e la medicina si accomunano e, per farlo, descriviamo i passi introdotti trattando del comune schema di misura in campo medico, in modo da evidenziare quando e quanto sia possibile applicarlo in questo nuovo contesto. Per prima cosa l’osservazione: per la medicina essa discende dalla pratica clinica, è solo diretta ed è fortemente legata all’osservatore, in quanto la diagnosi dipende inevitabilmente dall’esperienza del clinico che la formula e alle sue capacità di interpretare la sintomatologia riportata dal paziente. Si pensi, ad esempio, al caso in cui un soggetto descriva un dolore, tale sintomo è estremamente legato alla percezione di ogni singolo individuo e necessariamente altera l’osservazione del fenomeno in esame. Il modello teorico sul quale basare l’osservazione effettuata è intrinsecamente complesso, in quanto è impossibile considerare tutte le relazioni tra i sottosistemi non indipendenti che compongono il sistema studiato per inquadrare completamente la patologia. Un altro elemento che contribuisce a rendere complesso il modello teorico in medicina è l’assenza di un modello eziologico esatto per un grande numero di patologie, rendendo di fatto le osservazioni dei fenomeni non indipendenti e il modello utilizzato non esaustivo. 1.1 misura, segnale e rumore Per validare i modelli teorici, anche in campo medico, è necessario condurre degli esperimenti che si realizzano nell’ambito dei trial clinici. La procedura nei trial inizia con studi preclinici condotti in vitro o su animali in vivo e successivamente procede con la selezione di un campione di individui: il numero dei soggetti coinvolti nello studio pesa grandemente sulla capacità dello studio stesso di valutare l’efficacia del processo testato. Le difficoltà legate alla conduzione di un buon esperimento in campo medico sono molto elevate: già dalle poche caratteristiche introdotte si intuisce la complessità della procedura condotta nei trial. Volendo sintetizzare, la differenza sostanziale fra i due approcci sta nel fatto che in campo medico si attesta la presenza o meno di un miglioramento e si quantifica la probabilità che esso avvenga tramite il confronto di un numero rilevante di soggetti con un gruppo di controllo. In fisica si assume l’osservazione effettuata composta dal segnale e dal rumore; il primo da caratterizzare e di cui si esegue la misura; il secondo, quantificabile e legato sia al fenomeno studiato che al processo di misura stesso. 1.1.3 Diagnostica: clinica e biomarkers Abbiamo visto che vi sono parametri clinici la cui osservazione e relativa misura si prestano ad essere trattate come in fisica e altri per cui non accade. Queste differenze emergono chiaramente per alcune patologie e, in questi casi, la misura del fenomeno in esame non può essere una misura diretta. Per valutare quantitativamente quest’ultime, si individuano una serie di caratteristiche che forniscano una valutazione oggettiva e misurabile legata alla patologia, come un processo biologico o la risposta farmacologica ad un’azione terapeutica. Tali valutazioni sono misure indirette della patologia stessa, ripetibili e riproducibili, in grado di predire lo stato clinico del soggetto, dette biomarcatori [1]. In altre parole un biomarcatore è una quantità che fornisce indicazioni diverse rispetto alla sintomatologia e ad essa complementare, permettendo di seguire il decorso della patologia e, in alcuni casi, anche di predire lo stato clinico del soggetto [2, 3]. Nel seguito della trattazione verranno forniti esempi più specifici riguardo l’individuazione e l’interpretazione dei biomarcatori, per ora basti sapere che, date le loro potenzialità, sono utilizzati in svariate applicazioni mediche e, a seconda del metodo diagnostico usato, possono essere molto diversi: se si analizza un’immagine derivata ad esempio da una risonanza magnetica (MRI), da una tomografia computerizzata (CT), o da altri metodi diagnostici come la tomografia ad emissione di positroni (PET), possono essere funzioni dei dati ricavabili dalle immagini, dei tessuti o della forma delle strutture in esame, dei parametri biochimici, delle valutazioni neuropsicologiche oppure possono derivare dalle 3 4 introduzione informazioni cliniche dei soggetti[4, 5]. I biomarcatori dovrebbero fornire uno o più indici per paziente con un significativo valore predittivo e, per avere questa loro caratteristica, devono essere legati a processi chiave propri delle patologie, prima che manifestino un’evidenza clinica. Pertanto individuando un buon biomarcatore non si vorrebbe solamente classificare i soggetti, ma si vorrebbe anche essere in grado di classificare un individuo con un quadro clinico sconosciuto o non ben definito, affermare se costui svilupperà la patologia e fornire un determinato intervallo temporale. Esistono biomarcatori, detti di stato, che, misurando indirettamente l’effetto cercato, descrivono lo stato della patologia; altri, detti predittivi, che, interpretati, riescono a predire l’evoluzione della patologia in esame e da cui si può ricavare una diagnosi per il soggetto che si intende classificare. 1.2 il segnale in “neuroimaging” In questo lavoro cercheremo di definire meglio come viene misurato, valutato ed estratto il segnale dalle immagini usate a scopi diagnostici. In particolare la patologia che verrà presentata è la malattia di Alzheimer (AD), essa è una patologia neurodegenerativa su cui, come chiariremo in seguito, sono stati condotti studi con diverse tecniche di generazione di immagine, dette tecniche di imaging come, ad esempio, la risonanza magnetica o la tomografia a emissione di positroni [6, 7]. Nel nostro lavoro verrà considerata una delle tecniche di neuroimaging più usate nella pratica clinica: la PET. La malattia di Alzheimer rientra tra i casi in cui la misura deve essere elaborata a partire da due gruppi clinici distinti; con tale procedimento si cercano, se sono presenti, le caratteristiche che accomunano e quelle che differenziano i diversi gruppi di soggetti, misurandole tramite vari indici e valutando con quale percentuale esse possono distinguere la popolazione nei gruppi di cui essa è composta, se questi indici sono legati a processi propri della patologia in esame, essi possono essere definiti biomarcatori. Affermare che con le stesse informazioni grazie le quali si suddividono i soggetti si possa attribuire efficacemente un individuo a un un gruppo piuttosto che ad un altro, non è banale e le difficoltà legate a questa affermazione verranno prese in esame in seguito. 1.2.1 1.2.1.1 FDG-PET: formazione del segnale Il principio fisico La PET è tra le tecniche diagnostiche che si basano sulla tomografia ad emissione, esse utilizzano processi di decadimento di isotopi radioattivi che sono utilizzati per marcare delle molecole dette trac- 1.2 il segnale in “neuroimaging” cianti o radiofarmaci. Queste molecole sono ingegnerizzate per legarsi ad un particolare processo biologico, del quale si vuole avere informazione. I traccianti vengono somministrati tipicamente per via endovenosa e vanno a interagire con processi biologici specifici. In questo frangente effettuare una misura significa rivelare la distribuzione del radiofarmaco all’interno del corpo; per questo i tempi di misura devono essere brevi rispetto ai tempi caratteristici del decadimento, ma lunghi rispetto alla cinetica legata ai processi biochimici, che guidano la diffusione del radiofarmaco. Nella PET (Positron Emission Tomography) il radionuclide legato al tracciante emette un positrone, come indicato nello stesso nome di questo metodo diagnostico; esso, nei tessuti organici, ha un cammino libero medio di circa 1 ∼ 2mm, dopo i quali annichila con un elettrone all’interno del corpo, emettendo, di conseguenza, due fotoni (γ) collineari di 0.511 Mev, come mostrato in figura 1. Figura 1: Decadimento del 18 F e successiva annichilazione di elettrone e positrone con emissione dei fotoni collineari Per produrre tale decadimento si usano isotopi a emivita breve prodotti da acceleratori: i più usati sono gli isotopi del fluoro e del carbonio 18 F,11 C. Nel metodo diagnostico che esamineremo l’emettitore è l’isotopo del fluoro: 18 F , esso è il radioisotopo più usato nella PET e decade β+ con un tempo di dimezzamento di 110 minuti: 18 9 F + →18 8 O+e +ν (1) Solitamente, viene coniugato con il glucosio in una molecola chiamata fluorodesossiglucosio (FDG), in questi casi la tomografia a emissione di positroni prende il nome di FDG-PET. L’FDG-PET permette di condurre un’analisi dell’attività delle strutture studiate, in quanto il fluorodesossiglucosio viene catturato in grande quantità dalle cellule con forte attività metabolica, ad esempio le cellule tumorali e i neuroni, e decadendo permette di tracciare la propria distribuzione nel corpo. 5 6 introduzione 1.2.1.2 Il sistema di rivelazione L’apparato sperimentale della PET è formato da un anello di scintillatori accoppiati a fotomoltiplicatori all’interno del quale viene fatto scorrere il lettino su cui è posizionato il paziente; scintillatori e fotomoltiplicatori rivelano simultaneamente le coppie di fotoni collineari, formati, come precedentemente accennato, dopo il decadimento β+ e l’annichilazione del positrone. La rilevazione simultanea dei fotoni si dice coincidenza e per comodità spesso si usa chiamare così il segnale stesso. Figura 2: Rivelazione di una coincidenza Come mostrato in figura 2, i fotoni collineari che raggiungono l’anello di rivelatori in coppia, con una finestra temporale di 10-20 ns, vengono rivelati, permettendo di ricostruire l’ipotetica traiettoria della coppia di fotoni emessi e di risalire alla posizione dei tessuti in cui è avvenuta l’annichilazione del positrone. Ricostruire la traiettoria dei fotoni nel corpo non è cosa semplice, in quanto vi sono più fattori di cui bisogna tenere conto per evitare di commettere errori, che inevitabilmente si ripercuotono nella ricostruzione delle immagini. Tra i suddetti fattori vi sono le possibili interazioni dei fotoni con il corpo, l’attenuazione, che dipende dal cammino dei γ nei tessuti, eventuali false coincidenze, che tratteremo dettagliatamente in seguito, e alcune caratteristiche legate all’apparato sperimentale. Quando il positrone annichila con uno degli elettroni del corpo, la traiettoria dei fotoni emessi può essere deviata: tale deviazione può 1.2 il segnale in “neuroimaging” essere dovuta allo scattering Compton2 e può essere una delle cause rivelate come false coincidenze, le quali possono portare a un degrado della qualità dell’immagine stessa. Un altro contributo non trascurabile all’errata ricostruzione delle immagini deriva dalla risoluzione spaziale dell’apparato sperimentale: i cristalli, avendo dimensione finita, hanno una risoluzione spaziale limitata, questo comporta che non si riesca ad individuare con precisione il punto in cui è avvenuta l’annichilazione tra elettrone e positrone nei tessuti, ma si individuino delle zone in cui si suppone che essa possa essere avvenuta tanto più piccole quanto migliore è la risoluzione spaziale dell’apparato. 1.2.1.3 La ricostruzione dell’immagine Le immagini realizzate con la PET hanno una risoluzione spaziale di circa 5 mm e sono create tramite algoritmi di ricostruzione come la Filtered Back Projection (FBP) 3 o con metodi iterativi, ad esempio l’Ordered Subset Expectation Maximization (OSEM) o il Simultaneous Iterative reconstruction (SIRT)4 [8, 9]. L’immagine tridimensionale viene realizzata giustapponendo una sequenza di immagini bidimensionali ottenute facendo scorrere il lettino su cui è posizionato il paziente all’interno dell’anello di rivelatori. Figura 3: Esempio di ricostruzione di un’immagine FDG-PET cerebrale 2 La diffusione Compton o effetto Compton è un fenomeno di scattering anelastico tra un fotone e un elettrone. 3 La FBP è l’algoritmo standard per la ricostruzione delle immagini CT, che può essere applicato anche alla ricostruzione delle immgini PET 4 Il concetto fondamentale della ricostruzione iterativa, basata su metodi di massima verosimiglianza, come nel caso dell’OSEM e del SIRT, è che la distribuzione di attività nella fetta d’immagine ricostruita, come viene usualmente chiamata nel campo dell’imaging, sia quella che ha la massima probabilità di produrre i dati di proiezione osservati. Poiché non è disponibile nessuna soluzione analitica, la ricostruzione dell’immagine deve essere effettuata con un processo iterativo 7 8 introduzione Usualmente l’immagine viene visualizzata su tre differenti piani spaziali sagittale, coronale e assiale o trasverso (immagine 4). Figura 4: I piani di spaziali di visualizzazione dell’immagine Il segnale derivato dalla PET , ovvero l’immagine, consiste di fatto in una matrice tridimensionale a valori scalari, le cui intensità sono proporzionali all’assorbimento del radiofarmaco nei tessuti. 1.3 il rumore nelle immagini pet Il rumore nella PET può derivare da diversi fattori: può essere dovuto all’elettronica e al campionamento dell’immagine, alle diverse efficienze degli scintillatori e dei fotomoltiplicatori, al fatto che possono non essere allineati perfettamente, o può derivare da artefatti dovuti a movimenti del paziente durante l’esame. Un’altra categoria di errori della PET sono quelli di ricostruzione dell’immagine stessa, i quali sono a loro volta dovuti a errori di ricostruzione della traiettoria dei fotoni nei tessuti, perché diffusi. Infine gli errori possono derivare da un processo iterativo di ricostruzione o a una FBP mal eseguiti, come mostra la figura 5: Figura 5: Esempio di immagine PET cerebrale con FBP mal eseguita Tutte le fonti d’errore sopra elencate fanno parte degli errori di acquisizione, ma i più consistenti per quanto riguarda la PET, sono gli errori relativi a un’errata acquisizione dei fotoni, detti false coincidenze. 1.4 il rumore in “neuroimaging” Nella seguente figura 6 ne riportiamo due esempi: Figura 6: False coincidenze La prima configurazione è fonte d’errore in quanto da uno stesso punto partono due eventi non collineari e quindi non dovuti all’annichilazione elettrone-positrone; essi, giungendo agli scintillatori nella finestra temporale impostata, vengono letti come un conteggio proveniente da un diverso punto del corpo. La seconda configurazione è fonte d’errore in quanto rappresenta due annichilazioni avvenute contemporaneamente in diversi punti del corpo. All’interno della finestra temporale impostata giungono agli scintillatori un fotone per annichilazione e l’apparato, rimanendo cieco ai fotoni seguenti, ricostruisce un’errata traiettoria. Tutti questi effetti sono ben noti e sono relativamente facili da caratterizzare, ad esempio, tarando la PET per mezzo di appositi fantocci; gli effetti dell’attenuazione si possono correggere affiancando alla PET una CT [10] in modo da derivare da essa i coefficienti di attenuazione dei tessuti, una volta applicati dei fattori correttivi, invece l’effetto della diffusione dei fotoni, a seguito dello scattering Compton, si può minimizzare eventualmente utilizzando dei collimatori, a discapito, però, di una perdita di conteggi. 1.4 il rumore in “neuroimaging” In una disciplina come la fisica la forma del segnale che si sta cercando è quasi sempre nota in quanto esiste una teoria a cui rifarsi che, fornendo una spiegazione sulle cause della formazione del segnale stesso, descrive le sue caratteristiche. Tuttavia, ogni volta che si effettua una misura, si registra, oltre al segnale, anche il rumore. Nel caso più semplice si tratta di rumore gaussiano, cioè additivo e indipendente dal segnale stesso, e, solitamente, si è in grado di pensare ad apparati che lo misurino. In altri casi, come nel campo della fisica delle particelle, il rumore è intrinsecamente legato alla natura del segnale che si sta misurando. Quando ciò accade, pur non essendo possibile una sua misura diretta, si è in grado di stimarlo tramite simulazioni e, questa possibilità, è data dal fatto che è nota la sua distribuzione statistica. 9 10 introduzione In entrambe le situazioni presentate, esistono procedure matematiche [11], che permettono di estrarre il segnale in maniera ottimale. In campo medico, come vedremo meglio nel secondo capitolo, non esiste una teoria che fornisca le caratteristiche del segnale che si sta cercando di individuare e il procedimento di ricerca dello stesso è inverso rispetto alla fisica. Poiché le cause della malattia, che è il segnale cercato, non sono note, ma spesso si conoscono i suoi effetti, in medicina esistono dei modelli che basano le loro ipotesi su diversi processi biologici che possono portare agli effetti osservati e, a posteriori, attraverso i risultati dell’analisi condotta, si stima la validità del modello ipotetico seguito. Oltre al fatto che non si conoscono la forma e le caratteristiche del segnale, in campo medico, il rumore non segue un modello statistico definito e si definiscono fonte di rumore tutte le perturbazioni non direttamente collegate con la patologia in esame e che non dipendono dall’osservatore [12]. Per orientarci in tutto questo è necessario differenziare i fattori confondenti da cui cerchiamo di estrarre il segnale, ad eccezione del rumore dovuto all’apparato, di cui si è trattato in precedenza, e che presenta le caratteristiche del rumore fisico. Per farlo dividiamo i vari fattori confondenti in categorie distinte, a seconda degli aspetti da cui derivano: 1. Rumore Fisiologico 2. Rumore legato al processo di elaborazione delle immagini 3. Rumore di Gold Standard 4. Rumore legato al modello clinico seguito 1.4.1 Rumore Fisiologico La seconda fonte d’errore presa in esame è il rumore fisiologico, esso è dovuto alle differenze interindividuali, non trascurabili, esistenti tra i pazienti. Non vi è modo di caratterizzarlo a priori in quanto tali differenze sono dovute al vissuto di ogni individuo che interviene sulla struttura e il metabolismo del cervello introducendo variazioni tra gli individui spesso maggiori di quelle che si vogliono quantificare [13]; per fornire alcuni esempi che semplifichino la comprensione al lettore possiamo citare: fattori genetici, ambientali o dovuti alla storia clinica dei soggetti. Anche selezionando un campione di individui il più simili possibile le differenze interindividuali rimarranno presenti, pertanto è necessario imparare a trattare questo fattore confondente e, nel seguito, introdurremo delle tecniche grazie alle quali esso viene ridotto. 1.4 il rumore in “neuroimaging” 1.4.2 Rumore dovuto al processo di Elaborazione delle Immagini Trattando dell’elaborazione del segnale in senso strettamente fisico si è visto che esiste una procedura ottimale per la sua caratterizzazione. In campo medico ciò non accade e bisogna scegliere la procedura da seguire e verificare a posteriori se le scelte fatte hanno infine portato all’individuazione del segnale cercato. Scegliere tra diverse procedure di elaborazione delle immagini significa selezionare una diversa parte dell’informazione, che non viene mai esaminata completamente. Questo comporta che, a priori, non si possa nemmeno sapere se la scelta fatta individui o escluda il segnale stesso e, per questo motivo, la verifica sull’efficienza della scelta riguardante la procedura di elaborazione va fatta a posteriori determinando, ad esempio, con quale percentuale si classificano i gruppi da cui si è partiti per l’individuazione dell’informazione. Cercare di massimizzare la percentuale con la quale si classificano i gruppi di soggetti paragonati per individuare il segnale è, in effetti, un metodo per verificare la bontà della procedura scelta e, consapevoli del fatto che ogni diversa procedura introduce un errore, esistono studi, detti studi di metanalisi, che permettono di analizzare e confrontare una serie di processi, consentendo una sintesi quantitativa dei risultati. 1.4.3 Rumore di Gold Standard Come accennato nei precedenti paragrafi il segnale in neuroimaging viene dedotto comparando immagini di gruppi di soggetti con un quadro clinico noto: tipicamente vengono confrontati soggetti che non presentano la patologia in esame e soggetti affetti da tale patologia. In questo modo il segnale dipende fortemente dalle scelte fatte per la selezione dei gruppi e, se i pazienti non sono propriamente selezionati, l’intera analisi può essere pregiudicata. Il rumore di Gold Standard è legato alla scelta dei criteri di selezione dei soggetti nei gruppi che vengono confrontati per l’individuazione del segnale: idealmente questi gruppi dovrebbero essere omogenei rispetto allo stato clinico dei soggetti, in altre parole all’interno del gruppo di soggetti affetti dalla patologia in esame bisognerebbe essere certi che non vi siano soggetti non affetti da tale patologia e viceversa. Nella pratica clinica e, in particolare per quanto riguarda le patologie neurodegenerative, l’omogeneità dei gruppi può non essere accertata, considerando i molti fattori confondenti presenti, che comportano una grande difficoltà diagnostica. Quand’anche la selezione degli individui venga effettuata in modo accurato, si deve tenere conto della continua evoluzione della diagnosi, in quanto la comparsa di eventuali nuovi sintomi potrebbe portare a una diversa conclusione diagnostica che influirebbe sulla corretta attribuzione del singolo sog- 11 12 introduzione getto al suo gruppo di appartenenza. Un altro importante elemento riguarda la sensibilità dei biomarcatori e dei test clinici rispetto all’età dei soggetti [14, 15]: come precedentemente specificato, il segnale identificato per mezzo dei biomarcatori è una misura indiretta che permette di quantificare lo stato clinico dei soggetti e in base a questo classificarli, l’età è uno dei fattori confondenti nel caso delle malattie neurodegenerative in quanto i biomarcatori legati alla neurodegenerazione non distinguono le cause di quest’ultima che chiaramente possono non essere derivate dalla patologia ma dall’invecchiamento; questo comporta una rilevante diminuzione della sensibilità dei test, come dei marcatori, in età avanzata; come ultimo aspetto, si consideri che nei gruppi di individui: quello costituito da soggetti non affetti dalla patologia in esame e quello costituito da soggetti affetti da tale patologia, non si tiene conto, oltre che alla variabilità dovuta alle infinite differenze tra i pazienti, nemmeno di una eventuale comorbidità che, come nel caso dell’età, influisce sulla sensibilità dei test e sull’efficacia diagnostica dei biomarcatori. Per cercare di minimizzare il rumore Gold Standard si fa in modo che la numerosità dei gruppi di controllo permetta di avere delle misure statisticamente significative e i trial vengono condotti in più centri contemporaneamente (studi multicentrici); confrontando i risultati si ha un doppio vantaggio: si riesce a minimizzare l’effetto confondente derivato dall’ambiente in cui viene condotto il trial e si aumenta la statistica, ma spesso a discapito della significatività dell’indicatore. Ciò avviene se la variabilità tra i gruppi dei diversi centri è maggiore della variabilità dei singoli gruppi e, per questo motivo, per effettuare studi multicentrici e fare in modo che questo diminuisca i fattori confondenti, la chiave è avere soggetti ben confrontabili trattati seguendo dei protocolli nella preparazione del paziente, ad esempio tramite una dieta , durante l’esecuzione dell’esame, ad esempio per quanto riguarda la durata dell’esame stesso, e per la ricostruzione delle immagini [12]. 1.4.4 Rumore dovuto al Modello assunto per descrivere la Patologia Questo fattore confondente è l’ultimo preso in esame; il modello assunto per descrivere la patologia influenza chiaramente i criteri di selezione adottati per la creazione dei gruppi da comparare per estrarre l’informazione cercata, quindi, scegliendo un modello piuttosto che un altro, si agisce indirettamente sul rumore di Gold Standard. Inoltre la scelta di un modello introduce un ulteriore errore legato alla possibile interpretazione che si dà dei biomarcatori: diverse interpretazioni portano a considerare diversi aspetti della patologia, quindi uno stesso biomarcatore nell’ambito di due teorie diverse può avere andamenti diversi e chiaramente un diverso valore diagnostico. 1.4 il rumore in “neuroimaging” I grafici seguenti (figura 7) mostrano due diversi modelli teorici ipotetici degli andamenti che avrebbero i marcatori, a seconda della scelta del modello molecolare assunto per descrivere le cause delle neurodegenerazione. Il segnale può crescere o decrescere con l’avanzare della patologia e dell’età. Figura 7: Un esempio dei diversi andamenti qualitativi di biomarcatori legati alla neurodegenerazione [16, 17] Il fatto che le curve che descrivono l’andamento atteso dei biomarcatori sono continue e derivabili in funzione dell’avanzare della patologia e dell’età dei soggetti, è chiaramente una semplificazione, che deriva da un’ipotesi formulata a priori, questo rende più semplice trarre conclusioni in merito al potere predittivo dei biomarcatori stessi e permette di formulare una previsione temporale riguardante l’evolversi della patologia studiata. Nella nostra analisi non terremo conto del fattore confondente introdotto dal modello teorico che si basa su una delle ipotesi ad oggi più accreditate nell’ambito delle patologie neurodegenerative, detta Cascata Amiloide [17]; esso verrà ripreso più esaurientemente in seguito. 13 2 RICERCA E ESTRAZIONE DEL SEGNALE 2.1 2.1.1 caso di studio: misura della neurodegenerazione legata alla malattia di alzheimer Alzheimer e Mild Cognitive Impairment Recenti studi affermano che circa 24 milioni di individui al mondo sono affetti da demenza e che la maggioranza di questi soggetti presenta proprio la malattia di Alzheimer, che è una delle sue forme più comuni [18]. Nonostante la prima descrizione di questa patologia risalga al 1906 [19], solo di recente sono stati definiti criteri diagnostici, che includono l’utilizzo di biomarcatori (2007-2015) [20, 21, 22]. Il principale motivo legato a questo maggiore interesse è dovuto al suo enorme impatto socioeconomico [23] poiché i soggetti che ne sono affetti hanno un’autonomia limitata e necessitano di assistenza da parte dei familiari e dell’intera società. Ancora oggi molte delle caratteristiche della malattia di Alzheimer rimangono ignote in quanto le evidenze cliniche legate ai suoi primi stadi sono qualitative ed essa ha una maggiore incidenza nei soggetti anziani. Inoltre, se un soggetto è molto anziano, i test clinici in uso hanno una minore sensibilità [24]. La più essenziale e frequente manifestazione di questa patologia è una perdita di memoria selettiva che può essere confusa con semplici disturbi dell’attenzione attribuibili anche a stress, generale affaticamento o depressione. Oltre a quanto detto possono manifestarsi altri sintomi come afasia, disorientamento, aprassia, alterazioni comportamentali ed emozionali ed atarassia, può venir meno anche la memoria a lungo termine e possono essere compromesse le capacità semantiche dei soggetti. Poiché non si conoscono i meccanismi biochimici causa della malattia di Alzheimer, ma sono noti alcuni dei meccanismi secondari che la riguardano, le terapie in uso sono volte ad intervenire su quest’ultimi e il loro effetto è quello di ritardare i sintomi e, in generale, il decorso della patologia. Il fatto che tali terapie siano più efficaci nelle prime fasi della patologia rende evidente il bisogno di aumentare le nostre conoscenze riguardo la sua patogenesi individuando marcatori che, affiancati alle valutazioni cliniche già in uso, permettano di anticiparne la diagnosi e sviluppare nuovi trattamenti. 15 16 ricerca e estrazione del segnale Un buon esempio di quanto appena detto è rappresentato dalla maggiore attenzione rivolta alle diverse tecniche di neuroimaging, che sono in grado di fornire informazioni morfologiche e funzionali, come l’FDG-PET, spianando, così, la strada alla ricerca di una stima quantitativa dei fenomeni biologici complessi che riguardano la neurodegenerazione. L’eziologia della maggior parte delle patologie neurodegenerative non è accertata in modo definitivo. Negli ultimi anni le terapie per la malattia di Alzheimer si sono concentrate principalmente nel tentativo di ridurre i livelli di beta amiloide [25], che consiste nella deposizione in sede extracellulare di materiale proteico. L’amiloide viene prodotta quando una proteina notevolmente più grande, detta Amyloid Precursor Protein (APP) viene scissa, quindi il materiale proteico si accumula in forma di placche nella parte esterna delle cellule nervose. I depositi di amiloide sono ritenuti essere tossici e causano danni alle cellule nervose molti anni prima dell’esordio della demenza. È importante sottolineare che la deposizione di amiloide non è così fortemente correlata con la cognizione, che è strettamente legata ad un altro tratto distintivo della malattia di Alzheimer, nel quale si rileva la presenza di ammassi di una proteina detta tau [25]. Sebbene tale proteina venga normalmente prodotta dalle cellule nervose, nella malattia di Alzheimer ne viene prodotta una variante abnorme che, non funzionando correttamente, causa la formazione di ammassi neurofibrillari all’interno dei neuroni, che conseguentemente muoiono. Gli ammassi neurofibrillari, la perdita sinaptica e neuronale sono, invece, strettamente associati ai deficit di memoria, infatti, la manifestazione macroscopica della morte di un numero significativo di cellule nervose è una variazione nella densità dei tessuti e, se tale fenomeno è esteso, il soggetto inizia a presentare disfunzioni cognitive. La possibilità di ricercare evidenze di queste alterazioni ancora in assenza di sintomi clinici è alla base del neuroimaging e il grande interesse rivolto alle fasi precliniche della malattia di Alzheimer si è tradotto nella recente definizione di una nuova categoria clinica detta “Mild Cognitive Impairment” (MCI). È stata introdotta per definire la fase sindromica in cui il deficit cognitivo, misurabile da appositi test neuropsicologici, non è legato alla presenza di neurodegenerazione o a malattie cerebrali. Nel caso in cui il soggetto MCI evolva in AD, questa condizione rispecchia una fase di transizione tra il normale invecchiamento e la demenza [26] e si riferisce a una popolazione di soggetti che sono parzialmente compromessi nella loro quotidianità da un deficit cognitivo subclinico1 . 1 Dicesi di ogni fenomeno patologico che non manifestandosi con segni o sintomi obiettivi, in quanto in fase precoce o in forma lieve, sfugge all’esame clinico e può essere scoperto con indagini di laboratorio o strumentali. 2.1 caso di studio: misura della neurodegenerazione legata alla malattia di alzheimer Le caratteristiche del deficit di memoria riscontrato in questa categoria di soggetti sono più simili a quelle riscontrate nei soggetti affetti dalla malattia di Alzheimer che negli individui non affetti [27], mentre il funzionamento cognitivo generale è più vicino a quello dei controlli che non a quello degli AD [28, 29]. Per questo si suppone che i soggetti che hanno sviluppato una forma di demenza abbiano attraversato, in precedenza, una fase di compromissione cognitiva lieve caratterizzata da un maggiore danneggiamento dell’area del cervello legata alla memoria; tale supposizione è alla base della definizione di MCI. Poiché i soggetti MCI possono evolvere in differenti tipi di demenza (AD, demenza vascolare, demenza fronto-temporale, afasia progressiva primaria, demenza a corpi di Lewy) o possono rimanere stabili, è molto importante classificare e caratterizzare accuratamente le diverse categorie di individui che lo presentano e, a questo proposito, se ne individuano diverse varianti: solo il 50% dei soggetti affetti da MCI evolvono in AD e sono detti MCI converter (MCI-co), se, invece, rimangono stabili o evolvono verso altre forme di demenza sono detti MCI non converter (MCI-nc) [30]. Nonostante l’interesse riguardo le prime fasi della malattia di Alzheimer che spiega anche l’importanza della definizione di criteri diagnostici per individuare i soggetti MCI, quest’ultimi mancano di specificità [31]. Pertanto la combinazione di informazioni cliniche, biologiche, biochimiche e derivate dalle tecniche di neuroimaging correlate alla patogenesi dell’Alzheimer, potrebbe portare a un miglioramento diagnostico anche nei riguardi di questa categoria di individui e, in questo contesto, le ricerche si focalizzano sullo sviluppo di sofisticati metodi di analisi atti a estrarre informazioni clinicamente rilevanti per una stima quantitativa di questo stato. 18 ricerca e estrazione del segnale 2.1.2 Il modello di neurodegenerazione: “Cascata Amiloide” Il modello biologico di neurodegenerazione ad oggi più accreditato è quello della “Cascata Amiloide” [32]. Questa ipotesi suggerisce che il dismetabolismo della proteina APP, che porta alla formazione delle placche amiloidi, sia la causa principale della patogenesi della malattia di Alzheimer. I depositi di amiloide disturbano il trasporto degli impulsi nervosi attraverso l’assone2 , tutto ciò induce la morte delle cellule nervose e variazioni delle funzionalità sinaptiche che portano a una disfunzione cognitiva del soggetto che ne è affetto. Figura 8: Nella figura è riportata la catena di eventi e alterazioni biochimiche che portano alla demenza secondo il modello teorico detto Cascata Amiloide A partire da questo modello si possono pensare meccanismi di attuazione dei processi biochimici, misurabili per studiare lo sviluppo dell’Alzheimer e che quantifichino lo stato della patologia. 2 L’assone è una parte del neurone ed ha il ruolo di trasportare gli impulsi nervosi 2.1 caso di studio: misura della neurodegenerazione legata alla malattia di alzheimer Ogni curva del seguente grafico 9 rappresenta il possibile andamento qualitativo, dalla condizione di normalità sino alla demenza, dei diversi aspetti presi in esame. Figura 9: La figura mostra l’andamento qualitativo, dalla condizione di normalità sino alla demenza, dei diversi biomarcatori che forniscono la misura indiretta della neurodegenerazione. Nella prima parte del grafico si tiene conto di processi che intervengono prima della comparsa dei sintomi cognitivi (fase preclinica) legati alla chimica e alla biologia dei processi cerebrali che quantificano il deposito di amiloide nei tessuti, al dismetabolismo e alla variazione della volumetria e della densità dei tessuti che si verifica quando i neuroni iniziano a morire. Nella seconda parte del grafico le curve descrivono il decremento delle capacità cognitive dei soggetti (fasi clinica) Le curve descrivono possibili aspetti della neurodegenerazione legati a diversi processi biochimici e suggeriscono di utilizzare varie tecniche diagnostiche, in quanto ognuna di esse è sensibile a uno di questi aspetti. Nella prima parte del grafico si tiene conto di processi che intervengono prima della comparsa dei sintomi cognitivi; le interpretazioni dei biomarcatori, in questa fase, sono legate alla chimica e alla biologia dei processi cerebrali, attraverso i quali si quantifica il deposito amiloide nei tessuti[33, 34], sono legate al metabolismo, attraverso cui si quantifica la progressiva disfunzione neuronale, misurando il consumo di glucosio [35] da parte delle cellule cerebrali e, quando le cellule iniziano a morire, sono legate alla variazione della volumetria e della densità dei tessuti [36]. Questi cambiamenti costituiscono la fase della patologia detta preclinica e si possono individuare rispettivamente con analisi del liquido cerebrospinale (CSF), la PET Amilode, la FDG-PET e la MRI. Le restanti misure dei marcatori descrivono il decremento delle capacità cognitive dei soggetti che viene quantificato attraverso specifici test neuropsicologici; questa fase della patologia è detta fase clinica. 20 ricerca e estrazione del segnale Il passaggio dalla fase preclinica a quella clinica avviene in un arco di tempo che copre circa vent’anni, arrivata alla fase clinica il decorso dei processi neurodegenerativi diviene molto rapido: nell’arco di circa 5 anni. 2.1.3 La misura della neurodegenerazione Facendo fede al modello appena descritto, cerchiamo misure di neurodegenerazione che possano fornirne una stima quantitativa in modo da individuare, tra le altre, la malattia di Alzheimer nelle sue fasi precliniche. Abbiamo esaminato dei marcatori affrontando il problema da un punto di vista fisico: in questo contesto la malattia è stata trattata come segnale da discriminare rispetto al rumore, rappresentato da tutti gli effetti presenti in assenza di una patologia. Il compito dei processi di elaborazione d’immagine è, quindi, quello di contribuire a produrre una diagnosi nelle prime fasi della neurodegenerazione: si vorrebbe, in pratica, identificare una misura in grado di discriminare i soggetti non affetti dalla patologia da quelli affetti, già durante la fase preclinica, che sia facile da eseguire e possibilmente basata su procedure comunemente utilizzate nella pratica ospedaliera. Deve essere possibile, inoltre, definire marcatori accurati e consistenti, clinicamente significativi e con un buon valore predittivo che quantifichino la neurodegenerazione. La forma con cui la neurodegenerazione si presenta nei soggetti affetti non è conosciuta e, per portare avanti l’analisi, si è soliti fare le seguenti assunzioni: 1. La neurodegenerazione è un segnale continuo e si individua nei soggetti prima che presentino una condizione patologica. 2. La neurodegenerazione dovuta alla patologia si aggiunge a quella dovuta al normale invecchiamento. 3. La patologia si manifesta seguendo uno schema riconoscibile nei soggetti. 4. Il segnale si può individuare e quantificare in ogni singolo soggetto affetto dalla patologia. 5. La quantità che si individua è proporzionale allo stato patologico. 2.1.4 L’interpretazione del biomarcatore nell’FDG-PET Il cervello utilizza il glucosio come risorsa di energia [37] e il metabolismo del glucosio è strettamente legato al funzionamento dei neuroni sia a riposo che nella loro fase di attivazione. 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale Acquisendo un’immagine FDG-PET mentre i soggetti non sono impegnati in nessuna particolare attività, la distribuzione del glucosio nelle cellule cerebrali è primariamente determinata dall’attività neuronale basale3 e rappresenta lo stato di salute dei neuroni [38]. Con la misura del consumo di glucosio e del flusso sanguigno si identificano regioni con una ridotta funzionalità sinaptica, piuttosto che neuronale: condizione che precede la morte delle cellule cerebrali e caratteristica della fase preclinica della patologia. L’impiego dei radionuclidi rende l’FDG-PET un metodo diagnostico piuttosto invasivo e il suo utilizzo deve essere cauto e ben legittimato da alti valori di sensibilità e specificità4 ; l’ipometabolismo regionale che si misura con l’FDG-PET ha un’alta sensibilità nel distinguere soggetti AD da quelli non affetti dalla patologia e anche a discriminare individui ad alto rischio di sviluppare l’Alzheimer da individui non a rischio, ma ha una bassa specificità [39] in quanto la presenza di un ridotto consumo di glucosio da parte delle cellule cerebrali è un sintomo proprio anche di altre patologie neurodegenerative [40]. Nella fase preclinica dell’AD l’utilizzo dell’FDG-PET, a causa della sua bassa specificità, è ancora limitato all’ambito della ricerca, ma diversi studi [41] mostrano che il danneggiamento sinaptico che precede la morte delle cellule cerebrali avviene nelle primissime fasi della patologia e, se individuato, può portare a una diagnosi estremamente precoce della stessa. In questo contesto l’FDG-PET è uno strumento che, unito alle valutazioni cliniche e ai test neuropsicologici, può contribuire ad aumentare la probabilità di individuare l’Alzheimer. 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale L’analisi visiva Nonostante il largo utilizzo delle tecniche di imaging, che forniscono immagini dalle quali si possono ricavare indicazioni morfologiche e funzionali utili per diagnosticare le patologie cerebrali, le informazioni a disposizione dei clinici sono limitate se essi utilizzano la sola analisi visiva per formulare una diagnosi. L’uso di una scala visiva per la classificazione delle immagini è qualitativo, veloce e largamente applicabile, ma diminuisce grandemente il potere diagnostico di queste tecniche aumentando il rischio di commettere errori, soprattutto nell’individuare le fasi iniziali dei processi neurodegenerativi. Inoltre non è adatta a esaminare in modo affidabile un grande numero di immagini e, come precedentemente 3 Il metabolismo basale è il dispendio energetico di un organismo a riposo. 4 con sensibilità si indica la capacità intrinseca di un test di individuare in una popolazione di riferimento i soggetti malati. Tale concetto si contrappone a quello di specificità cioè la capacità del test di individuare come negativi i soggetti sani. 21 22 ricerca e estrazione del segnale sottolineato, parte dei sintomi propri dell’AD non sono specifici di questa patologia; quindi la sola immagine non è un indicatore diretto dell’Alzheimer e dei suoi stadi preclinici. Per sfruttare a pieno le potenzialità delle tecniche diagnostiche di imaging è necessario mettere a punto un processo automatico e quantitativo che possa classificare lo stato neurodegenerativo di un nuovo soggetto eliminando le limitazioni insite nell’analisi visiva. Il processo automatico Un algoritmo automatico che fornisca una stima dei biomarcatori aventi alta sensibilità nell’individuare la neurodegenerazione deve essere in grado di gestire gli effetti confondenti trattati nel capitolo precedente: il segnale cercato è completamente nascosto dalle disomogeneità dovute a un diverso orientamento delle immagini nello spazio, a una diversa normalizzazione della loro intensità e alle differenze interindividuali dei soggetti. Visto che il segnale viene definito comparando gruppi di soggetti già clinicamente classificati, lo prima fase del processo automatico è rendere le immagini comparabili. Per rendere le immagini tra loro confrontabili, un processo automatico segue tipicamente alcuni passaggi: il primo passo è detto quality check ed è necessario per eliminare dall’analisi le immagini troppo rumorose e con artefatti da movimento evidenti, effetti dovuti al rumore di acquisizione. Per individuare un biomarcatore affidabile si ha, infatti, bisogno che la qualità delle immagini utilizzate sia alta. Il secondo passo coinvolge tutti quei processi che rendono possibile effettuare sulle immagini una solida analisi statistica ed è la normalizzazione. Essa coinvolge una fase di normalizzazione spaziale, che consiste nel fare in modo che le strutture anatomiche delle immagini risultino ben allineate; tale processo aiuta a individuare le differenze tra le i diversi soggetti. Un’altra fase del processo di normalizzazione è la normalizzazione dell’intensità che ha lo scopo di uniformare i valori dei livelli di grigio delle immagini in particolare strutture di riferimento. Nell’FDG-PET l’intensità delle immagini può essere molto diversa da individuo a individuo, per esempio a causa delle differenze metaboliche di ogni soggetto. Tramite la normalizzazione, si fa in modo di assicurare un’uniformità delle varie immagini trattate. Dopo queste prime fasi vi sono diverse possibili scelte da valutare per l’estrazione dei biomarcatori: uno dei processi più utilizzati consiste nell’individuare le zone di maggior interesse e si chiama Feature Selection: esso si basa sull’assunzione che l’informazione cercata non sia contenuta in tutti i dati esaminati, ma che parte di essi siano ridondanti e parte irrilevanti o addirittura confondenti. A questo punto dell’analisi i fattori confondenti dovuti alla variabilità tra i soggetti sono ridotti e si è pronti a passare alla classificazione: 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale un algoritmo appropriato deve essere testato per verificare la sua efficacia nel classificare nuovi soggetti: esso deve essere in grado, a partire dalle caratteristiche dei soggetti noti, di dividere nuovi individui secondo le loro categorie di appartenenza. Al termine di tutto questo è possibile attribuire a un’immagine una quantità, cioè l’output del classificatore scelto, in grado di fornire un’informazione significativa riguardo al nuovo soggetto e il suo stato neurodegenerativo. I passaggi elencati verranno presentati e discussi in dettaglio nel terzo capitolo della trattazione. 2.2.1 2.2.1.1 Strumenti per la selezione delle immagini L’ADNI Preliminarmente al processo di elaborazione di immagini bisogna provvedere alla loro selezione. Questa prima scelta influirà sui passi successivi del processo di analisi che si intende implementare, poiché, con essa, si introducono il rumore fisiologico, il rumore di Gold Standard e il rumore dovuto all’acquisizione delle immagini stesse: le fonti di rumore saranno tanto minori quanto più accuratamente sarà effettuata questa fase dell’intero processo. Le immagini utilizzate per l’analisi sono state selezionate da un database pubblico del Alzheimer’s Disease Neuroimaging Initiative (ADNI)5 [16]. I ricercatori coinvolti in questo progetto raccolgono e validano immagini MRI e PET, informazioni genetiche, test cognitivi e altri biomarcatori, in modo che possano essere utilizzati come indici di predizione dell’AD, tutti provenienti da diversi centri ospedalieri del Nord America. Gli studi condotti includono pazienti con Alzheimer, soggetti MCI e persone anziane facenti parte del gruppo di controllo. Tale iniziativa, partita nel 2005, è, ad oggi, la più grande collezione di immagini e altri dati sulla neurodegenerazione e la malattia di Alzheimer esistente e permette di sfruttare studi multicentrici diminuendo così il rumore di Gold Standard. Al 2013 all’interno del database dell’ADNI erano registrati 229 soggetti anziani sani, 398 MCI e 192 pazienti AD che sono stati seguiti per 2 o 3 anni. La scelta dei gruppi: Controlli, AD e MCI-co I soggetti inclusi nella nostra analisi sono divisi in due gruppi: il primo formato da pazienti di cui conosciamo la valutazione clinica, da utilizzare per ottimizzare la procedura scelta, e un altro di soggetti MCI con cui testare la sua efficienza. 5 Tutte le informazioni collezionate nel http://www.loni.ucla.edu/ADNI/Data. database sono fruibili sul sito 23 24 ricerca e estrazione del segnale Il gruppo usato per ottimizzare il processo, formato equilibrando la percentuale di uomini e donne, consiste di 137 soggetti non affetti dalla malattia di Alzheimer, detto gruppo di controllo, e di 81 AD, quello usato per testare l’efficienza del processo è composto da 86 soggetti definiti MCI al tempo dell’analisi FDG-PET esaminata e convertiti in AD entro due anni dalla stessa, quindi definibili a posteriori MCI-co. Tutti i soggetti sono stati scelti in modo che le informazioni (esami diagnostici e metadati) ad essi relative siano complete per poterli comparare confrontando eventualmente altri dati oltre le immagini FDG-PET. Uno degli indici utilizzati per la selezione è il Mini Mental Score Examination (MMSE), che è uno dei più comuni test neuropsicologici usati per valutare la presenza e lo stadio dell’Alzheimer nella fase clinica; il punteggio di questo test va da 0 a 30, dove 30 è il punteggio tipico di un soggetto appartenente al gruppo di controllo. 2.2.2 2.2.2.1 Strumenti per la normalizzazione delle immagini Normalizzazione spaziale La Normalizzazione spaziale, detta anche co-registrazione di immagini, si riferisce al processo di stima di una trasformazione spaziale T che mappi i punti appartenenti all’immagine che si vuole registrare (immagine mobile) sui punti di un’immagine di riferimento (immagine fissa o template) permettendo di sovrapporle con diversi gradi di similarità, a seconda della trasformazione usata [42]. Questo concetto è schematicamente rappresentato in figura 10 Figura 10: Nella figura è rappresentata schematicamente l’idea alla base del processo di registrazione d’immagini, nel quale si individua una trasformazione spaziale che mappa i punti di un’immagine sulle corrispondenti posizioni di un’altra sino alla loro completa sovrapposizione La co-registrazione è una tecnica ampiamente utilizzata per molte applicazioni tra cui, ad esempio, la creazione di immagini panoramiche, la microscopia, la robotica e, ovviamente, l’imaging medico. Per la diversità delle immagini che devono essere co-registrate e per 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale le molteplici situazioni in cui è richiesta la co-registrazione, non esiste un metodo universale applicabile e, per affrontarla, è divenuta standard la seguente suddivisione in sotto-problemi distinti: 1. Stima della trasformazione 2. Misura della distanza tra le immagini 3. Interpolazione 4. Ottimizzazione I vari componenti della registrazione e le loro relazioni sono mostrate in figura 11 Figura 11: schema tipico del processo di co-registrazione ne quale si individuano due immagini di input, una trasformazione, una metrica, un interpolatore e un ottimizzatore L’immagine 11 rappresenta uno schema in cui si vede l’ordine in cui vengono affrontati i sottoproblemi esposti. Per prima cosa sono riportati i dati di input, cioè l’immagine mobile e la fissa, la prima da co-registrare sulla seconda. Registrare due immagini significa di fatto rendere minore possibile la loro distanza e per farlo si utilizza una trasformazione. Se è parametrica il problema si riduce a trovare il minimo in uno spazio di dimensioni uguali al numero dei parametri della trasformazione stessa e, in questo contesto la distanza utilizzata ha un ruolo rilevante. Se, invece la trasformazione utilizzata è deformabile, lo spazio in cui si opera ha dimensioni infinite e la distanza utilizzata non basta. Tratteremo questo concetto più dettagliatamente in seguito. La parte più delicata per trovare la migliore sovrapposizione delle immagini è la metrica, per questo motivo, ci soffermiamo su questo punto. La scelta del tipo di distanza da utilizzare dipende fortemente dal tipo di registrazione che si deve effettuare: alcune sono adatte per immagini acquisite con la stessa modalità, mentre altre per modalità diverse. Il metodo da noi utilizzato per la registrazione si basa sull’intensità delle immagini ed è quello più utilizzato in letteratura [42]. 25 26 ricerca e estrazione del segnale Non esiste una regola a priori per decidere la funzione distanza da utilizzare, tra le più usate vi sono la Somma dei quadrati delle differenze delle intensità, il cui acronimo deriva dall’espressione inglese Squared Sum Difference (SSD), il Coefficiente di cross-correlazione (CC) e la Mutual Information (MI), in quanto si sono rivelate più versatili ed efficienti dal punto di vista dei risultati ottenuti. Nella seguenti formule 2, 3 e 4, Ai indica l’intensità dell’i-esimo punto dell’immagine fissa e Bi indica l’intensità del punto corrispondente al primo nell’immagine mobile. T indica la trasformazione utilizzata e, infine, N è il numero complessivo di punti delle immagini. La SSD calcola la media della somma dei quadrati delle differenze delle intensità tra coppie corrispondenti di punti delle immagini da co-registrate. SSD ( A, B) = 1 N N ∑ ( Ai − BiT )2 (2) i =1 Per questo motivo le intensità delle immagini stesse devono essere compatibili e questo accade se si visualizza lo stesso processo chimico biologico e se la scala utilizzata per l’intensità è la stessa. Quindi la SSD è utilizzata per co-registrazioni di immagini che condividono la stessa modalità (intra-modality) e soprattutto aventi valori di intensità compatibili [43, 44]. Quando le due immagini, fissa e mobile, sono allineate il valore della correlazione raggiungerà il suo massimo, pertanto determinando il valore massimo di CC si individua la trasformazione ottimale. CC ( A, B) = q ∑iN=1 (( Ai − A)( BiT − B)) ∑iN=1 ( Ai − A)2 ∑iN=1 ( BiT − B)2 (3) Nella formula Ā e B̄ indicano i valori medi delle intensità delle immagini dell’immagine A e B. Il coefficiente di cross-correlazione, come già la metrica SSD, è utilizzato per co-registrazioni intra-modality [45] anche nel caso in cui le intensità delle immagini da registrare non siano compatibili. La Mutual Information calcola l’informazione in comune tra due immagini A e B, misurando l’informazione di una variabile casuale, ad esempio l’intensità dell’immagine mobile, rispetto ad un’altra variabile casuale come l’intensità dell’immagine fissa [46]. I ( A, B) = H ( A) + H ( B) − H ( A, B) (4) 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale Essa è definita in termini di entropia di Shannon: H ( A) ≡ Z p A ( a)log( p A ( a))da (5) Intuitivamente misura l’informazione che l’immagine fissa e la mobile condividono, cioè quanto la conoscenza di una di queste riduce la nostra incertezza riguardo all’altra. Se le due immagini sono indipendenti, allora la conoscenza dell’immagine mobile non dà alcuna informazione riguardo alla fissa e viceversa, perciò la loro mutua informazione è zero. All’altro estremo, se sono identiche allora tutte le informazioni trasmesse dalla prima sono condivise con la seconda. Quindi, quando le due immagini sono allineate, il valore della MI raggiungerà il suo massimo. Il vantaggio maggiore che si ha nell’usare la MI è che non c’è bisogno di specificare la forma di dipendenza tra le variabili e ciò la rende adatta alla co-registrazione multimodale. In linea di principio tutte le metriche dovrebbero dare lo stesso risultato. Nella pratica alcune sono più adatte di altre e ciò non dipende dal processo di registrazione, ma dalle caratteristiche intrinseche delle immagini da registrare. Classi di Trasformazione per la Co-registrazione Una distinzione fondamentale tra le diverse tecniche di co-registrazione è quella fra tecniche che fanno uso di trasformazioni basate su modelli rigidi e quelle che, invece, si basano su modelli deformabili. La Trasformazione Affine In questa classe di trasformazioni le nuove coordinate sono trasformazioni lineari delle coordinate originali. Nel nostro lavoro abbiamo utilizzato il modello affine [47], una trasformazione a 12 parametri che coinvolge traslazioni, rotazioni e la scalatura dell’immagine mobile perché essa combaci con il template, preservando il parallelismo, ma non distanze ed angoli. Quindi linee rette dell’immagine mobile vengono mappate su linee rette dell’immagine fissa. Solitamente si esprime utilizzando le coordinate omogenee: x2 y2 x1 =A +B y1 A seconda delle matrici A e B si ottengono traslazioni pure (6) 27 28 ricerca e estrazione del segnale b1 1 0 A= ; B = 0 1 b2 (7) 0 cos ( θ ) − sin ( θ ) A= ;B = sin(θ ) cos(θ ) 0 (8) rotazioni pure oppure stiramenti 0 a 0 11 A= ;B = 0 a22 0 (9) Il modello affine rientra nelle classi di trasformazioni parametriche e, essendo a 12 parametri, applicarla per effettuare la co-registrazione di immagini, significa ricercare il minimo della distanza scelta in uno spazio a 12 dimensioni. In questo contesto la distanza per la ricerca del minimo riveste un ruolo importante nel processo di registrazione e, come illustrato nel terzo capitolo, per scegliere quella che meglio si presta alla nostra analisi abbiamo effettuato varie prove. La trasformazione Deformabile Questa classe di trasformazioni, oltre alle operazioni consentite dalle trasformazioni affini, permette di deformare l’immagine mobile. Lo spazio in cui si opera utilizzandola è a infinite dimensioni e l’operazione di ricerca del minimo della metrica non basta per effettuare la registrazione, ma è necessario aggiungere ulteriori termini di regolarizzazione. Quindi quando si applica una trasformazione deformabile oltre a scegliere la metrica, che al contrario di prima, non è di fondamentale importanza, si sceglie una classe di trasformazioni. 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale Per la nostra analisi abbiamo scelto un modello diffusivo, che introduciamo brevemente e semplicemente utilizzando un’analogia con i Demoni di Maxwell. Figura 12: La figura mostra l’azione dei Demoni di Maxwell su un gas composto da due differenti specie chimiche (a e b), in una scatola divisa da una membrana in due porzioni (A e B). Il concetto dei demoni fu introdotto da Maxwell nel diciannovesimo secolo per illustrare un paradosso termodinamico (vedi figura 12). Si assuma di avere un gas composto da due tipi di molecole: a e b, separati da una membrana semipermeabile. Si assuma, inoltre, che questa membrana contenga dei “demoni” in grado di distinguere i due tipi di particella e che essi permettano alla particella di tipo a di diffondere solo verso il lato A e a quella b di diffondere solo verso il lato B. La configurazione finale, mostrata nella seconda figura dell’immagine 12, ha un’entropia inferiore di quella iniziale e questo è in contrasto con il secondo principio della termodinamica. Il paradosso si risolve in quanto i demoni generano una grande quantità di entropia riconoscendo le particelle e nel complesso l’entropia totale del sistema aumenta. Applicando quanto appena spiegato nell’ambito della co-registrazione di immagini, il problema da affrontare è deformare l’immagine mobile per farla assomigliare alla fissa il più possibile. Consideriamo il bordo dell’immagine fissa come la membrana semipermeabile dell’esempio precedente e immaginiamo su di esso disposti i demoni. L’immagine mobile è, invece, da considerarsi come una griglia deformabile i cui vertici sono formati da particelle rispettivamente chiamate “dentro” o “fuori”, a seconda dell’azione che i demoni avranno su di esse [48]. Ogni demone è un “effettore” che spingendo all’interno o respingendo all’esterno della membrana i punti dell’immagine mobile la porta a sovrapporsi perfettamente cone la fissa. 29 30 ricerca e estrazione del segnale Quanto detto è raffigurato nell’immagine 13 Figura 13: Applicando i modelli diffusivi alla registrazione delle immagini, l’immagine mobile da co-registrare è considerata una griglia deformabile e viene diffusa attraverso il bordo dell’immagine fissa, grazie all’azione di effettori, detti “demoni”. L’applicazione di una trasformazione deformabile consente di raggiungere una completa sovrapposizione delle immagini a discapito di una totale perdita di informazione che può essere recuperata solamente analizzando il campo di deformazione, che tiene conto del movimento dell’oggetto co-registrato e dipende dalle sue proprietà fisiche, attraverso lo studio del determinante Jacobiano6 della trasformazione stessa. Per confrontare le differenze nelle strutture anatomiche degli individui procederemo co-registrando le immagini su un template, in maniera da riportare tutto ad un unico sistema di riferimento da usare per il confronto. 2.2.2.2 Normalizzazione d’intensità Mentre nella registrazione e nelle precedenti fasi del processo automatico non si tiene conto di informazioni strettamente legate alla clinica dei soggetti, nella normalizzazione di intensità, detta anche equalizzazione, bisogna far riferimento a informazioni cliniche e relative al problema che si sta esaminando. Un metodo semplice, comunemente usato consiste nel riconoscere un volume di riferimento che si suppone che non subisca gli effetti della patologia, tra le zone utilizzate per effettuare la normalizzazione in analisi analisi morfologiche e strutturali si trova, ad esempio, il cervelletto. Questa procedura permette di quantificare la variabilità dei tessuti di uno stesso soggetto o tra soggetti diversi e, grazie ad essa, si possono ridurre fonti di rumore come il rumore fisiologico [49]. Nella malattia di Alzheimer, tuttavia, la scelta di un’area di riferimento è problematica in quanto si attesta una significativa riduzione 6 Consideriamo il campo di deformazione w( x ) e la trasformazione T ( x ) = x + w( x ), la quantità | ∂T ∂x | è lo Jacobiano della trasformazione T ( x ) e descrive le deformazioni necessarie ai punti dell’immagine mobile per essere sovrapposta al template 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale del rate di metabolismo e del flusso sanguigno in una vasta area del cervello [50, 51] e, in questo caso, è necessario utilizzare altri metodi di normalizzazione. Una possibile scelta consiste nel realizzare la normalizzazione di intensità del cervello tenendo conto della sua attività media globale che viene determinata come valor medio di quei voxel7 che superano una certa soglia [52]. Questa tecnica è stata introdotta perché fosse possibile minimizzare il fattore confondente derivato dalle differenze interindividuali dei vari soggetti senza bisogno di aggiungere ulteriori informazioni che, chiaramente, possono aumentare l’errore della misura cercata. 2.2.3 Strumenti per l’individuazione delle caratteristiche significative del sistema La Feature Selection è un metodo di analisi che serve a ridurre la dimensionalità dello spazio in cui si opera. Nel far questo si cerca di buttare via quelle parti di informazione che non servono o che sono ridondanti. Esistono casi in cui tutte le informazioni sarebbero potenzialmente rilevanti e, quando questo accade, la feature selection ne elimina una parte. Nonostante questo la sua applicazione va comunque a vantaggio della stabilità dell’analisi. Nel campo del neuroimaging le immagini di ogni individuo forniscono 103 o104 variabili, non considerando le parti nere delle stesse e i metadati, ma database multicentrici come quello dell’ADNI, che ricordiamo essere tra i maggiori al mondo, raccolgono al loro interno immagini e valutazioni mediche relative a circa 500 individui. Quindi, senza operazioni di riduzione della dimensionalità, si avrebbe un numero di istanze grandemente inferiore al numero di variabili prese in esame, che ci pone in una condizione sfavorevole ai fini dell’analisi. Inoltre un’ulteriore caratteristica delle variabili in esame è che non tutte sono linearmente indipendenti e molte di queste non sono affatto correlate con la patologia. Facendo riferimento alla nostra analisi, utilizzare come metodo di indagine l’attività metabolica e quindi il rate di glucosio bruciato dalle zone cerebrali, non fornisce informazioni legate alla sola malattia di Alzheimer e questo introduce fattori confondenti che tentiamo di limitare proprio utilizzando la feature selection. Poiché riusciamo a valutare solamente dopo aver classificato i soggetti quale sia il modo migliore di applicarla, scegliamo di utilizzare due diversi metodi di Feature Selectione: il primo basato sull’individuazione di particolari regioni cerebrali di interesse, che per brevità chiameremo ROI, il secondo basato sull’individuazione delle 7 Un voxel (volumetric picture element) è un elemento di volume che rappresenta un valore di intensità di segnale o di colore in uno spazio tridimensionale, analogamente al pixel che rappresenta un dato di un’immagine bidimensionale. 31 32 ricerca e estrazione del segnale componenti principali dello spazio delle immagini, che per brevità chiameremo PCA. 2.2.3.1 Estrazione delle regioni d’interesse (ROI) L’obiettivo di questa operazione è quello di determinare zone precise del cervello, accuratamente registrate e equalizzate, sulle quali si possano misurare caratteristiche salienti dell’immagine legate ai processi biochimici dovuti alla neurodegenerazione. Nel caso esaminato, la scelta relativa alle regioni di interesse da estrarre viene fatta tenendo conto che nei soggetti AD l’intensità media dei voxel è inferiore a quella dei soggetti appartenenti al gruppo di controllo in quanto il metabolismo nei primi subisce un’evidente riduzione [50] a causa della neurodegenerazione che colpisce più aree del cervello. A partire da queste informazioni si cerca di individuare regioni che massimizzino tale differenza, quindi, con questo metodo, si mantengono inalterate le strutture anatomiche delle teste e conseguentemente rimane stabilito un certo legame con il problema trattato. L’individuazione di specifiche regioni cerebrali di interesse viene fatta ponendo una soglia in intensità alle immagini, al fine di estrarre i voxel in cui è racchiusa l’informazione che differenzia maggiormente l’attività metabolica dei due gruppi di soggetti che si suppone siano quelli aventi maggiore intensità, per quanto detto prima. Un’altra caratteristica importante da tenere in considerazione è la dimensione delle ROI selezionate, che devono essere: 1. abbastanza grandi da poter trascurare le variazioni dei valori di intensità dei voxel all’interno di un singolo gruppo. 2. abbastanza piccole da consentire al loro interno una condizione di omogeneità, che porti a stabilire un valore di intensità media caratteristico per ogni gruppo di soggetti. Le condizioni poste sono caratteristiche necessarie affinché l’intensità delle immagini discrimini i 218 soggetti della nostra analisi. Infatti, se il volume della regione cerebrale estratta è troppo grande, cioè se i voxel al suo interno sono troppi, la ROI ha al suo interno una grande variabilità dei valori di intensità sia nei soggetti AD che nei controlli e il suo valor medio non discrimina i due gruppi. D’altra parte se il volume della regione cerebrale di interesse è troppo piccolo, quindi al suo interno vi sono pochi voxel, l’intensità può essere diversa anche tra soggetti di un singolo gruppo e, nuovamente, non si può utilizzare per discriminare i soggetti efficacemente. 2.2.3.2 L’analisi delle componenti principali (PCA) L’analisi delle componenti principali, dall’inglese Principal Component Analysis (PCA) [53] è una tecnica che trasforma un set di variabili 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale del sistema tra loro correlate in variabili linearmente indipendenti chiamate componenti principali. Il numero di componenti principali è minore o al più uguale a quello delle variabili iniziali. Questo metodo, al contrario del precedente, prescinde dalle immagini in quanto tali e permette di generalizzare il problema portandolo ad un maggior livello di astrazione: esso esegue la riduzione della dimensione dello spazio delle immagini individuando le direzioni principali, come mostra la figura 14 Figura 14: L’immagine mostra un insieme di punti rappresentati in uno spazio tridimensionale. Nella parte b della figura sono visualizzate le componenti principali dello spazio. Nell’immagine 14 si vede che i punti nello spazio tridimensionale sono distribuiti prevalentemente lungo una direzione: PC1. Il resto delle componenti principali si individua tenendo conto che tutte devono essere tra loro perpendicolari, in quanto indipendenti le une dalle altre. Alla base dell’utilizzo della PCA come metodo di feature selection nella nostra analisi, vi è il fatto che i sottospazi generati dai due gruppi di soggetti, avendo dimensioni distinte e quindi un diverso numero di componenti principali, siano differenziabili lungo una o più direzioni dello spazio. Con la nostra analisi vogliamo selezionare quella lungo la quale si riescono a differenziare meglio i soggetti AD dai normali. 2.2.4 Strumenti statistici 2.2.4.1 Le curve ROC Le prestazioni dei biomarcatori vengono solitamente espresse in termini di sensibilità e specificità, che forniscono rispettivamente il numero di soggetti classificati come veri positivi (TP) e quello di soggetti classificati come veri negativi (TN), individuati dall’analisi condotta. Riferendoci alla figura 15, mostrata di seguito e osservando le distribuzioni, costruite a partire dalla tabella di contingenza accanto, si 33 34 ricerca e estrazione del segnale vede che i valori di sensibilità e specificità di una analisi vengono usualmente stimati a seguito della scelta di un cutoff. Figura 15: esempio di discriminazione tra due diverse distribuzioni e rappresentazione del relativo potere discriminante tramite una curva ROC. Sugli assi è riportata la sensibilità in funzione di (1-specificità) della procedura di analisi Nel prendere decisioni di tipo statistico è sempre possibile commettere degli errori. Nel nostro caso e in campo medico in generale, si eseguono dei test nei quali vengono considerate due ipotesi: l’ipotesi nulla, solitamente indicata con H0, che riguarda la presenza della patologia in esame e un’ipotesi alternativa, chiamata H1. Quando l’ipotesi H0 viene accettata se falsa o, viceversa, rifiutata se vera, viene commesso un errore di primo tipo e, poiché l’ipotesi H1 è l’unica alternativa a quella nulla, commettendo un errore nel valutare H0 non lo si fa nei confronti di H1. Quando, invece, H0 viene accettata, se vera, o rifiutata, se falsa, significa che nel valutare H1 si è commesso un errore, detto di secondo tipo. In entrambe i casi, quindi, si commette un errore di giudizio e una regola di decisione è considerata buona, se è costruita in modo da rendere minimi gli errori di primo e secondo tipo. Quando il test d’ipotesi è svolto in campo medico, questi errori si valutano in termini della tabella di contingenza: si misura il rate di soggetti TP e TN, rispettivamente relativi all’ipotesi H0 e H1, e, nel valutarli, si commette un errore del primo tipo se si considerano i soggetti sani, malati (FP) e del secondo tipo se si considerano soggetti malati, sani (FN). Usualmente si scelgono cutoff per fare in modo di diminuire il più possibile le ultime due categorie di soggetti definiti,uguagliandole, e aumentare al massimo il numero di soggetti classificati correttamente. Le ROC sono curve che riportano l’andamento della sensibilità in funzione di (1-specificità), quindi il numero di soggetti veri positivi 2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale in funzione del numero di falsi positivi e, al variare della soglia di discriminazione, si ottengono classificazioni differenti. Nel capitolo 3 classificheremo i soggetti appartenenti alla nostra analisi considerando due diverse soglie di discriminazione: la prima, da cui si ricava il valore dell’area sotto la curva ROC, è basata su un taglio singolo, valutato in modo da minimizzare il numero di FP e FN; la seconda è basata su due tagli , valutati per avere un rate di soggetti TN e TP almeno del 95%. La misura dell’area sottesa sotto la curva ROC, acronimo del termine receiver operator characteristic, detta AUC, è un indice della capacità discriminatoria del classificatore. Quando è circa 1, significa che la procedura adottata ha un alto potere discriminante e dunque alti valori di sensibilità e specificità. Quando il valore della AUC è circa 0.5 il classificatore scelto per condurre l’analisi ha un basso potere discriminante e fornisce i risultati che fornirebbe un classificatore casuale [54]. 2.2.4.2 La Clusterizzazione Il clustering è uno dei metodi statistici più diffusi e consiste nel raggruppare diversi oggetti mettendo insieme quelli tra loro più simili riguardo alle caratteristiche prese in esame [55]. Questo tipo di analisi è effettuata con diversi algoritmi di raggruppamento e diverse nozioni di distanza tra i raggruppamenti ottenuti. Il metodo da noi utilizzato è detto clustering gerarchico, esso è un approccio di clustering che mira a costruire una gerarchia tra i gruppi formati. La strategia adottata per eseguire questo tipo di analisi è di tipo agglomerativo: si tratta di un approccio dal basso verso l’alto in cui si parte dall’inserimento di ciascun elemento in un cluster differente e si procede quindi all’accorpamento graduale di cluster a due a due. Per determinare l’appartenenza degli oggetti a un gruppo piuttosto che ad un altro e cioè per verificare la somiglianza tra gli stessi, si usa il concetto di distanza secondo cui gli elementi all’interno di uno stesso cluster sono i più vicini. L’intero processo è iterativo ed è volto ad ottenere i migliori raggruppamenti possibili. Il criterio di collegamento determina, invece, la distanza tra i vari cluster creati in funzione della metrica scelta. Più avanti nella trattazione verranno confrontati due metodi: il primo basato sulla valutazione della varianza dei cluster uniti (Wards Criterion [56]), il secondo metodo si basa sulla media delle distanze degli elementi appartenenti ai cluster uniti (Average Criterion). Il risultato ottenuto con il clustering gerarchico viene solitamente visualizzato tramite un diagramma ad albero detto dendrogramma. Uno strumento grafico per la visualizzazione del coefficiente di similarità quantificato dai vari cluster nel processo di raggruppamento. L’immagine 16 ne mostra un esempio: 35 36 ricerca e estrazione del segnale Figura 16: La figura mostra un esempio di dendrogramma. Sull’asse x sono rappresentati i dati che si vuole clusterizzare, ordinati secondo la metrica scelta. Sull’asse y, invece, è indicata la distanza tra i cluster e all’aumentare del valore delle y, aumenta il livello gerarchico selezionato. Ad alti valori di y si individuano due cluster; essi sono molto differenti in quanto la loro distanza è notevole. Minore è il valore delle y considerato minore è la distanza tra i cluster formati, i quali aumentano in numero sino a coincidere con il numero di dati da raggruppare. A seguito dei taglio effettuato sono stati individuati 6 diversi gruppi di dati, raffigurati nelle box di diversi colori. Il dendrogramma in figura 16 rappresenta un esempio di clusterizzazione gerarchica: all’aumentare del valore delle y il numero di elementi per cluster diminuisce sino ad arrivare ai raggruppamenti aventi tra loro la maggiore distanza, quindi aventi all’interno dati con caratteristiche molto diverse; in questo caso sono due. A bassi valori di y, invece, il numero di elementi per cluster va diminuendo e diminuisce anche la distanza tra di essi, sino a che il numero di raggruppamenti non coincide con il numero di dati da raggruppare. Sull’asse x sono riportati i dati analizzati, ordinati secondo la metrica scelta. Infine la figura mostra un esempio di scelta del livello gerarchico, a seguito del quale si individuano 6 cluster diversi, rappresentati con le box di diversi colori. SVILUPPO DEL MODELLO SU UNA POPOLAZIONE TEST 3.1 estrazione del segnale Nei capitoli precedenti abbiamo largamente trattato delle difficoltà legate all’individuazione e alla misura del segnale e dei numerosi effetti confondenti da cui esso è affetto. Nel secondo, in particolare, abbiamo presentato il processo automatico utilizzato per individuare, estrarre ed elaborare il segnale stesso e grazie al quale si arriva, infine, alla classificazione delle immagini. A questo punto, è necessario entrare nei dettagli di tutte le fasi presentate, cercando di motivare al meglio le scelte fatte. Nel nostro caso il segnale è proporzionale all’intensità delle immagini e, poiché non conosciamo la sua forma e le sue caratteristiche, l’unico modo di verificare la validità di ogni passo del processo è attraverso la classificazione dei soggetti presi in esame. Nota la valutazione clinica dei 218 individui coinvolti nell’analisi, riusciamo a stimare l’efficacia dei metodi utilizzati solo a posteriori, quantificando il numero di soggetti ricollocati nel loro reale gruppo di appartenenza. L’intero processo è di fatto volto a trovare il modo giusto di individuare quelle differenze tra il gruppo degli 81 soggetti AD e quello dei 137 controlli dovute alla presenza della malattia di Alzheimer. Per questo motivo, le prime fasi dell’analisi servono a rendere le immagini confrontabili in modo tale da esaltare le differenze tra i soggetti riconducibili alla patologia e ridurre le altre. Tutto questo si ottiene con la normalizzazione 2.2.2. Resta da considerare che parte delle fonti di disturbo, descritte nei precedenti capitoli, vengono introdotte con la selezione delle immagini da analizzare. Su alcune di esse avremo modo di influire durante il processo di misura, ma su altre, come il rumore di Gold standard che coinvolge l’eventuale errata attribuzione dello stato clinico dei soggetti, il rumore relativo al modello assunto o gli errori di acquisizione e ricostruzione delle immagini PET, non abbiamo modo di agire. Per questo motivo cerchiamo di minimizzare a priori questi effetti, ad esempio, scegliendo di selezionare immagini provenienti da diversi centri ospedalieri, in modo da ridurre il rumore di Gold standard e eseguendo una selezione preliminare che ci consenta di scegliere immagini di alta qualità. 37 3 38 sviluppo del modello su una popolazione test 3.1.1 La selezione delle immagini: il Quality Check L’informazione fornita dalle neuroimmagini è racchiusa nei voxel: elementi di volume che rappresentano un valore di intensità in uno spazio tridimensionale. Oltre al valore dei voxel è importante considerare anche il loro orientamento, che fornisce la posizione delle immagini rispetto a un sistema di riferimento, e le loro dimensioni, dette spacing. Lo spacing si misura valutando la distanza tra i centri dei voxel, può essere diverso lungo le direzioni ( x, y, z) e fornisce un’informazione legata alla risoluzione spaziale dell’immagine: tanto maggiore è il numero di voxel contenuto in un’immagine, ovvero tanto più piccolo è lo spacing, quanto migliore è la risoluzione spaziale dell’immagine stessa, a parità di volume rappresentato. La figura 17 mostra cosa s’intende per voxel e da essa si intuisce come lo spacing influisca sulla risoluzione delle immagini e sulle loro dimensioni: Figura 17: L’immagine mostra una porzione cerebrale, rappresentata in sezione, suddivisa in più elementi di volume, detti voxel, che determinano la sua risoluzione spaziale. Le informazioni sopra descritte sono tra i criteri in base ai quali noi valutiamo la qualità di un’immagine. Processi come la registrazione non potrebbero essere eseguiti senza riferimenti spaziali, come quelli forniti dallo spacing, dalla direzione dell’immagine e dall’origine del sistema di riferimento considerato. Le linee guida dell’iniziativa ADNI prevedono l’acquisizione di diverse immagini PET per ogni soggetto coinvolto ed è possibile che, talvolta, non siano di alta qualità. Per scegliere le immagini da elaborare abbiamo condotto una prima analisi visiva, in modo da evitare di includere quelle aventi errori di ricostruzione o artefatti da movimenti 1.3. Inoltre abbiamo adottato un criterio selettivo in base al quale scegliere solo immagini con alta risoluzione spaziale, quindi di alta qualità e buon contenuto informativo, che consiste nel selezionare immagini aventi spacing1 1 Un modo equivalente di scrivere lo spacing di un’immagine è utilizzando il formalismo: [2, 2, 2] senza indicare le unità di misura. Nel seguito della trattazione verranno utilizzati indistintamente. 3.1 estrazione del segnale 2x2x2mm3 . Di seguito riportiamo un esempio di immagine avente spacing [2, 2, 2] e uno avente spacing [2, 2, 4.25] (figura 18), in modo che il lettore possa verificare qualitativamente la differente risoluzione spaziale: Figura 18: La figura mostra due FDG-PET aventi spacing diverso: (la prima sulla sinistra) [2, 2, 2] e (la seconda) [2, 2, 4.25]. La differenza della terza componente dello spacing delle immagini comporta che la loro risoluzione spaziale sia diversa lungo i piani sagittale e coronale. Si vede che sul piano sagittale e su quello coronale, rappresentati nei riquadri in alto della figura 18, la risoluzione spaziale delle immagini è differente. In particolare la qualità dell’immagine raffigurata a destra è inferiore rispetto a quella di sinistra e conseguentemente risulta tale anche il suo contenuto. Con le scelte adottate abbiamo fatto in modo di includere nell’analisi immagini di buona qualità, cosicché non fosse compromessa l’informazione metabolica in esse racchiusa. 3.1.2 Normalizzazione Spaziale Attraverso la fase di normalizzazione spaziale intendiamo determinare una serie di trasformazioni che facciano in modo di sovrapporre le 218 immagini scelte su un template, realizzato mediando 100 immagini FDG-PET, precedentemente normalizzate, e provenienti da studi multicentrici2 . L’operazione di media è necessaria poiché il rate metabolico di ogni soggetto è diverso e questo rende le immagini FDG-PET cerebrali tutte molto diverse le une dalle altre. Mediando su un cospicuo numero di soggetti è possibile realizzare un’immagine che sia un buon riferimento e tenga conto del metabolismo basale cerebrale medio della popolazione. 2 Il template scelto è stato scaricato dal sito http://www.fil.ion.ucl.ac.uk/spm/ext/. 39 40 sviluppo del modello su una popolazione test L’immagine 19 mostra il template utilizzato: Figura 19: Template FDG-PET usato per la registrazione delle 218 immagini selezionate, spacing = [2, 2, 2] Per effettuare la co-registrazione spaziale delle immagini abbiamo utilizzato il framework LONI pipeline3 . Uno strumento, primariamente costruito per le diverse applicazioni della ricerca in neuroimaging [57], grazie al quale si può gestire l’esecuzione di sequenze di comandi indipendenti. Ogni eseguibile costituisce un’unità o “modulo” dell’algoritmo complessivo e il suo output viene trasmesso come input a uno o più moduli successivi. Trasformazione Affine Con l’intento di sovrapporre le 218 immagini scelte al template effettuiamo prima una trasformazione affine a 12 parametri che coinvolge rotazioni, traslazioni e la scalatura dell’immagine mobile e, per decidere quale sia la metrica più indicata per definire la similarità tra il template e le immagini, realizziamo diverse registrazioni affini di prova. 3 La descrizione del Framework http://www.pipeline.loni.ucla.edu LONI pipeline è reperibile sul sito 3.1 estrazione del segnale L’immagine seguente mostra una delle prove effettuate: Figura 20: La figura mostra una delle prove di registrazione affine effettuate. A partire da sinistra si ha un’immagine registrata, in rosso, il template su cui è stata effettuata la registrazione, in scala di grigi, e infine la sovrapposizione delle due. Nella figura 20 si vede una delle prove di registrazione affine, effettuate utilizzando la distanza Mutual Information 4 per definire il grado di similarità con il template. Il piano visualizzato è quello sagittale e le tre immagini mostrano rispettivamente: la prova di registrazione dell’immagine mobile sulla fissa, in rosso, il template, visualizzato in scala di grigi, e infine la sovrapposizione delle due. Nell’ultimo riquadro a destra, le parti evidenziate in rosso mostrano le zone in cui le due immagini differiscono maggiormente. La sovrapposizione tra le due non è ottimale perché la metrica scelta non è adeguata per effettuare la registrazione4 . Le performance, per ciascuna nozione di distanza utilizzata, cioè Mutual Information (MI) 4, Somma dei quadrati delle differenze delle intensità (SSD) 2 e Coefficiente di cross-correlazione (CC) 3, sono state valutate con l’ausilio del software MATLAB5 , attraverso la misure della correlazione, che indicheremo con r, tra le immagini co-registrate e il template. La distanza che ci consente di ottenere il risultato migliore è la CC 3; per la quale la correlazione media tra immagine fissa e mobile vale: r = (0.925 ± 0.012) (10) Il valore ottenuto è dovuto al fatto che l’FDG-PET trasmette informazioni funzionali legate al metabolismo cerebrale, che è molto diverso in ogni soggetto. Inoltre i dettagli anatomico-strutturali, contenuti 4 Le metriche in linea di principio dovrebbero far convergere la procedura al medesimo minimo, ma dettagli implementativi rendono alcune di esse più adatte di altre a seconda della tipologia di dato trattato. 5 La descrizione del software MATLAB è reperibile sul sito http://mathworks.com 41 42 sviluppo del modello su una popolazione test nelle immagini e sui quali si basa il processo di registrazione, sono poco definiti a causa dell’intrinseca risoluzione spaziale delle PET. Un esempio di risultato ottenuto è mostrato nella figura 21: Figura 21: La figura mostra la sovrimpressione di una delle immagini registrate, utilizzando una trasformazione affine, e del template. Le parti che differiscono tra le immagini mobile e fissa, evidenziate in rosso, diminuiscono in numero ed estensione rispetto al tentativo di registrazione precedente. La figura mostra la sovrimpressione dell’immagine mobile sulla fissa. Il template è raffigurato in scala di grigi e, paragonando i piani assiali delle figure 20 e 21. Si vede che le parti in cui le immagini risultano meno sovrapposte, evidenziate in rosso, diminuiscono. Questo a testimonianza del fatto che la distanza scelta è adeguata e si è raggiunto un buon allineamento. Trasformazione Deformabile Nelle immagini FDG-PET il cranio è uno dei pochi riferimenti strutturali utilizzabili per la registrazione spaziale. Le altre parti, forniscono un’informazione funzionale legata al metabolismo dei soggetti e modificarle per rendere le immagini più vicine, comporterebbe modificare il segnale che cerchiamo di estrarre. Come accade per tutti i passi del processo di estrazione e di elaborazione del segnale, anche gli effetti della normalizzazione spaziale sono stimabili solo determinando la percentuale di soggetti classificati correttamente come appartenenti al gruppo di controllo o AD. Poiché in letteratura sono riportati esempi secondo i quali, nel nostro caso, una trasformazione geometrica lineare non è sufficiente per sovrapporre le immagini al meglio [58]; per migliorare la sovrapposizione delle strutture cerebrali tra le immagini registrate e il template, effettuiamo un’ulteriore trasformazione, questa volta deformabile, basata su modelli diffusivi, introdotti nel secondo capitolo 2.2.2.1. 3.1 estrazione del segnale Questo aspetto dell’analisi sarà trattato più dettagliatamente nel paragrafo 5.2.1. Potenzialmente applicando i modelli diffusivi alla fase di registrazione si possono ottenere immagini perfettamente sovrapposte, ma nel caso della co-registrazione di FDG-PET questo compromette l’informazione funzionale contenuta nelle immagini stesse, pertanto cerchiamo di apportare deformazioni (D) tali da avere una migliore sovrapposizione dei crani delle teste da co-registrare, ma contemporaneamente di modificare il meno possibile il loro interno per non variare il contenuto metabolico delle FDG-PET. Tutto ciò si ottiene mediante una convoluzione del campo di deformazione dell’immagine mobile, ottenuto tramite il determinante Jacobiano della trasformazione stessa, e di una gaussiana. Consideriamo il campo di deformazione w( x ) e la trasformazione T ( x ) = x + w( x ), la quantità | ∂T ∂x | è lo Jacobiano della trasformazione T ( x ) e descrive le deformazioni necessarie ai punti dell’immagine mobile per essere sovrapposta al template. La deformazione finale ottenuta applicando la convoluzione vale: D=| ( x − µ )2 ∂T 1 | √ e− 2σ2 ∂x σ 2π (11) Nella precedente formula 11, µ indica la media della distribuzione normale e σ la sua deviazione standard. Determinare quanto “forte” debba essere la deformazione significa determinare σ della gaussiana con la quale si effettua la convoluzione. Poiché le strutture presenti nelle immagini FDG-PET, sulle quali è basata la normalizzazione spaziale, hanno dimensioni superiori al centimetro, realizziamo diverse registrazioni di prova, facendo variare la deviazione standard della gaussiana in modo che non vengano modificate le strutture di dimensioni inferiori a qualche cm. Così facendo otteniamo una maggiore sovrapposizione del cranio e di strutture come il corpo calloso delle immagini e del template, preservando le differenze metaboliche e preservando, quindi, il segnale. Dopo aver effettuato nuovamente diverse registrazioni di prova, al fine di definire il miglior valore della deviazione standard della gaussiana, decidiamo di effettuare la registrazione impostando una configurazione avente σ = 10mm 6 . Una volta impostate le configurazioni adeguate sia per la trasformazione affine che per la trasformazione deformabile, le eseguiamo entrambe con l’intento di migliorare la sovrapposizione delle strutture delle FDG-PET e del template. 6 Il valore della σ è stato scelto in seguito a diverse prove di registrazione effettuate. Abbiamo eseguito la convoluzione del campo di deformazione legato alla registrazione con gaussiane aventi deviazione standard da 5mm a 20mm, variando σ di 5mm ogni volta. 43 44 sviluppo del modello su una popolazione test Lo schema realizzato e raffigurato nell’immagine 22 mostra la pipeline utilizzata per effettuare le due trasformazioni in cascata. La registrazione affine ha lo scopo di avvicinare l’immagine mobile alla fissa il più possibile prima di passare alla trasformazione deformabile, la quale ha il compito di fare in modo che il cranio e le altre strutture dell’immagine mobile si sovrappongano a quelle del template. Figura 22: L’immagine mostra lo schema di registrazione completo realizzato utilizzando il framework LONI pipeline. I due moduli iniziali sono per le immagini FDG-PET da co-registrare e il template. Prima di effettuare la trasformazione affine alle immagini vengono attribuiti gli stessi riferimenti spaziali e vengono rese paragonabili in intensità. Poi passano al modulo che effettua la registrazione affine e successivamente a quello che esegue la registrazione deformabile, dal quale si salva il campo di deformazione, convoluto con la gaussiana che viene poi applicato alle immagini registrate affini. Infine tutte le immagini vengono salvate. Nello schema utilizzato, i due moduli iniziali contengono il template e le immagini mobili, che, prima di essere registrate, devono avere lo stesso sistema di riferimento e valori di intensità compatibili. Dopo queste fasi iniziali le PET sono pronte per essere registrate sull’immagine fissa. Prima viene effettuata la trasformazione affine e da questa escono le immagini su cui verrà applicata la registrazione deformabile. Poiché è importante mantenere l’informazione funzionale fornita dalle FDG-PET, non utilizziamo le immagini che escono dal modulo della deformabile, ma da esso salviamo il campo di deformazione che, come ricordiamo, è stato convoluto con una gaussiana di σ = 10mm, proprio per evitare di alterare eccessivamente le informazioni funzionali. Infine l’ultimo modulo applica il campo di deformazione e, una volta completata la registrazione, le immagini vengono salvate. La normalizzazione spaziale permette di minimizzare il rumore dovuto alle differenze anatomiche presenti nei vari soggetti, ma preserva le differenze metaboliche legate anche la presenza della malattia. Misurando nuovamente la correlazione media tra le immagini registrate e il template si ottiene: r = (0.933 ± 0.011) (12) 3.1 estrazione del segnale Quanto ottenuto è compatibile con il risultato precedente e ciò significa che la registrazione deformabile applicata, grazie ai parametri scelti, non modifica l’informazione contenuta nelle FDG-PET. Nonostante ciò il valore della correlazione in questo caso è leggermente più alto e la sovrapposizione delle immagini è migliore. La registrazione ottenuta applicando le trasformazioni in cascata è mostrata in figura 23 Figura 23: Esempio di immagine registrata con la registrazione completa. A sinistra si vede una delle 218 FDG-PET registrata, in rosso. La seconda mostra il template, in scala di grigi, e a destra si vede la sovrapposizione delle prime due. Confrontando le figure 21 e 23 si vede che, nonostante i valori di correlazione siano compatibili, la sovrapposizione delle strutture cerebrali delle immagini migliora. Questo comporta l’essere riusciti a sovrapporre le immagini mobili alla fissa, preservando l’informazione metabolica. L’effetto del processo di registrazione sulla capacità discriminante rispetto alla patologia, non è quantificabile in questa fase. Nel capitolo conclusivo discuteremo brevemente le prestazioni del metodo implementato con e senza la trasformazione deformabile, in modo da verificare la presenza di un miglioramento a seguito di questa ultima trasformazione applicata. 3.1.3 Normalizzazione d’Intensità L’FDG-PET misura una quantità proporzionale al rate metabolico cerebrale dei soggetti e, nelle immagini analizzate, questa quantità è legata all’intensità dei voxel e si quantifica attraverso un numero di conteggi. Più alta è l’attività metabolica degli individui, maggiore è il numero di conteggi relativo alla zona cerebrale osservata. Ci si aspetterebbe che le disfunzioni cerebrali legate alla presenza della malattia di Alzheimer siano traducibili in una differente distribuzione del rate di conteggi rispetto ai controlli, ma prima di effettua- 45 46 sviluppo del modello su una popolazione test re la normalizzazione in intensità delle immagini tale differenza non è osservabile. Come brevemente introdotto nel precedente capitolo (2.2.2.2), la procedura di equalizzazione si basa sull’utilizzo di riferimenti di intensità, quindi nel nostro caso del numero di conteggi, che consentano di definire una scala all’interno della quale valutare il rate metabolico dei soggetti. Nelle patologie neurodegenerative la funzionalità del cervello è compromessa in vaste aree diffuse, pertanto individuare una specifica zona di riferimento su cui effettuare l’equalizzazione può risultare inefficace [59]. Per questo motivo abbiamo utilizzato un metodo che tenga conto del rate metabolico cerebrale globale. L’equalizzazione implementata è di tipo Data Driven, ciò significa che le scelte ad essa legate discendono dai dati analizzati e non da informazioni aggiuntive rispetto a regioni anatomiche risparmiate dalla patologia. Il riferimento in intensità utilizzato è un’immagine realizzata mediando tutte le 81 FDG-PET dei soggetti, facenti parte della nostra analisi, appartenenti al gruppo degli AD, che chiameremo < M >. Per fare in modo che i valori dei voxel all’interno di < M > vadano da 0 a 1, l’immagine è stata riscalata in intensità utilizzando la seguente relazione. < M > −min(< M >) max (< M >) − min(< M >) (13) Con i termini max (< M >) e min(< M >) si intende il massimo e il minimo valore di intensità dei voxel contenuti nell’immagine media degli AD. A questo punto l’equalizzazione si effettua attraverso l’operazione: ~ A A~N = N N= ~ ·< M ~ > A || < M >2 || (14) ~ rappresenta il vettore delle intensità dei voxel di ognuna delle A 218 immagini FDG-PET, N il coefficiente di normalizzazione ricavato a partire dalle immagini stesse, A~N rappresenta il vettore delle inten~ > é il vettore relativo alle sità delle immagini normalizzato e < M intensità medie dei voxel delle 81 immagini degli AD. Questa operazione consente di pesare le immagini, benché indirettamente, sul rate metabolico cerebrale degli AD. A questo punto quantifichiamo un coefficiente di normalizzazione d’intensità che tenga maggiormente conto delle aree in cui agisce la 3.1 estrazione del segnale malattia di Alzheimer in modo da esaltare la differenza di conteggio nelle zone che dovrebbero rendere i due gruppi considerati ben distinguibili. A priori possiamo pesare le immagini anche a partire dall’attività cerebrale dei controlli e ricavare un equivalente coefficiente da utilizzare per effettuare l’equalizzazione. Tuttavia, volendo misurare quantità locali per esaltare solo determinate le zone cerebrali, utilizziamo il gruppo di soggetti aventi una distribuzione d’intensità meno uniforme. Di seguito (figura 24) riportiamo l’immagine della maschera probabilistica realizzata: Figura 24: L’immagine rappresenta la maschera con la quale è stata effettuata la normalizzazione in intensità delle immagini, derivata dall’attività cerebrale basale media degli 81 soggetti AD 3.1.4 Strumenti per la classificazione dei soggetti A questo punto passiamo a trattare la misura della performance nella classificazione dei soggetti: essa viene effettuata misurando l’area sotto la curva ROC, valutata a partire dai dati reali elaborati nel processo di analisi. L’errore sulla AUC è stato stimato tramite bootstrap [60], che è una tecnica di ricampionamento con reimmissione, usata per approssimare la distribuzione campionaria di una statistica. Essa permette di stimare i momenti di una distribuzione e quindi di approssimare media e varianza di uno stimatore e costruire intervalli di confidenza, quando non si conosce la distribuzione di interesse. 47 48 sviluppo del modello su una popolazione test Grazie a questa tecnica stimiamo l’intervallo di confidenza sulle AUC, come mostrato in figura 25. Figura 25: La figura mostra le AUC che corrispondono ai livelli di confidenza del 95%, del 5% e al valore atteso ricavato dall’analisi Per visualizzare l’andamento delle caratteristiche delle immagini analizzate, da cui discende la classificazione dei soggetti, ci serviamo sia della canonica rappresentazione tramite distribuzioni, sia della rappresentazione grafica detta boxplot (figura 27). Le distribuzioni mostrate nel seguito derivano dai dati reali e sono stimate utilizzando il metodo chiamato Kernel Density Estimation [61], esso individua la densità di probabilità di una serie finita di dati a partire da un kernel, nel nostro caso, gaussiano. 3.1 estrazione del segnale La figura 26 mostra lo stretto legame tra le distribuzioni derivate utlizzando il Kernel Density Estimation, in rosso, e gli istogrammi generati a partire dai dati reali dell’analisi, in blu. Figura 26: La figura mostra un istogramma derivato dai dati reali dell’analisi, in blu, e la distribuzione continua, sovrapposta sull’istogramma in rosso, derivata a partire dal Kernel Density Estimation. Abbiamo dovuto stimare le distribuzioni di probabilità utilizzando questo metodo perché, pur essendo le caratteristiche delle immagini continue, i soggetti inclusi nella nostra analisi sono pochi, portandoci ad analizzare serie finite di dati. La stima delle densità di probabilità attraverso il metodo citato ci permette di trattare i dati come fossero continui e di effettuare operazioni matematiche, come ad esempio il calcolo dei percentili, in maniera più agevole. 49 50 sviluppo del modello su una popolazione test Nel seguente grafico visualizziamo la corrispondenza tra il boxplot e le distribuzioni. Figura 27: L’immagine mostra un boxplot. La linea rossa al centro della box rappresenta la mediana, i lati i percentili corrispondenti al 25% e al 75% della distribuzione e i segmenti laterali si estendono per la larghezza della distribuzione corrispondente 1.5 la distanza interquantile; i “+” rossi ai lati dei segmenti dei boxplot mostrano i dati al di fuori di tale distanza della distribuzione. La figura 27 conferma che il boxplot tiene conto di alcuni dei riferimenti più importanti della distribuzione che rappresenta: la linea rossa al suo interno segna la mediana, i lati della “box” i percentili corrispondenti al 25% e al 75% e i segmenti laterali si estendono per una larghezza corrispondente ai 1.5 la distanza inter-quantile della distribuzione che rappresenta. I “+” rossi ai lato della box rappresentano i dati che fuoriescono da tale distanza. Dall’analisi della curva ROC possiamo definire dei valori detti cutoff secondo diversi criteri. Uno dei più usati è quello che rende minori possibili i valori di FP e FN uguagliandoli. 3.2 elaborazione del segnale: due metodi per la feature selection Nella nostra analisi noi utilizziamo altri due tagli fissati in corrispondenza del 95% di sensibilità e specificità valutate a partire dalla curva ROC, Così facendo stimiamo l’ampiezza della zona di sovrapposizione delle distribuzioni accettando di commettere un errore del 5% nel classificare i soggetti. Figura 28: La figura mostra i tagli applicati in corrispondenza del 95% di sensibilità e specificità sia sulla curva ROC che sulle distribuzioni. In base alla scelta fatta accettiamo di commettere un errore nella classificazione al più del 5%. L’immagine in basso della figura 28, mostra l’ampiezza della zona di sovrapposizione delle distribuzioni. Riferendoci alle lettere in figura, in seguito alle scelte fatte si ha R +∞ RA −∞ D2 RA −∞ 3.2 D1 = 0.05 R B+∞ B D1 D2 = 0.05 (15) elaborazione del segnale: due metodi per la feature selection Conclusa questa fase del processo ci troviamo con 218 immagini ognuna avente circa 900000 voxel e cioè un campione di numerosità N = 218 descritto da V ∼ 900000 variabili. 51 52 sviluppo del modello su una popolazione test Il problema da affrontare consiste nello scegliere una procedura per estrarre le informazioni significative, ovvero discriminanti, rispetto alla classe dei dati analizzati. Poiché V >> N ci troviamo in condizione sfavorevole, quindi i metodi di analisi prevedono un passo intermedio di feature selection. Questo aspetto dell’analisi sarà trattato più dettagliatamente nel paragrafo 5.2.2. Per meglio valutare la variabilità introdotta con la scelta del metodo 1.4.2, utilizziamo due diverse procedure per selezionare le caratteristiche delle immagini più significative e, esattamente come accadeva per la scelta della trasformazione migliore da effettuare nell’ambito della registrazione 3.1.2, non abbiamo modo di sapere quale dei due metodi di feature selection abbia prestazioni migliori prima di classificare i soggetti del nostro campione. Le caratteristiche considerate, sulle quali si basano le metriche utilizzate per la classificazione, sono: il numero di conteggi in specifiche regioni di interesse e le componenti principali dello spazio delle immagini. La loro selezione è stata fatta in modo tale da massimizzare il potere discriminante delle analisi con esse condotte. 3.2.1 Metrica 1: media dei conteggi sulle ROI Vogliamo selezionare le aree cerebrali che maggiormente differenziano i soggetti appartenenti al gruppo di controllo da quelli affetti dalla malattia di Alzheimer. Quindi dobbiamo definire un criterio per determinare in quali tra i voxel all’interno del cranio dei soggetti analizzati sono contenute le informazioni che maggiormente li discriminano. Operativamente consideriamo ogni soggetto come un vettore a 276593 componenti, all’interno delle quali è riportata l’intensità di ogni voxel. Quindi creiamo una matrice 218X276593 avente sulle righe i vettori corrispondenti ai 218 soggetti e sulle colonne i voxel. A questo punto possiamo valutare il potere discriminante di ogni colonna della nostra matrice, misurando le aree sotto le curve ROC create a partire da ognuna di esse; in questo modo individuiamo quali dei voxel discriminano meglio i soggetti nei due gruppi. Una volta ottenuti i valori delle aree sotto le curve ROC, studiamo l’andamento delle medie delle AUC in funzione del numero di voxel considerati. Coerentemente a quanto descritto nel capitolo precedente 2.2.3.1, quando i voxel considerati nelle ROI sono molti, la media delle loro AUC è bassa. Quando sono pochi la media delle AUC ha un alto potere discriminante, ma le prestazioni dipendono fortemente dal numero di voxel contenuti nella ROI e la classificazione che ne discende è poco stabile. Quando invece il numero dei voxel all’interno della regioni di interesse è circa un migliaio l 0 AUCmedia > 0.9 e il potere di- 3.2 elaborazione del segnale: due metodi per la feature selection scriminante, variando di poco i voxel all’interno delle regioni studiate, rimane circa costante. Da quanto descritto deduciamo che, scegliendo di selezionare regioni di interesse che abbiano al loro interno un migliaio di voxel, si fa in modo che il loro potere discriminante rimanga stabile anche considerando regioni di dimensioni di poco superiori o inferiori. Questo garantisce che la classificazione dei soggetti nei gruppi sia altrettanto stabile. L’intero procedimento di selezione delle ROI appena descritto è riassunto nella seguente immagine: 53 54 sviluppo del modello su una popolazione test Figura 29: La figura mostra schematicamente il processo di feature selection descritto. 3.2 elaborazione del segnale: due metodi per la feature selection Scegliamo una soglia in intensità che ci consenta di individuare una regione cerebrale che fornisca prestazioni stabili. Considerando intensità superiori a 0.275 selezioniamo una regione avente 2050 voxel. In figura 30 è mostrato in dettaglio l’andamento della madia delle AUC in funzione del numero di voxel nelle ROI e le regioni cerebrali scelte, visualizzate in sovrimpressione sul template. Figura 30: L’immagine a sinistra mostra l’andamento delle AUC medie in funzione del numero di voxel nelle ROI. A destra è visualizzata la ROI selezionata. Confrontando quanto ottenuto in seguito alle scelte effettuate con altre analisi funzionali basate su metodi data driven, concludiamo che le regioni selezionate si avvicinano molto a quelle riportate in letteratura, essendo situate nelle zone del cervelletto e della corteccia occipitale [62]. Ciò conferma la validità del processo implementato. Le differenze che individuiamo nel confronto sono soprattutto legate alle dimensioni delle ROI. Questo fatto può essere dovuto ai diversi processi di selezione adottati. Inoltre rimanendo nella zona del “plateau” del grafico in figura 30 anche noi possiamo variare le dimensioni delle ROI scelte senza influire grandemente sul potere discriminante. Arrivati a questo punto dell’analisi verifichiamo l’efficacia della prima metrica, valutando la performance nel distinguere i 218 individui in controlli e AD. Selezionando all’interno delle 218 immagini i 2050 voxel contenuti nelle regioni di interesse e calcolando la media dei conteggi in tali aree, valutiamo il potere discriminante della metrica “media dei conteggi” attraverso la misura dell’area sotto la curva ROC. 55 56 sviluppo del modello su una popolazione test La classificazione ottenuta è mostrata nella figura 31 Figura 31: Sulla sinistra dell’immagine sono riportati i boxplot ordinati secondo i conteggi medi dei soggetti sulle ROI e distinti in base alla clinica. Il grafico a destra riporta la AUC ' 0.94, che indica la prestazione della metrica 1. La figura 31 mostra, attraverso i boxplot, le distribuzioni dei soggetti affetti dalla malattia di Alzheimer e dei controlli, essi sono rispettivamente contraddistinti dalle label 1 e 0, come mostrato dall’asse delle ordinate del primo grafico della figura. Osservando i due boxplot si vede che la mediana della distribuzione dei controlli ha un valore maggiore rispetto a quella del gruppo degli AD. Inoltre essendo la box della distribuzione più stretta, si vede che i soggetti facenti parte il gruppo di controllo sono tra loro più simili rispetto ai soggetti AD. L’area sotto la curva ROC, nel grafico accanto a quello dei boxplot, fornisce la bontà della metrica scelta nel classificare i soggetti nei due gruppi e vale ' 0.94. La capacità di classificare i soggetti nei due gruppi è fornita dai valori di sensibilità ' 91% e di specificità ' 88%. Quanto ottenuto è di poco inferiore ai valori di AUC valutati confrontando soggetti appartenenti a un gruppo di controllo e soggetti affetti dalla malattia di Alzheimer e riportati in letteratura [63, 64, 65]. Parte degli articoli citati basano i loro risultati su un’analisi di tipo strutturale, utilizzando immagini provenienti da MRI, quindi la differenza può essere attribuita ai diversi metodi di imaging che forniscono informazioni diverse. 3.2.2 Metrica 2: distanza dal cluster dei controlli Scegliendo di classificare i soggetti a partire dalla media dei conteggi, valutata sulle ROI selezionate, trascuriamo una parte dell’informazione contenuta nelle immagini. 3.2 elaborazione del segnale: due metodi per la feature selection A seguito del processo di normalizzazione eseguito e della feature selection, possiamo assumere che le differenze riscontrabili nel numero dei conteggi dovute alle differenze interindividuali siano minori rispetto a quelle dovute alla presenza della malattia. Quindi, utilizzando la metrica 1, consideriamo un’informazione limitata. Per prima cosa, reintegriamo nell’analisi il contributo al segnale relativo alle differenze del rate di conteggi tra soggetti AD e controlli a causa della patologia ipotizzando che questo migliori la prestazione sinora ottenuta. Utilizziamo la clusterizzazione, brevemente presentata nel capitolo precedente 2.2.4.2, che ci permette di introdurre due nuovi parametri: il grado di similarità delle immagini, in base al quale sono effettuati i raggruppamenti e vengono ordinati i soggetti all’interno di ogni cluster, e la distanza tra i vari gruppi individuati, che permette di ordinare i cluster nello spazio delle immagini. Metrica e metodo della clusterizzazione influiscono sulla natura dei gruppi formati e sulla loro disposizione nello spazio quindi, in ultima analisi, sulla classificazione che si ottiene. Nel nostro caso scegliamo di effettuare la clusterizzazione delle immagini trattate, utilizzando il metodo ward, per valutare il grado di similiarità dei gruppi individuati e la distanza euclidea per valutare la similarità tra il rate di conteggio dei soggetti. Il criterio deciso per effettuare il raggruppamento dei soggetti è legato alla scelta del livello di confidenza (CL). I gruppi vengono formati in modo che si individuino due cluster aventi al loro interno uno il 95% di controlli e l’altro il 95% di soggetti AD, che chiameremmo rispettivamente cluster dei controlli e cluster degli AD. Una volta individuati questi due gruppi i soggetti restanti vengono raggruppati tutti in un unico cluster che avrà al suo interno una buona parte di individui AD e una buona parte di controlli e che nel seguito chiameremo cluster misto. Migliori sono le scelte relative alla metrica, in questo caso legata al rate di conteggi, al metodo e alla distanza in base al quale effettuare i raggruppamenti, minore ci aspettiamo che sia il numero di soggetti appartenenti al cluster misto. 57 58 sviluppo del modello su una popolazione test Visualizziamo i gruppi ottenuti tramite dendrogramma: Figura 32: Il dendrogramma mostra la clusterizzazione ottenuta in base al rate di conteggi. I raggruppamenti individuati sono 3: uno formato maggiormente da soggetti AD, contrassegnato in verde, uno da soggetti appartenenti al gruppo di controllo, contrassegnato in blu, e il terzo avente buona parte degli individui provenienti da entrambe i gruppi in esame, contrassegnato in rosso. La figura 32 mostra che il rate di conteggi delle regioni di interesse selezionate rendono le immagini clusterizzabili in tre gruppi. Il cluster degli AD è colorato in verde e al suo interno vi sono 39 soggetti. Il cluster dei controlli, in blu, ha al suo interno 99 soggetti e, infine, il cluster misto ha al suo interno 80 soggetti. Il raggruppamento ottenuto è un buon punto di partenza per ottenere una nuova classificazione dei soggetti. Definita una origine nello spazio delle immagini, che abbiamo arbitrariamente posto nel centro di massa del cluster dei controlli, ci aspettiamo che la distanza euclidea dei soggetti da tale punto rispecchi quanto visualizzato con il dendrogramma. Quindi che i soggetti appartenenti al gruppo di controllo siano più vicini all’origine scelta e i soggetti affetti dalla patologia siano più distanti. 3.2 elaborazione del segnale: due metodi per la feature selection La figura 33 mostra i boxplot delle distribuzioni dei soggetti AD e dei controlli disposti secondo la distanza euclidea dei punti dal centro di massa del cluster dei controlli: Figura 33: L’immagine mostra i boxplot dei soggetti AD e dei controlli, disposti secondo la metrica descritta e classificati utilizzando le labels cliniche. I boxplot rispecchiano quanto mostrato dal dendrogramma. Coerentemente con la scelta dell’origine, la distribuzione dei soggetti classificati clinicamente come controlli hanno valori sulle ascisse inferiori rispetto alla distribuzione dei soggetti clinicamente classificati AD. L’area sotto la curva ROC, questa volta valutata misurando la distanza di tutti i soggetti dall’origine scelta, vale ' 0.93, con un valore di sensibilità ' 90% e un valore di specificità ' 84%. Ci saremmo aspettati un miglioramento dall’introduzione nell’analisi di ulteriori informazioni e dall’utilizzo di una metrica più aderente alla disposizione dei punti nello spazio delle immagini. Tuttavia, come abbiamo precedentemente detto (1.4.2), le decisioni prese riguardo alla metrica e al metodo adottati nel processo di clusterizzazione, riguardo alla distanza in base alla quale classificare i soggetti in AD e controlli, introducono ulteriori errori nel processo di analisi implementato e questo può essere il motivo per cui le prestazioni di questa seconda metrica sono inferiori rispetto a quanto ottenuto applicando la prima. 3.2.3 Metrica 3: proiezione dei punti su una componente principale Continuiamo la nostra analisi attraverso l’individuazione delle componenti principali dello spazio, come brevemente spiegato nel capitolo precedente 2.2.3.2. Anche in questo caso il segnale in base al quale classifichiamo i soggetti è legato all’intensità dei voxel, ma le caratteristiche che prendiamo in esame sono relative alla disposizione dei dati nello spazio delle immagini. 59 60 sviluppo del modello su una popolazione test Questo metodo di feature selection consente di allontanarci maggiormente dal problema clinico rispetto a quanto fatto analizzando le regioni di interesse e, così facendo, ci consente di generalizzare la nostra analisi e eventualmente di applicarla a problemi di diversa natura rispetto a quello studiato in questo lavoro di tesi. Anche in questo caso lo schema raffigurato nell’immagine 29 rappresenta i passaggi utilizzati per individuare le componenti principali dello spazio che permettono di distinguere maggiormente i 218 soggetti nei due gruppi. Al posto delle curve ROC relative al potere discriminante dei voxel, in questo caso si valutano le AUC legate alle direzioni dello spazio, una per ogni individuo coinvolto nell’analisi. Considerando singolarmente le direzioni individuate e ordinate a seconda del loro valore di AUC, non è necessario effettuare la media delle aree sotto la curva individuate. Iniziamo considerando la direzione dello spazio lungo la quale le differenze per distinguere i dati sono maggiormente esaltate, utilizzando nuovamente l’ipotesi che, a seguito del processo di normalizzazione e della feature selection, tali differenze siano legate, in primo luogo, alla presenza della patologia. La metrica in base alla quale classifichiamo i soggetti è la proiezione dei 218 punti lungo la direzione in esame, che per brevità chiameremo score. Per verificare la sue prestazioni ne valutiamo il suo discriminante attraverso la misura dell’area sotto la curva ROC. La seguente immagine (figura 34) mostra la curva ROC relativa alla classificazione dei soggetti in base allo score e la disposizione delle distribuzioni dei soggetti AD e dei controlli distinti a partire dalla clinica, raffigurate tramite boxplot. Figura 34: Sulla sinistra dell’immagine sono riportati i boxplot delle distribuzioni dei soggetti AD e dei controlli, disposte secondo lo score e classificate utilizzando la clinica. Il grafico a destra riporta la AUC che indica il potere discriminante di questa terza metrica. Paragonando le distribuzioni relative ai due gruppi in esame della figura 31 e della figura 34 si vede che la sovrapposizione delle di- 3.2 elaborazione del segnale: due metodi per la feature selection stribuzioni disposte in base allo score è maggiore rispetto a quanto ottenuto valutando la media dei conteggi per ogni soggetto. Questa caratteristica è ben rappresentata dai valori dell’area sotto la curva ROC misurata a partire dallo score, che vale ' 0.90, con un valore di sensibilità ' 85% e un valore di specificità ' 83%. Nonostante tali valori siano nuovamente paragonabili a quelli riportati in letteratura, che citiamo nuovamente [63, 64, 65], L’AUC è lievemente inferiore rispetto a quanto ottenuto con il precedente metodo di feature selection. 3.2.4 Metrica 4: distanza dal cluster dei controlli Passare da una analisi a più dimensioni ad analizzare un’unica direzione probabilmente fornisce una visione troppo limitata riguardo alla disposizione dei punti nello spazio studiato, che non ci consente di effettuare la loro classificazione al meglio. Per reintegrare nell’analisi parte del contenuto informativo tagliato, studiamo la disposizione di tutti i punti in uno spazio bidimensionale, selezionando una seconda componente principale. Quanto fatto equivale a considerare il piano su cui giacciono il maggior numero dei nostri dati per fornire un’analisi più veritiera della loro disposizione nell’intero spazio. A questo punto definiamo i parametri attraverso cui valutare tale disposizione e per farlo utilizziamo nuovamente la clusterizzazione. Con la distanza euclidea realizziamo i raggruppamenti dei dati, i quali saranno disposti all’interno di ogni cluster proprio secondo tale metrica, e, con il metodo ward, ordiniamo i vari gruppi individuati (2.2.4.2). 61 62 sviluppo del modello su una popolazione test Visualizziamo quanto ottenuto tramite dendrogramma: Figura 35: La figura mostra i 3 raggruppamenti ottenuti. In verde quello composto dal 95% di controlli, in rosso quello composto dal 95% di soggetti AD e il terzo, composto da soggetti provenienti da entrambe i gruppi, in blu. La figura 35 mostra i 3 raggruppamenti, ottenuti. Coerentemente con quanto fatto in precedenza il criterio in base al quale abbiamo scelto di effettuare i raggruppamenti è quello di individuare due gruppi puri al 95% rispettivamente contenenti controlli e AD. Il cluster dei controlli, in verde, contiene 67 soggetti, quello degli AD, in rosso, ha al suo interno 88 individui e il terzo, detto cluster misto, in blu, è formato da 63 soggetti provenienti da entrambe i gruppi analizzati. Ancora una volta la clusterizzazione è il punto di partenza per implementare una metrica che tenga conto della disposizione dei dati nel piano considerato e, per prima cosa, decidiamo di misurare la distanza dei punti a partire dal centro di massa del cluster dei controlli. 3.2 elaborazione del segnale: due metodi per la feature selection La figura 36 mostra le distribuzioni dei soggetti AD e dei controlli disposte secondo la nuova metrica: Figura 36: L’immagine mostra i boxplot dei soggetti AD e dei controlli, disposti secondo la metrica descritta e classificati utilizzando le labels cliniche. Le distribuzioni rappresentate in figura 36 sono costruite a partire dai risultati ottenuti dalla clusterizzazione. Si vede che quanto ipotizzato è confermato dalle immagini e l’ordine dei raggruppamenti viene rispettato anche dalla metrica utilizzata. Il valore misurato dell’area sotto la curva ROC vale ' 0.89 con un valore di sensibilità ' 85% e un valore di specificità ' 82%. Ancora una volta l’ultima AUC misurata è lievemente inferiore rispetto a quella valutata a partire dal singolo score, contrariamente a quanto ci saremmo aspettati. Oltre all’introduzione dei molteplici fattori d’errore dovuti alle scelte compiute, in questo caso abbiamo ridotto la nostra analisi su un piano selezionando solo due delle 217 componenti principali. Probabilmente basando la clusterizzazione sulla proiezione dei punti su più di due componenti il risultato migliorerebbe. 3.2.5 Compatibilità I metodi sinora implementati, sia che si basino sull’individuazione di particolari regioni di interesse, sia che si basino sull’individuazione di direzioni privilegiate nello spazio, hanno un valore di AUC, sensibilità e specificità paragonabili a quanto riportato in letteratura. 63 64 sviluppo del modello su una popolazione test A questo punto verifichiamo la compatibilità tra le prestazioni ottenute che, per praticità, riassumiamo nella seguente tabella 1. Gli intervalli di confidenza indicati sono ricavati tramite bootstrap (3.1.4). Metrica 1 Metrica 2 Metrica 3 Metrica 4 0.94[0.90 − 0.97] 0.93[0.89 − 0.95] 0.90[0.85 − 0.93] 0.89[0.85 − 0.93] Tabella 1: Tabella riassuntiva dei valori delle AUC individuate dalle 4 metriche. Gli intervalli di confidenza sono stati stimati tramite bootstrap. Tutti i valori delle AUC ottenuti sono compatibili tra di loro. Questo ci autorizza ad applicare indistintamente le metriche per distinguere i soggetti dell’analisi nei due gruppi di appartenenza e per verificare la prestazione del processo implementato su un dataset indipendente. 4 VA L I D A Z I O N E 4.1 4.1.1 validazione dei metodi La Cross-Validazione Validare un metodo significa verificare le capacità di estendere i risultati ottenuti a dataset non visti. Avendo pochi soggetti rispetto al numero di variabili trattate, utilizziamo un metodo di validazione interna detto di Cross-validazione [60]. La cross-validazione si utilizza quando il campione studiato ha una numerosità che non consente di generare sottogruppi che formino dataset indipendenti. Nel nostro caso i dati analizzati sono 218 di cui 81 classificati AD e 137 controlli. La numerosità dei sottogruppi consentirebbe di applicare metodi alternativi di validazione, ma abbiamo verificato che i dati in essi contenuti non sono indipendenti e sia il gruppo dei controlli che quello degli AD sono al loro interno ulteriormente divisibili in “sottocluster” composti da pochi dati. La cross-validazione da noi utilizzata consiste nell’estrarre casualmente dal dataset in esame un numero k di dati. Il numero di dati estratti deve essere tale da non compromettere la validità statistica del campione formato dai dati restanti, così facendo si ottengono due gruppi distinti: uno più numeroso, che chiameremo “training set” e un gruppo formato dai dati estratti, che chiameremo “validation set”. Dopo l’estrazione si prosegue con l’analisi, essa viene condotta n volte e al termine di ogni ciclo vengono inseriti nuovamente i dati del validation set nel dataset iniziale. Se n è grande si ha una buona probabilità di aver estratto, al termine del processo di validazione, tutti i dati almeno una volta, quindi si procede alla classificazione dei vari validation set. Nel nostro caso il dataset consiste nelle 218 immagini in esame, da esse estraiamo casualmente 5 soggetti per 100 volte, reintegrando ogni volta i soggetti estratti nel dataset iniziale, in modo che, ogni ciclo, il training set abbia al suo interno 213 individui. A partire dai training set, per entrambe i metodi di feature selection utilizzati, si ripercorre l’intera analisi implementata; dalla scelta delle zone di interesse, alla selezione delle componenti principali, quindi si applica la clusterizzazione e, per ogni ciclo, si calcolano le metriche e si valuta la distanza dei punti del validation set dall’origine, che corrisponde, come nell’analisi svolta, al centroide del cluster avente al suo interno una percentuale di controlli almeno corrispondente al 95%. 65 66 validazione Quindi si riclassificano le immagini FDG-PET dei 100 validation set, per entrambi i metodi implementati, ipotizzando, essendo molti i cicli di analisi eseguiti, che sia alta la probabilità di classificare nuovamente almeno una volta tutti i soggetti dell’analisi sia con la PCA che con l’individuazione delle ROI e, infine, si calcola il valore dell’area sotto la curva ROC ottenuta dalla cross-validazione. 4.1.2 Considerazioni sulla validazione dei metodi Valutare le prestazioni delle metriche implementate a partire da quanto ottenuto dalla cross-validazione, significa confrontare aree sotto la curva ROC derivate dall’applicazione dello stesso metodo di analisi su diversi set di dati, non indipendenti. Per farlo abbiamo utilizzato il processo riportato in letteratura [66, 67] che considera la correlazione tra i dati e, trattando le distribuzioni come gaussiane, fornisce una tabella di conversione in base alla quale valutare la correlazione delle aree sotto la curva ROC. Poiché le 4 metriche utilizzate sono risultate equivalenti, eseguiamo la validazione di due di esse: la metrica 2, che classifica i soggetti valutando la distanza euclidea dal cluster dei controlli, nell’ambito del metodo di feature selection basato sull’individuazione delle ROI, e la metrica 4, equivalente alla 2, ma nell’ambito della PCA. La seguente tabella 2 riporta i valori delle AUC ottenute dal processo di cross-validazione Metrica 2 Metrica 4 0.88 0.85 Tabella 2: Tabella riassuntiva dei valori delle AUC ottenute a seguito della validazione. Le AUC calcolate risultano confrontabili con quelle presentate nel capitolo, riassunte nella tabella 1. Ciò significa che i due diversi metodi di feature selection possono essere utilizzati indistintamente o insieme per classificare soggetti non noti. 4.2 ottimizzazione delle metriche 4.2 ottimizzazione delle metriche La capacità di classificare i soggetti nel gruppo dei controlli e in quello degli AD è fornita dai valori di sensibilità e specificità di ogni metrica, riassunti nella tabella 3. Metrica 1 Metrica 2 Metrica 3 Metrica 4 Sensibilità 0.91 0.90 0.85 0.85 Specificità 0.88 0.84 0.83 0.82 Tabella 3: La tabella riporta i valori di sensibilità e specificità di ogni metrica Il cutoff in base al quale vengono stimati i valori in tabella sono riportati nel paragrafo 3.1.4. Come accennato nel medesimo paragrafo, per migliorare le prestazioni delle metriche utilizziamo altri tagli, raffigurati in figura 28, grazie ai quali portiamo i valori di sensibilità e specificità al 95%. Così facendo otteniamo una diversa classificazione dei soggetti rispetto a quanto stimato utilizzando un singolo cutoff e individuiamo tre raggruppamenti per ogni metrica: un gruppo di soggetti classificati controlli con un livello di confidenza pari o superiore al 95%, un gruppo di AD, classificati con lo stesso CL, e un terzo gruppo di soggetti il cui valore della metrica, “cadendo” all’interno dei tagli, può essere classificato solo a CL inferiori. 67 68 validazione La seguente immagine (figura 37) mostra le distribuzioni relative alle metriche implementate. Attraverso le rette verticali sono indicati i nuovi tagli e, tra di essi tratteggiato, il cutoff da cui sono stati valutati i valori di sensibilità e specificità della tabella 3. Figura 37: L’immagine mostra le distribuzioni di controlli, in rosso, e AD, in blu, disposte secondo le 4 metriche implementate. Le rette in ogni immagine raffigurano i tagli che portano ad avere sensibilità e specificità uguali a 95% e tra di essi, tratteggiato, il cutoff in base al quale sono stati stimati i precedenti valori di sensibilità e specificità. Osservando i grafici dell’immagine 37 si vede che la sovrapposizione delle distribuzioni rispecchia i valori delle loro prestazioni: le metriche aventi valori di AUC maggiori hanno zone comprese tra i tagli più piccole e, conseguentemente, un numero di soggetti classificati con un CL ≥ 0.95 più alto. I grafici in alto a sinistra e a destra mostrano rispettivamente le distribuzioni dei controlli, in rosso, degli AD, in blu, e la zona di sovrapposizione relative alle metriche 1 e 3. Le distribuzioni di controlli e AD sono distinte in base alle classificazioni cliniche dei soggetti. Nel caso delle metriche 2 e 4, le cui prestazioni sono rispettivamente rappresentate in basso a sinistra e a destra, è stata utilizzata la clusterizzazione per dividere i dati nei vari gruppi. Le curve rosse e blu indicano le distribuzioni ottenute valutando la distanza dall’origine scelta dei cluster individuati: in rosso quello dei controlli, in blu quello degli AD e tratteggiato il cluster misto; infine sono state rappresentate tramite le curve rossa e blu tratteggiate le distribuzioni dei controlli e degli AD all’interno di questo terzo cluster. La disposizione dei cluster è coerente con quanto mostrato dai dendrogramma delle immagini 32,35 in base alla scelta dell’origine (3.2.2). Riferendoci al grafico 37 relativo alla metrica 4 si vede che i tagli sono stati valutati a partire dalla curva ROC relativa alla distribuzione del cluster misto e non a partire da tutti i dati come negli altri 3 casi, questo perché il cluster dei controlli e degli AD sono completamente 4.2 ottimizzazione delle metriche separati. Se avessimo stimato i tagli a partire dall’intero campione di soggetti avremmo quindi considerato un’ampiezza superiore della zona di sovrapposizione delle distribuzioni peggiorando le prestazioni del metodo di analisi implementato. La classificazione è riassunta nelle seguenti tabelle (4,5). La prima fornisce il numero di soggetti individuati da ogni metrica nei vari gruppi. Metrica 1 Metrica 2 Metrica 3 Metrica 4 Controlli CL ≥ 0.95 103 95 87 93 AD CL ≥ 0.95 66 58 41 36 Altri CL ≤ 0.95 49 65 90 89 Tabella 4: La tabella riassume le prestazioni delle 4 metriche: La prima e la seconda riga indicano rispettivamente il numero di controlli e di AD classificati con un CL ≥ 0.95. La terza indica il numero di soggetti classificati a CL inferiori. Nella seconda sono valutate le percentuali sull’intero campione formato da 218 soggetti: Metrica 1 Metrica 2 Metrica 3 Metrica 4 Controlli CL ≥ 0.95 0.47 0.44 0.40 0.43 AD CL ≥ 0.95 0.30 0.27 0.19 0.16 Altri CL ≤ 0.95 0.23 0.29 0.41 0.41 Tabella 5: La tabella riassume le prestazioni delle 4 metriche: La prima e la seconda riga indicano rispettivamente la percentuale di controlli e di AD classificati con un CL ≥ 0.95. La terza indica quella dei soggetti classificati a CL inferiori. Il numero di soggetti totali su cui sono state valutate le percentuali è 218. Facendo riferimento alla tabelle notiamo che le percentuali rispecchiano la composizione complessiva della popolazione analizzata, che è formata dal 63% di controlli e dal restante 37% di AD. Infatti le prestazioni delle 4 metriche individuano percentuali maggiori di soggetti appartenenti ai controlli e percentuali inferiori di individui affetti dalla malattia di Alzheimer. 69 70 validazione 4.3 risultati della prestazione complessiva Prima di procedere all’applicazione del metodo implementato su un dataset indipendente, riassumiamo le prestazioni ottenute nel precedente capitolo. Nella tabella 5 abbiamo riportato le percentuali di controlli e AD classificati con un CL ≥ 0.95 e dei soggetti che ogni metrica classifica a CL inferiori, valutandole sull’intero campione di 218 individui. Nella tabella 6 riportiamo nuovamente i valori riguardanti questi due gruppi di soggetti, ma valutando le percentuali di AD e controlli classificati con un CL ≥ 0.95 sul totale dei rispettivi gruppi clinici analizzati; in modo tale che risulti più chiara la bontà dei processi implementati. Metrica 1 Metrica 2 Metrica 3 Metrica 4 Controlli CL ≥ 0.95 0.75 0.69 0.64 0.68 AD CL ≥ 0.95 0.82 0.72 0.51 0.44 Tabella 6: La tabella riassume le prestazioni delle 4 metriche e indica la percentuale di AD e controlli individuati correttamente con un CL ≥ 0.95. La compatibilità delle metriche (3.2.5) ci porta a concludere che tutte le procedure siano utilizzabili equivalentemente, ma metodi diversi di feature selection selezionano diverse caratteristiche del segnale cercato, quindi è interessante chiedersi se, applicando tutte le metriche analizzate, non si riesca a migliorare la prestazione complessiva dell’analisi. Scegliamo approcci diversi per valutare le prestazioni delle metriche insieme, a seconda del CL con il quale vengono classificati i soggetti. Gli individui riconosciuti da tutte le 4 metriche AD o controlli, con CL ≥ 0.95, vengono ricollocati nei rispettivi gruppi e quelli classificati AD da una metrica e controlli da un’altra, col medesimo CL, vengono identificati come “casi conflittuali”. Rimangono da classificare i soggetti collocati almeno da una metrica nella zona di sovrapposizione delle distribuzioni e quindi classificati almeno una volta a CL ≤ 0.95. In questo caso, se almeno una delle 4 metriche li riconosce AD o controlli a CL ≥ 0.95 li consideriamo correttamente classificati dalla metrica in questione; se, invece, tutte le metriche li collocano nella zona delimitata dai tagli, allora rimangono classificabili solo a CL ≥ 0.95. 4.4 validazione dei metodi su un dataset indipendente 71 Di seguito (tabella 7) riportiamo le percentuali dei soggetti classificati ai vari CL, considerati in base a quanto appena descritto; le percentuali sono valutate sull’intera popolazione di 218 individui. Controlli CL ≥ 0.95 AD CL ≥ 0.95 Altri CL ≤ 0.95 Casi conflittuali 0.57 0.33 0.08 0.02 Tabella 7: La tabella riporta la prestazione dell’intero processo ottenuto considerando insieme i risultati delle 4 metriche. La prima colonna riporta la percentuale dei soggetti classificati come controlli, la seconda di quelli classificati AD, la terza i soggetti classificati con un livello di confidenza inferiore al 0.95% e la quarta indica la percentuale di soggetti classificati AD con una metrica e controlli con un’altra. Le percentuali sono valutate sull’intera popolazione di 218 individui. Dalla tabella 7 si vede che utilizzando insieme le metriche la prestazione del processo complessivo è molto migliore rispetto a quelle ottenute valutando ogni metrica singolarmente. La prima colonna riporta la percentuale di controlli, la seconda quella di soggetti classificati AD, ma il risultato importante, grazie al quale possiamo affermare che il processo complessivo migliora le prestazione dei singoli metodi di analisi, è la diminuzione della percentuale di soggetti classificati con un livello di confidenza al di sotto del 95%; che passa dal 23%, risultato ottenuto utilizzando la metrica con la migliore prestazione (tabella 1), all’8% ( tabella 7). Il motivo per cui la prestazione complessiva migliora la classificazione dei soggetti verrà trattato dettagliatamente nel seguito di questo lavoro di tesi, per ora ci basti prendere atto di tale effetto. 4.4 validazione dei metodi su un dataset indipendente Con gli stessi criteri di selezione delle immagini esposti trattando del Quality Check (3.1.1), abbiamo scelto 86 nuove FDG-PET e formato un nuovo dataset. Benché indipendente dai gruppi utilizzati per implementare le metriche, il nuovo dataset non rappresenta l’intera popolazione inizialmente analizzata, ma costituisce un sotto-campione specifico della stessa. Gli 86 soggetti presi in esame, al momento dell’immagine analizzata, facevano parte della categoria clinica degli MCI, ma sono risultati affetti dalla malattia di Alzheimer nel giro di 2 o 3 anni; quindi, a posteriori, tali individui sono stati clinicamente classificati MCI-co. Poiché gli MCI sono una categoria clinica intermedia tra i controlli e gli AD, il risultato che ci aspettiamo di osservare è di collocare le distribuzioni individuate, applicando le 4 metriche a questi 86 soggetti, 72 validazione tra quelle dei due gruppi precedentemente analizzati. A causa della parziale rappresentatività di questo gruppo, ci aspettiamo di ottenere prestazioni complessive inferiori. Seguendo i passi del processo automatico, presentati nel paragrafo 2.2 che vanno dalla normalizzazione sino alla classificazione e utilizzando i metodi d’analisi descritti in dettaglio nel capitolo 3, elaboriamo le 86 immagini dei soggetti MCI-co. Basandoci sui riferimenti delle varie fasi della procedura implementata, calcoliamo le prestazioni delle 4 metriche su questo dataset. La prime due misure sono legate al metodo di feature selection basato sull’individuazione delle ROI (2.2.3.1): la prima metrica misura la media dei conteggi degli MCI sui 2050 voxel della ROI rappresentata in figura 30, la seconda la distanza euclidea degli MCI dal cluster dei controlli raffigurato nel dendrogramma 32. Esprimendo gli MCI come combinazione lineare delle componenti dello spazio individuate dalla PCA (2.2.3.2), la terza metrica valuta le proiezioni degli 86 punti sulla componente principale indicata nel paragrafo 3.2.3 e la quarta si basa nuovamente sulla distanza euclidea degli 86 MCI, ma valutata a partire dal cluster dei controlli raffigurato nel dendrogramma 35. 4.4 validazione dei metodi su un dataset indipendente L’immagine 38 mostra le distribuzioni dei controlli, in rosso, degli AD, in blu e degli MCI, in nero, ordinate secondo le 4 metriche precedentemente descritte. Le rette raffigurate nell’immagine rappresentano i tagli in base ai quali sono stati classificati i soggetti della popolazione test, formata da 218 individui (tabelle 4, 5), e in base ai quali classifichiamo i soggetti del nuovo dataset. Figura 38: L’immagine mostra le distribuzioni dei controlli, in rosso, degli AD, in blu, e degli MCI, in nero, disposte secondo le 4 metriche implementate. Le rette in ogni immagine raffigurano i tagli in base ai quali sono valutati i diversi CL con cui classificare i soggetti MCI. Si vede che le distribuzioni sono disposte coerentemente rispetto all’ipotesi precedentemente formulata, cioè la distribuzione dei soggetti MCI si trova tra le altre due. Questo significa che le metriche utilizzate classificano gli MCI come una categoria clinica intermedia tra controlli e AD come ci saremmo aspettati. Inoltre, confrontando l’immagine 38 con i valori riportati nella tabella 1, si vede che anche la classificazione degli MCI è coerente con i valori di AUC misurati e che minore è il potere discriminante delle metriche più ampia è la porzione di distribuzione relativa agli MCI collocata tra i tagli. Nelle seguenti tabelle (8,9) riportiamo la classificazione ottenuta. La prima fornisce il numero di MCI riconosciuti da ogni metrica come facenti parte del gruppo degli AD o dei controlli, con un livello di confidenza ≥ 0.95, o classificati a CL inferiori. 73 74 validazione Metrica 1 Metrica 2 Metrica 3 Metrica 4 Controlli CL ≥ 0.95 10 7 22 22 AD CL ≥ 0.95 45 38 22 13 Altri CL ≤ 0.95 31 41 42 51 Tabella 8: La tabella riassume le prestazioni delle 4 metriche: La prima e la seconda riga indicano rispettivamente il numero di MCI-co attribuiti erroneamente al gruppo dei controlli e quelli classificati AD con un CL ≥ 0.95. La terza indica il numero di soggetti classificati a CL inferiori. Nella seconda gli stessi risultati sono riportati in percentuale, valutata sulla popolazione formata dagli 86 MCI-co: Metrica 1 Metrica 2 Metrica 3 Metrica 4 Controlli CL ≥ 0.95 0.12 0.08 0.26 0.26 AD CL ≥ 0.95 0.52 0.44 0.26 0.15 Altri CL ≤ 0.95 0.36 0.48 0.48 0.59 Tabella 9: La tabella riassume le prestazioni delle 4 metriche: La prima riga indica la percentuale di controlli individuati da ogni metrica con un CL ≥ 0.95, la seconda la percentuale di AD, individuati con lo stesso CL, e la terza indica i soggetti classificati a CL inferiori. Il numero di soggetti totali su cui sono state valutate le percentuali è 86. La classificazione ottenuta a partire dalle prime due metriche è coerente con quanto atteso e la maggior parte dei soggetti MCI vengono identificati correttamente come AD, anticipando la clinica. Nel caso delle metriche 3 e 4 il numero di soggetti classificabili con CL ≤ 0.95 supera gli altri gruppi confermando che tali metodi di analisi sono meno efficienti, come indicato dai valori delle AUC (tabella 1). 4.5 risultati della prestazione complessiva Ricordando che metodi diversi prendono in esame aspetti diversi del segnale, anche in questo caso ci aspettiamo che mettendo insieme le informazioni, quindi considerando più caratteristiche dello stesso, la prestazione del metodo complessivo migliori. 4.5 risultati della prestazione complessiva 75 Di seguito (tabella 10) riportiamo le percentuali, valutate sul dataset degli MCI-co, ottenute utilizzando le 4 metriche insieme, come spiegato nel paragrafo 4.3. Controlli CL ≥ 0.95 AD CL ≥ 0.95 Altri CL ≤ 0.95 Casi conflittuali 0.21 0.52 0.18 0.09 Tabella 10: La tabella riporta la prestazione dell’intero processo ottenuto utilizzando insieme i risultati delle 4 metriche. La prima colonna riporta la percentuale dei soggetti MCI classificati come controlli, la seconda quelli classificati AD, la terza i soggetti classificati con un livello di confidenza inferiore al 0.95%. Infine la quarta indica la percentuale di soggetti classificati AD con una metrica e controlli con un’altra. Osservando i risultati riportati in tabella 10 confermiamo che, utilizzando tutte le metriche, la prestazione del processo complessivo è migliore rispetto a quanto ottenuto valutando ogni metrica singolarmente. Il rate di soggetti classificati con un livello di confidenza inferiore al 95% passa, infatti, dal 36% ottenuto con la metrica avente le prestazioni migliori, al 15% ottenuto grazie all’utilizzo delle 4 metriche insieme. A conferma di quanto detto, a causa del fatto che gli MCI-co rappresentano solo parzialmente il gruppo di soggetti utilizzato come test, le prestazioni del metodo complessivo sono inferiori rispetto a quanto riportato nella tabella 7; tuttavia le classificazioni ottenute sono paragonabili con i risultati riportati in letteratura [63, 64]. 5 DISCUSSIONE 5.1 discussione dei risultati Il motivo per cui abbiamo applicato diversi metodi è legato al fatto che, indagando caratteristiche differenti delle immagini, possono esaltare aspetti del segnale che possono essere utilizzati in maniera complementare per migliorare le prestazioni globali del metodo di classificazione dei dati. Questo ultimo aspetto può essere verificato attraverso la correlazione delle metriche utilizzate: due metriche correlate considerano aspetti simili del sistema studiato e utilizzarle insieme non comporta un sostanziale miglioramento dell’analisi. Minore è la correlazione tra le metriche, più alto è il numero di caratteristiche differenti del segnale prese in considerazione che, insieme, forniscono una visione più completa dell’effetto studiato e una classificazione più efficiente dei gruppi in esame. Di seguito riportiamo il grafico (figura 39) che fornisce la correlazione tra le 4 metriche adottate (3.2.1, 3.2.2, 3.2.3, 3.2.4), sia per quanto riguarda la popolazione TEST formata da 218 soggetti, sia per gli 86 MCI-co. Figura 39: L’immagine mostra la correlazione tra le 4 metriche. Le metriche che si riferiscono a diversi metodi di feature selection (1-3 e 1-4; 2-3 e 2-4) sono meno correlate. Le metriche basate sullo stesso metodo (1-2 e 3-4) hanno correlazioni più alte. Si vede che le metriche 1-3, 1-4, 2-3 e 2-4 sono poco correlate. Questo conferma il fatto che utilizzando metodi basati su diversi tipi di 77 78 discussione feature selection, si indaghino caratteristiche differenti del segnale. La forma dei grafici in figura 39, relativi alle metriche 1-3, 1-4, 2-3, 2-4, mostra che i dati agli estremi non si possono considerare completamente scorrelati. Questo implica, quindi, che anche utilizzando metodi di analisi basati su aspetti differenti delle immagini non è garantita l’indipendenza delle informazioni esaminate. La correlazione tra le metriche 1-2 e 3-4 che, al contrario, sono diverse misure dello stesso metodo di feature selection è alta sia nel caso basato sull’individuazione di particolari regioni di interesse (1-2), sia che si osservino le componenti principali dello spazio (3-4). Il grado di correlazione può essere fortemente legato alla natura della selezione operata: nel caso del metodo basato sulle ROI le variabili esaminate sono 2050 e il grafico 39 mostra che la media dei conteggi (3.2.1) e la distanza dal cluster dei controlli (3.2.2) danno indicazioni correlate ma non identiche. Nel caso della PCA, abbiamo considerato prima una sola componente dello spazio (3.2.3), poi due (3.2.4), e le informazioni ricavate sono sostanzialmente uguali. Se avessimo considerato un meggior numero di componenti probabilmente la correlazione dei dati sarebbe stata inferiore. Concludendo, il miglioramento delle prestazioni complessive ottenuto utilizzando le 4 metriche insieme è dovuto al fatto che parte di esse sono poco correlate e forniscono informazioni complementari. Un’altra caratteristica ricavabile confrontando le metriche è l’andamento dell’errore sulla classificazione dei soggetti, semplicemente legato alla scelta del metodo di analisi (1.4.2). Quest’ultimo non è legato alle prestazioni della metrica adottata e dipende dal fatto che non si conoscono la forma e le caratteristiche del segnale cercato. Se, infatti, esistesse una procedura ben definita per l’estrazione del segnale e la caratterizzazione dell’errore ad esso legato non si dovrebbe tenere conto dell’eventualità di poter introdurre un’ulteriore fonte di disturbo scegliendo un metodo di analisi non adeguato. 5.1 discussione dei risultati Il seguente grafico (figura 40), riporta la varianza dei dati in funzione della media dei percentili corrispondenti ai valori attribuiti ad ogni soggetto, appartenente alla popolazione TEST o agli MCI-co, dalle 4 metriche. Oltre all’errore legato alla classificazione di ogni soggetto, è riportato il fit, in blu, con la sua incertezza, in azzurro. Figura 40: Il grafico mostra l’andamento della varianza in funzione della media dei percentili corrispondenti ai valori dei 218 soggetti della popolazione test e degli 86 MCI-co valutati con le 4 metriche. La curva blu rappresenta il fit e la banda in azzurro l’incertezza ad esso legata. Osservano l’andamento del fit in figura 40 si vede che l’errore sui dati agli estremi del grafico è minore rispetto a quello relativo ai percentili centrali delle metriche. Questo significa che tendenzialmente i soggetti classificati ad alti CL sono ben classificati a prescindere dal metodo di analisi adottato per farlo, in quanto l’errore legato alla scelta del metodo è piccolo. Il tutto si complica trattando i dati il cui percentile medio si trova tra 0.3 e 0.7 dell’immagine 40, cioè per quei soggetti classificabili solo a livelli di confidenza bassi. In questi casi è possibile che utilizzando un metodo di analisi essi vengano classificati in un gruppo e, con un altro, vengano classificati diversamente. 79 80 discussione In questi casi le possibilità di classificare correttamente il segnale aumentano considerando più metodi di analisi diversi. 5.1.1 Considerazioni conclusive Analizzando insieme i grafici 39 e 40 possiamo concludere che utilizzare più metriche insieme per classificare una popolazione di soggetti aumenta le prestazioni della classificazione stessa. I soggetti ben classificati rimangono tali per ogni metodo di analisi; poiché l’errore legato alla scelta del metodo stesso è basso e utilizzare una o più metriche risulta equivalente. D’altra parte l’errore legato alla scelta del metodo di analisi per classificare i restanti soggetti prescinde dalle prestazioni del metodo stesso ed è grande; quindi conviene considerare più aspetti del segnale il meno dipendenti possibile per migliorare le prestazioni complessive. In base a quanto osservato forniamo una conclusione riguardo alle ipotesi formulate nel paragrafo 1.4.2 riguardanti il rumore dovuto al processo di elaborazione delle immagini. 5.2 ulteriori considerazioni metodologiche 5.2.1 Confronto tra Registrazione Deformabile e Affine. La scelta di effettuare la trasformazione deformabile dopo aver applicato la trasformazione affine (3.1.2), nonostante i valori di correlazione tra le immagini e il template (10, 12) non mostrino un significativo miglioramento del processo di registrazione, è legata al fatto che il guadagno non sia globale, ma che localmente la migliore sovrapposizione delle strutture cerebrali porti ad affinare la classificazione dei soggetti. Per confermare tale affermazione abbiamo utilizzato la metrica che singolarmente fornisce prestazioni migliori (3.2.1) e, applicando lo stesso processo d’analisi alle immagini registrate affini, abbiamo calcolato l’area sotto la curva ROC. I risultati nei due casi sono riportati di seguito: AUCDe f ' 0.94[0.90 − 0.97] AUC A f f ' 0.82[0.78 − 0.86] (16) Le restanti metriche portano risultati coerenti con quello mostrato e un conseguente peggioramento delle prestazioni globali del metodo, motivando l’utilizzo della trasformazione deformabile. 5.2 ulteriori considerazioni metodologiche 5.2.2 Normalizzazione d’Intensità e Feature Selection L’intento della normalizzazione in intensità è quello di esaltare le differenze tra i soggetti appartenenti ai diversi gruppi e l’operazione di feature selection è volta ad amplificare tale risultato. Non sapendo quali sono le caratteristiche dell’immagine nel quale è nascosto il segnale, effettuare una selezione delle variabili, può portare a modificarlo o renderlo poco visibile. È necessario, quindi, mostrare il guadagno relativo all’applicazione dei metodi di feature selection nell’individuazione delle differenze delle distribuzioni rispetto al contributo portato dalla normalizzazione, per motivare il suo utilizzo. Nonostante la registrazione abbia esaltato le differenze legate alla presenza della patologia diminuendo le altre, il numero elevato di voxel e quindi l’eccessivo contenuto informativo nasconde il segnale contenuto nelle immagini. La figura 41 mostra le distribuzioni legate alla media dei conteggi dei controlli, in rosso, degli AD, in blu, e degli MCI-co, in nero, dopo l’equalizzazione e prima della selezione di particolari regioni di interesse. Figura 41: La figura mostra le distribuzioni dei conteggi medi dei 3 gruppi di soggetti considerati. I controlli, in rosso, gli AD, in blu, e gli MCI-co, in nero, prima della feature selection. L’imagine 41 mostra che le curve risultano sostanzialmente sovrapposte. Questo indica che le differenze legate alla patologia non sono rese evidenti dalla sola normalizzazione d’intensità e i soggetti non potrebbero essere classificati. 81 82 discussione Selezionando determinate ROI (30), le distribuzioni legate alla stessa metrica (figura 42) risultano distinguibili. Figura 42: La figura mostra le distribuzioni dei conteggi medi dei 3 gruppi di soggetti considerati. I controlli, in rosso, gli AD, in blu, e gli MCI-co, in nero dopo la selezione di particolari regioni di interesse. I tagli, in nero, corrispondono al 95% di sensibilità e specificità della media dei conteggi della popolazione TEST Quanto osservato dimostra la necessità di applicare metodi di feature selection. 5.2.3 ROI e Modello “Cascata Amiloide” I soggetti MCI analizzati fanno parte di quel 50% di questa categoria clinica che converte in AD (2.1.1). Ci aspettiamo che le aree cerebrali che consentono di distinguerli maggiormente dai controlli siano, almeno macroscopicamente, coincidenti con quelle che distinguono i soggetti AD da chi non è affetto dalla patologia in esame. 5.2 ulteriori considerazioni metodologiche Di seguito riportiamo un’immagine (figura 43) che raffigura le zone che maggiormente distinguono gli MCI dai controlli, per verificare i fondamenti dell’ipotesi appena formulata. Figura 43: L’immagine a sinistra mostra la regione cerebrale che permette di differenziare controlli e MCI. A destra sono raffigurate le zone che differenziano i controlli dai soggetti AD. In entrambe le immagini le ROI sono in rosso, sovrapposte al template, rappresentato in scala di grigi. Le aree cerebrali evidenziate in rosso e sovrimpresse sul template, raffigurato in scala di grigi, hanno una diversa ampiezza rispetto alle ROI utilizzate per la feature selection, raffigurate in figura 43 a destra, ma si vede che macroscopicamente coincidono. Tutto questo, oltre a confermare la scelte delle ROI da noi utilizzate, mostra che le zone colpite dalla neurodegenerazione sia negli AD che negli MCI sono circa le stesse. Nonostante la classificazione clinica degli MCI come AD avvenga solo due o tre anni dopo la realizzazione delle immagini analizzate, le “tracce” della patologia sono già presenti e visibili, come sostenuto dal modello “Cascata Amiloide” (2.1.2). 83 6 CONCLUSIONI L’analisi svolta in questo lavoro di tesi si basa su sistemi difficilmente inquadrabili nel paradigma fisico di misura a causa dell’assenza di un modello eziologico esatto da utilizzare per inquadrare il fenomeno in esame. Non essendo note le cause che lo determinano non si conoscono né forma né caratteristiche del segnale cercato e per individuarlo è necessario elaborare un diverso paradigma di misura basato sul confronto di due popolazioni: la prima in cui si attesta la presenza del segnale, la seconda in cui esso è assente. Utilizzando questo approccio il metodo adottato per l’individuazione del segnale rientra nella definizione del segnale stesso. Quindi, per determinare l’incidenza della scelta relativa al metodo di analisi sulla sua caratterizzazione abbiamo implementato 4 differenti metriche. Poiché il segnale è quantificabile unicamente attraverso la valutazione dell’efficacia della classificazione dei dati nei loro gruppi di appartenenza, dopo una fase di elaborazione preliminare, volta a minimizzare le differenze che non fossero legate alla presenza del segnale cercato, abbiamo valutato le prestazioni di ogni metrica. Inizialmente applicandole a una popolazione, formata da 218 soggetti, poi con un dataset indipendente costituito da 86 individui. Infine abbiamo utilizzato insieme i 4 metodi di analisi cercando di massimizzare le prestazioni complessive del processo implementato. I risultati ottenuti confermano che utilizzando misure indipendenti, che indagano caratteristiche differenti dei dati analizzati, si ottengono informazioni complementari che forniscono, se utilizzate insieme, una visione più completa dell’effetto studiato e una classificazione più efficiente dei gruppi in esame. Inoltre abbiamo stimato l’entità dell’incertezza dovuta al processo di elaborazione: i dati che ogni metrica classifica ad alti livelli di confidenza rimangono ben classificati a prescindere dal numero di metodi utilizzati insieme, in quanto l’errore stimato legato alla scelta del metodo stesso è piccolo. Contrariamente, nel caso in cui i dati siano stati classificati dalle singole metriche a bassi livelli di confidenza, le possibilità di migliorare le prestazioni aumentano considerando più metodi di analisi indipendenti. In base alle conclusioni tratte possiamo affermare che in campo medico, utilizzando insieme metriche indipendenti per l’individuazione dei biomarcatori che segnalano la presenza della patologia, si otterrebbe una migliore classificazione clinica dei soggetti analizzati. 85 86 conclusioni Uno sviluppo naturale di questo lavoro di tesi riguarda la valutazione dei parametri in base ai quali stimare l’indipendenza dei vari metodi di analisi che si intende implementare, in modo da massimizzare la complementarietà delle informazioni da essi osservate per riuscire ad indagare più aspetti del segnale da caratterizzare. RINGRAZIAMENTI E ora alcuni dicono che scrivendo i ringraziamenti si tiri un respiro di sollievo perché non vengono corretti e, certamente, non posso dire non sia vero. Altri affermano di stare scrivendo il paragrafo più complesso e il più letto dell’intera tesi. Altri ancora si scusano perché se ringraziassero davvero tutti probabilmente la tesi raddoppierebbe e, anche questo, è indubbiamente una realtà. Io scrivo questi ringraziamenti con un filo di malinconia, consapevole e orgogliosa del cammino lasciato alle spalle e incuriosita da ciò che ho davanti. Si chiamano ringraziamenti no? e allora iniziamo a ringraziare... Ovviamente per la costanza e la tenacia con le quali mi hanno SUPPORTATO e SOPPORTATO in questi anni ringrazio per prima la mia famiglia. Mia mamma, che ha sempre provato a ricordare che da qualche parte, nel profondo, tra tutta la fisica ammassata qua e la, si nascondono le mie origini da classicista, che costituiscono la base della mia cultura e mi hanno aiutato a essere quella che conoscete. Il mio fratellino, esplosivo in tutte le sue manifestazioni, magnifico contraltare del mio carattere e, per questo, importantissimo sostegno. È necessario specificare che con famiglia intendo quella da cui provengo, ma sento tale anche la persona con cui ne sogno una futura. Ringrazio il mio marinaio per riuscire a essere sempre presente anche da lontano, per avere sempre la dose di spensieratezza che serve a rendere oggettive le mie tragicomiche avventure, per intrecciare i suoi ai miei piedi gelati sotto le coperte, dopo una serata passata a litigare su inutili scemate, e per essere il mio compagno di giochi e divertenti risate. Passiamo alle cose serie: ringrazio il Professor Squarcia e il Professor Calvini per avermi seguito e consigliato in questo lavoro di tesi con estrema cura e precisione. Ed eccoci giunti ai ringraziamenti spinosi: mi hanno sopportato per più di un anno, hanno tentato in tutti i modi possibili di comprendere il mio buffo carattere e, nonostante tutto, alla fine, mi hanno fatto sentire a casa. Ringrazio Martina, compagna di infinite discussioni, prezioso riferimento e aiuto, gli ILLUSTRISSIMI SENSI SENSEI (JUNIOR) e il neo papà Luca, che mi hanno aiutata e guidata nel magico mondo di matlab con infinita e infinita e ancora infinita pazienza e Diego, compagno dei miei pranzi al difi. Si sa, per ultima si tiene la “creme”, un GRAZIE SPECIALE AL CAPO: DOTTOR CHINCARINI SENSEI (SENIOR), con estrema fatica ha imparato a spronarmi e incoraggiarmi sino a scommettere, ormai disperato, con PAOLO (GIUSTO PER RICORDARLO...) che non 87 88 conclusioni mi sarei laureata. Non è stato semplice da digerire, ma è stata indubbiamente la molla per spingermi a lavorare nel modo giusto. Sotto la sua guida sono cresciuta e ho imparato che riflessione, continuità e costanza, benché scomode e faticose alla fine premiano. Almeno per oggi possiamo dire che ho capito...Dottor Chincarini. E ora tutti gli altri: Ringrazio Mirko e Linda Anzalone (Linda mi abituerò al suono solo al primo anniversario) testimoni di tutte le mie scelte e di tutte le facciate prese e sempre presenti per aiutarmi a rimettermi in piedi. Ringrazio Ricky col quale sono cresciuta, che ha ascoltato la tesina dell’esame di maturità seduto sul mio letto, correggendo la mia pronuncia inglese, e ora brinda con me alla conclusione di questo lungo e faticoso percorso che finisce con la parole dottore. Ringrazio Pietro, non so come tenacemente è riuscito a superare la mia completa inabilità a mantenere vivi i rapporti, rimanendo un carissimo amico e un fidato consigliere. Ringrazio Irene, Silvia e Ilaria, le strade ci portano lontane, ma l’affetto supera ogni distanza. Ringrazio gli amici di “Vaze” ( tra questi Cocca e Silvio... Cocca facciamocene una ragione saremo sempre amiche di VAZE), gli unici per cui qualunque scelta faccia, ovunque decida di andare, sarò sempre la piccola iaia. Quindi ringrazio tutto il magnifico mondo del DIFI: Le mie adorabili FI..E, Le marzie, Chiaretta, Fede, Eli e la smemorata Giulia, compagnia internazionale e insostituibile in ogni momento della giornata. I fanciulli tutti: Coppy, che aspettavo in commissione di laurea, Simo, Volpe, Fede, Pres, Lollo, insostituibili compagni di bevute ignoranti e campestri, Ale, Davide, Manuella, il Dodo e le fantastiche new entry Ruggi, Luca e Laura...sicuramente ho dimenticato qualcuno, ma non me ne voglia. Insomma GRAZIE GRAZIE GRAZIE a tutti e ora decisamente...SPERIAMO CHE IO ME LA CAVO. BIBLIOGRAFIA [1] Jr Atkinson A.J., W. A. Colburn, V. G. DeGruttola, D. L. DeMets, G. J. Downing, D. F. Hoth, J. A. Oates, C. C. Peck, R. T. Schooley, B. A. Spilker, J. Woodcock, and S. L. Zeger. Biomarkers and surrogate endpoints: Preferred definitions and conceptual framework, 2001. ISSN 00099236. [2] Orestes V Forlenza, Breno S Diniz, and Wagner F Gattaz. Diagnosis and biomarkers of predementia in Alzheimer’s disease. BMC medicine, 8:89, 2010. ISSN 1741-7015. doi: 10.1186/ 1741-7015-8-89. [3] K B Walhovd, a M Fjell, J Brewer, L K McEvoy, C FennemaNotestine, D J Hagler, R G Jennings, D Karow, and a M Dale. Combining MR imaging, positron-emission tomography, and CSF biomarkers in the diagnosis and prognosis of Alzheimer disease. AJNR. American journal of neuroradiology, 31(2):347–354, 2010. ISSN 1936-959X. doi: 10.3174/ajnr.A1809. [4] Yong Fan, Susan M. Resnick, Xiaoying Wu, and Christos Davatzikos. Structural and functional biomarkers of prodromal Alzheimer’s disease: A high-dimensional pattern classification study. NeuroImage, 41(2):277–285, 2008. ISSN 10538119. doi: 10.1016/j.neuroimage.2008.02.043. [5] Christine Fennema-Notestine, Donald J. Hagler, Linda K. McEvoy, Adam S. Fleisher, Elaine H. Wu, David S. Karow, and Anders M. Dale. Structural MRI biomarkers for preclinical and mild Alzheimer’s disease. Human Brain Mapping, 30(10):3238–3253, 2009. ISSN 10659471. doi: 10.1002/hbm.20744. [6] Gaël Chetelat and Jean Claude Baron. Early diagnosis of Alzheimer’s disease: Contribution of structural neuroimaging, 2003. ISSN 10538119. [7] Lisa Mosconi, Miroslaw Brys, Lidia Glodzik-Sobanska, Susan De Santi, Henry Rusinek, and Mony J. de Leon. Early detection of Alzheimer’s disease using neuroimaging. Experimental Gerontology, 42(1-2):129–138, 2007. ISSN 05315565. doi: 10.1016/j.exger.2006.05.016. [8] H. Malcolm Hudson and Richard S. Larkin. Accelerated image reconstruction using ordered subsets of projection data. IEEE Transactions on Medical Imaging, 13(4):601–609, 1994. ISSN 02780062. doi: 10.1109/42.363108. 89 90 bibliografia [9] P J Green. Bayesian reconstructions from emission tomography data using a modified EM algorithm. IEEE transactions on medical imaging, 9(1):84–93, 1990. ISSN 0278-0062. doi: 10.1109/42.52985. [10] Adam M. Alessio, Paul E. Kinahan, Phillip M. Cheng, Hubert Vesselle, and Joel S. Karp. PET/CT scanner instrumentation, challenges, and solutions. Radiologic Clinics of North America, 42 (6):1017–1032, 2004. ISSN 00338389. doi: 10.1016/j.rcl.2004.08. 001. [11] J.S. Goldstein, I.S. Reed, and L.L. Scharf. A multistage representation of the Wiener filter based on orthogonal projections. IEEE Transactions on Information Theory, 44(7), 1998. ISSN 0018-9448. doi: 10.1109/18.737524. [12] Adriaan a. Lammertsma and Ronald Boellaard. The need for quantitative PET in multicentre studies. Clinical and Translational Imaging, 2(4):277–280, 2014. ISSN 2281-5872. doi: 10.1007/ s40336-014-0074-y. URL http://link.springer.com/10.1007/ s40336-014-0074-y. [13] B Desgranges, F Eustache, P Rioux, V de La Sayette, and B Lechevalier. Memory disorders in Alzheimer’s disease and the organization of human memory. Cortex; a journal devoted to the study of the nervous system and behavior, 32(3):387–412, 1996. ISSN 0010-9452. [14] Anne Hafkemeijer, Jeroen van der Grond, and Serge A.R.B. Rombouts. Imaging the default mode network in aging and dementia, 2012. ISSN 09254439. [15] Bradford C. Dickerson, Eric Feczko, Jean C. Augustinack, Jenni Pacheco, John C. Morris, Bruce Fischl, and Randy L. Buckner. Differential effects of aging and Alzheimer’s disease on medial temporal lobe cortical thickness and surface area. Neurobiology of Aging, 30(3):432–440, 2009. ISSN 01974580. doi: 10.1016/j.neurobiolaging.2007.07.022. [16] Paul S. Aisen, Ronald C. Petersen, Michael C. Donohue, Anthony Gamst, Rema Raman, Ronald G. Thomas, Sarah Walter, John Q. Trojanowski, Leslie M. Shaw, Laurel A. Beckett, Clifford R. Jack, William Jagust, Arthur W. Toga, Andrew J. Saykin, John C. Morris, Robert C. Green, and Michael W. Weiner. Clinical core of the Alzheimer’s disease neuroimaging initiative: Progress and plans, 2010. ISSN 15525260. [17] Clifford R. Jack, David S. Knopman, William J. Jagust, Leslie M. Shaw, Paul S. Aisen, Michael W. Weiner, Ronald C. Petersen, and John Q. Trojanowski. Hypothetical model of dynamic biomarkers of the Alzheimer’s pathological cascade. The Lancet bibliografia Neurology, 9(1):119–128, 2010. S1474-4422(09)70299-6. ISSN 14744422. doi: 10.1016/ [18] Clive Ballard, Serge Gauthier, Anne Corbett, Carol Brayne, Dag Aarsland, and Emma Jones. Alzheimer’s disease. The Lancet, 377(9770):1019–1031, 2011. ISSN 01406736. doi: 10.1016/ S0140-6736(10)61349-9. [19] a. Alzheimer. ??ber eigenartige Krankheitsf??lle des sp??teren Alters. Zeitschrift f??r die gesamte Neurologie und Psychiatrie, 4(1): 356–385, 1911. ISSN 03034194. doi: 10.1007/BF02866241. [20] Bruno Dubois, Howard H. Feldman, Claudia Jacova, Jeffrey L. Cummings, Steven T. DeKosky, Pascale Barberger-Gateau, André Delacourte, Giovanni Frisoni, Nick C. Fox, Douglas Galasko, Serge Gauthier, Harald Hampel, Gregory A. Jicha, Kenichi Meguro, John O’Brien, Florence Pasquier, Philippe Robert, Martin Rossor, Steven Salloway, Marie Sarazin, Leonardo C. de Souza, Yaakov Stern, Pieter J. Visser, and Philip Scheltens. Revising the definition of Alzheimer’s disease: A new lexicon, 2010. ISSN 14744422. [21] Bruno Dubois, Howard H. Feldman, Claudia Jacova, Steven T. DeKosky, Pascale Barberger-Gateau, Jeffrey Cummings, André Delacourte, Douglas Galasko, Serge Gauthier, Gregory Jicha, Kenichi Meguro, John O’Brien, Florence Pasquier, Philippe Robert, Martin Rossor, Steven Salloway, Yaakov Stern, Pieter J. Visser, and Philip Scheltens. Research criteria for the diagnosis of Alzheimer’s disease: revising the NINCDS-ADRDA criteria, 2007. ISSN 14744422. [22] Guy M. McKhann, David S. Knopman, Howard Chertkow, Bradley T. Hyman, Clifford R. Jack, Claudia H. Kawas, William E. Klunk, Walter J. Koroshetz, Jennifer J. Manly, Richard Mayeux, Richard C. Mohs, John C. Morris, Martin N. Rossor, Philip Scheltens, Maria C. Carrillo, Bill Thies, Sandra Weintraub, and Creighton H. Phelps. The diagnosis of dementia due to Alzheimer’s disease: Recommendations from the National Institute on Aging-Alzheimer’s Association workgroups on diagnostic guidelines for Alzheimer’s disease. Alzheimer’s and Dementia, 7(3): 263–269, 2011. ISSN 15525260. doi: 10.1016/j.jalz.2011.03.005. URL http://dx.doi.org/10.1016/j.jalz.2011.03.003. [23] Anders Wimo, Linus Jönsson, John Bond, Martin Prince, and Bengt Winblad. The worldwide economic impact of dementia 2010. Alzheimer’s and Dementia, 9(1):1–11, 2013. ISSN 15525260. doi: 10.1016/j.jalz.2012.11.006. [24] H. Braak and E. Braak. Frequency of stages of Alzheimer-related lesions in different age categories. Neurobiology of Aging, 18 91 92 bibliografia (4):351–357, 1997. ISSN 01974580. doi: 10.1016/S0197-4580(97) 00056-0. [25] Ezio Giacobini and Gabriel Gold. Alzheimer disease therapy– moving from amyloid-β to tau. Nature reviews. Neurology, 9(12): 677–86, 2013. ISSN 1759-4766. doi: 10.1038/nrneurol.2013.223. URL http://www.ncbi.nlm.nih.gov/pubmed/24217510. [26] R C Petersen, R Doody, A Kurz, R C Mohs, J C Morris, P V Rabins, K Ritchie, M Rossor, L Thal, and B Winblad. Current concepts in mild cognitive impairment. Archives of neurology, 58 (12):1985–1992, 2001. ISSN 0003-9942. doi: nsa10002[pii]. [27] R C Petersen, G E Smith, S C Waring, R J Ivnik, E Kokmen, and E G Tangelos. Aging, memory, and mild cognitive impairment. International psychogeriatrics / IPA, 9 Suppl 1:65–69, 1997. ISSN 1041-6102. doi: 10.1017/S1041610297004717. [28] Bruno Dubois and Martin L. Albert. Amnestic MCI or prodromal Alzheimer’s disease?, 2004. ISSN 14744422. [29] R C Petersen. Mild cognitive impairment: transition between aging and Alzheimer’s disease. Neurologia (Barcelona, Spain), 15 (3):93–101, 2000. [30] S Larrieu, L Letenneur, J M Orgogozo, C Fabrigoule, H Amieva, N Le Carret, P Barberger-Gateau, and J F Dartigues. Incidence and outcome of mild cognitive impairment in a populationbased prospective cohort. Neurology, 59(10):1594–1599, 2002. ISSN 0028-3878. doi: 10.1212/01.WNL.0000034176.07159.F8. [31] Orestes V Forlenza and Edmond Chiu. Mild cognitive impairment: a concept ready to move on?, 2008. ISSN 0951-7367. [32] John Hardy and Dennis J Selkoe. The amyloid hypothesis of Alzheimer’s disease: progress and problems on the road to therapeutics. Science (New York, N.Y.), 297(5580):353–356, 2002. ISSN 00368075. doi: 10.1126/science.1072994. [33] Breno S O Diniz, Jony A Pinto Júnior, and Orestes Vicente Forlenza. Do CSF total tau, phosphorylated tau, and beta-amyloid 42 help to predict progression of mild cognitive impairment to Alzheimer’s disease? A systematic review and meta-analysis of the literature. The world journal of biological psychiatry : the official journal of the World Federation of Societies of Biological Psychiatry, 9(3): 172–182, 2008. ISSN 1562-2975. doi: 10.1080/15622970701535502. [34] Clifford R. Jack, Val J. Lowe, Matthew L. Senjem, Stephen D. Weigand, Bradley J. Kemp, Maria M. Shiung, David S. Knopman, bibliografia Bradley F. Boeve, William E. Klunk, Chester A. Mathis, and Ronald C. Petersen. 11C PiB and structural MRI provide complementary information in imaging of Alzheimer’s disease and amnestic mild cognitive impairment. Brain, 131(3):665–680, 2008. ISSN 00068950. doi: 10.1093/brain/awm336. [35] W. Jagust, B. Reed, D. Mungas, W. Ellis, and C. DeCarli. What does fluorodeoxyglucose PET imaging add to a clinical diagnosis of dementia? Neurology, 69(9):871–877, 2007. ISSN 00283878. doi: 10.1212/01.wnl.0000269790.05105.16. [36] Michele L. Ries, Cynthia M. Carlsson, Howard A. Rowley, Mark A. Sager, Carey E. Gleason, Sanjay Asthana, and Sterling C. Johnson. Magnetic resonance imaging characterization of brain structure and function in mild cognitive impairment: A review, 2008. ISSN 00028614. [37] Pierre J. Magistretti. Cellular bases of functional brain imaging: Insights from neuron-glia metabolic coupling. Brain Research, 886 (1-2):108–112, 2000. ISSN 00068993. doi: 10.1016/S0006-8993(00) 02945-0. [38] Anne B. Rocher, Françoise Chapon, Xavier Blaizot, Jean Claude Baron, and Chantal Chavoix. Resting-state brain glucose utilization as measured by PET is directly related to regional synaptophysin levels: A study in baboons. NeuroImage, 20(3):1894–1898, 2003. ISSN 10538119. doi: 10.1016/j.neuroimage.2003.07.002. [39] J M Hoffman, K A Welsh-Bohmer, M Hanson, B Crain, C Hulette, N Earl, and R E Coleman. FDG PET imaging in patients with pathologically verified dementia. Journal of nuclear medicine : official publication, Society of Nuclear Medicine, 41(11):1920–1928, 2000. ISSN 0161-5505. [40] Ronald L. Van Heertum and Ronald S. Tikofsky. Positron emission tomography and single-photon emission computed tomography brain imaging in the evaluation of dementia, 2003. ISSN 00012998. [41] Silvia Morbelli, Alex Drzezga, Robert Perneczky, Giovanni B. Frisoni, Anna Caroli, Bart N M van Berckel, Rik Ossenkoppele, Eric Guedj, Mira Didic, Andrea Brugnolo, Gianmario Sambuceti, Marco Pagani, Eric Salmon, and Flavio Nobili. Resting metabolic connectivity in prodromal Alzheimer’s disease. A European Alzheimer Disease Consortium (EADC) project. Neurobiology of Aging, 33(11):2533–2550, 2012. ISSN 01974580. doi: 10.1016/j.neurobiolaging.2012.01.005. 93 94 bibliografia [42] Barbara Zitová and Jan Flusser. Image registration methods: A survey. Image and Vision Computing, 21(11):977–1000, 2003. ISSN 02628856. doi: 10.1016/S0262-8856(03)00137-9. [43] Weizhao Zhao, Y. Tzay Young, and Myron D. Ginsberg. Registration and three-dimensional reconstruction of autoradiographic images by the disparity analysis method. IEEE Transactions on Medical Imaging, 12(4):782–791, 1993. ISSN 02780062. doi: 10.1109/42.251130. [44] Jaap Vaarkamp, David C. Barber, John Conway, and Martin H. Robinson. Automatic image registration of diagnostic and radiotherapy treatment planning CT head images. International Journal of Radiation Oncology Biology Physics, 47(1):225–230, 2000. ISSN 03603016. doi: 10.1016/S0360-3016(99)00552-0. [45] Adrian Andronache, Philippe Cattin, and Gábor Székely. Local intensity mapping for hierarchical non-rigid registration of multi-modal images using the cross-correlation coefficient. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), volume 4057 LNCS, pages 26–33, 2006. ISBN 3540356487. doi: 10.1007/11784012\_4. [46] David Mattes, David R. Haynor, Hubert Vesselle, Thomas K. Lewellen, and William Eubank. PET-CT image registration in the chest using free-form deformations. IEEE Transactions on Medical Imaging, 22(1):120–128, 2003. ISSN 02780062. doi: 10.1109/TMI.2003.809072. [47] Jie Zhang Jie Zhang and A. Rangarajan. Affine image registration using a new information metric. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004., 1, 2004. ISSN 1063-6919. doi: 10.1109/CVPR.2004.1315120. [48] J P Thirion. Image matching as a diffusion process: an analogy with Maxwell’s demons. Medical image analysis, 2(3):243–260, 1998. ISSN 13618415. doi: 10.1016/S1361-8415(98)80022-4. [49] G J Wang, N D Volkow, A P Wolf, J D Brodie, and R J Hitzemann. Intersubject variability of brain glucose metabolic measurements in young normal males. Journal of nuclear medicine : official publication, Society of Nuclear Medicine, 35(9):1457–1466, 1994. ISSN 0161-5505. [50] S Minoshima, K A Frey, N L Foster, and D E Kuhl. Preserved pontine glucose metabolism in Alzheimer disease: a reference region for functional brain image (PET) analysis. Journal of computer assisted tomography, 19(4):541–547. ISSN 0363-8715. bibliografia [51] P Bartenstein, S Minoshima, C Hirsch, K Buch, F Willoch, D Mösch, D Schad, M Schwaiger, and A Kurz. Quantitative assessment of cerebral blood flow in patients with Alzheimer’s disease by SPECT., 1997. ISSN 01615505. [52] Ralph Buchert, Florian Wilke, Bhismadev Chakrabarti, Brigitte Martin, Winfried Brenner, Janos Mester, and Malte Clausen. Adjusted scaling of FDG positron emission tomography images for statistical evaluation in patients with suspected Alzheimer’s disease. Journal of neuroimaging : official journal of the American Society of Neuroimaging, 15(4):348–355, 2005. ISSN 1051-2284. doi: 10.1177/1051228405280169. [53] Jiliang Tang, Salem Alelyani, and Huan Liu. Feature Selection for Classification: A Review. Public.Asu.Edu. URL http://www.public.asu.edu/~jtang20/publication/feature_ selection_for_classification.pdf. [54] A Hanley. The Meaning. pages 29–36. [55] a. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM Computing Surveys, 31(3):264–323, 1999. ISSN 03600300. doi: 10.1145/331499.331504. [56] Joe H. Ward. Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58 (301):236–244, 1963. ISSN 01621459. doi: 10.1080/01621459.1963. 10500845. [57] David E. Rex, Jeffrey Q. Ma, and Arthur W. Toga. The LONI Pipeline Processing Environment. NeuroImage, 19(3):1033–1048, 2003. ISSN 10538119. doi: 10.1016/S1053-8119(03)00185-X. [58] D L Hill, P G Batchelor, M Holden, and D J Hawkes. Medical image registration. Physics in medicine and biology, 46(3):R1–R45, 2001. ISSN 0031-9155. doi: 10.1088/0031-9155/46/3/201. [59] Igor Yakushev, Christian Landvogt, Hans-Georg Buchholz, Andreas Fellgiebel, Alexander Hammers, Armin Scheurich, Irene Schmidtmann, Alexander Gerhard, Mathias Schreckenberger, and Peter Bartenstein. Choice of reference area in studies of Alzheimer’s disease using positron emission tomography with fluorodeoxyglucose-F18. Psychiatry research, 164(2):143–153, 2008. ISSN 0165-1781. doi: 10.1016/j.pscychresns.2007.11.004. URL http://dx.doi.org/10.1016/j.pscychresns.2007.11.004. [60] Ron Kohavi. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. International Joint Conference on Artificial Intelligence, 14(12):1137–1143, 1995. ISSN 10450823. doi: 10.1067/mod.2000.109031. 95 96 bibliografia [61] Z. I. Botev, J. F. Grotowski, and D. P. Kroese. Kernel density estimation via diffusion. Annals of Statistics, 38(5):2916–2957, 2010. ISSN 00905364. doi: 10.1214/10-AOS799. [62] G B Frisoni, P h Scheltens, S Galluzzi, F M Nobili, N C Fox, P H Robert, H Soininen, L-O Wahlund, G Waldemar, and E Salmon. Neuroimaging tools to rate regional atrophy, subcortical cerebrovascular disease, and regional cerebral blood flow and metabolism: consensus paper of the EADC. Journal of neurology, neurosurgery, and psychiatry, 74(10):1371–1381, 2003. ISSN 0022-3050. doi: 10.1136/jnnp.74.10.1371. [63] A. Caroli, A. Prestia, K. Chen, N. Ayutyanont, S. M. Landau, C. M. Madison, C. Haense, K. Herholz, F. Nobili, E. M. Reiman, W. J. Jagust, and G. B. Frisoni. Summary Metrics to Assess Alzheimer Disease-Related Hypometabolic Pattern with 18F-FDG PET: Head-to-Head Comparison, 2012. ISSN 0161-5505. [64] Andrea Chincarini, Paolo Bosco, Piero Calvini, Gianluca Gemme, Mario Esposito, Chiara Olivieri, Luca Rei, Sandro Squarcia, Guido Rodriguez, Roberto Bellotti, Piergiorgio Cerello, Ivan De Mitri, Alessandra Retico, and Flavio Nobili. Local MRI analysis approach in the diagnosis of early and prodromal Alzheimer’s disease. NeuroImage, 58(2):469–480, 2011. ISSN 10538119. doi: 10.1016/j.neuroimage.2011.05.083. [65] Rémi Cuingnet, Emilie Gerardin, Jérôme Tessieras, Guillaume Auzias, Stéphane Lehéricy, Marie Odile Habert, Marie Chupin, Habib Benali, and Olivier Colliot. Automatic classification of patients with Alzheimer’s disease from structural MRI: A comparison of ten methods using the ADNI database. NeuroImage, 56(2):766–781, 2011. ISSN 10538119. doi: 10.1016/j.neuroimage. 2010.06.013. [66] J A Hanley and B J McNeil. A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology, 148(3):839–843, 1983. ISSN 0033-8419. doi: 10.1148/radiology.148.3.6878708. [67] J A Hanley and B J McNeil. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 143(1):29–36, 1982. ISSN 0033-8419. doi: 10.1148/radiology.143.1. 7063747.