caratterizzazione di segnale e rumore in misure pet cerebrali

Transcript

caratterizzazione di segnale e rumore in misure pet cerebrali
C A R AT T E R I Z Z A Z I O N E D I S E G N A L E E R U M O R E I N M I S U R E
PET CEREBRALI
ilaria grasso
Relatori: Prof. Sandro Squarcia, Dr. Andrea Chincarini
Correlatore: Prof. Piero Calvini
Io, la parabola che preferisco è la fine del mondo, perché non
ho paura, in quanto che sarò già morto da un secolo. Dio separerà le capre dai pastori, una a destra e una a sinistra. Al centro
quelli che andranno in purgatorio, saranno più di mille miliardi! Più dei cinesi! E Dio avrà tre porte: una grandissima, che è
l’inferno; una media, che è il purgatorio; e una strettissima, che
è il paradiso. Poi Dio dirà: “Fate silenzio tutti quanti!”. E poi
li dividerà. A uno qua e a un altro là. Qualcuno che vuole fare
il furbo vuole mettersi di qua, ma Dio lo vede e gli dice: “Uè,
addò vai!”. Il mondo scoppierà, le stelle scoppieranno, il cielo
scoppierà, Corzano si farà in mille pezzi, i buoni rideranno e i
cattivi piangeranno. Quelli del purgatorio un po’ ridono e un
po’ piangono, i bambini del limbo diventeranno farfalle.
Io, speriamo che me la cavo.
(Io speriamo che me la cavo, Marcello D’Orta)
P R E FA Z I O N E
Uno degli aspetti fondamentali della fisica è il concetto di misura.
Misurare non significa semplicemente fornire una valutazione quantitativa di un osservabile, ma è un concetto complesso che coinvolge
modelli teorici, esperimenti, strumenti statistici e di elaborazione, per
arrivare all’individuazione e l’estrazione del segnale e, complementariamente, alla caratterizzazione del rumore.
È ormai consueto che la fisica venga applicata in altri ambiti e uno
dei più comuni è l’ambito medico; nel quale vi sono casi in cui i
parametri si prestano ad essere trattati come quantità fisiche e, quindi,
vengono inseriti nel comune schema di misura, ma anche sistemi per
i quali è necessario elaborare processi di misura alternativi.
Il punto cruciale che distingue questi ultimi sistemi dal paradigma
fisico è l’assenza di un modello eziologico esatto in cui inquadrare il
fenomeno esaminato. Questo rende necessario utilizzare il confronto
di due popolazioni: una in cui è attestata la presenza del segnale,
l’altra in cui è assente, per dedurre il segnale stesso.
In questo paradigma di misura la definizione stessa del segnale dipende dalla scelta del metodo per discriminarne la presenza o
l’assenza.
Un caso emblematico di quanto detto è il processo di misura dei
biomarcatori legati a patologie di difficile diagnosi; come, ad esempio,
le patologie neurodegenerative.
La malattia di Alzheimer rientra tra i casi in cui la misura deve essere elaborata a partire da due gruppi clinici distinti e tra i marcatori
più promettenti dal punto di vista diagnostico vi è il metabolismo del
glucosio a livello cerebrale.
In questa tesi abbiamo appunto affrontato misure del metabolismo
cerebrale in soggetti cognitivamente normali e affetti dalla malattia
di Alzheimer. Esaminando immagini, realizzate attraverso tecniche
di tomografia a emissione di positroni (PET), che rivelano la distribuzione del fluorodesossiglucosio: un radiofarmaco formato da 18 F
ingegnerizzato per legarsi alle cellule in funzione della loro attività
metabolica.
Dopo un trattamento preliminare dei dati, volto a ridurre le differenze tra le immagini esaminate non legate alla presenza della patologia, abbiamo implementato 4 diversi metodi, abbiamo confrontato
tra loro le prestazioni ottenute e, infine, li abbiamo verificati su un
campione di soggetti indipendente.
A conclusione del lavoro svolto abbiamo fornito una stima dell’andamento dell’incertezza dovuta alla scelta del metodo di analisi sul
marcatore utilizzato.
v
Il lavoro è stato realizzato nell’ambito del progetto di ricerca “nextMR”,
volto a creare strumenti computazionali in grado di fornire un indice
accurato per la diagnosi precoce di patologie neurodegenerative cerebrali ed a migliorare la capacità diagnostica su grandi quantità di
dati tramite lo sviluppo di procedure di calcolo automatiche.
vi
INDICE
Prefazione
1 introduzione
1.1 Misura, segnale e rumore . . . . . . . . . . . . . . . . .
1.1.1 La misura nel paradigma della Fisica classica .
1.1.2 Confronto con l’approccio medico . . . . . . . .
1.1.3 Diagnostica: clinica e biomarkers . . . . . . . . .
1.2 Il Segnale in “Neuroimaging” . . . . . . . . . . . . . . .
1.2.1 FDG-PET: formazione del segnale . . . . . . . .
1.3 Il rumore nelle immagini PET . . . . . . . . . . . . . . .
1.4 Il Rumore in “Neuroimaging” . . . . . . . . . . . . . . .
1.4.1 Rumore Fisiologico . . . . . . . . . . . . . . . . .
1.4.2 Rumore dovuto al processo di Elaborazione delle Immagini . . . . . . . . . . . . . . . . . . . . .
1.4.3 Rumore di Gold Standard . . . . . . . . . . . . .
1.4.4 Rumore dovuto al Modello assunto per descrivere la Patologia . . . . . . . . . . . . . . . . . .
2 ricerca e estrazione del segnale
2.1 Caso di Studio: Misura della Neurodegenerazione legata alla malattia di Alzheimer . . . . . . . . . . . . . .
2.1.1 Alzheimer e Mild Cognitive Impairment . . . .
2.1.2 Il modello di neurodegenerazione: “Cascata Amiloide” . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 La misura della neurodegenerazione . . . . . .
2.1.4 L’interpretazione del biomarcatore nell’FDG-PET
2.2 Strumenti per l’elaborazione delle immagini e l’estrazione del segnale . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Strumenti per la selezione delle immagini . . .
2.2.2 Strumenti per la normalizzazione delle immagini
2.2.3 Strumenti per l’individuazione delle caratteristiche significative del sistema . . . . . . . . . .
2.2.4 Strumenti statistici . . . . . . . . . . . . . . . . .
3 sviluppo del modello su una popolazione test
3.1 Estrazione del segnale . . . . . . . . . . . . . . . . . . .
3.1.1 La selezione delle immagini: il Quality Check .
3.1.2 Normalizzazione Spaziale . . . . . . . . . . . . .
3.1.3 Normalizzazione d’Intensità . . . . . . . . . . .
3.1.4 Strumenti per la classificazione dei soggetti . .
3.2 Elaborazione del segnale: due metodi per la Feature
Selection . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Metrica 1: media dei conteggi sulle ROI . . . .
3.2.2 Metrica 2: distanza dal cluster dei controlli . . .
v
1
1
1
2
3
4
4
8
9
10
11
11
12
15
15
15
18
20
20
21
23
24
31
33
37
37
38
39
45
47
51
52
56
vii
viii
indice
Metrica 3: proiezione dei punti su una componente principale . . . . . . . . . . . . . . . . . . .
3.2.4 Metrica 4: distanza dal cluster dei controlli . . .
3.2.5 Compatibilità . . . . . . . . . . . . . . . . . . . .
4 validazione
4.1 Validazione dei metodi . . . . . . . . . . . . . . . . . . .
4.1.1 La Cross-Validazione . . . . . . . . . . . . . . . .
4.1.2 Considerazioni sulla validazione dei metodi . .
4.2 Ottimizzazione delle metriche . . . . . . . . . . . . . . .
4.3 Risultati della prestazione complessiva . . . . . . . . .
4.4 Validazione dei metodi su un dataset indipendente . .
4.5 Risultati della prestazione complessiva . . . . . . . . .
5 discussione
5.1 Discussione dei risultati . . . . . . . . . . . . . . . . . .
5.1.1 Considerazioni conclusive . . . . . . . . . . . . .
5.2 Ulteriori considerazioni metodologiche . . . . . . . . .
5.2.1 Confronto tra Registrazione Deformabile e Affine.
5.2.2 Normalizzazione d’Intensità e Feature Selection
5.2.3 ROI e Modello “Cascata Amiloide” . . . . . . .
6 conclusioni
59
61
63
65
65
65
66
67
70
71
74
77
77
80
80
80
81
82
85
bibliografia
89
3.2.3
1
INTRODUZIONE
1.1
misura, segnale e rumore
Se volessimo descrivere semplicemente il concetto di misura, potremmo dire che misurare significa fornire una valutazione quantitativa
di un’osservabile. Lo scopo del misurare è, infatti, proprio quello
di stabilire i valori numerici che le grandezze, che descrivono un
determinato fenomeno, possono assumere.
La semplicità di tale definizione nasconde un processo articolato
formato da svariati elementi, alcuni dei quali sono: lo sviluppo di
modelli teorici, l’applicazione di metodi statistici, l’individuazione e
l’estrazione del segnale dal rumore e la trattazione di quest’ultimo.
1.1.1
La misura nel paradigma della Fisica classica
Di seguito introdurremo brevemente i vari passaggi coinvolti nel processo di misura, consapevoli di non poter, in questa sede, presentare
esaustivamente l’argomento.
Effettuare una misura in fisica significa, prima di tutto, assumere
che fenomeni complessi possano essere descritti utilizzando modelli
idealizzati relativamente semplici: si pensi alla meccanica classica e
all’idealizzazione dei corpi come punti materiali.
Il primo passo per eseguire una misura è l’osservazione del fenomeno: una buona osservazione deve essere oggettiva, ovvero non deve dipendere dall’osservatore, deve essere quantificabile, riproducibile e inoltre, una eventuale nuova osservazione non deve essere
condizionata dalla prima fatta.
Dopodiché deve essere possibile ricondurre il fenomeno osservato
a un modello teorico, tipicamente un complesso di equazioni matematiche che deriva da un piccolo insieme di principi basilari. Una buona
teoria soddisfa due condizioni: deve descrivere accuratamente un’estesa serie di osservazioni sulla base di un modello che contenga solo
pochi elementi arbitrari e deve essere consistente1 . Se la teoria ha le
caratteristiche descritte si possono fare predizioni precise riguardo ai
risultati di osservazioni future.
1 Una teoria formale si dice consistente se in essa è impossibile dimostrare una contraddizione. Esistono due livelli di consistenza: la consistenza sintattica, secondo la
quale, se una teoria è consistente non si può dimostrare contemporaneamente un’affermazione e il suo contrario e la consistenza semantica, secondo la quale, una teoria
consistente ammette almeno un modello, cioè un linguaggio per cui gli assiomi della
teoria stessa siano veri.
1
2
introduzione
A questo punto è necessario validare la teoria e verificare l’affidabilità delle predizioni tramite un esperimento. Esso può essere condotto
studiando direttamente o indirettamente il fenomeno in esame, deve
caratterizzarne pienamente tutti gli aspetti, ad esempio il segnale e il
rumore, e deve fornire la valutazione quantitativa cercata, ovvero la
misura del fenomeno stesso.
Quando anche solo alcune delle caratteristiche descritte delle varie
fasi di misura vengono meno, l’intero processo può non fornire la valutazione quantitativa dell’osservabile in esame e dunque il fenomeno
risultare non misurabile.
1.1.2
Confronto con l’approccio medico
Risulta semplice applicare il concetto di misura, precedentemente introdotto, a quantità fisiche come il tempo, lo spazio o la carica, questa semplicità discende dalla quotidiana necessità di misurare queste entità che ha reso intuitiva l’applicazione del processo di misura
stesso.
Potrebbe essere meno chiaro, invece, applicare tale concetto ad altri campi, come quello medico. Indubbiamente vi sono alcuni parametri fisiologici che si prestano ad essere trattati come quantità fisiche, ad esempio la pressione sanguigna, la concentrazione di glucosio,
la massa corporea e ai quali è intuitivamente applicabile il concetto
di misura; per altri fenomeni, le varie fasi del processo di misura,
precedentemente illustrate, non sono facilmente individuabili.
Ci si può lecitamente chiedere, quindi, in quali aspetti la fisica e la
medicina si accomunano e, per farlo, descriviamo i passi introdotti
trattando del comune schema di misura in campo medico, in modo
da evidenziare quando e quanto sia possibile applicarlo in questo
nuovo contesto.
Per prima cosa l’osservazione: per la medicina essa discende dalla
pratica clinica, è solo diretta ed è fortemente legata all’osservatore, in
quanto la diagnosi dipende inevitabilmente dall’esperienza del clinico che la formula e alle sue capacità di interpretare la sintomatologia
riportata dal paziente. Si pensi, ad esempio, al caso in cui un soggetto
descriva un dolore, tale sintomo è estremamente legato alla percezione di ogni singolo individuo e necessariamente altera l’osservazione
del fenomeno in esame.
Il modello teorico sul quale basare l’osservazione effettuata è intrinsecamente complesso, in quanto è impossibile considerare tutte le
relazioni tra i sottosistemi non indipendenti che compongono il sistema studiato per inquadrare completamente la patologia. Un altro
elemento che contribuisce a rendere complesso il modello teorico in
medicina è l’assenza di un modello eziologico esatto per un grande
numero di patologie, rendendo di fatto le osservazioni dei fenomeni
non indipendenti e il modello utilizzato non esaustivo.
1.1 misura, segnale e rumore
Per validare i modelli teorici, anche in campo medico, è necessario
condurre degli esperimenti che si realizzano nell’ambito dei trial clinici. La procedura nei trial inizia con studi preclinici condotti in vitro
o su animali in vivo e successivamente procede con la selezione di
un campione di individui: il numero dei soggetti coinvolti nello studio pesa grandemente sulla capacità dello studio stesso di valutare
l’efficacia del processo testato.
Le difficoltà legate alla conduzione di un buon esperimento in
campo medico sono molto elevate: già dalle poche caratteristiche
introdotte si intuisce la complessità della procedura condotta nei trial.
Volendo sintetizzare, la differenza sostanziale fra i due approcci
sta nel fatto che in campo medico si attesta la presenza o meno di un
miglioramento e si quantifica la probabilità che esso avvenga tramite
il confronto di un numero rilevante di soggetti con un gruppo di
controllo. In fisica si assume l’osservazione effettuata composta dal
segnale e dal rumore; il primo da caratterizzare e di cui si esegue la
misura; il secondo, quantificabile e legato sia al fenomeno studiato
che al processo di misura stesso.
1.1.3
Diagnostica: clinica e biomarkers
Abbiamo visto che vi sono parametri clinici la cui osservazione e relativa misura si prestano ad essere trattate come in fisica e altri per
cui non accade.
Queste differenze emergono chiaramente per alcune patologie e,
in questi casi, la misura del fenomeno in esame non può essere una
misura diretta. Per valutare quantitativamente quest’ultime, si individuano una serie di caratteristiche che forniscano una valutazione oggettiva
e misurabile legata alla patologia, come un processo biologico o la risposta
farmacologica ad un’azione terapeutica. Tali valutazioni sono misure indirette della patologia stessa, ripetibili e riproducibili, in grado di predire lo stato
clinico del soggetto, dette biomarcatori [1].
In altre parole un biomarcatore è una quantità che fornisce indicazioni diverse rispetto alla sintomatologia e ad essa complementare,
permettendo di seguire il decorso della patologia e, in alcuni casi, anche di predire lo stato clinico del soggetto [2, 3]. Nel seguito della
trattazione verranno forniti esempi più specifici riguardo l’individuazione e l’interpretazione dei biomarcatori, per ora basti sapere che,
date le loro potenzialità, sono utilizzati in svariate applicazioni mediche e, a seconda del metodo diagnostico usato, possono essere molto
diversi: se si analizza un’immagine derivata ad esempio da una risonanza magnetica (MRI), da una tomografia computerizzata (CT), o da
altri metodi diagnostici come la tomografia ad emissione di positroni
(PET), possono essere funzioni dei dati ricavabili dalle immagini, dei
tessuti o della forma delle strutture in esame, dei parametri biochimici, delle valutazioni neuropsicologiche oppure possono derivare dalle
3
4
introduzione
informazioni cliniche dei soggetti[4, 5].
I biomarcatori dovrebbero fornire uno o più indici per paziente
con un significativo valore predittivo e, per avere questa loro caratteristica, devono essere legati a processi chiave propri delle patologie,
prima che manifestino un’evidenza clinica. Pertanto individuando un
buon biomarcatore non si vorrebbe solamente classificare i soggetti,
ma si vorrebbe anche essere in grado di classificare un individuo con
un quadro clinico sconosciuto o non ben definito, affermare se costui
svilupperà la patologia e fornire un determinato intervallo temporale.
Esistono biomarcatori, detti di stato, che, misurando indirettamente
l’effetto cercato, descrivono lo stato della patologia; altri, detti predittivi, che, interpretati, riescono a predire l’evoluzione della patologia
in esame e da cui si può ricavare una diagnosi per il soggetto che si
intende classificare.
1.2
il segnale in “neuroimaging”
In questo lavoro cercheremo di definire meglio come viene misurato,
valutato ed estratto il segnale dalle immagini usate a scopi diagnostici. In particolare la patologia che verrà presentata è la malattia di
Alzheimer (AD), essa è una patologia neurodegenerativa su cui, come chiariremo in seguito, sono stati condotti studi con diverse tecniche di generazione di immagine, dette tecniche di imaging come, ad
esempio, la risonanza magnetica o la tomografia a emissione di positroni [6, 7]. Nel nostro lavoro verrà considerata una delle tecniche di
neuroimaging più usate nella pratica clinica: la PET.
La malattia di Alzheimer rientra tra i casi in cui la misura deve essere elaborata a partire da due gruppi clinici distinti; con tale procedimento si cercano, se sono presenti, le caratteristiche che accomunano
e quelle che differenziano i diversi gruppi di soggetti, misurandole
tramite vari indici e valutando con quale percentuale esse possono
distinguere la popolazione nei gruppi di cui essa è composta, se questi indici sono legati a processi propri della patologia in esame, essi
possono essere definiti biomarcatori.
Affermare che con le stesse informazioni grazie le quali si suddividono i soggetti si possa attribuire efficacemente un individuo a un un
gruppo piuttosto che ad un altro, non è banale e le difficoltà legate a
questa affermazione verranno prese in esame in seguito.
1.2.1
1.2.1.1
FDG-PET: formazione del segnale
Il principio fisico
La PET è tra le tecniche diagnostiche che si basano sulla tomografia ad emissione, esse utilizzano processi di decadimento di isotopi
radioattivi che sono utilizzati per marcare delle molecole dette trac-
1.2 il segnale in “neuroimaging”
cianti o radiofarmaci. Queste molecole sono ingegnerizzate per legarsi ad un particolare processo biologico, del quale si vuole avere
informazione. I traccianti vengono somministrati tipicamente per via
endovenosa e vanno a interagire con processi biologici specifici.
In questo frangente effettuare una misura significa rivelare la distribuzione del radiofarmaco all’interno del corpo; per questo i tempi di
misura devono essere brevi rispetto ai tempi caratteristici del decadimento, ma lunghi rispetto alla cinetica legata ai processi biochimici,
che guidano la diffusione del radiofarmaco.
Nella PET (Positron Emission Tomography) il radionuclide legato
al tracciante emette un positrone, come indicato nello stesso nome di
questo metodo diagnostico; esso, nei tessuti organici, ha un cammino
libero medio di circa 1 ∼ 2mm, dopo i quali annichila con un elettrone all’interno del corpo, emettendo, di conseguenza, due fotoni (γ)
collineari di 0.511 Mev, come mostrato in figura 1.
Figura 1: Decadimento del 18 F e successiva annichilazione di elettrone e
positrone con emissione dei fotoni collineari
Per produrre tale decadimento si usano isotopi a emivita breve
prodotti da acceleratori: i più usati sono gli isotopi del fluoro e del
carbonio 18 F,11 C.
Nel metodo diagnostico che esamineremo l’emettitore è l’isotopo
del fluoro: 18 F , esso è il radioisotopo più usato nella PET e decade
β+ con un tempo di dimezzamento di 110 minuti:
18
9 F
+
→18
8 O+e +ν
(1)
Solitamente, viene coniugato con il glucosio in una molecola chiamata fluorodesossiglucosio (FDG), in questi casi la tomografia a emissione di positroni prende il nome di FDG-PET.
L’FDG-PET permette di condurre un’analisi dell’attività delle strutture studiate, in quanto il fluorodesossiglucosio viene catturato in
grande quantità dalle cellule con forte attività metabolica, ad esempio le cellule tumorali e i neuroni, e decadendo permette di tracciare
la propria distribuzione nel corpo.
5
6
introduzione
1.2.1.2
Il sistema di rivelazione
L’apparato sperimentale della PET è formato da un anello di scintillatori accoppiati a fotomoltiplicatori all’interno del quale viene fatto
scorrere il lettino su cui è posizionato il paziente; scintillatori e fotomoltiplicatori rivelano simultaneamente le coppie di fotoni collineari,
formati, come precedentemente accennato, dopo il decadimento β+ e
l’annichilazione del positrone. La rilevazione simultanea dei fotoni si
dice coincidenza e per comodità spesso si usa chiamare così il segnale
stesso.
Figura 2: Rivelazione di una coincidenza
Come mostrato in figura 2, i fotoni collineari che raggiungono l’anello di rivelatori in coppia, con una finestra temporale di 10-20 ns,
vengono rivelati, permettendo di ricostruire l’ipotetica traiettoria della coppia di fotoni emessi e di risalire alla posizione dei tessuti in cui
è avvenuta l’annichilazione del positrone.
Ricostruire la traiettoria dei fotoni nel corpo non è cosa semplice,
in quanto vi sono più fattori di cui bisogna tenere conto per evitare
di commettere errori, che inevitabilmente si ripercuotono nella ricostruzione delle immagini. Tra i suddetti fattori vi sono le possibili interazioni dei fotoni con il corpo, l’attenuazione, che dipende dal cammino dei γ nei tessuti, eventuali false coincidenze, che tratteremo dettagliatamente in seguito, e alcune caratteristiche legate all’apparato
sperimentale.
Quando il positrone annichila con uno degli elettroni del corpo, la
traiettoria dei fotoni emessi può essere deviata: tale deviazione può
1.2 il segnale in “neuroimaging”
essere dovuta allo scattering Compton2 e può essere una delle cause
rivelate come false coincidenze, le quali possono portare a un degrado
della qualità dell’immagine stessa.
Un altro contributo non trascurabile all’errata ricostruzione delle
immagini deriva dalla risoluzione spaziale dell’apparato sperimentale: i cristalli, avendo dimensione finita, hanno una risoluzione spaziale limitata, questo comporta che non si riesca ad individuare con
precisione il punto in cui è avvenuta l’annichilazione tra elettrone e
positrone nei tessuti, ma si individuino delle zone in cui si suppone
che essa possa essere avvenuta tanto più piccole quanto migliore è la
risoluzione spaziale dell’apparato.
1.2.1.3 La ricostruzione dell’immagine
Le immagini realizzate con la PET hanno una risoluzione spaziale
di circa 5 mm e sono create tramite algoritmi di ricostruzione come la Filtered Back Projection (FBP) 3 o con metodi iterativi, ad esempio l’Ordered Subset Expectation Maximization (OSEM) o il Simultaneous
Iterative reconstruction (SIRT)4 [8, 9].
L’immagine tridimensionale viene realizzata giustapponendo una
sequenza di immagini bidimensionali ottenute facendo scorrere il lettino su cui è posizionato il paziente all’interno dell’anello di rivelatori.
Figura 3: Esempio di ricostruzione di un’immagine FDG-PET cerebrale
2 La diffusione Compton o effetto Compton è un fenomeno di scattering anelastico tra
un fotone e un elettrone.
3 La FBP è l’algoritmo standard per la ricostruzione delle immagini CT, che può essere
applicato anche alla ricostruzione delle immgini PET
4 Il concetto fondamentale della ricostruzione iterativa, basata su metodi di massima
verosimiglianza, come nel caso dell’OSEM e del SIRT, è che la distribuzione di attività nella fetta d’immagine ricostruita, come viene usualmente chiamata nel campo
dell’imaging, sia quella che ha la massima probabilità di produrre i dati di proiezione osservati. Poiché non è disponibile nessuna soluzione analitica, la ricostruzione
dell’immagine deve essere effettuata con un processo iterativo
7
8
introduzione
Usualmente l’immagine viene visualizzata su tre differenti piani
spaziali sagittale, coronale e assiale o trasverso (immagine 4).
Figura 4: I piani di spaziali di visualizzazione dell’immagine
Il segnale derivato dalla PET , ovvero l’immagine, consiste di fatto
in una matrice tridimensionale a valori scalari, le cui intensità sono
proporzionali all’assorbimento del radiofarmaco nei tessuti.
1.3
il rumore nelle immagini pet
Il rumore nella PET può derivare da diversi fattori: può essere dovuto all’elettronica e al campionamento dell’immagine, alle diverse
efficienze degli scintillatori e dei fotomoltiplicatori, al fatto che possono non essere allineati perfettamente, o può derivare da artefatti
dovuti a movimenti del paziente durante l’esame.
Un’altra categoria di errori della PET sono quelli di ricostruzione
dell’immagine stessa, i quali sono a loro volta dovuti a errori di ricostruzione della traiettoria dei fotoni nei tessuti, perché diffusi. Infine
gli errori possono derivare da un processo iterativo di ricostruzione
o a una FBP mal eseguiti, come mostra la figura 5:
Figura 5: Esempio di immagine PET cerebrale con FBP mal eseguita
Tutte le fonti d’errore sopra elencate fanno parte degli errori di
acquisizione, ma i più consistenti per quanto riguarda la PET, sono gli errori relativi a un’errata acquisizione dei fotoni, detti false
coincidenze.
1.4 il rumore in “neuroimaging”
Nella seguente figura 6 ne riportiamo due esempi:
Figura 6: False coincidenze
La prima configurazione è fonte d’errore in quanto da uno stesso punto partono due eventi non collineari e quindi non dovuti all’annichilazione elettrone-positrone; essi, giungendo agli scintillatori
nella finestra temporale impostata, vengono letti come un conteggio
proveniente da un diverso punto del corpo.
La seconda configurazione è fonte d’errore in quanto rappresenta
due annichilazioni avvenute contemporaneamente in diversi punti
del corpo. All’interno della finestra temporale impostata giungono
agli scintillatori un fotone per annichilazione e l’apparato, rimanendo
cieco ai fotoni seguenti, ricostruisce un’errata traiettoria.
Tutti questi effetti sono ben noti e sono relativamente facili da caratterizzare, ad esempio, tarando la PET per mezzo di appositi fantocci; gli effetti dell’attenuazione si possono correggere affiancando
alla PET una CT [10] in modo da derivare da essa i coefficienti di attenuazione dei tessuti, una volta applicati dei fattori correttivi, invece
l’effetto della diffusione dei fotoni, a seguito dello scattering Compton, si può minimizzare eventualmente utilizzando dei collimatori, a
discapito, però, di una perdita di conteggi.
1.4
il rumore in “neuroimaging”
In una disciplina come la fisica la forma del segnale che si sta cercando è quasi sempre nota in quanto esiste una teoria a cui rifarsi
che, fornendo una spiegazione sulle cause della formazione del segnale stesso, descrive le sue caratteristiche. Tuttavia, ogni volta che si
effettua una misura, si registra, oltre al segnale, anche il rumore.
Nel caso più semplice si tratta di rumore gaussiano, cioè additivo
e indipendente dal segnale stesso, e, solitamente, si è in grado di
pensare ad apparati che lo misurino.
In altri casi, come nel campo della fisica delle particelle, il rumore
è intrinsecamente legato alla natura del segnale che si sta misurando.
Quando ciò accade, pur non essendo possibile una sua misura diretta,
si è in grado di stimarlo tramite simulazioni e, questa possibilità, è
data dal fatto che è nota la sua distribuzione statistica.
9
10
introduzione
In entrambe le situazioni presentate, esistono procedure matematiche [11], che permettono di estrarre il segnale in maniera ottimale.
In campo medico, come vedremo meglio nel secondo capitolo, non
esiste una teoria che fornisca le caratteristiche del segnale che si sta
cercando di individuare e il procedimento di ricerca dello stesso è
inverso rispetto alla fisica.
Poiché le cause della malattia, che è il segnale cercato, non sono
note, ma spesso si conoscono i suoi effetti, in medicina esistono dei
modelli che basano le loro ipotesi su diversi processi biologici che
possono portare agli effetti osservati e, a posteriori, attraverso i risultati dell’analisi condotta, si stima la validità del modello ipotetico
seguito.
Oltre al fatto che non si conoscono la forma e le caratteristiche del
segnale, in campo medico, il rumore non segue un modello statistico
definito e si definiscono fonte di rumore tutte le perturbazioni non
direttamente collegate con la patologia in esame e che non dipendono
dall’osservatore [12].
Per orientarci in tutto questo è necessario differenziare i fattori confondenti da cui cerchiamo di estrarre il segnale, ad eccezione del rumore dovuto all’apparato, di cui si è trattato in precedenza, e che
presenta le caratteristiche del rumore fisico. Per farlo dividiamo i vari
fattori confondenti in categorie distinte, a seconda degli aspetti da cui
derivano:
1. Rumore Fisiologico
2. Rumore legato al processo di elaborazione delle immagini
3. Rumore di Gold Standard
4. Rumore legato al modello clinico seguito
1.4.1
Rumore Fisiologico
La seconda fonte d’errore presa in esame è il rumore fisiologico, esso
è dovuto alle differenze interindividuali, non trascurabili, esistenti
tra i pazienti. Non vi è modo di caratterizzarlo a priori in quanto tali
differenze sono dovute al vissuto di ogni individuo che interviene
sulla struttura e il metabolismo del cervello introducendo variazioni
tra gli individui spesso maggiori di quelle che si vogliono quantificare
[13]; per fornire alcuni esempi che semplifichino la comprensione al
lettore possiamo citare: fattori genetici, ambientali o dovuti alla storia
clinica dei soggetti. Anche selezionando un campione di individui il
più simili possibile le differenze interindividuali rimarranno presenti,
pertanto è necessario imparare a trattare questo fattore confondente
e, nel seguito, introdurremo delle tecniche grazie alle quali esso viene
ridotto.
1.4 il rumore in “neuroimaging”
1.4.2
Rumore dovuto al processo di Elaborazione delle Immagini
Trattando dell’elaborazione del segnale in senso strettamente fisico si
è visto che esiste una procedura ottimale per la sua caratterizzazione.
In campo medico ciò non accade e bisogna scegliere la procedura da
seguire e verificare a posteriori se le scelte fatte hanno infine portato
all’individuazione del segnale cercato.
Scegliere tra diverse procedure di elaborazione delle immagini significa selezionare una diversa parte dell’informazione, che non viene
mai esaminata completamente. Questo comporta che, a priori, non si
possa nemmeno sapere se la scelta fatta individui o escluda il segnale stesso e, per questo motivo, la verifica sull’efficienza della scelta
riguardante la procedura di elaborazione va fatta a posteriori determinando, ad esempio, con quale percentuale si classificano i gruppi
da cui si è partiti per l’individuazione dell’informazione.
Cercare di massimizzare la percentuale con la quale si classificano
i gruppi di soggetti paragonati per individuare il segnale è, in effetti,
un metodo per verificare la bontà della procedura scelta e, consapevoli del fatto che ogni diversa procedura introduce un errore, esistono
studi, detti studi di metanalisi, che permettono di analizzare e confrontare una serie di processi, consentendo una sintesi quantitativa
dei risultati.
1.4.3
Rumore di Gold Standard
Come accennato nei precedenti paragrafi il segnale in neuroimaging
viene dedotto comparando immagini di gruppi di soggetti con un
quadro clinico noto: tipicamente vengono confrontati soggetti che non
presentano la patologia in esame e soggetti affetti da tale patologia. In
questo modo il segnale dipende fortemente dalle scelte fatte per la selezione dei gruppi e, se i pazienti non sono propriamente selezionati,
l’intera analisi può essere pregiudicata.
Il rumore di Gold Standard è legato alla scelta dei criteri di selezione dei soggetti nei gruppi che vengono confrontati per l’individuazione del segnale: idealmente questi gruppi dovrebbero essere omogenei rispetto allo stato clinico dei soggetti, in altre parole all’interno
del gruppo di soggetti affetti dalla patologia in esame bisognerebbe
essere certi che non vi siano soggetti non affetti da tale patologia e
viceversa. Nella pratica clinica e, in particolare per quanto riguarda le
patologie neurodegenerative, l’omogeneità dei gruppi può non essere
accertata, considerando i molti fattori confondenti presenti, che comportano una grande difficoltà diagnostica. Quand’anche la selezione
degli individui venga effettuata in modo accurato, si deve tenere conto della continua evoluzione della diagnosi, in quanto la comparsa di
eventuali nuovi sintomi potrebbe portare a una diversa conclusione
diagnostica che influirebbe sulla corretta attribuzione del singolo sog-
11
12
introduzione
getto al suo gruppo di appartenenza. Un altro importante elemento
riguarda la sensibilità dei biomarcatori e dei test clinici rispetto all’età dei soggetti [14, 15]: come precedentemente specificato, il segnale
identificato per mezzo dei biomarcatori è una misura indiretta che
permette di quantificare lo stato clinico dei soggetti e in base a questo
classificarli, l’età è uno dei fattori confondenti nel caso delle malattie
neurodegenerative in quanto i biomarcatori legati alla neurodegenerazione non distinguono le cause di quest’ultima che chiaramente
possono non essere derivate dalla patologia ma dall’invecchiamento;
questo comporta una rilevante diminuzione della sensibilità dei test,
come dei marcatori, in età avanzata; come ultimo aspetto, si consideri
che nei gruppi di individui: quello costituito da soggetti non affetti
dalla patologia in esame e quello costituito da soggetti affetti da tale patologia, non si tiene conto, oltre che alla variabilità dovuta alle
infinite differenze tra i pazienti, nemmeno di una eventuale comorbidità che, come nel caso dell’età, influisce sulla sensibilità dei test e
sull’efficacia diagnostica dei biomarcatori.
Per cercare di minimizzare il rumore Gold Standard si fa in modo
che la numerosità dei gruppi di controllo permetta di avere delle misure statisticamente significative e i trial vengono condotti in più centri contemporaneamente (studi multicentrici); confrontando i risultati
si ha un doppio vantaggio: si riesce a minimizzare l’effetto confondente derivato dall’ambiente in cui viene condotto il trial e si aumenta
la statistica, ma spesso a discapito della significatività dell’indicatore.
Ciò avviene se la variabilità tra i gruppi dei diversi centri è maggiore
della variabilità dei singoli gruppi e, per questo motivo, per effettuare studi multicentrici e fare in modo che questo diminuisca i fattori
confondenti, la chiave è avere soggetti ben confrontabili trattati seguendo dei protocolli nella preparazione del paziente, ad esempio
tramite una dieta , durante l’esecuzione dell’esame, ad esempio per
quanto riguarda la durata dell’esame stesso, e per la ricostruzione
delle immagini [12].
1.4.4
Rumore dovuto al Modello assunto per descrivere la Patologia
Questo fattore confondente è l’ultimo preso in esame; il modello assunto per descrivere la patologia influenza chiaramente i criteri di selezione adottati per la creazione dei gruppi da comparare per estrarre
l’informazione cercata, quindi, scegliendo un modello piuttosto che
un altro, si agisce indirettamente sul rumore di Gold Standard.
Inoltre la scelta di un modello introduce un ulteriore errore legato alla possibile interpretazione che si dà dei biomarcatori: diverse
interpretazioni portano a considerare diversi aspetti della patologia,
quindi uno stesso biomarcatore nell’ambito di due teorie diverse può
avere andamenti diversi e chiaramente un diverso valore diagnostico.
1.4 il rumore in “neuroimaging”
I grafici seguenti (figura 7) mostrano due diversi modelli teorici ipotetici degli andamenti che avrebbero i marcatori, a seconda della scelta del modello molecolare assunto per descrivere le cause delle neurodegenerazione. Il segnale può crescere o decrescere con l’avanzare
della patologia e dell’età.
Figura 7: Un esempio dei diversi andamenti qualitativi di biomarcatori
legati alla neurodegenerazione [16, 17]
Il fatto che le curve che descrivono l’andamento atteso dei biomarcatori sono continue e derivabili in funzione dell’avanzare della
patologia e dell’età dei soggetti, è chiaramente una semplificazione,
che deriva da un’ipotesi formulata a priori, questo rende più semplice trarre conclusioni in merito al potere predittivo dei biomarcatori
stessi e permette di formulare una previsione temporale riguardante
l’evolversi della patologia studiata.
Nella nostra analisi non terremo conto del fattore confondente introdotto dal modello teorico che si basa su una delle ipotesi ad oggi più accreditate nell’ambito delle patologie neurodegenerative, detta Cascata Amiloide [17]; esso verrà ripreso più esaurientemente in
seguito.
13
2
RICERCA E ESTRAZIONE DEL SEGNALE
2.1
2.1.1
caso di studio: misura della neurodegenerazione
legata alla malattia di alzheimer
Alzheimer e Mild Cognitive Impairment
Recenti studi affermano che circa 24 milioni di individui al mondo
sono affetti da demenza e che la maggioranza di questi soggetti presenta proprio la malattia di Alzheimer, che è una delle sue forme più
comuni [18].
Nonostante la prima descrizione di questa patologia risalga al 1906
[19], solo di recente sono stati definiti criteri diagnostici, che includono l’utilizzo di biomarcatori (2007-2015) [20, 21, 22]. Il principale motivo legato a questo maggiore interesse è dovuto al suo enorme impatto
socioeconomico [23] poiché i soggetti che ne sono affetti hanno un’autonomia limitata e necessitano di assistenza da parte dei familiari e
dell’intera società.
Ancora oggi molte delle caratteristiche della malattia di Alzheimer
rimangono ignote in quanto le evidenze cliniche legate ai suoi primi
stadi sono qualitative ed essa ha una maggiore incidenza nei soggetti
anziani. Inoltre, se un soggetto è molto anziano, i test clinici in uso
hanno una minore sensibilità [24].
La più essenziale e frequente manifestazione di questa patologia
è una perdita di memoria selettiva che può essere confusa con semplici disturbi dell’attenzione attribuibili anche a stress, generale affaticamento o depressione. Oltre a quanto detto possono manifestarsi
altri sintomi come afasia, disorientamento, aprassia, alterazioni comportamentali ed emozionali ed atarassia, può venir meno anche la
memoria a lungo termine e possono essere compromesse le capacità
semantiche dei soggetti.
Poiché non si conoscono i meccanismi biochimici causa della malattia di Alzheimer, ma sono noti alcuni dei meccanismi secondari che la
riguardano, le terapie in uso sono volte ad intervenire su quest’ultimi
e il loro effetto è quello di ritardare i sintomi e, in generale, il decorso
della patologia.
Il fatto che tali terapie siano più efficaci nelle prime fasi della patologia rende evidente il bisogno di aumentare le nostre conoscenze
riguardo la sua patogenesi individuando marcatori che, affiancati alle
valutazioni cliniche già in uso, permettano di anticiparne la diagnosi
e sviluppare nuovi trattamenti.
15
16
ricerca e estrazione del segnale
Un buon esempio di quanto appena detto è rappresentato dalla
maggiore attenzione rivolta alle diverse tecniche di neuroimaging,
che sono in grado di fornire informazioni morfologiche e funzionali, come l’FDG-PET, spianando, così, la strada alla ricerca di una stima quantitativa dei fenomeni biologici complessi che riguardano la
neurodegenerazione.
L’eziologia della maggior parte delle patologie neurodegenerative non è accertata in modo definitivo. Negli ultimi anni le terapie
per la malattia di Alzheimer si sono concentrate principalmente nel
tentativo di ridurre i livelli di beta amiloide [25], che consiste nella
deposizione in sede extracellulare di materiale proteico.
L’amiloide viene prodotta quando una proteina notevolmente più
grande, detta Amyloid Precursor Protein (APP) viene scissa, quindi il
materiale proteico si accumula in forma di placche nella parte esterna delle cellule nervose. I depositi di amiloide sono ritenuti essere
tossici e causano danni alle cellule nervose molti anni prima dell’esordio della demenza. È importante sottolineare che la deposizione
di amiloide non è così fortemente correlata con la cognizione, che
è strettamente legata ad un altro tratto distintivo della malattia di
Alzheimer, nel quale si rileva la presenza di ammassi di una proteina detta tau [25]. Sebbene tale proteina venga normalmente prodotta
dalle cellule nervose, nella malattia di Alzheimer ne viene prodotta una variante abnorme che, non funzionando correttamente, causa
la formazione di ammassi neurofibrillari all’interno dei neuroni, che
conseguentemente muoiono. Gli ammassi neurofibrillari, la perdita
sinaptica e neuronale sono, invece, strettamente associati ai deficit di
memoria, infatti, la manifestazione macroscopica della morte di un
numero significativo di cellule nervose è una variazione nella densità
dei tessuti e, se tale fenomeno è esteso, il soggetto inizia a presentare
disfunzioni cognitive.
La possibilità di ricercare evidenze di queste alterazioni ancora in
assenza di sintomi clinici è alla base del neuroimaging e il grande
interesse rivolto alle fasi precliniche della malattia di Alzheimer si è
tradotto nella recente definizione di una nuova categoria clinica detta
“Mild Cognitive Impairment” (MCI).
È stata introdotta per definire la fase sindromica in cui il deficit
cognitivo, misurabile da appositi test neuropsicologici, non è legato
alla presenza di neurodegenerazione o a malattie cerebrali. Nel caso in cui il soggetto MCI evolva in AD, questa condizione rispecchia
una fase di transizione tra il normale invecchiamento e la demenza [26] e si riferisce a una popolazione di soggetti che sono parzialmente compromessi nella loro quotidianità da un deficit cognitivo
subclinico1 .
1 Dicesi di ogni fenomeno patologico che non manifestandosi con segni o sintomi
obiettivi, in quanto in fase precoce o in forma lieve, sfugge all’esame clinico e può
essere scoperto con indagini di laboratorio o strumentali.
2.1 caso di studio: misura della neurodegenerazione legata alla malattia di alzheimer
Le caratteristiche del deficit di memoria riscontrato in questa categoria di soggetti sono più simili a quelle riscontrate nei soggetti
affetti dalla malattia di Alzheimer che negli individui non affetti [27],
mentre il funzionamento cognitivo generale è più vicino a quello dei
controlli che non a quello degli AD [28, 29]. Per questo si suppone che
i soggetti che hanno sviluppato una forma di demenza abbiano attraversato, in precedenza, una fase di compromissione cognitiva lieve
caratterizzata da un maggiore danneggiamento dell’area del cervello
legata alla memoria; tale supposizione è alla base della definizione di
MCI.
Poiché i soggetti MCI possono evolvere in differenti tipi di demenza (AD, demenza vascolare, demenza fronto-temporale, afasia progressiva primaria, demenza a corpi di Lewy) o possono rimanere stabili, è molto importante classificare e caratterizzare accuratamente le
diverse categorie di individui che lo presentano e, a questo proposito,
se ne individuano diverse varianti: solo il 50% dei soggetti affetti da
MCI evolvono in AD e sono detti MCI converter (MCI-co), se, invece,
rimangono stabili o evolvono verso altre forme di demenza sono detti
MCI non converter (MCI-nc) [30].
Nonostante l’interesse riguardo le prime fasi della malattia di Alzheimer che spiega anche l’importanza della definizione di criteri diagnostici per individuare i soggetti MCI, quest’ultimi mancano di specificità [31]. Pertanto la combinazione di informazioni cliniche, biologiche, biochimiche e derivate dalle tecniche di neuroimaging correlate
alla patogenesi dell’Alzheimer, potrebbe portare a un miglioramento
diagnostico anche nei riguardi di questa categoria di individui e, in
questo contesto, le ricerche si focalizzano sullo sviluppo di sofisticati metodi di analisi atti a estrarre informazioni clinicamente rilevanti
per una stima quantitativa di questo stato.
18
ricerca e estrazione del segnale
2.1.2
Il modello di neurodegenerazione: “Cascata Amiloide”
Il modello biologico di neurodegenerazione ad oggi più accreditato è
quello della “Cascata Amiloide” [32].
Questa ipotesi suggerisce che il dismetabolismo della proteina APP,
che porta alla formazione delle placche amiloidi, sia la causa principale della patogenesi della malattia di Alzheimer. I depositi di amiloide
disturbano il trasporto degli impulsi nervosi attraverso l’assone2 , tutto ciò induce la morte delle cellule nervose e variazioni delle funzionalità sinaptiche che portano a una disfunzione cognitiva del soggetto
che ne è affetto.
Figura 8: Nella figura è riportata la catena di eventi e alterazioni biochimiche che portano alla demenza secondo il modello teorico detto
Cascata Amiloide
A partire da questo modello si possono pensare meccanismi di attuazione dei processi biochimici, misurabili per studiare lo sviluppo
dell’Alzheimer e che quantifichino lo stato della patologia.
2 L’assone è una parte del neurone ed ha il ruolo di trasportare gli impulsi nervosi
2.1 caso di studio: misura della neurodegenerazione legata alla malattia di alzheimer
Ogni curva del seguente grafico 9 rappresenta il possibile andamento qualitativo, dalla condizione di normalità sino alla demenza,
dei diversi aspetti presi in esame.
Figura 9: La figura mostra l’andamento qualitativo, dalla condizione di normalità sino alla demenza, dei diversi biomarcatori che forniscono
la misura indiretta della neurodegenerazione. Nella prima parte
del grafico si tiene conto di processi che intervengono prima della
comparsa dei sintomi cognitivi (fase preclinica) legati alla chimica
e alla biologia dei processi cerebrali che quantificano il deposito
di amiloide nei tessuti, al dismetabolismo e alla variazione della
volumetria e della densità dei tessuti che si verifica quando i neuroni iniziano a morire. Nella seconda parte del grafico le curve
descrivono il decremento delle capacità cognitive dei soggetti (fasi
clinica)
Le curve descrivono possibili aspetti della neurodegenerazione legati a diversi processi biochimici e suggeriscono di utilizzare varie
tecniche diagnostiche, in quanto ognuna di esse è sensibile a uno di
questi aspetti. Nella prima parte del grafico si tiene conto di processi
che intervengono prima della comparsa dei sintomi cognitivi; le interpretazioni dei biomarcatori, in questa fase, sono legate alla chimica
e alla biologia dei processi cerebrali, attraverso i quali si quantifica
il deposito amiloide nei tessuti[33, 34], sono legate al metabolismo,
attraverso cui si quantifica la progressiva disfunzione neuronale, misurando il consumo di glucosio [35] da parte delle cellule cerebrali e,
quando le cellule iniziano a morire, sono legate alla variazione della
volumetria e della densità dei tessuti [36]. Questi cambiamenti costituiscono la fase della patologia detta preclinica e si possono individuare rispettivamente con analisi del liquido cerebrospinale (CSF), la
PET Amilode, la FDG-PET e la MRI. Le restanti misure dei marcatori
descrivono il decremento delle capacità cognitive dei soggetti che viene quantificato attraverso specifici test neuropsicologici; questa fase
della patologia è detta fase clinica.
20
ricerca e estrazione del segnale
Il passaggio dalla fase preclinica a quella clinica avviene in un arco
di tempo che copre circa vent’anni, arrivata alla fase clinica il decorso dei processi neurodegenerativi diviene molto rapido: nell’arco di
circa 5 anni.
2.1.3
La misura della neurodegenerazione
Facendo fede al modello appena descritto, cerchiamo misure di neurodegenerazione che possano fornirne una stima quantitativa in modo da individuare, tra le altre, la malattia di Alzheimer nelle sue fasi
precliniche.
Abbiamo esaminato dei marcatori affrontando il problema da un
punto di vista fisico: in questo contesto la malattia è stata trattata
come segnale da discriminare rispetto al rumore, rappresentato da
tutti gli effetti presenti in assenza di una patologia.
Il compito dei processi di elaborazione d’immagine è, quindi, quello di contribuire a produrre una diagnosi nelle prime fasi della neurodegenerazione: si vorrebbe, in pratica, identificare una misura in
grado di discriminare i soggetti non affetti dalla patologia da quelli affetti, già durante la fase preclinica, che sia facile da eseguire e
possibilmente basata su procedure comunemente utilizzate nella pratica ospedaliera. Deve essere possibile, inoltre, definire marcatori accurati e consistenti, clinicamente significativi e con un buon valore
predittivo che quantifichino la neurodegenerazione.
La forma con cui la neurodegenerazione si presenta nei soggetti
affetti non è conosciuta e, per portare avanti l’analisi, si è soliti fare le
seguenti assunzioni:
1. La neurodegenerazione è un segnale continuo e si individua nei
soggetti prima che presentino una condizione patologica.
2. La neurodegenerazione dovuta alla patologia si aggiunge a quella dovuta al normale invecchiamento.
3. La patologia si manifesta seguendo uno schema riconoscibile
nei soggetti.
4. Il segnale si può individuare e quantificare in ogni singolo soggetto affetto dalla patologia.
5. La quantità che si individua è proporzionale allo stato patologico.
2.1.4
L’interpretazione del biomarcatore nell’FDG-PET
Il cervello utilizza il glucosio come risorsa di energia [37] e il metabolismo del glucosio è strettamente legato al funzionamento dei neuroni
sia a riposo che nella loro fase di attivazione.
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
Acquisendo un’immagine FDG-PET mentre i soggetti non sono
impegnati in nessuna particolare attività, la distribuzione del glucosio nelle cellule cerebrali è primariamente determinata dall’attività
neuronale basale3 e rappresenta lo stato di salute dei neuroni [38].
Con la misura del consumo di glucosio e del flusso sanguigno si
identificano regioni con una ridotta funzionalità sinaptica, piuttosto
che neuronale: condizione che precede la morte delle cellule cerebrali
e caratteristica della fase preclinica della patologia.
L’impiego dei radionuclidi rende l’FDG-PET un metodo diagnostico piuttosto invasivo e il suo utilizzo deve essere cauto e ben legittimato da alti valori di sensibilità e specificità4 ; l’ipometabolismo regionale che si misura con l’FDG-PET ha un’alta sensibilità nel distinguere
soggetti AD da quelli non affetti dalla patologia e anche a discriminare individui ad alto rischio di sviluppare l’Alzheimer da individui
non a rischio, ma ha una bassa specificità [39] in quanto la presenza
di un ridotto consumo di glucosio da parte delle cellule cerebrali è un
sintomo proprio anche di altre patologie neurodegenerative [40]. Nella fase preclinica dell’AD l’utilizzo dell’FDG-PET, a causa della sua
bassa specificità, è ancora limitato all’ambito della ricerca, ma diversi
studi [41] mostrano che il danneggiamento sinaptico che precede la
morte delle cellule cerebrali avviene nelle primissime fasi della patologia e, se individuato, può portare a una diagnosi estremamente
precoce della stessa. In questo contesto l’FDG-PET è uno strumento che, unito alle valutazioni cliniche e ai test neuropsicologici, può
contribuire ad aumentare la probabilità di individuare l’Alzheimer.
2.2
strumenti per l’elaborazione delle immagini e l’estrazione del segnale
L’analisi visiva
Nonostante il largo utilizzo delle tecniche di imaging, che forniscono immagini dalle quali si possono ricavare indicazioni morfologiche
e funzionali utili per diagnosticare le patologie cerebrali, le informazioni a disposizione dei clinici sono limitate se essi utilizzano la sola
analisi visiva per formulare una diagnosi.
L’uso di una scala visiva per la classificazione delle immagini è
qualitativo, veloce e largamente applicabile, ma diminuisce grandemente il potere diagnostico di queste tecniche aumentando il rischio
di commettere errori, soprattutto nell’individuare le fasi iniziali dei
processi neurodegenerativi. Inoltre non è adatta a esaminare in modo
affidabile un grande numero di immagini e, come precedentemente
3 Il metabolismo basale è il dispendio energetico di un organismo a riposo.
4 con sensibilità si indica la capacità intrinseca di un test di individuare in una popolazione di riferimento i soggetti malati. Tale concetto si contrappone a quello di
specificità cioè la capacità del test di individuare come negativi i soggetti sani.
21
22
ricerca e estrazione del segnale
sottolineato, parte dei sintomi propri dell’AD non sono specifici di
questa patologia; quindi la sola immagine non è un indicatore diretto
dell’Alzheimer e dei suoi stadi preclinici.
Per sfruttare a pieno le potenzialità delle tecniche diagnostiche di
imaging è necessario mettere a punto un processo automatico e quantitativo che possa classificare lo stato neurodegenerativo di un nuovo
soggetto eliminando le limitazioni insite nell’analisi visiva.
Il processo automatico
Un algoritmo automatico che fornisca una stima dei biomarcatori
aventi alta sensibilità nell’individuare la neurodegenerazione deve
essere in grado di gestire gli effetti confondenti trattati nel capitolo
precedente: il segnale cercato è completamente nascosto dalle disomogeneità dovute a un diverso orientamento delle immagini nello
spazio, a una diversa normalizzazione della loro intensità e alle differenze interindividuali dei soggetti. Visto che il segnale viene definito
comparando gruppi di soggetti già clinicamente classificati, lo prima
fase del processo automatico è rendere le immagini comparabili.
Per rendere le immagini tra loro confrontabili, un processo automatico segue tipicamente alcuni passaggi: il primo passo è detto quality
check ed è necessario per eliminare dall’analisi le immagini troppo
rumorose e con artefatti da movimento evidenti, effetti dovuti al rumore di acquisizione. Per individuare un biomarcatore affidabile si
ha, infatti, bisogno che la qualità delle immagini utilizzate sia alta.
Il secondo passo coinvolge tutti quei processi che rendono possibile effettuare sulle immagini una solida analisi statistica ed è la normalizzazione. Essa coinvolge una fase di normalizzazione spaziale, che
consiste nel fare in modo che le strutture anatomiche delle immagini
risultino ben allineate; tale processo aiuta a individuare le differenze
tra le i diversi soggetti. Un’altra fase del processo di normalizzazione è la normalizzazione dell’intensità che ha lo scopo di uniformare i
valori dei livelli di grigio delle immagini in particolare strutture di
riferimento.
Nell’FDG-PET l’intensità delle immagini può essere molto diversa
da individuo a individuo, per esempio a causa delle differenze metaboliche di ogni soggetto. Tramite la normalizzazione, si fa in modo di
assicurare un’uniformità delle varie immagini trattate.
Dopo queste prime fasi vi sono diverse possibili scelte da valutare per l’estrazione dei biomarcatori: uno dei processi più utilizzati
consiste nell’individuare le zone di maggior interesse e si chiama Feature Selection: esso si basa sull’assunzione che l’informazione cercata
non sia contenuta in tutti i dati esaminati, ma che parte di essi siano
ridondanti e parte irrilevanti o addirittura confondenti.
A questo punto dell’analisi i fattori confondenti dovuti alla variabilità tra i soggetti sono ridotti e si è pronti a passare alla classificazione:
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
un algoritmo appropriato deve essere testato per verificare la sua efficacia nel classificare nuovi soggetti: esso deve essere in grado, a partire dalle caratteristiche dei soggetti noti, di dividere nuovi individui
secondo le loro categorie di appartenenza.
Al termine di tutto questo è possibile attribuire a un’immagine
una quantità, cioè l’output del classificatore scelto, in grado di fornire un’informazione significativa riguardo al nuovo soggetto e il suo
stato neurodegenerativo.
I passaggi elencati verranno presentati e discussi in dettaglio nel
terzo capitolo della trattazione.
2.2.1
2.2.1.1
Strumenti per la selezione delle immagini
L’ADNI
Preliminarmente al processo di elaborazione di immagini bisogna
provvedere alla loro selezione. Questa prima scelta influirà sui passi
successivi del processo di analisi che si intende implementare, poiché, con essa, si introducono il rumore fisiologico, il rumore di Gold
Standard e il rumore dovuto all’acquisizione delle immagini stesse: le
fonti di rumore saranno tanto minori quanto più accuratamente sarà
effettuata questa fase dell’intero processo.
Le immagini utilizzate per l’analisi sono state selezionate da un
database pubblico del Alzheimer’s Disease Neuroimaging Initiative
(ADNI)5 [16].
I ricercatori coinvolti in questo progetto raccolgono e validano immagini MRI e PET, informazioni genetiche, test cognitivi e altri biomarcatori, in modo che possano essere utilizzati come indici di predizione dell’AD, tutti provenienti da diversi centri ospedalieri del
Nord America. Gli studi condotti includono pazienti con Alzheimer,
soggetti MCI e persone anziane facenti parte del gruppo di controllo.
Tale iniziativa, partita nel 2005, è, ad oggi, la più grande collezione di immagini e altri dati sulla neurodegenerazione e la malattia di Alzheimer esistente e permette di sfruttare studi multicentrici
diminuendo così il rumore di Gold Standard.
Al 2013 all’interno del database dell’ADNI erano registrati 229 soggetti anziani sani, 398 MCI e 192 pazienti AD che sono stati seguiti
per 2 o 3 anni.
La scelta dei gruppi: Controlli, AD e MCI-co
I soggetti inclusi nella nostra analisi sono divisi in due gruppi: il
primo formato da pazienti di cui conosciamo la valutazione clinica,
da utilizzare per ottimizzare la procedura scelta, e un altro di soggetti
MCI con cui testare la sua efficienza.
5 Tutte le informazioni collezionate nel
http://www.loni.ucla.edu/ADNI/Data.
database
sono
fruibili
sul
sito
23
24
ricerca e estrazione del segnale
Il gruppo usato per ottimizzare il processo, formato equilibrando
la percentuale di uomini e donne, consiste di 137 soggetti non affetti
dalla malattia di Alzheimer, detto gruppo di controllo, e di 81 AD,
quello usato per testare l’efficienza del processo è composto da 86
soggetti definiti MCI al tempo dell’analisi FDG-PET esaminata e convertiti in AD entro due anni dalla stessa, quindi definibili a posteriori
MCI-co.
Tutti i soggetti sono stati scelti in modo che le informazioni (esami diagnostici e metadati) ad essi relative siano complete per poterli
comparare confrontando eventualmente altri dati oltre le immagini
FDG-PET.
Uno degli indici utilizzati per la selezione è il Mini Mental Score
Examination (MMSE), che è uno dei più comuni test neuropsicologici
usati per valutare la presenza e lo stadio dell’Alzheimer nella fase
clinica; il punteggio di questo test va da 0 a 30, dove 30 è il punteggio
tipico di un soggetto appartenente al gruppo di controllo.
2.2.2
2.2.2.1
Strumenti per la normalizzazione delle immagini
Normalizzazione spaziale
La Normalizzazione spaziale, detta anche co-registrazione di immagini, si riferisce al processo di stima di una trasformazione spaziale T
che mappi i punti appartenenti all’immagine che si vuole registrare
(immagine mobile) sui punti di un’immagine di riferimento (immagine fissa o template) permettendo di sovrapporle con diversi gradi di
similarità, a seconda della trasformazione usata [42].
Questo concetto è schematicamente rappresentato in figura 10
Figura 10: Nella figura è rappresentata schematicamente l’idea alla base del
processo di registrazione d’immagini, nel quale si individua una
trasformazione spaziale che mappa i punti di un’immagine sulle corrispondenti posizioni di un’altra sino alla loro completa
sovrapposizione
La co-registrazione è una tecnica ampiamente utilizzata per molte
applicazioni tra cui, ad esempio, la creazione di immagini panoramiche, la microscopia, la robotica e, ovviamente, l’imaging medico.
Per la diversità delle immagini che devono essere co-registrate e per
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
le molteplici situazioni in cui è richiesta la co-registrazione, non esiste un metodo universale applicabile e, per affrontarla, è divenuta
standard la seguente suddivisione in sotto-problemi distinti:
1. Stima della trasformazione
2. Misura della distanza tra le immagini
3. Interpolazione
4. Ottimizzazione
I vari componenti della registrazione e le loro relazioni sono mostrate in figura 11
Figura 11: schema tipico del processo di co-registrazione ne quale si individuano due immagini di input, una trasformazione, una metrica,
un interpolatore e un ottimizzatore
L’immagine 11 rappresenta uno schema in cui si vede l’ordine in
cui vengono affrontati i sottoproblemi esposti. Per prima cosa sono
riportati i dati di input, cioè l’immagine mobile e la fissa, la prima da
co-registrare sulla seconda.
Registrare due immagini significa di fatto rendere minore possibile la loro distanza e per farlo si utilizza una trasformazione. Se è
parametrica il problema si riduce a trovare il minimo in uno spazio
di dimensioni uguali al numero dei parametri della trasformazione
stessa e, in questo contesto la distanza utilizzata ha un ruolo rilevante. Se, invece la trasformazione utilizzata è deformabile, lo spazio in
cui si opera ha dimensioni infinite e la distanza utilizzata non basta.
Tratteremo questo concetto più dettagliatamente in seguito.
La parte più delicata per trovare la migliore sovrapposizione delle
immagini è la metrica, per questo motivo, ci soffermiamo su questo
punto.
La scelta del tipo di distanza da utilizzare dipende fortemente dal
tipo di registrazione che si deve effettuare: alcune sono adatte per
immagini acquisite con la stessa modalità, mentre altre per modalità diverse. Il metodo da noi utilizzato per la registrazione si basa
sull’intensità delle immagini ed è quello più utilizzato in letteratura
[42].
25
26
ricerca e estrazione del segnale
Non esiste una regola a priori per decidere la funzione distanza
da utilizzare, tra le più usate vi sono la Somma dei quadrati delle differenze delle intensità, il cui acronimo deriva dall’espressione inglese
Squared Sum Difference (SSD), il Coefficiente di cross-correlazione (CC)
e la Mutual Information (MI), in quanto si sono rivelate più versatili ed
efficienti dal punto di vista dei risultati ottenuti.
Nella seguenti formule 2, 3 e 4, Ai indica l’intensità dell’i-esimo
punto dell’immagine fissa e Bi indica l’intensità del punto corrispondente al primo nell’immagine mobile. T indica la trasformazione utilizzata e, infine, N è il numero complessivo di punti delle immagini.
La SSD calcola la media della somma dei quadrati delle differenze
delle intensità tra coppie corrispondenti di punti delle immagini da
co-registrate.
SSD ( A, B) =
1
N
N
∑ ( Ai − BiT )2
(2)
i =1
Per questo motivo le intensità delle immagini stesse devono essere
compatibili e questo accade se si visualizza lo stesso processo chimico biologico e se la scala utilizzata per l’intensità è la stessa. Quindi
la SSD è utilizzata per co-registrazioni di immagini che condividono la stessa modalità (intra-modality) e soprattutto aventi valori di
intensità compatibili [43, 44].
Quando le due immagini, fissa e mobile, sono allineate il valore della correlazione raggiungerà il suo massimo, pertanto determinando
il valore massimo di CC si individua la trasformazione ottimale.
CC ( A, B) = q
∑iN=1 (( Ai − A)( BiT − B))
∑iN=1 ( Ai − A)2 ∑iN=1 ( BiT − B)2
(3)
Nella formula Ā e B̄ indicano i valori medi delle intensità delle
immagini dell’immagine A e B.
Il coefficiente di cross-correlazione, come già la metrica SSD, è utilizzato per co-registrazioni intra-modality [45] anche nel caso in cui
le intensità delle immagini da registrare non siano compatibili.
La Mutual Information calcola l’informazione in comune tra due
immagini A e B, misurando l’informazione di una variabile casuale, ad esempio l’intensità dell’immagine mobile, rispetto ad un’altra
variabile casuale come l’intensità dell’immagine fissa [46].
I ( A, B) = H ( A) + H ( B) − H ( A, B)
(4)
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
Essa è definita in termini di entropia di Shannon:
H ( A) ≡
Z
p A ( a)log( p A ( a))da
(5)
Intuitivamente misura l’informazione che l’immagine fissa e la mobile condividono, cioè quanto la conoscenza di una di queste riduce
la nostra incertezza riguardo all’altra. Se le due immagini sono indipendenti, allora la conoscenza dell’immagine mobile non dà alcuna
informazione riguardo alla fissa e viceversa, perciò la loro mutua informazione è zero. All’altro estremo, se sono identiche allora tutte le
informazioni trasmesse dalla prima sono condivise con la seconda.
Quindi, quando le due immagini sono allineate, il valore della MI
raggiungerà il suo massimo.
Il vantaggio maggiore che si ha nell’usare la MI è che non c’è bisogno di specificare la forma di dipendenza tra le variabili e ciò la
rende adatta alla co-registrazione multimodale.
In linea di principio tutte le metriche dovrebbero dare lo stesso risultato. Nella pratica alcune sono più adatte di altre e ciò non dipende dal processo di registrazione, ma dalle caratteristiche intrinseche
delle immagini da registrare.
Classi di Trasformazione per la Co-registrazione
Una distinzione fondamentale tra le diverse tecniche di co-registrazione
è quella fra tecniche che fanno uso di trasformazioni basate su modelli rigidi e quelle che, invece, si basano su modelli deformabili.
La Trasformazione Affine
In questa classe di trasformazioni le nuove coordinate sono trasformazioni lineari delle coordinate originali.
Nel nostro lavoro abbiamo utilizzato il modello affine [47], una trasformazione a 12 parametri che coinvolge traslazioni, rotazioni e la
scalatura dell’immagine mobile perché essa combaci con il template, preservando il parallelismo, ma non distanze ed angoli. Quindi linee rette dell’immagine mobile vengono mappate su linee rette
dell’immagine fissa.
Solitamente si esprime utilizzando le coordinate omogenee:
x2
y2
x1
=A
+B
y1
A seconda delle matrici A e B si ottengono traslazioni pure
(6)
27
28
ricerca e estrazione del segnale
b1
1 0
A=
;
B
=
0 1
b2
(7)
0
cos
(
θ
)
−
sin
(
θ
)
A=
;B =
sin(θ ) cos(θ ) 0
(8)
rotazioni pure
oppure stiramenti
0
a
0
11
A=
;B =
0 a22 0
(9)
Il modello affine rientra nelle classi di trasformazioni parametriche
e, essendo a 12 parametri, applicarla per effettuare la co-registrazione
di immagini, significa ricercare il minimo della distanza scelta in uno
spazio a 12 dimensioni.
In questo contesto la distanza per la ricerca del minimo riveste un
ruolo importante nel processo di registrazione e, come illustrato nel
terzo capitolo, per scegliere quella che meglio si presta alla nostra
analisi abbiamo effettuato varie prove.
La trasformazione Deformabile
Questa classe di trasformazioni, oltre alle operazioni consentite dalle
trasformazioni affini, permette di deformare l’immagine mobile. Lo
spazio in cui si opera utilizzandola è a infinite dimensioni e l’operazione di ricerca del minimo della metrica non basta per effettuare la registrazione, ma è necessario aggiungere ulteriori termini di
regolarizzazione.
Quindi quando si applica una trasformazione deformabile oltre a
scegliere la metrica, che al contrario di prima, non è di fondamentale
importanza, si sceglie una classe di trasformazioni.
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
Per la nostra analisi abbiamo scelto un modello diffusivo, che introduciamo brevemente e semplicemente utilizzando un’analogia con i
Demoni di Maxwell.
Figura 12: La figura mostra l’azione dei Demoni di Maxwell su un gas composto da due differenti specie chimiche (a e b), in una scatola
divisa da una membrana in due porzioni (A e B).
Il concetto dei demoni fu introdotto da Maxwell nel diciannovesimo secolo per illustrare un paradosso termodinamico (vedi figura 12).
Si assuma di avere un gas composto da due tipi di molecole: a e b,
separati da una membrana semipermeabile. Si assuma, inoltre, che
questa membrana contenga dei “demoni” in grado di distinguere i
due tipi di particella e che essi permettano alla particella di tipo a di
diffondere solo verso il lato A e a quella b di diffondere solo verso il
lato B.
La configurazione finale, mostrata nella seconda figura dell’immagine 12, ha un’entropia inferiore di quella iniziale e questo è in contrasto con il secondo principio della termodinamica. Il paradosso si
risolve in quanto i demoni generano una grande quantità di entropia riconoscendo le particelle e nel complesso l’entropia totale del
sistema aumenta.
Applicando quanto appena spiegato nell’ambito della co-registrazione
di immagini, il problema da affrontare è deformare l’immagine mobile per farla assomigliare alla fissa il più possibile.
Consideriamo il bordo dell’immagine fissa come la membrana semipermeabile dell’esempio precedente e immaginiamo su di esso disposti i demoni. L’immagine mobile è, invece, da considerarsi come
una griglia deformabile i cui vertici sono formati da particelle rispettivamente chiamate “dentro” o “fuori”, a seconda dell’azione che i demoni avranno su di esse [48]. Ogni demone è un “effettore” che spingendo all’interno o respingendo all’esterno della membrana i punti
dell’immagine mobile la porta a sovrapporsi perfettamente cone la
fissa.
29
30
ricerca e estrazione del segnale
Quanto detto è raffigurato nell’immagine 13
Figura 13: Applicando i modelli diffusivi alla registrazione delle immagini,
l’immagine mobile da co-registrare è considerata una griglia deformabile e viene diffusa attraverso il bordo dell’immagine fissa,
grazie all’azione di effettori, detti “demoni”.
L’applicazione di una trasformazione deformabile consente di raggiungere una completa sovrapposizione delle immagini a discapito di una totale perdita di informazione che può essere recuperata
solamente analizzando il campo di deformazione, che tiene conto
del movimento dell’oggetto co-registrato e dipende dalle sue proprietà fisiche, attraverso lo studio del determinante Jacobiano6 della
trasformazione stessa.
Per confrontare le differenze nelle strutture anatomiche degli individui procederemo co-registrando le immagini su un template, in maniera da riportare tutto ad un unico sistema di riferimento da usare
per il confronto.
2.2.2.2
Normalizzazione d’intensità
Mentre nella registrazione e nelle precedenti fasi del processo automatico non si tiene conto di informazioni strettamente legate alla clinica
dei soggetti, nella normalizzazione di intensità, detta anche equalizzazione, bisogna far riferimento a informazioni cliniche e relative al
problema che si sta esaminando. Un metodo semplice, comunemente
usato consiste nel riconoscere un volume di riferimento che si suppone che non subisca gli effetti della patologia, tra le zone utilizzate per
effettuare la normalizzazione in analisi analisi morfologiche e strutturali si trova, ad esempio, il cervelletto. Questa procedura permette
di quantificare la variabilità dei tessuti di uno stesso soggetto o tra
soggetti diversi e, grazie ad essa, si possono ridurre fonti di rumore
come il rumore fisiologico [49].
Nella malattia di Alzheimer, tuttavia, la scelta di un’area di riferimento è problematica in quanto si attesta una significativa riduzione
6 Consideriamo il campo di deformazione w( x ) e la trasformazione T ( x ) = x + w( x ),
la quantità | ∂T
∂x | è lo Jacobiano della trasformazione T ( x ) e descrive le deformazioni
necessarie ai punti dell’immagine mobile per essere sovrapposta al template
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
del rate di metabolismo e del flusso sanguigno in una vasta area del
cervello [50, 51] e, in questo caso, è necessario utilizzare altri metodi
di normalizzazione.
Una possibile scelta consiste nel realizzare la normalizzazione di
intensità del cervello tenendo conto della sua attività media globale
che viene determinata come valor medio di quei voxel7 che superano
una certa soglia [52].
Questa tecnica è stata introdotta perché fosse possibile minimizzare
il fattore confondente derivato dalle differenze interindividuali dei
vari soggetti senza bisogno di aggiungere ulteriori informazioni che,
chiaramente, possono aumentare l’errore della misura cercata.
2.2.3
Strumenti per l’individuazione delle caratteristiche significative del
sistema
La Feature Selection è un metodo di analisi che serve a ridurre la dimensionalità dello spazio in cui si opera. Nel far questo si cerca di
buttare via quelle parti di informazione che non servono o che sono
ridondanti. Esistono casi in cui tutte le informazioni sarebbero potenzialmente rilevanti e, quando questo accade, la feature selection ne elimina una parte. Nonostante questo la sua applicazione va comunque
a vantaggio della stabilità dell’analisi.
Nel campo del neuroimaging le immagini di ogni individuo forniscono 103 o104 variabili, non considerando le parti nere delle stesse
e i metadati, ma database multicentrici come quello dell’ADNI, che
ricordiamo essere tra i maggiori al mondo, raccolgono al loro interno
immagini e valutazioni mediche relative a circa 500 individui. Quindi,
senza operazioni di riduzione della dimensionalità, si avrebbe un numero di istanze grandemente inferiore al numero di variabili prese in
esame, che ci pone in una condizione sfavorevole ai fini dell’analisi.
Inoltre un’ulteriore caratteristica delle variabili in esame è che non
tutte sono linearmente indipendenti e molte di queste non sono affatto correlate con la patologia. Facendo riferimento alla nostra analisi,
utilizzare come metodo di indagine l’attività metabolica e quindi il
rate di glucosio bruciato dalle zone cerebrali, non fornisce informazioni legate alla sola malattia di Alzheimer e questo introduce fattori
confondenti che tentiamo di limitare proprio utilizzando la feature
selection.
Poiché riusciamo a valutare solamente dopo aver classificato i soggetti quale sia il modo migliore di applicarla, scegliamo di utilizzare due diversi metodi di Feature Selectione: il primo basato sull’individuazione di particolari regioni cerebrali di interesse, che per
brevità chiameremo ROI, il secondo basato sull’individuazione delle
7 Un voxel (volumetric picture element) è un elemento di volume che rappresenta un valore di intensità di segnale o di colore in uno spazio tridimensionale,
analogamente al pixel che rappresenta un dato di un’immagine bidimensionale.
31
32
ricerca e estrazione del segnale
componenti principali dello spazio delle immagini, che per brevità
chiameremo PCA.
2.2.3.1
Estrazione delle regioni d’interesse (ROI)
L’obiettivo di questa operazione è quello di determinare zone precise
del cervello, accuratamente registrate e equalizzate, sulle quali si possano misurare caratteristiche salienti dell’immagine legate ai processi
biochimici dovuti alla neurodegenerazione.
Nel caso esaminato, la scelta relativa alle regioni di interesse da
estrarre viene fatta tenendo conto che nei soggetti AD l’intensità media dei voxel è inferiore a quella dei soggetti appartenenti al gruppo
di controllo in quanto il metabolismo nei primi subisce un’evidente riduzione [50] a causa della neurodegenerazione che colpisce più
aree del cervello. A partire da queste informazioni si cerca di individuare regioni che massimizzino tale differenza, quindi, con questo
metodo, si mantengono inalterate le strutture anatomiche delle teste
e conseguentemente rimane stabilito un certo legame con il problema
trattato.
L’individuazione di specifiche regioni cerebrali di interesse viene
fatta ponendo una soglia in intensità alle immagini, al fine di estrarre i
voxel in cui è racchiusa l’informazione che differenzia maggiormente
l’attività metabolica dei due gruppi di soggetti che si suppone siano
quelli aventi maggiore intensità, per quanto detto prima.
Un’altra caratteristica importante da tenere in considerazione è la
dimensione delle ROI selezionate, che devono essere:
1. abbastanza grandi da poter trascurare le variazioni dei valori di
intensità dei voxel all’interno di un singolo gruppo.
2. abbastanza piccole da consentire al loro interno una condizione
di omogeneità, che porti a stabilire un valore di intensità media
caratteristico per ogni gruppo di soggetti.
Le condizioni poste sono caratteristiche necessarie affinché l’intensità delle immagini discrimini i 218 soggetti della nostra analisi.
Infatti, se il volume della regione cerebrale estratta è troppo grande,
cioè se i voxel al suo interno sono troppi, la ROI ha al suo interno una
grande variabilità dei valori di intensità sia nei soggetti AD che nei
controlli e il suo valor medio non discrimina i due gruppi.
D’altra parte se il volume della regione cerebrale di interesse è troppo piccolo, quindi al suo interno vi sono pochi voxel, l’intensità può
essere diversa anche tra soggetti di un singolo gruppo e, nuovamente,
non si può utilizzare per discriminare i soggetti efficacemente.
2.2.3.2
L’analisi delle componenti principali (PCA)
L’analisi delle componenti principali, dall’inglese Principal Component
Analysis (PCA) [53] è una tecnica che trasforma un set di variabili
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
del sistema tra loro correlate in variabili linearmente indipendenti
chiamate componenti principali. Il numero di componenti principali
è minore o al più uguale a quello delle variabili iniziali.
Questo metodo, al contrario del precedente, prescinde dalle immagini in quanto tali e permette di generalizzare il problema portandolo
ad un maggior livello di astrazione: esso esegue la riduzione della
dimensione dello spazio delle immagini individuando le direzioni
principali, come mostra la figura 14
Figura 14: L’immagine mostra un insieme di punti rappresentati in uno spazio tridimensionale. Nella parte b della figura sono visualizzate
le componenti principali dello spazio.
Nell’immagine 14 si vede che i punti nello spazio tridimensionale
sono distribuiti prevalentemente lungo una direzione: PC1. Il resto
delle componenti principali si individua tenendo conto che tutte devono essere tra loro perpendicolari, in quanto indipendenti le une
dalle altre.
Alla base dell’utilizzo della PCA come metodo di feature selection
nella nostra analisi, vi è il fatto che i sottospazi generati dai due gruppi di soggetti, avendo dimensioni distinte e quindi un diverso numero
di componenti principali, siano differenziabili lungo una o più direzioni dello spazio. Con la nostra analisi vogliamo selezionare quella
lungo la quale si riescono a differenziare meglio i soggetti AD dai
normali.
2.2.4
Strumenti statistici
2.2.4.1 Le curve ROC
Le prestazioni dei biomarcatori vengono solitamente espresse in termini di sensibilità e specificità, che forniscono rispettivamente il numero di soggetti classificati come veri positivi (TP) e quello di soggetti
classificati come veri negativi (TN), individuati dall’analisi condotta.
Riferendoci alla figura 15, mostrata di seguito e osservando le distribuzioni, costruite a partire dalla tabella di contingenza accanto, si
33
34
ricerca e estrazione del segnale
vede che i valori di sensibilità e specificità di una analisi vengono
usualmente stimati a seguito della scelta di un cutoff.
Figura 15: esempio di discriminazione tra due diverse distribuzioni e rappresentazione del relativo potere discriminante tramite una curva ROC. Sugli assi è riportata la sensibilità in funzione di
(1-specificità) della procedura di analisi
Nel prendere decisioni di tipo statistico è sempre possibile commettere degli errori. Nel nostro caso e in campo medico in generale, si
eseguono dei test nei quali vengono considerate due ipotesi: l’ipotesi nulla, solitamente indicata con H0, che riguarda la presenza della
patologia in esame e un’ipotesi alternativa, chiamata H1. Quando l’ipotesi H0 viene accettata se falsa o, viceversa, rifiutata se vera, viene
commesso un errore di primo tipo e, poiché l’ipotesi H1 è l’unica alternativa a quella nulla, commettendo un errore nel valutare H0 non
lo si fa nei confronti di H1. Quando, invece, H0 viene accettata, se
vera, o rifiutata, se falsa, significa che nel valutare H1 si è commesso
un errore, detto di secondo tipo.
In entrambe i casi, quindi, si commette un errore di giudizio e una
regola di decisione è considerata buona, se è costruita in modo da
rendere minimi gli errori di primo e secondo tipo.
Quando il test d’ipotesi è svolto in campo medico, questi errori
si valutano in termini della tabella di contingenza: si misura il rate
di soggetti TP e TN, rispettivamente relativi all’ipotesi H0 e H1, e,
nel valutarli, si commette un errore del primo tipo se si considerano i
soggetti sani, malati (FP) e del secondo tipo se si considerano soggetti
malati, sani (FN).
Usualmente si scelgono cutoff per fare in modo di diminuire il più
possibile le ultime due categorie di soggetti definiti,uguagliandole, e
aumentare al massimo il numero di soggetti classificati correttamente.
Le ROC sono curve che riportano l’andamento della sensibilità in
funzione di (1-specificità), quindi il numero di soggetti veri positivi
2.2 strumenti per l’elaborazione delle immagini e l’estrazione del segnale
in funzione del numero di falsi positivi e, al variare della soglia di
discriminazione, si ottengono classificazioni differenti.
Nel capitolo 3 classificheremo i soggetti appartenenti alla nostra
analisi considerando due diverse soglie di discriminazione: la prima,
da cui si ricava il valore dell’area sotto la curva ROC, è basata su un
taglio singolo, valutato in modo da minimizzare il numero di FP e
FN; la seconda è basata su due tagli , valutati per avere un rate di
soggetti TN e TP almeno del 95%.
La misura dell’area sottesa sotto la curva ROC, acronimo del termine receiver operator characteristic, detta AUC, è un indice della capacità
discriminatoria del classificatore. Quando è circa 1, significa che la
procedura adottata ha un alto potere discriminante e dunque alti valori di sensibilità e specificità. Quando il valore della AUC è circa 0.5
il classificatore scelto per condurre l’analisi ha un basso potere discriminante e fornisce i risultati che fornirebbe un classificatore casuale
[54].
2.2.4.2 La Clusterizzazione
Il clustering è uno dei metodi statistici più diffusi e consiste nel raggruppare diversi oggetti mettendo insieme quelli tra loro più simili
riguardo alle caratteristiche prese in esame [55]. Questo tipo di analisi è effettuata con diversi algoritmi di raggruppamento e diverse
nozioni di distanza tra i raggruppamenti ottenuti.
Il metodo da noi utilizzato è detto clustering gerarchico, esso è un
approccio di clustering che mira a costruire una gerarchia tra i gruppi
formati. La strategia adottata per eseguire questo tipo di analisi è di
tipo agglomerativo: si tratta di un approccio dal basso verso l’alto in
cui si parte dall’inserimento di ciascun elemento in un cluster differente e si procede quindi all’accorpamento graduale di cluster a due
a due.
Per determinare l’appartenenza degli oggetti a un gruppo piuttosto
che ad un altro e cioè per verificare la somiglianza tra gli stessi, si
usa il concetto di distanza secondo cui gli elementi all’interno di uno
stesso cluster sono i più vicini. L’intero processo è iterativo ed è volto
ad ottenere i migliori raggruppamenti possibili.
Il criterio di collegamento determina, invece, la distanza tra i vari
cluster creati in funzione della metrica scelta. Più avanti nella trattazione verranno confrontati due metodi: il primo basato sulla valutazione della varianza dei cluster uniti (Wards Criterion [56]), il secondo
metodo si basa sulla media delle distanze degli elementi appartenenti ai cluster uniti (Average Criterion). Il risultato ottenuto con il clustering gerarchico viene solitamente visualizzato tramite un diagramma
ad albero detto dendrogramma. Uno strumento grafico per la visualizzazione del coefficiente di similarità quantificato dai vari cluster nel
processo di raggruppamento.
L’immagine 16 ne mostra un esempio:
35
36
ricerca e estrazione del segnale
Figura 16: La figura mostra un esempio di dendrogramma. Sull’asse x sono
rappresentati i dati che si vuole clusterizzare, ordinati secondo
la metrica scelta. Sull’asse y, invece, è indicata la distanza tra i
cluster e all’aumentare del valore delle y, aumenta il livello gerarchico selezionato. Ad alti valori di y si individuano due cluster;
essi sono molto differenti in quanto la loro distanza è notevole.
Minore è il valore delle y considerato minore è la distanza tra i
cluster formati, i quali aumentano in numero sino a coincidere
con il numero di dati da raggruppare. A seguito dei taglio effettuato sono stati individuati 6 diversi gruppi di dati, raffigurati
nelle box di diversi colori.
Il dendrogramma in figura 16 rappresenta un esempio di clusterizzazione gerarchica: all’aumentare del valore delle y il numero di
elementi per cluster diminuisce sino ad arrivare ai raggruppamenti aventi tra loro la maggiore distanza, quindi aventi all’interno dati
con caratteristiche molto diverse; in questo caso sono due. A bassi
valori di y, invece, il numero di elementi per cluster va diminuendo
e diminuisce anche la distanza tra di essi, sino a che il numero di
raggruppamenti non coincide con il numero di dati da raggruppare.
Sull’asse x sono riportati i dati analizzati, ordinati secondo la metrica
scelta.
Infine la figura mostra un esempio di scelta del livello gerarchico,
a seguito del quale si individuano 6 cluster diversi, rappresentati con
le box di diversi colori.
SVILUPPO DEL MODELLO SU UNA POPOLAZIONE
TEST
3.1
estrazione del segnale
Nei capitoli precedenti abbiamo largamente trattato delle difficoltà
legate all’individuazione e alla misura del segnale e dei numerosi
effetti confondenti da cui esso è affetto.
Nel secondo, in particolare, abbiamo presentato il processo automatico utilizzato per individuare, estrarre ed elaborare il segnale stesso
e grazie al quale si arriva, infine, alla classificazione delle immagini. A questo punto, è necessario entrare nei dettagli di tutte le fasi
presentate, cercando di motivare al meglio le scelte fatte.
Nel nostro caso il segnale è proporzionale all’intensità delle immagini e, poiché non conosciamo la sua forma e le sue caratteristiche,
l’unico modo di verificare la validità di ogni passo del processo è
attraverso la classificazione dei soggetti presi in esame.
Nota la valutazione clinica dei 218 individui coinvolti nell’analisi,
riusciamo a stimare l’efficacia dei metodi utilizzati solo a posteriori,
quantificando il numero di soggetti ricollocati nel loro reale gruppo
di appartenenza.
L’intero processo è di fatto volto a trovare il modo giusto di individuare quelle differenze tra il gruppo degli 81 soggetti AD e quello
dei 137 controlli dovute alla presenza della malattia di Alzheimer. Per
questo motivo, le prime fasi dell’analisi servono a rendere le immagini confrontabili in modo tale da esaltare le differenze tra i soggetti
riconducibili alla patologia e ridurre le altre. Tutto questo si ottiene
con la normalizzazione 2.2.2.
Resta da considerare che parte delle fonti di disturbo, descritte nei
precedenti capitoli, vengono introdotte con la selezione delle immagini da analizzare. Su alcune di esse avremo modo di influire durante il
processo di misura, ma su altre, come il rumore di Gold standard che
coinvolge l’eventuale errata attribuzione dello stato clinico dei soggetti, il rumore relativo al modello assunto o gli errori di acquisizione e
ricostruzione delle immagini PET, non abbiamo modo di agire.
Per questo motivo cerchiamo di minimizzare a priori questi effetti,
ad esempio, scegliendo di selezionare immagini provenienti da diversi centri ospedalieri, in modo da ridurre il rumore di Gold standard
e eseguendo una selezione preliminare che ci consenta di scegliere
immagini di alta qualità.
37
3
38
sviluppo del modello su una popolazione test
3.1.1
La selezione delle immagini: il Quality Check
L’informazione fornita dalle neuroimmagini è racchiusa nei voxel: elementi di volume che rappresentano un valore di intensità in uno spazio tridimensionale. Oltre al valore dei voxel è importante considerare
anche il loro orientamento, che fornisce la posizione delle immagini
rispetto a un sistema di riferimento, e le loro dimensioni, dette spacing.
Lo spacing si misura valutando la distanza tra i centri dei voxel, può
essere diverso lungo le direzioni ( x, y, z) e fornisce un’informazione
legata alla risoluzione spaziale dell’immagine: tanto maggiore è il numero di voxel contenuto in un’immagine, ovvero tanto più piccolo
è lo spacing, quanto migliore è la risoluzione spaziale dell’immagine
stessa, a parità di volume rappresentato. La figura 17 mostra cosa s’intende per voxel e da essa si intuisce come lo spacing influisca sulla
risoluzione delle immagini e sulle loro dimensioni:
Figura 17: L’immagine mostra una porzione cerebrale, rappresentata in sezione, suddivisa in più elementi di volume, detti voxel, che
determinano la sua risoluzione spaziale.
Le informazioni sopra descritte sono tra i criteri in base ai quali noi
valutiamo la qualità di un’immagine. Processi come la registrazione
non potrebbero essere eseguiti senza riferimenti spaziali, come quelli
forniti dallo spacing, dalla direzione dell’immagine e dall’origine del
sistema di riferimento considerato.
Le linee guida dell’iniziativa ADNI prevedono l’acquisizione di diverse immagini PET per ogni soggetto coinvolto ed è possibile che,
talvolta, non siano di alta qualità.
Per scegliere le immagini da elaborare abbiamo condotto una prima analisi visiva, in modo da evitare di includere quelle aventi errori di ricostruzione o artefatti da movimenti 1.3. Inoltre abbiamo
adottato un criterio selettivo in base al quale scegliere solo immagini
con alta risoluzione spaziale, quindi di alta qualità e buon contenuto informativo, che consiste nel selezionare immagini aventi spacing1
1 Un modo equivalente di scrivere lo spacing di un’immagine è utilizzando il formalismo: [2, 2, 2] senza indicare le unità di misura. Nel seguito della trattazione verranno
utilizzati indistintamente.
3.1 estrazione del segnale
2x2x2mm3 .
Di seguito riportiamo un esempio di immagine avente spacing [2, 2, 2]
e uno avente spacing [2, 2, 4.25] (figura 18), in modo che il lettore
possa verificare qualitativamente la differente risoluzione spaziale:
Figura 18: La figura mostra due FDG-PET aventi spacing diverso: (la prima
sulla sinistra) [2, 2, 2] e (la seconda) [2, 2, 4.25]. La differenza della terza componente dello spacing delle immagini comporta che
la loro risoluzione spaziale sia diversa lungo i piani sagittale e
coronale.
Si vede che sul piano sagittale e su quello coronale, rappresentati
nei riquadri in alto della figura 18, la risoluzione spaziale delle immagini è differente. In particolare la qualità dell’immagine raffigurata
a destra è inferiore rispetto a quella di sinistra e conseguentemente
risulta tale anche il suo contenuto.
Con le scelte adottate abbiamo fatto in modo di includere nell’analisi immagini di buona qualità, cosicché non fosse compromessa
l’informazione metabolica in esse racchiusa.
3.1.2
Normalizzazione Spaziale
Attraverso la fase di normalizzazione spaziale intendiamo determinare una serie di trasformazioni che facciano in modo di sovrapporre le
218 immagini scelte su un template, realizzato mediando 100 immagini FDG-PET, precedentemente normalizzate, e provenienti da studi
multicentrici2 .
L’operazione di media è necessaria poiché il rate metabolico di ogni
soggetto è diverso e questo rende le immagini FDG-PET cerebrali tutte molto diverse le une dalle altre. Mediando su un cospicuo numero
di soggetti è possibile realizzare un’immagine che sia un buon riferimento e tenga conto del metabolismo basale cerebrale medio della
popolazione.
2 Il template scelto è stato scaricato dal sito http://www.fil.ion.ucl.ac.uk/spm/ext/.
39
40
sviluppo del modello su una popolazione test
L’immagine 19 mostra il template utilizzato:
Figura 19: Template FDG-PET usato per la registrazione delle 218 immagini
selezionate, spacing = [2, 2, 2]
Per effettuare la co-registrazione spaziale delle immagini abbiamo
utilizzato il framework LONI pipeline3 . Uno strumento, primariamente costruito per le diverse applicazioni della ricerca in neuroimaging [57], grazie al quale si può gestire l’esecuzione di sequenze di
comandi indipendenti. Ogni eseguibile costituisce un’unità o “modulo” dell’algoritmo complessivo e il suo output viene trasmesso come
input a uno o più moduli successivi.
Trasformazione Affine
Con l’intento di sovrapporre le 218 immagini scelte al template effettuiamo prima una trasformazione affine a 12 parametri che coinvolge
rotazioni, traslazioni e la scalatura dell’immagine mobile e, per decidere quale sia la metrica più indicata per definire la similarità tra
il template e le immagini, realizziamo diverse registrazioni affini di
prova.
3 La descrizione del Framework
http://www.pipeline.loni.ucla.edu
LONI
pipeline
è
reperibile
sul
sito
3.1 estrazione del segnale
L’immagine seguente mostra una delle prove effettuate:
Figura 20: La figura mostra una delle prove di registrazione affine effettuate.
A partire da sinistra si ha un’immagine registrata, in rosso, il
template su cui è stata effettuata la registrazione, in scala di grigi,
e infine la sovrapposizione delle due.
Nella figura 20 si vede una delle prove di registrazione affine, effettuate utilizzando la distanza Mutual Information 4 per definire il
grado di similarità con il template.
Il piano visualizzato è quello sagittale e le tre immagini mostrano
rispettivamente: la prova di registrazione dell’immagine mobile sulla
fissa, in rosso, il template, visualizzato in scala di grigi, e infine la
sovrapposizione delle due.
Nell’ultimo riquadro a destra, le parti evidenziate in rosso mostrano le zone in cui le due immagini differiscono maggiormente. La sovrapposizione tra le due non è ottimale perché la metrica scelta non
è adeguata per effettuare la registrazione4 .
Le performance, per ciascuna nozione di distanza utilizzata, cioè
Mutual Information (MI) 4, Somma dei quadrati delle differenze delle intensità (SSD) 2 e Coefficiente di cross-correlazione (CC) 3, sono state valutate con l’ausilio del software MATLAB5 , attraverso la misure della
correlazione, che indicheremo con r, tra le immagini co-registrate e il
template.
La distanza che ci consente di ottenere il risultato migliore è la CC
3; per la quale la correlazione media tra immagine fissa e mobile vale:
r = (0.925 ± 0.012)
(10)
Il valore ottenuto è dovuto al fatto che l’FDG-PET trasmette informazioni funzionali legate al metabolismo cerebrale, che è molto diverso in ogni soggetto. Inoltre i dettagli anatomico-strutturali, contenuti
4 Le metriche in linea di principio dovrebbero far convergere la procedura al medesimo minimo, ma dettagli implementativi rendono alcune di esse più adatte di altre a
seconda della tipologia di dato trattato.
5 La descrizione del software MATLAB è reperibile sul sito http://mathworks.com
41
42
sviluppo del modello su una popolazione test
nelle immagini e sui quali si basa il processo di registrazione, sono
poco definiti a causa dell’intrinseca risoluzione spaziale delle PET.
Un esempio di risultato ottenuto è mostrato nella figura 21:
Figura 21: La figura mostra la sovrimpressione di una delle immagini registrate, utilizzando una trasformazione affine, e del template. Le
parti che differiscono tra le immagini mobile e fissa, evidenziate in rosso, diminuiscono in numero ed estensione rispetto al
tentativo di registrazione precedente.
La figura mostra la sovrimpressione dell’immagine mobile sulla
fissa. Il template è raffigurato in scala di grigi e, paragonando i piani assiali delle figure 20 e 21. Si vede che le parti in cui le immagini
risultano meno sovrapposte, evidenziate in rosso, diminuiscono. Questo a testimonianza del fatto che la distanza scelta è adeguata e si è
raggiunto un buon allineamento.
Trasformazione Deformabile
Nelle immagini FDG-PET il cranio è uno dei pochi riferimenti strutturali utilizzabili per la registrazione spaziale. Le altre parti, forniscono un’informazione funzionale legata al metabolismo dei soggetti e modificarle per rendere le immagini più vicine, comporterebbe
modificare il segnale che cerchiamo di estrarre.
Come accade per tutti i passi del processo di estrazione e di elaborazione del segnale, anche gli effetti della normalizzazione spaziale sono stimabili solo determinando la percentuale di soggetti classificati
correttamente come appartenenti al gruppo di controllo o AD.
Poiché in letteratura sono riportati esempi secondo i quali, nel nostro caso, una trasformazione geometrica lineare non è sufficiente per
sovrapporre le immagini al meglio [58]; per migliorare la sovrapposizione delle strutture cerebrali tra le immagini registrate e il template, effettuiamo un’ulteriore trasformazione, questa volta deformabile,
basata su modelli diffusivi, introdotti nel secondo capitolo 2.2.2.1.
3.1 estrazione del segnale
Questo aspetto dell’analisi sarà trattato più dettagliatamente nel
paragrafo 5.2.1.
Potenzialmente applicando i modelli diffusivi alla fase di registrazione si possono ottenere immagini perfettamente sovrapposte, ma
nel caso della co-registrazione di FDG-PET questo compromette l’informazione funzionale contenuta nelle immagini stesse, pertanto cerchiamo di apportare deformazioni (D) tali da avere una migliore sovrapposizione dei crani delle teste da co-registrare, ma contemporaneamente di modificare il meno possibile il loro interno per non
variare il contenuto metabolico delle FDG-PET.
Tutto ciò si ottiene mediante una convoluzione del campo di deformazione dell’immagine mobile, ottenuto tramite il determinante
Jacobiano della trasformazione stessa, e di una gaussiana.
Consideriamo il campo di deformazione w( x ) e la trasformazione
T ( x ) = x + w( x ), la quantità | ∂T
∂x | è lo Jacobiano della trasformazione
T ( x ) e descrive le deformazioni necessarie ai punti dell’immagine
mobile per essere sovrapposta al template.
La deformazione finale ottenuta applicando la convoluzione vale:
D=|
( x − µ )2
∂T
1
| √ e− 2σ2
∂x σ 2π
(11)
Nella precedente formula 11, µ indica la media della distribuzione
normale e σ la sua deviazione standard.
Determinare quanto “forte” debba essere la deformazione significa
determinare σ della gaussiana con la quale si effettua la convoluzione. Poiché le strutture presenti nelle immagini FDG-PET, sulle quali
è basata la normalizzazione spaziale, hanno dimensioni superiori al
centimetro, realizziamo diverse registrazioni di prova, facendo variare la deviazione standard della gaussiana in modo che non vengano
modificate le strutture di dimensioni inferiori a qualche cm. Così facendo otteniamo una maggiore sovrapposizione del cranio e di strutture come il corpo calloso delle immagini e del template, preservando
le differenze metaboliche e preservando, quindi, il segnale.
Dopo aver effettuato nuovamente diverse registrazioni di prova,
al fine di definire il miglior valore della deviazione standard della
gaussiana, decidiamo di effettuare la registrazione impostando una
configurazione avente σ = 10mm 6 .
Una volta impostate le configurazioni adeguate sia per la trasformazione affine che per la trasformazione deformabile, le eseguiamo entrambe con l’intento di migliorare la sovrapposizione delle strutture
delle FDG-PET e del template.
6 Il valore della σ è stato scelto in seguito a diverse prove di registrazione effettuate.
Abbiamo eseguito la convoluzione del campo di deformazione legato alla registrazione con gaussiane aventi deviazione standard da 5mm a 20mm, variando σ di 5mm
ogni volta.
43
44
sviluppo del modello su una popolazione test
Lo schema realizzato e raffigurato nell’immagine 22 mostra la pipeline utilizzata per effettuare le due trasformazioni in cascata. La
registrazione affine ha lo scopo di avvicinare l’immagine mobile alla
fissa il più possibile prima di passare alla trasformazione deformabile,
la quale ha il compito di fare in modo che il cranio e le altre strutture
dell’immagine mobile si sovrappongano a quelle del template.
Figura 22: L’immagine mostra lo schema di registrazione completo realizzato utilizzando il framework LONI pipeline. I due moduli iniziali
sono per le immagini FDG-PET da co-registrare e il template. Prima di effettuare la trasformazione affine alle immagini vengono
attribuiti gli stessi riferimenti spaziali e vengono rese paragonabili in intensità. Poi passano al modulo che effettua la registrazione
affine e successivamente a quello che esegue la registrazione deformabile, dal quale si salva il campo di deformazione, convoluto
con la gaussiana che viene poi applicato alle immagini registrate
affini. Infine tutte le immagini vengono salvate.
Nello schema utilizzato, i due moduli iniziali contengono il template e le immagini mobili, che, prima di essere registrate, devono avere
lo stesso sistema di riferimento e valori di intensità compatibili. Dopo
queste fasi iniziali le PET sono pronte per essere registrate sull’immagine fissa. Prima viene effettuata la trasformazione affine e da questa
escono le immagini su cui verrà applicata la registrazione deformabile. Poiché è importante mantenere l’informazione funzionale fornita
dalle FDG-PET, non utilizziamo le immagini che escono dal modulo
della deformabile, ma da esso salviamo il campo di deformazione che,
come ricordiamo, è stato convoluto con una gaussiana di σ = 10mm,
proprio per evitare di alterare eccessivamente le informazioni funzionali. Infine l’ultimo modulo applica il campo di deformazione e, una
volta completata la registrazione, le immagini vengono salvate.
La normalizzazione spaziale permette di minimizzare il rumore dovuto alle differenze anatomiche presenti nei vari soggetti, ma preserva le differenze metaboliche legate anche la presenza della malattia.
Misurando nuovamente la correlazione media tra le immagini registrate e il template si ottiene:
r = (0.933 ± 0.011)
(12)
3.1 estrazione del segnale
Quanto ottenuto è compatibile con il risultato precedente e ciò significa che la registrazione deformabile applicata, grazie ai parametri
scelti, non modifica l’informazione contenuta nelle FDG-PET. Nonostante ciò il valore della correlazione in questo caso è leggermente
più alto e la sovrapposizione delle immagini è migliore.
La registrazione ottenuta applicando le trasformazioni in cascata è
mostrata in figura 23
Figura 23: Esempio di immagine registrata con la registrazione completa. A
sinistra si vede una delle 218 FDG-PET registrata, in rosso. La
seconda mostra il template, in scala di grigi, e a destra si vede la
sovrapposizione delle prime due.
Confrontando le figure 21 e 23 si vede che, nonostante i valori di
correlazione siano compatibili, la sovrapposizione delle strutture cerebrali delle immagini migliora. Questo comporta l’essere riusciti a sovrapporre le immagini mobili alla fissa, preservando l’informazione
metabolica.
L’effetto del processo di registrazione sulla capacità discriminante
rispetto alla patologia, non è quantificabile in questa fase.
Nel capitolo conclusivo discuteremo brevemente le prestazioni del
metodo implementato con e senza la trasformazione deformabile, in
modo da verificare la presenza di un miglioramento a seguito di
questa ultima trasformazione applicata.
3.1.3
Normalizzazione d’Intensità
L’FDG-PET misura una quantità proporzionale al rate metabolico cerebrale dei soggetti e, nelle immagini analizzate, questa quantità è
legata all’intensità dei voxel e si quantifica attraverso un numero di
conteggi. Più alta è l’attività metabolica degli individui, maggiore è il
numero di conteggi relativo alla zona cerebrale osservata.
Ci si aspetterebbe che le disfunzioni cerebrali legate alla presenza
della malattia di Alzheimer siano traducibili in una differente distribuzione del rate di conteggi rispetto ai controlli, ma prima di effettua-
45
46
sviluppo del modello su una popolazione test
re la normalizzazione in intensità delle immagini tale differenza non
è osservabile.
Come brevemente introdotto nel precedente capitolo (2.2.2.2), la
procedura di equalizzazione si basa sull’utilizzo di riferimenti di intensità, quindi nel nostro caso del numero di conteggi, che consentano di definire una scala all’interno della quale valutare il rate metabolico dei soggetti.
Nelle patologie neurodegenerative la funzionalità del cervello è
compromessa in vaste aree diffuse, pertanto individuare una specifica zona di riferimento su cui effettuare l’equalizzazione può risultare
inefficace [59]. Per questo motivo abbiamo utilizzato un metodo che
tenga conto del rate metabolico cerebrale globale.
L’equalizzazione implementata è di tipo Data Driven, ciò significa
che le scelte ad essa legate discendono dai dati analizzati e non da informazioni aggiuntive rispetto a regioni anatomiche risparmiate dalla
patologia.
Il riferimento in intensità utilizzato è un’immagine realizzata mediando tutte le 81 FDG-PET dei soggetti, facenti parte della nostra
analisi, appartenenti al gruppo degli AD, che chiameremo < M >.
Per fare in modo che i valori dei voxel all’interno di < M > vadano da 0 a 1, l’immagine è stata riscalata in intensità utilizzando la
seguente relazione.
< M > −min(< M >)
max (< M >) − min(< M >)
(13)
Con i termini max (< M >) e min(< M >) si intende il massimo e
il minimo valore di intensità dei voxel contenuti nell’immagine media
degli AD.
A questo punto l’equalizzazione si effettua attraverso l’operazione:
~
A
A~N =
N
N=
~ ·< M
~ >
A
|| < M >2 ||
(14)
~ rappresenta il vettore delle intensità dei voxel di ognuna delle
A
218 immagini FDG-PET, N il coefficiente di normalizzazione ricavato
a partire dalle immagini stesse, A~N rappresenta il vettore delle inten~ > é il vettore relativo alle
sità delle immagini normalizzato e < M
intensità medie dei voxel delle 81 immagini degli AD. Questa operazione consente di pesare le immagini, benché indirettamente, sul rate
metabolico cerebrale degli AD.
A questo punto quantifichiamo un coefficiente di normalizzazione
d’intensità che tenga maggiormente conto delle aree in cui agisce la
3.1 estrazione del segnale
malattia di Alzheimer in modo da esaltare la differenza di conteggio nelle zone che dovrebbero rendere i due gruppi considerati ben
distinguibili.
A priori possiamo pesare le immagini anche a partire dall’attività
cerebrale dei controlli e ricavare un equivalente coefficiente da utilizzare per effettuare l’equalizzazione. Tuttavia, volendo misurare quantità locali per esaltare solo determinate le zone cerebrali, utilizziamo il gruppo di soggetti aventi una distribuzione d’intensità meno
uniforme.
Di seguito (figura 24) riportiamo l’immagine della maschera probabilistica realizzata:
Figura 24: L’immagine rappresenta la maschera con la quale è stata effettuata la normalizzazione in intensità delle immagini, derivata
dall’attività cerebrale basale media degli 81 soggetti AD
3.1.4
Strumenti per la classificazione dei soggetti
A questo punto passiamo a trattare la misura della performance nella
classificazione dei soggetti: essa viene effettuata misurando l’area sotto la curva ROC, valutata a partire dai dati reali elaborati nel processo
di analisi.
L’errore sulla AUC è stato stimato tramite bootstrap [60], che è una
tecnica di ricampionamento con reimmissione, usata per approssimare la distribuzione campionaria di una statistica. Essa permette di
stimare i momenti di una distribuzione e quindi di approssimare media e varianza di uno stimatore e costruire intervalli di confidenza,
quando non si conosce la distribuzione di interesse.
47
48
sviluppo del modello su una popolazione test
Grazie a questa tecnica stimiamo l’intervallo di confidenza sulle
AUC, come mostrato in figura 25.
Figura 25: La figura mostra le AUC che corrispondono ai livelli di
confidenza del 95%, del 5% e al valore atteso ricavato dall’analisi
Per visualizzare l’andamento delle caratteristiche delle immagini
analizzate, da cui discende la classificazione dei soggetti, ci serviamo
sia della canonica rappresentazione tramite distribuzioni, sia della
rappresentazione grafica detta boxplot (figura 27).
Le distribuzioni mostrate nel seguito derivano dai dati reali e sono
stimate utilizzando il metodo chiamato Kernel Density Estimation [61],
esso individua la densità di probabilità di una serie finita di dati a
partire da un kernel, nel nostro caso, gaussiano.
3.1 estrazione del segnale
La figura 26 mostra lo stretto legame tra le distribuzioni derivate
utlizzando il Kernel Density Estimation, in rosso, e gli istogrammi
generati a partire dai dati reali dell’analisi, in blu.
Figura 26: La figura mostra un istogramma derivato dai dati reali dell’analisi, in blu, e la distribuzione continua, sovrapposta sull’istogramma in rosso, derivata a partire dal Kernel Density
Estimation.
Abbiamo dovuto stimare le distribuzioni di probabilità utilizzando
questo metodo perché, pur essendo le caratteristiche delle immagini
continue, i soggetti inclusi nella nostra analisi sono pochi, portandoci
ad analizzare serie finite di dati. La stima delle densità di probabilità
attraverso il metodo citato ci permette di trattare i dati come fossero
continui e di effettuare operazioni matematiche, come ad esempio il
calcolo dei percentili, in maniera più agevole.
49
50
sviluppo del modello su una popolazione test
Nel seguente grafico visualizziamo la corrispondenza tra il boxplot
e le distribuzioni.
Figura 27: L’immagine mostra un boxplot. La linea rossa al centro della box
rappresenta la mediana, i lati i percentili corrispondenti al 25% e
al 75% della distribuzione e i segmenti laterali si estendono per la
larghezza della distribuzione corrispondente 1.5 la distanza interquantile; i “+” rossi ai lati dei segmenti dei boxplot mostrano i
dati al di fuori di tale distanza della distribuzione.
La figura 27 conferma che il boxplot tiene conto di alcuni dei riferimenti più importanti della distribuzione che rappresenta: la linea
rossa al suo interno segna la mediana, i lati della “box” i percentili corrispondenti al 25% e al 75% e i segmenti laterali si estendono per una
larghezza corrispondente ai 1.5 la distanza inter-quantile della distribuzione che rappresenta. I “+” rossi ai lato della box rappresentano i
dati che fuoriescono da tale distanza.
Dall’analisi della curva ROC possiamo definire dei valori detti cutoff secondo diversi criteri. Uno dei più usati è quello che rende
minori possibili i valori di FP e FN uguagliandoli.
3.2 elaborazione del segnale: due metodi per la feature selection
Nella nostra analisi noi utilizziamo altri due tagli fissati in corrispondenza del 95% di sensibilità e specificità valutate a partire dalla
curva ROC, Così facendo stimiamo l’ampiezza della zona di sovrapposizione delle distribuzioni accettando di commettere un errore del
5% nel classificare i soggetti.
Figura 28: La figura mostra i tagli applicati in corrispondenza del 95% di
sensibilità e specificità sia sulla curva ROC che sulle distribuzioni.
In base alla scelta fatta accettiamo di commettere un errore nella
classificazione al più del 5%.
L’immagine in basso della figura 28, mostra l’ampiezza della zona di sovrapposizione delle distribuzioni. Riferendoci alle lettere in
figura, in seguito alle scelte fatte si ha
R +∞
RA
−∞ D2
RA
−∞
3.2
D1
= 0.05
R B+∞
B
D1
D2
= 0.05
(15)
elaborazione del segnale: due metodi per la feature selection
Conclusa questa fase del processo ci troviamo con 218 immagini ognuna avente circa 900000 voxel e cioè un campione di numerosità N =
218 descritto da V ∼ 900000 variabili.
51
52
sviluppo del modello su una popolazione test
Il problema da affrontare consiste nello scegliere una procedura
per estrarre le informazioni significative, ovvero discriminanti, rispetto alla classe dei dati analizzati. Poiché V >> N ci troviamo in condizione sfavorevole, quindi i metodi di analisi prevedono un passo
intermedio di feature selection.
Questo aspetto dell’analisi sarà trattato più dettagliatamente nel
paragrafo 5.2.2.
Per meglio valutare la variabilità introdotta con la scelta del metodo
1.4.2, utilizziamo due diverse procedure per selezionare le caratteristiche delle immagini più significative e, esattamente come accadeva per
la scelta della trasformazione migliore da effettuare nell’ambito della
registrazione 3.1.2, non abbiamo modo di sapere quale dei due metodi di feature selection abbia prestazioni migliori prima di classificare
i soggetti del nostro campione.
Le caratteristiche considerate, sulle quali si basano le metriche utilizzate per la classificazione, sono: il numero di conteggi in specifiche regioni di interesse e le componenti principali dello spazio delle
immagini.
La loro selezione è stata fatta in modo tale da massimizzare il
potere discriminante delle analisi con esse condotte.
3.2.1
Metrica 1: media dei conteggi sulle ROI
Vogliamo selezionare le aree cerebrali che maggiormente differenziano i soggetti appartenenti al gruppo di controllo da quelli affetti
dalla malattia di Alzheimer. Quindi dobbiamo definire un criterio
per determinare in quali tra i voxel all’interno del cranio dei soggetti analizzati sono contenute le informazioni che maggiormente li
discriminano.
Operativamente consideriamo ogni soggetto come un vettore a 276593
componenti, all’interno delle quali è riportata l’intensità di ogni voxel.
Quindi creiamo una matrice 218X276593 avente sulle righe i vettori
corrispondenti ai 218 soggetti e sulle colonne i voxel.
A questo punto possiamo valutare il potere discriminante di ogni
colonna della nostra matrice, misurando le aree sotto le curve ROC
create a partire da ognuna di esse; in questo modo individuiamo quali
dei voxel discriminano meglio i soggetti nei due gruppi. Una volta
ottenuti i valori delle aree sotto le curve ROC, studiamo l’andamento
delle medie delle AUC in funzione del numero di voxel considerati.
Coerentemente a quanto descritto nel capitolo precedente 2.2.3.1,
quando i voxel considerati nelle ROI sono molti, la media delle loro AUC è bassa. Quando sono pochi la media delle AUC ha un alto
potere discriminante, ma le prestazioni dipendono fortemente dal numero di voxel contenuti nella ROI e la classificazione che ne discende
è poco stabile. Quando invece il numero dei voxel all’interno della
regioni di interesse è circa un migliaio l 0 AUCmedia > 0.9 e il potere di-
3.2 elaborazione del segnale: due metodi per la feature selection
scriminante, variando di poco i voxel all’interno delle regioni studiate,
rimane circa costante.
Da quanto descritto deduciamo che, scegliendo di selezionare regioni di interesse che abbiano al loro interno un migliaio di voxel, si
fa in modo che il loro potere discriminante rimanga stabile anche considerando regioni di dimensioni di poco superiori o inferiori. Questo
garantisce che la classificazione dei soggetti nei gruppi sia altrettanto
stabile.
L’intero procedimento di selezione delle ROI appena descritto è
riassunto nella seguente immagine:
53
54
sviluppo del modello su una popolazione test
Figura 29: La figura mostra schematicamente il processo di feature selection
descritto.
3.2 elaborazione del segnale: due metodi per la feature selection
Scegliamo una soglia in intensità che ci consenta di individuare
una regione cerebrale che fornisca prestazioni stabili. Considerando intensità superiori a 0.275 selezioniamo una regione avente 2050
voxel.
In figura 30 è mostrato in dettaglio l’andamento della madia delle
AUC in funzione del numero di voxel nelle ROI e le regioni cerebrali
scelte, visualizzate in sovrimpressione sul template.
Figura 30: L’immagine a sinistra mostra l’andamento delle AUC medie in
funzione del numero di voxel nelle ROI. A destra è visualizzata
la ROI selezionata.
Confrontando quanto ottenuto in seguito alle scelte effettuate con
altre analisi funzionali basate su metodi data driven, concludiamo
che le regioni selezionate si avvicinano molto a quelle riportate in
letteratura, essendo situate nelle zone del cervelletto e della corteccia
occipitale [62]. Ciò conferma la validità del processo implementato.
Le differenze che individuiamo nel confronto sono soprattutto legate alle dimensioni delle ROI. Questo fatto può essere dovuto ai diversi
processi di selezione adottati.
Inoltre rimanendo nella zona del “plateau” del grafico in figura
30 anche noi possiamo variare le dimensioni delle ROI scelte senza
influire grandemente sul potere discriminante.
Arrivati a questo punto dell’analisi verifichiamo l’efficacia della prima metrica, valutando la performance nel distinguere i 218 individui
in controlli e AD.
Selezionando all’interno delle 218 immagini i 2050 voxel contenuti
nelle regioni di interesse e calcolando la media dei conteggi in tali aree, valutiamo il potere discriminante della metrica “media dei
conteggi” attraverso la misura dell’area sotto la curva ROC.
55
56
sviluppo del modello su una popolazione test
La classificazione ottenuta è mostrata nella figura 31
Figura 31: Sulla sinistra dell’immagine sono riportati i boxplot ordinati secondo i conteggi medi dei soggetti sulle ROI e distinti in base
alla clinica. Il grafico a destra riporta la AUC ' 0.94, che indica
la prestazione della metrica 1.
La figura 31 mostra, attraverso i boxplot, le distribuzioni dei soggetti affetti dalla malattia di Alzheimer e dei controlli, essi sono rispettivamente contraddistinti dalle label 1 e 0, come mostrato dall’asse
delle ordinate del primo grafico della figura. Osservando i due boxplot si vede che la mediana della distribuzione dei controlli ha un
valore maggiore rispetto a quella del gruppo degli AD. Inoltre essendo la box della distribuzione più stretta, si vede che i soggetti facenti
parte il gruppo di controllo sono tra loro più simili rispetto ai soggetti
AD.
L’area sotto la curva ROC, nel grafico accanto a quello dei boxplot,
fornisce la bontà della metrica scelta nel classificare i soggetti nei due
gruppi e vale ' 0.94. La capacità di classificare i soggetti nei due
gruppi è fornita dai valori di sensibilità ' 91% e di specificità ' 88%.
Quanto ottenuto è di poco inferiore ai valori di AUC valutati confrontando soggetti appartenenti a un gruppo di controllo e soggetti
affetti dalla malattia di Alzheimer e riportati in letteratura [63, 64,
65]. Parte degli articoli citati basano i loro risultati su un’analisi di
tipo strutturale, utilizzando immagini provenienti da MRI, quindi
la differenza può essere attribuita ai diversi metodi di imaging che
forniscono informazioni diverse.
3.2.2
Metrica 2: distanza dal cluster dei controlli
Scegliendo di classificare i soggetti a partire dalla media dei conteggi,
valutata sulle ROI selezionate, trascuriamo una parte dell’informazione contenuta nelle immagini.
3.2 elaborazione del segnale: due metodi per la feature selection
A seguito del processo di normalizzazione eseguito e della feature
selection, possiamo assumere che le differenze riscontrabili nel numero dei conteggi dovute alle differenze interindividuali siano minori rispetto a quelle dovute alla presenza della malattia. Quindi,
utilizzando la metrica 1, consideriamo un’informazione limitata.
Per prima cosa, reintegriamo nell’analisi il contributo al segnale
relativo alle differenze del rate di conteggi tra soggetti AD e controlli
a causa della patologia ipotizzando che questo migliori la prestazione
sinora ottenuta.
Utilizziamo la clusterizzazione, brevemente presentata nel capitolo
precedente 2.2.4.2, che ci permette di introdurre due nuovi parametri: il grado di similarità delle immagini, in base al quale sono effettuati i raggruppamenti e vengono ordinati i soggetti all’interno di
ogni cluster, e la distanza tra i vari gruppi individuati, che permette
di ordinare i cluster nello spazio delle immagini. Metrica e metodo
della clusterizzazione influiscono sulla natura dei gruppi formati e
sulla loro disposizione nello spazio quindi, in ultima analisi, sulla
classificazione che si ottiene.
Nel nostro caso scegliamo di effettuare la clusterizzazione delle
immagini trattate, utilizzando il metodo ward, per valutare il grado di
similiarità dei gruppi individuati e la distanza euclidea per valutare
la similarità tra il rate di conteggio dei soggetti.
Il criterio deciso per effettuare il raggruppamento dei soggetti è
legato alla scelta del livello di confidenza (CL). I gruppi vengono formati in modo che si individuino due cluster aventi al loro interno uno
il 95% di controlli e l’altro il 95% di soggetti AD, che chiameremmo
rispettivamente cluster dei controlli e cluster degli AD.
Una volta individuati questi due gruppi i soggetti restanti vengono raggruppati tutti in un unico cluster che avrà al suo interno una
buona parte di individui AD e una buona parte di controlli e che nel
seguito chiameremo cluster misto.
Migliori sono le scelte relative alla metrica, in questo caso legata al
rate di conteggi, al metodo e alla distanza in base al quale effettuare
i raggruppamenti, minore ci aspettiamo che sia il numero di soggetti
appartenenti al cluster misto.
57
58
sviluppo del modello su una popolazione test
Visualizziamo i gruppi ottenuti tramite dendrogramma:
Figura 32: Il dendrogramma mostra la clusterizzazione ottenuta in base al
rate di conteggi. I raggruppamenti individuati sono 3: uno formato maggiormente da soggetti AD, contrassegnato in verde, uno
da soggetti appartenenti al gruppo di controllo, contrassegnato
in blu, e il terzo avente buona parte degli individui provenienti
da entrambe i gruppi in esame, contrassegnato in rosso.
La figura 32 mostra che il rate di conteggi delle regioni di interesse
selezionate rendono le immagini clusterizzabili in tre gruppi. Il cluster degli AD è colorato in verde e al suo interno vi sono 39 soggetti.
Il cluster dei controlli, in blu, ha al suo interno 99 soggetti e, infine, il
cluster misto ha al suo interno 80 soggetti.
Il raggruppamento ottenuto è un buon punto di partenza per ottenere una nuova classificazione dei soggetti.
Definita una origine nello spazio delle immagini, che abbiamo arbitrariamente posto nel centro di massa del cluster dei controlli, ci
aspettiamo che la distanza euclidea dei soggetti da tale punto rispecchi quanto visualizzato con il dendrogramma. Quindi che i soggetti
appartenenti al gruppo di controllo siano più vicini all’origine scelta
e i soggetti affetti dalla patologia siano più distanti.
3.2 elaborazione del segnale: due metodi per la feature selection
La figura 33 mostra i boxplot delle distribuzioni dei soggetti AD e
dei controlli disposti secondo la distanza euclidea dei punti dal centro
di massa del cluster dei controlli:
Figura 33: L’immagine mostra i boxplot dei soggetti AD e dei controlli, disposti secondo la metrica descritta e classificati utilizzando le
labels cliniche.
I boxplot rispecchiano quanto mostrato dal dendrogramma. Coerentemente con la scelta dell’origine, la distribuzione dei soggetti classificati clinicamente come controlli hanno valori sulle ascisse inferiori
rispetto alla distribuzione dei soggetti clinicamente classificati AD.
L’area sotto la curva ROC, questa volta valutata misurando la distanza di tutti i soggetti dall’origine scelta, vale ' 0.93, con un valore
di sensibilità ' 90% e un valore di specificità ' 84%.
Ci saremmo aspettati un miglioramento dall’introduzione nell’analisi di ulteriori informazioni e dall’utilizzo di una metrica più aderente alla disposizione dei punti nello spazio delle immagini.
Tuttavia, come abbiamo precedentemente detto (1.4.2), le decisioni
prese riguardo alla metrica e al metodo adottati nel processo di clusterizzazione, riguardo alla distanza in base alla quale classificare i
soggetti in AD e controlli, introducono ulteriori errori nel processo
di analisi implementato e questo può essere il motivo per cui le prestazioni di questa seconda metrica sono inferiori rispetto a quanto
ottenuto applicando la prima.
3.2.3
Metrica 3: proiezione dei punti su una componente principale
Continuiamo la nostra analisi attraverso l’individuazione delle componenti principali dello spazio, come brevemente spiegato nel capitolo precedente 2.2.3.2.
Anche in questo caso il segnale in base al quale classifichiamo i
soggetti è legato all’intensità dei voxel, ma le caratteristiche che prendiamo in esame sono relative alla disposizione dei dati nello spazio
delle immagini.
59
60
sviluppo del modello su una popolazione test
Questo metodo di feature selection consente di allontanarci maggiormente dal problema clinico rispetto a quanto fatto analizzando
le regioni di interesse e, così facendo, ci consente di generalizzare
la nostra analisi e eventualmente di applicarla a problemi di diversa
natura rispetto a quello studiato in questo lavoro di tesi.
Anche in questo caso lo schema raffigurato nell’immagine 29 rappresenta i passaggi utilizzati per individuare le componenti principali dello spazio che permettono di distinguere maggiormente i 218
soggetti nei due gruppi. Al posto delle curve ROC relative al potere
discriminante dei voxel, in questo caso si valutano le AUC legate alle
direzioni dello spazio, una per ogni individuo coinvolto nell’analisi.
Considerando singolarmente le direzioni individuate e ordinate a seconda del loro valore di AUC, non è necessario effettuare la media
delle aree sotto la curva individuate.
Iniziamo considerando la direzione dello spazio lungo la quale le
differenze per distinguere i dati sono maggiormente esaltate, utilizzando nuovamente l’ipotesi che, a seguito del processo di normalizzazione e della feature selection, tali differenze siano legate, in primo
luogo, alla presenza della patologia.
La metrica in base alla quale classifichiamo i soggetti è la proiezione dei 218 punti lungo la direzione in esame, che per brevità chiameremo score. Per verificare la sue prestazioni ne valutiamo il suo
discriminante attraverso la misura dell’area sotto la curva ROC.
La seguente immagine (figura 34) mostra la curva ROC relativa alla
classificazione dei soggetti in base allo score e la disposizione delle
distribuzioni dei soggetti AD e dei controlli distinti a partire dalla
clinica, raffigurate tramite boxplot.
Figura 34: Sulla sinistra dell’immagine sono riportati i boxplot delle distribuzioni dei soggetti AD e dei controlli, disposte secondo lo score
e classificate utilizzando la clinica. Il grafico a destra riporta la
AUC che indica il potere discriminante di questa terza metrica.
Paragonando le distribuzioni relative ai due gruppi in esame della
figura 31 e della figura 34 si vede che la sovrapposizione delle di-
3.2 elaborazione del segnale: due metodi per la feature selection
stribuzioni disposte in base allo score è maggiore rispetto a quanto
ottenuto valutando la media dei conteggi per ogni soggetto.
Questa caratteristica è ben rappresentata dai valori dell’area sotto
la curva ROC misurata a partire dallo score, che vale ' 0.90, con un
valore di sensibilità ' 85% e un valore di specificità ' 83%.
Nonostante tali valori siano nuovamente paragonabili a quelli riportati in letteratura, che citiamo nuovamente [63, 64, 65], L’AUC
è lievemente inferiore rispetto a quanto ottenuto con il precedente
metodo di feature selection.
3.2.4
Metrica 4: distanza dal cluster dei controlli
Passare da una analisi a più dimensioni ad analizzare un’unica direzione probabilmente fornisce una visione troppo limitata riguardo
alla disposizione dei punti nello spazio studiato, che non ci consente
di effettuare la loro classificazione al meglio.
Per reintegrare nell’analisi parte del contenuto informativo tagliato,
studiamo la disposizione di tutti i punti in uno spazio bidimensionale,
selezionando una seconda componente principale. Quanto fatto equivale a considerare il piano su cui giacciono il maggior numero dei
nostri dati per fornire un’analisi più veritiera della loro disposizione
nell’intero spazio.
A questo punto definiamo i parametri attraverso cui valutare tale
disposizione e per farlo utilizziamo nuovamente la clusterizzazione.
Con la distanza euclidea realizziamo i raggruppamenti dei dati, i
quali saranno disposti all’interno di ogni cluster proprio secondo tale
metrica, e, con il metodo ward, ordiniamo i vari gruppi individuati
(2.2.4.2).
61
62
sviluppo del modello su una popolazione test
Visualizziamo quanto ottenuto tramite dendrogramma:
Figura 35: La figura mostra i 3 raggruppamenti ottenuti. In verde quello
composto dal 95% di controlli, in rosso quello composto dal 95%
di soggetti AD e il terzo, composto da soggetti provenienti da
entrambe i gruppi, in blu.
La figura 35 mostra i 3 raggruppamenti, ottenuti. Coerentemente con quanto fatto in precedenza il criterio in base al quale abbiamo scelto di effettuare i raggruppamenti è quello di individuare due
gruppi puri al 95% rispettivamente contenenti controlli e AD.
Il cluster dei controlli, in verde, contiene 67 soggetti, quello degli
AD, in rosso, ha al suo interno 88 individui e il terzo, detto cluster
misto, in blu, è formato da 63 soggetti provenienti da entrambe i
gruppi analizzati.
Ancora una volta la clusterizzazione è il punto di partenza per implementare una metrica che tenga conto della disposizione dei dati nel piano considerato e, per prima cosa, decidiamo di misurare
la distanza dei punti a partire dal centro di massa del cluster dei
controlli.
3.2 elaborazione del segnale: due metodi per la feature selection
La figura 36 mostra le distribuzioni dei soggetti AD e dei controlli
disposte secondo la nuova metrica:
Figura 36: L’immagine mostra i boxplot dei soggetti AD e dei controlli, disposti secondo la metrica descritta e classificati utilizzando le
labels cliniche.
Le distribuzioni rappresentate in figura 36 sono costruite a partire
dai risultati ottenuti dalla clusterizzazione. Si vede che quanto ipotizzato è confermato dalle immagini e l’ordine dei raggruppamenti
viene rispettato anche dalla metrica utilizzata. Il valore misurato dell’area sotto la curva ROC vale ' 0.89 con un valore di sensibilità
' 85% e un valore di specificità ' 82%.
Ancora una volta l’ultima AUC misurata è lievemente inferiore rispetto a quella valutata a partire dal singolo score, contrariamente a
quanto ci saremmo aspettati.
Oltre all’introduzione dei molteplici fattori d’errore dovuti alle scelte compiute, in questo caso abbiamo ridotto la nostra analisi su un
piano selezionando solo due delle 217 componenti principali. Probabilmente basando la clusterizzazione sulla proiezione dei punti su
più di due componenti il risultato migliorerebbe.
3.2.5
Compatibilità
I metodi sinora implementati, sia che si basino sull’individuazione
di particolari regioni di interesse, sia che si basino sull’individuazione di direzioni privilegiate nello spazio, hanno un valore di AUC,
sensibilità e specificità paragonabili a quanto riportato in letteratura.
63
64
sviluppo del modello su una popolazione test
A questo punto verifichiamo la compatibilità tra le prestazioni ottenute che, per praticità, riassumiamo nella seguente tabella 1. Gli
intervalli di confidenza indicati sono ricavati tramite bootstrap (3.1.4).
Metrica 1
Metrica 2
Metrica 3
Metrica 4
0.94[0.90 − 0.97]
0.93[0.89 − 0.95]
0.90[0.85 − 0.93]
0.89[0.85 − 0.93]
Tabella 1: Tabella riassuntiva dei valori delle AUC individuate dalle 4
metriche. Gli intervalli di confidenza sono stati stimati tramite
bootstrap.
Tutti i valori delle AUC ottenuti sono compatibili tra di loro. Questo
ci autorizza ad applicare indistintamente le metriche per distinguere i
soggetti dell’analisi nei due gruppi di appartenenza e per verificare la
prestazione del processo implementato su un dataset indipendente.
4
VA L I D A Z I O N E
4.1
4.1.1
validazione dei metodi
La Cross-Validazione
Validare un metodo significa verificare le capacità di estendere i risultati ottenuti a dataset non visti. Avendo pochi soggetti rispetto al
numero di variabili trattate, utilizziamo un metodo di validazione
interna detto di Cross-validazione [60].
La cross-validazione si utilizza quando il campione studiato ha una
numerosità che non consente di generare sottogruppi che formino
dataset indipendenti. Nel nostro caso i dati analizzati sono 218 di
cui 81 classificati AD e 137 controlli. La numerosità dei sottogruppi
consentirebbe di applicare metodi alternativi di validazione, ma abbiamo verificato che i dati in essi contenuti non sono indipendenti e
sia il gruppo dei controlli che quello degli AD sono al loro interno
ulteriormente divisibili in “sottocluster” composti da pochi dati.
La cross-validazione da noi utilizzata consiste nell’estrarre casualmente dal dataset in esame un numero k di dati. Il numero di dati
estratti deve essere tale da non compromettere la validità statistica
del campione formato dai dati restanti, così facendo si ottengono due
gruppi distinti: uno più numeroso, che chiameremo “training set” e
un gruppo formato dai dati estratti, che chiameremo “validation set”.
Dopo l’estrazione si prosegue con l’analisi, essa viene condotta n volte e al termine di ogni ciclo vengono inseriti nuovamente i dati del
validation set nel dataset iniziale. Se n è grande si ha una buona probabilità di aver estratto, al termine del processo di validazione, tutti i
dati almeno una volta, quindi si procede alla classificazione dei vari
validation set.
Nel nostro caso il dataset consiste nelle 218 immagini in esame,
da esse estraiamo casualmente 5 soggetti per 100 volte, reintegrando
ogni volta i soggetti estratti nel dataset iniziale, in modo che, ogni
ciclo, il training set abbia al suo interno 213 individui.
A partire dai training set, per entrambe i metodi di feature selection
utilizzati, si ripercorre l’intera analisi implementata; dalla scelta delle
zone di interesse, alla selezione delle componenti principali, quindi
si applica la clusterizzazione e, per ogni ciclo, si calcolano le metriche
e si valuta la distanza dei punti del validation set dall’origine, che
corrisponde, come nell’analisi svolta, al centroide del cluster avente
al suo interno una percentuale di controlli almeno corrispondente al
95%.
65
66
validazione
Quindi si riclassificano le immagini FDG-PET dei 100 validation
set, per entrambi i metodi implementati, ipotizzando, essendo molti i
cicli di analisi eseguiti, che sia alta la probabilità di classificare nuovamente almeno una volta tutti i soggetti dell’analisi sia con la PCA che
con l’individuazione delle ROI e, infine, si calcola il valore dell’area
sotto la curva ROC ottenuta dalla cross-validazione.
4.1.2
Considerazioni sulla validazione dei metodi
Valutare le prestazioni delle metriche implementate a partire da quanto ottenuto dalla cross-validazione, significa confrontare aree sotto la
curva ROC derivate dall’applicazione dello stesso metodo di analisi
su diversi set di dati, non indipendenti. Per farlo abbiamo utilizzato il
processo riportato in letteratura [66, 67] che considera la correlazione
tra i dati e, trattando le distribuzioni come gaussiane, fornisce una
tabella di conversione in base alla quale valutare la correlazione delle
aree sotto la curva ROC.
Poiché le 4 metriche utilizzate sono risultate equivalenti, eseguiamo
la validazione di due di esse: la metrica 2, che classifica i soggetti
valutando la distanza euclidea dal cluster dei controlli, nell’ambito
del metodo di feature selection basato sull’individuazione delle ROI,
e la metrica 4, equivalente alla 2, ma nell’ambito della PCA.
La seguente tabella 2 riporta i valori delle AUC ottenute dal processo di cross-validazione
Metrica 2
Metrica 4
0.88
0.85
Tabella 2: Tabella riassuntiva dei valori delle AUC ottenute a seguito della
validazione.
Le AUC calcolate risultano confrontabili con quelle presentate nel
capitolo, riassunte nella tabella 1. Ciò significa che i due diversi metodi di feature selection possono essere utilizzati indistintamente o
insieme per classificare soggetti non noti.
4.2 ottimizzazione delle metriche
4.2
ottimizzazione delle metriche
La capacità di classificare i soggetti nel gruppo dei controlli e in quello degli AD è fornita dai valori di sensibilità e specificità di ogni
metrica, riassunti nella tabella 3.
Metrica 1
Metrica 2
Metrica 3
Metrica 4
Sensibilità
0.91
0.90
0.85
0.85
Specificità
0.88
0.84
0.83
0.82
Tabella 3: La tabella riporta i valori di sensibilità e specificità di ogni metrica
Il cutoff in base al quale vengono stimati i valori in tabella sono
riportati nel paragrafo 3.1.4. Come accennato nel medesimo paragrafo, per migliorare le prestazioni delle metriche utilizziamo altri tagli,
raffigurati in figura 28, grazie ai quali portiamo i valori di sensibilità
e specificità al 95%.
Così facendo otteniamo una diversa classificazione dei soggetti rispetto a quanto stimato utilizzando un singolo cutoff e individuiamo
tre raggruppamenti per ogni metrica: un gruppo di soggetti classificati controlli con un livello di confidenza pari o superiore al 95%, un
gruppo di AD, classificati con lo stesso CL, e un terzo gruppo di soggetti il cui valore della metrica, “cadendo” all’interno dei tagli, può
essere classificato solo a CL inferiori.
67
68
validazione
La seguente immagine (figura 37) mostra le distribuzioni relative
alle metriche implementate.
Attraverso le rette verticali sono indicati i nuovi tagli e, tra di essi
tratteggiato, il cutoff da cui sono stati valutati i valori di sensibilità e
specificità della tabella 3.
Figura 37: L’immagine mostra le distribuzioni di controlli, in rosso, e AD,
in blu, disposte secondo le 4 metriche implementate. Le rette in
ogni immagine raffigurano i tagli che portano ad avere sensibilità
e specificità uguali a 95% e tra di essi, tratteggiato, il cutoff in
base al quale sono stati stimati i precedenti valori di sensibilità e
specificità.
Osservando i grafici dell’immagine 37 si vede che la sovrapposizione delle distribuzioni rispecchia i valori delle loro prestazioni: le
metriche aventi valori di AUC maggiori hanno zone comprese tra i tagli più piccole e, conseguentemente, un numero di soggetti classificati
con un CL ≥ 0.95 più alto.
I grafici in alto a sinistra e a destra mostrano rispettivamente le
distribuzioni dei controlli, in rosso, degli AD, in blu, e la zona di sovrapposizione relative alle metriche 1 e 3. Le distribuzioni di controlli
e AD sono distinte in base alle classificazioni cliniche dei soggetti.
Nel caso delle metriche 2 e 4, le cui prestazioni sono rispettivamente rappresentate in basso a sinistra e a destra, è stata utilizzata
la clusterizzazione per dividere i dati nei vari gruppi. Le curve rosse
e blu indicano le distribuzioni ottenute valutando la distanza dall’origine scelta dei cluster individuati: in rosso quello dei controlli, in
blu quello degli AD e tratteggiato il cluster misto; infine sono state
rappresentate tramite le curve rossa e blu tratteggiate le distribuzioni
dei controlli e degli AD all’interno di questo terzo cluster. La disposizione dei cluster è coerente con quanto mostrato dai dendrogramma
delle immagini 32,35 in base alla scelta dell’origine (3.2.2).
Riferendoci al grafico 37 relativo alla metrica 4 si vede che i tagli sono stati valutati a partire dalla curva ROC relativa alla distribuzione
del cluster misto e non a partire da tutti i dati come negli altri 3 casi,
questo perché il cluster dei controlli e degli AD sono completamente
4.2 ottimizzazione delle metriche
separati. Se avessimo stimato i tagli a partire dall’intero campione di
soggetti avremmo quindi considerato un’ampiezza superiore della zona di sovrapposizione delle distribuzioni peggiorando le prestazioni
del metodo di analisi implementato.
La classificazione è riassunta nelle seguenti tabelle (4,5). La prima
fornisce il numero di soggetti individuati da ogni metrica nei vari
gruppi.
Metrica 1
Metrica 2
Metrica 3
Metrica 4
Controlli CL ≥ 0.95
103
95
87
93
AD CL ≥ 0.95
66
58
41
36
Altri CL ≤ 0.95
49
65
90
89
Tabella 4: La tabella riassume le prestazioni delle 4 metriche: La prima e la
seconda riga indicano rispettivamente il numero di controlli e di
AD classificati con un CL ≥ 0.95. La terza indica il numero di
soggetti classificati a CL inferiori.
Nella seconda sono valutate le percentuali sull’intero campione
formato da 218 soggetti:
Metrica 1
Metrica 2
Metrica 3
Metrica 4
Controlli CL ≥ 0.95
0.47
0.44
0.40
0.43
AD CL ≥ 0.95
0.30
0.27
0.19
0.16
Altri CL ≤ 0.95
0.23
0.29
0.41
0.41
Tabella 5: La tabella riassume le prestazioni delle 4 metriche: La prima e la
seconda riga indicano rispettivamente la percentuale di controlli
e di AD classificati con un CL ≥ 0.95. La terza indica quella dei
soggetti classificati a CL inferiori. Il numero di soggetti totali su
cui sono state valutate le percentuali è 218.
Facendo riferimento alla tabelle notiamo che le percentuali rispecchiano la composizione complessiva della popolazione analizzata, che
è formata dal 63% di controlli e dal restante 37% di AD. Infatti le prestazioni delle 4 metriche individuano percentuali maggiori di soggetti appartenenti ai controlli e percentuali inferiori di individui affetti
dalla malattia di Alzheimer.
69
70
validazione
4.3
risultati della prestazione complessiva
Prima di procedere all’applicazione del metodo implementato su un
dataset indipendente, riassumiamo le prestazioni ottenute nel precedente capitolo.
Nella tabella 5 abbiamo riportato le percentuali di controlli e AD
classificati con un CL ≥ 0.95 e dei soggetti che ogni metrica classifica
a CL inferiori, valutandole sull’intero campione di 218 individui.
Nella tabella 6 riportiamo nuovamente i valori riguardanti questi
due gruppi di soggetti, ma valutando le percentuali di AD e controlli
classificati con un CL ≥ 0.95 sul totale dei rispettivi gruppi clinici
analizzati; in modo tale che risulti più chiara la bontà dei processi
implementati.
Metrica 1
Metrica 2
Metrica 3
Metrica 4
Controlli CL ≥ 0.95
0.75
0.69
0.64
0.68
AD CL ≥ 0.95
0.82
0.72
0.51
0.44
Tabella 6: La tabella riassume le prestazioni delle 4 metriche e indica la
percentuale di AD e controlli individuati correttamente con un
CL ≥ 0.95.
La compatibilità delle metriche (3.2.5) ci porta a concludere che tutte le procedure siano utilizzabili equivalentemente, ma metodi diversi di feature selection selezionano diverse caratteristiche del segnale
cercato, quindi è interessante chiedersi se, applicando tutte le metriche analizzate, non si riesca a migliorare la prestazione complessiva
dell’analisi.
Scegliamo approcci diversi per valutare le prestazioni delle metriche insieme, a seconda del CL con il quale vengono classificati i
soggetti.
Gli individui riconosciuti da tutte le 4 metriche AD o controlli, con
CL ≥ 0.95, vengono ricollocati nei rispettivi gruppi e quelli classificati
AD da una metrica e controlli da un’altra, col medesimo CL, vengono
identificati come “casi conflittuali”.
Rimangono da classificare i soggetti collocati almeno da una metrica nella zona di sovrapposizione delle distribuzioni e quindi classificati almeno una volta a CL ≤ 0.95. In questo caso, se almeno una
delle 4 metriche li riconosce AD o controlli a CL ≥ 0.95 li consideriamo correttamente classificati dalla metrica in questione; se, invece,
tutte le metriche li collocano nella zona delimitata dai tagli, allora
rimangono classificabili solo a CL ≥ 0.95.
4.4 validazione dei metodi su un dataset indipendente
71
Di seguito (tabella 7) riportiamo le percentuali dei soggetti classificati ai vari CL, considerati in base a quanto appena descritto; le
percentuali sono valutate sull’intera popolazione di 218 individui.
Controlli CL ≥ 0.95
AD CL ≥ 0.95
Altri CL ≤ 0.95
Casi conflittuali
0.57
0.33
0.08
0.02
Tabella 7: La tabella riporta la prestazione dell’intero processo ottenuto considerando insieme i risultati delle 4 metriche. La prima colonna
riporta la percentuale dei soggetti classificati come controlli, la seconda di quelli classificati AD, la terza i soggetti classificati con
un livello di confidenza inferiore al 0.95% e la quarta indica la
percentuale di soggetti classificati AD con una metrica e controlli
con un’altra. Le percentuali sono valutate sull’intera popolazione
di 218 individui.
Dalla tabella 7 si vede che utilizzando insieme le metriche la prestazione del processo complessivo è molto migliore rispetto a quelle
ottenute valutando ogni metrica singolarmente.
La prima colonna riporta la percentuale di controlli, la seconda
quella di soggetti classificati AD, ma il risultato importante, grazie
al quale possiamo affermare che il processo complessivo migliora le
prestazione dei singoli metodi di analisi, è la diminuzione della percentuale di soggetti classificati con un livello di confidenza al di sotto
del 95%; che passa dal 23%, risultato ottenuto utilizzando la metrica
con la migliore prestazione (tabella 1), all’8% ( tabella 7).
Il motivo per cui la prestazione complessiva migliora la classificazione dei soggetti verrà trattato dettagliatamente nel seguito di questo
lavoro di tesi, per ora ci basti prendere atto di tale effetto.
4.4
validazione dei metodi su un dataset indipendente
Con gli stessi criteri di selezione delle immagini esposti trattando del
Quality Check (3.1.1), abbiamo scelto 86 nuove FDG-PET e formato
un nuovo dataset.
Benché indipendente dai gruppi utilizzati per implementare le metriche, il nuovo dataset non rappresenta l’intera popolazione inizialmente analizzata, ma costituisce un sotto-campione specifico della
stessa. Gli 86 soggetti presi in esame, al momento dell’immagine analizzata, facevano parte della categoria clinica degli MCI, ma sono risultati affetti dalla malattia di Alzheimer nel giro di 2 o 3 anni; quindi,
a posteriori, tali individui sono stati clinicamente classificati MCI-co.
Poiché gli MCI sono una categoria clinica intermedia tra i controlli
e gli AD, il risultato che ci aspettiamo di osservare è di collocare le distribuzioni individuate, applicando le 4 metriche a questi 86 soggetti,
72
validazione
tra quelle dei due gruppi precedentemente analizzati. A causa della
parziale rappresentatività di questo gruppo, ci aspettiamo di ottenere
prestazioni complessive inferiori.
Seguendo i passi del processo automatico, presentati nel paragrafo 2.2 che vanno dalla normalizzazione sino alla classificazione e
utilizzando i metodi d’analisi descritti in dettaglio nel capitolo 3,
elaboriamo le 86 immagini dei soggetti MCI-co.
Basandoci sui riferimenti delle varie fasi della procedura implementata, calcoliamo le prestazioni delle 4 metriche su questo dataset.
La prime due misure sono legate al metodo di feature selection basato sull’individuazione delle ROI (2.2.3.1): la prima metrica misura
la media dei conteggi degli MCI sui 2050 voxel della ROI rappresentata in figura 30, la seconda la distanza euclidea degli MCI dal cluster
dei controlli raffigurato nel dendrogramma 32.
Esprimendo gli MCI come combinazione lineare delle componenti
dello spazio individuate dalla PCA (2.2.3.2), la terza metrica valuta
le proiezioni degli 86 punti sulla componente principale indicata nel
paragrafo 3.2.3 e la quarta si basa nuovamente sulla distanza euclidea
degli 86 MCI, ma valutata a partire dal cluster dei controlli raffigurato
nel dendrogramma 35.
4.4 validazione dei metodi su un dataset indipendente
L’immagine 38 mostra le distribuzioni dei controlli, in rosso, degli AD, in blu e degli MCI, in nero, ordinate secondo le 4 metriche
precedentemente descritte. Le rette raffigurate nell’immagine rappresentano i tagli in base ai quali sono stati classificati i soggetti della
popolazione test, formata da 218 individui (tabelle 4, 5), e in base ai
quali classifichiamo i soggetti del nuovo dataset.
Figura 38: L’immagine mostra le distribuzioni dei controlli, in rosso, degli
AD, in blu, e degli MCI, in nero, disposte secondo le 4 metriche
implementate. Le rette in ogni immagine raffigurano i tagli in base ai quali sono valutati i diversi CL con cui classificare i soggetti
MCI.
Si vede che le distribuzioni sono disposte coerentemente rispetto
all’ipotesi precedentemente formulata, cioè la distribuzione dei soggetti MCI si trova tra le altre due. Questo significa che le metriche
utilizzate classificano gli MCI come una categoria clinica intermedia
tra controlli e AD come ci saremmo aspettati.
Inoltre, confrontando l’immagine 38 con i valori riportati nella tabella 1, si vede che anche la classificazione degli MCI è coerente con
i valori di AUC misurati e che minore è il potere discriminante delle
metriche più ampia è la porzione di distribuzione relativa agli MCI
collocata tra i tagli.
Nelle seguenti tabelle (8,9) riportiamo la classificazione ottenuta. La
prima fornisce il numero di MCI riconosciuti da ogni metrica come
facenti parte del gruppo degli AD o dei controlli, con un livello di
confidenza ≥ 0.95, o classificati a CL inferiori.
73
74
validazione
Metrica 1
Metrica 2
Metrica 3
Metrica 4
Controlli CL ≥ 0.95
10
7
22
22
AD CL ≥ 0.95
45
38
22
13
Altri CL ≤ 0.95
31
41
42
51
Tabella 8: La tabella riassume le prestazioni delle 4 metriche: La prima e la
seconda riga indicano rispettivamente il numero di MCI-co attribuiti erroneamente al gruppo dei controlli e quelli classificati AD
con un CL ≥ 0.95. La terza indica il numero di soggetti classificati
a CL inferiori.
Nella seconda gli stessi risultati sono riportati in percentuale, valutata sulla popolazione formata dagli 86 MCI-co:
Metrica 1
Metrica 2
Metrica 3
Metrica 4
Controlli CL ≥ 0.95
0.12
0.08
0.26
0.26
AD CL ≥ 0.95
0.52
0.44
0.26
0.15
Altri CL ≤ 0.95
0.36
0.48
0.48
0.59
Tabella 9: La tabella riassume le prestazioni delle 4 metriche: La prima riga
indica la percentuale di controlli individuati da ogni metrica con
un CL ≥ 0.95, la seconda la percentuale di AD, individuati con lo
stesso CL, e la terza indica i soggetti classificati a CL inferiori. Il
numero di soggetti totali su cui sono state valutate le percentuali
è 86.
La classificazione ottenuta a partire dalle prime due metriche è coerente con quanto atteso e la maggior parte dei soggetti MCI vengono
identificati correttamente come AD, anticipando la clinica.
Nel caso delle metriche 3 e 4 il numero di soggetti classificabili
con CL ≤ 0.95 supera gli altri gruppi confermando che tali metodi
di analisi sono meno efficienti, come indicato dai valori delle AUC
(tabella 1).
4.5
risultati della prestazione complessiva
Ricordando che metodi diversi prendono in esame aspetti diversi del
segnale, anche in questo caso ci aspettiamo che mettendo insieme le
informazioni, quindi considerando più caratteristiche dello stesso, la
prestazione del metodo complessivo migliori.
4.5 risultati della prestazione complessiva
75
Di seguito (tabella 10) riportiamo le percentuali, valutate sul dataset degli MCI-co, ottenute utilizzando le 4 metriche insieme, come
spiegato nel paragrafo 4.3.
Controlli CL ≥ 0.95
AD CL ≥ 0.95
Altri CL ≤ 0.95
Casi conflittuali
0.21
0.52
0.18
0.09
Tabella 10: La tabella riporta la prestazione dell’intero processo ottenuto utilizzando insieme i risultati delle 4 metriche. La prima colonna
riporta la percentuale dei soggetti MCI classificati come controlli, la seconda quelli classificati AD, la terza i soggetti classificati
con un livello di confidenza inferiore al 0.95%. Infine la quarta
indica la percentuale di soggetti classificati AD con una metrica
e controlli con un’altra.
Osservando i risultati riportati in tabella 10 confermiamo che, utilizzando tutte le metriche, la prestazione del processo complessivo è
migliore rispetto a quanto ottenuto valutando ogni metrica singolarmente.
Il rate di soggetti classificati con un livello di confidenza inferiore
al 95% passa, infatti, dal 36% ottenuto con la metrica avente le prestazioni migliori, al 15% ottenuto grazie all’utilizzo delle 4 metriche
insieme.
A conferma di quanto detto, a causa del fatto che gli MCI-co rappresentano solo parzialmente il gruppo di soggetti utilizzato come test,
le prestazioni del metodo complessivo sono inferiori rispetto a quanto riportato nella tabella 7; tuttavia le classificazioni ottenute sono
paragonabili con i risultati riportati in letteratura [63, 64].
5
DISCUSSIONE
5.1
discussione dei risultati
Il motivo per cui abbiamo applicato diversi metodi è legato al fatto che, indagando caratteristiche differenti delle immagini, possono
esaltare aspetti del segnale che possono essere utilizzati in maniera
complementare per migliorare le prestazioni globali del metodo di
classificazione dei dati.
Questo ultimo aspetto può essere verificato attraverso la correlazione delle metriche utilizzate: due metriche correlate considerano
aspetti simili del sistema studiato e utilizzarle insieme non comporta
un sostanziale miglioramento dell’analisi.
Minore è la correlazione tra le metriche, più alto è il numero di
caratteristiche differenti del segnale prese in considerazione che, insieme, forniscono una visione più completa dell’effetto studiato e una
classificazione più efficiente dei gruppi in esame.
Di seguito riportiamo il grafico (figura 39) che fornisce la correlazione tra le 4 metriche adottate (3.2.1, 3.2.2, 3.2.3, 3.2.4), sia per quanto
riguarda la popolazione TEST formata da 218 soggetti, sia per gli 86
MCI-co.
Figura 39: L’immagine mostra la correlazione tra le 4 metriche. Le metriche
che si riferiscono a diversi metodi di feature selection (1-3 e 1-4;
2-3 e 2-4) sono meno correlate. Le metriche basate sullo stesso
metodo (1-2 e 3-4) hanno correlazioni più alte.
Si vede che le metriche 1-3, 1-4, 2-3 e 2-4 sono poco correlate. Questo conferma il fatto che utilizzando metodi basati su diversi tipi di
77
78
discussione
feature selection, si indaghino caratteristiche differenti del segnale.
La forma dei grafici in figura 39, relativi alle metriche 1-3, 1-4, 2-3,
2-4, mostra che i dati agli estremi non si possono considerare completamente scorrelati. Questo implica, quindi, che anche utilizzando
metodi di analisi basati su aspetti differenti delle immagini non è
garantita l’indipendenza delle informazioni esaminate.
La correlazione tra le metriche 1-2 e 3-4 che, al contrario, sono diverse misure dello stesso metodo di feature selection è alta sia nel caso
basato sull’individuazione di particolari regioni di interesse (1-2), sia
che si osservino le componenti principali dello spazio (3-4).
Il grado di correlazione può essere fortemente legato alla natura
della selezione operata: nel caso del metodo basato sulle ROI le variabili esaminate sono 2050 e il grafico 39 mostra che la media dei
conteggi (3.2.1) e la distanza dal cluster dei controlli (3.2.2) danno
indicazioni correlate ma non identiche.
Nel caso della PCA, abbiamo considerato prima una sola componente dello spazio (3.2.3), poi due (3.2.4), e le informazioni ricavate
sono sostanzialmente uguali. Se avessimo considerato un meggior numero di componenti probabilmente la correlazione dei dati sarebbe
stata inferiore.
Concludendo, il miglioramento delle prestazioni complessive ottenuto utilizzando le 4 metriche insieme è dovuto al fatto che parte di
esse sono poco correlate e forniscono informazioni complementari.
Un’altra caratteristica ricavabile confrontando le metriche è l’andamento dell’errore sulla classificazione dei soggetti, semplicemente
legato alla scelta del metodo di analisi (1.4.2).
Quest’ultimo non è legato alle prestazioni della metrica adottata e
dipende dal fatto che non si conoscono la forma e le caratteristiche
del segnale cercato.
Se, infatti, esistesse una procedura ben definita per l’estrazione del
segnale e la caratterizzazione dell’errore ad esso legato non si dovrebbe tenere conto dell’eventualità di poter introdurre un’ulteriore fonte
di disturbo scegliendo un metodo di analisi non adeguato.
5.1 discussione dei risultati
Il seguente grafico (figura 40), riporta la varianza dei dati in funzione della media dei percentili corrispondenti ai valori attribuiti ad ogni
soggetto, appartenente alla popolazione TEST o agli MCI-co, dalle 4
metriche. Oltre all’errore legato alla classificazione di ogni soggetto,
è riportato il fit, in blu, con la sua incertezza, in azzurro.
Figura 40: Il grafico mostra l’andamento della varianza in funzione della
media dei percentili corrispondenti ai valori dei 218 soggetti della
popolazione test e degli 86 MCI-co valutati con le 4 metriche. La
curva blu rappresenta il fit e la banda in azzurro l’incertezza ad
esso legata.
Osservano l’andamento del fit in figura 40 si vede che l’errore sui
dati agli estremi del grafico è minore rispetto a quello relativo ai
percentili centrali delle metriche.
Questo significa che tendenzialmente i soggetti classificati ad alti
CL sono ben classificati a prescindere dal metodo di analisi adottato
per farlo, in quanto l’errore legato alla scelta del metodo è piccolo.
Il tutto si complica trattando i dati il cui percentile medio si trova
tra 0.3 e 0.7 dell’immagine 40, cioè per quei soggetti classificabili solo
a livelli di confidenza bassi. In questi casi è possibile che utilizzando
un metodo di analisi essi vengano classificati in un gruppo e, con un
altro, vengano classificati diversamente.
79
80
discussione
In questi casi le possibilità di classificare correttamente il segnale
aumentano considerando più metodi di analisi diversi.
5.1.1
Considerazioni conclusive
Analizzando insieme i grafici 39 e 40 possiamo concludere che utilizzare più metriche insieme per classificare una popolazione di soggetti
aumenta le prestazioni della classificazione stessa.
I soggetti ben classificati rimangono tali per ogni metodo di analisi;
poiché l’errore legato alla scelta del metodo stesso è basso e utilizzare
una o più metriche risulta equivalente.
D’altra parte l’errore legato alla scelta del metodo di analisi per classificare i restanti soggetti prescinde dalle prestazioni del metodo stesso ed è grande; quindi conviene considerare più aspetti del segnale il
meno dipendenti possibile per migliorare le prestazioni complessive.
In base a quanto osservato forniamo una conclusione riguardo alle
ipotesi formulate nel paragrafo 1.4.2 riguardanti il rumore dovuto al
processo di elaborazione delle immagini.
5.2
ulteriori considerazioni metodologiche
5.2.1
Confronto tra Registrazione Deformabile e Affine.
La scelta di effettuare la trasformazione deformabile dopo aver applicato la trasformazione affine (3.1.2), nonostante i valori di correlazione tra le immagini e il template (10, 12) non mostrino un significativo
miglioramento del processo di registrazione, è legata al fatto che il
guadagno non sia globale, ma che localmente la migliore sovrapposizione delle strutture cerebrali porti ad affinare la classificazione dei
soggetti.
Per confermare tale affermazione abbiamo utilizzato la metrica che
singolarmente fornisce prestazioni migliori (3.2.1) e, applicando lo
stesso processo d’analisi alle immagini registrate affini, abbiamo calcolato l’area sotto la curva ROC.
I risultati nei due casi sono riportati di seguito:
AUCDe f ' 0.94[0.90 − 0.97]
AUC A f f ' 0.82[0.78 − 0.86]
(16)
Le restanti metriche portano risultati coerenti con quello mostrato e
un conseguente peggioramento delle prestazioni globali del metodo,
motivando l’utilizzo della trasformazione deformabile.
5.2 ulteriori considerazioni metodologiche
5.2.2
Normalizzazione d’Intensità e Feature Selection
L’intento della normalizzazione in intensità è quello di esaltare le
differenze tra i soggetti appartenenti ai diversi gruppi e l’operazione
di feature selection è volta ad amplificare tale risultato.
Non sapendo quali sono le caratteristiche dell’immagine nel quale è nascosto il segnale, effettuare una selezione delle variabili, può
portare a modificarlo o renderlo poco visibile. È necessario, quindi,
mostrare il guadagno relativo all’applicazione dei metodi di feature selection nell’individuazione delle differenze delle distribuzioni rispetto al contributo portato dalla normalizzazione, per motivare il
suo utilizzo.
Nonostante la registrazione abbia esaltato le differenze legate alla
presenza della patologia diminuendo le altre, il numero elevato di
voxel e quindi l’eccessivo contenuto informativo nasconde il segnale
contenuto nelle immagini.
La figura 41 mostra le distribuzioni legate alla media dei conteggi
dei controlli, in rosso, degli AD, in blu, e degli MCI-co, in nero, dopo l’equalizzazione e prima della selezione di particolari regioni di
interesse.
Figura 41: La figura mostra le distribuzioni dei conteggi medi dei 3 gruppi
di soggetti considerati. I controlli, in rosso, gli AD, in blu, e gli
MCI-co, in nero, prima della feature selection.
L’imagine 41 mostra che le curve risultano sostanzialmente sovrapposte. Questo indica che le differenze legate alla patologia non sono
rese evidenti dalla sola normalizzazione d’intensità e i soggetti non
potrebbero essere classificati.
81
82
discussione
Selezionando determinate ROI (30), le distribuzioni legate alla stessa metrica (figura 42) risultano distinguibili.
Figura 42: La figura mostra le distribuzioni dei conteggi medi dei 3 gruppi
di soggetti considerati. I controlli, in rosso, gli AD, in blu, e gli
MCI-co, in nero dopo la selezione di particolari regioni di interesse. I tagli, in nero, corrispondono al 95% di sensibilità e specificità
della media dei conteggi della popolazione TEST
Quanto osservato dimostra la necessità di applicare metodi di feature selection.
5.2.3
ROI e Modello “Cascata Amiloide”
I soggetti MCI analizzati fanno parte di quel 50% di questa categoria
clinica che converte in AD (2.1.1).
Ci aspettiamo che le aree cerebrali che consentono di distinguerli
maggiormente dai controlli siano, almeno macroscopicamente, coincidenti con quelle che distinguono i soggetti AD da chi non è affetto
dalla patologia in esame.
5.2 ulteriori considerazioni metodologiche
Di seguito riportiamo un’immagine (figura 43) che raffigura le zone
che maggiormente distinguono gli MCI dai controlli, per verificare i
fondamenti dell’ipotesi appena formulata.
Figura 43: L’immagine a sinistra mostra la regione cerebrale che permette di differenziare controlli e MCI. A destra sono raffigurate le
zone che differenziano i controlli dai soggetti AD. In entrambe le immagini le ROI sono in rosso, sovrapposte al template,
rappresentato in scala di grigi.
Le aree cerebrali evidenziate in rosso e sovrimpresse sul template,
raffigurato in scala di grigi, hanno una diversa ampiezza rispetto alle
ROI utilizzate per la feature selection, raffigurate in figura 43 a destra,
ma si vede che macroscopicamente coincidono.
Tutto questo, oltre a confermare la scelte delle ROI da noi utilizzate,
mostra che le zone colpite dalla neurodegenerazione sia negli AD che
negli MCI sono circa le stesse.
Nonostante la classificazione clinica degli MCI come AD avvenga
solo due o tre anni dopo la realizzazione delle immagini analizzate,
le “tracce” della patologia sono già presenti e visibili, come sostenuto
dal modello “Cascata Amiloide” (2.1.2).
83
6
CONCLUSIONI
L’analisi svolta in questo lavoro di tesi si basa su sistemi difficilmente
inquadrabili nel paradigma fisico di misura a causa dell’assenza di un
modello eziologico esatto da utilizzare per inquadrare il fenomeno in
esame.
Non essendo note le cause che lo determinano non si conoscono
né forma né caratteristiche del segnale cercato e per individuarlo è
necessario elaborare un diverso paradigma di misura basato sul confronto di due popolazioni: la prima in cui si attesta la presenza del
segnale, la seconda in cui esso è assente.
Utilizzando questo approccio il metodo adottato per l’individuazione del segnale rientra nella definizione del segnale stesso. Quindi, per
determinare l’incidenza della scelta relativa al metodo di analisi sulla
sua caratterizzazione abbiamo implementato 4 differenti metriche.
Poiché il segnale è quantificabile unicamente attraverso la valutazione dell’efficacia della classificazione dei dati nei loro gruppi di appartenenza, dopo una fase di elaborazione preliminare, volta a minimizzare le differenze che non fossero legate alla presenza del segnale
cercato, abbiamo valutato le prestazioni di ogni metrica. Inizialmente
applicandole a una popolazione, formata da 218 soggetti, poi con un
dataset indipendente costituito da 86 individui.
Infine abbiamo utilizzato insieme i 4 metodi di analisi cercando di
massimizzare le prestazioni complessive del processo implementato.
I risultati ottenuti confermano che utilizzando misure indipendenti,
che indagano caratteristiche differenti dei dati analizzati, si ottengono informazioni complementari che forniscono, se utilizzate insieme,
una visione più completa dell’effetto studiato e una classificazione
più efficiente dei gruppi in esame.
Inoltre abbiamo stimato l’entità dell’incertezza dovuta al processo
di elaborazione: i dati che ogni metrica classifica ad alti livelli di confidenza rimangono ben classificati a prescindere dal numero di metodi utilizzati insieme, in quanto l’errore stimato legato alla scelta del
metodo stesso è piccolo. Contrariamente, nel caso in cui i dati siano
stati classificati dalle singole metriche a bassi livelli di confidenza, le
possibilità di migliorare le prestazioni aumentano considerando più
metodi di analisi indipendenti.
In base alle conclusioni tratte possiamo affermare che in campo
medico, utilizzando insieme metriche indipendenti per l’individuazione dei biomarcatori che segnalano la presenza della patologia, si
otterrebbe una migliore classificazione clinica dei soggetti analizzati.
85
86
conclusioni
Uno sviluppo naturale di questo lavoro di tesi riguarda la valutazione dei parametri in base ai quali stimare l’indipendenza dei vari
metodi di analisi che si intende implementare, in modo da massimizzare la complementarietà delle informazioni da essi osservate per
riuscire ad indagare più aspetti del segnale da caratterizzare.
RINGRAZIAMENTI
E ora alcuni dicono che scrivendo i ringraziamenti si tiri un respiro
di sollievo perché non vengono corretti e, certamente, non posso dire
non sia vero. Altri affermano di stare scrivendo il paragrafo più complesso e il più letto dell’intera tesi. Altri ancora si scusano perché se
ringraziassero davvero tutti probabilmente la tesi raddoppierebbe e,
anche questo, è indubbiamente una realtà.
Io scrivo questi ringraziamenti con un filo di malinconia, consapevole e orgogliosa del cammino lasciato alle spalle e incuriosita da ciò
che ho davanti. Si chiamano ringraziamenti no? e allora iniziamo a
ringraziare...
Ovviamente per la costanza e la tenacia con le quali mi hanno
SUPPORTATO e SOPPORTATO in questi anni ringrazio per prima
la mia famiglia. Mia mamma, che ha sempre provato a ricordare che
da qualche parte, nel profondo, tra tutta la fisica ammassata qua e la,
si nascondono le mie origini da classicista, che costituiscono la base
della mia cultura e mi hanno aiutato a essere quella che conoscete.
Il mio fratellino, esplosivo in tutte le sue manifestazioni, magnifico
contraltare del mio carattere e, per questo, importantissimo sostegno.
È necessario specificare che con famiglia intendo quella da cui provengo, ma sento tale anche la persona con cui ne sogno una futura.
Ringrazio il mio marinaio per riuscire a essere sempre presente anche da lontano, per avere sempre la dose di spensieratezza che serve
a rendere oggettive le mie tragicomiche avventure, per intrecciare i
suoi ai miei piedi gelati sotto le coperte, dopo una serata passata a
litigare su inutili scemate, e per essere il mio compagno di giochi e
divertenti risate.
Passiamo alle cose serie: ringrazio il Professor Squarcia e il Professor Calvini per avermi seguito e consigliato in questo lavoro di tesi
con estrema cura e precisione.
Ed eccoci giunti ai ringraziamenti spinosi: mi hanno sopportato per
più di un anno, hanno tentato in tutti i modi possibili di comprendere il mio buffo carattere e, nonostante tutto, alla fine, mi hanno fatto
sentire a casa. Ringrazio Martina, compagna di infinite discussioni,
prezioso riferimento e aiuto, gli ILLUSTRISSIMI SENSI SENSEI (JUNIOR) e il neo papà Luca, che mi hanno aiutata e guidata nel magico
mondo di matlab con infinita e infinita e ancora infinita pazienza e
Diego, compagno dei miei pranzi al difi.
Si sa, per ultima si tiene la “creme”, un GRAZIE SPECIALE AL
CAPO: DOTTOR CHINCARINI SENSEI (SENIOR), con estrema fatica ha imparato a spronarmi e incoraggiarmi sino a scommettere, ormai disperato, con PAOLO (GIUSTO PER RICORDARLO...) che non
87
88
conclusioni
mi sarei laureata. Non è stato semplice da digerire, ma è stata indubbiamente la molla per spingermi a lavorare nel modo giusto. Sotto la
sua guida sono cresciuta e ho imparato che riflessione, continuità e
costanza, benché scomode e faticose alla fine premiano. Almeno per
oggi possiamo dire che ho capito...Dottor Chincarini.
E ora tutti gli altri:
Ringrazio Mirko e Linda Anzalone (Linda mi abituerò al suono
solo al primo anniversario) testimoni di tutte le mie scelte e di tutte
le facciate prese e sempre presenti per aiutarmi a rimettermi in piedi.
Ringrazio Ricky col quale sono cresciuta, che ha ascoltato la tesina
dell’esame di maturità seduto sul mio letto, correggendo la mia pronuncia inglese, e ora brinda con me alla conclusione di questo lungo
e faticoso percorso che finisce con la parole dottore.
Ringrazio Pietro, non so come tenacemente è riuscito a superare
la mia completa inabilità a mantenere vivi i rapporti, rimanendo un
carissimo amico e un fidato consigliere.
Ringrazio Irene, Silvia e Ilaria, le strade ci portano lontane, ma
l’affetto supera ogni distanza.
Ringrazio gli amici di “Vaze” ( tra questi Cocca e Silvio... Cocca facciamocene una ragione saremo sempre amiche di VAZE), gli unici per
cui qualunque scelta faccia, ovunque decida di andare, sarò sempre
la piccola iaia.
Quindi ringrazio tutto il magnifico mondo del DIFI: Le mie adorabili FI..E, Le marzie, Chiaretta, Fede, Eli e la smemorata Giulia, compagnia internazionale e insostituibile in ogni momento della giornata.
I fanciulli tutti: Coppy, che aspettavo in commissione di laurea, Simo,
Volpe, Fede, Pres, Lollo, insostituibili compagni di bevute ignoranti e
campestri, Ale, Davide, Manuella, il Dodo e le fantastiche new entry
Ruggi, Luca e Laura...sicuramente ho dimenticato qualcuno, ma non
me ne voglia.
Insomma GRAZIE GRAZIE GRAZIE a tutti e ora decisamente...SPERIAMO
CHE IO ME LA CAVO.
BIBLIOGRAFIA
[1] Jr Atkinson A.J., W. A. Colburn, V. G. DeGruttola, D. L. DeMets,
G. J. Downing, D. F. Hoth, J. A. Oates, C. C. Peck, R. T. Schooley,
B. A. Spilker, J. Woodcock, and S. L. Zeger. Biomarkers and surrogate endpoints: Preferred definitions and conceptual framework,
2001. ISSN 00099236.
[2] Orestes V Forlenza, Breno S Diniz, and Wagner F Gattaz. Diagnosis and biomarkers of predementia in Alzheimer’s disease. BMC medicine, 8:89, 2010. ISSN 1741-7015. doi: 10.1186/
1741-7015-8-89.
[3] K B Walhovd, a M Fjell, J Brewer, L K McEvoy, C FennemaNotestine, D J Hagler, R G Jennings, D Karow, and a M Dale. Combining MR imaging, positron-emission tomography, and
CSF biomarkers in the diagnosis and prognosis of Alzheimer
disease. AJNR. American journal of neuroradiology, 31(2):347–354,
2010. ISSN 1936-959X. doi: 10.3174/ajnr.A1809.
[4] Yong Fan, Susan M. Resnick, Xiaoying Wu, and Christos Davatzikos. Structural and functional biomarkers of prodromal
Alzheimer’s disease: A high-dimensional pattern classification
study. NeuroImage, 41(2):277–285, 2008. ISSN 10538119. doi:
10.1016/j.neuroimage.2008.02.043.
[5] Christine Fennema-Notestine, Donald J. Hagler, Linda K. McEvoy, Adam S. Fleisher, Elaine H. Wu, David S. Karow, and Anders M. Dale. Structural MRI biomarkers for preclinical and mild
Alzheimer’s disease. Human Brain Mapping, 30(10):3238–3253,
2009. ISSN 10659471. doi: 10.1002/hbm.20744.
[6] Gaël Chetelat and Jean Claude Baron. Early diagnosis of Alzheimer’s disease: Contribution of structural neuroimaging, 2003.
ISSN 10538119.
[7] Lisa Mosconi, Miroslaw Brys, Lidia Glodzik-Sobanska, Susan
De Santi, Henry Rusinek, and Mony J. de Leon. Early detection of Alzheimer’s disease using neuroimaging. Experimental Gerontology, 42(1-2):129–138, 2007. ISSN 05315565. doi:
10.1016/j.exger.2006.05.016.
[8] H. Malcolm Hudson and Richard S. Larkin. Accelerated image reconstruction using ordered subsets of projection data.
IEEE Transactions on Medical Imaging, 13(4):601–609, 1994. ISSN
02780062. doi: 10.1109/42.363108.
89
90
bibliografia
[9] P J Green. Bayesian reconstructions from emission tomography
data using a modified EM algorithm. IEEE transactions on medical
imaging, 9(1):84–93, 1990. ISSN 0278-0062. doi: 10.1109/42.52985.
[10] Adam M. Alessio, Paul E. Kinahan, Phillip M. Cheng, Hubert
Vesselle, and Joel S. Karp. PET/CT scanner instrumentation,
challenges, and solutions. Radiologic Clinics of North America, 42
(6):1017–1032, 2004. ISSN 00338389. doi: 10.1016/j.rcl.2004.08.
001.
[11] J.S. Goldstein, I.S. Reed, and L.L. Scharf. A multistage representation of the Wiener filter based on orthogonal projections. IEEE
Transactions on Information Theory, 44(7), 1998. ISSN 0018-9448.
doi: 10.1109/18.737524.
[12] Adriaan a. Lammertsma and Ronald Boellaard. The need for
quantitative PET in multicentre studies. Clinical and Translational Imaging, 2(4):277–280, 2014. ISSN 2281-5872. doi: 10.1007/
s40336-014-0074-y. URL http://link.springer.com/10.1007/
s40336-014-0074-y.
[13] B Desgranges, F Eustache, P Rioux, V de La Sayette, and B Lechevalier. Memory disorders in Alzheimer’s disease and the organization of human memory. Cortex; a journal devoted to the
study of the nervous system and behavior, 32(3):387–412, 1996. ISSN
0010-9452.
[14] Anne Hafkemeijer, Jeroen van der Grond, and Serge A.R.B. Rombouts. Imaging the default mode network in aging and dementia,
2012. ISSN 09254439.
[15] Bradford C. Dickerson, Eric Feczko, Jean C. Augustinack, Jenni Pacheco, John C. Morris, Bruce Fischl, and Randy L. Buckner. Differential effects of aging and Alzheimer’s disease on
medial temporal lobe cortical thickness and surface area. Neurobiology of Aging, 30(3):432–440, 2009. ISSN 01974580. doi:
10.1016/j.neurobiolaging.2007.07.022.
[16] Paul S. Aisen, Ronald C. Petersen, Michael C. Donohue, Anthony
Gamst, Rema Raman, Ronald G. Thomas, Sarah Walter, John Q.
Trojanowski, Leslie M. Shaw, Laurel A. Beckett, Clifford R. Jack,
William Jagust, Arthur W. Toga, Andrew J. Saykin, John C. Morris, Robert C. Green, and Michael W. Weiner. Clinical core of the
Alzheimer’s disease neuroimaging initiative: Progress and plans,
2010. ISSN 15525260.
[17] Clifford R. Jack, David S. Knopman, William J. Jagust, Leslie M.
Shaw, Paul S. Aisen, Michael W. Weiner, Ronald C. Petersen,
and John Q. Trojanowski. Hypothetical model of dynamic biomarkers of the Alzheimer’s pathological cascade. The Lancet
bibliografia
Neurology, 9(1):119–128, 2010.
S1474-4422(09)70299-6.
ISSN 14744422.
doi: 10.1016/
[18] Clive Ballard, Serge Gauthier, Anne Corbett, Carol Brayne, Dag
Aarsland, and Emma Jones. Alzheimer’s disease. The Lancet, 377(9770):1019–1031, 2011. ISSN 01406736. doi: 10.1016/
S0140-6736(10)61349-9.
[19] a. Alzheimer. ??ber eigenartige Krankheitsf??lle des sp??teren
Alters. Zeitschrift f??r die gesamte Neurologie und Psychiatrie, 4(1):
356–385, 1911. ISSN 03034194. doi: 10.1007/BF02866241.
[20] Bruno Dubois, Howard H. Feldman, Claudia Jacova, Jeffrey L.
Cummings, Steven T. DeKosky, Pascale Barberger-Gateau, André Delacourte, Giovanni Frisoni, Nick C. Fox, Douglas Galasko,
Serge Gauthier, Harald Hampel, Gregory A. Jicha, Kenichi Meguro, John O’Brien, Florence Pasquier, Philippe Robert, Martin
Rossor, Steven Salloway, Marie Sarazin, Leonardo C. de Souza,
Yaakov Stern, Pieter J. Visser, and Philip Scheltens. Revising the
definition of Alzheimer’s disease: A new lexicon, 2010. ISSN
14744422.
[21] Bruno Dubois, Howard H. Feldman, Claudia Jacova, Steven T.
DeKosky, Pascale Barberger-Gateau, Jeffrey Cummings, André
Delacourte, Douglas Galasko, Serge Gauthier, Gregory Jicha, Kenichi Meguro, John O’Brien, Florence Pasquier, Philippe Robert,
Martin Rossor, Steven Salloway, Yaakov Stern, Pieter J. Visser,
and Philip Scheltens. Research criteria for the diagnosis of Alzheimer’s disease: revising the NINCDS-ADRDA criteria, 2007.
ISSN 14744422.
[22] Guy M. McKhann, David S. Knopman, Howard Chertkow, Bradley T. Hyman, Clifford R. Jack, Claudia H. Kawas, William E.
Klunk, Walter J. Koroshetz, Jennifer J. Manly, Richard Mayeux,
Richard C. Mohs, John C. Morris, Martin N. Rossor, Philip
Scheltens, Maria C. Carrillo, Bill Thies, Sandra Weintraub, and
Creighton H. Phelps. The diagnosis of dementia due to Alzheimer’s disease: Recommendations from the National Institute on
Aging-Alzheimer’s Association workgroups on diagnostic guidelines for Alzheimer’s disease. Alzheimer’s and Dementia, 7(3):
263–269, 2011. ISSN 15525260. doi: 10.1016/j.jalz.2011.03.005.
URL http://dx.doi.org/10.1016/j.jalz.2011.03.003.
[23] Anders Wimo, Linus Jönsson, John Bond, Martin Prince, and
Bengt Winblad. The worldwide economic impact of dementia
2010. Alzheimer’s and Dementia, 9(1):1–11, 2013. ISSN 15525260.
doi: 10.1016/j.jalz.2012.11.006.
[24] H. Braak and E. Braak. Frequency of stages of Alzheimer-related
lesions in different age categories. Neurobiology of Aging, 18
91
92
bibliografia
(4):351–357, 1997. ISSN 01974580. doi: 10.1016/S0197-4580(97)
00056-0.
[25] Ezio Giacobini and Gabriel Gold. Alzheimer disease therapy–
moving from amyloid-β to tau. Nature reviews. Neurology, 9(12):
677–86, 2013. ISSN 1759-4766. doi: 10.1038/nrneurol.2013.223.
URL http://www.ncbi.nlm.nih.gov/pubmed/24217510.
[26] R C Petersen, R Doody, A Kurz, R C Mohs, J C Morris, P V
Rabins, K Ritchie, M Rossor, L Thal, and B Winblad. Current
concepts in mild cognitive impairment. Archives of neurology, 58
(12):1985–1992, 2001. ISSN 0003-9942. doi: nsa10002[pii].
[27] R C Petersen, G E Smith, S C Waring, R J Ivnik, E Kokmen, and
E G Tangelos. Aging, memory, and mild cognitive impairment.
International psychogeriatrics / IPA, 9 Suppl 1:65–69, 1997. ISSN
1041-6102. doi: 10.1017/S1041610297004717.
[28] Bruno Dubois and Martin L. Albert. Amnestic MCI or prodromal
Alzheimer’s disease?, 2004. ISSN 14744422.
[29] R C Petersen. Mild cognitive impairment: transition between
aging and Alzheimer’s disease. Neurologia (Barcelona, Spain), 15
(3):93–101, 2000.
[30] S Larrieu, L Letenneur, J M Orgogozo, C Fabrigoule, H Amieva,
N Le Carret, P Barberger-Gateau, and J F Dartigues. Incidence and outcome of mild cognitive impairment in a populationbased prospective cohort. Neurology, 59(10):1594–1599, 2002.
ISSN 0028-3878. doi: 10.1212/01.WNL.0000034176.07159.F8.
[31] Orestes V Forlenza and Edmond Chiu.
Mild cognitive
impairment: a concept ready to move on?, 2008. ISSN 0951-7367.
[32] John Hardy and Dennis J Selkoe. The amyloid hypothesis of
Alzheimer’s disease: progress and problems on the road to therapeutics. Science (New York, N.Y.), 297(5580):353–356, 2002. ISSN
00368075. doi: 10.1126/science.1072994.
[33] Breno S O Diniz, Jony A Pinto Júnior, and Orestes Vicente Forlenza. Do CSF total tau, phosphorylated tau, and beta-amyloid 42
help to predict progression of mild cognitive impairment to Alzheimer’s disease? A systematic review and meta-analysis of the
literature. The world journal of biological psychiatry : the official journal of the World Federation of Societies of Biological Psychiatry, 9(3):
172–182, 2008. ISSN 1562-2975. doi: 10.1080/15622970701535502.
[34] Clifford R. Jack, Val J. Lowe, Matthew L. Senjem, Stephen D. Weigand, Bradley J. Kemp, Maria M. Shiung, David S. Knopman,
bibliografia
Bradley F. Boeve, William E. Klunk, Chester A. Mathis, and Ronald C. Petersen. 11C PiB and structural MRI provide complementary information in imaging of Alzheimer’s disease and amnestic mild cognitive impairment. Brain, 131(3):665–680, 2008.
ISSN 00068950. doi: 10.1093/brain/awm336.
[35] W. Jagust, B. Reed, D. Mungas, W. Ellis, and C. DeCarli. What
does fluorodeoxyglucose PET imaging add to a clinical diagnosis
of dementia? Neurology, 69(9):871–877, 2007. ISSN 00283878. doi:
10.1212/01.wnl.0000269790.05105.16.
[36] Michele L. Ries, Cynthia M. Carlsson, Howard A. Rowley,
Mark A. Sager, Carey E. Gleason, Sanjay Asthana, and Sterling C.
Johnson. Magnetic resonance imaging characterization of brain
structure and function in mild cognitive impairment: A review,
2008. ISSN 00028614.
[37] Pierre J. Magistretti. Cellular bases of functional brain imaging:
Insights from neuron-glia metabolic coupling. Brain Research, 886
(1-2):108–112, 2000. ISSN 00068993. doi: 10.1016/S0006-8993(00)
02945-0.
[38] Anne B. Rocher, Françoise Chapon, Xavier Blaizot, Jean Claude
Baron, and Chantal Chavoix. Resting-state brain glucose utilization as measured by PET is directly related to regional synaptophysin levels: A study in baboons. NeuroImage, 20(3):1894–1898,
2003. ISSN 10538119. doi: 10.1016/j.neuroimage.2003.07.002.
[39] J M Hoffman, K A Welsh-Bohmer, M Hanson, B Crain, C Hulette, N Earl, and R E Coleman. FDG PET imaging in patients
with pathologically verified dementia. Journal of nuclear medicine
: official publication, Society of Nuclear Medicine, 41(11):1920–1928,
2000. ISSN 0161-5505.
[40] Ronald L. Van Heertum and Ronald S. Tikofsky. Positron emission tomography and single-photon emission computed tomography brain imaging in the evaluation of dementia, 2003. ISSN
00012998.
[41] Silvia Morbelli, Alex Drzezga, Robert Perneczky, Giovanni B.
Frisoni, Anna Caroli, Bart N M van Berckel, Rik Ossenkoppele, Eric Guedj, Mira Didic, Andrea Brugnolo, Gianmario Sambuceti, Marco Pagani, Eric Salmon, and Flavio Nobili. Resting
metabolic connectivity in prodromal Alzheimer’s disease. A European Alzheimer Disease Consortium (EADC) project. Neurobiology of Aging, 33(11):2533–2550, 2012. ISSN 01974580. doi:
10.1016/j.neurobiolaging.2012.01.005.
93
94
bibliografia
[42] Barbara Zitová and Jan Flusser. Image registration methods: A
survey. Image and Vision Computing, 21(11):977–1000, 2003. ISSN
02628856. doi: 10.1016/S0262-8856(03)00137-9.
[43] Weizhao Zhao, Y. Tzay Young, and Myron D. Ginsberg. Registration and three-dimensional reconstruction of autoradiographic images by the disparity analysis method. IEEE Transactions
on Medical Imaging, 12(4):782–791, 1993. ISSN 02780062. doi:
10.1109/42.251130.
[44] Jaap Vaarkamp, David C. Barber, John Conway, and Martin H.
Robinson. Automatic image registration of diagnostic and radiotherapy treatment planning CT head images. International
Journal of Radiation Oncology Biology Physics, 47(1):225–230, 2000.
ISSN 03603016. doi: 10.1016/S0360-3016(99)00552-0.
[45] Adrian Andronache, Philippe Cattin, and Gábor Székely. Local intensity mapping for hierarchical non-rigid registration of
multi-modal images using the cross-correlation coefficient. In
Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), volume 4057 LNCS, pages 26–33, 2006. ISBN 3540356487. doi:
10.1007/11784012\_4.
[46] David Mattes, David R. Haynor, Hubert Vesselle, Thomas K.
Lewellen, and William Eubank. PET-CT image registration
in the chest using free-form deformations. IEEE Transactions
on Medical Imaging, 22(1):120–128, 2003. ISSN 02780062. doi:
10.1109/TMI.2003.809072.
[47] Jie Zhang Jie Zhang and A. Rangarajan. Affine image registration using a new information metric. Proceedings of the 2004
IEEE Computer Society Conference on Computer Vision and Pattern
Recognition, 2004. CVPR 2004., 1, 2004. ISSN 1063-6919. doi:
10.1109/CVPR.2004.1315120.
[48] J P Thirion. Image matching as a diffusion process: an analogy with Maxwell’s demons. Medical image analysis, 2(3):243–260,
1998. ISSN 13618415. doi: 10.1016/S1361-8415(98)80022-4.
[49] G J Wang, N D Volkow, A P Wolf, J D Brodie, and R J Hitzemann.
Intersubject variability of brain glucose metabolic measurements
in young normal males. Journal of nuclear medicine : official publication, Society of Nuclear Medicine, 35(9):1457–1466, 1994. ISSN
0161-5505.
[50] S Minoshima, K A Frey, N L Foster, and D E Kuhl. Preserved pontine glucose metabolism in Alzheimer disease: a reference region
for functional brain image (PET) analysis. Journal of computer
assisted tomography, 19(4):541–547. ISSN 0363-8715.
bibliografia
[51] P Bartenstein, S Minoshima, C Hirsch, K Buch, F Willoch, D Mösch, D Schad, M Schwaiger, and A Kurz. Quantitative assessment of cerebral blood flow in patients with Alzheimer’s disease
by SPECT., 1997. ISSN 01615505.
[52] Ralph Buchert, Florian Wilke, Bhismadev Chakrabarti, Brigitte
Martin, Winfried Brenner, Janos Mester, and Malte Clausen. Adjusted scaling of FDG positron emission tomography images for
statistical evaluation in patients with suspected Alzheimer’s disease. Journal of neuroimaging : official journal of the American Society of Neuroimaging, 15(4):348–355, 2005. ISSN 1051-2284. doi:
10.1177/1051228405280169.
[53] Jiliang Tang, Salem Alelyani, and Huan Liu. Feature Selection for Classification: A Review. Public.Asu.Edu. URL
http://www.public.asu.edu/~jtang20/publication/feature_
selection_for_classification.pdf.
[54] A Hanley. The Meaning. pages 29–36.
[55] a. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review.
ACM Computing Surveys, 31(3):264–323, 1999. ISSN 03600300. doi:
10.1145/331499.331504.
[56] Joe H. Ward. Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58
(301):236–244, 1963. ISSN 01621459. doi: 10.1080/01621459.1963.
10500845.
[57] David E. Rex, Jeffrey Q. Ma, and Arthur W. Toga. The LONI
Pipeline Processing Environment. NeuroImage, 19(3):1033–1048,
2003. ISSN 10538119. doi: 10.1016/S1053-8119(03)00185-X.
[58] D L Hill, P G Batchelor, M Holden, and D J Hawkes. Medical
image registration. Physics in medicine and biology, 46(3):R1–R45,
2001. ISSN 0031-9155. doi: 10.1088/0031-9155/46/3/201.
[59] Igor Yakushev, Christian Landvogt, Hans-Georg Buchholz, Andreas Fellgiebel, Alexander Hammers, Armin Scheurich, Irene Schmidtmann, Alexander Gerhard, Mathias Schreckenberger,
and Peter Bartenstein. Choice of reference area in studies of
Alzheimer’s disease using positron emission tomography with
fluorodeoxyglucose-F18. Psychiatry research, 164(2):143–153, 2008.
ISSN 0165-1781. doi: 10.1016/j.pscychresns.2007.11.004. URL
http://dx.doi.org/10.1016/j.pscychresns.2007.11.004.
[60] Ron Kohavi. A Study of Cross-Validation and Bootstrap for
Accuracy Estimation and Model Selection. International Joint
Conference on Artificial Intelligence, 14(12):1137–1143, 1995. ISSN
10450823. doi: 10.1067/mod.2000.109031.
95
96
bibliografia
[61] Z. I. Botev, J. F. Grotowski, and D. P. Kroese. Kernel density estimation via diffusion. Annals of Statistics, 38(5):2916–2957, 2010.
ISSN 00905364. doi: 10.1214/10-AOS799.
[62] G B Frisoni, P h Scheltens, S Galluzzi, F M Nobili, N C Fox, P H
Robert, H Soininen, L-O Wahlund, G Waldemar, and E Salmon.
Neuroimaging tools to rate regional atrophy, subcortical cerebrovascular disease, and regional cerebral blood flow and metabolism: consensus paper of the EADC. Journal of neurology, neurosurgery, and psychiatry, 74(10):1371–1381, 2003. ISSN 0022-3050. doi:
10.1136/jnnp.74.10.1371.
[63] A. Caroli, A. Prestia, K. Chen, N. Ayutyanont, S. M. Landau,
C. M. Madison, C. Haense, K. Herholz, F. Nobili, E. M. Reiman,
W. J. Jagust, and G. B. Frisoni. Summary Metrics to Assess Alzheimer Disease-Related Hypometabolic Pattern with 18F-FDG
PET: Head-to-Head Comparison, 2012. ISSN 0161-5505.
[64] Andrea Chincarini, Paolo Bosco, Piero Calvini, Gianluca Gemme, Mario Esposito, Chiara Olivieri, Luca Rei, Sandro Squarcia,
Guido Rodriguez, Roberto Bellotti, Piergiorgio Cerello, Ivan De
Mitri, Alessandra Retico, and Flavio Nobili. Local MRI analysis
approach in the diagnosis of early and prodromal Alzheimer’s
disease. NeuroImage, 58(2):469–480, 2011. ISSN 10538119. doi:
10.1016/j.neuroimage.2011.05.083.
[65] Rémi Cuingnet, Emilie Gerardin, Jérôme Tessieras, Guillaume
Auzias, Stéphane Lehéricy, Marie Odile Habert, Marie Chupin,
Habib Benali, and Olivier Colliot. Automatic classification of
patients with Alzheimer’s disease from structural MRI: A comparison of ten methods using the ADNI database. NeuroImage,
56(2):766–781, 2011. ISSN 10538119. doi: 10.1016/j.neuroimage.
2010.06.013.
[66] J A Hanley and B J McNeil. A method of comparing the areas
under receiver operating characteristic curves derived from the
same cases. Radiology, 148(3):839–843, 1983. ISSN 0033-8419. doi:
10.1148/radiology.148.3.6878708.
[67] J A Hanley and B J McNeil. The meaning and use of the area
under a receiver operating characteristic (ROC) curve. Radiology,
143(1):29–36, 1982. ISSN 0033-8419. doi: 10.1148/radiology.143.1.
7063747.