Metodi Statistici per l`Analisi ed il Riconoscimento della Forma

Transcript

U NIVERSITÀ DEGLI S TUDI DI N APOLI F EDERICO II
FACOLTÀ DI S CIENZE M ATEMATICHE , F ISICHE E N ATURALI
C ORSO DI L AUREA M AGISTRALE IN I NFORMATICA
T ESI DI L AUREA S PERIMENTALE
M ETODI S TATISTICI PER L’A NALISI ED IL
R ICONOSCIMENTO DELLA F ORMA
Relatori:
Prof. Ezio C ATANZARITI
Dott. Matteo S ANTORO
Correlatore:
Prof.ssa Anna C ORAZZA
A NNO A CCADEMICO 2008/2009
Candidato:
Salvatore M ASECCHIA
matr. 961/80
INDICE
Elenco delle figure
iii
Elenco delle tabelle
v
1
Introduzione
1.1 Motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Obiettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Organizzazione del lavoro di Tesi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
5
6
2
Analisi statistica della forma
2.1 Definizioni preliminari . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Trasformazione delle figure . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Trasformazioni di traslazione . . . . . . . . . . . . . . . . . .
2.2.2 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . .
2.2.3 Formalizzazione dei concetti di form e di shape . . . . . . .
2.3 Analisi di Procrustes . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Analisi di Procrustes Ordinaria . . . . . . . . . . . . . . . . .
2.3.2 Analisi di Procrustes Generalizzata . . . . . . . . . . . . . .
2.4 Costruzione del modello di variabilità . . . . . . . . . . . . . . . . .
2.4.1 Proiezione nello spazio tangente . . . . . . . . . . . . . . . .
2.4.2 Point Distribution Model: estrazione dei modi di variazione
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
8
9
10
11
13
13
13
15
15
16
Rappresentazione della forma
3.1 Panoramica delle rappresentazioni . . . . . . . . . . . . . . . .
3.2 Mesh di superficie come descrittori di forma . . . . . . . . . .
3.2.1 Generazione della mesh: algoritmo dei marching cubes
3.2.2 Densità della mesh: algoritmo di decimazione . . . . .
3.3 Mesh di superficie per forme ippocampali . . . . . . . . . . . .
3.3.1 Una soluzione al problema della corrispondenza . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
19
20
20
22
24
Riduzione della dimensionalità e interpretabilità
4.1 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Interpretazione statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Relazione tra la PCA e la Singular Value Decomposition . . . . . . . . . .
27
27
29
31
3
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
i
INDICE
4.2
4.3
5
6
7
4.1.3 PCA con dati ad alta dimensionalità . . .
Sparse Principal Component Analysis . . . . . .
4.2.1 Approssimazione sparsa diretta . . . . .
4.2.2 Formulazione del criterio di sparsità . . .
4.2.3 Calcolo della varianza . . . . . . . . . . .
4.2.4 SPCA per dataset ad alta dimensionalità
Caso di studio . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
Metodi di selezione nella regressione lineare
5.1 Introduzione alla regressione lineare . . . . . . . .
5.2 Least Angle Regression . . . . . . . . . . . . . . . .
5.3 L’operatore di selezione Lasso . . . . . . . . . . . .
5.3.1 Soluzione dei problemi di tipo Lasso . . . .
5.4 L’operatore di selezione Elastic Net . . . . . . . . .
5.4.1 Naïve Elastic Net . . . . . . . . . . . . . . .
5.4.2 Risolvere il problema dell’overshrinking .
5.4.3 Soluzione dei problemi di tipo Elastic Net .
5.5 Interpretazione di Lasso ed Elastic Net . . . . . . .
5.6 Caso di studio . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Esperimenti e risultati
6.1 Descrizione dei dataset . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Mani . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.2 Espressioni facciali . . . . . . . . . . . . . . . . . . . . .
6.1.3 Ippocampi . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Problema della corrispondenza su superfici prive di landmark
6.3 Allineamento delle forme attraverso l’analisi di Procrustes . .
6.4 Decomposizione dei modi di variazione . . . . . . . . . . . . .
6.5 Decomposizione sparsa dei modi di variazione . . . . . . . . .
Conclusioni
Bibliografia
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
35
36
36
38
40
41
.
.
.
.
.
.
.
.
.
.
44
44
46
53
54
56
56
58
58
60
61
.
.
.
.
.
.
.
.
63
64
64
66
67
68
71
73
77
83
86
ii
ELENCO DELLE FIGURE
1.1
1.2
Esempi di landmark in due dimensioni annotati manualmente . . . . . . . . . . .
Triangolazione di una superficie tridimensionale per il posizionamento automatico dei landmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Rappresentazione dello spazio delle forme . . . . . . . . . . . . . . . . . . . . . .
Rappresentazione della proiezione nello spazio tangente avente la forma media
come polo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
Sensibilità al rumore della rappresentazione attraverso assi mediali
Rappresentazione di un marching cube . . . . . . . . . . . . . . . . .
Configurazioni di marching cubes e relative triangolazioni . . . . . .
Classificazione dei vertici nell’algoritmo di decimazione . . . . . .
Criteri di decimazione . . . . . . . . . . . . . . . . . . . . . . . . . .
Architettura della pipeline MAGIC-V . . . . . . . . . . . . . . . . .
Generazione di una mesh di superficie da un’immagine binaria . .
Decimazione di una mesh su una superficie ippocampale . . . . . .
Schema del processo di generazione del dataset di landmark . . . .
.
.
.
.
.
.
.
.
.
19
20
21
22
22
23
24
24
26
4.1
4.2
Visualizzazione tramite scree plot della varianza spiegata e cumulata dalle componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Scatter plot di confronto tra le proiezioni dei dati sulle componenti principali . . .
42
43
5.1
5.2
5.3
5.4
5.5
5.6
Rappresentazione geometrica dell’algoritmo LAR . . . . . . . . . . . . . . . . . .
Relazione tra l’algoritmo LAR è la stima ai minimi quadrati ordinaria . . . . . . .
Confronto tra le regioni dei vincoli sulla norma `1 (Lasso) ed `2 (Ridge Regression)
Visualizzazione della regione dei vincoli di tipo Elastic Net . . . . . . . . . . . . .
Effetto delle penalità sulla stima OLS in caso di input ortonormale . . . . . . . . .
Risultati dell’applicazione degli algoritmi LAR, LARS e LARS-EN . . . . . . . . .
47
52
54
57
61
62
6.1
Prima serie di 10 immagini di mani sulle quali sono stati posizionati i landmark
che ne descrivono il contorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Esempi di annotazione dei 56 landmark sul dataset di mani . . . . . . . . . . . .
Serie di 6 immagini che mostra le diverse pose presenti nel dataset di espressioni
facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
2.2
6.2
6.3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
16
65
65
66
iii
ELENCO DELLE FIGURE
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
6.12
6.13
6.14
6.15
6.16
6.17
Esempi di annotazione dei 58 landmark sul dataset di espressioni facciali . . . .
Segmentazioni degli 8 template di ippocampi destri della pipeline MAGIC-V . .
Mesh di landmark ottenute sulle superfici ippocampali . . . . . . . . . . . . . . .
Campi di deformazione per la generazione del dataset di forme 3D . . . . . . . .
Esempio di deformazione della mesh di riferimento attraverso 4 diversi campi
di deformazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Applicazione dell’analisi di Procrustes al dataset di mani annotate . . . . . . . .
Applicazione dell’analisi di Procrustes al dataset di espressioni facciali annotate
Visualizzazione grafica dei modi di variazione calcolati sul dataset di mani . . .
Visualizzazione grafica dei modi di variazione calcolati sul dataset di espressioni
facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Visualizzazione grafica dei modi di variazione calcolati sul dataset di ippocampi
Modi di variazione del dataset di mani catturati dalla prima componente principale sparsa con diversi parametri di regolarizzazione . . . . . . . . . . . . . . . .
Modi di variazione del dataset di espressioni facciali catturati dalla prima componente principale sparsa con diversi parametri di regolarizzazione . . . . . . . .
Modi di variazione del dataset di ippocampi catturati dalla prima componente
principale sparsa con diversi parametri di regolarizzazione . . . . . . . . . . . . .
Visualizzazione grafica dei modi di variazione sparsi calcolati sul dataset di
espressioni facciali, con varianza vicina ai modi di variazione ordinari . . . . . .
67
68
69
70
70
72
72
75
75
76
79
80
81
82
iv
ELENCO DELLE TABELLE
4.1
4.2
Varianza spiegata dalle componenti principali ordinarie calcolate su un dataset
di misurazioni cliniche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianza spiegata dalle componenti principali sparse calcolate su un dataset di
misurazioni cliniche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
43
5.1
Effetto delle penalità sulla stima OLS in caso di input ortonormale . . . . . . . . .
60
6.1
6.2
6.3
Associazione dei colori alle forme generate rispetto ai vari modi di variazione . .
Varianza spiegata dalle componenti principali calcolate sul dataset di mani . . .
Varianza spiegata dalle componenti principali calcolate sul dataset di espressioni
facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianza spiegata dalle componenti principali calcolate sul dataset di ippocampi
Varianza spiegata dalle componenti principali sparse calcolate sul dataset di
espressioni facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
74
6.4
6.5
74
74
82
v
CAPITOLO 1
I NTRODUZIONE
Contenuto
1.1
1.2
1.3
1.1
Motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Obiettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Organizzazione del lavoro di Tesi . . . . . . . . . . . . . . . . . . . . . . . . . .
1
5
6
Motivazioni
L’analisi della forma (dall’inglese shape analysis) consiste in un insieme di tecniche utilizzate
nella Computer Vision e nel campo della Pattern Recognition per individuare, classificare e riconoscere una forma (shape). Normalmente, il concetto di forma è associato all’apparenza di un
oggetto, alla sua silhouette. Intuitivamente, è possibile fornire la seguente definizione (Dryden
e Mardia, 1998):
la forma è l’insieme delle informazioni geometriche che restano quando posizione, scala ed
effetti di rotazione sono rimossi dall’oggetto.
I metodi di analisi della forma sono utilizzati per molte applicazioni, tra le quali faremo
particolare riferimento al riconoscimento di oggetti, espressioni o movimenti in una scena (o
frame) attraverso l’applicazione di tecniche standard di classificazione dei descrittori utilizzati
per rappresentare la forma stessa. Inoltre, specialmente in ambito medico, l’uso dell’analisi
della forma viene utilizzato anche per ottenere una stima quantitativa di parametri morfologici che, in combinazione con ulteriori dati clinici, costituiscono la base per l’addestramento
di modelli di regressione con i quali predire la presenza (o la probabilità di contrarre) una
determinata patologia.
Tradizionalmente, i modelli di forma erano costruiti utilizzando metriche calcolate sugli
oggetti in esame: dimensione, volume, area, distanza tra specifici punti o rapporti tra determinate distanze. L’uso di queste metriche, però, non permette di descrivere una forma in tutta la
sua complessità. Per questo motivo, parte della ricerca attuale nel campo della shape analysis
si occupa di individuare i descrittori (feature) in grado di caratterizzare al meglio una forma in
relazione al tipo di applicazione e agli strumenti di analisi adottati. La scelta delle più appropriate feature risulta essere ad ogni modo critica in ogni tipo di sistema. Tra le tecniche maggiormente adottate, che analizzeremo e approfondiremo nel capitolo 3, possiamo citare l’utilizzo di
1
1. I NTRODUZIONE
(a) Landmark annotati su una delle mani del dataset
1.1. M OTIVAZIONI
(b) Landmark annotati su uno dei volti del dataset
Figura 1.1: Immagini estratte dai due dataset che utilizzeremo per sperimentare le metodologie
presentate in questa Tesi.
landmark (Cootes et al., 1992; Bookstein, 1996), mesh dense di superficie (Rueckert et al., 2003),
descrizioni parametriche (Brechbühler et al., 1995; Davies et al., 2003), rappresentazioni basate
sul concetto di skeleton (medial representation) (Styner e Gerig, 2001), mappe di distanza (Golland et al., 2005) e campi di deformazione (Machado et al., 1998; Rueckert et al., 2003) derivati
dal processo di registrazione su un set di immagini rispetto ad una di riferimento.
Il presente lavoro di Tesi è stato dedicato allo studio e all’applicazione di metodi statistici
all’analisi della forma, con particolare attenzione agli stumenti legati al concetto di sparsità.
A tal fine, i modelli statistici selezionati e che mostreremo nei successivi capitoli, sono stati
applicati a forme rappresentate attraverso l’uso di landmark e mesh di superficie. Inoltre, evidenzieremo le caratteristiche delle metodologie impiegate, attraverso dataset di forme in due
dimensioni rappresentate da landmark e mostreremo come le stesse tecniche possano essere
efficacemente utilizzate su forme tridimensionali descritte attraverso mesh di superficie. Nel
caso 2D utilizzeremo due dataset in particolare:
• un dataset composto da annotazioni manuali su 40 immagini di mani umane sinistre
(figura 1.1(a)) catturate su quattro persone distinte (10 immagini per persona) in varie
pose (Stegmann e Gomez, 2002). Questo dataset ci permetterà di mettere in evidenza le
caratteristiche delle metodologie adottate con un riscontro visivo molto chiaro;
• un dataset contenente 240 annotazioni di espressioni facciali (figura 1.1(b)) catturate su
40 diversi individui di entrambi i sessi (Stegmann et al., 2003).
La sperimentazione nel 3D delle tecniche utilizzate, verrà in seguito presentata attraverso
l’uso di segmentazioni dell’ippocampo, una struttura cerebrale localizzata nella zona mediale
del lobo temporale. In particolare, questa parte del lavoro è collegata al progetto MAGIC-V
finanziato dall’INFN (Istituto Nazionale di Fisica Nucleare) e condotto dai gruppi di Bari, Genova, Lecce, Napoli, Pisa e Torino, che si pone l’obiettivo di costruire una pipeline di segmentazione e analisi del grado di atrofia dell’area ippocampale (Calvini et al., 2008; Aiello et al., 2009).
Il processo di segmentazione dell’area cerebrale produce una maschera binaria tridimensionale
contenente l’ippocampo estratto, dalla quale si è reso necessario produrre la rappresentazione
della forma attraverso landmark. L’idea è stata quella di utilizzare classici algoritmi, sviluppati
nel campo della Computer Graphic, che ci hanno permesso di triangolare la superficie ippocampale, come in figura 1.2(a), e riutilizzare i vertici dei triangoli come punti di una mesh,
2
1. I NTRODUZIONE
(a) Triangolazione della superficie ippocampale
1.1. M OTIVAZIONI
(b) Punti della mesh automaticamente generata sulla
superficie
Figura 1.2: Applicazione dell’algoritmo di triangolazione della superficie ippocampale per la
generazione di una mesh da utilizzare come rappresentazione della forma tridimensionale.
equiparabili, a livello di rappresentazione, ai landmark utilizzati sulle forme bidimensionali1
(figura 1.2(b)).
L’utilizzo di landmark come descrittori di forma, anche se molto diffuso, soffre di quello
che in letteratura è indicato come “problema della corrispondenza”. Come si evince, ad esempio, dalla figura 1.1(a) l’analisi di forma richiede che i landmark siano etichettati e che punti
con la stessa etichetta corrispondano, sul contorno (o sulla superficie) dell’oggetto, in tutte le
forme del dataset. Ad esempio, per le mani si richiede che il landmark 28 sia sempre posizionato sulla punta del dito medio. Se nel 2D il posizionamento manuale dei landmark è un
lavoro possibile per quanto noioso ed error-prone, nel 3D la procedura è impraticabile sia per
il numero di landmark necessari a descrivere oggetti complessi, sia per la maggiore difficoltà
di visualizzazione ed individuazione delle corrispondenze, anche da parte di operatori esperti.
In Cootes e Taylor (2004) (capitolo 13) è possibile consultare una ricca panoramica di metodi ed
algoritmi sviluppati negli ultimi anni per il posizionamento automatico dei landmark su oggetti in due e tre dimensioni, a partire dai pionieristici approcci di Bookstein (1996). In questa
Tesi il problema della corrispondenza è stato affrontato in relazione all’utilizzo di forme tridimensionali rappresentate attraverso mesh di superficie. Nel capitolo 3 mostreremo l’approccio
utilizzato sul dataset di superfici ippocampali, utilizzando registrazioni non rigide e matrici di
deformazione e indagando su ciò che in letteratura è stato proposto (Frangi et al., 2001; Heitz
et al., 2004).
Qualsiasi sia la rappresentazione scelta per le forme, la dimensionalità dei vettori di caratteristiche (feature vector) può essere molto elevata ed aumenta in relazione alla complessità
degli oggetti da descrivere, in particolare nel 3D. Nasce l’esigenza di costruire modelli meglio
maneggiabili dove le feature (che nel caso dei landmark corrispondono alle coordinate sul piano o nello spazio) sono organizzate in gruppi, seguendo criteri geometrico/spaziali o statistici.
Cootes et al. (1992, 1995, 2001) sono stati tra i primi ad introdurre l’uso della Principal Component Analysis (PCA) (Jolliffe, 2002) per la decomposizione di insiemi di landmark, diffondendo
il concetto di Point Distribution Model (PDM) e introducendo nella Computer Vision gli studi su
modelli statistici della forma portati avanti da Kendall (1977, 1989) e Bookstein (1978, 1984),
che si sono mostrati di notevole interesse per la comunità scientifica (Goodall, 1991; Dryden e
Mardia, 1998) la quale ha definito delle solide basi teoriche sulla geometria delle forme e sulla
loro analisi statistica.
1
A meno di indicazioni esplicite, in assenza di ambiguità, utilizzeremo il termine landmark sia nell’accezione
classica, sia in riferimento ai punti di una mesh di superficie.
3
1. I NTRODUZIONE
1.1. M OTIVAZIONI
In linea generale, l’uso della PCA per la costruzione di modelli statistici di variabilità prevede le seguenti fasi:
1. Ogni forma del dataset, descritta da un vettore di caratteristiche x, viene centrata e allineata rispetto allo stesso sistema di riferimento (rimozione di posizione, fattori di scala ed
effetti di rotazione) utilizzando l’analisi di Procrustes (Goodall, 1991; Dryden e Mardia,
1998). Questa fase produce un nuovo vettore di caratteristiche x̄ che descrive la forma
media.
2. Ai vettori di caratteristiche risultanti (uno per ogni individuo della popolazione delle
forme), organizzati come colonne di una matrice X, viene applicata la PCA per calcolare
le direzioni principali lungo le quali è maggiore la variabilità di forma.
Ipotizzando di organizzare le direzioni principali come colonne di una matrice U, la coppia
(x̄, U) rappresenta il nostro modello di variabilità con il quale è possibile ricostruire ogni forma
x del dataset
x = x̄ + Uy,
dove y è la proiezione di (x − x̄) sulle direzioni principali
y = U−1 (x − x̄) = UT (x − x̄).
L’uso della PCA come strumento di decomposizione ed interpretazione della variabilità,
presenta comunque dei limiti. Ogni componente principale è una combinazione lineare di tutte
le variabili con le quali sono descritti gli individui della popolazione. Nel nostro caso specifico,
ogni componente principale dipende linearmente da tutte le coordinate di tutti i landmark che descrivono la forma. Il problema dell’interpretabilità dei modelli statistici basati sulla PCA non
è limitato alla sola shape analysis ma è in generale molto sentito nelle applicazioni di learning
statistico non supervisionato dove la complessità dei dati e l’alta dimensionalità delle loro rappresentazioni richiede modelli che possano anche visivamente “spiegare” la distribuzione della
popolazione. La necessità di strumenti di decomposizione in grado di fornire il giusto trade-off
tra compattezza ed interpretabilità ha spinto alla definizione di strumenti, variati dalla classica
PCA, in grado di produrre vettori sparsi delle componenti principali che dipendono linearmente
solo da un sottoinsieme delle feature. Johnstone e Lu (2003), ad esempio, applicano tecniche di
selezione di variabili sui dati prima di effettuare la PCA, allo scopo di ottenere componenti
sparse. Altre tecniche poco raffinate, come l’eliminazione degli elementi sotto una certa soglia
dai vettori delle direzioni principali, sono state proposte ma producono modelli poco accurati
sotto vari aspetti (Jolliffe e Cadima, 1995). Invece, le tecniche proposte da Jolliffe (1995) basate
su operazioni di rotazione delle componenti principali classiche hanno portato alla definizione
di un modello di Sparse PCA (Chennubhotla e Jepson, 2001) sul quale Alcantara et al. (2007)
hanno definito un framework in grado di generare componenti principali sparse e spazialmente
localizzate, chiamato LoCA (Localized Component Analysis). L’aspetto interessante di questo approccio è legato alla possibilità di condizionare la sparsità lungo le componenti principali in
modo da localizzare spazialmente le variabili trattenute dal modello. Nella LoCA, però, questo risultato viene ottenuto attraverso la definizione di una matrice di compatibilità dipendente
dall’applicazione e dalla conoscenza a priori sui dati (Xie et al., 2008; Alcantara et al., 2009), rischiando di tralasciare completamente qualsiasi tipo di correlazione statistica presente nei dati
tra landmark non contigui. In campo medico, ad esempio, individuare la correlazione tra due
aree distinte della forma di una data struttura anatomica può essere di notevole importanza
nell’uso di modelli di regressione.
Questa caratteristica ha spinto questo lavoro di Tesi verso approcci più generali in grado
di indurre sparsità nelle componenti principali sulla base della correlazione statistica presente
4
1. I NTRODUZIONE
1.2. O BIETTIVI
tra le variabili e analizzando se (e come) questa si traduce nella separazione spazialmente localizzata dei modi di variazione della forma. L’approccio sul quale ci siamo concentrati è quello
della Sparse PCA (SPCA) proposta da Zou et al. (2004), i quali hanno definito elegantemente
le componenti principali come soluzione ad un problema di regressione lineare, sul quale applicare criteri di regolarizzazione che inducono sparsità. L’applicazione della SPCA all’analisi
della forma è stata sperimentata solo recentemente in letteratura su forme bidimensionali, prima per investigarne le potenzialità (Sjöstrand et al., 2006) e poi per la costruzione di modelli di
regressione, combinando le informazioni sui modi di variazione di strutture cerebrali (come il
corpo calloso) e alcune misurazioni cliniche, con risultati incoraggianti (Sjöstrand et al., 2007).
La scelta di utilizzare questo tipo di formulazione della SPCA offre anche un ulteriore vantaggio: essendo il problema del calcolo delle componenti principali ricondotto ad una stima ai
minimi quadrati (Ordinary Least Squares - OLS), è possibile sperimentare e far evolvere questa
metodologia sfruttando la vasta letteratura attualmente disponibile, e l’attuale filone di ricerca,
nel campo del learning statistico supervisionato e dei termini di regolarizzazione che producono vettori dei coefficienti di regressione sparsi. In questa Tesi ci occuperemo principalmente
della Ridge Regression (Hoerl e Kennard, 1970), di Lasso (Tibshirani, 1996) e di Elastic Net (Zou
e Hastie, 2005), dove quest’ultimo non è altro che una combinazione lineare delle penalità di
tipo Lasso e Ridge Regression ed unisce le proprietà di selezione del primo con le capacità di
generalizzazione del secondo.
L’utilizzo di questi modelli teorici in applicazioni reali con feature vector ad alta dimensionalità è condizionato dalla presenza di algoritmi efficienti. In questa Tesi presenteremo anche
gli strumenti computazionali che in letteratura sono stati proposti per la soluzione di queste
tipologie di problemi di regressione. Ci soffermeremo in particolare sull’algoritmo denominato Least Angle Regression (LAR), proposto da Efron et al. (2004). Inoltre, descriveremo anche
alcune sue varianti (LARS e LARS-EN) in grado di risolvere efficientemente problemi di tipo
Lasso ed Elastic Net e alla base dell’algoritmo proposto da Zou et al. (2004) per il calcolo delle
componenti principali nella SPCA.
1.2
Obiettivi
In questo lavoro di Tesi, dopo aver affrontato una prima fase di acquisizione dei concetti e
delle metodologie adottate nel campo della shape analysis, si è cercato di raggiungere i seguenti
obiettivi:
• proporre una soluzione efficace al problema della corrispondenza nella generazione e
posizionamento automatico di mesh su superfici tridimensionali, come le segmentazioni
ippocampali;
• affrontare il problema della dimensionalità dei dati con l’introduzione di tecniche di decomposizione come la Principal Component Analysis e indagare sulle potenzialità delle sue
variazioni sparse come la Sparse PCA basata su modelli di regressione lineare;
• dimostrare come un approccio di selezione di variabili statisticamente correlate si traduce, lavorando su rappresentazioni di forma, nella decomposizione di variabilità in
maniera spazialmente localizzata;
• immergere i modelli e gli algoritmi acquisiti e implementati in applicazioni reali, sia per
forme in due dimensioni (espressioni facciali) che in tre dimensioni (ippocampi segmentati dalla pipeline sviluppata nell’ambito del progetto INFN MAGIC-V).
5
1. I NTRODUZIONE
1.3
1.3. O RGANIZZAZIONE DEL LAVORO DI T ESI
Organizzazione del lavoro di Tesi
Nei prossimi capitoli seguiremo un percorso che ci porterà, partendo da una descrizione formale delle metodologie di shape analysis, all’applicazione di modelli sparsi per la decomposizione
della variabilità su diversi insiemi di dati. I capitoli di questo lavoro di Tesi saranno quindi
organizzati come segue:
Capitolo 2. Inizieremo introducendo dettagliatamente la shape analysis basata su landmark formalizzandone i vari aspetti. In questo capitolo presupporremo di aver risolto preventivamente il problema della corrispondenza dei landmark e ci soffermeremo sulla normalizzazione della forma (analisi di Procrustes) e sulla generazione dei modelli attraverso la
PCA.
Capitolo 3. A questo punto ci soffermeremo velocemente sulle rappresentazioni di forma proposte in letteratura ed evidenzieremo i dettagli riguardanti la soluzione proposta al problema della corrispondenza nel caso di mesh di superficie automaticamente generate.
Capitolo 4. Questo capitolo sarà dedicato alla Principal Component Analysis. Descriveremo formalmente il problema, presenteremo le tecniche di risoluzione con attenzione anche agli
aspetti computazionali. Presenteremo quindi vari algoritmi applicabili in vari contesti.
Successivamente, formalizzeremo il problema della generazione di componenti principali sparse attraverso la SPCA descrivendo l’algoritmo proposto in letteratura e i campi di
applicazione.
Capitolo 5. La SPCA presentata nel capitolo 4 è basata sull’utilizzo di modelli di regressione
lineare regolarizzati da penalità che inducono soluzioni sparse. In questo capitolo ci soffermeremo su queste tecniche di apprendimento supervisionato e evidenzieremo come
le particolari caratteristiche che esibiscono si ripercuotono nella SPCA applicata all’analisi della forma. Inoltre presenteremo degli algoritmi efficienti che ne hanno favorito
l’applicazione su diverse problematiche.
Capitolo 6. Dopo aver presentato nei dettagli tutti gli strumenti necessari e analizzati in questo lavoro di Tesi, in questo capitolo ci occuperemo di evidenziarne sperimentalmente le
caratteristiche, sia attraverso applicazioni su dataset di landmark bidimensionali che su
dataset di mesh applicate in maniera automatica su superfici tridimensionali.
6
CAPITOLO 2
A NALISI STATISTICA DELLA FORMA
Contenuto
2.1
2.2
2.3
2.4
Definizioni preliminari . . . . . . . . . . . . . . . . . . . . . . . . .
Trasformazione delle figure . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Trasformazioni di traslazione . . . . . . . . . . . . . . . . . .
2.2.2 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . .
2.2.3 Formalizzazione dei concetti di form e di shape . . . . . . .
Analisi di Procrustes . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Analisi di Procrustes Ordinaria . . . . . . . . . . . . . . . . .
2.3.2 Analisi di Procrustes Generalizzata . . . . . . . . . . . . . .
Costruzione del modello di variabilità . . . . . . . . . . . . . . . .
2.4.1 Proiezione nello spazio tangente . . . . . . . . . . . . . . . .
2.4.2 Point Distribution Model: estrazione dei modi di variazione
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
8
9
10
11
13
13
13
15
15
16
In questo capitolo introdurremo i concetti relativi agli approcci statistici per l’analisi della
forma (dall’inglese shape analysis). Faremo esclusivamente riferimento a forme descritte attraverso landmark, di cui daremo una definizione formale nella sezione 2.1. Affronteremo poi,
nelle sezioni 2.2 e 2.3 il problema della normalizzazione e dell’allineamento delle forme rappresentate. Questo passaggio preliminare si rende necessario per la definizione statistica dei
modelli di variabilità che descriveremo nella sezione 2.4.
2.1
Definizioni preliminari
Come primo passo per la descrizione dell’approccio di analisi statistica forniamo in questa
sezione alcune definizioni preliminari sui concetti di landmark e di forma.
Dryden e Mardia (1998) forniscono la seguente definizione di landmark:
Definizione 2.1.1. Un landmark è un punto di corrispondenza per ogni oggetto omologo tra e all’interno delle popolazioni.
Il concetto generale di landmark si estende a varie tipologie di punti individuati sul contorno o sulla superficie di un oggetto ed è possibile classificarli in relazione alla tecnica adotatta
nell’individuarli:
Landmark Anatomici. Sono punti assegnati da un esperto che corrispondono a segni distintivi
della specifica classe di oggetti.
7
2. A NALISI STATISTICA DELLA FORMA
2.2. T RASFORMAZIONE DELLE FIGURE
Landmark Matematici. Sono punti generati automaticamente utilizzando caratteristiche geometriche delle forme. Ad esempio possiamo considerare tra i landmark matematici punti
estremi, spigoli o in generale punti ad elevata curvatura.
Pseudo-Landmark. Sono punti generati automaticamente, in alcune applicazioni anche in base a landmark anatomici o matematici precedentemente identificati. Ad esempio è possibile generare un certo numero di pseudo-landmark equidistanti compresi tra due landmark anatomici.
L’individuazione dei landmark più adatti a rappresentare la forma di una data famiglia di
oggetti è un’operazione importante e particolarmente critica in ogni applicazione di analisi statistica della forma. Un’etichettatura non corretta può solo produrre modelli poco attendibili
e non aderenti alla reale variabilità presente tra gli oggetti. Uno dei problemi maggiormente
sentiti nell’utilizzo di landmark matematici o di pseudo-landmark è quello che in letteratura
viene definito come il “problema della corrispondenza”: data una popolazione di forme descritte attraverso landmark, è necessario riuscire a definire un’etichettatura che associ lo stesso
valore ai punti corrispondenti su tutte le forme. Questo task è solitamente risolto facilmente in
due dimensioni con una annotazione manuale ma nel 3D le difficoltà di visualizzazione e l’alto
numero di landkmark necessari rendono il processo lungo e soggetto ad errore. Per questo motivo, molti approcci automatici sono stati proposti e nel capitolo 3 presenteremo la soluzione
adottata in questo lavoro di Tesi.
Chiameremo l’insieme delle coordinate dei landmark, estratti ad esempio da una immagine, “configurazione” e definiremo come matrice di configurazione la matrice X ∈ Rn×m di
coordinate cartesiane di n landmark in m dimensioni, dove lo spazio delle configurazioni è lo
spazio di tutti le possibili configurazioni di landmark.
Nella succesiva sezione 2.2 presenteremo le operazioni necessarie alla normalizzazione delle configurazioni. In questo contesto Goodall (1991) fornisce una precisa nomenclatura alle
forme rappresentate attraverso landmark in base proprio alle trasformazioni ad esse applicate,
definendo le seguenti tipologie:
Figure. Corrisponde alla configurazione dei landmark originali, così come estratti, senza alcuna trasformazione.
Form. Corrisponde alla classe di equivalenza composta dalle figure alle quali le informazioni
di traslazione e rotazione sono state rimosse. Una form è anche chiamata size-and-shape
(Dryden e Mardia, 1998).
Shape. Corrisponde alla classe di equivalenza composta dalle figure alle quali le informazioni
di traslazione, rotazione e scalatura sono state rimosse.
In questo capitolo ci riferiremo alle figure anche attraverso il termine italiano di “figura”,
mentre useremo sempre i termini originali di form e shape per evitare ambiguità. Nei restanti capitoli della Tesi, allo scopo di migliorare la leggibilità dei concetti esposti, utilizzeremo
genericamente il termine italiano “forma”, tranne nei casi in cui è rilevante conoscere quali siano le trasformazioni applicate alla configurazione di landmark e non è possibile evincerle dal
contesto.
2.2
Trasformazione delle figure
Formalizziamo, a questo punto, i concetti di figure, form e shape appena introdotti attraverso le
possibili trasformazioni applicabili alle configurazioni di landmark.
8
Come vedremo, le trasformazioni di scala (isotropica, in quanto deve conservare la topologia della forma) possono essere definite attraverso una moltiplicazione tra la matrice di
configurazione ed un numero reale positivo, mentre, le trasformazioni di traslazione possono essere definite attraverso una somma matriciale tra le configurazioni e un vettore costante
m-dimensionale. Infine, dovendo considerare sia trasformazioni di rotazione pura che trasformazioni di rotazione e riflessione delle forme ci riferiremo ai seguenti gruppi:
O(m) = {R ∈ Rm×m : RT R = RRT = Im e |R| = ±1}
SO(m) = {Γ ∈ R
m×m
T
T
: Γ Γ = ΓΓ = Im e |Γ| = +1}
(2.1)
(2.2)
dove O(m) è definito “gruppo ortogonale”, contenente tutte le matrici di rotazione e riflessione in uno spazio m-dimensionale (determinante ±1), mentre SO(m) è definito “gruppo
ortogonale speciale”, contenente le sole matrici di rotazione pura (determinante 1).
L’obiettivo di questa sezione è quello di formalizzare le classi di equivalenza definite dall’insieme delle trasformazioni di similarità Euclidee
{βXΓ + 1n µT : β ∈ R+ , Γ ∈ SO(m), µ ∈ Rm },
(2.3)
e dall’insieme delle trasformazioni su corpo rigido,
{XΓ + 1n µT : Γ ∈ SO(m), µ ∈ Rm },
(2.4)
dove abbiamo che β è un fattore di scala, Γ è una matrice di rotazione, µ è un vettore di
traslazione e 1n ∈ Rn è un vettore composto da tutti elementi di valore 1.
2.2.1
Trasformazioni di traslazione
L’eliminazione delle informazioni di traslazione dalle configurazioni si può facilmente ottenere
centrando le matrici di configurazione attraverso la seguente matrice simmetrica idempotente1 ,
denominata centering matrix,
1
C = In − 1n 1Tn ,
(2.5)
n
con la quale possiamo definire la matrice
XC = CX,
(2.6)
come la configurazione centrata sull’origine. In alternativa, alcuni autori fanno uso della matrice di Helmert HF ∈ Rn×n , una matrice ortogonale che ha sulla prima riga tutti i valori pari
√
ad 1/ n e con la generica riga j-esima pari a
1
(hj , . . . , hj , −(j − 1)hj , 0, . . . , 0), con hj = − p
, j = 2, . . . , n,
j(j − 1)
(2.7)
dove il primo 0 appare in posizione (j + 1)-esima. Definendo la sotto-matrice di Helmert
H ∈ R(n−1)×n , come la matrice ottenuta da HF eliminando la prima riga, se pre-moltiplichiamo
la configurazione X con la matrice H, otteniamo una configurazione dei landmark detti “Helmertizzati”:
XH = HX.
(2.8)
Esiste un’importante relazione tra la matrice di centramento e la sotto-matrice di Helmert
1
Una matrice simmetrica A è idempotente quando AA = A.
9
che ci permette di calcolare l’una a partire dall’altra, e passare da una matrice centrata ad una
helmertizzata:
HT H = C
T
(2.9)
T
H XH = H HX = CX.
(2.10)
L’utilizzo di una o dell’altra matrice con lo scopo di rimuovere gli effetti di scala dalle configurazioni, non ha particolari ripercussioni sulla definizione teorica e formale delle forme.
Solitamente di preferisce l’uso della matrice C in quanto permette di lavorare direttamente con
le coordinate cartesiane dei landmark ed il plot delle configurazioni mostra una corretta vista
della geometria della forma rappresentata.
2.2.2
Trasformazioni di scala
Il filtraggio delle informazioni di scala presuppone la presenza di una nozione di dimensione.
Possiamo definire, dimensione della forma (shape size) una qualsiasi funzione reale positiva g(·)
sulle matrici di configurazione tale che
g(aX) = ag(X), ∀a > 0
(2.11)
Definiamo inoltre il concetto di dimensione del centroide (centroid size) come
S(X) = kXC k
q
= trace((CX)T CX)
q
= trace(XT CT CX)
q
= trace(XT CX),
dove, data una generica matrice A ∈ Rn×m definiamo con
v
uX
m
q
u n X
2
t
kAk =
|ai,j | = trace(AT A),
(2.12)
(2.13)
i=1 j=1
la norma di Frobenius della matrice A.
Possiamo far notare che sostituendo la (2.9) nella (2.12) ottiamo che
q
S(X) = trace(XT CX)
q
= trace(XT HT HX)
q
= trace((HX)T HX)
q
= trace(XTH XH )
(2.14)
= kXH k,
ovvero, che la dimensione di una figura centrata è invariante rispetto al tipo di centramento
utilizzato.
10
Utilizzando questa nozione di dimensione possiamo definire la matrice
ZH =
XH
kXH k
(2.15)
come la pre-shape2 di una configurazione X helmertizzata, e la pre-shape centrata come
XC
CX
=
kXC k
kXH k
HT HX
HT XH
=
=
kXH k
kXH k
ZC =
(2.16)
= HT ZH .
Le operazioni di filtraggio degli effetti di traslazione e di scala ci forniscono un’informazione molto importante sullo spazio nel quale sono definite le pre-shape. Essendo infatti queste
ultime di dimensione unitaria e traslate rispetto all’origine, sono tutte disposte sulla superficie
di un’ipersfera di raggio unitario in uno spazio ad (n − 1) · m dimensioni.
2.2.3
Formalizzazione dei concetti di form e di shape
Come introdotto in precedenza, disponendo delle trasformazioni di traslazione e scalatura appena definite, e applicando delle opportune rotazioni alle matrici di configurazione possiamo
facilmente definire formalmente i concetti di form e shape.
In particolare, definiamo la form di una figura rappresentata attraverso una matrice di
configurazione X, come la classe di equivalenza
[X]S = {XC Γ : Γ ∈ SO(m)},
(2.17)
ovvero come l’insieme delle configurazioni ottenute ruotando le figure centrate (o helmertizzate) attraverso una opportuna matrice di rotazione pura Γ.
Definiamo, invece, la shape di una figura rappresentata attraverso una matrice di configurazione X come la classe di equivalenza
[X] = {ZC Γ : Γ ∈ SO(m)},
(2.18)
dove entrano in gioco anche le trasformazioni di scala isotropica e dove possiamo individuare
la seguente relazione tra form e shape:
[X] = [X]S /S(X).
(2.19)
Notiamo subito un’importante differenza: lo spazio delle shape (shape space), a differenza
dello spazio delle form (form space), è assimilabile ad una ipersfera di raggio unitario, in quanto
le figure sono centrate e normalizzate alla dimensione unitaria. In particolare, lo spazio delle
shape è partizionato in fibre (ognuna delle quali corrisponde ad una classe di equivalenza [X]),
dove ogni pre-shape sulla stessa fibra differisce solo per trasformazioni di rotazione (figura 2.1).
In questo contesto, si definisce la distanza di Procrustes tra due figure come la minima
distanza Euclidea tra una coppia di pre-shape sulle fibre corrispondenti ed è di particolare
2
Il nome “pre-shape” sta semplicemente a significare che ci troviamo ad un passo dalla “shape”, che si ottiene
dopo aver filtrato anche la rotazione (vedi sezione 2.2.3).
11
Figura 2.1: Una visione schematica di due fibre sullo spazio delle pre-shape, che corrispondono alle
shape di due matrici di configurazione [X1 ] e [X2 ], con le pre-shape, [Z1 ] e [Z2 ].
importanza la distanza di Procrustes completa
dp (X1 , X2 ) =
min
Γ∈SO(m)
kZ2 − Z1 Γk =
√
2(1 −
m
X
1
λi ) 2 ,
(2.20)
i=1
dove λ1 ≥ λ2 ≥ · · · ≥ λm−1 ≥ |λm | sono le radici quadrate degli autovalori della matrice
(ZT2 Z1 )T (ZT2 Z1 ) ed il valore di λm è negativo se e solo se |(ZT2 Z1 )T | < 0. Abbiamo inoltre che
√
0 ≤ dp (X1 , X2 ) ≤ 2.
(2.21)
In letteratura (Goodall, 1991) la distanza di Procrustes è spesso utilizzata nello spazio delle
shape in sostituzione della distanza geodetica ρ (great circle distance) alla quale è legata dalla
relazione dp = 2 sin ρ/2 (figura 2.1).
Lo spazio delle shape è quindi formato da tutti i possibili insiemi non coincidenti di n punti
in Rm sotto trasformazioni di similarità euclidee. Come conseguenza di ciò, abbiamo che la
dimensione dello spazio delle forme è pari a
M = nm − m − 1 −
m(m − 1)
,
2
(2.22)
dato che alle n · m coordinate eliminiamo m dimensioni per la traslazione, una dimensione per
la scala e m(m − 1)/2 per la rotazione. Infine, essendo una shape una classe di equivalenza si
pone il problema di sceglierne una visualizzazione grafica. Solitamente si utilizza la relativa
pre-shape centrata come rappresentante della classe (chiamata anche icona).
Ovviamente, è possibile ridefinire entrambi le classi di equivalenza includendo anche la
possibilità di effettuare operazioni di riflessione della figura attraverso l’utilizzo di matrici di
rotazione e riflessione, ottenendo
[X]R = {ZC R : R ∈ O(m)},
(2.23)
[X]R
S = {XC R : R ∈ O(m)},
(2.24)
che, rispettivamente, sono denominate reflection shape e reflection form (o reflection size-and-shape).
12
2.3
2.3. A NALISI DI P ROCRUSTES
Analisi di Procrustes
L’analisi di Procrustes permette di allineare le diverse configurazioni attraverso trasformazioni
di similarità in modo da minimizzare la distanza di Procrustes completa tra figure, utilizzando
tecniche di ottimizzazione ai minimi quadrati. In letteratura sono descritte due tipologie di
analisi di Procrustes: ordinaria e generalizzata. La prima si occupa del matching tra due figure
mentre la seconda, utilizzando la prima, cerca di analizzare e allineare insiemi composti da più
di due figure.
In questa sezione assumiamo che le matrici delle configurazioni (Xi ) siano già state centrate,
attraverso una delle equazioni (2.8) o (2.6).
2.3.1
Analisi di Procrustes Ordinaria
Il metodo dell’analisi di Procrustes ordinaria (OPA) comporta la minimizzazione della seguente
funzione obiettivo
(β̂, Γ̂) = argmin kX2 − βX1 Γk2 ,
(2.25)
β,Γ
con β > 0 e Γ ∈ SO(m), alla ricerca delle trasformazioni di similarità in grado di minimizzare
la distanza tra X1 ed X2 .
Calcolando la decomposizione SVD di XT2 X1 = UDVT , si dimostra (Dryden e Mardia,
1998) che la soluzione (β̂, Γ̂) al problema (2.25) è definita da
Γ̂ = VUT
β̂ =
(2.26)
trace(XT2 X1 Γ̂)
trace(XT1 X1 )
=
trace(D)
.
kX1 k2
(2.27)
Il valore minimo della funzione obiettivo, chiamato Ordinary (Procrustes) Sum of Squares è indicato con OSS(X1 , X2 ), è pari a
OSS(X1 , X2 ) = kX2 − β̂X1 Γ̂k2
= kX2 − XP1 k2 ,
(2.28)
dove con XP1 indichiamo la configurazione X1 derivata dalla sovrapposizione di X1 su X2 .
2.3.2
Analisi di Procrustes Generalizzata
L’analisi di Procrustes generalizzata (GPA), non è altro che un’estensione dell’OPA in grado di
analizzare un insieme di k ≥ 2 matrici di configurazione X1 , X2 , . . . , Xk stimando la matrice
di configurazione media X̄.
Nella GPA consideriamo le configurazioni come appartenenti ad una certa popolazione con
valore medio µ e dove vogliamo stimare la shape media [X̄] dai campioni dove X̄, la pre-shape di
[X̄], si definisce come la media aritmetica delle configurazioni sotto opportune trasformazioni
di similarità:
k
1X
βj Xj Γj .
(2.29)
X̄ =
k
j=1
13
2.3. A NALISI DI P ROCRUSTES
Se consideriamo la seguente funzione obiettivo
k
k
1X X
({β̂}, {Γ̂}) = argmin
kβi Xi Γi − βj Xj Γj k2
k
{β},{Γ}
i=1 j=i+1
= argmin
k
X
{β},{Γ} i=1
k
1X
βj Xj Γj k2 ,
kβi Xi Γi −
k
(2.30)
j=1
con la quale stimiamo i parametri di scala e rotazione che minimizzano la somma delle distanze di ogni singola configurazione dalla configurazione media, possiamo definire il seguente
problema di ottimizzazione ai minimi quadrati:
ˆ ) = argmin
({β̂i }, {Γ̂i }, X̄
k
X
kβi Xi Γi − X̄k2
{βi },{Γi },X̄ i=i
soggetto a
(2.31)
S(X̄) = 1,
dove il vincolo sulla centroid size permette di stimare valori di scalatura β̂i non nulli.
Molti approcci sono stati proposti in letteratura per la soluzione del problema (2.31) (Cootes
et al., 1992; Dryden e Mardia, 1998; Hastie et al., 2009). Solitamente tutti gli algoritmi sono costruiti attraverso uno schema che iterativamente aggiorna la stima della configurazione media
e allinea le varie configurazioni rispetto a quest’ultima attraverso l’OPA, il tutto fino al raggiungimento di un dato criterio di convergenza (solitamente in poche iterazioni). L’algoritmo
2.1 che abbiamo implementato ed utilizzato in questa Tesi descrive l’approccio utilizzato da
Cootes et al. (1992, 1995) per addestrare modelli di variabilità della forma, come vedremo nella
sezione 2.4.
Algoritmo 2.1 Analisi di Procrustes Generalizzata
1: for i ← 1, . . . , k do
2:
Xi ← CXi
3: end for
4: X̄ ← X1 /kX1 k
5: X̄0 ← X̄
6: repeat
7:
for i ← 1, . . . , k do
8:
(β̂i , Γ̂i ) ← argmin βi ,Γi kβi Xi Γi − X̄k2
9:
Xi ← β̂i Xi Γ̂i
10:
end forP
11:
X̄ ← k1 ki=1 Xi
12:
(β̂, Γ̂) ← argmin β,Γ kβ X̄Γ − X̄0 k2
13:
X̄ ← β̂ X̄Γ̂
14:
X̄ ← X̄/kX̄k
15: until X̄ converge
. Reference Frame
. Nuova stima della media
. Normalizzazione della stima calcolata
Alla riga 2 centriamo le figure utilizzando la matrice C definita nell’equazione (2.6) per
preservare la possibilità di visionare graficamente i risultati. Successivamente, alla riga 4, inizializziamo X̄ normalizzando la prima figura del dataset e al passo seguente definiamo un
figura di riferimento X̄0 che utilizzeremo ad ogni iterazione (riga 12) per correggere posizione
e dimensione della media stimata. Notiamo le operazioni alle righe 8 e 12 che corrispondono
14
2.4. C OSTRUZIONE DEL MODELLO DI VARIABILITÀ
all’applicazione dell’analisi di Procrustes Ordinaria.
Sottolineamo, infine, alcuni aspetti interessanti dell’algoritmo che sono stati messi in evidenza da Cootes et al. (1995):
• l’accorgimento relativo all’utilizzo del frame di riferimento X̄0 assicura la convergenza
imponendo che la stima X̄ non possa assumere all’infinito qualsiasi tipo di configurazione;
• la normalizzazione di X̄ (riga 14) e il successivo allineamento delle configurazioni ad essa, non produce gli stessi risultati che normalizzare direttamente le configurazioni. Questo perché la normalizzazione introduce delle correlazioni artificiali tra i landmark che
possono distorcere il modello.
È inoltre possibile introdurre alcune variazioni all’algoritmo 2.1 che possono velocizzare o
stabilizzare i risultati. Ad esempio è possibile inizializzare la matrice X̄ con la media aritmetica
delle forme (come alla riga 11), oppure inizializzare il valore di X̄0 con la media aritmetica delle
forme iniziali centrate e di dimensione unitaria.
2.4
Costruzione del modello di variabilità
Nelle sezioni precedenti abbiamo visto come trattare insiemi di shape attraverso la GPA, in
questa sezione ci occuperemo di costruire un modello della loro variabilità. In questa fase
presupporremo che le figure siano già state allineate e tratteremo matrici di configurazione
delle shape (o meglio di pre-shape o pre-form). Vedremo come effettuare quella che viene definita
decomposizione delle forme, dove andremo ad individuare i modi di variazione delle stesse
attraverso la Principal Component Analysis.
Per applicare le tecniche descritte in questa sezione abbandoniamo il formato delle matrici
di configurazione, le quali saranno “vettorizzate”. Ogni shape X ∈ Rn×m sarà rappresentata da
un vettore x ∈ Rn·m . Ad esempio, rappresenteremo una shape in due dimensioni attraverso il
vettore
x = (x1 , y1 , x2 , y2 , . . . , xk , yk )T .
(2.32)
2.4.1
Proiezione nello spazio tangente
Come accennato nei paragrafi precedenti, le shape centrate e normalizzate in dimensione giacciono sulla superficie di un’ipersfera. Questa rappresentazione introduce delle non-linearità
nelle trasformazioni tra shape, come abbiamo già visto nella sezione 2.2.3 dove sostituiamo la
distanza geodetica con una distanza euclidea. Dovendo applicare la PCA, una tecnica di decomposizione lineare, ai nostri dati può essere conveniente rimuovere queste non-linearità proiettando le shape sull’iperpiano tangente all’ipersfera nel punto della shape media x̄, considerata
come polo dello spazio tangente (figura 2.2).
Un approccio (Cootes e Taylor, 2004) semplice ed efficace per effettuare questa proiezione è
attraverso una trasformazione di scala. Immaginiamo che xt sia la proiezione di x nello spazio
tangente, e consideriamo x0t come la proiezione di xt nella direzione di x̄
x0t =
xt · x̄
x̄.
kx̄k2
(2.33)
Essendo, per costruzione, x0t = x̄, abbiamo che
x0t =
xt · x̄
x̄ = βx̄ ⇒ β = 1,
kx̄k2
(2.34)
15
Figura 2.2: Esempio di proiezione di una shape nello spazio tangente definito usando come polo la
shape media x̄
dove, sostituendo xt con αx (dato che proiettiamo attraverso una trasformazione di scala,
figura 2.2), otteniamo
xt · x̄
x · x̄
=α
= 1.
(2.35)
2
kx̄k
kx̄k2
Possiamo a questo punto calcolare la proiezione di x nello spazio tangente come
xt = αx =
kx̄k2
x
x=
,
x̄ · x
x̄ · x
(2.36)
in quanto, essendo le forme scalate in modo da avere dimensione unitaria, il valore di kx̄k2 è
pari ad 1.
2.4.2
Point Distribution Model: estrazione dei modi di variazione
Cootes et al. (1992) hanno introdotto l’utilizzo della PCA nell’estrazione dei modi di variazione
di figure rappresentate attraverso landmark e allineate utilizzando la GPA. Questo approccio, utilizzando un modello statistico di distribuzione dei landmark (Point Distribution Model –
PDM), permette di catturare e di analizzare la variabilità e la correlazione statistica tra i landmark che descrivono le forme. Organizzando le k shape del dataset, x1 , . . . , xk , in una matrice
X ∈ Rn·m×k (dove in genere n · m k), possiamo calcolare la matrice U degli autovettori della
matrice di covarianza (le componenti principali) attraverso la Singular Value Decomposition
X = UΣVT ,
(2.37)
come vedremo nei dettagli nel capitolo 4.
Dato che le componenti principali sono una combinazione lineare di tutte le coordinate dei
landmark, possiamo ricostruire ogni shape a partire da quella media e dalla matrice U
x = x̄ + Uy,
(2.38)
dove y è la proiezione di (x − x̄) sulle componenti principali
y = U−1 (x − x̄) = UT (x − x̄),
(2.39)
16
dove U−1 = UT in quanto matrice ortogonale.
Selezionando un certo sottoinsieme di autovettori, ad esempio t, in relazione ad esempio alla varianza spiegata dalle varie componenti, la sotto-matrice degli autovettori avrà dimensione
n·m×t
Ũ = (u1 , u2 , . . . , ut )
(2.40)
T
(2.41)
ỹ = (y1 , y2 , . . . , yt ) ,
e possiamo calcolare un’approssimazione di x attraverso le prime t componenti principali:
x̃ ≈ x̄ + Ũỹ.
(2.42)
Se indichiamo con σi2 la varianza dei dati proiettati sulla i-esima componente principale
possiamo generare nuove forme appartenenti alla popolazione statistica, utilizzando l’equazione (2.42) e il vettore ỹ come insieme di parametri. In particolare, possiamo evidenziare i modi
di variazione sull’i-esima componente principale, utilizzando un vettore sparso dei parametri
del tipo
ỹ = (0, . . . , 0, yi , 0, . . . , 0)T .
(2.43)
Il valore del parametro yi deve rispettare alcuni vincoli in modo da garantire la generazione di forme statisticamente appartenenti alla popolazione stimata dal modello, in base agli
esempi presenti nel training set. Assumendo che la variazione del singolo landmark sia di tipo
gaussiano e sia centrata sul valore del corrispondente landmark appartenente alla shape media
(come dimostreremo nel capitolo 6 con i risultati sperimentali), possiamo selezionare un valore
di yi nel range
− 3σi ≤ yi ≤ +3σi
(2.44)
in modo da ottenere nuove shape statisticamente appartenenti alla popolazione delle shape in
esame.
17
CAPITOLO 3
R APPRESENTAZIONE DELLA FORMA
Contenuto
3.1
3.2
3.3
Panoramica delle rappresentazioni . . . . . . . . . . . . . . .
Mesh di superficie come descrittori di forma . . . . . . . . . .
3.2.1 Generazione della mesh: algoritmo dei marching cubes
3.2.2 Densità della mesh: algoritmo di decimazione . . . . .
Mesh di superficie per forme ippocampali . . . . . . . . . . .
3.3.1 Una soluzione al problema della corrispondenza . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
19
20
20
22
24
In questo capitolo ci occuperemo della rappresentazione della forma, ovvero delle feature
che è possibile utilizzare per descrivere la morfologia di un dato oggetto. Nella sezione 3.1 forniremo una descrizione delle possibili rappresentazioni evidenziandone pregi e difetti. Nella
sezione 3.2, dopo aver descritto il contesto applicativo, ci soffermeremo sull’utilizzo delle mesh
di superficie e mostreremo come è stato risolto in questa Tesi il problema della corrispondenza dei landmark sulle superfici tridimensionali a nostra disposizione, anche analizzando ed
adattando le applicazioni presenti in letteratura.
3.1
Panoramica delle rappresentazioni
Storicamente, i primi interessi nello studio statistico della forma e della sua variabilità (Kendall,
1977; Bookstein, 1978), descrivono quest’ultima come una serie di punti etichettati (o numerati)
definiti come landmark, dei quali è stata fornita una definizione formale nel capitolo 2. Questo tipo di rappresentazione è tuttora molto utilizzata (Cootes et al., 2001; Sjöstrand et al., 2007;
Alcantara et al., 2009) e sono state sviluppate varie tecniche per il loro posizionamento automatico, basate su proprietà geometriche del contorno degli oggetti come il grado di curvatura
e la presenza di spigoli (Bookstein, 1996). D’altronde, la possibilità di disporre di dataset di
annotazioni manuali, fornisce un grado di precisione ottimale nella posizione dei landmark.
Se nel 2D l’annotazione manuale è una operazione fattibile, il tutto si complica passando da
contorni bidimensionali a superfici tridimensionali dove il concetto di landmark si è evoluto in
modo naturale con quello di mesh di superficie appartenente alla Computer Graphic.
Una delle alternative alla rappresentazione attraverso landmark è l’uso di assi mediali o
skeleton introdotti da Blum (1967), il quale ha proposto il primo algoritmo di trasformazione
18
3. R APPRESENTAZIONE DELLA FORMA
3.2. M ESH DI SUPERFICIE COME DESCRITTORI DI FORMA
Figura 3.1: Differenze negli assi mediali calcolati su oggetti con forma rettangolare aventi piccole
perturbazioni dovute a rumore.
del contorno di un oggetto nella sua rappresentazione mediale (MAT - Medial Axis Transformation). Gli assi mediali forniscono una rappresentazione compatta della forma sia in due che tre
dimensioni e sono utilizzati anche nelle applicazioni mediche di shape analysis (Jens et al., 2005).
Questa rappresentazione soffre però di due problemi che ne rendono non propriamente adatto
l’uso in un contesto di analisi statistica: due forme con contorni diversi possono avere lo stesso
skeleton; la stessa forma, con piccole perturbazioni dovute al rumore, può avere due skeleton
molto diversi, come evidenziato in figura 3.1.
Gli assi mediali, così come i landmark, cercano di estrarre da una immagine, una rappresentazione di forma compatta, ovvero con una dimensionalità inferiore rispetto a quella dell’immagine in input. Tra le rappresentazioni non compatte, invece, possiamo citare le mappe di
distanza (anche dette distance transform) (Golland et al., 2005) che si definiscono come funzioni
che ad ogni punto dell’immagine associano la distanza del punto stesso dal contorno dell’oggetto. Questo tipo di rappresentazione può essere vista come una generalizzazione degli assi
mediali e meno suscettibile al rumore.
Anche l’uso dei campi di deformazione (Rueckert et al., 2003) fornisce una rappresentazione non compatta della forma. Questo tipo di descrittore si basa sull’utilizzo di algoritmi
di registrazione non rigida delle immagini in input rispetto ad un template prefissato. Questa operazione fornisce, per ogni pixel dell’immagine (o voxel del volume 3D), un vettore di
spostamento orientato nella direzione del pixel corrispondente individuato come nel template.
Infine, possiamo citare tra i descrittori di forma tutti quelli derivanti dall’applicazione di
modelli parametrici alla superficie o al contorno di un oggetto. Si tratta, in generale, della
decomposizione dell’oggetto attraverso l’uso di funzioni di base come le armoniche sferiche
(SPHARM) (Brechbühler et al., 1995).
Nella prossima sezione, invece, ci concentreremo sull’uso delle mesh di superficie e vedremo come l’uso combinato di questa rappresentazione con i campi di deformazione permette
di superare efficacemente il problema della corrispondenza tra landmark generati automaticamente.
3.2
Mesh di superficie come descrittori di forma
In questa sezione descriveremo le tecniche adottate nell’applicare mesh di superficie a maschere binarie tridimensionali. In particolare presenteremo due algoritmi che, utilizzati in successione, formano una pipeline che prima genera una mesh densa di superficie e poi di riduce
il numero di vertici (landmark) attraverso criteri geometrici che preservano la topologia della
mesh stessa.
Le implementazioni degli algoritmi descritti in questa sezione e utilizzati in questa Tesi fanno parte delle librerie open source ITK (Insight Segmentation and Registration Toolkit) e
19
Figura 3.2: Esempio di marching cube tra due slice del volume 3D.
VTK (Visualization ToolKit)1 , che forniscono supporto all’implementazione di sistemi 3D per la
computer grafica, l’elaborazione delle immagini e la visualizzazione.
3.2.1
Generazione della mesh: algoritmo dei marching cubes
L’algoritmo dei marching cubes, proposto da Lorensen e Cline (1987), si pone l’obiettivo di
costruire mesh triangolari da superfici 3D e, applicato su un’immagine binaria, produce la
triangolazione della superficie dell’oggetto.
L’algoritmo è basato sul concetto di marching cube che è definito come quel cubo logico disposto tra due slice del volume 3D e dove gli otto vertici sono associati ai corrispondenti voxel
sulle slice, come evidenziato in figura 3.2. Ai vertici del cubo è associato uno stato che dipende
dall’appartenenza del voxel corrispondente alla superficie (valore 1) o al background (valore 0).
Considerando i due possibili stati su otto vertici, abbiamo la possibilità di incontrare 28 = 256
diverse configurazioni dei cubi. In base a queste ultime, l’algoritmo è in grado di identificare
in che modo il cubo interseca la superficie e può, tramite un processo di interpolazione lineare,
calcolare i triangoli della mesh risultante. Fortunatamente, sfruttando due proprietà di simmetria delle configurazioni (figura 3.3(a)) è possibile ridurne il numero da 256 alle 15 mostrate in
figura 3.3(b). In pratica vengono utilizzate tutte le configurazioni che risultano diverse anche
considerando gli effetti legati alla rotazione o alla specularità degli stati dei vertici.
In definitiva, i passi che l’algoritmo compie su ogni marching cube sono i seguenti:
1. identifica a quale configurazione appartiene;
2. tramite una tabella hash indicizzata sulle configurazioni, accede ad una lista precalcolata
dei bordi del cubo che intersecano la superficie;
3. utilizzando l’elenco dei bordi, calcola i triangoli da aggiungere alla mesh risultante.
3.2.2
Densità della mesh: algoritmo di decimazione
Triangolare una superficie complessa e irregolare attraverso l’algoritmo dei marching cubes, produce un alto numero di triangoli, costruendo una mesh di superficie molto densa, composta da
un altissimo numero di landmark (vertici). Nel campo della Computer Graphic, dove la presenza
di un elevato numero di triangoli si traduce nella difficoltà di visualizzare e memorizzare gli
oggetti rappresentati con hardware general purpose, sono stati sviluppati molti algoritmi che cercano di ridurne il numero. Nella nostra applicazione, ci siamo affidati ad uno dei classici algoritmi, indipendente dall’applicazione, di decimazione di mesh triangolari proposto da Schroeder et al. (1992). Tra le caratteristiche dell’algoritmo ne sottolineiamo la capacità di preservare
la topologia originale dei triangoli mantenendo una buona approssimazione geometrica.
1
Reperibili agli indirizzi http://www.itk.org e http://www.vtk.org.
20
(a) Esempi di simmetria utilizzata: usando il cubo A come riferimento, il cubo AR risulta
ruotato, mentre il cubo AF ha gli stati dei vertici speculari. Solo il cubo A verrà utilizzato
come pattern di base (il numero 1 in figura 3.3(b)).
(b) Possibili pattern di triangolazione individuati dall’algoritmo dei marching cubes.
Figura 3.3: Esempi di simmetria nelle configurazioni che permettono la riduzione dei pattern
nell’algoritmo dei marching cubes ai 15 nella sottofigura 3.3(b).
L’algoritmo effettua multipli passaggi su ogni vertice della mesh. Dopo ogni passaggio,
tutti i vertici che soddisfano uno specifico criterio di decimazione vengono rimossi. Insieme
ai vertici, vengono eliminati tutti i triangoli che li utilizzano a le zone decimate vengono localmente ritriangolate. I passaggi si ripetono fino al raggiungimento di un dato criterio di
terminazione come la percentuale di decimazione raggiunta rispetto alla mesh originale. Entrando nel dettaglio, descriviamo di seguito i passi che l’algoritmo compie ad ogni passaggio
su ogni vertice.
Individuazione della geometria e della topologia locale del vertice. L’obiettivo di questa fase è quello di individuare i potenziali vertici candidati all’eliminazione. A questo scopo,
ogni vertice può essere assegnato ad una delle seguenti categorie (figura 3.4):
• vertice semplice (simple);
– vertice su bordo interno (interior edge);
– vertice in un angolo (corner);
• vertice complesso (complex);
• vertice di confine (boundary).
Le tre macro-categorie sono caratterizzate da proprietà topologiche. Un vertice semplice
appartiene a triangoli che formano un circolo completo, a differenza dei vertici di confine
dove è presente solo un semicircolo. I vertici complessi sono invece definiti dalla mancanza di un circolo, ma dalla presenza di un triangolo non allineato con gli altri che utilizzano
il vertice in esame. I vertici semplici si suddividono in due ulteriori sottocategorie in base
ad una caratteristica geometrica dei triangoli: quando l’angolo planare formato tra due
triangoli adiacenti supera una certa soglia (chiamata feature angle) si dice che esiste un
21
3.3. M ESH DI SUPERFICIE PER FORME IPPOCAMPALI
Figura 3.4: Classificazione topologica e geometrica dei vertici in una mesh triangolare utilizzati
dall’algoritmo di decimazione.
(a) Criterio di decimazione per i vertici di confine e per i vertici semplici appartenenti ad un
bordo interno.
(b) Criterio di decimazione per i vertici semplici senza feature edge.
Figura 3.5: Criteri di decimazione adottati per i vertici semplici e di confine.
feature edge. Quando un vertice è utilizzato da due feature edge allora è classificato come
appartenente ad un bordo. Se è usato da uno o da più di due feature edge allora il bordo
viene classificato come appartenente ad un angolo. Tutte le tipologie di vertici, tranne quelli
complessi e quelli su un angolo, sono possibili candidati all’eliminazione.
Valutazione del criterio di decimazione. Per i vertici di confine e per i vertici semplici appartenenti ad un bordo interno viene calcolata la distanza dalla retta passante per i vertici
che creano il confine (figura 3.5(a)). Se questa distanza è minore di una certa soglia il
vertice viene eliminato. Per quanto riguarda, invece, i vertici semplici non appartenenti
ad un feature edge, viene calcolato il piano medio rispetto ai vertici del circolo e calcolata
la distanza del vertice in esame da questo piano (figura 3.5(b)). Anche in questo caso, se
la distanza è inferiore ad una certa soglia, il vertice viene eliminato.
Triangolazione locale della zona decimata. Successivamente al passo di eliminazione di un
vertice, è necessario ritriangolare i vertici appartenenti al circolo. L’algoritmo prevede
uno schema ricorsivo di triangolazione attraverso suddivisioni successive. Dopo che la
triangolazione è completa, rispetto alla configurazione iniziale avremmo precisamente
due triangoli in meno in caso di vertici semplici, ed un triangolo in meno in caso di vertici
di confine.
3.3
Mesh di superficie per forme ippocampali
Il questa sezione descriveremo l’applicazione dei due algoritmi precedenti su un dataset reale
di forme tridimensionali. Sotto l’aspetto sperimentale, infatti, la presente Tesi si collegherà al
progetto MAGIC-V finanziato dall’INFN (Istituto Nazionale di Fisica Nucleare) e condotto dai
gruppi di Bari, Genova, Lecce, Pisa e Torino, che si pone l’obiettivo di costruire una pipeline di
22
Figura 3.6: Architettura della pipeline MAGIC-V di segmentazione ippocampale.
segmentazione e analisi del grado di atrofia dell’ippocampo, una struttura cerebrale localizzata
nella zona mediale del lobo temporale (Calvini et al., 2008; Aiello et al., 2009).
La pipeline attuale, utilizzando in input dei volumi MRI (Magnetic Resonance Imaging) produce una maschera binaria tridimensionale contenente l’ippocampo estratto. Il processo fa uso
di un insieme di template box selezionate in una fase preliminare da un dataset di segmentazioni
manuali dell’ippocampo. Ogni template box rappresenta un prototipo di ippocampo ad un diverso stadio di atrofia. I passi effettuati dalla pipeline, descritta schematicamente in figura 3.6,
sono i seguenti:
Estrazione della Box. Il primo obiettivo della pipeline è quello di identificare, a partire dall’intero volume della MRI, la zona contenente l’ippocampo e le strutture contigue (come
l’amigdala). Questa zona verrà estratta creando un sottovolume 30 × 70 × 30 mm3 . L’estrazione viene effettuata attraverso una registrazione non rigida dell’MRI con le template
box contenenti i prototipi di ippocampo.
Segmentazione dell’ippocampo. Successivamente, si avvia sulla box individuata un processo
di segmentazione che, utilizzando come riferimento le segmentazioni manuali disponibili sulle template box separa l’ippocampo dalle strutture cerebrali contigue producendo
un volume tridimensionale contenente una maschera binaria. Questo processo prevede inizialmente la registrazione delle template box sulla box estratta al passo precedente.
Ognuna di queste registrazioni produce una campo di deformazione che indica lo spostamento necessario di ogni voxel (nome associato ad un pixel in un volume 3D) del
template per ottenere un allineamento con la nuova box. Questi campi di deformazione
saranno applicati alle segmentazioni manuali delle template box in modo da ottenere delle
segmentazioni grezze della nuova box. Queste ultime saranno combinate per ottenere
una segmentazione ottimale dell’ippocampo.
23
Figura 3.7: Processo di generazione di una mesh di superficie partendo da una immagine
contenente una segmentazione binaria (il blocco “Calcolo dei Landmark” in figura 3.9).
Figura 3.8: Dettaglio nell’applicazione dell’algoritmo di decimazione su una mesh ottenuta su una
superficie ippocampale. In rosso, in evidenza i vertici della mesh ottenuta attraverso l’applicazione
dei marching cube. In blu i triangoli della mesh decimata. I landmark rossi che non appartengono a
nessun triangolo sono i vertici eliminati dall’algoritmo.
Gli input a nostra disposizione, di cui daremo i dettagli nel capitolo 6 insieme ai risultati
sperimentali, è composto dalle segmentazioni manuali delle template box, da una serie di segmentazioni prodotte dalla pipeline (entrambi i gruppi sono formati da maschere binarie 3D) e
dai campi di deformazione di ogni template su ogni segmentazione prodotta. Su uno dei template utilizzati nella fase di estrazione e segmentazione della box ippocampale viene generata
e decimata una mesh di superficie, come visualizzato in figura 3.7.
In figura 3.8 è visualizzato in dettaglio l’effetto generato dall’algoritmo di decimazione che
ha prodotto una riduzione dei vertici di circa il 40%, passando da 2132 a 1352 vertici. In figura
sono evidenziati in rosso i punti appartenenti alla mesh completa, mentre in blu si riconoscono
i triangoli appartenenti alla mesh decimata. Tutti i landmark rossi che non sono vertici dei
triangoli blu sono stati eliminati nella decimazione.
Nella sottosezione successiva, vedremo come sfruttare le template box segmentate e i campi
di deformazione per ottenere un dataset di ippocampi descritti attraverso landmark, proponendo una approccio alla soluzione del problema della corrispondenza.
3.3.1
Una soluzione al problema della corrispondenza
In letteratura sono stati proposti vari approcci per la soluzione del problema della corrispondenza su mesh di superficie automaticamente generate. Varie delle architetture proposte differiscono soprattutto in relazione ai dati a disposizione ma, con approcci diversi, raggiungono
24
tutti l’obiettivo facendo uso di registrazioni deformabili. In questa sezione descriveremo brevemente gli approcci proposti e forniremo una descrizione dell’architettura progettata e implementata in questa Tesi per generare un dataset di rappresentazioni di forma degli ippocampi
segmentati dalla pipeline MAGIC-V.
La principale caratteristica che differenzia gli approcci che in letteratura utilizzano mesh
di superficie per generare landmark, è la disponibilità delle segmentazioni. Se il dataset in
possesso non è composto da maschere binarie e si deve lavorare su volumi in scala di grigi,
ad esempio, Heitz et al. (2004) propongono un approccio dove si richiede la segmentazione
manuale di una sola immagine, scelta come template rappresentante della popolazione. Successivamente viene effettuata una registrazione deformabile tra il template e l’intero dataset
ottenendo una serie di campi di deformazione. Questi vengono applicati alla mesh calcolata
sulla segmentazione del template allo scopo di ottenere un dataset di mesh. Kaus et al. (2003),
invece, utilizzando un intero dataset di maschere binarie e calcolando la mesh su una di esse,
ottengono le rappresentazioni di forma attraverso un allineamento rigido della mesh su tutte le
segmentazioni, seguito da un adattamento locale attraverso registrazioni non rigide. Entrambi
gli approcci, applicano l’analisi di Procrustes (descritta nel capitolo 2) per l’allineamento e la
normalizzazione delle forme prima di applicare la Principal Component Analysis. Frangi et al.
(2001), invece, sostituiscono questo passaggio di allineamento con altre operazioni di registrazione rigida prima di effettuare il warping di una mesh calcolata su una segmentazione media,
ottenuta su un dataset di maschere binarie.
Nel nostro caso, siamo interessati ad ottenere un dataset di forme descritte da landmark
(ovvero dai vertici di una mesh di superficie) utilizzando ciò che la pipeline produce durante la segmentazione ippocampale. In figura 3.9 è schematizzato l’approccio progettato ed
implementato che consiste nei seguenti passi:
• Su uno dei template utilizzati nella fase di estrazione e segmentazione della box ippocampale viene generata e decimata una mesh di superficie.
• La selezione del template da utilizzare come riferimento, ci permette di selezionare anche
l’insieme delle matrici di deformazione prodotte dalla pipeline. Ogni matrice ci indica
lo spostamento necessario dei voxel del template per avere una corrispondenza con la
relativa box estratta e segmentata. I campi di deformazione vengono applicati alla mesh
di riferimento ottenendo un dataset di mesh, ognuna delle quali descrive la forma di
ognuno degli ippocampi segmentati.
• Su questo insieme di forme vengono applicate le tecniche di shape analysis come descritte
nel capitolo 2.
25
Figura 3.9: Schema del processo di generazione del dataset di landmark. La selezione del template è arbitraria ed effettuata manualmente. Il calcolo dei landmark sul template viene effettuato
attraverso la successiva applicazione dei marching cube e dell’algoritmo di decimazione. La mesh
risultante viene deformata e applicata su tutte le superfici ippocampali del dataset, sfruttando le
matrici di deformazione prodotte dalla pipeline di segmentazione.
26
CAPITOLO 4
R IDUZIONE DELLA DIMENSIONALITÀ E
INTERPRETABILITÀ
Contenuto
4.1
4.2
4.3
Principal Component Analysis . . . . . . . . . . . . . . . . . . .
4.1.1 Interpretazione statistica . . . . . . . . . . . . . . . . . . .
4.1.2 Relazione tra la PCA e la Singular Value Decomposition
4.1.3 PCA con dati ad alta dimensionalità . . . . . . . . . . . .
Sparse Principal Component Analysis . . . . . . . . . . . . . .
4.2.1 Approssimazione sparsa diretta . . . . . . . . . . . . . .
4.2.2 Formulazione del criterio di sparsità . . . . . . . . . . . .
4.2.3 Calcolo della varianza . . . . . . . . . . . . . . . . . . . .
4.2.4 SPCA per dataset ad alta dimensionalità . . . . . . . . .
Caso di studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
29
31
33
35
36
36
38
40
41
In questo capitolo ci occuperemo della Principal Component Analysis come strumento di apprendimento statistico non supervisionato. Nel capitolo 2 abbiamo descritto un approccio che
fa uso di questo strumento per la definizione di modelli di variabilità di forma, ma non ci
siamo soffermati nella descrizione delle sue caratteristiche generali. Questo capitolo cerca di
fornire una descrizione autoconsistente sia degli aspetti teorici che computazionali di questa
importante tecnica di decomposizione. Inoltre, nella sezione 4.2 forniremo una dettagliata descrizione della Sparse PCA, una variazione della PCA classica che produce un’approssimazione
sparsa delle componenti principali. Come vedremo (anche e soprattutto nel capitolo 6, con i
risultati sperimentali), l’utilizzo di tecniche di sparsità aggiunge un fattore di interpretabilità
ai modelli generati che non è trascurabile in molte applicazioni, tra le quali l’analisi statistica
della forma.
4.1
Principal Component Analysis
La Principal Component Analysis (PCA) (Jolliffe, 2002), è una tecnica di apprendimento non supervisionato ampiamente utilizzata per la riduzione della dimensionalità, compressione dei
dati ed estrazione di caratteristiche. Le componenti principali (Principal Component, PC) calcolate permettono di proiettare i dati in uno spazio lineare (eventualmente a minore dimensionalità,
detto sottospazio lineare), dove la varianza dei dati proiettati è massimizzata.
27
4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ
4.1. P RINCIPAL C OMPONENT A NALYSIS
Consideriamo un dataset composto da n osservazioni in uno spazio m-dimensionale con
n > m1 organizzato sulle colonne di una matrice


x1,1 x2,1 · · · xn,1


 x1,2 x2,2 · · · xn,2 
.
(4.1)
X = x1 x2 · · · xn =  .
.
.
..
..
.. 
 ..

.
x1,m x2,m · · · xn,m
Volendo proiettare i dati in uno spazio unidimensionale (d < m; d = 1), rappresentato dal
vettore m-dimensionale u1 , che per convenzione considereremo unitario (uT1 u1 = 1), la proiezione del generico vettore xi del dataset è data dallo scalare uT1 xi . Essendo rispettivamente x̄ e
σ 2 il vettore medio e il vettore delle varianze sulle m dimensioni delle osservazioni
n
1X
x̄ =
xi
n
(4.2)
i=1
n
1 X
σ =
(xi − x̄)2 ,
n−1
2
(4.3)
i=1
otteniamo che uT1 x̄ corrisponde alla media dei punti proiettati nel sottospazio unidimensionale,
mentre
n
1 X T
T
u1 Su1 =
(u1 xi − uT1 x̄)2
(4.4)
n−1
i=1
è la varianza dei dati proiettati, con S matrice di covarianza definita come
n
S=
1 X
(xi − x̄)(xi − x̄)T .
n−1
(4.5)
i=1
Volendo massimizzare la varianza delle proiezioni in (4.4) rispetto alla direzione u1 , definiamo il seguente problema di ottimizzazione (utilizzando i moltiplicatori di Lagrange)
max{uT1 Su1 + λ1 (1 − uT1 u1 )},
u1
(4.6)
dove regolarizziamo la soluzione imponendo il vincolo
uT1 u1 = 1,
(4.7)
per impedire che il valore di ku1 k tenda ad infinito.
Imponendo la derivata rispetto ad u1 uguale a zero, otteniamo che
Su1 = λ1 u1 ,
(4.8)
ovvero che u1 è un autovettore della matrice di covarianza S con autovalore λ1 . Moltiplicando
a sinistra per uT1 , e sapendo che uT1 u1 = 1, otteniamo che
uT1 Su1 = λ1 .
(4.9)
La relazione ottenuta ci suggerisce che la varianza delle proiezioni risulta massimizzata quan1
Nella sezione 4.1.3 considereremo il caso in cui i dati a disposizione siano inferiori al numero di variabili.
28
do u1 corrisponde all’autovettore associato al più grande autovalore (λ1 ) della matrice di covarianza S. L’autovettore u1 risultante è chiamato “componente principale”2 .
Seguendo questo approccio, è possibile iterativamente definire le successive componenti
principali, ortogonali rispetto alle precedenti ed ordinate in modo descrescente rispetto alla
varianza dei dati proiettati in quella direzione. Generalizzando, e volendo trovare le prime d <
m componenti principali, la proiezione ottimale che massimizza la varianza delle proiezioni nel
nuovo sottospazio è data dai d autovettori u1 , u2 , . . . , ud della matrice di covarianza S associati
ai maggiori d autovalori λ1 , λ2 , . . . , λd .
4.1.1
Interpretazione statistica
Cerchiamo adesso di fornire una visione maggiormente intuitiva della PCA. Abbiamo visto
che calcolare le componenti principali corrisponde a calcolare la trasformazione dei dati che
permette di massimizzare la varianza degli stessi proiettati in un nuovo sottospazio.
Per semplicità, modifichiamo la matrice X definita nell’equazione (4.1) centrandone i dati e
ottenendo la matrice
A = X − X̄
(4.10)
dove X̄ è una matrice m×n che ha, su ogni colonna, replicato il vettore medio x̄ definito in (4.2).
Consideriamo per ora due righe di A, corrispondenti alle misurazioni di una data variabile su
tutte le osservazioni del dataset,
a1 = [a1,1 , a1,2 , . . . , a1,n ]
(4.11)
a2 = [a2,1 , a2,2 , . . . , a2,n ] .
Il vettore delle varianze di a1 e di a2 è definito, utilizzando la (4.3), come
" n
#
n
X
X
2
1
2
2
2
2
σ = σa1 , σa2 =
(a1,i ) ,
(a2,i ) ,
n−1
i=1
(4.12)
i=1
mentre la covarianza tra le due misurazioni si può scrivere come
σa21 a2 =
1
a1 aT2 .
n−1
(4.13)
Questa quantità ci fornisce alcune interessanti informazioni sulla relazione tra le due variabili
in esame:
• La covarianza misura il grado di dipendenza tra diverse variabili. Quest’ultima può
anche essere vista come una misura di ridondanza: se due variabili forniscono un’alta
covarianza è possibile calcolarne una a partire dall’altra.
• Il valore della covarianza è nullo quando le due variabili sono statisticamente indipendenti.
• Un valore positivo della covarianza indica che i dati sono direttamente proporzionali,
mentre un valore negativo indica una relazione di inversa proporzionalità.
2
Alcuni autori indicano la proiezione uT1 X con il termine componente principale e fanno riferimento al vettore
u1 come al vettore dei loading della componente principale.
29
Facendo riferimento alla (4.5), otteniamo che la matrice di covarianza tra le due misurazioni
è uguale a
 2

σa1 σa21 a2
,
Sa1 a2 = 
(4.14)
2
2
σa1 a2 σa2
e generalizzando sull’intera matrice A possiamo definire la matrice di covarianza come
SA =
1
AAT .
n−1
(4.15)
Alcune delle importanti proprietà della matrice di covarianza appena definita sono le seguenti:
• SA è una matrice simmetrica di dimensione m × m.
• La diagonale di SA è σ 2 , ovvero contiene le varianze delle singole variabili.
• La componente {i, j}-esima di SA è la covarianza tra la variabile i-esima e la variabile
j-esima.
La proiezione che la PCA effettua sui dati è data da una matrice ortonormale U di dimensione m × m, le cui colonne sono un insieme di vettori di base {u1 , u2 , . . . , um } tali che
UT A = B,
(4.16)
dove B è una nuova matrice m × n, nelle cui colonne troviamo le proiezioni delle osservazioni
in A nel nuovo sottospazio lineare.
Indicando con
1
SB =
BBT
(4.17)
n−1
la matrice di covarianza dei dati proiettati, possiamo scrivere quest’ultima in termini di U
1
BBT
n−1
1
=
(UT A)(UT A)T
n−1
1
=
UT AAT U
n−1
1
SB =
UT (AAT )U
n−1
SB =
(4.18)
dove, essendo AAT matrice simmetrica, possiamo scomporla come
AAT = EDET ,
(4.19)
con D matrice diagonale ed E matrice di autovettori di AAT .
Come abbiamo già avuto modo di evidenziare, la scelta compiuta della PCA è quella di
selezionare U = E ottenendo
AAT = UDUT ,
(4.20)
30
e di conseguenza, sostituendo nell’equazione (4.18) otteniamo che
SB =
=
=
=
SB =
1
UT (AAT )U
n−1
1
UT (UDUT )U
n−1
1
(UT U)D(UT U)
n−1
1
(U−1 U)D(U−1 U)
n−1
1
D,
n−1
(4.21)
essendo UT = U−1 per l’ortonormalità di U. L’osservazione della matrice di covarianza dei
dati proiettati SB e delle operazioni compiute per ottenerla, ci forniscono un’interpretazione
intuitiva degli effetti della PCA:
• SB è una matrice diagonale, quindi la covarianza dei dati proiettati è nulla;
• le componenti principali di A sono gli autovettori di AAT , ovvero le colonne di U;
• l’i-esimo valore sulla diagonale di SB è la varianza di A lungo la direzione ui .
Nell’algoritmo 4.1, ricapitoliamo le operazioni da effettuare per calcolare le componenti
principali data una matrice X come descritta in (4.1). In questo classico algoritmo, il passaggio
più oneroso corrisponde al calcolo degli autovettori alla riga 4 che ha solitamente una complessità computazionale cubica rispetto al numero di variabili m, anche utilizzando algoritmi ottimizzati su matrici reali simmetriche (Golub e Van Loan, 1996) che comunque possono
migliorare i tempi di calcolo.
Algoritmo 4.1 Principal Component Analisys
1: function PCA(X)
2:
A ← X − X̄
. Dati centrati
T
3:
SA ← AA /(n − 1)
. Matrice di covarianza di A
4:
U, Λ ←A UTOVETTORI(SA )
. Autovettori e autovalori di SA
5:
U, Λ ←O RDINA(U, Λ)
. Ordinamento decrescente rispetto agli autovalori
6:
return U, Λ
7: end function
4.1.2
Relazione tra la PCA e la Singular Value Decomposition
La Principal Component Analisys viene spesso associata alla Singular Value Decomposition (SVD)
(Press et al., 1992) in quanto con questa tecnica di scomposizione è possibile calcolare in modo
efficiente le componenti principali.
Ogni matrice di dimensione3 n × m, dove n ≥ m, può essere scomposta nel prodotto di
una matrice n × m ortogonale U, una matrice m × m diagonale Σ con elementi positivi o nulli
(valori singolari) e la trasposta di una matrice m × m ortogonale V
Y = UΣVT .
(4.22)
3
In questa sezione abbiamo invertito le dimensioni, vedremo il perché quando applicheremo la SVD al problema
del calcolo delle componenti principali.
31
Quando la decomposizione SVD4 è applicata a matrici dove n < m, i valori singolari σj per
m = n + 1, . . . , m saranno tutti zero, e le corrispondenti colonne di U saranno composte da
vettori nulli.
Tra le proprietà della Singual Value Decomposition utili ai nostri scopi abbiamo che:
• i valori singolari σj sulla diagonale di Σ sono calcolati in ordine decrescente;
• i valori σj2 corrispondono agli autovalori delle matrici simmetriche YYT e YT Y;
• le colonne della matrice U corrispondono agli autovettori della matrice YYT ;
• le colonne della matrice V corrispondono agli autovettori della matrice YT Y;
• le colonne uj della matrice U sono nella seguente relazione con le colonne vj della matrice
V ed i valori singolari σj :
vi
(4.23)
uj = Y .
σj
Riprendiamo ora la matrice dei dati centrati A, di dimensione m × n, e imponiamo la
seguente relazione
1
Y=√
AT .
(4.24)
n−1
Se consideriamo la matrice YT Y abbiamo
T
1
1
T
T
√
√
Y Y=
A
AT
n−1
n−1
1
1
=√
AT T √
AT
n−1
n−1
1
1
=√
A√
AT
n−1
n−1
1
=
AAT
n−1
YT Y = SA .
(4.25)
Essendo la matrice Y di dimensione n × m, da quanto detto in precedenza, applicando la decomposizione SVD alla matrice Y otteniamo sulle colonne di V gli autovettori della matrice di
covarianza SA , dove i relativi autovalori corrispondono ai quadrati dei valori singolari ottenuti
(σj2 ).
Nell’algoritmo 4.2, presentiamo un approccio alternativo per il calcolo delle componenti
principali che sfrutta proprio la decomposizione ai valori singolari. Anche in questo caso, il
passo computazionalmente più oneroso corrisponde al calcolo degli autovettori della matrice
di covarianza. In questo algoritmo, rispetto al precedente, utilizzando l’SVD che ha complessità
pari a O(nm2 ) su una matrice n × m, se ci troviamo nella condizione in cui n > m otteniamo
un aumento della complessità, ottenendo però le componenti principali già ordinate secondo i
valori di varianza decrescente dei dati proiettati.
Entrambi gli algoritmi proposti, risultano efficienti nel caso in cui sono presenti più osservazioni che variabili. Utilizzando invece matrici di dati con n < m gli algoritmi risultano
inefficenti, ma come vedremo nella prossima sezione, dei semplici espedienti ci permettono di
risolvere il problema in modo efficace.
4
La versione qui presentata della SVD è quella cosiddetta economy. E’ possibile trovare in letteratura una versione
equivalente nella quale la matrice U ha dimensione m×m e la matrice Σ ha dimensione n×m che è più dispendiosa
sia dal punto di vista computazionale che dal punto di vista dell’occupazione di spazio in memoria.
32
Algoritmo 4.2 Principal Component Analisys con SVD
1: function PCA_SVD(X)
2:
A ← X −√
X̄
3:
Y ← AT / n − 1
4:
U, Σ, VT ←SVD(Y)
5:
return V, {σj2 }j=1...m
6: end function
4.1.3
. Dati centrati
. Componenti principali e varianze
PCA con dati ad alta dimensionalità
In molte applicazioni il numero delle osservazioni risulta essere molto inferiore al numero di
variabili. Alcune considerazioni ci permettono di migliorare l’efficienza degli algoritmi per il
calcolo delle componenti principali come descritto da Bishop (2006).
Un insieme di n punti in uno spazio m-dimensionale, con n ≤ m, definisce un sottospazio
lineare la cui dimensionalità è al massimo n − 1, di conseguenza è inutile applicare la PCA per
cercare d > n − 1 componenti principali in quanto troveremo che almeno d − n + 1 autovalori della matrice di covarianza dei dati saranno nulli, dato che sulle corrispondenti direzioni
(ovvero gli autovettori della matrice di covarianza) avremo varianza nulla.
Riconsideriamo ed esplicitiamo l’equazione agli autovettori (4.8)
1
n−1
SA ui = λi ui
T
AA
ui = λi ui .
Moltiplicando a sinistra per AT , otteniamo
1
T
A A (AT ui ) = λi (AT ui ).
n−1
Se definiamo vi = AT ui , otteniamo
1
T
A A vi = λ i vi ,
n−1
(4.26)
(4.27)
(4.28)
che è una equazione agli autovettori di una matrice n × n che ha gli stessi n − 1 autovalori della
matrice di covarianza (ricordiamo che quest’ultima ha gli altri d − n + 1 autovalori nulli). Possiamo quindi risolvere questo problema agli autovalori, con una complessità di O(n3 ) invece
che O(m3 ). Per calcolare gli autovettori della matrice di covarianza, moltiplichiamo a sinistra
la (4.28) per A ottenendo
1
T
AA
Avi = λi Avi
n−1
(4.29)
SA (Avi ) = λi (Avi )
SA ui = λi ui ,
dove vediamo che Avi è l’autovettore della matrice di covarianza SA con autovalore λi . Assumendo che il vettore vi sia di norma unitaria, e volendo ottere anche per ui la stessa condizione,
33
riscaliamo quest’ultimo rispetto ad Avi definendo
1
ui = p
Avi .
(n − 1)λi
(4.30)
Nell’algoritmo 4.3 presentiamo una variante del procedimentio classico per il calcolo delle componenti principali che sfrutta le relazioni appena descritte per ridurre la complessità
computazionale in caso di dati descritti da un alto numero di variabili.
Algoritmo 4.3 Principal Component Analisys - Alta Dimensionalità
1: function PCA_HD(X)
2:
A ← X − X̄
. Dati centrati
3:
Y ← AT A/(n − 1)
. Calcolo matrice
4:
V, Λ ←A UTOVETTORI(Y)
. Autovettori e autovalori di Y
5:
V, Λ ←O RDINA(Λ, V)
. Ordinamento decrescente rispetto agli autovalori
6:
for i ← 1 . . . (np
− 1) do
7:
ui ← Avi / (n − 1)λi
. Colonna i-esima di U
8:
end for
9:
return U, Λ
10: end function
Un ragionamento analogo, nell’obiettivo di ridurre la complessità computazionale nel caso
di n ≤ m, può essere effettuato considerando anche la soluzione attraverso SVD. Se consideriamo la matrice5
1
Y=√
A
(4.31)
n−1
otteniamo che
T
1
1
YY = √
A √
A
n−1
n−1
1
1
=√
A√
AT
n−1
n−1
1
=
AAT
n−1
YYT = SA .
T
(4.32)
Di conseguenza, effettuando la decomposizione SVD sulla matrice Y otteniamo sulle colonne
di U gli autovettori della matrice di covarianza SA con i relativi autovalori uguali ai quadrati
dei valori singolari (σj2 ).
Nell’algoritmo 4.4, riassumiamo i passi da effettuare per implementare questo approccio
alternativo che, rispetto all’algoritmo 4.2, effettua la decomposizione SVD su una matrice di
dimensione m × n con una complessità pari ad O(mn2 ) invece che O(nm2 ).
5
Notare che in (4.24) abbiamo costruito la matrice Y utilizzando AT .
34
4.2. S PARSE P RINCIPAL C OMPONENT A NALYSIS
Algoritmo 4.4 PCA con SVD - Alta Dimensionalità
1: function PCA_SVD_HD(X)
2:
A ← X −√X̄
3:
Y ← A/ n − 1
4:
U, Σ, VT ←SVD(Y)
5:
return U, {σj2 }j=1...m
6: end function
4.2
. Dati centrati
. Componenti principali e varianze
Sparse Principal Component Analysis
Introduciamo in questa sezione un recente algoritmo proposto da Zou et al. (2004) che unisce i
risultati ottenuti nei modelli di selezione di variabili per la regressione lineare con la Principal
Component Analysis.
Nelle sezioni precedenti abbiamo messo in evidenza tra i difetti della PCA la difficoltà nell’individuare tra le variabili associate alle osservazioni quelle relativamente più importanti e
significative. Il problema nasce dal fatto che le componenti principali calcolate sono una combinazione lineare di tutte le variabili presenti. Mostreremo come è possibile formulare il problema del calcolo delle componenti principali come un problema di regressione lineare ottenendo
un’approssimazione delle componenti principali come combinazione lineare solo di un certo
sottoinsieme di variabili.
Consideriamo la formulazione della PCA attraverso l’uso della Singular Value Decomposition (SVD). Data una matrice X ∈ Rn×m con colonne a media nulla, dove n è il numero delle
osservazioni ed m è il numero di variabili, abbiamo che
X = UΣVT
(4.33)
dove abbiamo visto che le colonne di V corrispondono alle componenti principali. Due banali
approcci che possono essere utilizzati per ottenere componenti principali sparse e maggiormente interpretabili sono, ad esempio, quello di ruotare le componenti stesse secondo un dato
criterio di ottimizzazione (Chennubhotla e Jepson, 2001), o vincolare i loadings delle componenti ad un ristretto insieme di interi, ad esempio {1, 0, −1} (si veda Jolliffe (2002) anche per altre
tecniche).
Anche nel campo della regressione lineare sono nate esigenze analoghe di generazione di
modelli interpretabili. Nel caso supervisionato è il vettore delle risposte ad essere una combinazione lineare di tutte le variabili e, dalle soluzioni a quei problemi presenti in letteratura
(Lasso ed Elastic Net che vedremo nel capitolo 5) nasce la formulazione della Sparse PCA che
abbiamo adottato in questa Tesi.
Nelle sottosezioni seguenti introdurremo prima un approccio diretto di approssimazione
delle componenti principali ottenuto attraverso la soluzione di un problema di regressione
lineare regolarizzato. In seguito vedremo come le componenti principali possono essere riformulate come coefficienti di un tipico problema di ottimizzazione per la regressione. L’obiettivo
finale è quello di ottenere un framework di ottimizzazione nel quale la PCA può essere calcolata
esattamente e dove è possibile introdurre una modifica diretta delle componenti utilizzando
termini di regolarizzazione sui problemi di regressione definiti.
Successivamente, nel capitolo 5 forniremo una descrizione più formale e completa dei problemi di regressione lineare, dei termini di regolarizzazione utilizzati per la sparsità e degli
algoritmi proposti in letteratura per la loro soluzione.
35
4.2.1
Approssimazione sparsa diretta
Questo approccio permette una prima semplice formulazione della PCA come problema di
regressione. Osservando che ogni componente principale è una combinazione lineare delle m
variabili, ogni elemento delle varie PC (Principal Component) può essere ricostruito effettuando
regressione sulle variabili stesse. Ricordando che uj = X(vj /σi ), vale il seguente teorema
dimostrato da Zou et al. (2004).
Teorema 4.2.1. Per ogni λ > 0, supponiamo che β̂ ridge sia la stima data da
β̂ ridge = argmin ky − Xβk2 + λkβk2 ,
(4.34)
β
con con y = uj σj . Dato v̂ =
β̂ ridge
kβ̂ ridge k
, allora v̂ = vj .
Il Teorema riesce in modo diretto a definire una relazione tra le componenti principali calcolate dalla PCA e i metodi di regressione lineare. In particolare, la j-esima componente principale vj è stata definita come soluzione di un problema di regressione lineare regolarizzato
attraverso una penalità sulla norma `2 dei coefficienti. Questo tipo di formulazione, che prende il nome di Ridge Regression, come vedremo nel capitolo 5, permette di risolvere il calcolo
della PC in tutti i casi. In particolare, nel caso n > m con X a rango pieno, il teorema non
richiede un valore positivo di λ. Mentre, se X non è a rango pieno oppure se m > n, utilizzare un valore di λ > 0 permette di trovare un’unica soluzione al problema. Facciamo notare,
inoltre, che dopo la normalizzazione i coefficienti calcolati sono indipendenti dal valore di λ, a
dimostrazione del fatto che quest’ultimo è utilizzato solo per assicurare la ricostruzione esatta
della j-esima componente principale.
Aggiungendo anche una penalità sulla norma `1 all’equazione (4.34) otteniamo il seguente
problema di regressione
β̂ = argmin ky − Xβk2 + λkβk2 + λ1 kβk1 ,
(4.35)
β
dove
v̂j = β̂/kβ̂k
(4.36)
è un’approssimazione sparsa della componente principale vj . L’equazione (4.35), come vedremo nel capitolo 5, corrisponde alla formulazione di un problema di tipo Elastic Net dove all’aumentare del valore della penalità λ1 otteniamo componenti principali v̂j sempre più
sparse.
4.2.2
Formulazione del criterio di sparsità
L’approccio indicato dal Teorema 4.2.1 è basato sull’esecuzione di due step consecutivi: calcolare la PCA classica e poi utilizzare la (4.35) per trovarne un’approssimazione sparsa. Zou
et al. (2004) hanno invece presentato un approccio basato su una formulazione della PCA, vista come minimizzazione dell’errore di ricostruzione delle proiezioni (Hastie et al., 2009), come
problema di regressione lineare.
Consideriamo le osservazioni (righe di X) x1 , x2 , . . . , xn ed un modello lineare di rango k
per rappresentarle
f (λ) = µ + Vk λ,
(4.37)
dove µ è un vettore in Rm , Vk è una matrice ortonormale m × k e λ è un vettore in Rk di
parametri. Questa è una rappresentazione parametrica di un iperpiano di rango k. Interpolare
36
questo modello con i dati attraverso una stima ai minimi quadrati, minimizzando l’errore di
ricostruzione, corrisponde a risolvere il problema
( n
)
X
(µ̂, {λ̂i }, V̂k ) = argmin
kxi − µ − Vk λi k2 .
(4.38)
µ,{λi },Vk
i=1
Possiamo parzialmente ottimizzare con
(4.39)
µ̂ = x̄,
VkT (xi
λ̂i =
− x̄).
Per calcolare la matrice ortogonale dobbiamo risolvere il problema
( n
)
X
V̂k = argmin
k(xi − x̄) − Vk VkT (xi − x̄)k2 ,
Vk
(4.40)
(4.41)
i=1
che, assumendo di avere i dati centrati, diventa
( n
)
X
V̂k = argmin
kxi − Vk VkT xi k2 .
Vk
(4.42)
i=1
Notiamo che la matrice Vk VkT non è altro che una matrice di proiezione, che mappa i punti
xi nel sottospazio generato dalle colonne di Vk che non sono altro che le prime k componenti
principali.
Il legame tra questa formulazione della PCA e la regressione lineare è dato dai seguenti
teoremi dimostrati da Zou et al. (2004).
Teorema 4.2.2. Sia xi l’i-esima osservazione (vettore riga della matrice X). Per ogni λ > 0, con
( n
)
X
T
2
2
(α̂, β̂) = argmin
kxi − αβ xi k + λkβk
α,β
i=1
(4.43)
2
soggetto a kαk = 1,
abbiamo che β̂ ∝ v1 .
Il Teorema appena esposto può essere esteso in modo da derivare l’intera sequenza di componenti principali considerando due matrici A e B tali che αj e β j corrispondono rispettivamente alla j-esima colonna di A e B.
Teorema 4.2.3. Supponiamo di considerare la prime k componenti principali. Siano A e B matrici in
Rm×k e denotiamo con xi l’i-esima osservazione. Per ogni λ > 0, con


n
k
X

X
(Â, B̂) = argmin
kxi − ABT xi k2 + λ
kβ j k2

(4.44)
A,B  i=1
j=1
soggetto a AT A = Ik ,
abbiamo che β̂ j ∝ vj per j = 1, 2, . . . , k.
37
Abbiamo effettivamente trasformato la PCA in un problema di regressione. Notiamo infatti
che restringendo la funzione obiettivo al caso in cui B = A, allora
n
X
kxi − ABT xi k2 =
i=1
n
X
kxi − AAT xi k2
(4.45)
i=1
che sotto la restrizione di ortonormalità di A permette di calcolare esattamente le prime k
componenti principali. Il Teorema 4.2.3 ci mostra inoltre come sia possibile ottenere un’esatta
PCA rilassando il vincolo B = A ma aggiungendo un termine di penalità sulla norma `2 .
Possiamo a questo punto formulare il problema di ottimizzazione attraverso quello che Zou
et al. (2004) definiscono SPCA criterion


n
k
k
X

X
X
T
2
2
(Â, B̂) = argmin
kxi − AB xi k + λ
kβ j k +
λ1,j kβ j k1

(4.46)
A,B  i=1
j=1
j=1
soggetto a AT A = Ik ,
dove aggiungiamo una penalità sulla norma `1 per indurre sparsità nelle componenti principali. Notiamo che λ è unica per tutte le k componenti, mentre abbiamo differenti λ1,j che ci
permettono di penalizzare in modo differente le componenti principali. Ancora una volta, se
m > n, è richiesto un valore di λ > 0 per ottenere una PCA esatta quando λ1,j = 0. Inoltre, Zou
et al. (2004) evidenziano come nel caso n > m, anche se la scelta di default per λ può essere 0, è
possibile utilizzare un piccolo valore positivo per contenere potenziali problemi di collinearità
in X, in quanto gli output dell’algoritmo variano lentamente al variare di λ.
Il criterio SPCA non è un problema convesso in A e B, ma è convesso se consideriamo uno
dei due parametri fissato. In particolare, minimizzare la (4.46) in B fissando A è equivalente a
risolvere k indipendenti problemi di regressione del tipo
β̂ j = argmin
βj
kXαj − Xβ j k2 + λkβ j k2 + λ1,j kβ j k1
(4.47)
mentre la minimizzazione in A fissando B si può risolvere attraverso una decomposizione
SVD. Ovvero, dato
XT XB = UΣVT ,
(4.48)
minimizziamo calcolando
A = UVT .
(4.49)
Questi due passi, alternati fino ad ottenere la convergenza, ci permettono di definire l’algoritmo 4.1 per il calcolo delle componenti principali sparse.
4.2.3
Calcolo della varianza
Nel calcolo delle componenti principali ordinarie si verificano sempre le seguenti condizioni:
• le componenti principali sono ortogonali, ovvero VT V = I;
• le proiezioni dei dati sulle componenti principali non sono correlate, quindi la matrice di
convarianza dei dati proiettati VT SV è diagonale (con S = XT X).
Questa condizione non è più rispettata nella SPCA, che non forza il vincolo di non correlazione. Per questo motivo ci si pone il problema di calcolare con maggiore precisione la
38
Algoritmo 4.1 Sparse Principal Component Analysis
1: function SPCA(X, k, λ, {λ1,j }j=1...k )
2:
U, Σ, VT ← SVD(X)
3:
A ← V[:, 1 : k]
. Inizializziamo A con le prime k PC esatte
4:
repeat
5:
for j ← 1, . . . , k do
. Risolviamo i k problemi di regressione con A fissato
6:
y ← Xαj
7:
β j ← argmin βj ky − Xβ j k2 + λkβ j k2 + λ1,j kβ j k1
8:
end for
9:
U, Σ, VT ← SVD(XT XB)
10:
A ← UVT
. Aggiorniamo A
11:
until B converge
12:
for j ← 1, . . . , k do
13:
v̂j = β j /|β j |
. Normalizziamo le componenti principali
14:
end for
15:
return V̂
16: end function
varianza spiegata delle singole componenti principali evitando di considerare più di una volta
percentuali di varianza condivisa tra più componenti.
Sia Û = XV̂ la matrice delle proiezioni (detta anche matrice degli scores) sulle componenti
principali sparse. Nel caso di componenti principali non correlate, la varianza totale spiegata
si calcola come
trace(ÛT Û) = trace(ÛT Û)
= trace((XV̂)T XV̂)
= trace(V̂T XT XV̂)
(4.50)
T
= trace(V̂ SV̂)
= trace(Ŝ),
dove Ŝ è la matrice di covarianza dei dati proiettati sullo spazio delle componenti principali. Zou et al. (2004) hanno proposto un metodo per calcolare la varianza totale spiegata dalle
componenti principali quando si è in presenza di correlazioni tra le stesse.
Supponiamo che ûi sia l’i-esimo vettore degli score. Indicando con ũj il vettore risultante
dalla rimozione da ûj degli effetti delle componenti ũ1 , . . . , ũj−1 , possiamo scrivere che
ũj = ûj − Hj ûj ,
(4.51)
dove Hj è la matrice di proiezione nello spazio generato dalle componenti che precedono ûj ,
ovvero lo spazio generato da ũ1 , . . . , ũj−1 . Questa operazione, in pratica, corrisponde ad ortogonalizzare un vettore rispetto ad altri. La varianza corretta di ûj è quindi kũj k2 e, di conP
seguenza, la varianza spiegata totale è data da kj=1 kũj k2 , dove k è il numero di componenti
principali calcolate.
Un modo efficiente per calcolare le varianza corrette è di usare la decomposizione QR (Golub e Van Loan, 1996). Supponiamo Û = QR, con Q è ortonormale ed R triangolare superiore.
Abbiamo che
2
kũj k2 = rj,j
(4.52)
39
è il j-esimo valore diagonale di R. Questo approccio ha inoltre due proprietà importanti:
• quando le componenti principali sono non correlate, come nel caso della PCA,
trace(ÛT Û) =
k
X
kũj k2 ;
(4.53)
j=1
• il calcolo della varianza dipende dall’ordine delle ûi . Zou et al. (2004) utilizzano l’ordine
naturale delle componenti principali ordinarie.
Questa seconda proprietà risulta essere un problema in applicazioni dove l’ordinamento secondo la varianza spiegata ha una certa rilevanza, come nell’analisi delle forme. L’approccio di
Zou et al. (2004) permette di mantenere un valore di varianza decrescente solo a patto di utilizzare fattori di sparsità (sulla norma `1 ) man mano crescenti, richiedendo di fatto all’algoritmo
di calcolare la generica componente i + 1-esima “più sparsa” della componente i-esima.
Sjöstrand et al. (2006) hanno proposto un algoritmo che permette di riordinare le componenti principali durante il processo di calcolo della varianza corretta, trasformando l’approccio
di Zou et al. (2004) in un algoritmo greedy con buoni risultati in fatto di approssimazione della soluzione ottima e di efficienza. L’algoritmo si basa sulla considerazione che il totale della
varianza spiegata dalle componenti principali è dipendente dall’ordine delle stesse. In particolare, l’ordine che massimizza la varianza totale può essere stabilito risolvendo il seguente
problema
k
X
T
P̂ = argmax {ũ1 ũ1 +
{ũTj ũj − ũTj H̃j ũj }},
(4.54)
P∈Pk
j=2
dove P̂ è una matrice di permutazione degli scores. Il metodo euristico proposto da Sjöstrand
et al. (2006) permette di massimizzare la varianza in molti casi e di calcolarne un’approssimazione molto buona negli altri. L’algoritmo seleziona al primo passo lo score con maggiore
varianza (non ancora corretta) e ortogonalizza tutti gli score rispetto a quello selezionato, ottenendo una matrice degli score parzialmente corretti. Dal secondo passo in poi viene sempre
scelto lo score con maggiore varianza (tra quelli non ancora considerati) e viene ripetuta l’ortogonalizzazione. La varianza corretta finale è quella calcolata al termine dell’algoritmo e l’ordine di selezione degli score viene applicato alle componenti principali calcolate, che avranno
quindi sempre varianza in ordine decrescente.
4.2.4
SPCA per dataset ad alta dimensionalità
Nel caso m n la complessità computazionale dell’algoritmo presentato cresce notevolmente,
essendo il criterio SPCA dipendente dalla matrice XT X. È possibile definire una variante efficiente dell’algoritmo in caso di dati ad alta dimensionalità notando che nel caso λ → ∞ vale il
seguente teorema
Teorema 4.2.4. Sia v̂j (λ) =
β̂ j
kβ̂ j k
la j-esima componente principale calcolata attraverso il criterio
SPCA. Definiamo


k
k


X
X
(Â∗ , B̂∗ ) = argmin −2trace(AT XT XB) + λ
kβ̂ j k2 +
λ1,j kβ̂ j k1

A,B 
j=1
j=1
(4.55)
soggetto a AT A = Ik .
40
4.3. C ASO DI STUDIO
∗
Quando λ → ∞ allora v̂j (λ) →
β̂ j
∗
kβ̂ j k
.
Il criterio (4.55) è risolto sostituendo nell’algoritmo originale la soluzione ai problemi di
regressione lineare regolarizzata con i passi descritti nell’algoritmo 4.2, dove l’operazione effettuata è definita soft-thresholding e dove
(|x| − ∆)+ = max(|x| − ∆, 0) con ∆ ≥ 0.
(4.56)
Algoritmo 4.2 Modifica Sparse Principal Component Analysis (Soft-Thresholding)
1: for j ← 1,. . . , k do
λ
sign(αTj XT X)
2:
β j ← |αTj XT X| − 1,j
2
+
3:
4.3
end for
Caso di studio
In questa sezione finale del capitolo presentiamo alcuni test effettuati e riportati con il solo
scopo di evidenziare e chiarire gli aspetti teorici appena discussi. Il dataset che utilizzeremo è
estraneo all’analisi della forma ma è spesso utilizzato in letteratura come banchmark per nuovi
approcci o algoritmi. Approfitteremo di questa sezione anche per presentare gli strumenti utili
ad individuare il numero di componenti principali necessarie per rappresentare i dati.
Il dataset che adotteremo (che riprenderemo nella sezione 5) consiste in n = 442 osservazioni su m = 10 variabili. Si tratta di uno studio effettuato su pazienti malati di diabete, per
la definizione di un modello predittivo. I dati sono infatti associati ad un’etichetta che fornisce una misura della progressione della malattia rispetto ad una baseline. Essendo la PCA una
tecnica di apprendimento non supervisionato, non utilizzeremo questa informazione e proveremo ad analizzare direttamente solo la matrice dei dati. Quest’ultima è stata opportunamente
centrata e standardizzata in quanto le misurazioni non hanno ordini di grandezza omogenei.
Vediamo in Tabella 4.1 la varianza spiegata dalle componenti principali che ci mostra come
la prima componente sia capace di catturare il 40.2% della varianza totale dei dati. Lo Scree Plot
in Figura 4.1 ci mostra infatti come la varianza spiegata (linea rossa) cali rapidamente già dalle
prime componenti mentre la varianza cumulata (linea blu) aumenta velocemente.
Confrontando inoltre le proiezioni dei dati originali sulle varie componenti principali e considerando le prime tre componenti principali (che coprono il 67.2% della varianza complessiva), vediamo in Figura 4.2(a) e 4.2(b) come i dati si dispongono lungo le componenti secondo
le varianze calcolate. Notiamo inoltre, in Figura 4.2(c) e 4.2(d) il confronto tra la disposizione
dei dati sulla prima componente e sulle ultime due con varianza molto bassa.
Applichiamo la Sparse PCA allo stesso dataset, effettuando un semplice test con λ = 0,
essendo n m, ed utilizzando per tutti i λi il medesimo valore, pari a 0.01. La varianza spiegata, come visualizzato in tabella 4.2), è più bassa rispetto a quella spiegata dalle componenti
principali ordinarie a causa della sparsità indotta.
41
PC
PC1
PC2
PC3
PC4
PC5
PC6
PC7
PC8
PC9
PC10
Totale
% Varianza
40.2%
14.9%
12.1%
9.6%
6.6%
6.0%
5.4%
4.3%
0.8%
0.1%
100.00%
% Var. Cumulata
40.2%
55.2%
67.2%
76.8%
83.4%
89.4%
94.8%
99.1%
99.9%
100.0%
Tabella 4.1: Varianza spiegata dalle componenti principali ordinarie calcolate su un dataset di
misurazioni cliniche.
Figura 4.1: Visualizzazione tramite scree plot della varianza spiegata (curva rossa) e cumulata (curva
blu) dalle componenti principali.
42
(a) Confronto tra le proiezioni dei dati sulla prima e
la seconda componente principale
(b) Confronto tra le proiezioni dei dati sulla prima e
la terza componente principale
(c) Confronto tra le proiezioni dei dati sulla prima e
la nona componente principale
(d) Confronto tra le proiezioni dei dati sulla prima e
la decima componente principale
Figura 4.2: Proiezione dei dati lungo le componenti principali. Ogni scatter plot mette a confronto
la prima componente con due a varianza significativa (in alto) e due a varianza minima (in basso).
Variabile
1
2
3
4
5
6
7
8
9
10
% Varianza
% Var. Cum.
PC1
0.000
-0.029
-0.180
-0.241
-0.108
-0.664
0.553
-0.381
-0.076
-0.000
23.17
23.17
PC2
0.000
0.000
0.000
0.000
0.562
0.468
0.682
0.000
0.000
0.000
12.13
35.30
PC3
0.000
0.000
0.000
0.967
0.000
-0.187
0.128
-0.114
0.000
0.000
8.11
43.41
PC4
0.000
-0.985
0.168
0.000
0.000
0.000
0.000
0.000
0.031
0.000
7.98
51.39
PC5
-1.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
7.76
59.16
PC6
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
-1.000
6.58
65.74
Tabella 4.2: Varianza spiegata dalle componenti principali sparse calcolate su un dataset di
misurazioni cliniche.
43
CAPITOLO 5
M ETODI DI SELEZIONE NELLA
REGRESSIONE LINEARE
Contenuto
5.1
5.2
5.3
5.4
5.5
5.6
Introduzione alla regressione lineare . . . . . . .
Least Angle Regression . . . . . . . . . . . . . . .
L’operatore di selezione Lasso . . . . . . . . . . .
5.3.1 Soluzione dei problemi di tipo Lasso . . . .
L’operatore di selezione Elastic Net . . . . . . . .
5.4.1 Naïve Elastic Net . . . . . . . . . . . . . . .
5.4.2 Risolvere il problema dell’overshrinking .
5.4.3 Soluzione dei problemi di tipo Elastic Net .
Interpretazione di Lasso ed Elastic Net . . . . . .
Caso di studio . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
44
46
53
54
56
56
58
58
60
61
In questa Tesi ci siamo occupati principalmente dell’analisi statistica della forma attraverso
metodi derivati dalla Principal Component Analysis e nel capitolo 4 è stata introdotta la Sparse
PCA. Come abbiamo visto, questa variazione della PCA viene definita attraverso la formulazione di problemi di regressione lineare con vincoli sulla norma `1 ed `2 dei coefficienti di
regressione. Nel presente capitolo entreremo sia nei dettagli teorici che algoritmici di alcune
delle tecniche di regressione regolarizzata adottate nell’apprendimento statistico supervisionato. Nella sezione 5.1 forniremo una prima descrizione formale dei problemi di regressione
lineare attraverso i modelli di stima ai minimi quadrati. Nelle sezioni successive ci occuperemo
degli algoritmi e degli operatori di regolarizzazione nei problemi di regressione che permettono la selezione statistica delle variabili allo scopo di ottenere modelli sparsi, mantenendo buone
caratteristiche di generalizzazione.
5.1
Introduzione alla regressione lineare
I modelli lineari sono stati largamente utilizzati nell’apprendimento statistico già prima dell’utilizzo diffuso dei calcolatori negli ambienti scientifici e della relativa nascita del machine
learning. Oggi, lo studio e l’utilizzo di questi modelli è giustificato oltre che dalla loro semplicità applicativa, anche dal fatto che sono in grado di fornire spesso una descrizione adeguata e
soprattutto interpretabile dei fenomeni sotto osservazione.
44
5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE
5.1. I NTRODUZIONE ALLA REGRESSIONE LINEARE
Nel campo dell’apprendimento statistico supervisionato (learning by examples) il training set,
ovvero l’insieme dei dati sui quali addestrare il modello, è composto da n coppie del tipo
{xi , yi }i=1...n
(5.1)
dove xi è un vettore di caratteristiche (feature) che descrivono l’i-esimo evento osservato, mentre yi è una risposta associata all’i-esima osservazione. La natura delle risposte (outcome)
definisce due sotto-categorie di tecniche di apprendimento supervisionato:
• tecniche di regressione, quando le risposte sono quantitative;
• tecniche di classificazione, quando le risposte sono qualitative (etichette).
Nella regressione lineare, l’obiettivo è quello di definire un modello di predizione che abbia
le seguenti proprietà:
Accuratezza (basso bias).
Il modello calcolato deve essere in grado di minimizzare l’errore di predizione per i dati
che appartengono al training set.
Generalità (bassa varianza).
Il modello calcolato deve essere in grado di minimizzare l’errore di predizione per i dati
che non appartengono al training set.
Uno degli strumenti alla base della definizione di modelli lineari nel campo supervisionato è la stima ai minimi quadrati, la Ordinary Least Square (OLS), dove si stima un vettore di
coefficienti β che minimizza l’errore quadratico medio, detto Residual Sum of Squares (RSS), calcolato tra gli input nel training set e gli output predetti dal modello, il quale genera solitamente
soluzioni con basso bias ma alta varianza, rendendo le predizioni fortemente dipendenti dai
dati e non fornendo una buona capacità di generalizzazione. Inoltre, soprattutto nei problemi
ad alta dimensionalità, un’ulteriore proprietà desiderabile dai modelli lineari, non soddisfatta
dall’OLS, e quella dell’interpretabilità, ovvero nella generazione di un vettore dei coefficienti
di regressione che possa mettere in evidenza l’importanza di alcune feature rispetto alle altre o
l’esistenza di una correlazione tra le stesse.
Entrambi i problemi possono essere attenuati utilizzando approcci di model selection che, in
base alla tipologia di vincoli utilizzati per regolarizzare il modello, si differenziano in:
• approcci di subset selection, dove viene selezionato un sottoinsieme di coefficienti da includere nel modello;
• approcci di shrinkage, dove il valore assoluto dei coefficienti viene ridotto.
Nell’utilizzo di queste tecniche, il trade-off da individuare risiede nel confine tra la capacità
di generalizzare e l’interpretabilità del modello mantenendo, allo stesso tempo, alto il livello
di accuratezza. Ovviamente, gli approcci di subset selection si prestano meno a questo tipo di
raffinamento in quanto i coefficienti possono solo essere inclusi o esclusi dal modello.
Volendo formalizzare un problema di regressione lineare in presenza di un training set composto da n osservazioni nello spazio Rm , definiamo una matrice X = (x1 , x2 , . . . , xm ) ∈ Rn×m
(con una osservazione su ogni riga) ed un vettore y = (y1 , y2 , . . . , yn )T ∈ Rn di risposte tali che,
i valori delle xj siano standardizzati, ovvero aventi media nulla e norma unitaria, e il vettore
delle risposte abbia media nulla:
n
X
i=1
yi = 0,
n
X
i=1
xij = 0,
n
X
x2ij = 1 con
j = 1, 2, . . . , m.
(5.2)
i=1
45
5.2. L EAST A NGLE R EGRESSION
Il classico metodo dei minimi quadrati (OLS - Ordinary Least Squares) permette di calcolare
un vettore di coefficienti β̂ = (βˆ1 , βˆ2 , . . . , β̂m )T ∈ Rm tale che il seguente vettore delle predizioni
µ̂ =
m
X
xj β̂j = Xβ̂,
(5.3)
j=1
minimizza l’errore residuo quadratico
n
X
RSS(β̂) = ky − µ̂k =
(yi − µ̂i )2 .
2
(5.4)
i=1
In generale la stima OLS anche se fornisce una buona accuratezza, pecca nella generalizzazione in quanto tende semplicemente ad interpolare i punti del training set. In questo capitolo
ci occuperemo principalmente di tre diversi approcci di shrinkage, tutti riconducibili ad un problema OLS vincolato attraverso termini di regolarizzazione sui coefficienti: la Ridge Regression
(Hoerl e Kennard, 1970), Lasso (Tibshirani, 1996) ed Elastic Net (Zou e Hastie, 2005). La Ridge
Regression riduce il valore dei coefficienti imponendone una penalità sulla norma `2 e producendo modelli non sparsi ma con una migliore (in generale) capacità di generalizzare rispetto
ad una stima OLS non vincolata. Lasso, invece, riduce i coefficienti di regressione vincolandone la norma `1 e producendo modelli sparsi (questo è un esempio di approccio di shrinkage
che degenera nella subset selection). Infine, Elastic Net è l’applicazione di un vincolo alla stima OLS che è una combinazione lineare delle penalità sulla norma `1 ed `2 dei coefficienti di
regressione. Quest’ultimo approccio combina le capacità di generalizzazione della Ridge Regression con le proprietà di selezione di Lasso, ma dimostra avere delle proprietà aggiuntive
particolarmente interessanti come vedremo nel seguito.
Prima di introdurre questi operatori di regolarizzazione, nella prossima sezione descriveremo un algoritmo, basato su considerazioni geometriche legate alla stima OLS che è alla base
degli algoritmi di risoluzione dei problemi di tipo Lasso ed Elastic Net, che non possono essere
risolti in modo esplicito (attraverso una formula chiusa) come avviene per i problemi OLS o
utilizzando la Ridge Regression.
5.2
Least Angle Regression
L’algoritmo LAR (Least Angle Regression) che descriveremo in questa sezione è stato proposto
da Efron et al. (2004) come strumento per il calcolo iterativo di una stima OLS ed è in grado di
effettuare selezione automatica di variabili senza carichi computazionali aggiuntivi (ed è questa una delle principali attrattive dell’algoritmo). Nell’articolo originale di Efron et al. (2004),
l’algoritmo viene indicato con l’acronimo LARS, dove la “S” finale richiama le tecniche di regressione Lasso e Forward Stagewise, in quanto è possibile risolvere questo tipo di problemi
utilizzando delle varianti di LAR. In questo capitolo faremo riferimento all’algoritmo di base
con “LAR”, mentre ci riferiremo alla versione modificata per Lasso con “LARS”.
Prima di entrare nei dettagli algebrici che definiscono l’algoritmo cerchiamo di evidenziare
graficamente, tramite l’ausilio della figura 5.1, l’intuizione geometrica alla base del processo iterativo di costruzione della soluzione ponendoci nel caso di osservazioni definite in due
variabili.
46
Figura 5.1: Descrizione grafica dei passi compiuti dall’algoritmo LAR. L’esempio si riferisce ad un
contesto dove le osservazioni (gli input) sono definite da sue sole variabili.
Definiamo prima di tutto con
r = y − µ̂,
(5.5)
ĉ = c(µ̂) = XT (y − µ̂)
(5.6)
il vettore dei residui e con
il vettore delle correlazioni correnti tra le variabili e i residui. Ricordando che
ĉj = xj r = kxj kkrk cos(θ),
(5.7)
ed essendo le variabili normalizzate, la correlazione è inversamente proporzionale all’angolo
compreso tra la variabile e il vettore dei residui.
Osservando la figura 5.1, dove ȳ2 corrisponde alla proiezione di y nel piano definito da x1
ed x2 , mentre u2 corrisponde al vettore equiangolare rispetto ai vettori delle variabili, l’algoritmo parte da una stima
µ̂0 = 0.
(5.8)
A questo punto, dato che
c1 (µ̂0 ) > c2 (µ̂0 ),
(5.9)
viene calcolato un valore di γ̂1 che permette di aggiornare il valore della stima a
µ̂1 = µ̂0 + γ̂1 x1 ,
(5.10)
con l’obiettivo di ottenere la seguente relazione:
c1 (µ̂1 ) = c2 (µ̂1 ).
(5.11)
Al passo successivo, seguendo la direzione equiangolare, verrà aggiornata la stima in modo
tale che
µ̂2 = µ̂1 + γ̂2 u2 ,
(5.12)
47
ottenendo che
(5.13)
µ̂2 = ȳ2 .
L’algoritmo 5.1 descrive intuitivamente i passi compiuti da LAR nel caso generale. La stima
µ̂ = Xβ̂ viene calcolata iterativamente in m passi, ognuno dei quali aggiunge una variabile al
modello. Dopo k passi abbiamo k coefficienti β̂j non nulli.
Algoritmo 5.1 LARS
1: Inizia con tutti i coefficienti nulli: β = 0.
2: Trova la variabile xj1 maggiormente correlata con y.
3: Incrementa il coefficiente βj1 nella direzione del segno della sua correlazione con y calcolando il residuo r = y − µ̂ fino a che una nuova variabile xj2 ha la stessa correlazione di
xj1 rispetto ad r.
4: Incrementa βj1 e βj2 nella direzione equiangolare alle variabili xj1 e xj2 rispetto al segno
della loro correlazione corrente con r, finché quest’ultima è uguale per xj1 , xj2 e per una
nuova variabile xj3 .
5: Continua finché tutte le variabili non appartengono al modello.
Descriviamo i dettagli algebrici e geometrici sottostanti all’algoritmo partendo sempre dal
presupposto che la matrice X e il vettore y siano standardizzati come nelle equazioni in (5.2).
L’algoritmo parte da una stima iniziale µ̂ = 0, con coefficienti β̂ = 0, e costruisce la stima finale
in m passi successivi. Sia inoltre A un sottoinsieme degli indici {1, 2, . . . , m} (chiamato active
set) inizialmente vuoto. Supponiamo che µ̂A sia la stima al passo corrente e che
ĉ = XT (y − µ̂A ),
(5.14)
sia il vettore corrente delle correlazioni, tale che ĉj sia proporzionale alla correlazione tra la
variabile xj e il vettore corrente degli errori residui. L’active set A è l’insieme degli indici
corrispondenti alle variabili con la maggiore correlazione corrente in valore assoluto,
b = max{|ĉj |},
C
(5.15)
b
A = {j : |ĉj | = C}.
(5.16)
j
Definiamo inoltre
sj = sign{ĉj }
per j ∈ A,
(5.17)
notando che a livello di implementazione è importante controllare che le variabili siano linearmente indipendenti altrimenti è possibile aggiungere all’active set più di una variabile ad ogni
passo.
Utilizzando le variabili appartenenti all’active set, definiamo la matrice
XA = (· · · sj xj · · · )j∈A ,
(5.18)
dove il segno sj della correlazione corrente tra xj e l’errore residuo viene definito nell’equazione (5.17). Siano, inoltre
GA = XTA XA ,
−1
AA = (1TA GA
1A )
(5.19)
− 21
,
(5.20)
dove 1A è un vettore contenente tutti 1, di lunghezza pari alla cardinalità di A e dove AA è
uno scalare, in quanto l’operazione in (5.20) corrisponde a dividere 1 per la radice quadrata
48
−1
della somma di tutti gli elementi di GA
. Definiamo Il vettore equiangolare alle variabili nelle
direzioni dei segni sj come
uA = XA wA ,
(5.21)
dove
−1
wA = AA GA
1A
(5.22)
è il vettore che permette ad uA di formare lo stesso angolo, a meno di 90◦ , con tutte le colonne
di XA , ovvero con tutti i vettori delle variabili selezionate, e viene calcolato scalando del fattore
AA il vettore in R|A| costruito sommando le colonne (o le righe, essendo la matrice simmetrica)
−1
di GA
. Abbiamo quindi che
XTA uA = AA 1A ,
(5.23)
uTA uA
(5.24)
= 1,
dove l’equazione (5.23) ci dice che il coseno dell’angolo tra un vettore delle variabili xj , con
j ∈ A, ed il vettore equiangolare uA è sempre uguale ad AA (dato che i vettori delle variabili
sono standardizzati ed hanno norma unitaria).
Considerando il seguente vettore in Rm
a = X T uA ,
(5.25)
il prossimo passo dell’algoritmo prevede l’aggiornamento della stima µ̂A
(5.26)
µ̂A+ = µ̂A + γ̂uA ,
dove
(
γ̂ = minc
j∈A
+
b − ĉj C
b + ĉj
C
,
AA − aj AA + aj
)
(5.27)
e
Ac = {j : j ∈
/ A},
(5.28)
e indichiamo con min+ che il minimo è selezionato solo sulle componenti positive calcolate per
ogni j ∈ Ac .
Rimandiamo per un attimo le motivazioni che portano alla scelta del valore di γ̂ e vediamo, invece, come aggiornare i coefficienti β̂ A+ della soluzione LAR. Essendo µ̂ = Xβ̂, dalle
equazioni (5.26) e (5.21) otteniamo
µ̂A+ = µ̂A + γ̂uA
Xβ̂ A+ = µ̂A + γ̂uA
= Xβ̂ A + γ̂uA
= Xβ̂ A + γ̂XA wA
(5.29)
= Xβ̂ A + γ̂Xd̂
β̂ A+ = β̂ A + γ̂ d̂
dove, tenendo presente come è costruita la matrice XA nell’equazione (5.18), il vettore d̂ ∈ Rm
è tale che
sj wAj se j ∈ A
ˆ
dj =
(5.30)
0
se j ∈
/ A.
49
La scelta di γ̂ invece, è motivata dalla seguente interpretazione: ridefiniamo i possibili
valori della stima µ̂A+ in relazione ai possibili valori per γ̂
(5.31)
µ(γ) = µ̂A + γuA .
Per γ > 0, in quanto la scelta è effettuata con l’operatore min+ , possiamo scrivere anche le
correlazioni correnti in funzione di γ, ricordando le equazioni (5.14) e (5.25)
cj (γ) = xTj (y − µ(γ))
= xTj (y − µ̂A − γuA )
= xTj (y − µ̂A ) − γxTj uA
(5.32)
= ĉj − γaj .
Notiamo, dalle equazioni (5.23) e (5.15), che
b − γAA
|cj (γ)| = C
per j ∈ A,
(5.33)
ovvero, tutte le correlazioni correnti diminuiscono, in valore assoluto, contemporaneamente.
Inoltre, per j ∈ Ac abbiamo
b − γAA
cj (γ) = C
b − γAA
ĉj − γaj = C
b − ĉj
γAA − γaj = C
γ=
(5.34)
per cj (γ) < 0
(5.35)
b − ĉj
C
AA − aj
b + γAA
cj (γ) = −C
b + γAA
ĉj − γaj = −C
b + ĉj
γAA + γaj = C
γ=
per cj (γ) > 0
b + ĉj
C
AA + aj
Possiamo quindi affermare che il valore di γ̂ in (5.27) è il più piccolo valore positivo di γ tale
che un nuovo indice ̂ rientra nell’active set A. Ovvero possiamo scrivere che
A+ = A ∪ {̂}
b+ = C
b − γ̂AA .
C
(5.36)
(5.37)
Come visto, l’algoritmo completo richiede solo m passi dato che ad ogni step viene sempre
aggiunta una nuova variabile all’active set.
Ma qual’è la relazione tra LAR è l’OLS? Supponiamo di aver compiuto già k < m passi tali
che l’active set Ak contiene k variabili e calcoliamo Xk , Gk , Ak e uk come nelle equazioni (5.18),
(5.19), (5.20) e (5.21). Indichiamo con ȳk la proiezione di y nel sottospazio L(Xk ) generato dai
vettori delle variabili attive e ricordiamo che la matrice di proiezione in L(Xk ) è uguale a
PXk = Xk (XTk Xk )−1 XTk = Xk Gk−1 XTk .
(5.38)
50
Essendo µ̂k−1 ∈ L(Xk−1 ) abbiamo quindi che
ȳk = µ̂k−1 + Xk Gk−1 XTk (y − µ̂k−1 ).
(5.39)
Inoltre, dalle equazioni (5.21) e (5.22) abbiamo che
uk = Xk wk = Xk Ak Gk−1 1k
uk
= Xk Gk−1 1k ,
Ak
(5.40)
bk
e dato che le correlazioni correnti delle variabili in Ak sono tutte uguali a C
bk 1k ,
XTk (y − µ̂k−1 ) = C
(5.41)
otteniamo, estendendo l’equazione (5.39), che
ȳk = µ̂k−1 + Xk Gk−1 XTk (y − µ̂k−1 )
bk Xk G −1 1k
= µ̂k−1 + C
k
(5.42)
bk
C
= µ̂k−1 +
uk .
Ak
Se consideriamo dalle equazioni (5.26) e (5.42), i vettori
µ̂k − µ̂k−1 = γ̂k uk
(5.43)
ȳk − µ̂k−1 = γ̄k uk
(5.44)
con
γ̄k =
bk
C
,
Ak
(5.45)
dove γ̂k e γ̄k sono le lunghezze, rispettivamente, dei vettori in (5.43) e (5.44) (dato che uk è un
vettore unitario), notiamo che µ̂k giace sulla retta che va da µ̂k−1 a ȳk . Inoltre, essendo
µ̂k − µ̂k−1
ȳk − µ̂k−1
=
γ̂k
γ̄k
γ̂k
µ̂k − µ̂k−1 = (ȳk − µ̂k−1 ),
γ̄k
(5.46)
con γ̂k < γ̄k per ogni k = {1, . . . , m − 1} abbiamo che µ̂k è sempre più vicino a µ̂k−1 di quanto
non lo sia ȳk . Questo ci suggerisce che la stima LAR µ̂k si avvicina sempre alla stima OLS ȳk
senza mai raggiungerla (figura 5.2) fino a che k = m. Nell’ultimo passo infatti, dato che Am
contiene tutte le variabili, l’equazione (5.27) per il calcolo di γ̂m non è definita. Per convenzione,
l’algoritmo adotta
bm
C
,
(5.47)
γ̂m = γ̄m =
Am
ottenendo µ̂m = ȳm e β̂ m uguale alla stima OLS per l’intero insieme di m variabili.
Dal punto di vista computazionale, l’intera sequenza dell’algoritmo LAR con m < n variabili richiede O(m3 + nm2 ) operazioni, il costo di una stima ai minimi quadrati su m variabili.
Nel dettaglio, al k-esimo degli m passi totali vengono effettuati gli m − k prodotti vettoriali
(cjk ) tra le variabili non attive e i residui correnti, per identificare la prossima variabile. Inoltre,
c’è bisogno di invertire la matrice Gk = XTk Xk ∈ Rk×k . Questa operazione può essere effettuata
51
Figura 5.2: Ad ogni passo la stima LAR µ̂k si avvicina sempre alla stima OLS ȳk senza mai
raggiungerla prima dell’ultimo passo.
aggiornando la fattorizzazione di Cholesky Rk−1 della matrice Gk−1 trovata al passo precedente
(Golub e Van Loan, 1996). Abbiamo infatti
Teorema 5.2.1 (Fattorizzazione di Cholesky). Sia A ∈ Rm×m una matrice simmetrica definita
positiva, allora esiste un’unica matrice triangolare superiore R ∈ Rm×m con elementi diagonali positivi,
tale che
A = RT R
(5.48)
e vale la seguente relazione
A−1 = R−1 (RT )−1 .
(5.49)
Se, nel nostro caso, al passo k risolviamo i due sistemi triangolari seguenti
RTk bk = 1k
(5.50)
Rk zk = bk
(5.51)
otteniamo il vettore zk ∈ Rk tale che
RTk Rk zk = 1k
Rk zk = (RTk )−1 1k
T −1
zk = R−1
k (Rk ) 1k
(5.52)
zk = Gk−1 1k .
Possiamo quindi calcolare la somma delle colonne della matrice Gk−1 , da utilizzare per il calcolo di Ak (5.20) e wk (5.22), senza calcolare esplicitamente l’intera matrice G e soprattutto senza
calcolarne la sua inversa, ma solo aggiornando ad ogni passo il triangolo di Cholesky Rk e risolvendo i due sistemi triangolari (5.50) e (5.51). In realtà, utilizzando questo approccio, l’intera
sequenza di passi LAR può essere vista come una fattorizzazione di Cholesky con un preciso
ordinamento delle variabili di volta in volta aggiunte ad Rk .
52
5.3
5.3. L’ OPERATORE DI SELEZIONE L ASSO
L’operatore di selezione Lasso
L’operatore Lasso (Least Absolute Shrinkage and Selection Operator) proposto da Tibshirani (1996)
cerca principalmente di ottenere dalla regressione un modello sparso, ovvero di selezionare
statisticamente un sottoinsieme delle variabili imponendo a zero il valore di alcuni coefficienti
di regressione. In particolare, un problema di tipo Lasso è una stima OLS penalizzata attraverso
un vincolo sulla norma `1 dei coefficienti di regressione, che permette sia una riduzione dei
coefficienti che una loro selezione.
Consideriamo il seguente vincolo:
L(β̂) = kβ̂k1 =
M
X
|β̂j |,
(5.53)
j=1
lo stimatore Lasso, facendo riferimento alle equazioni (5.4) e (5.53) e per ogni λ ≥ 0, è il
minimizzatore della seguente funzione
β̂ = argmin {RSS(β) + λL(β)}
(5.54)
β
oppure può essere definito come il seguente problema di ottimizzazione
β̂ = argmin {RSS(β)} soggetto a
L(β) ≤ t,
(5.55)
β
dove t ≥ 0 è un parametro di tuning che controlla la riduzione applicata alla stima dei coefficienti. Sia ad esempio β̂ OLS la stima ai minimi quadrati e sia t0 = L(β̂ OLS ). I valori di
t ≤ t0 causeranno una riduzione del valore dei coefficienti ed alcuni di essi si annulleranno.
Ad esempio, scegliendo t ≤ t0 /2, l’effetto è simile a quello di cercare il miglior sottoinsieme di
m/2 variabili. L’effetto della selezione delle variabili fornisce dei modelli maggiormente interpretabili rispetto ad altre tecniche come la Ridge Regression che, imponendo un vincolo sulla
norma `2 dei coefficienti al problema OLS,
2
R(β̂) = kβ̂k =
M
X
β̂j2 ,
(5.56)
j=1
produce un effetto di riduzione delle β̂j senza però forzarne l’annullamento. Una spiegazione
intuitiva di ciò è evidenziata dal fatto che il criterio OLS equivale alla funzione quadratica
(β − β̂ OLS )T XT X(β − β̂ OLS ),
(5.57)
i cui contorni ellittici (considerando dati in due variabili) sono visualizzati in figura 5.3, centrati
sulla stima β̂ OLS . Le regioni centrate sull’origine nella figura 5.3(a) e 5.3(b) sono rispettivamente definite dai vincoli Lasso sulla norma `1 (5.53) e dai vincoli della Ridge Regression sulla
norma `2 (5.56). In entrambi i casi la soluzione corrisponde al primo punto nel quale i contorni
toccano la regione dei vincoli. Nel caso di Lasso, questo contatto può avvenire su uno spigolo
che corrisponde a coefficienti con valore nullo. Nel caso della Ridge Regression, invece, non ci
sono spigoli e quindi le soluzioni a coefficienti nulli sono molto più rare.
53
(a) Spazio delle soluzioni per Lasso
(b) Spazio delle soluzioni per la Ridge Regression
Figura 5.3: Visualizzazione grafica in due dimensioni delle ricerca delle soluzioni utilizzando i
vincoli sulla norma `1 ed `2 . Lasso produce soluzione sparse in quanto la regione dei vincoli forma
degli “spigoli”.
Anche se introduce notevoli miglioramenti dal punto di vista dell’interpretabilità dei modelli, l’utilizzo dell’operatore Lasso evidenzia alcune limitazioni:
• nel caso di m > n, Lasso seleziona al massimo n variabili prima di saturare, data la natura
convessa del problema di ottimizzazione, inoltre il risultato non è ben definito se il limite
t è al di sotto di un certo valore;
• se c’è un gruppo di variabili per le quali la correlazione è molto alta, Lasso tende a
selezione solo una variabile del gruppo in maniera casuale;
• per il caso n > m, la presenza di un’alta correlazione tra le variabili si traduce nella
definizione di un modello la cui generalità è peggiore rispetto a quella fornita dalla Ridge
Regression.
5.3.1
Soluzione dei problemi di tipo Lasso
L’attrattiva per le caratteristiche esibite da questo metodo di selezione di variabili è stata limitata dall’inefficienza dell’algoritmo inizialmente proposto da Tibshirani (1996). Fortunatamente
Efron et al. (2004) hanno dimostrato come delle piccole modifiche all’algoritmo LAR permettono di calcolare in modo efficiente l’intero path delle soluzioni Lasso. Indicheremo l’algoritmo
modificato con l’acronimo LARS.
Sia β̂ la soluzione Lasso in (5.55) dove µ̂ = Xβ̂, e consideriamo il seguente Lemma dimostrato da Efron et al. (2004).
54
Lemma 5.3.1. Data una soluzione Lasso β̂, abbiamo che
b · sign(β̂j )
ĉj = C
j∈A
per
(5.58)
dove ĉj è la correlazione corrente xTj (y − µ̂) = xTj (y − Xβ̂). In particolare, questo implica che
sign(β̂j ) = sign(ĉj ) = sj
per
j ∈ A.
(5.59)
Il Lemma ci suggerisce che nell’utilizzo di Lasso il segno di ogni coefficiente non nullo è
concorde con il segno della correlazione corrente. L’algoritmo LAR, purtroppo non forza il
vincolo (5.59) ma è possibile fare in modo che lo faccia. Consideriamo ancora una volta il
valore del prossimo coefficiente βj (equazione 5.29) come dipendente da una specifica scelta
del valore di γ̂ (equazione 5.27), ovvero
βj (γ) = β̂j + γ dˆj
per j ∈ A.
(5.60)
Notiamo che βj (γ) cambierà segno rispetto a β̂j quando γ = γj , con
γj = −
β̂j
.
dˆj
(5.61)
Ogni variabile avrà quindi associato un limite γj oltre il quale il valore del coefficiente ad essa
associata può cambiare segno. Selezioniamo quindi il minimo, tra i positivi, di questi valori
γ̃ = min {γj },
γj >0
(5.62)
tale che γ̃ = ∞ se non ci sono γj > 0. Ipotizzando che γ̃ = γ̃ , se γ̃ < γ̂ (il valore scelto da LAR),
allora il coefficiente β̃ (γ) cambierà segno. Dato che, dall’equazione (5.33), possiamo evincere
che
b − γAA > 0,
|cj (γ)| = C
(5.63)
b A , ci troviamo a violare il vincolo Lasso (5.59). Per evitare ciò effettuiamo
essendo γ < C/A
la seguente modifica all’algoritmo: se γ̃ < γ̂, fermiamo il passo LARS corrente imponendo
γ = γ̃ e rimuoviamo l’indice ̃ dall’active set escludendo x̃ dall’insieme delle variabili che
contribuiranno al calcolo della prossima direzione equiangolare, ovvero
µ̂A+
= µ̂ + γ̃uA
A+ = A \ {̃}.
(5.64)
(5.65)
Questa modifica provoca un rallentamento dell’esecuzione dell’algoritmo LARS rispetto all’originale LAR, in quanto le variabili ad ogni passo oltre ad essere aggiunte possono anche
essere rimosse. In ogni caso sia l’incremento che il decremento avviene su una unica variabile
alla volta.
Così come per l’algoritmo LAR, anche per LARS possiamo avvalerci della fattorizzazione
di Cholesky della matrice Gk per ottimizzare l’algoritmo. In questo caso, però, dobbiamo considerare anche il caso nel quale una variabile viene rimossa dall’active set. Il problema può essere
efficientemente risolto applicando un’operazione di downdate del triangolo di Cholesky Rk con
un costo pari ad O(m2 ) (Golub e Van Loan, 1996).
55
5.4
5.4. L’ OPERATORE DI SELEZIONE E LASTIC N ET
L’operatore di selezione Elastic Net
L’Elastic Net proposto da Zou e Hastie (2005) è un recente modello di regolarizzazione e selezione di variabili che cerca di superare alcune delle limitazioni di Lasso senza però perdere le
sue importanti proprietà di selezione di variabili. In particolare, l’obiettivo è quello di replicare
le capacità di selezione migliorando l’accuratezza del modello e permettendo la selezione di
più di n variabili nel caso m > n.
Zou e Hastie (2005) presentano una prima formulazione intuitiva di Elastic Net come combinazione di Lasso e della Ridge Regression. Questo modello presenta però dei difetti di overshrinking ed è per questo denominato naïve. Una modifica al valore dei coefficienti calcolati
risolve il problema, come vedremo nella sezione 5.4.2.
5.4.1
Naïve Elastic Net
Supponiamo siano sempre valide le condizioni di standardizzazione definite nelle equazioni in
(5.2) sulla matrice dei dati X = (x1 , x2 , . . . , xm ) e sul vettore delle risposte y = (y1 , y2 , . . . , yn )T .
Per ogni λ1 , λ2 ≥ 0 possiamo definire il naïve Elastic Net come il minimizzatore della
seguente equazione
β̂ N EN = argmin {RSS(β) + λ2 R(β) + λ1 L(β)},
(5.66)
β
oppure può essere definito come una stima OLS penalizzata, attraverso il seguente problema
di ottimizzazione
β̂ N EN = argmin {RSS(β)}
soggetto a (1 − α)L(β) + αR(β) ≤ t,
(5.67)
β
dove α = λ2 /(λ1 + λ2 ), ed il vincolo sulla stima OLS è una combinazione convessa dei vincoli
di Lasso e della Ridge Regression (equazioni (5.53) e (5.56)). Possiamo infatti vedere in figura 5.4 un confronto tra le regioni di ammissibilità dei vincoli Lasso, Elastic Net e della Ridge
Regression. Per ogni α > 0 il vincolo è strettamente convesso e conserva le caratteristiche di
entrambe le tipologie di vincoli.
Un’importante caratteristica del naïve Elastic Net è che l’equazione di minimizzazione in
(5.66) è equivalente ad un problema di ottimizzazione di tipo Lasso su dati artificiali. Questo
ci permette di sfruttare l’efficienza computazionale di LARS per risolvere il naïve Elastic Net.
Vediamo infatti che data la coppia (X, y) e la coppia (λ1 , λ2 ) possiamo costruire la coppia di
dati artificiali (X∗ , y∗ ) nel seguente modo
1
X
∗
√
X = √
(5.68)
λ2 I
1 + λ2
y
∗
y =
,
(5.69)
0
con X∗ ∈ R(n+m)×m e y∗ ∈ Rn+m . Definiamo inoltre,
λ1
λ∗ = √
1 + λ2
p
∗
β = 1 + λ2 β.
(5.70)
(5.71)
56
Figura 5.4: Confronto tra le regioni di ammissibilità dei vincoli Lasso, Elastic Net ottenuta con
α = 0.5 e della Ridge Regression.
Possiamo quindi riformulare il naïve Elastic Net in (5.66) come
β̂ ∗ = argmin {RSS(β ∗ ) + λ∗ L(β ∗ )}
β∗
dove
β̂ N EN = √
1
β̂ ∗ .
1 + λ2
(5.72)
(5.73)
Notiamo subito che il numero di osservazioni artificiali nella matrice dei dati X∗ è n + m e
questo ci permette di superare il primo limite di Lasso, ovvero la saturazione dopo aver incluso
nel modello n variabili in caso di m > n. Il naïve Elastic Net, quindi, può potenzialmente
selezionare tutte le m variabili in tutte le situazioni. Inoltre, data la natura della relazione in
(5.73) tra la stima del naïve Elastic Net e la stima Lasso non si perdono le proprietà di selezione
statistica delle variabili.
Un’altra importante caratteristica esibita dal naïve Elastic net è l’effetto di raggruppamento:
i coefficienti di un gruppo di variabili altamente correlate tendono ad essere uguali (a meno
di un cambio di segno se sono inversamente correlate). In particolare, nella situazione estrema nella quale alcune variabili sono esattamente le stesse, il metodo di regressione tende ad
assegnare lo stesso valore ai coefficienti.
Se consideriamo un generico problema di regressione
β̂ = argmin {RSS(β) + λJ(β)},
(5.74)
β
dove J(·) è una funzione di penalty positiva per β 6= 0, il seguente Lemma, del quale è fornita
57
una dimostrazione da Zou e Hastie (2005), ci fornisce la spiegazione per la quale il naïve Elastic
Net esibisce questa proprietà:
Lemma 5.4.1. Assumiamo che xi = xj , i, j ∈ {1, . . . , M }.
(a) Se J(·) è strettamente convessa, allora β̂i = β̂j , ∀λ > 0.
(b) Se J(β) = |β|1 , allora β̂i β̂j ≥ 0 e β ∗ è un altro minimizzatore dell’equazione (5.74), tale che

se k 6= i e k 6= j,
 β̂k
β̂k∗ =
(β̂ + β̂j ) · s
se k = i,
 i
(β̂i + β̂j ) · (1 − s) se k = j,
per ogni s ∈ [0, 1].
Il Lemma evidenzia una chiara distinzione tra le funzioni di penalty strettamente convesse e
quelle di tipo Lasso. La convessità stretta garantisce l’effetto di raggruppamento nella situazione di variabili identiche. Il vincolo Lasso, invece non fornisce un’unica soluzione. La funzione
di penalty del naïve Elastic Net con λ2 > 0 essendo strettamente convessa ci garantisce l’effetto
di raggruppamento.
5.4.2
Risolvere il problema dell’overshrinking
Zou e Hastie (2005) dimostrano che il naïve Elastic Net, anche se risolve il problema della saturazione nel caso m > n, ed evidenzia una capacità di selezione di gruppi di variabili correlate,
ha delle prestazioni poco soddisfacenti a meno di usare un valore di α tale che il problema sia
molto vicino a Lasso o alla Ridge Regression, motivo per il quale è stato denominato naïve.
Il problema risiede nel fatto che il naïve Elastic Net è in realtà una procedura in due fasi: per
ogni λ2 fissato vengono prima calcolati i coefficienti della Ridge Regression che poi vengono
nuovamente ridotti (fino ad annullarne alcuni) da Lasso. Questa doppia procedura di riduzione dei coefficienti non è necessaria e non aiuta a migliorare il risultato. Per risolvere questo
problema, considerando il naïve Elastic Net come problema di tipo Lasso (equazione 5.72), definiamo la seguente relazione tra la stima dell’Elastic Net (corretto) β̂ EN e la stima Lasso sui
dati artificiali:
p
β̂ EN = 1 + λ2 β̂ ∗ .
(5.75)
∗
Ricordando la relazione in (5.73) tra β̂ EN e β̂ , otteniamo che
β̂ EN = (1 + λ2 )β̂ N EN .
(5.76)
I coefficienti della stima Elastic Net sono quindi i coefficienti scalati di un fattore (1 + λ2 ) della stima del naïve Elastic Net. Questa trasformazione preserva le proprietà di selezione delle
variabili ed è il modo più semplice per eliminare il doppio effetto di riduzione sui coefficienti.
5.4.3
Soluzione dei problemi di tipo Elastic Net
L’algoritmo proposto da Zou e Hastie (2005) per risolvere Elastic Net, denominato LARS-EN,
è una variante dell’algoritmo LARS (sezione 5.3.1) proposto da Efron et al. (2004) in quanto,
fissato λ2 , l’Elastic Net è un problema Lasso su dati artificiali. LARS infatti, può essere utilizzato per calcolare l’intero path delle soluzioni Elastic Net in modo efficiente fissato λ2 . È molto
importante notare che per m n, i dati artificiali sono composti da m + n osservazioni ed m
58
variabili, di conseguenza l’efficienza di LARS si riduce notevolmente. Possiamo però migliorare l’aspetto computazionale sfruttando a nostro vantaggio la struttura sparsa della matrice X∗ .
In particolare uno dei punti computazionalmente più onerosi dell’algoritmo LARS è il calcolo,
ad ogni passo, dell’inversa della matrice
∗
Gk = X∗T
k Xk
(5.77)
dove k è il passo corrente. Abbiamo visto nella sezione 5.2 come sia possibile migliorare le
prestazioni aggiornando la fattorizzazione di Cholesky della matrice Gk−1 calcolata al passo
precedente. Notiamo inoltre che, facendo riferimento alla definizione della matrice dei dati
artificiali (5.68), otteniamo che
∗
Gk = X∗T
k Xk
=
=
=
Gk =
T
1
1
X
X
k
k
√
√
√
√
λ2 I
λ2 I
1 + λ2
1 + λ2
T 1
√Xk
√Xk
λ2 I
λ2 I
1 + λ2
√ Xk
1
T
Xk λ2 I √
λ2 I
1 + λ2
1
(XT Xk + λ2 I).
1 + λ2 k
(5.78)
Possiamo quindi, con delle minime modifiche algoritmiche, effettuare sia l’aggiornamento che
il downdating della fattorizzazione di Cholesky della matrice XTk−1 Xk−1 + λ2 I calcolata al passo
∗
precedente (invece che sulla matrice X∗T
k−1 Xk−1 ). Ovviamente, anche nel calcolo delle correla∗
zioni correnti tra le variabili artificiali xj e gli errori residui è possibile far leva sul fatto che ogni
variabile ha m − 1 elementi nulli. Difatti è possibile eseguire l’intero algoritmo LARS-EN senza
dover calcolare a priori la matrice X∗ ma effettuando solo le opportune modifiche nel calcolo
delle altre quantità rispetto all’originale algoritmo LARS.
L’algoritmo LARS-EN aggiorna sequenzialmente la stima Elastic Net e nel caso m n, non
è in genere necessario eseguire l’intero algoritmo fino ad includere nel modello le m variabili.
Se fermiamo l’algoritmo dopo p passi, la complessità computazione risulta essere un O(m3 +
pm2 ).
Nell’applicazione dell’algoritmo ha un ruolo importante anche la scelta dei parametri di
input. L’Elastic Net è stato definito in funzione della coppia (λ1 , λ2 ), ma questa non è l’unica
scelta possibile. Nel Lasso sono parametri convenzionali sia la norma `1 dei coefficienti (t =
P
P
max
|β̂j |) che il suo valore normalizzato s = t/ |β̂jmax | (con β̂
= β̂ OLS ). Anche per Elastic
Net possiamo utilizzare come parametri le coppie (t, λ2 ) o (s, λ2 ). Il vantaggio di usare s è che
quest’ultima assume sempre un valore nell’intervallo [0, 1). Nell’algoritmo LARS, è possibile
utilizzare anche il numero di passi k come parametro e questa opzione è ereditata dal LARSEN.
In particolare, una metodologia classica adottabile in questo caso è la K-fold cross validation
(di solito con K = 10). Suddividiamo le osservazioni in K sottogruppi disgiunti e definiamo
una griglia relativamente piccola di valori per λ2 . Per ognuno di questi valori selezioniamo a
turno uno dei K gruppi per validare i modelli, sull’intero path di soluzioni, calcolati da LARSEN sul training set composto dai restanti K − 1 gruppi. Il valore scelto di λ2 sarà quello con il
minore errore di cross-validazione.
Per ogni λ2 , il costo computazione è pari a quello di K stime OLS. Nel caso n > m la cross
validation non è molto onerosa, mentre nel caso di m n il suo peso computazionale cresce
59
5.5. I NTERPRETAZIONE DI L ASSO ED E LASTIC N ET
linearmente con m, ma possiamo scegliere di fermare ogni volta l’algoritmo dopo p < m passi
se l’obiettivo è quello di selezionare un numero di variabili minore di m.
5.5
Interpretazione di Lasso ed Elastic Net
Concludiamo questo capitolo analizzando attraverso una caso particolare le differenze nell’applicazione dei diversi termini di regolarizzazione presentati mettendone in evidenza la
relazione con la stima OLS.
Considerando il caso di una matrice di input ortonormale X, sia la stima Lasso che quella
naïve Elastic Net hanno una soluzione esplicita, così come la Ridge Regression dove, ricordando
che la stima OLS nel caso di input ortonormale è uguale a
β̂ OLS = (XT X)−1 XT y = I−1 XT y = IXT y = XT y,
(5.79)
abbiamo che
β̂ ridge = (XT X + λ2 I)−1 XT y = (I + λ2 I)−1 XT y = ((1 + λ2 )I)−1 XT y =
1
XT y,
1 + λ2
(5.80)
ottenendo la seguente relazione tra la stima OLS e la Ridge Regression:
β̂ ridge =
β̂ OLS
.
1 + λ2
(5.81)
Con un ragionamento analogo Tibshirani (1996) mostra che
β̂jlasso = sign(β̂jOLS )(|β̂jOLS | − λ1 )+
(5.82)
dove l’operazione effettuata sui coefficienti β̂jOLS della stima ai minimi quadrati è quella di soft
thresholding.
Inoltre Zou e Hastie (2005) ci mostrano la seguente relazione tra la stima OLS, la stima Lasso
e la stima del naïve Elastic Net:
β̂jN EN = sign(β̂jOLS )
(|β̂jOLS | − λ1 )+
β̂jlasso
=
.
1 + λ2
1 + λ2
(5.83)
Riassumiamo in tabella 5.1 le relazioni tra i vari stimatori che è visualizzata graficamente
in figura 5.5, dove è evidente anche il processo di overshrinking del naïve Elastic Net in quanto possiamo osservare come quest’ultimo può essere visto come una procedura in due passi:
applicazione della ridge regression, con relativa riduzione dei coefficienti, seguita dall’applicazione di Lasso per il thresholding. Nel caso ortonormale inoltre, è facile verificare che l’Elastic
Net si riduce a Lasso, in quanto moltiplichiamo per (1 + λ2 ) la stima naïve.
Stimatore
Ridge Regression
Lasso
Elastic Net (naïve)
Formula
β̂jOLS /(1 + λ2 )
sign(β̂jOLS )(|β̂jOLS | − λ1 )+
sign(β̂jOLS )(|β̂jOLS | − λ1 )+ /(1 + λ2 )
Tabella 5.1: Relazione tra i vari stimatori in caso di input ortonormale. La linea tratteggiata è
inserita come riferimento a 45◦ . Dal grafico si vede la trasformazione che che gli stimatori effettuano
sulla stima ai minimi quadrati ordinaria
60
Figura 5.5: Resoconto delle trasformazioni che i vari stimatori effettuano sulla stima OLS in caso di
matrice di input ortonormale
5.6
Caso di studio
In questa sezione finale del capitolo presentiamo un caso di studio con il quale mettere maggiormente in evidenza le differenze tra i vari algoritmi di selezione di variabili: LAR, LARS e
LARS-EN. Il dataset che utilizzeremo è estraneo all’analisi della forma ed è lo stesso utilizzato
nel capitolo 4 come caso di studio.
Ricordiamo comunque che il dataset che adotteremo è composto da n = 442 osservazioni su
m = 10 variabili alle quali è associata un’etichetta che fornisce una misura della progressione
della malattia (diabete) rispetto ad una baseline. La matrice dei dati è stata opportunamente
centrata e standardizzata in quanto le misurazioni non hanno ordini di grandezza omogenei.
In questo capitolo utilizzeremo una coppia di strumenti grafici per rappresentare i risultati dei tre algoritmi. Visualizzeremo sia l’intero path delle soluzioni calcolate dagli algoritmi
(ricordando che questo è possibile per la natura stessa dell’algoritmo LAR alla base di LARS
e LARS-EN) e l’andamento della correlazione di ogni variabile con la soluzione durante tutti i passi dell’algoritmo. Il primo grafico mette in relazione il valore (assoluto) dei singoli
coefficienti calcolati dal modello con la norma del vettore dei coefficienti stessi.
Il primo aspetto che vale la pena sottolineare è la forte similitudine tra il path delle soluzioni LAR in figura 5.6(a) e quelle delle soluzioni Lasso in figura 5.6(c) calcolate attraverso
l’algoritmo LARS, come descritto in questo capitolo. Notiamo, però, un numero maggiore di
passi effettuati da LARS, dovuti all’uscita di una delle variabili dal modello al settimo passo.
Nelle figure 5.6(e) e 5.6(f), invece, sono rappresentati gli effetti dell’algoritmo LARS-EN
sul medesimo dataset. In questo caso abbiamo provato a generare un modello per λ2 = 1.0
ed uno per λ2 = 1000.0, ottenendo dei path delle soluzione molto differenti data la forte
regolarizzazione sulla norma `2 imposta nel secondo dei due casi.
61
(a) Valori dei coefficienti calcolati ai passi dell’algoritmo LAR.
(b) Correlazioni (in valore assoluto) tra le variabili e
l’errore residuo ad ogni passo dell’algoritmo LAR.
(c) Valori dei coefficienti calcolati ai passi dell’algoritmo LARS.
(d) Correlazioni (in valore assoluto) tra le variabili e
l’errore residuo ad ogni passo dell’algoritmo LARS.
(e) Valori dei coefficienti calcolati ai passi dell’algoritmo LARS-EN, con λ = 1.0.
(f) Valori dei coefficienti calcolati ai passi dell’algoritmo LARS-EN, con λ = 1000.0.
Figura 5.6: Risultati dell’applicazione degli algoritmi LAR, LARS e LARS-EN sul dataset utilizzato
come caso di studio.
62
CAPITOLO 6
E SPERIMENTI E RISULTATI
Contenuto
6.1
6.2
6.3
6.4
6.5
Descrizione dei dataset . . . . . . . . . . . . . . . . . . . . . . .
6.1.1 Mani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.2 Espressioni facciali . . . . . . . . . . . . . . . . . . . . . .
6.1.3 Ippocampi . . . . . . . . . . . . . . . . . . . . . . . . . . .
Problema della corrispondenza su superfici prive di landmark
Allineamento delle forme attraverso l’analisi di Procrustes . .
Decomposizione dei modi di variazione . . . . . . . . . . . . .
Decomposizione sparsa dei modi di variazione . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
64
64
66
67
68
71
73
77
Nei capitoli precedenti abbiamo trattato diversi aspetti legati alla shape analysis e in questo
capitolo cercheremo di mettere in evidenza sperimentalmente le potenzialità che le varie tecniche presentate dimostrano teoricamente di avere. Ci occuperemo sia degli aspetti di preprocessing della forma e della loro rappresentazione, sia della generazione di modelli di variabilità
attraverso decomposizione (sparsa) dei modi di variazione (capitoli 2 e 4).
Schematizzando, nelle sezioni che seguono, dopo la descrizione dei dataset utilizzati (sezione 6.1) ci occuperemo di:
1. Illustrare le proprietà della metodologia descritta nel capitolo 3 per affrontare il problema
della corrispondenza su superfici tridimensionali in assenza di landmark già annotati.
2. Mettere in evidenza la necessità di trattare le forme descritte da landmark attraverso l’analisi di Procrustes, allo scopo di rimuovere effetti di scala, traslazione e rotazione prima
di generare i modelli di variabilità.
3. Mostrare gli effetti positivi e negativi delle tecniche di decomposizione classica dei modi
di variazione (Principal Component Analysis).
4. Evidenziare l’apporto delle tecniche di decomposizione sparsa (Sparse PCA) alla shape
analysis dimostrando sia gli effetti sull’interpretabilità, sia analizzando la relazione tra la
correlazione statistica catturata dal modello e la decomposizione spazialmente localizzata dei modi
di variazione.
63
6. E SPERIMENTI E RISULTATI
6.1
6.1. D ESCRIZIONE DEI DATASET
Descrizione dei dataset
Prima di descrivere nel dettaglio i risultati sperimentali ottenuti, introduciamo in questa sezione i dataset a nostra disposizione. Si tratta in particolare di due dataset di landmark bidimensionali annotati manualmente1 e di un dataset di superfici tridimensionali senza alcun tipo
di annotazione con il quale avremo la possibilità di sperimentare gli approcci di generazione
automatica di landmark risolvendo il problema della corrispondenza.
6.1.1
Mani
Il dataset messo a disposizione da Stegmann e Gomez (2002) è composto da 40 immagini di
mani (sinistre) acquisite ad una dimensione di 1600 × 1200 pixel. Le mani fanno riferimento a
4 diverse persone, ognuna delle quali ha contribuito con 10 immagini rispettando il seguente
schema:
• le prime 6 immagini corrispondono ad una sequenza dove la mano passa da una configurazione di massima apertura ad una di massima contrazione (un esempio è visualizzato
sulle prime due righe della figura 6.1).
• le ultime 4 immagini (un esempio è visualizzato sull’ultima riga della figura 6.1) sono state scelte arbitrariamente dalle 4 persone che si sono prestate alla costruzione del dataset
imponendo loro due semplici vincoli:
– il palmo della mano doveva restare appoggiato sul tavolo;
– il contorno della mano doveva avere una forma semplice, ad esempio non era permesso incrociare le dita.
Sul set di immagini così acquisite sono stati posizionati 56 landmark sul contorno della
mano secondo questa distribuzione:
• 43 landmark anatomici posizionati sui bordi tra l’avambraccio e la mano, in corrispondenza delle nocche e delle unghie;
• 9 landmark matematici (8, 12, 18, 23, 28, 33, 38, 43, 48) posizionati nei punti a massima curvatura, punta delle dita e angolo tra due di esse;
• 4 pseudo-landmark (2, 11, 54, 55) posizionati sempre manualmente per minimizzare la
distanza della spezzata definita dai 56 landmark e il bordo “reale” della mano.
In figura 6.2 sono mostrate le annotazioni sulla mano completamente chiusa e completamente aperta della prima serie di immagini acquisite (la prima sulla prima riga e l’ultima sulla
seconda riga nella figura 6.1).
1
È possibile reperire entrambi i dataset all’indirizzo http://www2.imm.dtu.dk/~aam/.
64
Figura 6.1: Prima serie di 10 immagini di mani sulle quali sono stati posizionati i landmark che
ne descrivono il contorno. Le prime 6 immagini in alto descrivono una sequenza di chiusura della
mano, le 4 immagini restanti si riferiscono a posizioni arbitrarie.
(a) Annotazione eseguita su una configurazione di
mano completamente aperta.
(b) Annotazione eseguita su una configurazione di
mano completamente chiusa.
Figura 6.2: Esempi di annotazione dei 56 landmark sul dataset di mani.
65
Figura 6.3: Serie di 6 immagini che mostra le diverse pose con le quali è stato raccolto il dataset.
L’ultima immagine della sequenza è completamente arbitraria ed ognuno dei 40 individui ha fornito
una sua espressione.
6.1.2
Espressioni facciali
Come il precedente, anche questo dataset che prende il nome di IMM Face Database, è stato
reso disponibile da Stegmann et al. (2003) ed è stato utilizzato nell’ambito di ricerche legate al
riconoscimento facciale attraverso descrittori di forma.
Il database comprende 240 immagini di 40 differenti volti umani, tutti senza occhiali. Tra
gli individui si conta la presenza di 7 donne e 33 uomini. Le immagini hanno una dimensione
di 640 × 480 pixel ed ogni individuo si è prestato ad essere fotografato in 6 diverse pose:
1. viso frontale, espressione neutrale;
2. viso frontale, espressione “sorridente”;
3. viso ruotato di circa 30◦ alla destra nell’individuo, espressione neutrale;
4. viso ruotato di circa 30◦ alla sinistra nell’individuo, espressione neutrale;
5. viso frontale, espressione neutrale, illuminazione alla sinistra dell’individuo2 ;
6. espressione arbitraria.
In figura 6.3 è stata riportata una parte del dataset, in particolare si tratta delle 6 diverse pose
del primo individuo.
Le immagini ottenute sono state annotate attraverso l’uso di 58 landmark suddivisi in 7
diversi gruppi (che formano tre path chiusi e quattro aperti): sopracciglia, occhi, naso, bocca e
mento. Un esempio di annotazione è visibile in figura 6.4 dove i vari gruppi di landmark sono
mostrati con diversa colorazione. Si tratta della prima e dell’ultima immagine mostrate nella
sequenza in figura 6.3.
2
Nei nostri esperimenti, non lavorando direttamente sulle immagini l’illuminazione delle stesse non influisce in
alcun modo sui risultati, tranne per il fatto che questo tipo di immagine, di fatto, raddoppia il numero di espressioni
di tipo 1 nel dataset.
66
(a) Annotazione eseguita su un individuo in posizione frontale e con espressione neutrale.
(b) Annotazione eseguita su un individuo in posizione arbitraria.
Figura 6.4: Esempi di annotazione dei 58 landmark sul dataset di espressioni facciali.
6.1.3
Ippocampi
Il dataset di superfici ippocampali, come descritto nel capitolo 3, collega questo lavoro di Tesi
al progetto INFN MAGIC-V di segmentazione di volumi cerebrali e analisi del grado di atrofia
dell’area ippocampale (Aiello et al., 2009; Calvini et al., 2008).
In figura 6.5 sono mostrati tutti gli 8 template in ordine decrescente di atrofia, dove è stato
messo in evidenza il template selezionato come riferimento per la generazione e decimazione
della mesh. La scelta è caduta sul template n◦ 4 per due principali motivi: rappresenta un prototipo di ippocampo con un grado di atrofia intermedio e allo stesso tempo la superficie, essendo
continua e senza cavità (rispetto ad alcuni degli altri template), permette la generazione di una
mesh uniforme. L’algoritmo dei marching cubes seguito dall’algoritmo di decimazione (capitolo 3) produce su questa superficie 1352 landmark permettendoci di sperimentare gli algoritmi
di decomposizione dei modi di variazione su dimensionalità molto elevate.
Oltre ai template, abbiamo a disposizione 21 segmentazioni della pipeline su volumi MRI.
Ogni segmentazione è associata alla relativa matrice di deformazione del template rispetto alla
segmentazione stessa. Schematizzando, i dati che utilizzeremo sono composti da:
• 1 segmentazione ippocampale manuale da utilizzare come riferimento (template n◦ 4);
• 21 campi di deformazione dal template selezionato all’ippocampo segmentato.
Con questo insieme di dati, vedremo nella prossima sezione i risultati relativi alla generazione
automatica della mesh di landmark e alla soluzione del problema della corrispondenza.
67
6.2. P ROBLEMA DELLA CORRISPONDENZA SU SUPERFICI PRIVE DI LANDMARK
Figura 6.5: Segmentazioni manuali di 8 ippocampi destri ordinati secondo il grado di atrofia crescente. Queste segmentazioni (insieme alle corrispondenti box non segmentate in scala di grigi) sono utilizzate dalla pipeline di segmentazione MAGIC-V. L’ippocampo evidenziato in rosso è stato
utilizzato per la generazione della mesh di riferimento.
6.2
Problema della corrispondenza su superfici prive di landmark
Come descritto nel capitolo 3, l’approccio adottato in questa Tesi per risolvere il problema della
corrispondenza sulle superfici 3D degli ippocampi segmentati, fa uso di un’operazione di warping di una mesh di riferimento attraverso una serie di campi di deformazione. Percorriamo le
varie fasi di questo processo e visualizziamo i risultati ottenuti.
L’algoritmo dei marching cubes è stato applicato al template selezionato ed evidenziato in
figura 6.5. La mesh risultante è composta da 2132 landmark ed è visualizzata in figura 6.6(a). È
stato quindi utilizzato l’algoritmo di decimazione con varie percentuali di riduzione della mesh
conservando sempre la topologia complessiva della mesh. Questo ha imposto un limite superiore alla percentuale di riduzione dei punti e ci ha permesso di produrre la mesh visualizzata
in figura 6.6(b) composta da 1352 landmark.
La mesh di riferimento così ottenuta è stata deformata attraverso i campi di deformazione
calcolati dalla pipeline di segmentazione. Ognuno di essi definisce lo spostamento necessario
di ogni pixel della scatola ippocampale per “trasformare” l’ippocampo contenuto nel template
di riferimento nell’ippocampo contenuto nella scatola estratta dalla MRI in input. In figura 6.7
68
(a) Mesh ottenuta dopo l’applicazione dell’algoritmo
dei marching cubes sulla superficie del template n◦ 4.
(b) Mesh ottenuta dopo l’applicazione dell’algoritmo
di decimazione sulla mesh densa in figura 6.6(a).
Figura 6.6: Mesh ottenute durante la fase di generazione automatica dei landmark sulle superfici
ippocampali.
vediamo graficamente un esempio di uno dei campi di deformazione utilizzati. I vettori indicano la direzione dello spostamento e i loro colori ne indicano l’intensità (dall’azzurro al rosso
scuro per modulo crescente). In figura 6.7(a) l’origine dei vettori è posizionata in corrispondenza del punto di partenza (nel template), mentre nella figura 6.7(b) è visualizzato il punto
di destinazione (nella nuova scatola estratta). Nella figura 6.8 è visualizzato il risultato del
warping su 4 delle 21 mesh ippocampali appartenenti al dataset. Nella figura le mesh sono sovrapposte e colorate diversamente. La mesh di colore bianco corrisponde a quella del template
di riferimento. Possiamo notare da questo sottoinsieme dei dati come la variabilità sia diffusa
su tutta la superficie, dalla testa alla coda dell’ippocampo rendendo difficile individuare visivamente qualsiasi tipo di pattern presente nei dati stessi. Ad ogni modo, il risultato che ci interessa sottolineare in questo esperimento è legato alla capacità di questo approccio di sfruttare
in modo efficiente il funzionamento della pipeline MAGIC-V e di risolvere il problema della
corrispondenza. Utilizzando infatti i campi di deformazione per “trasferire” i landmark dalla
superficie del template di riferimento alle 21 superfici segmentate non perdiamo l’ordinamento dei landmark che, mantenendo la loro distribuzione topologica, vengono spostati sul punto
corrispondente alla nuova superficie. Abbiamo così ottenuto delle rappresentazioni sufficientemente fedeli delle superfici segmentate, che possono quindi essere utilizzare per costruire i
modelli di variabilità, come vedremo nei test proposti nelle prossime sezioni.
69
(a) Esempio di campo di deformazione dove i vettori,
posizionati sui punti del template di origine, indicano
direzione e intensità dello spostamento da effettuare.
(b) Esempio di campo di deformazione dove i vettori, posizionati sui punti della box di destinazione, indicano direzione e intensità dello spostamento
effettuato.
Figura 6.7: Campi di deformazione utilizzati per la generazione del dataset di forme rappresentate
attraverso landmark tridimensionali.
Figura 6.8: Esempio di deformazione della mesh di riferimento (in bianco) attraverso l’applicazione
di 4 diversi campi di deformazione.
70
6.3
6.3. A LLINEAMENTO DELLE FORME ATTRAVERSO L’ ANALISI DI P ROCRUSTES
Allineamento delle forme attraverso l’analisi di Procrustes
Ci occuperemo adesso di analizzare gli effetti ottenuti sulle forme descritte da landmark dopo
l’applicazione dell’analisi di Procrustes. Per motivi di visualizzazione presenteremo i risultati
relativi ai due dataset di landmark bidimensionali in quanto la densità della mesh 3D applicata
sugli ippocampi non permette una chiara visualizzazione degli effetti dell’allineamento.
La matrici di grafici utilizzati in questa sezione (figure 6.9 e 6.10) sono organizzate in questo
modo:
• sulla prima riga è visualizzato il dataset nel suo stato originale al quale è stata applicata
un’operazione di centramento sull’origine;
• sulla seconda riga è visualizzato il dataset dopo l’applicazione dell’analisi di Procrustes
generalizzata (rimozione di effetti di traslazione, scala e rotazione);
• sulla prima colonna sono visualizzati i contorni delle forme appartenenti al dataset con
evidenza dei landmark e dove ogni forma è rappresentata con un diverso colore;
• sulla seconda colonna sono visualizzati i landmark delle forme appartenenti al dataset
dove ogni gruppo (in letteratura chiamato cloud, nuvola) è rappresentato con un diverso
colore.
Inoltre nella prima colonna di grafici è visualizzata, con un contorno nero più marcato, la forma media costruita dall’algoritmo di allineamento. Possiamo notare nelle figure 6.9 e 6.10 che
nel primo grafico in alto a sinistra la forma media evidenziata corrisponde al valore di inizializzazione dell’algoritmo. In entrambi i casi è stata utilizzata come forma iniziale la prima
appartenente al dataset.
L’effetto ottenuto è evidente confrontando le immagini sulla prima riga e quelle sulla seconda. Osservando i contorni si nota come sia le mani che le espressioni facciali siano state
scalate e opportunamente ruotate in modo da mantenerne la morfologia e limitando la distanza tra i landmark corrispondenti. Osservando invece le nuvole di landmark nei grafici
sulla destra si nota come ogni singolo gruppo di landmark possa essere descritto da una distribuzione gaussiana multivariata. Questa ipotesi, evidente visivamente, è una giustificazione
all’approccio adottato di generazione dei modelli di variabilità attraverso l’uso di tecniche di
decomposizione lineare come la PCA.
71
6.3. A LLINEAMENTO DELLE FORME ATTRAVERSO L’ ANALISI DI P ROCRUSTES
Figura 6.9: Risultato dell’applicazione dell’analisi di Procrustes generalizzata al dataset di mani
annotate. In alto il dataset prima dell’allineamento, in basso il dataset allineato.
Figura 6.10: Risultato dell’applicazione dell’analisi di Procrustes generalizzata al dataset di
espressioni facciali annotate. In alto il dataset prima dell’allineamento, in basso il dataset allineato.
72
6.4
6.4. D ECOMPOSIZIONE DEI MODI DI VARIAZIONE
Decomposizione dei modi di variazione
In questo test applicheremo la decomposizione dei modi di variazione attraverso l’uso della
Principal Component Analysis ordinaria su tutti e tre i dataset. Tutte le forme sono state precedentemente allineate attraverso l’analisi di Procrustes generalizzata e linearizzate come descritto nel capitolo 2 in modo da formare tre matrici aventi sulle righe il numero di forme e
sulle colonne il numero di landmark moltiplicato per il numero di coordinate:
• la matrice delle mani ha dimensione 40 × 112 (56 landmark · 2 dimensioni);
• la matrice delle espressioni facciali ha dimensione 240 × 116 (58 landmark · 2 dimensioni);
• la matrice degli ippocampi ha dimensione 21 × 4056 (1352 landmark · 3 dimensioni).
I risultati in questa (e nella prossima) sezione saranno presentati attraverso l’ausilio di due
strumenti. In una tabella mostreremo la varianza spiegata dalle componenti principali indicando il numero di elementi non nulli (loadings) sul vettore (indice di sparsità della componente
principale). Limitandoci alle prime 12 componenti principali (che in tutti e tre i casi sono in
grado di catturare un’alta percentuale di variabilità) mostreremo graficamente i modi di variazione associati ad ognuna delle componenti. Il grafico è composto, per i dataset 2D, da una
matrice 3 × 4 di immagini associate, in ordine, alle prime 12 componenti principali. Per il dataset di ippocampi si è ritenuto sufficiente mostrare solo le prime 4 componenti principali, in
quanto la visualizzazione degli effetti prodotti comunque meno intuitiva e l’aggiunta di altre
immagini non aiuta nell’interpretazione dei risultati. Su ogni grafico è visualizzato un contorno di colore nero che corrisponde alla forma media x̄ calcolata durante l’analisi di Procrustes, e
quattro altri contorni ognuno di un diverso colore generati variando la forma media attraverso
la componente principale associata al grafico e rispettandone la varianza spiegata. Più precisamente (per maggiori dettagli si veda il capitolo 2), sia Ũ la matrice con le prime 12 componenti
principali e sia
ỹ = (0, . . . , 0, bi σi , 0, . . . , 0)T ∈ R12 ,
(6.1)
dove σi è la deviazione standard dei dati sulla componente principale, abbiamo “ricostruito” 4
forme appartenenti alla popolazione statistica
x̃ ≈ x̄ + Ũỹ,
(6.2)
associando al valore di bi un colore secondo la tabella 6.1. Per il dataset 3D di ippocampi si è
preferito, inoltre, non visualizzare direttamente le mesh di punti (o la triangolazione), in quanto
la relazione tra le varie superfici risultava poco visibile. In alternativa si è preferito (utilizzando
gli stessi colori) visualizzare le superfici piene a partire dalle mesh “ricostruite”.
Colore
blu
ciano
giallo
rosso
bi
−2.5
−1.0
+1.0
+2.5
Tabella 6.1: Associazione dei colori alle forme generate rispetto ai vari modi di variazione.
73
PC
PC1
PC2
PC3
PC4
PC5
PC6
PC7
PC8
PC9
PC10
PC11
PC12
% Varianza
54.29%
17.72%
8.93%
6.35%
4.26%
2.08%
1.52%
1.04%
0.71%
0.46%
0.39%
0.32%
% Var. Cumulata
54.29%
72.01%
80.94%
87.29%
91.55%
93.63%
95.15%
96.19%
96.91%
97.37%
97.76%
98.07%
# Loadings 6= 0
112
112
112
112
112
112
112
112
112
112
112
112
Tabella 6.2: Varianza spiegata dalle prime 12 componenti principali calcolate sul dataset di mani.
PC
PC1
PC2
PC3
PC4
PC5
PC6
PC7
PC8
PC9
PC10
PC11
PC12
% Varianza
26.24%
13.58%
11.83%
7.18%
5.61%
4.76%
3.32%
2.37%
2.31%
2.22%
1.89%
1.68%
% Var. Cumulata
26.24%
39.82%
51.65%
58.83%
64.44%
69.20%
72.52%
74.90%
77.21%
79.43%
81.32%
83.00%
# Loadings 6= 0
116
116
116
116
116
116
116
116
116
116
116
116
Tabella 6.3: Varianza spiegata dalle prime 12 componenti principali calcolate sul dataset di
espressioni facciali.
PC
PC1
PC2
PC3
PC4
PC5
PC6
PC7
PC8
PC9
PC10
PC11
PC12
% Varianza
18.11%
13.55%
11.99%
10.42%
6.74%
6.17%
5.28%
4.43%
3.85%
3.37%
2.67%
2.53%
% Var. Cumulata
18.11%
31.67%
43.65%
54.08%
60.82%
66.98%
72.26%
76.68%
80.53%
83.90%
86.57%
89.10%
# Loadings 6= 0
4056
4056
4056
4056
4056
4056
4056
4056
4056
4056
4056
4056
Tabella 6.4: Varianza spiegata dalle prime 12 componenti principali calcolate sul dataset di
ippocampi.
74
Figura 6.11: Visualizzazione grafica dei modi di variazione associati alle prime 12 componenti
principali calcolate sul dataset di mani.
principali calcolate sul dataset di espressioni facciali.
75
principali calcolate sul dataset di ippocampi.
Analizzando i risultati ottenuti sul dataset di mani, la prima componente principale cattura
il 54.29% di variabilità. Osservando infatti, il relativo modo di variazione in figura 6.11 notiamo
come la variazione dei landmark tende a simulare il movimento di apertura e chiusura della
mano (blu chiusa, rossa aperta) contenuto nel 60% delle immagini acquisite ed annotate. La
prima componente, però, non si limita a catturare solo questo tipo di informazione ma include anche variazioni sulla dimensione stessa della mano. Al diminuire della varianza, le altre
componenti principali catturano via via meno variabilità anche se fino alla sesta componente è
visibile una variazione su tutto il contorno della forma.
Lo stesso tipo di effetto si ottiene anche nel dataset di espressioni facciali, dove sulla prima componente, la PCA cattura quasi completamente il movimento di rotazione della testa
presente in circa il 30% delle immagini annotate. Anche in questo caso però, l’interpretazione
delle altre componenti principali risulta problematica data la presenza di variabilità diffusa in
tutti i landmark.
Sul dataset 3D le problematiche di interpretazione sono notevolmente più evidenti. C’è da
dire che il numero di osservazioni, confrontato con il numero di variabili non permette un’analisi statistica soddisfacente ma notiamo, comunque, che nelle prime 12 componenti principali catturiamo quasi il 90% della variabilità complessiva. Visivamente, in figura 6.13, è molto
difficile riuscire ad individuare ed interpretare la variabilità significativa in quanto la mesh varia su tutta la superficie. Leggermente evidente risulta, ad esempio, la variazione della coda
ippocampale sulla prima componente o la dimensione della testa nella seconda.
76
6.5
6.5. D ECOMPOSIZIONE SPARSA DEI MODI DI VARIAZIONE
Decomposizione sparsa dei modi di variazione
Presentiamo adesso i risultati ottenuti applicando la Sparse Principal Component Analysis ai
dataset a disposizione. Per la visualizzazione dei risultati utilizzeremo gli stessi strumenti
presentati per i risultati ottenuti con l’applicazione della PCA ordinaria.
L’algoritmo per il calcolo della SPCA è stato eseguito sui due dataset 2D utilizzando diversi
parametri λ2 e λ1 rispettivamente sulla penalità di tipo `2 ed `1 dei coefficienti e dove, in particolare, il valore di λ1 non è stato indicato esplicitamente. Sfruttando infatti le caratteristiche
dell’algoritmo LARS-EN, che calcola iterativamente l’intero path delle soluzioni per i diversi
valori di λ1 (fissato quello di λ2 ), abbiamo indicando in input per ogni componente principale sparsa, la percentuale di variabili da trattenere nel modello che corrisponde esattamente a
fermare l’algoritmo su un punto del path per un dato valore di λ1 .
Abbiamo utilizzato per λ2 i valori {0.01, 1.0, 1000.0} calcolando le prime 12 componenti
principali sparse con 9 diverse percentuali di variabili non nulle, dal 10% al 90% con passo
10%. In figura 6.14 sono visualizzati i 9 modi di variazione del dataset di mani catturati sulla
prima componente principale per ogni diversi valore di di percentuali di variabili e per i vari
valori di λ2 . Osservando i risultati ottenuti con λ2 = 0.01 nella figura 6.14(a)) vediamo come
un valore così basso del termine di regolarizzazione, produce delle forme non naturali con
notevoli artefatti nei contorni generati. Nelle immagini successive, figure 6.14(b) e 6.14(c), si
notano due aspetti importanti. I contorni generati sono più naturali e anche utilizzando termini
di regolarizzazione così differenti i risultati non mostrano variazioni significative. Si nota in
entrambi i casi che, all’aumentare del numero di landmark, la prima componente principale
cattura sempre più la variazione diffusa della mano convergendo ai risultati ottenuti con la
PCA ordinaria.
Lo stesso tipo di effetto si ottiene anche sul dataset delle espressioni facciali i cui risultati
sono riportati in figura 6.15. In questo caso è interessante notare come con una bassa regolarizzazione, in figura 6.15(a), bisogna raggiungere almeno la soglia del 60% di variabili prima di
avere una certa stabilità, a differenza delle due soluzioni con λ2 maggiore, nelle figure 6.15(b)
e 6.15(c), dove questa si raggiunge già con il 30% delle variabili.
Come possiamo invece notare nella figura 6.16, lavorando su forme 3D l’interpretazione
visiva richiede maggiori attenzioni e nel caso di immagini mediche è necessaria anche una
validazione clinica dei risultati ottenuti sulle correlazioni catturate tra i landmark. A livello algoritmico, data la maggiore dimensionalità dei dati, abbiamo potuto constatare tempi di
elaborazione molto più elevati rispetto ai dataset 2D, proporzionalmente con il numero di variabili non nulle richieste su ogni componente principale. Su questo dataset abbiamo provato
la SPCA calcolando componenti principali con percentuali del 5%, 10%, 15%, e 20%. Inoltre,
non abbiamo effettuato il test con il termine λ2 uguale a 0.1 in quanto il valore è troppo basso
in relazione alla differenza tra le osservazioni, appena 21, e la dimensionalità. Si nota infatti,
confrontando le figure 6.16(a) e 6.16(b) che, a differenza dei casi 2D, è presente una forte variazione tra le componenti calcolate, segno che anche 1.0 è un valore troppo basso per ottenere
risultati stabili.
Per concludere abbiamo provato ad effettuare un interessante esperimento di confronto tra
i risultati della SPCA con la PCA ordinaria. Analizzando i risultati ottenuti con le varie percentuali di variabili selezionate sulle prime 12 componenti principali, abbiamo eseguito un test, sul
dataset delle espressioni facciali che ci permette più facilmente di analizzarne gli effetti. Utilizzando un valore intermedio λ2 = 1.0 abbiamo applicato una diversa percentuale di sparsità
su ogni componente principale, allo scopo di ottenere 12 componenti principali con una varianza vicina a quella delle prime 12 componenti principali ordinarie. Questo tipo di analisi ci
permette di constatare quanto la sparsità può migliorare l’interpretabilità dei modelli tenendo
77
sotto controllo la perdita di informazione. Ricordiamo (tabella 6.3) che le prime 12 componenti
principali ordinarie catturano complessivamente l’83% della variabilità globale. In tabella 6.5
sono elencate le percentuali di varianza spiegata dalle componenti principali sparse calcolate
dove è indicata anche la percentuale di variabili selezionate su ognuna delle componenti. È
interessante notare che per catturare quasi l’82% della variabilità con le componenti principali
sparse basta trattenere il 40% delle variabili sulle prime due ed il 30% sulle altre, generando
una localizzazione spaziale della variabilità della forma. Dalla figura 6.17, infatti, possiamo
catturare due importanti informazioni:
• la prima componente principale cattura con il 40% delle variabili quasi tutta la variabilità
dovuta alla rotazione della testa, come nel caso della PCA;
• nelle altre componenti principali, la correlazione statistica catturata si traduce in correlazione spaziale, fornendo delle componenti principali associabili intuitivamente a determinate espressioni o variazioni morfologiche. Si noti ad esempio l’11a componente
principale dove la variabilità evidenzia la presenza di movimenti della bocca dovuti a
espressioni “sorridenti“.
78
(a) Risultati ottenuti con λ2 = 0.01
(b) Risultati ottenuti con λ2 = 1.0
(c) Risultati ottenuti con λ2 = 1000.0
Figura 6.14: Visualizzazione dei modi di variazione sparsi del dataset di mani. Ogni blocco si
riferisce ad un valore del parametro λ2 . I 9 modi di variazione visualizzati per i tre valori di λ2
si riferiscono alla prima componente principale calcolata con diverse percentuali di variabili non
nulle, dal 10% al 90% con passo 10%.
79
(c) Risultati ottenuti con λ2 = 1000.0
Figura 6.15: Visualizzazione dei modi di variazione sparsi delle espressioni facciali. Ogni blocco
si riferisce ad un valore del parametro λ2 . I 9 modi di variazione visualizzati per i tre valori di λ2
si riferiscono alla prima componente principale calcolata con diverse percentuali di variabili non
nulle, dal 10% al 90% con passo 10%.
80
Figura 6.16: Visualizzazione dei modi di variazione sparsi degli ippocampi. Ogni blocco si riferisce
ad un valore del parametro λ2 . I 4 modi di variazione visualizzati per i due valori di λ2 si riferiscono
alla prima componente principale calcolata con diverse percentuali di variabili non nulle, dal 5% al
20% con passo 5%.
81
PC
PC1
PC2
PC3
PC4
PC5
PC6
PC7
PC8
PC9
PC10
PC11
PC12
% Varianza
26.71%
11.77%
9.62%
7.14%
6.15%
4.85%
3.90%
2.69%
2.52%
2.33%
2.06%
2.04%
% Var. Cumulata
26.71%
38.48%
48.10%
55.24%
61.39%
66.23%
70.13%
72.82%
75.34%
77.67%
79.73%
81.77%
# Loadings 6= 0
46 (40%)
46 (40%)
46 (40%)
34 (30%)
34 (30%)
34 (30%)
34 (30%)
34 (30%)
34 (30%)
34 (30%)
34 (30%)
34 (30%)
Tabella 6.5: Varianza spiegata dalle prime 12 componenti principali sparse calcolate sul dataset di
espressioni facciali con parametro λ = 1.0. Il numero di variabili su ogni componente principale
sparse è stato scelto in modo da catturare una percentuale di varianza vicina a quella ottenuta con
la PCA ordinaria.
Figura 6.17: Visualizzazione grafica dei modi di variazione associati alle prime 12 componenti principali sparse calcolate sul dataset di espressioni facciali. Ogni componente principale ha un diverso
grado di sparsità in modo da poter catturare una varianza vicina a quella della corrispondente
componente principale ordinaria (vedi tabella 6.5)
82
CAPITOLO 7
C ONCLUSIONI
Le tecniche di shape analysis si sono affermate negli anni come uno strumento molto efficace per
risolvere numerosi problemi di Computer Vision e Pattern Recognition.
In tale ambito, negli ultimi anni, vivo interesse sia scientifico che tecnologico è stato rivolto
all’applicazione della shape analysis negli ambiti biometrico (ad esempio il riconoscimento di
volti ed espressioni facciali) e biomedicale (ovvero la stima di parametri funzionali a partire da
segmentazioni di tessuti di interesse in immagini radiologiche). In particolare, durante il lavoro
di Tesi ci siamo concentrati sui recenti lavori di ricerca riguardanti l’uso di tecniche statistiche
robuste per l’analisi e la classificazione di forme 2D e 3D in questi due ambiti. Uno dei principali contributi del presente lavoro è stato lo studio sia teorico che sperimentale del legame
esistente tra vincoli statistici (quali la sparsità del modello rispetto alle variabili di controllo) e
proprietà morfologiche delle shape analizzate.
In dettaglio, il primo problema di cui ci siamo occupati è stato la scelta dello schema di rappresentazione ottimale per le forme in esame. Al fine di effettuare questa scelta è fondamentale
mediare opportunamente tra semplicità ed efficienza delle strutture dati utilizzate, da un lato,
ed efficacia della successiva classificazione/regressione statistica, dall’altro. Come argomentato diffusamente all’interno del capitolo 3, alla luce della tipologia di dati da utilizzare e dei
successivi modelli statistici usati, si è optato per una rappresentazione basata su landmark. Tuttavia, se nell’ambito di forme 2D l’individuazione di opportuni landmark non presenta criticità
di rilievo, nel caso di forme 3D l’approccio utilizzato risulta estremamente più delicato. Infatti,
persino il posizionamento manuale di un numero sufficiente di questi punti su una superficie
tridimensionale, ottenuta ad esempio attraverso un processo di segmentazione, non è affatto
banale.
Le difficoltà nel visualizzare e confrontare visivamente forme 3D rende il task particolarmente difficile e soggetto ad errore. A questa difficoltà si aggiunge anche la necessità di applicare, sull’intero dataset, landmark corrispondenti su corrispondenti punti delle superfici per
ottenere un valido modello di variabilità. In letteratura, queste difficoltà rientrano sotto il nome di “problema della corrispondenza”. Nell’obiettivo di proporre una soluzione efficace in
un contesto reale, come l’analisi della morfologia di superfici ippocampali ottenute attraverso
la pipeline di segmentazione MAGIC-V, nei capitoli precedenti è stato descritto un approccio
basato su algoritmi di generazione di mesh dense di superficie (marching cubes) e di successiva decimazione (per ridurne la dimensionalità), associato ad operazioni di deformazione non
rigida delle mesh stesse.
Una volta ottenuto un dataset di forme 2D o 3D descritte da landmark, gli approcci classici
83
7. C ONCLUSIONI
di shape analysis prevedono, dopo una fase preliminare di allineamento delle forme attraverso
l’analisi di Procrustes, l’applicazione di tecniche di decomposizione come la Principal Component Analysis. L’obiettivo che questo tipo di approccio statistico si prepone è di separare sulle
differenti componenti principali la variabilità intrinseca nel dataset di forme. Data la natura
stessa della PCA, però, i modelli generati rendono difficile l’interpretazione dei risultati. Questo problema deriva direttamente dal fatto che la PCA, di fatto, costruisce un modello di rappresentazione delle forme attraverso meta-variabili (meta-coordinate dei landmark) che sono
combinazione lineare di tutte le variabili originali. L’analisi visiva mostra infatti come le singole
componenti principali riescano a catturare la variabilità solo in modo globale non fornendone
nessuna localizzazione spaziale.
Proprio da questo tipo di problematiche nasce lo spunto per lo studio di tecniche di decomposizione alternative. In letteratura, le soluzioni proposte sono spesso poco generali e costruite
ah hoc sullo specifico problema. Questo, ci ha portato ad esplorare le possibili metodologie capaci di fornire risultati interpretabili in modo generale. In questa fase di esplorazione, la nostra
attenzione si è rivolta alla Sparse Principal Component Analysis (SPCA), una tecnica recente i cui
effetti prodotti all’analisi della forma in applicazioni reali non sono stati ancora completamente
esplorati sperimentalmente. A differenza delle altre tecniche di decomposizione sparsa delle
componenti principali, però, la SPCA è costruita su un framework generale di regressione lineare sparsa che utilizza termini di regolarizzazione di tipo `1 ed `2 . Per questa sua caratteristica,
uno studio teorico più approfondito del framework e dei suoi effetti sull’analisi della forma può
costituire un ottimo passo verso la definizione di modelli di variabilità sempre più precisi e
migliorando i tempi computazionali di generazione. Questo è possibile principalmente attingendo dal vasto insieme delle tecniche di regressione lineare sparsa che, per i notevoli interessi
in diversi campi applicativi, è attualmente in crescente espansione.
Dall’analisi sperimentale delle componenti principali (PC) sparse generate, infatti, emergono principalmente le seguenti caratteristiche:
• i vettori delle PC sparse ottenute, pur essendo una combinazione lineare di un sottoinsieme delle variabili originali, permettono di catturare una varianza vicina a quella della
componente principale ordinaria;
• in merito al punto precedente, la percentuale delle variabili da utilizzare dipende dalla
correlazione statistica tra le stesse;
• si è osservato che la correlazione statistica tra le variabili di controllo iniziali si traduce
in variabilità spazialmente localizzata nelle variabili ottenute tramite PCA, aumentando l’interpretabilità del modello; come messo in evidenza nel capitolo 6, tale effetto si
osserva con maggiore frequenza sulle componenti principali maggiormente sparse.
Questi risultati pongono la SPCA tra gli strumenti in grado di sostituire la PCA negli approcci classici di analisi della forma sia per applicazioni di classificazione e riconoscimento,
sia nella definizione di modelli di regressione in campo medico, in associazione con dati clinici. Le problematiche attuali sono legate principalmente agli aspetti computazionali. Infatti,
per quanto gli algoritmi di regressione lineare utilizzati nell’algoritmo della SPCA esposto siano efficienti anche su dati ad alta dimensionalità, i tempi di convergenza per il calcolo delle
PC crescono in relazione a tre fattori: l’aumentare del numero di landmark che descrivono
la forma, l’aumentare del numero di componenti principali da calcolare e l’aumentare della
percentuale di variabili non nulle richieste su ognuna delle PC.
In conclusione, il contributo allo stato dell’arte sulla shape analysis è stato principalmente
orientato a fornire un’analisi teorica e sperimentale degli effetti della sparsità. In particolare
cercando di colmare quella che abbiamo sentito come una mancanza nella letteratura attuale,
84
7. C ONCLUSIONI
ovvero sperimentazioni sulla relazione tra gli aspetti statistici e gli aspetti di localizzazione
spaziale e di rappresentazione delle forme.
Gli sviluppi futuri di questa Tesi sono proprio legati ad un’evoluzione teorica e computazionale della SPCA. Essendo l’algoritmo definito attraverso algoritmi di regressione lineare
regolarizzati, la vasta letteratura disponibile nel campo dell’apprendimento statistico supervisionato, dove il problema della sparsità è sempre stato sentito in particolari applicazioni (come nella biologia computazionale), può fornire nuovi strumenti in grado di migliorare sia gli
aspetti computazionali che di accuratezza dei modelli. Quest’ultimo punto, come ovvio, richiede anche degli sforzi nella messa a punto ed evoluzione di precise metodologie di validazione
che vadano oltre gli aspetti visivi e di interpretabilità che restano, comunque, molto importanti
per permettere l’applicazione di queste tecniche in molti contesti reali.
85
BIBLIOGRAFIA
Aiello M., Esposito M., Isgrò F., Santoro M., Calvini P., Chincarini A., Gemme G., Squarcia S.
e Tangaro S. (2009). “A novel approach to the generation of hyppocampal templates for the
automatic analysis of the hyppocampal region”. In Proceedings of the II Eccomass Conference on
Computational Visiona and Medical Image Processing, Porto (Portugal). [citato alle pagine 2, 23 e 67]
Alcantara D., Carmichaela O., Delson E., Harcourt-Smith W., Sterner K., Frost S., Dutton R.,
Thompson P., Aizenstein H., Lopez O., Becker J. e Amenta N. (2007). “Localized Components
Analysis”. In Information Processing in Medical Imaging ’07, pagine 519–531. Springer. [citato a
pagina 4]
Alcantara D., Carmichael O., Harcourt Smith W., Sterner K., Frost S., Dutton R., Thompson P.,
Delson E. e Amenta N. (2009). “Exploration of Shape Variation Using Localized Components
Analysis”. PAMI, 31(8):1510–1516. [citato alle pagine 4 e 18]
Bishop C. M. (2006). Pattern Recognition and Machine Learning (Information Science and Statistics).
Springer. ISBN 0387310738. [citato a pagina 33]
Blum H. (1967). “A Transformation for Extracting New Descriptors of Shape”. Models for the
Perception of Speech and Visual Form, pagine 362–380. [citato a pagina 18]
Bookstein F. L. (1996). “Landmark Methods for Forms Without Landmarks: Localizing Group
Differences in Outline Shape”. In MMBIA ’96: Proceedings of the 1996 Workshop on Mathematical Methods in Biomedical Image Analysis (MMBIA ’96), pagina 279. IEEE Computer Society.
[citato alle pagine 2, 3 e 18]
Bookstein F. (1978). The Measurement of Biological Shape and Shape Change. Springer. [citato alle
pagine 3 e 18]
Bookstein F. (1984). “A Statistical Method for Biological Shape Comparisons”. Theoretical
Biology, 107:475–520. [citato a pagina 3]
Brechbühler C., Gerig G. e Kübler O. (1995). “Parametrization of closed surfaces for 3-D shape
description”. Computer Vision and Image Understanding, 61(2):154–170. [citato alle pagine 2 e 19]
Calvini P., Chincarini A., Donadio S., Gemme G., Squarcia S., Nobili F., Rodriguez G., Bellotti
R., Catanzariti E., Cerello P., Mitri I. D. e Fantacci M. E. (2008). “Automatic localization
of the hippocampal region in MR images to asses early diagnosis of Alzheimer’s disease
86
BIBLIOGRAFIA
in MCI patients”. Nuclear Science Symposium Conference Record, 2008. NSS ’08. IEEE, pagine
4348–4354. [citato alle pagine 2, 23 e 67]
Chennubhotla C. e Jepson A. (2001). “Sparse PCA. Extracting multi-scale structure from data”. In Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on,
volume 1, pagine 641–647 vol.1. [citato alle pagine 4 e 35]
Cootes T. F. e Taylor C. J. (2004). “Statistical models of appearance for computer vision”.
Technical report, University of Manchester. [citato alle pagine 3 e 15]
Cootes T., Taylor C., Cooper D. H. e Graham J. (1992). “Training Models of Shape from Sets of
Examples”. In In Proc. British Machine Vision Conference, pagine 9–18. Springer-Verlag. [citato
alle pagine 2, 3, 14 e 16]
Cootes T., Taylor C., Cooper D. H. e Graham J. (1995). “Active Shape Models-Their Training
and Application”. Computer Vision and Image Understanding, 61(1):38–59. [citato alle pagine 3, 14
e 15]
Cootes T. F., Edwards G. J. e Taylor C. J. (2001). “Active Appearance Models”. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 23(6):681–685. [citato alle pagine 3 e 18]
Davies R. H., Twining C. J., Allen P. D., Cootes T. F. e Taylor C. J. (2003). “Shape Discrimination
in the Hippocampus Using an MDL Model”. In Information Processing in Medical Imaging,
18th International Conference, IPMI 2003, Ambleside, UK, July 20-25, 2003, Proceedings, volume
2732 of Lecture Notes in Computer Science, pagine 38–50. Springer. [citato a pagina 2]
Dryden I. L. e Mardia K. V. (1998). Statistical Shape Analysis. John Wiley & Sons. [citato alle
pagine 1, 3, 4, 7, 8, 13 e 14]
Efron B., Hastie T., Johnstone L. e Tibshirani R. (2004). “Least angle regression”. Annals of
Statistics, 32:407–499. [citato alle pagine 5, 46, 54 e 58]
Frangi A. F., Rueckert D., Schnabel J. A. e Niessen W. J. (2001). “Automatic 3D ASM Construction via Atlas-Based Landmarking and Volumetric Elastic Registration”. In Information
Processing in Medical Imaging, 17th International Conference, IPMI 2001, Davis, CA, USA, June 18-22, 2001, Proceedings, volume 2082 of Lecture Notes in Computer Science, pagine 78–91.
Springer. [citato alle pagine 3 e 25]
Golland P., Grimson W., Shenton M. e Kikinis R. (2005). “Detection and analysis of statistical
differences in anatomical shape”. Medical Image Analysis, pagine 69–86. [citato alle pagine 2 e 19]
Golub G. H. e Van Loan C. F. (1996). Matrix Computations. The Johns Hopkins University Press.
ISBN 0801854148. [citato alle pagine 31, 39, 52 e 55]
Goodall C. (1991). “Procrustes Methods in the Statistical Analysis of Shape”. Journal of the Royal
Statistical Society. Series B (Methodological), 53(2):285–339. [citato alle pagine 3, 4, 8 e 12]
Hastie T., Tibshirani R. e Friedman J. (2009). The Elements of Statistical Learning, Second Edition: Data Mining, Inference, and Prediction (Springer Series in Statistics). Springer New York, 2
edition. ISBN 0387848576. [citato alle pagine 14 e 36]
Heitz G., Rohlfing T. e Jr. C. R. M. (2004). “Automatic Generation of Shape Models Using
Nonrigid Registration with a Single Segmented Template Mesh”. In Proceedings of the Vision,
Modeling, and Visualization Conference 2004 (VMV 2004), Stanford, California, USA, November
16-18, 2004, pagine 73–80. Aka GmbH. [citato alle pagine 3 e 25]
87
BIBLIOGRAFIA
Hoerl A. E. e Kennard R. W. (1970). “Ridge Regression: Biased Estimation for Nonorthogonal
Problems”. Technometrics, 12:55–67. [citato alle pagine 5 e 46]
Jens S. B., Jens T., Pruessner C., Collins C. D. L. e D K. S. (2005). “Hippocampal Shape Analysis
Using Medial Surfaces”. NeuroImage, 25:1077–1089. [citato a pagina 19]
Johnstone I. e Lu A. (2003). “Sparse Principal Components Analysis”. In IMS Mini-Meeting on
Functional Data Analysis. [citato a pagina 4]
Jolliffe I. T. (2002). Principal Component Analysis. Springer, second edition. ISBN 0387954422.
[citato alle pagine 3, 27 e 35]
Jolliffe I. T. (1995). “Rotation of principal components: choice of normalization constraints”.
Journal of Applied Statistics, 22:29–135. [citato a pagina 4]
Jolliffe I. T. e Cadima J. (1995). “Loadings and correlations in the interpretation of principal
components”. Journal of Applied Statistics, 22:203–214. [citato a pagina 4]
Kaus M., Pekar V., Lorenz C., Truyen R., Lobregt S. e Weese J. (2003). “Automated 3-D PDM
construction from segmented images using deformable models”. IEEE Transactions on Medical
Imaging, 22(8):1005–1013. [citato a pagina 25]
Kendall D. G. (1977). “The Diffusion of Shape”. Advances in Applied Probability, 9(3):428–430.
[citato alle pagine 3 e 18]
Kendall D. (1989). “A Survey of the Statistical Theory of Shape”. Statistical Science, 4(2):87–120.
[citato a pagina 3]
Lorensen W. E. e Cline H. E. (1987). “Marching cubes: A high resolution 3D surface construction
algorithm”. SIGGRAPH ’87: Proceedings of the 14th annual conference on Computer graphics and
interactive techniques, 21(4):163–169. [citato a pagina 20]
Machado A., , Machado A. M. C. e Gee J. C. (1998). “Atlas Warping for Brain Morphometry”.
In In SPIE Medical Imaging, Image Processing, pagine 642–651. [citato a pagina 2]
Press W., Teukolsky S., Vetterling W. e Flannery B. (1992). Numerical Recipes in C. Cambridge
University Press, Cambridge, UK, 2nd edition. [citato a pagina 31]
Rueckert D., Frangi A. e Schnabel J. (2003). “Automatic construction of 3-D statistical deformation models of the brain using non-rigid registration”. Medical Imaging, IEEE Transactions
on, 22(8):1014–1025. [citato alle pagine 2 e 19]
Schroeder W. J., Zarge J. A. e Lorensen W. E. (1992). “Decimation of triangle meshes”. In
SIGGRAPH ’92: Proceedings of the 19th annual conference on Computer graphics and interactive
techniques, pagine 65–70. ACM. [citato a pagina 20]
Sjöstrand K., Stegmann M. B. e Larsen R. (2006). “Sparse Principal Component Analysis in
Medical Shape Modeling”. In International Symposium on Medical Imaging 2006, San Diego,
CA, USA, volume 6144. The International Society for Optical Engineering (SPIE). [citato alle
pagine 5 e 40]
Sjöstrand K., Rostrup E., Ryberg C., Larsen R., Studholme C., Baezner H., Ferro J., Fazekas
F., Pantoni L., Inzitari D. e Waldemar G. (2007). “Sparse Decomposition and Modeling of
Anatomical Shape Variation”. IEEE Transactions on Medical Imaging, 26(12):1625–1635. [citato
alle pagine 5 e 18]
88
BIBLIOGRAFIA
Stegmann M. B. e Gomez D. D. (2002). “A Brief Introduction to Statistical Shape Analysis”.
Technical report. [citato alle pagine 2 e 64]
Stegmann M. B., Ersbøll B. K. e Larsen R. (2003). “FAME – A Flexible Appearance Modelling
Environment”. IEEE Trans. on Medical Imaging, 22(10):1319–1331. [citato alle pagine 2 e 66]
Styner M. e Gerig G. (2001). “Medial Models Incorporating Object Variability for 3D Shape
Analysis”. In Information Processing in Medical Imaging, 17th International Conference, IPMI
2001, Davis, CA, USA, June 18-22, 2001, Proceedings, volume 2082 of Lecture Notes in Computer
Science, pagine 502–516. Springer. [citato a pagina 2]
Tibshirani R. (1996). “Regression shrinkage and selection via the Lasso”. Journal of the Royal
Statistical Society, 58(1):267–288. [citato alle pagine 5, 46, 53, 54 e 60]
Xie J., Alcantara D., Amenta N., Fletcher E., Martinez O., Persianinova M., De Carli C. e Carmichael O. (2008). “Spatially-Localized Hippocampal Shape Analysis in Late-Life Cognitive Decline”. In MICCAI 2008 Workshop on Computational Anatomy and Physiology of the
Hippocampus (CAPH’08), pagine 2–12. [citato a pagina 4]
Zou H. e Hastie T. (2005). “Regularization and variable selection via the Elastic Net”. Journal
of the Royal Statistical Society, 67:301–320. [citato alle pagine 5, 46, 56, 58 e 60]
Zou H., Hastie T. e Tibshirani R. (2004). “Sparse principal component analysis”. Journal of
Computational and Graphical Statistics, 15:2006. [citato alle pagine 5, 35, 36, 37, 38, 39 e 40]
89

Metodi Statistici per l`Analisi ed il Riconoscimento della Forma

Transcript

Documenti analoghi

Presentazione di PowerPoint

I Dati

Video-tutorial parte 5

Algoritmo AKS - vincenzofiore83

Alcuni punti spesso trascurati nei corsi di Algebra Lineare, necessari

Segregation of Duties

armeriapalmieri Pistola Weihrauch HW 40 PCA

Il software Weka Weka - Università di Bologna

Corso di Geometria. Ingegneria Meccanica. SETTIMA SCHEDA DI