Metodi Statistici per l`Analisi ed il Riconoscimento della Forma
Transcript
Metodi Statistici per l`Analisi ed il Riconoscimento della Forma
U NIVERSITÀ DEGLI S TUDI DI N APOLI F EDERICO II FACOLTÀ DI S CIENZE M ATEMATICHE , F ISICHE E N ATURALI C ORSO DI L AUREA M AGISTRALE IN I NFORMATICA T ESI DI L AUREA S PERIMENTALE M ETODI S TATISTICI PER L’A NALISI ED IL R ICONOSCIMENTO DELLA F ORMA Relatori: Prof. Ezio C ATANZARITI Dott. Matteo S ANTORO Correlatore: Prof.ssa Anna C ORAZZA A NNO A CCADEMICO 2008/2009 Candidato: Salvatore M ASECCHIA matr. 961/80 INDICE Elenco delle figure iii Elenco delle tabelle v 1 Introduzione 1.1 Motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Obiettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Organizzazione del lavoro di Tesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 5 6 2 Analisi statistica della forma 2.1 Definizioni preliminari . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Trasformazione delle figure . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Trasformazioni di traslazione . . . . . . . . . . . . . . . . . . 2.2.2 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . 2.2.3 Formalizzazione dei concetti di form e di shape . . . . . . . 2.3 Analisi di Procrustes . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Analisi di Procrustes Ordinaria . . . . . . . . . . . . . . . . . 2.3.2 Analisi di Procrustes Generalizzata . . . . . . . . . . . . . . 2.4 Costruzione del modello di variabilità . . . . . . . . . . . . . . . . . 2.4.1 Proiezione nello spazio tangente . . . . . . . . . . . . . . . . 2.4.2 Point Distribution Model: estrazione dei modi di variazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 8 9 10 11 13 13 13 15 15 16 Rappresentazione della forma 3.1 Panoramica delle rappresentazioni . . . . . . . . . . . . . . . . 3.2 Mesh di superficie come descrittori di forma . . . . . . . . . . 3.2.1 Generazione della mesh: algoritmo dei marching cubes 3.2.2 Densità della mesh: algoritmo di decimazione . . . . . 3.3 Mesh di superficie per forme ippocampali . . . . . . . . . . . . 3.3.1 Una soluzione al problema della corrispondenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 19 20 20 22 24 Riduzione della dimensionalità e interpretabilità 4.1 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Interpretazione statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Relazione tra la PCA e la Singular Value Decomposition . . . . . . . . . . 27 27 29 31 3 4 . . . . . . . . . . . . . . . . . . i INDICE 4.2 4.3 5 6 7 4.1.3 PCA con dati ad alta dimensionalità . . . Sparse Principal Component Analysis . . . . . . 4.2.1 Approssimazione sparsa diretta . . . . . 4.2.2 Formulazione del criterio di sparsità . . . 4.2.3 Calcolo della varianza . . . . . . . . . . . 4.2.4 SPCA per dataset ad alta dimensionalità Caso di studio . . . . . . . . . . . . . . . . . . . . . . . . . . . Metodi di selezione nella regressione lineare 5.1 Introduzione alla regressione lineare . . . . . . . . 5.2 Least Angle Regression . . . . . . . . . . . . . . . . 5.3 L’operatore di selezione Lasso . . . . . . . . . . . . 5.3.1 Soluzione dei problemi di tipo Lasso . . . . 5.4 L’operatore di selezione Elastic Net . . . . . . . . . 5.4.1 Naïve Elastic Net . . . . . . . . . . . . . . . 5.4.2 Risolvere il problema dell’overshrinking . 5.4.3 Soluzione dei problemi di tipo Elastic Net . 5.5 Interpretazione di Lasso ed Elastic Net . . . . . . . 5.6 Caso di studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esperimenti e risultati 6.1 Descrizione dei dataset . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Mani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Espressioni facciali . . . . . . . . . . . . . . . . . . . . . 6.1.3 Ippocampi . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Problema della corrispondenza su superfici prive di landmark 6.3 Allineamento delle forme attraverso l’analisi di Procrustes . . 6.4 Decomposizione dei modi di variazione . . . . . . . . . . . . . 6.5 Decomposizione sparsa dei modi di variazione . . . . . . . . . Conclusioni Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 35 36 36 38 40 41 . . . . . . . . . . 44 44 46 53 54 56 56 58 58 60 61 . . . . . . . . 63 64 64 66 67 68 71 73 77 83 86 ii ELENCO DELLE FIGURE 1.1 1.2 Esempi di landmark in due dimensioni annotati manualmente . . . . . . . . . . . Triangolazione di una superficie tridimensionale per il posizionamento automatico dei landmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Rappresentazione dello spazio delle forme . . . . . . . . . . . . . . . . . . . . . . Rappresentazione della proiezione nello spazio tangente avente la forma media come polo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 Sensibilità al rumore della rappresentazione attraverso assi mediali Rappresentazione di un marching cube . . . . . . . . . . . . . . . . . Configurazioni di marching cubes e relative triangolazioni . . . . . . Classificazione dei vertici nell’algoritmo di decimazione . . . . . . Criteri di decimazione . . . . . . . . . . . . . . . . . . . . . . . . . . Architettura della pipeline MAGIC-V . . . . . . . . . . . . . . . . . Generazione di una mesh di superficie da un’immagine binaria . . Decimazione di una mesh su una superficie ippocampale . . . . . . Schema del processo di generazione del dataset di landmark . . . . . . . . . . . . . 19 20 21 22 22 23 24 24 26 4.1 4.2 Visualizzazione tramite scree plot della varianza spiegata e cumulata dalle componenti principali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Scatter plot di confronto tra le proiezioni dei dati sulle componenti principali . . . 42 43 5.1 5.2 5.3 5.4 5.5 5.6 Rappresentazione geometrica dell’algoritmo LAR . . . . . . . . . . . . . . . . . . Relazione tra l’algoritmo LAR è la stima ai minimi quadrati ordinaria . . . . . . . Confronto tra le regioni dei vincoli sulla norma `1 (Lasso) ed `2 (Ridge Regression) Visualizzazione della regione dei vincoli di tipo Elastic Net . . . . . . . . . . . . . Effetto delle penalità sulla stima OLS in caso di input ortonormale . . . . . . . . . Risultati dell’applicazione degli algoritmi LAR, LARS e LARS-EN . . . . . . . . . 47 52 54 57 61 62 6.1 Prima serie di 10 immagini di mani sulle quali sono stati posizionati i landmark che ne descrivono il contorno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esempi di annotazione dei 56 landmark sul dataset di mani . . . . . . . . . . . . Serie di 6 immagini che mostra le diverse pose presenti nel dataset di espressioni facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 6.2 6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 16 65 65 66 iii ELENCO DELLE FIGURE 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 6.16 6.17 Esempi di annotazione dei 58 landmark sul dataset di espressioni facciali . . . . Segmentazioni degli 8 template di ippocampi destri della pipeline MAGIC-V . . Mesh di landmark ottenute sulle superfici ippocampali . . . . . . . . . . . . . . . Campi di deformazione per la generazione del dataset di forme 3D . . . . . . . . Esempio di deformazione della mesh di riferimento attraverso 4 diversi campi di deformazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Applicazione dell’analisi di Procrustes al dataset di mani annotate . . . . . . . . Applicazione dell’analisi di Procrustes al dataset di espressioni facciali annotate Visualizzazione grafica dei modi di variazione calcolati sul dataset di mani . . . Visualizzazione grafica dei modi di variazione calcolati sul dataset di espressioni facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Visualizzazione grafica dei modi di variazione calcolati sul dataset di ippocampi Modi di variazione del dataset di mani catturati dalla prima componente principale sparsa con diversi parametri di regolarizzazione . . . . . . . . . . . . . . . . Modi di variazione del dataset di espressioni facciali catturati dalla prima componente principale sparsa con diversi parametri di regolarizzazione . . . . . . . . Modi di variazione del dataset di ippocampi catturati dalla prima componente principale sparsa con diversi parametri di regolarizzazione . . . . . . . . . . . . . Visualizzazione grafica dei modi di variazione sparsi calcolati sul dataset di espressioni facciali, con varianza vicina ai modi di variazione ordinari . . . . . . 67 68 69 70 70 72 72 75 75 76 79 80 81 82 iv ELENCO DELLE TABELLE 4.1 4.2 Varianza spiegata dalle componenti principali ordinarie calcolate su un dataset di misurazioni cliniche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianza spiegata dalle componenti principali sparse calcolate su un dataset di misurazioni cliniche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 43 5.1 Effetto delle penalità sulla stima OLS in caso di input ortonormale . . . . . . . . . 60 6.1 6.2 6.3 Associazione dei colori alle forme generate rispetto ai vari modi di variazione . . Varianza spiegata dalle componenti principali calcolate sul dataset di mani . . . Varianza spiegata dalle componenti principali calcolate sul dataset di espressioni facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianza spiegata dalle componenti principali calcolate sul dataset di ippocampi Varianza spiegata dalle componenti principali sparse calcolate sul dataset di espressioni facciali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 74 6.4 6.5 74 74 82 v CAPITOLO 1 I NTRODUZIONE Contenuto 1.1 1.2 1.3 1.1 Motivazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Obiettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Organizzazione del lavoro di Tesi . . . . . . . . . . . . . . . . . . . . . . . . . . 1 5 6 Motivazioni L’analisi della forma (dall’inglese shape analysis) consiste in un insieme di tecniche utilizzate nella Computer Vision e nel campo della Pattern Recognition per individuare, classificare e riconoscere una forma (shape). Normalmente, il concetto di forma è associato all’apparenza di un oggetto, alla sua silhouette. Intuitivamente, è possibile fornire la seguente definizione (Dryden e Mardia, 1998): la forma è l’insieme delle informazioni geometriche che restano quando posizione, scala ed effetti di rotazione sono rimossi dall’oggetto. I metodi di analisi della forma sono utilizzati per molte applicazioni, tra le quali faremo particolare riferimento al riconoscimento di oggetti, espressioni o movimenti in una scena (o frame) attraverso l’applicazione di tecniche standard di classificazione dei descrittori utilizzati per rappresentare la forma stessa. Inoltre, specialmente in ambito medico, l’uso dell’analisi della forma viene utilizzato anche per ottenere una stima quantitativa di parametri morfologici che, in combinazione con ulteriori dati clinici, costituiscono la base per l’addestramento di modelli di regressione con i quali predire la presenza (o la probabilità di contrarre) una determinata patologia. Tradizionalmente, i modelli di forma erano costruiti utilizzando metriche calcolate sugli oggetti in esame: dimensione, volume, area, distanza tra specifici punti o rapporti tra determinate distanze. L’uso di queste metriche, però, non permette di descrivere una forma in tutta la sua complessità. Per questo motivo, parte della ricerca attuale nel campo della shape analysis si occupa di individuare i descrittori (feature) in grado di caratterizzare al meglio una forma in relazione al tipo di applicazione e agli strumenti di analisi adottati. La scelta delle più appropriate feature risulta essere ad ogni modo critica in ogni tipo di sistema. Tra le tecniche maggiormente adottate, che analizzeremo e approfondiremo nel capitolo 3, possiamo citare l’utilizzo di 1 1. I NTRODUZIONE (a) Landmark annotati su una delle mani del dataset 1.1. M OTIVAZIONI (b) Landmark annotati su uno dei volti del dataset Figura 1.1: Immagini estratte dai due dataset che utilizzeremo per sperimentare le metodologie presentate in questa Tesi. landmark (Cootes et al., 1992; Bookstein, 1996), mesh dense di superficie (Rueckert et al., 2003), descrizioni parametriche (Brechbühler et al., 1995; Davies et al., 2003), rappresentazioni basate sul concetto di skeleton (medial representation) (Styner e Gerig, 2001), mappe di distanza (Golland et al., 2005) e campi di deformazione (Machado et al., 1998; Rueckert et al., 2003) derivati dal processo di registrazione su un set di immagini rispetto ad una di riferimento. Il presente lavoro di Tesi è stato dedicato allo studio e all’applicazione di metodi statistici all’analisi della forma, con particolare attenzione agli stumenti legati al concetto di sparsità. A tal fine, i modelli statistici selezionati e che mostreremo nei successivi capitoli, sono stati applicati a forme rappresentate attraverso l’uso di landmark e mesh di superficie. Inoltre, evidenzieremo le caratteristiche delle metodologie impiegate, attraverso dataset di forme in due dimensioni rappresentate da landmark e mostreremo come le stesse tecniche possano essere efficacemente utilizzate su forme tridimensionali descritte attraverso mesh di superficie. Nel caso 2D utilizzeremo due dataset in particolare: • un dataset composto da annotazioni manuali su 40 immagini di mani umane sinistre (figura 1.1(a)) catturate su quattro persone distinte (10 immagini per persona) in varie pose (Stegmann e Gomez, 2002). Questo dataset ci permetterà di mettere in evidenza le caratteristiche delle metodologie adottate con un riscontro visivo molto chiaro; • un dataset contenente 240 annotazioni di espressioni facciali (figura 1.1(b)) catturate su 40 diversi individui di entrambi i sessi (Stegmann et al., 2003). La sperimentazione nel 3D delle tecniche utilizzate, verrà in seguito presentata attraverso l’uso di segmentazioni dell’ippocampo, una struttura cerebrale localizzata nella zona mediale del lobo temporale. In particolare, questa parte del lavoro è collegata al progetto MAGIC-V finanziato dall’INFN (Istituto Nazionale di Fisica Nucleare) e condotto dai gruppi di Bari, Genova, Lecce, Napoli, Pisa e Torino, che si pone l’obiettivo di costruire una pipeline di segmentazione e analisi del grado di atrofia dell’area ippocampale (Calvini et al., 2008; Aiello et al., 2009). Il processo di segmentazione dell’area cerebrale produce una maschera binaria tridimensionale contenente l’ippocampo estratto, dalla quale si è reso necessario produrre la rappresentazione della forma attraverso landmark. L’idea è stata quella di utilizzare classici algoritmi, sviluppati nel campo della Computer Graphic, che ci hanno permesso di triangolare la superficie ippocampale, come in figura 1.2(a), e riutilizzare i vertici dei triangoli come punti di una mesh, 2 1. I NTRODUZIONE (a) Triangolazione della superficie ippocampale 1.1. M OTIVAZIONI (b) Punti della mesh automaticamente generata sulla superficie Figura 1.2: Applicazione dell’algoritmo di triangolazione della superficie ippocampale per la generazione di una mesh da utilizzare come rappresentazione della forma tridimensionale. equiparabili, a livello di rappresentazione, ai landmark utilizzati sulle forme bidimensionali1 (figura 1.2(b)). L’utilizzo di landmark come descrittori di forma, anche se molto diffuso, soffre di quello che in letteratura è indicato come “problema della corrispondenza”. Come si evince, ad esempio, dalla figura 1.1(a) l’analisi di forma richiede che i landmark siano etichettati e che punti con la stessa etichetta corrispondano, sul contorno (o sulla superficie) dell’oggetto, in tutte le forme del dataset. Ad esempio, per le mani si richiede che il landmark 28 sia sempre posizionato sulla punta del dito medio. Se nel 2D il posizionamento manuale dei landmark è un lavoro possibile per quanto noioso ed error-prone, nel 3D la procedura è impraticabile sia per il numero di landmark necessari a descrivere oggetti complessi, sia per la maggiore difficoltà di visualizzazione ed individuazione delle corrispondenze, anche da parte di operatori esperti. In Cootes e Taylor (2004) (capitolo 13) è possibile consultare una ricca panoramica di metodi ed algoritmi sviluppati negli ultimi anni per il posizionamento automatico dei landmark su oggetti in due e tre dimensioni, a partire dai pionieristici approcci di Bookstein (1996). In questa Tesi il problema della corrispondenza è stato affrontato in relazione all’utilizzo di forme tridimensionali rappresentate attraverso mesh di superficie. Nel capitolo 3 mostreremo l’approccio utilizzato sul dataset di superfici ippocampali, utilizzando registrazioni non rigide e matrici di deformazione e indagando su ciò che in letteratura è stato proposto (Frangi et al., 2001; Heitz et al., 2004). Qualsiasi sia la rappresentazione scelta per le forme, la dimensionalità dei vettori di caratteristiche (feature vector) può essere molto elevata ed aumenta in relazione alla complessità degli oggetti da descrivere, in particolare nel 3D. Nasce l’esigenza di costruire modelli meglio maneggiabili dove le feature (che nel caso dei landmark corrispondono alle coordinate sul piano o nello spazio) sono organizzate in gruppi, seguendo criteri geometrico/spaziali o statistici. Cootes et al. (1992, 1995, 2001) sono stati tra i primi ad introdurre l’uso della Principal Component Analysis (PCA) (Jolliffe, 2002) per la decomposizione di insiemi di landmark, diffondendo il concetto di Point Distribution Model (PDM) e introducendo nella Computer Vision gli studi su modelli statistici della forma portati avanti da Kendall (1977, 1989) e Bookstein (1978, 1984), che si sono mostrati di notevole interesse per la comunità scientifica (Goodall, 1991; Dryden e Mardia, 1998) la quale ha definito delle solide basi teoriche sulla geometria delle forme e sulla loro analisi statistica. 1 A meno di indicazioni esplicite, in assenza di ambiguità, utilizzeremo il termine landmark sia nell’accezione classica, sia in riferimento ai punti di una mesh di superficie. 3 1. I NTRODUZIONE 1.1. M OTIVAZIONI In linea generale, l’uso della PCA per la costruzione di modelli statistici di variabilità prevede le seguenti fasi: 1. Ogni forma del dataset, descritta da un vettore di caratteristiche x, viene centrata e allineata rispetto allo stesso sistema di riferimento (rimozione di posizione, fattori di scala ed effetti di rotazione) utilizzando l’analisi di Procrustes (Goodall, 1991; Dryden e Mardia, 1998). Questa fase produce un nuovo vettore di caratteristiche x̄ che descrive la forma media. 2. Ai vettori di caratteristiche risultanti (uno per ogni individuo della popolazione delle forme), organizzati come colonne di una matrice X, viene applicata la PCA per calcolare le direzioni principali lungo le quali è maggiore la variabilità di forma. Ipotizzando di organizzare le direzioni principali come colonne di una matrice U, la coppia (x̄, U) rappresenta il nostro modello di variabilità con il quale è possibile ricostruire ogni forma x del dataset x = x̄ + Uy, dove y è la proiezione di (x − x̄) sulle direzioni principali y = U−1 (x − x̄) = UT (x − x̄). L’uso della PCA come strumento di decomposizione ed interpretazione della variabilità, presenta comunque dei limiti. Ogni componente principale è una combinazione lineare di tutte le variabili con le quali sono descritti gli individui della popolazione. Nel nostro caso specifico, ogni componente principale dipende linearmente da tutte le coordinate di tutti i landmark che descrivono la forma. Il problema dell’interpretabilità dei modelli statistici basati sulla PCA non è limitato alla sola shape analysis ma è in generale molto sentito nelle applicazioni di learning statistico non supervisionato dove la complessità dei dati e l’alta dimensionalità delle loro rappresentazioni richiede modelli che possano anche visivamente “spiegare” la distribuzione della popolazione. La necessità di strumenti di decomposizione in grado di fornire il giusto trade-off tra compattezza ed interpretabilità ha spinto alla definizione di strumenti, variati dalla classica PCA, in grado di produrre vettori sparsi delle componenti principali che dipendono linearmente solo da un sottoinsieme delle feature. Johnstone e Lu (2003), ad esempio, applicano tecniche di selezione di variabili sui dati prima di effettuare la PCA, allo scopo di ottenere componenti sparse. Altre tecniche poco raffinate, come l’eliminazione degli elementi sotto una certa soglia dai vettori delle direzioni principali, sono state proposte ma producono modelli poco accurati sotto vari aspetti (Jolliffe e Cadima, 1995). Invece, le tecniche proposte da Jolliffe (1995) basate su operazioni di rotazione delle componenti principali classiche hanno portato alla definizione di un modello di Sparse PCA (Chennubhotla e Jepson, 2001) sul quale Alcantara et al. (2007) hanno definito un framework in grado di generare componenti principali sparse e spazialmente localizzate, chiamato LoCA (Localized Component Analysis). L’aspetto interessante di questo approccio è legato alla possibilità di condizionare la sparsità lungo le componenti principali in modo da localizzare spazialmente le variabili trattenute dal modello. Nella LoCA, però, questo risultato viene ottenuto attraverso la definizione di una matrice di compatibilità dipendente dall’applicazione e dalla conoscenza a priori sui dati (Xie et al., 2008; Alcantara et al., 2009), rischiando di tralasciare completamente qualsiasi tipo di correlazione statistica presente nei dati tra landmark non contigui. In campo medico, ad esempio, individuare la correlazione tra due aree distinte della forma di una data struttura anatomica può essere di notevole importanza nell’uso di modelli di regressione. Questa caratteristica ha spinto questo lavoro di Tesi verso approcci più generali in grado di indurre sparsità nelle componenti principali sulla base della correlazione statistica presente 4 1. I NTRODUZIONE 1.2. O BIETTIVI tra le variabili e analizzando se (e come) questa si traduce nella separazione spazialmente localizzata dei modi di variazione della forma. L’approccio sul quale ci siamo concentrati è quello della Sparse PCA (SPCA) proposta da Zou et al. (2004), i quali hanno definito elegantemente le componenti principali come soluzione ad un problema di regressione lineare, sul quale applicare criteri di regolarizzazione che inducono sparsità. L’applicazione della SPCA all’analisi della forma è stata sperimentata solo recentemente in letteratura su forme bidimensionali, prima per investigarne le potenzialità (Sjöstrand et al., 2006) e poi per la costruzione di modelli di regressione, combinando le informazioni sui modi di variazione di strutture cerebrali (come il corpo calloso) e alcune misurazioni cliniche, con risultati incoraggianti (Sjöstrand et al., 2007). La scelta di utilizzare questo tipo di formulazione della SPCA offre anche un ulteriore vantaggio: essendo il problema del calcolo delle componenti principali ricondotto ad una stima ai minimi quadrati (Ordinary Least Squares - OLS), è possibile sperimentare e far evolvere questa metodologia sfruttando la vasta letteratura attualmente disponibile, e l’attuale filone di ricerca, nel campo del learning statistico supervisionato e dei termini di regolarizzazione che producono vettori dei coefficienti di regressione sparsi. In questa Tesi ci occuperemo principalmente della Ridge Regression (Hoerl e Kennard, 1970), di Lasso (Tibshirani, 1996) e di Elastic Net (Zou e Hastie, 2005), dove quest’ultimo non è altro che una combinazione lineare delle penalità di tipo Lasso e Ridge Regression ed unisce le proprietà di selezione del primo con le capacità di generalizzazione del secondo. L’utilizzo di questi modelli teorici in applicazioni reali con feature vector ad alta dimensionalità è condizionato dalla presenza di algoritmi efficienti. In questa Tesi presenteremo anche gli strumenti computazionali che in letteratura sono stati proposti per la soluzione di queste tipologie di problemi di regressione. Ci soffermeremo in particolare sull’algoritmo denominato Least Angle Regression (LAR), proposto da Efron et al. (2004). Inoltre, descriveremo anche alcune sue varianti (LARS e LARS-EN) in grado di risolvere efficientemente problemi di tipo Lasso ed Elastic Net e alla base dell’algoritmo proposto da Zou et al. (2004) per il calcolo delle componenti principali nella SPCA. 1.2 Obiettivi In questo lavoro di Tesi, dopo aver affrontato una prima fase di acquisizione dei concetti e delle metodologie adottate nel campo della shape analysis, si è cercato di raggiungere i seguenti obiettivi: • proporre una soluzione efficace al problema della corrispondenza nella generazione e posizionamento automatico di mesh su superfici tridimensionali, come le segmentazioni ippocampali; • affrontare il problema della dimensionalità dei dati con l’introduzione di tecniche di decomposizione come la Principal Component Analysis e indagare sulle potenzialità delle sue variazioni sparse come la Sparse PCA basata su modelli di regressione lineare; • dimostrare come un approccio di selezione di variabili statisticamente correlate si traduce, lavorando su rappresentazioni di forma, nella decomposizione di variabilità in maniera spazialmente localizzata; • immergere i modelli e gli algoritmi acquisiti e implementati in applicazioni reali, sia per forme in due dimensioni (espressioni facciali) che in tre dimensioni (ippocampi segmentati dalla pipeline sviluppata nell’ambito del progetto INFN MAGIC-V). 5 1. I NTRODUZIONE 1.3 1.3. O RGANIZZAZIONE DEL LAVORO DI T ESI Organizzazione del lavoro di Tesi Nei prossimi capitoli seguiremo un percorso che ci porterà, partendo da una descrizione formale delle metodologie di shape analysis, all’applicazione di modelli sparsi per la decomposizione della variabilità su diversi insiemi di dati. I capitoli di questo lavoro di Tesi saranno quindi organizzati come segue: Capitolo 2. Inizieremo introducendo dettagliatamente la shape analysis basata su landmark formalizzandone i vari aspetti. In questo capitolo presupporremo di aver risolto preventivamente il problema della corrispondenza dei landmark e ci soffermeremo sulla normalizzazione della forma (analisi di Procrustes) e sulla generazione dei modelli attraverso la PCA. Capitolo 3. A questo punto ci soffermeremo velocemente sulle rappresentazioni di forma proposte in letteratura ed evidenzieremo i dettagli riguardanti la soluzione proposta al problema della corrispondenza nel caso di mesh di superficie automaticamente generate. Capitolo 4. Questo capitolo sarà dedicato alla Principal Component Analysis. Descriveremo formalmente il problema, presenteremo le tecniche di risoluzione con attenzione anche agli aspetti computazionali. Presenteremo quindi vari algoritmi applicabili in vari contesti. Successivamente, formalizzeremo il problema della generazione di componenti principali sparse attraverso la SPCA descrivendo l’algoritmo proposto in letteratura e i campi di applicazione. Capitolo 5. La SPCA presentata nel capitolo 4 è basata sull’utilizzo di modelli di regressione lineare regolarizzati da penalità che inducono soluzioni sparse. In questo capitolo ci soffermeremo su queste tecniche di apprendimento supervisionato e evidenzieremo come le particolari caratteristiche che esibiscono si ripercuotono nella SPCA applicata all’analisi della forma. Inoltre presenteremo degli algoritmi efficienti che ne hanno favorito l’applicazione su diverse problematiche. Capitolo 6. Dopo aver presentato nei dettagli tutti gli strumenti necessari e analizzati in questo lavoro di Tesi, in questo capitolo ci occuperemo di evidenziarne sperimentalmente le caratteristiche, sia attraverso applicazioni su dataset di landmark bidimensionali che su dataset di mesh applicate in maniera automatica su superfici tridimensionali. 6 CAPITOLO 2 A NALISI STATISTICA DELLA FORMA Contenuto 2.1 2.2 2.3 2.4 Definizioni preliminari . . . . . . . . . . . . . . . . . . . . . . . . . Trasformazione delle figure . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Trasformazioni di traslazione . . . . . . . . . . . . . . . . . . 2.2.2 Trasformazioni di scala . . . . . . . . . . . . . . . . . . . . . 2.2.3 Formalizzazione dei concetti di form e di shape . . . . . . . Analisi di Procrustes . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Analisi di Procrustes Ordinaria . . . . . . . . . . . . . . . . . 2.3.2 Analisi di Procrustes Generalizzata . . . . . . . . . . . . . . Costruzione del modello di variabilità . . . . . . . . . . . . . . . . 2.4.1 Proiezione nello spazio tangente . . . . . . . . . . . . . . . . 2.4.2 Point Distribution Model: estrazione dei modi di variazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 8 9 10 11 13 13 13 15 15 16 In questo capitolo introdurremo i concetti relativi agli approcci statistici per l’analisi della forma (dall’inglese shape analysis). Faremo esclusivamente riferimento a forme descritte attraverso landmark, di cui daremo una definizione formale nella sezione 2.1. Affronteremo poi, nelle sezioni 2.2 e 2.3 il problema della normalizzazione e dell’allineamento delle forme rappresentate. Questo passaggio preliminare si rende necessario per la definizione statistica dei modelli di variabilità che descriveremo nella sezione 2.4. 2.1 Definizioni preliminari Come primo passo per la descrizione dell’approccio di analisi statistica forniamo in questa sezione alcune definizioni preliminari sui concetti di landmark e di forma. Dryden e Mardia (1998) forniscono la seguente definizione di landmark: Definizione 2.1.1. Un landmark è un punto di corrispondenza per ogni oggetto omologo tra e all’interno delle popolazioni. Il concetto generale di landmark si estende a varie tipologie di punti individuati sul contorno o sulla superficie di un oggetto ed è possibile classificarli in relazione alla tecnica adotatta nell’individuarli: Landmark Anatomici. Sono punti assegnati da un esperto che corrispondono a segni distintivi della specifica classe di oggetti. 7 2. A NALISI STATISTICA DELLA FORMA 2.2. T RASFORMAZIONE DELLE FIGURE Landmark Matematici. Sono punti generati automaticamente utilizzando caratteristiche geometriche delle forme. Ad esempio possiamo considerare tra i landmark matematici punti estremi, spigoli o in generale punti ad elevata curvatura. Pseudo-Landmark. Sono punti generati automaticamente, in alcune applicazioni anche in base a landmark anatomici o matematici precedentemente identificati. Ad esempio è possibile generare un certo numero di pseudo-landmark equidistanti compresi tra due landmark anatomici. L’individuazione dei landmark più adatti a rappresentare la forma di una data famiglia di oggetti è un’operazione importante e particolarmente critica in ogni applicazione di analisi statistica della forma. Un’etichettatura non corretta può solo produrre modelli poco attendibili e non aderenti alla reale variabilità presente tra gli oggetti. Uno dei problemi maggiormente sentiti nell’utilizzo di landmark matematici o di pseudo-landmark è quello che in letteratura viene definito come il “problema della corrispondenza”: data una popolazione di forme descritte attraverso landmark, è necessario riuscire a definire un’etichettatura che associ lo stesso valore ai punti corrispondenti su tutte le forme. Questo task è solitamente risolto facilmente in due dimensioni con una annotazione manuale ma nel 3D le difficoltà di visualizzazione e l’alto numero di landkmark necessari rendono il processo lungo e soggetto ad errore. Per questo motivo, molti approcci automatici sono stati proposti e nel capitolo 3 presenteremo la soluzione adottata in questo lavoro di Tesi. Chiameremo l’insieme delle coordinate dei landmark, estratti ad esempio da una immagine, “configurazione” e definiremo come matrice di configurazione la matrice X ∈ Rn×m di coordinate cartesiane di n landmark in m dimensioni, dove lo spazio delle configurazioni è lo spazio di tutti le possibili configurazioni di landmark. Nella succesiva sezione 2.2 presenteremo le operazioni necessarie alla normalizzazione delle configurazioni. In questo contesto Goodall (1991) fornisce una precisa nomenclatura alle forme rappresentate attraverso landmark in base proprio alle trasformazioni ad esse applicate, definendo le seguenti tipologie: Figure. Corrisponde alla configurazione dei landmark originali, così come estratti, senza alcuna trasformazione. Form. Corrisponde alla classe di equivalenza composta dalle figure alle quali le informazioni di traslazione e rotazione sono state rimosse. Una form è anche chiamata size-and-shape (Dryden e Mardia, 1998). Shape. Corrisponde alla classe di equivalenza composta dalle figure alle quali le informazioni di traslazione, rotazione e scalatura sono state rimosse. In questo capitolo ci riferiremo alle figure anche attraverso il termine italiano di “figura”, mentre useremo sempre i termini originali di form e shape per evitare ambiguità. Nei restanti capitoli della Tesi, allo scopo di migliorare la leggibilità dei concetti esposti, utilizzeremo genericamente il termine italiano “forma”, tranne nei casi in cui è rilevante conoscere quali siano le trasformazioni applicate alla configurazione di landmark e non è possibile evincerle dal contesto. 2.2 Trasformazione delle figure Formalizziamo, a questo punto, i concetti di figure, form e shape appena introdotti attraverso le possibili trasformazioni applicabili alle configurazioni di landmark. 8 2. A NALISI STATISTICA DELLA FORMA 2.2. T RASFORMAZIONE DELLE FIGURE Come vedremo, le trasformazioni di scala (isotropica, in quanto deve conservare la topologia della forma) possono essere definite attraverso una moltiplicazione tra la matrice di configurazione ed un numero reale positivo, mentre, le trasformazioni di traslazione possono essere definite attraverso una somma matriciale tra le configurazioni e un vettore costante m-dimensionale. Infine, dovendo considerare sia trasformazioni di rotazione pura che trasformazioni di rotazione e riflessione delle forme ci riferiremo ai seguenti gruppi: O(m) = {R ∈ Rm×m : RT R = RRT = Im e |R| = ±1} SO(m) = {Γ ∈ R m×m T T : Γ Γ = ΓΓ = Im e |Γ| = +1} (2.1) (2.2) dove O(m) è definito “gruppo ortogonale”, contenente tutte le matrici di rotazione e riflessione in uno spazio m-dimensionale (determinante ±1), mentre SO(m) è definito “gruppo ortogonale speciale”, contenente le sole matrici di rotazione pura (determinante 1). L’obiettivo di questa sezione è quello di formalizzare le classi di equivalenza definite dall’insieme delle trasformazioni di similarità Euclidee {βXΓ + 1n µT : β ∈ R+ , Γ ∈ SO(m), µ ∈ Rm }, (2.3) e dall’insieme delle trasformazioni su corpo rigido, {XΓ + 1n µT : Γ ∈ SO(m), µ ∈ Rm }, (2.4) dove abbiamo che β è un fattore di scala, Γ è una matrice di rotazione, µ è un vettore di traslazione e 1n ∈ Rn è un vettore composto da tutti elementi di valore 1. 2.2.1 Trasformazioni di traslazione L’eliminazione delle informazioni di traslazione dalle configurazioni si può facilmente ottenere centrando le matrici di configurazione attraverso la seguente matrice simmetrica idempotente1 , denominata centering matrix, 1 C = In − 1n 1Tn , (2.5) n con la quale possiamo definire la matrice XC = CX, (2.6) come la configurazione centrata sull’origine. In alternativa, alcuni autori fanno uso della matrice di Helmert HF ∈ Rn×n , una matrice ortogonale che ha sulla prima riga tutti i valori pari √ ad 1/ n e con la generica riga j-esima pari a 1 (hj , . . . , hj , −(j − 1)hj , 0, . . . , 0), con hj = − p , j = 2, . . . , n, j(j − 1) (2.7) dove il primo 0 appare in posizione (j + 1)-esima. Definendo la sotto-matrice di Helmert H ∈ R(n−1)×n , come la matrice ottenuta da HF eliminando la prima riga, se pre-moltiplichiamo la configurazione X con la matrice H, otteniamo una configurazione dei landmark detti “Helmertizzati”: XH = HX. (2.8) Esiste un’importante relazione tra la matrice di centramento e la sotto-matrice di Helmert 1 Una matrice simmetrica A è idempotente quando AA = A. 9 2. A NALISI STATISTICA DELLA FORMA 2.2. T RASFORMAZIONE DELLE FIGURE che ci permette di calcolare l’una a partire dall’altra, e passare da una matrice centrata ad una helmertizzata: HT H = C T (2.9) T H XH = H HX = CX. (2.10) L’utilizzo di una o dell’altra matrice con lo scopo di rimuovere gli effetti di scala dalle configurazioni, non ha particolari ripercussioni sulla definizione teorica e formale delle forme. Solitamente di preferisce l’uso della matrice C in quanto permette di lavorare direttamente con le coordinate cartesiane dei landmark ed il plot delle configurazioni mostra una corretta vista della geometria della forma rappresentata. 2.2.2 Trasformazioni di scala Il filtraggio delle informazioni di scala presuppone la presenza di una nozione di dimensione. Possiamo definire, dimensione della forma (shape size) una qualsiasi funzione reale positiva g(·) sulle matrici di configurazione tale che g(aX) = ag(X), ∀a > 0 (2.11) Definiamo inoltre il concetto di dimensione del centroide (centroid size) come S(X) = kXC k q = trace((CX)T CX) q = trace(XT CT CX) q = trace(XT CX), dove, data una generica matrice A ∈ Rn×m definiamo con v uX m q u n X 2 t kAk = |ai,j | = trace(AT A), (2.12) (2.13) i=1 j=1 la norma di Frobenius della matrice A. Possiamo far notare che sostituendo la (2.9) nella (2.12) ottiamo che q S(X) = trace(XT CX) q = trace(XT HT HX) q = trace((HX)T HX) q = trace(XTH XH ) (2.14) = kXH k, ovvero, che la dimensione di una figura centrata è invariante rispetto al tipo di centramento utilizzato. 10 2. A NALISI STATISTICA DELLA FORMA 2.2. T RASFORMAZIONE DELLE FIGURE Utilizzando questa nozione di dimensione possiamo definire la matrice ZH = XH kXH k (2.15) come la pre-shape2 di una configurazione X helmertizzata, e la pre-shape centrata come XC CX = kXC k kXH k HT HX HT XH = = kXH k kXH k ZC = (2.16) = HT ZH . Le operazioni di filtraggio degli effetti di traslazione e di scala ci forniscono un’informazione molto importante sullo spazio nel quale sono definite le pre-shape. Essendo infatti queste ultime di dimensione unitaria e traslate rispetto all’origine, sono tutte disposte sulla superficie di un’ipersfera di raggio unitario in uno spazio ad (n − 1) · m dimensioni. 2.2.3 Formalizzazione dei concetti di form e di shape Come introdotto in precedenza, disponendo delle trasformazioni di traslazione e scalatura appena definite, e applicando delle opportune rotazioni alle matrici di configurazione possiamo facilmente definire formalmente i concetti di form e shape. In particolare, definiamo la form di una figura rappresentata attraverso una matrice di configurazione X, come la classe di equivalenza [X]S = {XC Γ : Γ ∈ SO(m)}, (2.17) ovvero come l’insieme delle configurazioni ottenute ruotando le figure centrate (o helmertizzate) attraverso una opportuna matrice di rotazione pura Γ. Definiamo, invece, la shape di una figura rappresentata attraverso una matrice di configurazione X come la classe di equivalenza [X] = {ZC Γ : Γ ∈ SO(m)}, (2.18) dove entrano in gioco anche le trasformazioni di scala isotropica e dove possiamo individuare la seguente relazione tra form e shape: [X] = [X]S /S(X). (2.19) Notiamo subito un’importante differenza: lo spazio delle shape (shape space), a differenza dello spazio delle form (form space), è assimilabile ad una ipersfera di raggio unitario, in quanto le figure sono centrate e normalizzate alla dimensione unitaria. In particolare, lo spazio delle shape è partizionato in fibre (ognuna delle quali corrisponde ad una classe di equivalenza [X]), dove ogni pre-shape sulla stessa fibra differisce solo per trasformazioni di rotazione (figura 2.1). In questo contesto, si definisce la distanza di Procrustes tra due figure come la minima distanza Euclidea tra una coppia di pre-shape sulle fibre corrispondenti ed è di particolare 2 Il nome “pre-shape” sta semplicemente a significare che ci troviamo ad un passo dalla “shape”, che si ottiene dopo aver filtrato anche la rotazione (vedi sezione 2.2.3). 11 2. A NALISI STATISTICA DELLA FORMA 2.2. T RASFORMAZIONE DELLE FIGURE Figura 2.1: Una visione schematica di due fibre sullo spazio delle pre-shape, che corrispondono alle shape di due matrici di configurazione [X1 ] e [X2 ], con le pre-shape, [Z1 ] e [Z2 ]. importanza la distanza di Procrustes completa dp (X1 , X2 ) = min Γ∈SO(m) kZ2 − Z1 Γk = √ 2(1 − m X 1 λi ) 2 , (2.20) i=1 dove λ1 ≥ λ2 ≥ · · · ≥ λm−1 ≥ |λm | sono le radici quadrate degli autovalori della matrice (ZT2 Z1 )T (ZT2 Z1 ) ed il valore di λm è negativo se e solo se |(ZT2 Z1 )T | < 0. Abbiamo inoltre che √ 0 ≤ dp (X1 , X2 ) ≤ 2. (2.21) In letteratura (Goodall, 1991) la distanza di Procrustes è spesso utilizzata nello spazio delle shape in sostituzione della distanza geodetica ρ (great circle distance) alla quale è legata dalla relazione dp = 2 sin ρ/2 (figura 2.1). Lo spazio delle shape è quindi formato da tutti i possibili insiemi non coincidenti di n punti in Rm sotto trasformazioni di similarità euclidee. Come conseguenza di ciò, abbiamo che la dimensione dello spazio delle forme è pari a M = nm − m − 1 − m(m − 1) , 2 (2.22) dato che alle n · m coordinate eliminiamo m dimensioni per la traslazione, una dimensione per la scala e m(m − 1)/2 per la rotazione. Infine, essendo una shape una classe di equivalenza si pone il problema di sceglierne una visualizzazione grafica. Solitamente si utilizza la relativa pre-shape centrata come rappresentante della classe (chiamata anche icona). Ovviamente, è possibile ridefinire entrambi le classi di equivalenza includendo anche la possibilità di effettuare operazioni di riflessione della figura attraverso l’utilizzo di matrici di rotazione e riflessione, ottenendo [X]R = {ZC R : R ∈ O(m)}, (2.23) [X]R S = {XC R : R ∈ O(m)}, (2.24) che, rispettivamente, sono denominate reflection shape e reflection form (o reflection size-and-shape). 12 2. A NALISI STATISTICA DELLA FORMA 2.3 2.3. A NALISI DI P ROCRUSTES Analisi di Procrustes L’analisi di Procrustes permette di allineare le diverse configurazioni attraverso trasformazioni di similarità in modo da minimizzare la distanza di Procrustes completa tra figure, utilizzando tecniche di ottimizzazione ai minimi quadrati. In letteratura sono descritte due tipologie di analisi di Procrustes: ordinaria e generalizzata. La prima si occupa del matching tra due figure mentre la seconda, utilizzando la prima, cerca di analizzare e allineare insiemi composti da più di due figure. In questa sezione assumiamo che le matrici delle configurazioni (Xi ) siano già state centrate, attraverso una delle equazioni (2.8) o (2.6). 2.3.1 Analisi di Procrustes Ordinaria Il metodo dell’analisi di Procrustes ordinaria (OPA) comporta la minimizzazione della seguente funzione obiettivo (β̂, Γ̂) = argmin kX2 − βX1 Γk2 , (2.25) β,Γ con β > 0 e Γ ∈ SO(m), alla ricerca delle trasformazioni di similarità in grado di minimizzare la distanza tra X1 ed X2 . Calcolando la decomposizione SVD di XT2 X1 = UDVT , si dimostra (Dryden e Mardia, 1998) che la soluzione (β̂, Γ̂) al problema (2.25) è definita da Γ̂ = VUT β̂ = (2.26) trace(XT2 X1 Γ̂) trace(XT1 X1 ) = trace(D) . kX1 k2 (2.27) Il valore minimo della funzione obiettivo, chiamato Ordinary (Procrustes) Sum of Squares è indicato con OSS(X1 , X2 ), è pari a OSS(X1 , X2 ) = kX2 − β̂X1 Γ̂k2 = kX2 − XP1 k2 , (2.28) dove con XP1 indichiamo la configurazione X1 derivata dalla sovrapposizione di X1 su X2 . 2.3.2 Analisi di Procrustes Generalizzata L’analisi di Procrustes generalizzata (GPA), non è altro che un’estensione dell’OPA in grado di analizzare un insieme di k ≥ 2 matrici di configurazione X1 , X2 , . . . , Xk stimando la matrice di configurazione media X̄. Nella GPA consideriamo le configurazioni come appartenenti ad una certa popolazione con valore medio µ e dove vogliamo stimare la shape media [X̄] dai campioni dove X̄, la pre-shape di [X̄], si definisce come la media aritmetica delle configurazioni sotto opportune trasformazioni di similarità: k 1X βj Xj Γj . (2.29) X̄ = k j=1 13 2. A NALISI STATISTICA DELLA FORMA 2.3. A NALISI DI P ROCRUSTES Se consideriamo la seguente funzione obiettivo k k 1X X ({β̂}, {Γ̂}) = argmin kβi Xi Γi − βj Xj Γj k2 k {β},{Γ} i=1 j=i+1 = argmin k X {β},{Γ} i=1 k 1X βj Xj Γj k2 , kβi Xi Γi − k (2.30) j=1 con la quale stimiamo i parametri di scala e rotazione che minimizzano la somma delle distanze di ogni singola configurazione dalla configurazione media, possiamo definire il seguente problema di ottimizzazione ai minimi quadrati: ˆ ) = argmin ({β̂i }, {Γ̂i }, X̄ k X kβi Xi Γi − X̄k2 {βi },{Γi },X̄ i=i soggetto a (2.31) S(X̄) = 1, dove il vincolo sulla centroid size permette di stimare valori di scalatura β̂i non nulli. Molti approcci sono stati proposti in letteratura per la soluzione del problema (2.31) (Cootes et al., 1992; Dryden e Mardia, 1998; Hastie et al., 2009). Solitamente tutti gli algoritmi sono costruiti attraverso uno schema che iterativamente aggiorna la stima della configurazione media e allinea le varie configurazioni rispetto a quest’ultima attraverso l’OPA, il tutto fino al raggiungimento di un dato criterio di convergenza (solitamente in poche iterazioni). L’algoritmo 2.1 che abbiamo implementato ed utilizzato in questa Tesi descrive l’approccio utilizzato da Cootes et al. (1992, 1995) per addestrare modelli di variabilità della forma, come vedremo nella sezione 2.4. Algoritmo 2.1 Analisi di Procrustes Generalizzata 1: for i ← 1, . . . , k do 2: Xi ← CXi 3: end for 4: X̄ ← X1 /kX1 k 5: X̄0 ← X̄ 6: repeat 7: for i ← 1, . . . , k do 8: (β̂i , Γ̂i ) ← argmin βi ,Γi kβi Xi Γi − X̄k2 9: Xi ← β̂i Xi Γ̂i 10: end forP 11: X̄ ← k1 ki=1 Xi 12: (β̂, Γ̂) ← argmin β,Γ kβ X̄Γ − X̄0 k2 13: X̄ ← β̂ X̄Γ̂ 14: X̄ ← X̄/kX̄k 15: until X̄ converge . Reference Frame . Nuova stima della media . Normalizzazione della stima calcolata Alla riga 2 centriamo le figure utilizzando la matrice C definita nell’equazione (2.6) per preservare la possibilità di visionare graficamente i risultati. Successivamente, alla riga 4, inizializziamo X̄ normalizzando la prima figura del dataset e al passo seguente definiamo un figura di riferimento X̄0 che utilizzeremo ad ogni iterazione (riga 12) per correggere posizione e dimensione della media stimata. Notiamo le operazioni alle righe 8 e 12 che corrispondono 14 2. A NALISI STATISTICA DELLA FORMA 2.4. C OSTRUZIONE DEL MODELLO DI VARIABILITÀ all’applicazione dell’analisi di Procrustes Ordinaria. Sottolineamo, infine, alcuni aspetti interessanti dell’algoritmo che sono stati messi in evidenza da Cootes et al. (1995): • l’accorgimento relativo all’utilizzo del frame di riferimento X̄0 assicura la convergenza imponendo che la stima X̄ non possa assumere all’infinito qualsiasi tipo di configurazione; • la normalizzazione di X̄ (riga 14) e il successivo allineamento delle configurazioni ad essa, non produce gli stessi risultati che normalizzare direttamente le configurazioni. Questo perché la normalizzazione introduce delle correlazioni artificiali tra i landmark che possono distorcere il modello. È inoltre possibile introdurre alcune variazioni all’algoritmo 2.1 che possono velocizzare o stabilizzare i risultati. Ad esempio è possibile inizializzare la matrice X̄ con la media aritmetica delle forme (come alla riga 11), oppure inizializzare il valore di X̄0 con la media aritmetica delle forme iniziali centrate e di dimensione unitaria. 2.4 Costruzione del modello di variabilità Nelle sezioni precedenti abbiamo visto come trattare insiemi di shape attraverso la GPA, in questa sezione ci occuperemo di costruire un modello della loro variabilità. In questa fase presupporremo che le figure siano già state allineate e tratteremo matrici di configurazione delle shape (o meglio di pre-shape o pre-form). Vedremo come effettuare quella che viene definita decomposizione delle forme, dove andremo ad individuare i modi di variazione delle stesse attraverso la Principal Component Analysis. Per applicare le tecniche descritte in questa sezione abbandoniamo il formato delle matrici di configurazione, le quali saranno “vettorizzate”. Ogni shape X ∈ Rn×m sarà rappresentata da un vettore x ∈ Rn·m . Ad esempio, rappresenteremo una shape in due dimensioni attraverso il vettore x = (x1 , y1 , x2 , y2 , . . . , xk , yk )T . (2.32) 2.4.1 Proiezione nello spazio tangente Come accennato nei paragrafi precedenti, le shape centrate e normalizzate in dimensione giacciono sulla superficie di un’ipersfera. Questa rappresentazione introduce delle non-linearità nelle trasformazioni tra shape, come abbiamo già visto nella sezione 2.2.3 dove sostituiamo la distanza geodetica con una distanza euclidea. Dovendo applicare la PCA, una tecnica di decomposizione lineare, ai nostri dati può essere conveniente rimuovere queste non-linearità proiettando le shape sull’iperpiano tangente all’ipersfera nel punto della shape media x̄, considerata come polo dello spazio tangente (figura 2.2). Un approccio (Cootes e Taylor, 2004) semplice ed efficace per effettuare questa proiezione è attraverso una trasformazione di scala. Immaginiamo che xt sia la proiezione di x nello spazio tangente, e consideriamo x0t come la proiezione di xt nella direzione di x̄ x0t = xt · x̄ x̄. kx̄k2 (2.33) Essendo, per costruzione, x0t = x̄, abbiamo che x0t = xt · x̄ x̄ = βx̄ ⇒ β = 1, kx̄k2 (2.34) 15 2. A NALISI STATISTICA DELLA FORMA 2.4. C OSTRUZIONE DEL MODELLO DI VARIABILITÀ Figura 2.2: Esempio di proiezione di una shape nello spazio tangente definito usando come polo la shape media x̄ dove, sostituendo xt con αx (dato che proiettiamo attraverso una trasformazione di scala, figura 2.2), otteniamo xt · x̄ x · x̄ =α = 1. (2.35) 2 kx̄k kx̄k2 Possiamo a questo punto calcolare la proiezione di x nello spazio tangente come xt = αx = kx̄k2 x x= , x̄ · x x̄ · x (2.36) in quanto, essendo le forme scalate in modo da avere dimensione unitaria, il valore di kx̄k2 è pari ad 1. 2.4.2 Point Distribution Model: estrazione dei modi di variazione Cootes et al. (1992) hanno introdotto l’utilizzo della PCA nell’estrazione dei modi di variazione di figure rappresentate attraverso landmark e allineate utilizzando la GPA. Questo approccio, utilizzando un modello statistico di distribuzione dei landmark (Point Distribution Model – PDM), permette di catturare e di analizzare la variabilità e la correlazione statistica tra i landmark che descrivono le forme. Organizzando le k shape del dataset, x1 , . . . , xk , in una matrice X ∈ Rn·m×k (dove in genere n · m k), possiamo calcolare la matrice U degli autovettori della matrice di covarianza (le componenti principali) attraverso la Singular Value Decomposition X = UΣVT , (2.37) come vedremo nei dettagli nel capitolo 4. Dato che le componenti principali sono una combinazione lineare di tutte le coordinate dei landmark, possiamo ricostruire ogni shape a partire da quella media e dalla matrice U x = x̄ + Uy, (2.38) dove y è la proiezione di (x − x̄) sulle componenti principali y = U−1 (x − x̄) = UT (x − x̄), (2.39) 16 2. A NALISI STATISTICA DELLA FORMA 2.4. C OSTRUZIONE DEL MODELLO DI VARIABILITÀ dove U−1 = UT in quanto matrice ortogonale. Selezionando un certo sottoinsieme di autovettori, ad esempio t, in relazione ad esempio alla varianza spiegata dalle varie componenti, la sotto-matrice degli autovettori avrà dimensione n·m×t Ũ = (u1 , u2 , . . . , ut ) (2.40) T (2.41) ỹ = (y1 , y2 , . . . , yt ) , e possiamo calcolare un’approssimazione di x attraverso le prime t componenti principali: x̃ ≈ x̄ + Ũỹ. (2.42) Se indichiamo con σi2 la varianza dei dati proiettati sulla i-esima componente principale possiamo generare nuove forme appartenenti alla popolazione statistica, utilizzando l’equazione (2.42) e il vettore ỹ come insieme di parametri. In particolare, possiamo evidenziare i modi di variazione sull’i-esima componente principale, utilizzando un vettore sparso dei parametri del tipo ỹ = (0, . . . , 0, yi , 0, . . . , 0)T . (2.43) Il valore del parametro yi deve rispettare alcuni vincoli in modo da garantire la generazione di forme statisticamente appartenenti alla popolazione stimata dal modello, in base agli esempi presenti nel training set. Assumendo che la variazione del singolo landmark sia di tipo gaussiano e sia centrata sul valore del corrispondente landmark appartenente alla shape media (come dimostreremo nel capitolo 6 con i risultati sperimentali), possiamo selezionare un valore di yi nel range − 3σi ≤ yi ≤ +3σi (2.44) in modo da ottenere nuove shape statisticamente appartenenti alla popolazione delle shape in esame. 17 CAPITOLO 3 R APPRESENTAZIONE DELLA FORMA Contenuto 3.1 3.2 3.3 Panoramica delle rappresentazioni . . . . . . . . . . . . . . . Mesh di superficie come descrittori di forma . . . . . . . . . . 3.2.1 Generazione della mesh: algoritmo dei marching cubes 3.2.2 Densità della mesh: algoritmo di decimazione . . . . . Mesh di superficie per forme ippocampali . . . . . . . . . . . 3.3.1 Una soluzione al problema della corrispondenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 19 20 20 22 24 In questo capitolo ci occuperemo della rappresentazione della forma, ovvero delle feature che è possibile utilizzare per descrivere la morfologia di un dato oggetto. Nella sezione 3.1 forniremo una descrizione delle possibili rappresentazioni evidenziandone pregi e difetti. Nella sezione 3.2, dopo aver descritto il contesto applicativo, ci soffermeremo sull’utilizzo delle mesh di superficie e mostreremo come è stato risolto in questa Tesi il problema della corrispondenza dei landmark sulle superfici tridimensionali a nostra disposizione, anche analizzando ed adattando le applicazioni presenti in letteratura. 3.1 Panoramica delle rappresentazioni Storicamente, i primi interessi nello studio statistico della forma e della sua variabilità (Kendall, 1977; Bookstein, 1978), descrivono quest’ultima come una serie di punti etichettati (o numerati) definiti come landmark, dei quali è stata fornita una definizione formale nel capitolo 2. Questo tipo di rappresentazione è tuttora molto utilizzata (Cootes et al., 2001; Sjöstrand et al., 2007; Alcantara et al., 2009) e sono state sviluppate varie tecniche per il loro posizionamento automatico, basate su proprietà geometriche del contorno degli oggetti come il grado di curvatura e la presenza di spigoli (Bookstein, 1996). D’altronde, la possibilità di disporre di dataset di annotazioni manuali, fornisce un grado di precisione ottimale nella posizione dei landmark. Se nel 2D l’annotazione manuale è una operazione fattibile, il tutto si complica passando da contorni bidimensionali a superfici tridimensionali dove il concetto di landmark si è evoluto in modo naturale con quello di mesh di superficie appartenente alla Computer Graphic. Una delle alternative alla rappresentazione attraverso landmark è l’uso di assi mediali o skeleton introdotti da Blum (1967), il quale ha proposto il primo algoritmo di trasformazione 18 3. R APPRESENTAZIONE DELLA FORMA 3.2. M ESH DI SUPERFICIE COME DESCRITTORI DI FORMA Figura 3.1: Differenze negli assi mediali calcolati su oggetti con forma rettangolare aventi piccole perturbazioni dovute a rumore. del contorno di un oggetto nella sua rappresentazione mediale (MAT - Medial Axis Transformation). Gli assi mediali forniscono una rappresentazione compatta della forma sia in due che tre dimensioni e sono utilizzati anche nelle applicazioni mediche di shape analysis (Jens et al., 2005). Questa rappresentazione soffre però di due problemi che ne rendono non propriamente adatto l’uso in un contesto di analisi statistica: due forme con contorni diversi possono avere lo stesso skeleton; la stessa forma, con piccole perturbazioni dovute al rumore, può avere due skeleton molto diversi, come evidenziato in figura 3.1. Gli assi mediali, così come i landmark, cercano di estrarre da una immagine, una rappresentazione di forma compatta, ovvero con una dimensionalità inferiore rispetto a quella dell’immagine in input. Tra le rappresentazioni non compatte, invece, possiamo citare le mappe di distanza (anche dette distance transform) (Golland et al., 2005) che si definiscono come funzioni che ad ogni punto dell’immagine associano la distanza del punto stesso dal contorno dell’oggetto. Questo tipo di rappresentazione può essere vista come una generalizzazione degli assi mediali e meno suscettibile al rumore. Anche l’uso dei campi di deformazione (Rueckert et al., 2003) fornisce una rappresentazione non compatta della forma. Questo tipo di descrittore si basa sull’utilizzo di algoritmi di registrazione non rigida delle immagini in input rispetto ad un template prefissato. Questa operazione fornisce, per ogni pixel dell’immagine (o voxel del volume 3D), un vettore di spostamento orientato nella direzione del pixel corrispondente individuato come nel template. Infine, possiamo citare tra i descrittori di forma tutti quelli derivanti dall’applicazione di modelli parametrici alla superficie o al contorno di un oggetto. Si tratta, in generale, della decomposizione dell’oggetto attraverso l’uso di funzioni di base come le armoniche sferiche (SPHARM) (Brechbühler et al., 1995). Nella prossima sezione, invece, ci concentreremo sull’uso delle mesh di superficie e vedremo come l’uso combinato di questa rappresentazione con i campi di deformazione permette di superare efficacemente il problema della corrispondenza tra landmark generati automaticamente. 3.2 Mesh di superficie come descrittori di forma In questa sezione descriveremo le tecniche adottate nell’applicare mesh di superficie a maschere binarie tridimensionali. In particolare presenteremo due algoritmi che, utilizzati in successione, formano una pipeline che prima genera una mesh densa di superficie e poi di riduce il numero di vertici (landmark) attraverso criteri geometrici che preservano la topologia della mesh stessa. Le implementazioni degli algoritmi descritti in questa sezione e utilizzati in questa Tesi fanno parte delle librerie open source ITK (Insight Segmentation and Registration Toolkit) e 19 3. R APPRESENTAZIONE DELLA FORMA 3.2. M ESH DI SUPERFICIE COME DESCRITTORI DI FORMA Figura 3.2: Esempio di marching cube tra due slice del volume 3D. VTK (Visualization ToolKit)1 , che forniscono supporto all’implementazione di sistemi 3D per la computer grafica, l’elaborazione delle immagini e la visualizzazione. 3.2.1 Generazione della mesh: algoritmo dei marching cubes L’algoritmo dei marching cubes, proposto da Lorensen e Cline (1987), si pone l’obiettivo di costruire mesh triangolari da superfici 3D e, applicato su un’immagine binaria, produce la triangolazione della superficie dell’oggetto. L’algoritmo è basato sul concetto di marching cube che è definito come quel cubo logico disposto tra due slice del volume 3D e dove gli otto vertici sono associati ai corrispondenti voxel sulle slice, come evidenziato in figura 3.2. Ai vertici del cubo è associato uno stato che dipende dall’appartenenza del voxel corrispondente alla superficie (valore 1) o al background (valore 0). Considerando i due possibili stati su otto vertici, abbiamo la possibilità di incontrare 28 = 256 diverse configurazioni dei cubi. In base a queste ultime, l’algoritmo è in grado di identificare in che modo il cubo interseca la superficie e può, tramite un processo di interpolazione lineare, calcolare i triangoli della mesh risultante. Fortunatamente, sfruttando due proprietà di simmetria delle configurazioni (figura 3.3(a)) è possibile ridurne il numero da 256 alle 15 mostrate in figura 3.3(b). In pratica vengono utilizzate tutte le configurazioni che risultano diverse anche considerando gli effetti legati alla rotazione o alla specularità degli stati dei vertici. In definitiva, i passi che l’algoritmo compie su ogni marching cube sono i seguenti: 1. identifica a quale configurazione appartiene; 2. tramite una tabella hash indicizzata sulle configurazioni, accede ad una lista precalcolata dei bordi del cubo che intersecano la superficie; 3. utilizzando l’elenco dei bordi, calcola i triangoli da aggiungere alla mesh risultante. 3.2.2 Densità della mesh: algoritmo di decimazione Triangolare una superficie complessa e irregolare attraverso l’algoritmo dei marching cubes, produce un alto numero di triangoli, costruendo una mesh di superficie molto densa, composta da un altissimo numero di landmark (vertici). Nel campo della Computer Graphic, dove la presenza di un elevato numero di triangoli si traduce nella difficoltà di visualizzare e memorizzare gli oggetti rappresentati con hardware general purpose, sono stati sviluppati molti algoritmi che cercano di ridurne il numero. Nella nostra applicazione, ci siamo affidati ad uno dei classici algoritmi, indipendente dall’applicazione, di decimazione di mesh triangolari proposto da Schroeder et al. (1992). Tra le caratteristiche dell’algoritmo ne sottolineiamo la capacità di preservare la topologia originale dei triangoli mantenendo una buona approssimazione geometrica. 1 Reperibili agli indirizzi http://www.itk.org e http://www.vtk.org. 20 3. R APPRESENTAZIONE DELLA FORMA 3.2. M ESH DI SUPERFICIE COME DESCRITTORI DI FORMA (a) Esempi di simmetria utilizzata: usando il cubo A come riferimento, il cubo AR risulta ruotato, mentre il cubo AF ha gli stati dei vertici speculari. Solo il cubo A verrà utilizzato come pattern di base (il numero 1 in figura 3.3(b)). (b) Possibili pattern di triangolazione individuati dall’algoritmo dei marching cubes. Figura 3.3: Esempi di simmetria nelle configurazioni che permettono la riduzione dei pattern nell’algoritmo dei marching cubes ai 15 nella sottofigura 3.3(b). L’algoritmo effettua multipli passaggi su ogni vertice della mesh. Dopo ogni passaggio, tutti i vertici che soddisfano uno specifico criterio di decimazione vengono rimossi. Insieme ai vertici, vengono eliminati tutti i triangoli che li utilizzano a le zone decimate vengono localmente ritriangolate. I passaggi si ripetono fino al raggiungimento di un dato criterio di terminazione come la percentuale di decimazione raggiunta rispetto alla mesh originale. Entrando nel dettaglio, descriviamo di seguito i passi che l’algoritmo compie ad ogni passaggio su ogni vertice. Individuazione della geometria e della topologia locale del vertice. L’obiettivo di questa fase è quello di individuare i potenziali vertici candidati all’eliminazione. A questo scopo, ogni vertice può essere assegnato ad una delle seguenti categorie (figura 3.4): • vertice semplice (simple); – vertice su bordo interno (interior edge); – vertice in un angolo (corner); • vertice complesso (complex); • vertice di confine (boundary). Le tre macro-categorie sono caratterizzate da proprietà topologiche. Un vertice semplice appartiene a triangoli che formano un circolo completo, a differenza dei vertici di confine dove è presente solo un semicircolo. I vertici complessi sono invece definiti dalla mancanza di un circolo, ma dalla presenza di un triangolo non allineato con gli altri che utilizzano il vertice in esame. I vertici semplici si suddividono in due ulteriori sottocategorie in base ad una caratteristica geometrica dei triangoli: quando l’angolo planare formato tra due triangoli adiacenti supera una certa soglia (chiamata feature angle) si dice che esiste un 21 3. R APPRESENTAZIONE DELLA FORMA 3.3. M ESH DI SUPERFICIE PER FORME IPPOCAMPALI Figura 3.4: Classificazione topologica e geometrica dei vertici in una mesh triangolare utilizzati dall’algoritmo di decimazione. (a) Criterio di decimazione per i vertici di confine e per i vertici semplici appartenenti ad un bordo interno. (b) Criterio di decimazione per i vertici semplici senza feature edge. Figura 3.5: Criteri di decimazione adottati per i vertici semplici e di confine. feature edge. Quando un vertice è utilizzato da due feature edge allora è classificato come appartenente ad un bordo. Se è usato da uno o da più di due feature edge allora il bordo viene classificato come appartenente ad un angolo. Tutte le tipologie di vertici, tranne quelli complessi e quelli su un angolo, sono possibili candidati all’eliminazione. Valutazione del criterio di decimazione. Per i vertici di confine e per i vertici semplici appartenenti ad un bordo interno viene calcolata la distanza dalla retta passante per i vertici che creano il confine (figura 3.5(a)). Se questa distanza è minore di una certa soglia il vertice viene eliminato. Per quanto riguarda, invece, i vertici semplici non appartenenti ad un feature edge, viene calcolato il piano medio rispetto ai vertici del circolo e calcolata la distanza del vertice in esame da questo piano (figura 3.5(b)). Anche in questo caso, se la distanza è inferiore ad una certa soglia, il vertice viene eliminato. Triangolazione locale della zona decimata. Successivamente al passo di eliminazione di un vertice, è necessario ritriangolare i vertici appartenenti al circolo. L’algoritmo prevede uno schema ricorsivo di triangolazione attraverso suddivisioni successive. Dopo che la triangolazione è completa, rispetto alla configurazione iniziale avremmo precisamente due triangoli in meno in caso di vertici semplici, ed un triangolo in meno in caso di vertici di confine. 3.3 Mesh di superficie per forme ippocampali Il questa sezione descriveremo l’applicazione dei due algoritmi precedenti su un dataset reale di forme tridimensionali. Sotto l’aspetto sperimentale, infatti, la presente Tesi si collegherà al progetto MAGIC-V finanziato dall’INFN (Istituto Nazionale di Fisica Nucleare) e condotto dai gruppi di Bari, Genova, Lecce, Pisa e Torino, che si pone l’obiettivo di costruire una pipeline di 22 3. R APPRESENTAZIONE DELLA FORMA 3.3. M ESH DI SUPERFICIE PER FORME IPPOCAMPALI Figura 3.6: Architettura della pipeline MAGIC-V di segmentazione ippocampale. segmentazione e analisi del grado di atrofia dell’ippocampo, una struttura cerebrale localizzata nella zona mediale del lobo temporale (Calvini et al., 2008; Aiello et al., 2009). La pipeline attuale, utilizzando in input dei volumi MRI (Magnetic Resonance Imaging) produce una maschera binaria tridimensionale contenente l’ippocampo estratto. Il processo fa uso di un insieme di template box selezionate in una fase preliminare da un dataset di segmentazioni manuali dell’ippocampo. Ogni template box rappresenta un prototipo di ippocampo ad un diverso stadio di atrofia. I passi effettuati dalla pipeline, descritta schematicamente in figura 3.6, sono i seguenti: Estrazione della Box. Il primo obiettivo della pipeline è quello di identificare, a partire dall’intero volume della MRI, la zona contenente l’ippocampo e le strutture contigue (come l’amigdala). Questa zona verrà estratta creando un sottovolume 30 × 70 × 30 mm3 . L’estrazione viene effettuata attraverso una registrazione non rigida dell’MRI con le template box contenenti i prototipi di ippocampo. Segmentazione dell’ippocampo. Successivamente, si avvia sulla box individuata un processo di segmentazione che, utilizzando come riferimento le segmentazioni manuali disponibili sulle template box separa l’ippocampo dalle strutture cerebrali contigue producendo un volume tridimensionale contenente una maschera binaria. Questo processo prevede inizialmente la registrazione delle template box sulla box estratta al passo precedente. Ognuna di queste registrazioni produce una campo di deformazione che indica lo spostamento necessario di ogni voxel (nome associato ad un pixel in un volume 3D) del template per ottenere un allineamento con la nuova box. Questi campi di deformazione saranno applicati alle segmentazioni manuali delle template box in modo da ottenere delle segmentazioni grezze della nuova box. Queste ultime saranno combinate per ottenere una segmentazione ottimale dell’ippocampo. 23 3. R APPRESENTAZIONE DELLA FORMA 3.3. M ESH DI SUPERFICIE PER FORME IPPOCAMPALI Figura 3.7: Processo di generazione di una mesh di superficie partendo da una immagine contenente una segmentazione binaria (il blocco “Calcolo dei Landmark” in figura 3.9). Figura 3.8: Dettaglio nell’applicazione dell’algoritmo di decimazione su una mesh ottenuta su una superficie ippocampale. In rosso, in evidenza i vertici della mesh ottenuta attraverso l’applicazione dei marching cube. In blu i triangoli della mesh decimata. I landmark rossi che non appartengono a nessun triangolo sono i vertici eliminati dall’algoritmo. Gli input a nostra disposizione, di cui daremo i dettagli nel capitolo 6 insieme ai risultati sperimentali, è composto dalle segmentazioni manuali delle template box, da una serie di segmentazioni prodotte dalla pipeline (entrambi i gruppi sono formati da maschere binarie 3D) e dai campi di deformazione di ogni template su ogni segmentazione prodotta. Su uno dei template utilizzati nella fase di estrazione e segmentazione della box ippocampale viene generata e decimata una mesh di superficie, come visualizzato in figura 3.7. In figura 3.8 è visualizzato in dettaglio l’effetto generato dall’algoritmo di decimazione che ha prodotto una riduzione dei vertici di circa il 40%, passando da 2132 a 1352 vertici. In figura sono evidenziati in rosso i punti appartenenti alla mesh completa, mentre in blu si riconoscono i triangoli appartenenti alla mesh decimata. Tutti i landmark rossi che non sono vertici dei triangoli blu sono stati eliminati nella decimazione. Nella sottosezione successiva, vedremo come sfruttare le template box segmentate e i campi di deformazione per ottenere un dataset di ippocampi descritti attraverso landmark, proponendo una approccio alla soluzione del problema della corrispondenza. 3.3.1 Una soluzione al problema della corrispondenza In letteratura sono stati proposti vari approcci per la soluzione del problema della corrispondenza su mesh di superficie automaticamente generate. Varie delle architetture proposte differiscono soprattutto in relazione ai dati a disposizione ma, con approcci diversi, raggiungono 24 3. R APPRESENTAZIONE DELLA FORMA 3.3. M ESH DI SUPERFICIE PER FORME IPPOCAMPALI tutti l’obiettivo facendo uso di registrazioni deformabili. In questa sezione descriveremo brevemente gli approcci proposti e forniremo una descrizione dell’architettura progettata e implementata in questa Tesi per generare un dataset di rappresentazioni di forma degli ippocampi segmentati dalla pipeline MAGIC-V. La principale caratteristica che differenzia gli approcci che in letteratura utilizzano mesh di superficie per generare landmark, è la disponibilità delle segmentazioni. Se il dataset in possesso non è composto da maschere binarie e si deve lavorare su volumi in scala di grigi, ad esempio, Heitz et al. (2004) propongono un approccio dove si richiede la segmentazione manuale di una sola immagine, scelta come template rappresentante della popolazione. Successivamente viene effettuata una registrazione deformabile tra il template e l’intero dataset ottenendo una serie di campi di deformazione. Questi vengono applicati alla mesh calcolata sulla segmentazione del template allo scopo di ottenere un dataset di mesh. Kaus et al. (2003), invece, utilizzando un intero dataset di maschere binarie e calcolando la mesh su una di esse, ottengono le rappresentazioni di forma attraverso un allineamento rigido della mesh su tutte le segmentazioni, seguito da un adattamento locale attraverso registrazioni non rigide. Entrambi gli approcci, applicano l’analisi di Procrustes (descritta nel capitolo 2) per l’allineamento e la normalizzazione delle forme prima di applicare la Principal Component Analysis. Frangi et al. (2001), invece, sostituiscono questo passaggio di allineamento con altre operazioni di registrazione rigida prima di effettuare il warping di una mesh calcolata su una segmentazione media, ottenuta su un dataset di maschere binarie. Nel nostro caso, siamo interessati ad ottenere un dataset di forme descritte da landmark (ovvero dai vertici di una mesh di superficie) utilizzando ciò che la pipeline produce durante la segmentazione ippocampale. In figura 3.9 è schematizzato l’approccio progettato ed implementato che consiste nei seguenti passi: • Su uno dei template utilizzati nella fase di estrazione e segmentazione della box ippocampale viene generata e decimata una mesh di superficie. • La selezione del template da utilizzare come riferimento, ci permette di selezionare anche l’insieme delle matrici di deformazione prodotte dalla pipeline. Ogni matrice ci indica lo spostamento necessario dei voxel del template per avere una corrispondenza con la relativa box estratta e segmentata. I campi di deformazione vengono applicati alla mesh di riferimento ottenendo un dataset di mesh, ognuna delle quali descrive la forma di ognuno degli ippocampi segmentati. • Su questo insieme di forme vengono applicate le tecniche di shape analysis come descritte nel capitolo 2. 25 3. R APPRESENTAZIONE DELLA FORMA 3.3. M ESH DI SUPERFICIE PER FORME IPPOCAMPALI Figura 3.9: Schema del processo di generazione del dataset di landmark. La selezione del template è arbitraria ed effettuata manualmente. Il calcolo dei landmark sul template viene effettuato attraverso la successiva applicazione dei marching cube e dell’algoritmo di decimazione. La mesh risultante viene deformata e applicata su tutte le superfici ippocampali del dataset, sfruttando le matrici di deformazione prodotte dalla pipeline di segmentazione. 26 CAPITOLO 4 R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ Contenuto 4.1 4.2 4.3 Principal Component Analysis . . . . . . . . . . . . . . . . . . . 4.1.1 Interpretazione statistica . . . . . . . . . . . . . . . . . . . 4.1.2 Relazione tra la PCA e la Singular Value Decomposition 4.1.3 PCA con dati ad alta dimensionalità . . . . . . . . . . . . Sparse Principal Component Analysis . . . . . . . . . . . . . . 4.2.1 Approssimazione sparsa diretta . . . . . . . . . . . . . . 4.2.2 Formulazione del criterio di sparsità . . . . . . . . . . . . 4.2.3 Calcolo della varianza . . . . . . . . . . . . . . . . . . . . 4.2.4 SPCA per dataset ad alta dimensionalità . . . . . . . . . Caso di studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 29 31 33 35 36 36 38 40 41 In questo capitolo ci occuperemo della Principal Component Analysis come strumento di apprendimento statistico non supervisionato. Nel capitolo 2 abbiamo descritto un approccio che fa uso di questo strumento per la definizione di modelli di variabilità di forma, ma non ci siamo soffermati nella descrizione delle sue caratteristiche generali. Questo capitolo cerca di fornire una descrizione autoconsistente sia degli aspetti teorici che computazionali di questa importante tecnica di decomposizione. Inoltre, nella sezione 4.2 forniremo una dettagliata descrizione della Sparse PCA, una variazione della PCA classica che produce un’approssimazione sparsa delle componenti principali. Come vedremo (anche e soprattutto nel capitolo 6, con i risultati sperimentali), l’utilizzo di tecniche di sparsità aggiunge un fattore di interpretabilità ai modelli generati che non è trascurabile in molte applicazioni, tra le quali l’analisi statistica della forma. 4.1 Principal Component Analysis La Principal Component Analysis (PCA) (Jolliffe, 2002), è una tecnica di apprendimento non supervisionato ampiamente utilizzata per la riduzione della dimensionalità, compressione dei dati ed estrazione di caratteristiche. Le componenti principali (Principal Component, PC) calcolate permettono di proiettare i dati in uno spazio lineare (eventualmente a minore dimensionalità, detto sottospazio lineare), dove la varianza dei dati proiettati è massimizzata. 27 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.1. P RINCIPAL C OMPONENT A NALYSIS Consideriamo un dataset composto da n osservazioni in uno spazio m-dimensionale con n > m1 organizzato sulle colonne di una matrice x1,1 x2,1 · · · xn,1 x1,2 x2,2 · · · xn,2 . (4.1) X = x1 x2 · · · xn = . . . .. .. .. .. . x1,m x2,m · · · xn,m Volendo proiettare i dati in uno spazio unidimensionale (d < m; d = 1), rappresentato dal vettore m-dimensionale u1 , che per convenzione considereremo unitario (uT1 u1 = 1), la proiezione del generico vettore xi del dataset è data dallo scalare uT1 xi . Essendo rispettivamente x̄ e σ 2 il vettore medio e il vettore delle varianze sulle m dimensioni delle osservazioni n 1X x̄ = xi n (4.2) i=1 n 1 X σ = (xi − x̄)2 , n−1 2 (4.3) i=1 otteniamo che uT1 x̄ corrisponde alla media dei punti proiettati nel sottospazio unidimensionale, mentre n 1 X T T u1 Su1 = (u1 xi − uT1 x̄)2 (4.4) n−1 i=1 è la varianza dei dati proiettati, con S matrice di covarianza definita come n S= 1 X (xi − x̄)(xi − x̄)T . n−1 (4.5) i=1 Volendo massimizzare la varianza delle proiezioni in (4.4) rispetto alla direzione u1 , definiamo il seguente problema di ottimizzazione (utilizzando i moltiplicatori di Lagrange) max{uT1 Su1 + λ1 (1 − uT1 u1 )}, u1 (4.6) dove regolarizziamo la soluzione imponendo il vincolo uT1 u1 = 1, (4.7) per impedire che il valore di ku1 k tenda ad infinito. Imponendo la derivata rispetto ad u1 uguale a zero, otteniamo che Su1 = λ1 u1 , (4.8) ovvero che u1 è un autovettore della matrice di covarianza S con autovalore λ1 . Moltiplicando a sinistra per uT1 , e sapendo che uT1 u1 = 1, otteniamo che uT1 Su1 = λ1 . (4.9) La relazione ottenuta ci suggerisce che la varianza delle proiezioni risulta massimizzata quan1 Nella sezione 4.1.3 considereremo il caso in cui i dati a disposizione siano inferiori al numero di variabili. 28 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.1. P RINCIPAL C OMPONENT A NALYSIS do u1 corrisponde all’autovettore associato al più grande autovalore (λ1 ) della matrice di covarianza S. L’autovettore u1 risultante è chiamato “componente principale”2 . Seguendo questo approccio, è possibile iterativamente definire le successive componenti principali, ortogonali rispetto alle precedenti ed ordinate in modo descrescente rispetto alla varianza dei dati proiettati in quella direzione. Generalizzando, e volendo trovare le prime d < m componenti principali, la proiezione ottimale che massimizza la varianza delle proiezioni nel nuovo sottospazio è data dai d autovettori u1 , u2 , . . . , ud della matrice di covarianza S associati ai maggiori d autovalori λ1 , λ2 , . . . , λd . 4.1.1 Interpretazione statistica Cerchiamo adesso di fornire una visione maggiormente intuitiva della PCA. Abbiamo visto che calcolare le componenti principali corrisponde a calcolare la trasformazione dei dati che permette di massimizzare la varianza degli stessi proiettati in un nuovo sottospazio. Per semplicità, modifichiamo la matrice X definita nell’equazione (4.1) centrandone i dati e ottenendo la matrice A = X − X̄ (4.10) dove X̄ è una matrice m×n che ha, su ogni colonna, replicato il vettore medio x̄ definito in (4.2). Consideriamo per ora due righe di A, corrispondenti alle misurazioni di una data variabile su tutte le osservazioni del dataset, a1 = [a1,1 , a1,2 , . . . , a1,n ] (4.11) a2 = [a2,1 , a2,2 , . . . , a2,n ] . Il vettore delle varianze di a1 e di a2 è definito, utilizzando la (4.3), come " n # n X X 2 1 2 2 2 2 σ = σa1 , σa2 = (a1,i ) , (a2,i ) , n−1 i=1 (4.12) i=1 mentre la covarianza tra le due misurazioni si può scrivere come σa21 a2 = 1 a1 aT2 . n−1 (4.13) Questa quantità ci fornisce alcune interessanti informazioni sulla relazione tra le due variabili in esame: • La covarianza misura il grado di dipendenza tra diverse variabili. Quest’ultima può anche essere vista come una misura di ridondanza: se due variabili forniscono un’alta covarianza è possibile calcolarne una a partire dall’altra. • Il valore della covarianza è nullo quando le due variabili sono statisticamente indipendenti. • Un valore positivo della covarianza indica che i dati sono direttamente proporzionali, mentre un valore negativo indica una relazione di inversa proporzionalità. 2 Alcuni autori indicano la proiezione uT1 X con il termine componente principale e fanno riferimento al vettore u1 come al vettore dei loading della componente principale. 29 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.1. P RINCIPAL C OMPONENT A NALYSIS Facendo riferimento alla (4.5), otteniamo che la matrice di covarianza tra le due misurazioni è uguale a 2 σa1 σa21 a2 , Sa1 a2 = (4.14) 2 2 σa1 a2 σa2 e generalizzando sull’intera matrice A possiamo definire la matrice di covarianza come SA = 1 AAT . n−1 (4.15) Alcune delle importanti proprietà della matrice di covarianza appena definita sono le seguenti: • SA è una matrice simmetrica di dimensione m × m. • La diagonale di SA è σ 2 , ovvero contiene le varianze delle singole variabili. • La componente {i, j}-esima di SA è la covarianza tra la variabile i-esima e la variabile j-esima. La proiezione che la PCA effettua sui dati è data da una matrice ortonormale U di dimensione m × m, le cui colonne sono un insieme di vettori di base {u1 , u2 , . . . , um } tali che UT A = B, (4.16) dove B è una nuova matrice m × n, nelle cui colonne troviamo le proiezioni delle osservazioni in A nel nuovo sottospazio lineare. Indicando con 1 SB = BBT (4.17) n−1 la matrice di covarianza dei dati proiettati, possiamo scrivere quest’ultima in termini di U 1 BBT n−1 1 = (UT A)(UT A)T n−1 1 = UT AAT U n−1 1 SB = UT (AAT )U n−1 SB = (4.18) dove, essendo AAT matrice simmetrica, possiamo scomporla come AAT = EDET , (4.19) con D matrice diagonale ed E matrice di autovettori di AAT . Come abbiamo già avuto modo di evidenziare, la scelta compiuta della PCA è quella di selezionare U = E ottenendo AAT = UDUT , (4.20) 30 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.1. P RINCIPAL C OMPONENT A NALYSIS e di conseguenza, sostituendo nell’equazione (4.18) otteniamo che SB = = = = SB = 1 UT (AAT )U n−1 1 UT (UDUT )U n−1 1 (UT U)D(UT U) n−1 1 (U−1 U)D(U−1 U) n−1 1 D, n−1 (4.21) essendo UT = U−1 per l’ortonormalità di U. L’osservazione della matrice di covarianza dei dati proiettati SB e delle operazioni compiute per ottenerla, ci forniscono un’interpretazione intuitiva degli effetti della PCA: • SB è una matrice diagonale, quindi la covarianza dei dati proiettati è nulla; • le componenti principali di A sono gli autovettori di AAT , ovvero le colonne di U; • l’i-esimo valore sulla diagonale di SB è la varianza di A lungo la direzione ui . Nell’algoritmo 4.1, ricapitoliamo le operazioni da effettuare per calcolare le componenti principali data una matrice X come descritta in (4.1). In questo classico algoritmo, il passaggio più oneroso corrisponde al calcolo degli autovettori alla riga 4 che ha solitamente una complessità computazionale cubica rispetto al numero di variabili m, anche utilizzando algoritmi ottimizzati su matrici reali simmetriche (Golub e Van Loan, 1996) che comunque possono migliorare i tempi di calcolo. Algoritmo 4.1 Principal Component Analisys 1: function PCA(X) 2: A ← X − X̄ . Dati centrati T 3: SA ← AA /(n − 1) . Matrice di covarianza di A 4: U, Λ ←A UTOVETTORI(SA ) . Autovettori e autovalori di SA 5: U, Λ ←O RDINA(U, Λ) . Ordinamento decrescente rispetto agli autovalori 6: return U, Λ 7: end function 4.1.2 Relazione tra la PCA e la Singular Value Decomposition La Principal Component Analisys viene spesso associata alla Singular Value Decomposition (SVD) (Press et al., 1992) in quanto con questa tecnica di scomposizione è possibile calcolare in modo efficiente le componenti principali. Ogni matrice di dimensione3 n × m, dove n ≥ m, può essere scomposta nel prodotto di una matrice n × m ortogonale U, una matrice m × m diagonale Σ con elementi positivi o nulli (valori singolari) e la trasposta di una matrice m × m ortogonale V Y = UΣVT . (4.22) 3 In questa sezione abbiamo invertito le dimensioni, vedremo il perché quando applicheremo la SVD al problema del calcolo delle componenti principali. 31 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.1. P RINCIPAL C OMPONENT A NALYSIS Quando la decomposizione SVD4 è applicata a matrici dove n < m, i valori singolari σj per m = n + 1, . . . , m saranno tutti zero, e le corrispondenti colonne di U saranno composte da vettori nulli. Tra le proprietà della Singual Value Decomposition utili ai nostri scopi abbiamo che: • i valori singolari σj sulla diagonale di Σ sono calcolati in ordine decrescente; • i valori σj2 corrispondono agli autovalori delle matrici simmetriche YYT e YT Y; • le colonne della matrice U corrispondono agli autovettori della matrice YYT ; • le colonne della matrice V corrispondono agli autovettori della matrice YT Y; • le colonne uj della matrice U sono nella seguente relazione con le colonne vj della matrice V ed i valori singolari σj : vi (4.23) uj = Y . σj Riprendiamo ora la matrice dei dati centrati A, di dimensione m × n, e imponiamo la seguente relazione 1 Y=√ AT . (4.24) n−1 Se consideriamo la matrice YT Y abbiamo T 1 1 T T √ √ Y Y= A AT n−1 n−1 1 1 =√ AT T √ AT n−1 n−1 1 1 =√ A√ AT n−1 n−1 1 = AAT n−1 YT Y = SA . (4.25) Essendo la matrice Y di dimensione n × m, da quanto detto in precedenza, applicando la decomposizione SVD alla matrice Y otteniamo sulle colonne di V gli autovettori della matrice di covarianza SA , dove i relativi autovalori corrispondono ai quadrati dei valori singolari ottenuti (σj2 ). Nell’algoritmo 4.2, presentiamo un approccio alternativo per il calcolo delle componenti principali che sfrutta proprio la decomposizione ai valori singolari. Anche in questo caso, il passo computazionalmente più oneroso corrisponde al calcolo degli autovettori della matrice di covarianza. In questo algoritmo, rispetto al precedente, utilizzando l’SVD che ha complessità pari a O(nm2 ) su una matrice n × m, se ci troviamo nella condizione in cui n > m otteniamo un aumento della complessità, ottenendo però le componenti principali già ordinate secondo i valori di varianza decrescente dei dati proiettati. Entrambi gli algoritmi proposti, risultano efficienti nel caso in cui sono presenti più osservazioni che variabili. Utilizzando invece matrici di dati con n < m gli algoritmi risultano inefficenti, ma come vedremo nella prossima sezione, dei semplici espedienti ci permettono di risolvere il problema in modo efficace. 4 La versione qui presentata della SVD è quella cosiddetta economy. E’ possibile trovare in letteratura una versione equivalente nella quale la matrice U ha dimensione m×m e la matrice Σ ha dimensione n×m che è più dispendiosa sia dal punto di vista computazionale che dal punto di vista dell’occupazione di spazio in memoria. 32 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ Algoritmo 4.2 Principal Component Analisys con SVD 1: function PCA_SVD(X) 2: A ← X −√ X̄ 3: Y ← AT / n − 1 4: U, Σ, VT ←SVD(Y) 5: return V, {σj2 }j=1...m 6: end function 4.1.3 4.1. P RINCIPAL C OMPONENT A NALYSIS . Dati centrati . Componenti principali e varianze PCA con dati ad alta dimensionalità In molte applicazioni il numero delle osservazioni risulta essere molto inferiore al numero di variabili. Alcune considerazioni ci permettono di migliorare l’efficienza degli algoritmi per il calcolo delle componenti principali come descritto da Bishop (2006). Un insieme di n punti in uno spazio m-dimensionale, con n ≤ m, definisce un sottospazio lineare la cui dimensionalità è al massimo n − 1, di conseguenza è inutile applicare la PCA per cercare d > n − 1 componenti principali in quanto troveremo che almeno d − n + 1 autovalori della matrice di covarianza dei dati saranno nulli, dato che sulle corrispondenti direzioni (ovvero gli autovettori della matrice di covarianza) avremo varianza nulla. Riconsideriamo ed esplicitiamo l’equazione agli autovettori (4.8) 1 n−1 SA ui = λi ui T AA ui = λi ui . Moltiplicando a sinistra per AT , otteniamo 1 T A A (AT ui ) = λi (AT ui ). n−1 Se definiamo vi = AT ui , otteniamo 1 T A A vi = λ i vi , n−1 (4.26) (4.27) (4.28) che è una equazione agli autovettori di una matrice n × n che ha gli stessi n − 1 autovalori della matrice di covarianza (ricordiamo che quest’ultima ha gli altri d − n + 1 autovalori nulli). Possiamo quindi risolvere questo problema agli autovalori, con una complessità di O(n3 ) invece che O(m3 ). Per calcolare gli autovettori della matrice di covarianza, moltiplichiamo a sinistra la (4.28) per A ottenendo 1 T AA Avi = λi Avi n−1 (4.29) SA (Avi ) = λi (Avi ) SA ui = λi ui , dove vediamo che Avi è l’autovettore della matrice di covarianza SA con autovalore λi . Assumendo che il vettore vi sia di norma unitaria, e volendo ottere anche per ui la stessa condizione, 33 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.1. P RINCIPAL C OMPONENT A NALYSIS riscaliamo quest’ultimo rispetto ad Avi definendo 1 ui = p Avi . (n − 1)λi (4.30) Nell’algoritmo 4.3 presentiamo una variante del procedimentio classico per il calcolo delle componenti principali che sfrutta le relazioni appena descritte per ridurre la complessità computazionale in caso di dati descritti da un alto numero di variabili. Algoritmo 4.3 Principal Component Analisys - Alta Dimensionalità 1: function PCA_HD(X) 2: A ← X − X̄ . Dati centrati 3: Y ← AT A/(n − 1) . Calcolo matrice 4: V, Λ ←A UTOVETTORI(Y) . Autovettori e autovalori di Y 5: V, Λ ←O RDINA(Λ, V) . Ordinamento decrescente rispetto agli autovalori 6: for i ← 1 . . . (np − 1) do 7: ui ← Avi / (n − 1)λi . Colonna i-esima di U 8: end for 9: return U, Λ 10: end function Un ragionamento analogo, nell’obiettivo di ridurre la complessità computazionale nel caso di n ≤ m, può essere effettuato considerando anche la soluzione attraverso SVD. Se consideriamo la matrice5 1 Y=√ A (4.31) n−1 otteniamo che T 1 1 YY = √ A √ A n−1 n−1 1 1 =√ A√ AT n−1 n−1 1 = AAT n−1 YYT = SA . T (4.32) Di conseguenza, effettuando la decomposizione SVD sulla matrice Y otteniamo sulle colonne di U gli autovettori della matrice di covarianza SA con i relativi autovalori uguali ai quadrati dei valori singolari (σj2 ). Nell’algoritmo 4.4, riassumiamo i passi da effettuare per implementare questo approccio alternativo che, rispetto all’algoritmo 4.2, effettua la decomposizione SVD su una matrice di dimensione m × n con una complessità pari ad O(mn2 ) invece che O(nm2 ). 5 Notare che in (4.24) abbiamo costruito la matrice Y utilizzando AT . 34 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.2. S PARSE P RINCIPAL C OMPONENT A NALYSIS Algoritmo 4.4 PCA con SVD - Alta Dimensionalità 1: function PCA_SVD_HD(X) 2: A ← X −√X̄ 3: Y ← A/ n − 1 4: U, Σ, VT ←SVD(Y) 5: return U, {σj2 }j=1...m 6: end function 4.2 . Dati centrati . Componenti principali e varianze Sparse Principal Component Analysis Introduciamo in questa sezione un recente algoritmo proposto da Zou et al. (2004) che unisce i risultati ottenuti nei modelli di selezione di variabili per la regressione lineare con la Principal Component Analysis. Nelle sezioni precedenti abbiamo messo in evidenza tra i difetti della PCA la difficoltà nell’individuare tra le variabili associate alle osservazioni quelle relativamente più importanti e significative. Il problema nasce dal fatto che le componenti principali calcolate sono una combinazione lineare di tutte le variabili presenti. Mostreremo come è possibile formulare il problema del calcolo delle componenti principali come un problema di regressione lineare ottenendo un’approssimazione delle componenti principali come combinazione lineare solo di un certo sottoinsieme di variabili. Consideriamo la formulazione della PCA attraverso l’uso della Singular Value Decomposition (SVD). Data una matrice X ∈ Rn×m con colonne a media nulla, dove n è il numero delle osservazioni ed m è il numero di variabili, abbiamo che X = UΣVT (4.33) dove abbiamo visto che le colonne di V corrispondono alle componenti principali. Due banali approcci che possono essere utilizzati per ottenere componenti principali sparse e maggiormente interpretabili sono, ad esempio, quello di ruotare le componenti stesse secondo un dato criterio di ottimizzazione (Chennubhotla e Jepson, 2001), o vincolare i loadings delle componenti ad un ristretto insieme di interi, ad esempio {1, 0, −1} (si veda Jolliffe (2002) anche per altre tecniche). Anche nel campo della regressione lineare sono nate esigenze analoghe di generazione di modelli interpretabili. Nel caso supervisionato è il vettore delle risposte ad essere una combinazione lineare di tutte le variabili e, dalle soluzioni a quei problemi presenti in letteratura (Lasso ed Elastic Net che vedremo nel capitolo 5) nasce la formulazione della Sparse PCA che abbiamo adottato in questa Tesi. Nelle sottosezioni seguenti introdurremo prima un approccio diretto di approssimazione delle componenti principali ottenuto attraverso la soluzione di un problema di regressione lineare regolarizzato. In seguito vedremo come le componenti principali possono essere riformulate come coefficienti di un tipico problema di ottimizzazione per la regressione. L’obiettivo finale è quello di ottenere un framework di ottimizzazione nel quale la PCA può essere calcolata esattamente e dove è possibile introdurre una modifica diretta delle componenti utilizzando termini di regolarizzazione sui problemi di regressione definiti. Successivamente, nel capitolo 5 forniremo una descrizione più formale e completa dei problemi di regressione lineare, dei termini di regolarizzazione utilizzati per la sparsità e degli algoritmi proposti in letteratura per la loro soluzione. 35 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.2.1 4.2. S PARSE P RINCIPAL C OMPONENT A NALYSIS Approssimazione sparsa diretta Questo approccio permette una prima semplice formulazione della PCA come problema di regressione. Osservando che ogni componente principale è una combinazione lineare delle m variabili, ogni elemento delle varie PC (Principal Component) può essere ricostruito effettuando regressione sulle variabili stesse. Ricordando che uj = X(vj /σi ), vale il seguente teorema dimostrato da Zou et al. (2004). Teorema 4.2.1. Per ogni λ > 0, supponiamo che β̂ ridge sia la stima data da β̂ ridge = argmin ky − Xβk2 + λkβk2 , (4.34) β con con y = uj σj . Dato v̂ = β̂ ridge kβ̂ ridge k , allora v̂ = vj . Il Teorema riesce in modo diretto a definire una relazione tra le componenti principali calcolate dalla PCA e i metodi di regressione lineare. In particolare, la j-esima componente principale vj è stata definita come soluzione di un problema di regressione lineare regolarizzato attraverso una penalità sulla norma `2 dei coefficienti. Questo tipo di formulazione, che prende il nome di Ridge Regression, come vedremo nel capitolo 5, permette di risolvere il calcolo della PC in tutti i casi. In particolare, nel caso n > m con X a rango pieno, il teorema non richiede un valore positivo di λ. Mentre, se X non è a rango pieno oppure se m > n, utilizzare un valore di λ > 0 permette di trovare un’unica soluzione al problema. Facciamo notare, inoltre, che dopo la normalizzazione i coefficienti calcolati sono indipendenti dal valore di λ, a dimostrazione del fatto che quest’ultimo è utilizzato solo per assicurare la ricostruzione esatta della j-esima componente principale. Aggiungendo anche una penalità sulla norma `1 all’equazione (4.34) otteniamo il seguente problema di regressione β̂ = argmin ky − Xβk2 + λkβk2 + λ1 kβk1 , (4.35) β dove v̂j = β̂/kβ̂k (4.36) è un’approssimazione sparsa della componente principale vj . L’equazione (4.35), come vedremo nel capitolo 5, corrisponde alla formulazione di un problema di tipo Elastic Net dove all’aumentare del valore della penalità λ1 otteniamo componenti principali v̂j sempre più sparse. 4.2.2 Formulazione del criterio di sparsità L’approccio indicato dal Teorema 4.2.1 è basato sull’esecuzione di due step consecutivi: calcolare la PCA classica e poi utilizzare la (4.35) per trovarne un’approssimazione sparsa. Zou et al. (2004) hanno invece presentato un approccio basato su una formulazione della PCA, vista come minimizzazione dell’errore di ricostruzione delle proiezioni (Hastie et al., 2009), come problema di regressione lineare. Consideriamo le osservazioni (righe di X) x1 , x2 , . . . , xn ed un modello lineare di rango k per rappresentarle f (λ) = µ + Vk λ, (4.37) dove µ è un vettore in Rm , Vk è una matrice ortonormale m × k e λ è un vettore in Rk di parametri. Questa è una rappresentazione parametrica di un iperpiano di rango k. Interpolare 36 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.2. S PARSE P RINCIPAL C OMPONENT A NALYSIS questo modello con i dati attraverso una stima ai minimi quadrati, minimizzando l’errore di ricostruzione, corrisponde a risolvere il problema ( n ) X (µ̂, {λ̂i }, V̂k ) = argmin kxi − µ − Vk λi k2 . (4.38) µ,{λi },Vk i=1 Possiamo parzialmente ottimizzare con (4.39) µ̂ = x̄, VkT (xi λ̂i = − x̄). Per calcolare la matrice ortogonale dobbiamo risolvere il problema ( n ) X V̂k = argmin k(xi − x̄) − Vk VkT (xi − x̄)k2 , Vk (4.40) (4.41) i=1 che, assumendo di avere i dati centrati, diventa ( n ) X V̂k = argmin kxi − Vk VkT xi k2 . Vk (4.42) i=1 Notiamo che la matrice Vk VkT non è altro che una matrice di proiezione, che mappa i punti xi nel sottospazio generato dalle colonne di Vk che non sono altro che le prime k componenti principali. Il legame tra questa formulazione della PCA e la regressione lineare è dato dai seguenti teoremi dimostrati da Zou et al. (2004). Teorema 4.2.2. Sia xi l’i-esima osservazione (vettore riga della matrice X). Per ogni λ > 0, con ( n ) X T 2 2 (α̂, β̂) = argmin kxi − αβ xi k + λkβk α,β i=1 (4.43) 2 soggetto a kαk = 1, abbiamo che β̂ ∝ v1 . Il Teorema appena esposto può essere esteso in modo da derivare l’intera sequenza di componenti principali considerando due matrici A e B tali che αj e β j corrispondono rispettivamente alla j-esima colonna di A e B. Teorema 4.2.3. Supponiamo di considerare la prime k componenti principali. Siano A e B matrici in Rm×k e denotiamo con xi l’i-esima osservazione. Per ogni λ > 0, con n k X X (Â, B̂) = argmin kxi − ABT xi k2 + λ kβ j k2 (4.44) A,B i=1 j=1 soggetto a AT A = Ik , abbiamo che β̂ j ∝ vj per j = 1, 2, . . . , k. 37 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.2. S PARSE P RINCIPAL C OMPONENT A NALYSIS Abbiamo effettivamente trasformato la PCA in un problema di regressione. Notiamo infatti che restringendo la funzione obiettivo al caso in cui B = A, allora n X kxi − ABT xi k2 = i=1 n X kxi − AAT xi k2 (4.45) i=1 che sotto la restrizione di ortonormalità di A permette di calcolare esattamente le prime k componenti principali. Il Teorema 4.2.3 ci mostra inoltre come sia possibile ottenere un’esatta PCA rilassando il vincolo B = A ma aggiungendo un termine di penalità sulla norma `2 . Possiamo a questo punto formulare il problema di ottimizzazione attraverso quello che Zou et al. (2004) definiscono SPCA criterion n k k X X X T 2 2 (Â, B̂) = argmin kxi − AB xi k + λ kβ j k + λ1,j kβ j k1 (4.46) A,B i=1 j=1 j=1 soggetto a AT A = Ik , dove aggiungiamo una penalità sulla norma `1 per indurre sparsità nelle componenti principali. Notiamo che λ è unica per tutte le k componenti, mentre abbiamo differenti λ1,j che ci permettono di penalizzare in modo differente le componenti principali. Ancora una volta, se m > n, è richiesto un valore di λ > 0 per ottenere una PCA esatta quando λ1,j = 0. Inoltre, Zou et al. (2004) evidenziano come nel caso n > m, anche se la scelta di default per λ può essere 0, è possibile utilizzare un piccolo valore positivo per contenere potenziali problemi di collinearità in X, in quanto gli output dell’algoritmo variano lentamente al variare di λ. Il criterio SPCA non è un problema convesso in A e B, ma è convesso se consideriamo uno dei due parametri fissato. In particolare, minimizzare la (4.46) in B fissando A è equivalente a risolvere k indipendenti problemi di regressione del tipo β̂ j = argmin βj kXαj − Xβ j k2 + λkβ j k2 + λ1,j kβ j k1 (4.47) mentre la minimizzazione in A fissando B si può risolvere attraverso una decomposizione SVD. Ovvero, dato XT XB = UΣVT , (4.48) minimizziamo calcolando A = UVT . (4.49) Questi due passi, alternati fino ad ottenere la convergenza, ci permettono di definire l’algoritmo 4.1 per il calcolo delle componenti principali sparse. 4.2.3 Calcolo della varianza Nel calcolo delle componenti principali ordinarie si verificano sempre le seguenti condizioni: • le componenti principali sono ortogonali, ovvero VT V = I; • le proiezioni dei dati sulle componenti principali non sono correlate, quindi la matrice di convarianza dei dati proiettati VT SV è diagonale (con S = XT X). Questa condizione non è più rispettata nella SPCA, che non forza il vincolo di non correlazione. Per questo motivo ci si pone il problema di calcolare con maggiore precisione la 38 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.2. S PARSE P RINCIPAL C OMPONENT A NALYSIS Algoritmo 4.1 Sparse Principal Component Analysis 1: function SPCA(X, k, λ, {λ1,j }j=1...k ) 2: U, Σ, VT ← SVD(X) 3: A ← V[:, 1 : k] . Inizializziamo A con le prime k PC esatte 4: repeat 5: for j ← 1, . . . , k do . Risolviamo i k problemi di regressione con A fissato 6: y ← Xαj 7: β j ← argmin βj ky − Xβ j k2 + λkβ j k2 + λ1,j kβ j k1 8: end for 9: U, Σ, VT ← SVD(XT XB) 10: A ← UVT . Aggiorniamo A 11: until B converge 12: for j ← 1, . . . , k do 13: v̂j = β j /|β j | . Normalizziamo le componenti principali 14: end for 15: return V̂ 16: end function varianza spiegata delle singole componenti principali evitando di considerare più di una volta percentuali di varianza condivisa tra più componenti. Sia Û = XV̂ la matrice delle proiezioni (detta anche matrice degli scores) sulle componenti principali sparse. Nel caso di componenti principali non correlate, la varianza totale spiegata si calcola come trace(ÛT Û) = trace(ÛT Û) = trace((XV̂)T XV̂) = trace(V̂T XT XV̂) (4.50) T = trace(V̂ SV̂) = trace(Ŝ), dove Ŝ è la matrice di covarianza dei dati proiettati sullo spazio delle componenti principali. Zou et al. (2004) hanno proposto un metodo per calcolare la varianza totale spiegata dalle componenti principali quando si è in presenza di correlazioni tra le stesse. Supponiamo che ûi sia l’i-esimo vettore degli score. Indicando con ũj il vettore risultante dalla rimozione da ûj degli effetti delle componenti ũ1 , . . . , ũj−1 , possiamo scrivere che ũj = ûj − Hj ûj , (4.51) dove Hj è la matrice di proiezione nello spazio generato dalle componenti che precedono ûj , ovvero lo spazio generato da ũ1 , . . . , ũj−1 . Questa operazione, in pratica, corrisponde ad ortogonalizzare un vettore rispetto ad altri. La varianza corretta di ûj è quindi kũj k2 e, di conP seguenza, la varianza spiegata totale è data da kj=1 kũj k2 , dove k è il numero di componenti principali calcolate. Un modo efficiente per calcolare le varianza corrette è di usare la decomposizione QR (Golub e Van Loan, 1996). Supponiamo Û = QR, con Q è ortonormale ed R triangolare superiore. Abbiamo che 2 kũj k2 = rj,j (4.52) 39 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.2. S PARSE P RINCIPAL C OMPONENT A NALYSIS è il j-esimo valore diagonale di R. Questo approccio ha inoltre due proprietà importanti: • quando le componenti principali sono non correlate, come nel caso della PCA, trace(ÛT Û) = k X kũj k2 ; (4.53) j=1 • il calcolo della varianza dipende dall’ordine delle ûi . Zou et al. (2004) utilizzano l’ordine naturale delle componenti principali ordinarie. Questa seconda proprietà risulta essere un problema in applicazioni dove l’ordinamento secondo la varianza spiegata ha una certa rilevanza, come nell’analisi delle forme. L’approccio di Zou et al. (2004) permette di mantenere un valore di varianza decrescente solo a patto di utilizzare fattori di sparsità (sulla norma `1 ) man mano crescenti, richiedendo di fatto all’algoritmo di calcolare la generica componente i + 1-esima “più sparsa” della componente i-esima. Sjöstrand et al. (2006) hanno proposto un algoritmo che permette di riordinare le componenti principali durante il processo di calcolo della varianza corretta, trasformando l’approccio di Zou et al. (2004) in un algoritmo greedy con buoni risultati in fatto di approssimazione della soluzione ottima e di efficienza. L’algoritmo si basa sulla considerazione che il totale della varianza spiegata dalle componenti principali è dipendente dall’ordine delle stesse. In particolare, l’ordine che massimizza la varianza totale può essere stabilito risolvendo il seguente problema k X T P̂ = argmax {ũ1 ũ1 + {ũTj ũj − ũTj H̃j ũj }}, (4.54) P∈Pk j=2 dove P̂ è una matrice di permutazione degli scores. Il metodo euristico proposto da Sjöstrand et al. (2006) permette di massimizzare la varianza in molti casi e di calcolarne un’approssimazione molto buona negli altri. L’algoritmo seleziona al primo passo lo score con maggiore varianza (non ancora corretta) e ortogonalizza tutti gli score rispetto a quello selezionato, ottenendo una matrice degli score parzialmente corretti. Dal secondo passo in poi viene sempre scelto lo score con maggiore varianza (tra quelli non ancora considerati) e viene ripetuta l’ortogonalizzazione. La varianza corretta finale è quella calcolata al termine dell’algoritmo e l’ordine di selezione degli score viene applicato alle componenti principali calcolate, che avranno quindi sempre varianza in ordine decrescente. 4.2.4 SPCA per dataset ad alta dimensionalità Nel caso m n la complessità computazionale dell’algoritmo presentato cresce notevolmente, essendo il criterio SPCA dipendente dalla matrice XT X. È possibile definire una variante efficiente dell’algoritmo in caso di dati ad alta dimensionalità notando che nel caso λ → ∞ vale il seguente teorema Teorema 4.2.4. Sia v̂j (λ) = β̂ j kβ̂ j k la j-esima componente principale calcolata attraverso il criterio SPCA. Definiamo k k X X (Â∗ , B̂∗ ) = argmin −2trace(AT XT XB) + λ kβ̂ j k2 + λ1,j kβ̂ j k1 A,B j=1 j=1 (4.55) soggetto a AT A = Ik . 40 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.3. C ASO DI STUDIO ∗ Quando λ → ∞ allora v̂j (λ) → β̂ j ∗ kβ̂ j k . Il criterio (4.55) è risolto sostituendo nell’algoritmo originale la soluzione ai problemi di regressione lineare regolarizzata con i passi descritti nell’algoritmo 4.2, dove l’operazione effettuata è definita soft-thresholding e dove (|x| − ∆)+ = max(|x| − ∆, 0) con ∆ ≥ 0. (4.56) Algoritmo 4.2 Modifica Sparse Principal Component Analysis (Soft-Thresholding) 1: for j ← 1,. . . , k do λ sign(αTj XT X) 2: β j ← |αTj XT X| − 1,j 2 + 3: 4.3 end for Caso di studio In questa sezione finale del capitolo presentiamo alcuni test effettuati e riportati con il solo scopo di evidenziare e chiarire gli aspetti teorici appena discussi. Il dataset che utilizzeremo è estraneo all’analisi della forma ma è spesso utilizzato in letteratura come banchmark per nuovi approcci o algoritmi. Approfitteremo di questa sezione anche per presentare gli strumenti utili ad individuare il numero di componenti principali necessarie per rappresentare i dati. Il dataset che adotteremo (che riprenderemo nella sezione 5) consiste in n = 442 osservazioni su m = 10 variabili. Si tratta di uno studio effettuato su pazienti malati di diabete, per la definizione di un modello predittivo. I dati sono infatti associati ad un’etichetta che fornisce una misura della progressione della malattia rispetto ad una baseline. Essendo la PCA una tecnica di apprendimento non supervisionato, non utilizzeremo questa informazione e proveremo ad analizzare direttamente solo la matrice dei dati. Quest’ultima è stata opportunamente centrata e standardizzata in quanto le misurazioni non hanno ordini di grandezza omogenei. Vediamo in Tabella 4.1 la varianza spiegata dalle componenti principali che ci mostra come la prima componente sia capace di catturare il 40.2% della varianza totale dei dati. Lo Scree Plot in Figura 4.1 ci mostra infatti come la varianza spiegata (linea rossa) cali rapidamente già dalle prime componenti mentre la varianza cumulata (linea blu) aumenta velocemente. Confrontando inoltre le proiezioni dei dati originali sulle varie componenti principali e considerando le prime tre componenti principali (che coprono il 67.2% della varianza complessiva), vediamo in Figura 4.2(a) e 4.2(b) come i dati si dispongono lungo le componenti secondo le varianze calcolate. Notiamo inoltre, in Figura 4.2(c) e 4.2(d) il confronto tra la disposizione dei dati sulla prima componente e sulle ultime due con varianza molto bassa. Applichiamo la Sparse PCA allo stesso dataset, effettuando un semplice test con λ = 0, essendo n m, ed utilizzando per tutti i λi il medesimo valore, pari a 0.01. La varianza spiegata, come visualizzato in tabella 4.2), è più bassa rispetto a quella spiegata dalle componenti principali ordinarie a causa della sparsità indotta. 41 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ PC PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 Totale % Varianza 40.2% 14.9% 12.1% 9.6% 6.6% 6.0% 5.4% 4.3% 0.8% 0.1% 100.00% 4.3. C ASO DI STUDIO % Var. Cumulata 40.2% 55.2% 67.2% 76.8% 83.4% 89.4% 94.8% 99.1% 99.9% 100.0% Tabella 4.1: Varianza spiegata dalle componenti principali ordinarie calcolate su un dataset di misurazioni cliniche. Figura 4.1: Visualizzazione tramite scree plot della varianza spiegata (curva rossa) e cumulata (curva blu) dalle componenti principali. 42 4. R IDUZIONE DELLA DIMENSIONALITÀ E INTERPRETABILITÀ 4.3. C ASO DI STUDIO (a) Confronto tra le proiezioni dei dati sulla prima e la seconda componente principale (b) Confronto tra le proiezioni dei dati sulla prima e la terza componente principale (c) Confronto tra le proiezioni dei dati sulla prima e la nona componente principale (d) Confronto tra le proiezioni dei dati sulla prima e la decima componente principale Figura 4.2: Proiezione dei dati lungo le componenti principali. Ogni scatter plot mette a confronto la prima componente con due a varianza significativa (in alto) e due a varianza minima (in basso). Variabile 1 2 3 4 5 6 7 8 9 10 % Varianza % Var. Cum. PC1 0.000 -0.029 -0.180 -0.241 -0.108 -0.664 0.553 -0.381 -0.076 -0.000 23.17 23.17 PC2 0.000 0.000 0.000 0.000 0.562 0.468 0.682 0.000 0.000 0.000 12.13 35.30 PC3 0.000 0.000 0.000 0.967 0.000 -0.187 0.128 -0.114 0.000 0.000 8.11 43.41 PC4 0.000 -0.985 0.168 0.000 0.000 0.000 0.000 0.000 0.031 0.000 7.98 51.39 PC5 -1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 7.76 59.16 PC6 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 -1.000 6.58 65.74 Tabella 4.2: Varianza spiegata dalle componenti principali sparse calcolate su un dataset di misurazioni cliniche. 43 CAPITOLO 5 M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE Contenuto 5.1 5.2 5.3 5.4 5.5 5.6 Introduzione alla regressione lineare . . . . . . . Least Angle Regression . . . . . . . . . . . . . . . L’operatore di selezione Lasso . . . . . . . . . . . 5.3.1 Soluzione dei problemi di tipo Lasso . . . . L’operatore di selezione Elastic Net . . . . . . . . 5.4.1 Naïve Elastic Net . . . . . . . . . . . . . . . 5.4.2 Risolvere il problema dell’overshrinking . 5.4.3 Soluzione dei problemi di tipo Elastic Net . Interpretazione di Lasso ed Elastic Net . . . . . . Caso di studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 46 53 54 56 56 58 58 60 61 In questa Tesi ci siamo occupati principalmente dell’analisi statistica della forma attraverso metodi derivati dalla Principal Component Analysis e nel capitolo 4 è stata introdotta la Sparse PCA. Come abbiamo visto, questa variazione della PCA viene definita attraverso la formulazione di problemi di regressione lineare con vincoli sulla norma `1 ed `2 dei coefficienti di regressione. Nel presente capitolo entreremo sia nei dettagli teorici che algoritmici di alcune delle tecniche di regressione regolarizzata adottate nell’apprendimento statistico supervisionato. Nella sezione 5.1 forniremo una prima descrizione formale dei problemi di regressione lineare attraverso i modelli di stima ai minimi quadrati. Nelle sezioni successive ci occuperemo degli algoritmi e degli operatori di regolarizzazione nei problemi di regressione che permettono la selezione statistica delle variabili allo scopo di ottenere modelli sparsi, mantenendo buone caratteristiche di generalizzazione. 5.1 Introduzione alla regressione lineare I modelli lineari sono stati largamente utilizzati nell’apprendimento statistico già prima dell’utilizzo diffuso dei calcolatori negli ambienti scientifici e della relativa nascita del machine learning. Oggi, lo studio e l’utilizzo di questi modelli è giustificato oltre che dalla loro semplicità applicativa, anche dal fatto che sono in grado di fornire spesso una descrizione adeguata e soprattutto interpretabile dei fenomeni sotto osservazione. 44 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.1. I NTRODUZIONE ALLA REGRESSIONE LINEARE Nel campo dell’apprendimento statistico supervisionato (learning by examples) il training set, ovvero l’insieme dei dati sui quali addestrare il modello, è composto da n coppie del tipo {xi , yi }i=1...n (5.1) dove xi è un vettore di caratteristiche (feature) che descrivono l’i-esimo evento osservato, mentre yi è una risposta associata all’i-esima osservazione. La natura delle risposte (outcome) definisce due sotto-categorie di tecniche di apprendimento supervisionato: • tecniche di regressione, quando le risposte sono quantitative; • tecniche di classificazione, quando le risposte sono qualitative (etichette). Nella regressione lineare, l’obiettivo è quello di definire un modello di predizione che abbia le seguenti proprietà: Accuratezza (basso bias). Il modello calcolato deve essere in grado di minimizzare l’errore di predizione per i dati che appartengono al training set. Generalità (bassa varianza). Il modello calcolato deve essere in grado di minimizzare l’errore di predizione per i dati che non appartengono al training set. Uno degli strumenti alla base della definizione di modelli lineari nel campo supervisionato è la stima ai minimi quadrati, la Ordinary Least Square (OLS), dove si stima un vettore di coefficienti β che minimizza l’errore quadratico medio, detto Residual Sum of Squares (RSS), calcolato tra gli input nel training set e gli output predetti dal modello, il quale genera solitamente soluzioni con basso bias ma alta varianza, rendendo le predizioni fortemente dipendenti dai dati e non fornendo una buona capacità di generalizzazione. Inoltre, soprattutto nei problemi ad alta dimensionalità, un’ulteriore proprietà desiderabile dai modelli lineari, non soddisfatta dall’OLS, e quella dell’interpretabilità, ovvero nella generazione di un vettore dei coefficienti di regressione che possa mettere in evidenza l’importanza di alcune feature rispetto alle altre o l’esistenza di una correlazione tra le stesse. Entrambi i problemi possono essere attenuati utilizzando approcci di model selection che, in base alla tipologia di vincoli utilizzati per regolarizzare il modello, si differenziano in: • approcci di subset selection, dove viene selezionato un sottoinsieme di coefficienti da includere nel modello; • approcci di shrinkage, dove il valore assoluto dei coefficienti viene ridotto. Nell’utilizzo di queste tecniche, il trade-off da individuare risiede nel confine tra la capacità di generalizzare e l’interpretabilità del modello mantenendo, allo stesso tempo, alto il livello di accuratezza. Ovviamente, gli approcci di subset selection si prestano meno a questo tipo di raffinamento in quanto i coefficienti possono solo essere inclusi o esclusi dal modello. Volendo formalizzare un problema di regressione lineare in presenza di un training set composto da n osservazioni nello spazio Rm , definiamo una matrice X = (x1 , x2 , . . . , xm ) ∈ Rn×m (con una osservazione su ogni riga) ed un vettore y = (y1 , y2 , . . . , yn )T ∈ Rn di risposte tali che, i valori delle xj siano standardizzati, ovvero aventi media nulla e norma unitaria, e il vettore delle risposte abbia media nulla: n X i=1 yi = 0, n X i=1 xij = 0, n X x2ij = 1 con j = 1, 2, . . . , m. (5.2) i=1 45 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.2. L EAST A NGLE R EGRESSION Il classico metodo dei minimi quadrati (OLS - Ordinary Least Squares) permette di calcolare un vettore di coefficienti β̂ = (βˆ1 , βˆ2 , . . . , β̂m )T ∈ Rm tale che il seguente vettore delle predizioni µ̂ = m X xj β̂j = Xβ̂, (5.3) j=1 minimizza l’errore residuo quadratico n X RSS(β̂) = ky − µ̂k = (yi − µ̂i )2 . 2 (5.4) i=1 In generale la stima OLS anche se fornisce una buona accuratezza, pecca nella generalizzazione in quanto tende semplicemente ad interpolare i punti del training set. In questo capitolo ci occuperemo principalmente di tre diversi approcci di shrinkage, tutti riconducibili ad un problema OLS vincolato attraverso termini di regolarizzazione sui coefficienti: la Ridge Regression (Hoerl e Kennard, 1970), Lasso (Tibshirani, 1996) ed Elastic Net (Zou e Hastie, 2005). La Ridge Regression riduce il valore dei coefficienti imponendone una penalità sulla norma `2 e producendo modelli non sparsi ma con una migliore (in generale) capacità di generalizzare rispetto ad una stima OLS non vincolata. Lasso, invece, riduce i coefficienti di regressione vincolandone la norma `1 e producendo modelli sparsi (questo è un esempio di approccio di shrinkage che degenera nella subset selection). Infine, Elastic Net è l’applicazione di un vincolo alla stima OLS che è una combinazione lineare delle penalità sulla norma `1 ed `2 dei coefficienti di regressione. Quest’ultimo approccio combina le capacità di generalizzazione della Ridge Regression con le proprietà di selezione di Lasso, ma dimostra avere delle proprietà aggiuntive particolarmente interessanti come vedremo nel seguito. Prima di introdurre questi operatori di regolarizzazione, nella prossima sezione descriveremo un algoritmo, basato su considerazioni geometriche legate alla stima OLS che è alla base degli algoritmi di risoluzione dei problemi di tipo Lasso ed Elastic Net, che non possono essere risolti in modo esplicito (attraverso una formula chiusa) come avviene per i problemi OLS o utilizzando la Ridge Regression. 5.2 Least Angle Regression L’algoritmo LAR (Least Angle Regression) che descriveremo in questa sezione è stato proposto da Efron et al. (2004) come strumento per il calcolo iterativo di una stima OLS ed è in grado di effettuare selezione automatica di variabili senza carichi computazionali aggiuntivi (ed è questa una delle principali attrattive dell’algoritmo). Nell’articolo originale di Efron et al. (2004), l’algoritmo viene indicato con l’acronimo LARS, dove la “S” finale richiama le tecniche di regressione Lasso e Forward Stagewise, in quanto è possibile risolvere questo tipo di problemi utilizzando delle varianti di LAR. In questo capitolo faremo riferimento all’algoritmo di base con “LAR”, mentre ci riferiremo alla versione modificata per Lasso con “LARS”. Prima di entrare nei dettagli algebrici che definiscono l’algoritmo cerchiamo di evidenziare graficamente, tramite l’ausilio della figura 5.1, l’intuizione geometrica alla base del processo iterativo di costruzione della soluzione ponendoci nel caso di osservazioni definite in due variabili. 46 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.2. L EAST A NGLE R EGRESSION Figura 5.1: Descrizione grafica dei passi compiuti dall’algoritmo LAR. L’esempio si riferisce ad un contesto dove le osservazioni (gli input) sono definite da sue sole variabili. Definiamo prima di tutto con r = y − µ̂, (5.5) ĉ = c(µ̂) = XT (y − µ̂) (5.6) il vettore dei residui e con il vettore delle correlazioni correnti tra le variabili e i residui. Ricordando che ĉj = xj r = kxj kkrk cos(θ), (5.7) ed essendo le variabili normalizzate, la correlazione è inversamente proporzionale all’angolo compreso tra la variabile e il vettore dei residui. Osservando la figura 5.1, dove ȳ2 corrisponde alla proiezione di y nel piano definito da x1 ed x2 , mentre u2 corrisponde al vettore equiangolare rispetto ai vettori delle variabili, l’algoritmo parte da una stima µ̂0 = 0. (5.8) A questo punto, dato che c1 (µ̂0 ) > c2 (µ̂0 ), (5.9) viene calcolato un valore di γ̂1 che permette di aggiornare il valore della stima a µ̂1 = µ̂0 + γ̂1 x1 , (5.10) con l’obiettivo di ottenere la seguente relazione: c1 (µ̂1 ) = c2 (µ̂1 ). (5.11) Al passo successivo, seguendo la direzione equiangolare, verrà aggiornata la stima in modo tale che µ̂2 = µ̂1 + γ̂2 u2 , (5.12) 47 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.2. L EAST A NGLE R EGRESSION ottenendo che (5.13) µ̂2 = ȳ2 . L’algoritmo 5.1 descrive intuitivamente i passi compiuti da LAR nel caso generale. La stima µ̂ = Xβ̂ viene calcolata iterativamente in m passi, ognuno dei quali aggiunge una variabile al modello. Dopo k passi abbiamo k coefficienti β̂j non nulli. Algoritmo 5.1 LARS 1: Inizia con tutti i coefficienti nulli: β = 0. 2: Trova la variabile xj1 maggiormente correlata con y. 3: Incrementa il coefficiente βj1 nella direzione del segno della sua correlazione con y calcolando il residuo r = y − µ̂ fino a che una nuova variabile xj2 ha la stessa correlazione di xj1 rispetto ad r. 4: Incrementa βj1 e βj2 nella direzione equiangolare alle variabili xj1 e xj2 rispetto al segno della loro correlazione corrente con r, finché quest’ultima è uguale per xj1 , xj2 e per una nuova variabile xj3 . 5: Continua finché tutte le variabili non appartengono al modello. Descriviamo i dettagli algebrici e geometrici sottostanti all’algoritmo partendo sempre dal presupposto che la matrice X e il vettore y siano standardizzati come nelle equazioni in (5.2). L’algoritmo parte da una stima iniziale µ̂ = 0, con coefficienti β̂ = 0, e costruisce la stima finale in m passi successivi. Sia inoltre A un sottoinsieme degli indici {1, 2, . . . , m} (chiamato active set) inizialmente vuoto. Supponiamo che µ̂A sia la stima al passo corrente e che ĉ = XT (y − µ̂A ), (5.14) sia il vettore corrente delle correlazioni, tale che ĉj sia proporzionale alla correlazione tra la variabile xj e il vettore corrente degli errori residui. L’active set A è l’insieme degli indici corrispondenti alle variabili con la maggiore correlazione corrente in valore assoluto, b = max{|ĉj |}, C (5.15) b A = {j : |ĉj | = C}. (5.16) j Definiamo inoltre sj = sign{ĉj } per j ∈ A, (5.17) notando che a livello di implementazione è importante controllare che le variabili siano linearmente indipendenti altrimenti è possibile aggiungere all’active set più di una variabile ad ogni passo. Utilizzando le variabili appartenenti all’active set, definiamo la matrice XA = (· · · sj xj · · · )j∈A , (5.18) dove il segno sj della correlazione corrente tra xj e l’errore residuo viene definito nell’equazione (5.17). Siano, inoltre GA = XTA XA , −1 AA = (1TA GA 1A ) (5.19) − 21 , (5.20) dove 1A è un vettore contenente tutti 1, di lunghezza pari alla cardinalità di A e dove AA è uno scalare, in quanto l’operazione in (5.20) corrisponde a dividere 1 per la radice quadrata 48 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.2. L EAST A NGLE R EGRESSION −1 della somma di tutti gli elementi di GA . Definiamo Il vettore equiangolare alle variabili nelle direzioni dei segni sj come uA = XA wA , (5.21) dove −1 wA = AA GA 1A (5.22) è il vettore che permette ad uA di formare lo stesso angolo, a meno di 90◦ , con tutte le colonne di XA , ovvero con tutti i vettori delle variabili selezionate, e viene calcolato scalando del fattore AA il vettore in R|A| costruito sommando le colonne (o le righe, essendo la matrice simmetrica) −1 di GA . Abbiamo quindi che XTA uA = AA 1A , (5.23) uTA uA (5.24) = 1, dove l’equazione (5.23) ci dice che il coseno dell’angolo tra un vettore delle variabili xj , con j ∈ A, ed il vettore equiangolare uA è sempre uguale ad AA (dato che i vettori delle variabili sono standardizzati ed hanno norma unitaria). Considerando il seguente vettore in Rm a = X T uA , (5.25) il prossimo passo dell’algoritmo prevede l’aggiornamento della stima µ̂A (5.26) µ̂A+ = µ̂A + γ̂uA , dove ( γ̂ = minc j∈A + b − ĉj C b + ĉj C , AA − aj AA + aj ) (5.27) e Ac = {j : j ∈ / A}, (5.28) e indichiamo con min+ che il minimo è selezionato solo sulle componenti positive calcolate per ogni j ∈ Ac . Rimandiamo per un attimo le motivazioni che portano alla scelta del valore di γ̂ e vediamo, invece, come aggiornare i coefficienti β̂ A+ della soluzione LAR. Essendo µ̂ = Xβ̂, dalle equazioni (5.26) e (5.21) otteniamo µ̂A+ = µ̂A + γ̂uA Xβ̂ A+ = µ̂A + γ̂uA = Xβ̂ A + γ̂uA = Xβ̂ A + γ̂XA wA (5.29) = Xβ̂ A + γ̂Xd̂ β̂ A+ = β̂ A + γ̂ d̂ dove, tenendo presente come è costruita la matrice XA nell’equazione (5.18), il vettore d̂ ∈ Rm è tale che sj wAj se j ∈ A ˆ dj = (5.30) 0 se j ∈ / A. 49 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.2. L EAST A NGLE R EGRESSION La scelta di γ̂ invece, è motivata dalla seguente interpretazione: ridefiniamo i possibili valori della stima µ̂A+ in relazione ai possibili valori per γ̂ (5.31) µ(γ) = µ̂A + γuA . Per γ > 0, in quanto la scelta è effettuata con l’operatore min+ , possiamo scrivere anche le correlazioni correnti in funzione di γ, ricordando le equazioni (5.14) e (5.25) cj (γ) = xTj (y − µ(γ)) = xTj (y − µ̂A − γuA ) = xTj (y − µ̂A ) − γxTj uA (5.32) = ĉj − γaj . Notiamo, dalle equazioni (5.23) e (5.15), che b − γAA |cj (γ)| = C per j ∈ A, (5.33) ovvero, tutte le correlazioni correnti diminuiscono, in valore assoluto, contemporaneamente. Inoltre, per j ∈ Ac abbiamo b − γAA cj (γ) = C b − γAA ĉj − γaj = C b − ĉj γAA − γaj = C γ= (5.34) per cj (γ) < 0 (5.35) b − ĉj C AA − aj b + γAA cj (γ) = −C b + γAA ĉj − γaj = −C b + ĉj γAA + γaj = C γ= per cj (γ) > 0 b + ĉj C AA + aj Possiamo quindi affermare che il valore di γ̂ in (5.27) è il più piccolo valore positivo di γ tale che un nuovo indice ̂ rientra nell’active set A. Ovvero possiamo scrivere che A+ = A ∪ {̂} b+ = C b − γ̂AA . C (5.36) (5.37) Come visto, l’algoritmo completo richiede solo m passi dato che ad ogni step viene sempre aggiunta una nuova variabile all’active set. Ma qual’è la relazione tra LAR è l’OLS? Supponiamo di aver compiuto già k < m passi tali che l’active set Ak contiene k variabili e calcoliamo Xk , Gk , Ak e uk come nelle equazioni (5.18), (5.19), (5.20) e (5.21). Indichiamo con ȳk la proiezione di y nel sottospazio L(Xk ) generato dai vettori delle variabili attive e ricordiamo che la matrice di proiezione in L(Xk ) è uguale a PXk = Xk (XTk Xk )−1 XTk = Xk Gk−1 XTk . (5.38) 50 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.2. L EAST A NGLE R EGRESSION Essendo µ̂k−1 ∈ L(Xk−1 ) abbiamo quindi che ȳk = µ̂k−1 + Xk Gk−1 XTk (y − µ̂k−1 ). (5.39) Inoltre, dalle equazioni (5.21) e (5.22) abbiamo che uk = Xk wk = Xk Ak Gk−1 1k uk = Xk Gk−1 1k , Ak (5.40) bk e dato che le correlazioni correnti delle variabili in Ak sono tutte uguali a C bk 1k , XTk (y − µ̂k−1 ) = C (5.41) otteniamo, estendendo l’equazione (5.39), che ȳk = µ̂k−1 + Xk Gk−1 XTk (y − µ̂k−1 ) bk Xk G −1 1k = µ̂k−1 + C k (5.42) bk C = µ̂k−1 + uk . Ak Se consideriamo dalle equazioni (5.26) e (5.42), i vettori µ̂k − µ̂k−1 = γ̂k uk (5.43) ȳk − µ̂k−1 = γ̄k uk (5.44) con γ̄k = bk C , Ak (5.45) dove γ̂k e γ̄k sono le lunghezze, rispettivamente, dei vettori in (5.43) e (5.44) (dato che uk è un vettore unitario), notiamo che µ̂k giace sulla retta che va da µ̂k−1 a ȳk . Inoltre, essendo µ̂k − µ̂k−1 ȳk − µ̂k−1 = γ̂k γ̄k γ̂k µ̂k − µ̂k−1 = (ȳk − µ̂k−1 ), γ̄k (5.46) con γ̂k < γ̄k per ogni k = {1, . . . , m − 1} abbiamo che µ̂k è sempre più vicino a µ̂k−1 di quanto non lo sia ȳk . Questo ci suggerisce che la stima LAR µ̂k si avvicina sempre alla stima OLS ȳk senza mai raggiungerla (figura 5.2) fino a che k = m. Nell’ultimo passo infatti, dato che Am contiene tutte le variabili, l’equazione (5.27) per il calcolo di γ̂m non è definita. Per convenzione, l’algoritmo adotta bm C , (5.47) γ̂m = γ̄m = Am ottenendo µ̂m = ȳm e β̂ m uguale alla stima OLS per l’intero insieme di m variabili. Dal punto di vista computazionale, l’intera sequenza dell’algoritmo LAR con m < n variabili richiede O(m3 + nm2 ) operazioni, il costo di una stima ai minimi quadrati su m variabili. Nel dettaglio, al k-esimo degli m passi totali vengono effettuati gli m − k prodotti vettoriali (cjk ) tra le variabili non attive e i residui correnti, per identificare la prossima variabile. Inoltre, c’è bisogno di invertire la matrice Gk = XTk Xk ∈ Rk×k . Questa operazione può essere effettuata 51 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.2. L EAST A NGLE R EGRESSION Figura 5.2: Ad ogni passo la stima LAR µ̂k si avvicina sempre alla stima OLS ȳk senza mai raggiungerla prima dell’ultimo passo. aggiornando la fattorizzazione di Cholesky Rk−1 della matrice Gk−1 trovata al passo precedente (Golub e Van Loan, 1996). Abbiamo infatti Teorema 5.2.1 (Fattorizzazione di Cholesky). Sia A ∈ Rm×m una matrice simmetrica definita positiva, allora esiste un’unica matrice triangolare superiore R ∈ Rm×m con elementi diagonali positivi, tale che A = RT R (5.48) e vale la seguente relazione A−1 = R−1 (RT )−1 . (5.49) Se, nel nostro caso, al passo k risolviamo i due sistemi triangolari seguenti RTk bk = 1k (5.50) Rk zk = bk (5.51) otteniamo il vettore zk ∈ Rk tale che RTk Rk zk = 1k Rk zk = (RTk )−1 1k T −1 zk = R−1 k (Rk ) 1k (5.52) zk = Gk−1 1k . Possiamo quindi calcolare la somma delle colonne della matrice Gk−1 , da utilizzare per il calcolo di Ak (5.20) e wk (5.22), senza calcolare esplicitamente l’intera matrice G e soprattutto senza calcolarne la sua inversa, ma solo aggiornando ad ogni passo il triangolo di Cholesky Rk e risolvendo i due sistemi triangolari (5.50) e (5.51). In realtà, utilizzando questo approccio, l’intera sequenza di passi LAR può essere vista come una fattorizzazione di Cholesky con un preciso ordinamento delle variabili di volta in volta aggiunte ad Rk . 52 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.3 5.3. L’ OPERATORE DI SELEZIONE L ASSO L’operatore di selezione Lasso L’operatore Lasso (Least Absolute Shrinkage and Selection Operator) proposto da Tibshirani (1996) cerca principalmente di ottenere dalla regressione un modello sparso, ovvero di selezionare statisticamente un sottoinsieme delle variabili imponendo a zero il valore di alcuni coefficienti di regressione. In particolare, un problema di tipo Lasso è una stima OLS penalizzata attraverso un vincolo sulla norma `1 dei coefficienti di regressione, che permette sia una riduzione dei coefficienti che una loro selezione. Consideriamo il seguente vincolo: L(β̂) = kβ̂k1 = M X |β̂j |, (5.53) j=1 lo stimatore Lasso, facendo riferimento alle equazioni (5.4) e (5.53) e per ogni λ ≥ 0, è il minimizzatore della seguente funzione β̂ = argmin {RSS(β) + λL(β)} (5.54) β oppure può essere definito come il seguente problema di ottimizzazione β̂ = argmin {RSS(β)} soggetto a L(β) ≤ t, (5.55) β dove t ≥ 0 è un parametro di tuning che controlla la riduzione applicata alla stima dei coefficienti. Sia ad esempio β̂ OLS la stima ai minimi quadrati e sia t0 = L(β̂ OLS ). I valori di t ≤ t0 causeranno una riduzione del valore dei coefficienti ed alcuni di essi si annulleranno. Ad esempio, scegliendo t ≤ t0 /2, l’effetto è simile a quello di cercare il miglior sottoinsieme di m/2 variabili. L’effetto della selezione delle variabili fornisce dei modelli maggiormente interpretabili rispetto ad altre tecniche come la Ridge Regression che, imponendo un vincolo sulla norma `2 dei coefficienti al problema OLS, 2 R(β̂) = kβ̂k = M X β̂j2 , (5.56) j=1 produce un effetto di riduzione delle β̂j senza però forzarne l’annullamento. Una spiegazione intuitiva di ciò è evidenziata dal fatto che il criterio OLS equivale alla funzione quadratica (β − β̂ OLS )T XT X(β − β̂ OLS ), (5.57) i cui contorni ellittici (considerando dati in due variabili) sono visualizzati in figura 5.3, centrati sulla stima β̂ OLS . Le regioni centrate sull’origine nella figura 5.3(a) e 5.3(b) sono rispettivamente definite dai vincoli Lasso sulla norma `1 (5.53) e dai vincoli della Ridge Regression sulla norma `2 (5.56). In entrambi i casi la soluzione corrisponde al primo punto nel quale i contorni toccano la regione dei vincoli. Nel caso di Lasso, questo contatto può avvenire su uno spigolo che corrisponde a coefficienti con valore nullo. Nel caso della Ridge Regression, invece, non ci sono spigoli e quindi le soluzioni a coefficienti nulli sono molto più rare. 53 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE (a) Spazio delle soluzioni per Lasso 5.3. L’ OPERATORE DI SELEZIONE L ASSO (b) Spazio delle soluzioni per la Ridge Regression Figura 5.3: Visualizzazione grafica in due dimensioni delle ricerca delle soluzioni utilizzando i vincoli sulla norma `1 ed `2 . Lasso produce soluzione sparse in quanto la regione dei vincoli forma degli “spigoli”. Anche se introduce notevoli miglioramenti dal punto di vista dell’interpretabilità dei modelli, l’utilizzo dell’operatore Lasso evidenzia alcune limitazioni: • nel caso di m > n, Lasso seleziona al massimo n variabili prima di saturare, data la natura convessa del problema di ottimizzazione, inoltre il risultato non è ben definito se il limite t è al di sotto di un certo valore; • se c’è un gruppo di variabili per le quali la correlazione è molto alta, Lasso tende a selezione solo una variabile del gruppo in maniera casuale; • per il caso n > m, la presenza di un’alta correlazione tra le variabili si traduce nella definizione di un modello la cui generalità è peggiore rispetto a quella fornita dalla Ridge Regression. 5.3.1 Soluzione dei problemi di tipo Lasso L’attrattiva per le caratteristiche esibite da questo metodo di selezione di variabili è stata limitata dall’inefficienza dell’algoritmo inizialmente proposto da Tibshirani (1996). Fortunatamente Efron et al. (2004) hanno dimostrato come delle piccole modifiche all’algoritmo LAR permettono di calcolare in modo efficiente l’intero path delle soluzioni Lasso. Indicheremo l’algoritmo modificato con l’acronimo LARS. Sia β̂ la soluzione Lasso in (5.55) dove µ̂ = Xβ̂, e consideriamo il seguente Lemma dimostrato da Efron et al. (2004). 54 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.3. L’ OPERATORE DI SELEZIONE L ASSO Lemma 5.3.1. Data una soluzione Lasso β̂, abbiamo che b · sign(β̂j ) ĉj = C j∈A per (5.58) dove ĉj è la correlazione corrente xTj (y − µ̂) = xTj (y − Xβ̂). In particolare, questo implica che sign(β̂j ) = sign(ĉj ) = sj per j ∈ A. (5.59) Il Lemma ci suggerisce che nell’utilizzo di Lasso il segno di ogni coefficiente non nullo è concorde con il segno della correlazione corrente. L’algoritmo LAR, purtroppo non forza il vincolo (5.59) ma è possibile fare in modo che lo faccia. Consideriamo ancora una volta il valore del prossimo coefficiente βj (equazione 5.29) come dipendente da una specifica scelta del valore di γ̂ (equazione 5.27), ovvero βj (γ) = β̂j + γ dˆj per j ∈ A. (5.60) Notiamo che βj (γ) cambierà segno rispetto a β̂j quando γ = γj , con γj = − β̂j . dˆj (5.61) Ogni variabile avrà quindi associato un limite γj oltre il quale il valore del coefficiente ad essa associata può cambiare segno. Selezioniamo quindi il minimo, tra i positivi, di questi valori γ̃ = min {γj }, γj >0 (5.62) tale che γ̃ = ∞ se non ci sono γj > 0. Ipotizzando che γ̃ = γ̃ , se γ̃ < γ̂ (il valore scelto da LAR), allora il coefficiente β̃ (γ) cambierà segno. Dato che, dall’equazione (5.33), possiamo evincere che b − γAA > 0, |cj (γ)| = C (5.63) b A , ci troviamo a violare il vincolo Lasso (5.59). Per evitare ciò effettuiamo essendo γ < C/A la seguente modifica all’algoritmo: se γ̃ < γ̂, fermiamo il passo LARS corrente imponendo γ = γ̃ e rimuoviamo l’indice ̃ dall’active set escludendo x̃ dall’insieme delle variabili che contribuiranno al calcolo della prossima direzione equiangolare, ovvero µ̂A+ = µ̂ + γ̃uA A+ = A \ {̃}. (5.64) (5.65) Questa modifica provoca un rallentamento dell’esecuzione dell’algoritmo LARS rispetto all’originale LAR, in quanto le variabili ad ogni passo oltre ad essere aggiunte possono anche essere rimosse. In ogni caso sia l’incremento che il decremento avviene su una unica variabile alla volta. Così come per l’algoritmo LAR, anche per LARS possiamo avvalerci della fattorizzazione di Cholesky della matrice Gk per ottimizzare l’algoritmo. In questo caso, però, dobbiamo considerare anche il caso nel quale una variabile viene rimossa dall’active set. Il problema può essere efficientemente risolto applicando un’operazione di downdate del triangolo di Cholesky Rk con un costo pari ad O(m2 ) (Golub e Van Loan, 1996). 55 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.4 5.4. L’ OPERATORE DI SELEZIONE E LASTIC N ET L’operatore di selezione Elastic Net L’Elastic Net proposto da Zou e Hastie (2005) è un recente modello di regolarizzazione e selezione di variabili che cerca di superare alcune delle limitazioni di Lasso senza però perdere le sue importanti proprietà di selezione di variabili. In particolare, l’obiettivo è quello di replicare le capacità di selezione migliorando l’accuratezza del modello e permettendo la selezione di più di n variabili nel caso m > n. Zou e Hastie (2005) presentano una prima formulazione intuitiva di Elastic Net come combinazione di Lasso e della Ridge Regression. Questo modello presenta però dei difetti di overshrinking ed è per questo denominato naïve. Una modifica al valore dei coefficienti calcolati risolve il problema, come vedremo nella sezione 5.4.2. 5.4.1 Naïve Elastic Net Supponiamo siano sempre valide le condizioni di standardizzazione definite nelle equazioni in (5.2) sulla matrice dei dati X = (x1 , x2 , . . . , xm ) e sul vettore delle risposte y = (y1 , y2 , . . . , yn )T . Per ogni λ1 , λ2 ≥ 0 possiamo definire il naïve Elastic Net come il minimizzatore della seguente equazione β̂ N EN = argmin {RSS(β) + λ2 R(β) + λ1 L(β)}, (5.66) β oppure può essere definito come una stima OLS penalizzata, attraverso il seguente problema di ottimizzazione β̂ N EN = argmin {RSS(β)} soggetto a (1 − α)L(β) + αR(β) ≤ t, (5.67) β dove α = λ2 /(λ1 + λ2 ), ed il vincolo sulla stima OLS è una combinazione convessa dei vincoli di Lasso e della Ridge Regression (equazioni (5.53) e (5.56)). Possiamo infatti vedere in figura 5.4 un confronto tra le regioni di ammissibilità dei vincoli Lasso, Elastic Net e della Ridge Regression. Per ogni α > 0 il vincolo è strettamente convesso e conserva le caratteristiche di entrambe le tipologie di vincoli. Un’importante caratteristica del naïve Elastic Net è che l’equazione di minimizzazione in (5.66) è equivalente ad un problema di ottimizzazione di tipo Lasso su dati artificiali. Questo ci permette di sfruttare l’efficienza computazionale di LARS per risolvere il naïve Elastic Net. Vediamo infatti che data la coppia (X, y) e la coppia (λ1 , λ2 ) possiamo costruire la coppia di dati artificiali (X∗ , y∗ ) nel seguente modo 1 X ∗ √ X = √ (5.68) λ2 I 1 + λ2 y ∗ y = , (5.69) 0 con X∗ ∈ R(n+m)×m e y∗ ∈ Rn+m . Definiamo inoltre, λ1 λ∗ = √ 1 + λ2 p ∗ β = 1 + λ2 β. (5.70) (5.71) 56 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.4. L’ OPERATORE DI SELEZIONE E LASTIC N ET Figura 5.4: Confronto tra le regioni di ammissibilità dei vincoli Lasso, Elastic Net ottenuta con α = 0.5 e della Ridge Regression. Possiamo quindi riformulare il naïve Elastic Net in (5.66) come β̂ ∗ = argmin {RSS(β ∗ ) + λ∗ L(β ∗ )} β∗ dove β̂ N EN = √ 1 β̂ ∗ . 1 + λ2 (5.72) (5.73) Notiamo subito che il numero di osservazioni artificiali nella matrice dei dati X∗ è n + m e questo ci permette di superare il primo limite di Lasso, ovvero la saturazione dopo aver incluso nel modello n variabili in caso di m > n. Il naïve Elastic Net, quindi, può potenzialmente selezionare tutte le m variabili in tutte le situazioni. Inoltre, data la natura della relazione in (5.73) tra la stima del naïve Elastic Net e la stima Lasso non si perdono le proprietà di selezione statistica delle variabili. Un’altra importante caratteristica esibita dal naïve Elastic net è l’effetto di raggruppamento: i coefficienti di un gruppo di variabili altamente correlate tendono ad essere uguali (a meno di un cambio di segno se sono inversamente correlate). In particolare, nella situazione estrema nella quale alcune variabili sono esattamente le stesse, il metodo di regressione tende ad assegnare lo stesso valore ai coefficienti. Se consideriamo un generico problema di regressione β̂ = argmin {RSS(β) + λJ(β)}, (5.74) β dove J(·) è una funzione di penalty positiva per β 6= 0, il seguente Lemma, del quale è fornita 57 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.4. L’ OPERATORE DI SELEZIONE E LASTIC N ET una dimostrazione da Zou e Hastie (2005), ci fornisce la spiegazione per la quale il naïve Elastic Net esibisce questa proprietà: Lemma 5.4.1. Assumiamo che xi = xj , i, j ∈ {1, . . . , M }. (a) Se J(·) è strettamente convessa, allora β̂i = β̂j , ∀λ > 0. (b) Se J(β) = |β|1 , allora β̂i β̂j ≥ 0 e β ∗ è un altro minimizzatore dell’equazione (5.74), tale che se k 6= i e k 6= j, β̂k β̂k∗ = (β̂ + β̂j ) · s se k = i, i (β̂i + β̂j ) · (1 − s) se k = j, per ogni s ∈ [0, 1]. Il Lemma evidenzia una chiara distinzione tra le funzioni di penalty strettamente convesse e quelle di tipo Lasso. La convessità stretta garantisce l’effetto di raggruppamento nella situazione di variabili identiche. Il vincolo Lasso, invece non fornisce un’unica soluzione. La funzione di penalty del naïve Elastic Net con λ2 > 0 essendo strettamente convessa ci garantisce l’effetto di raggruppamento. 5.4.2 Risolvere il problema dell’overshrinking Zou e Hastie (2005) dimostrano che il naïve Elastic Net, anche se risolve il problema della saturazione nel caso m > n, ed evidenzia una capacità di selezione di gruppi di variabili correlate, ha delle prestazioni poco soddisfacenti a meno di usare un valore di α tale che il problema sia molto vicino a Lasso o alla Ridge Regression, motivo per il quale è stato denominato naïve. Il problema risiede nel fatto che il naïve Elastic Net è in realtà una procedura in due fasi: per ogni λ2 fissato vengono prima calcolati i coefficienti della Ridge Regression che poi vengono nuovamente ridotti (fino ad annullarne alcuni) da Lasso. Questa doppia procedura di riduzione dei coefficienti non è necessaria e non aiuta a migliorare il risultato. Per risolvere questo problema, considerando il naïve Elastic Net come problema di tipo Lasso (equazione 5.72), definiamo la seguente relazione tra la stima dell’Elastic Net (corretto) β̂ EN e la stima Lasso sui dati artificiali: p β̂ EN = 1 + λ2 β̂ ∗ . (5.75) ∗ Ricordando la relazione in (5.73) tra β̂ EN e β̂ , otteniamo che β̂ EN = (1 + λ2 )β̂ N EN . (5.76) I coefficienti della stima Elastic Net sono quindi i coefficienti scalati di un fattore (1 + λ2 ) della stima del naïve Elastic Net. Questa trasformazione preserva le proprietà di selezione delle variabili ed è il modo più semplice per eliminare il doppio effetto di riduzione sui coefficienti. 5.4.3 Soluzione dei problemi di tipo Elastic Net L’algoritmo proposto da Zou e Hastie (2005) per risolvere Elastic Net, denominato LARS-EN, è una variante dell’algoritmo LARS (sezione 5.3.1) proposto da Efron et al. (2004) in quanto, fissato λ2 , l’Elastic Net è un problema Lasso su dati artificiali. LARS infatti, può essere utilizzato per calcolare l’intero path delle soluzioni Elastic Net in modo efficiente fissato λ2 . È molto importante notare che per m n, i dati artificiali sono composti da m + n osservazioni ed m 58 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.4. L’ OPERATORE DI SELEZIONE E LASTIC N ET variabili, di conseguenza l’efficienza di LARS si riduce notevolmente. Possiamo però migliorare l’aspetto computazionale sfruttando a nostro vantaggio la struttura sparsa della matrice X∗ . In particolare uno dei punti computazionalmente più onerosi dell’algoritmo LARS è il calcolo, ad ogni passo, dell’inversa della matrice ∗ Gk = X∗T k Xk (5.77) dove k è il passo corrente. Abbiamo visto nella sezione 5.2 come sia possibile migliorare le prestazioni aggiornando la fattorizzazione di Cholesky della matrice Gk−1 calcolata al passo precedente. Notiamo inoltre che, facendo riferimento alla definizione della matrice dei dati artificiali (5.68), otteniamo che ∗ Gk = X∗T k Xk = = = Gk = T 1 1 X X k k √ √ √ √ λ2 I λ2 I 1 + λ2 1 + λ2 T 1 √Xk √Xk λ2 I λ2 I 1 + λ2 √ Xk 1 T Xk λ2 I √ λ2 I 1 + λ2 1 (XT Xk + λ2 I). 1 + λ2 k (5.78) Possiamo quindi, con delle minime modifiche algoritmiche, effettuare sia l’aggiornamento che il downdating della fattorizzazione di Cholesky della matrice XTk−1 Xk−1 + λ2 I calcolata al passo ∗ precedente (invece che sulla matrice X∗T k−1 Xk−1 ). Ovviamente, anche nel calcolo delle correla∗ zioni correnti tra le variabili artificiali xj e gli errori residui è possibile far leva sul fatto che ogni variabile ha m − 1 elementi nulli. Difatti è possibile eseguire l’intero algoritmo LARS-EN senza dover calcolare a priori la matrice X∗ ma effettuando solo le opportune modifiche nel calcolo delle altre quantità rispetto all’originale algoritmo LARS. L’algoritmo LARS-EN aggiorna sequenzialmente la stima Elastic Net e nel caso m n, non è in genere necessario eseguire l’intero algoritmo fino ad includere nel modello le m variabili. Se fermiamo l’algoritmo dopo p passi, la complessità computazione risulta essere un O(m3 + pm2 ). Nell’applicazione dell’algoritmo ha un ruolo importante anche la scelta dei parametri di input. L’Elastic Net è stato definito in funzione della coppia (λ1 , λ2 ), ma questa non è l’unica scelta possibile. Nel Lasso sono parametri convenzionali sia la norma `1 dei coefficienti (t = P P max |β̂j |) che il suo valore normalizzato s = t/ |β̂jmax | (con β̂ = β̂ OLS ). Anche per Elastic Net possiamo utilizzare come parametri le coppie (t, λ2 ) o (s, λ2 ). Il vantaggio di usare s è che quest’ultima assume sempre un valore nell’intervallo [0, 1). Nell’algoritmo LARS, è possibile utilizzare anche il numero di passi k come parametro e questa opzione è ereditata dal LARSEN. In particolare, una metodologia classica adottabile in questo caso è la K-fold cross validation (di solito con K = 10). Suddividiamo le osservazioni in K sottogruppi disgiunti e definiamo una griglia relativamente piccola di valori per λ2 . Per ognuno di questi valori selezioniamo a turno uno dei K gruppi per validare i modelli, sull’intero path di soluzioni, calcolati da LARSEN sul training set composto dai restanti K − 1 gruppi. Il valore scelto di λ2 sarà quello con il minore errore di cross-validazione. Per ogni λ2 , il costo computazione è pari a quello di K stime OLS. Nel caso n > m la cross validation non è molto onerosa, mentre nel caso di m n il suo peso computazionale cresce 59 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.5. I NTERPRETAZIONE DI L ASSO ED E LASTIC N ET linearmente con m, ma possiamo scegliere di fermare ogni volta l’algoritmo dopo p < m passi se l’obiettivo è quello di selezionare un numero di variabili minore di m. 5.5 Interpretazione di Lasso ed Elastic Net Concludiamo questo capitolo analizzando attraverso una caso particolare le differenze nell’applicazione dei diversi termini di regolarizzazione presentati mettendone in evidenza la relazione con la stima OLS. Considerando il caso di una matrice di input ortonormale X, sia la stima Lasso che quella naïve Elastic Net hanno una soluzione esplicita, così come la Ridge Regression dove, ricordando che la stima OLS nel caso di input ortonormale è uguale a β̂ OLS = (XT X)−1 XT y = I−1 XT y = IXT y = XT y, (5.79) abbiamo che β̂ ridge = (XT X + λ2 I)−1 XT y = (I + λ2 I)−1 XT y = ((1 + λ2 )I)−1 XT y = 1 XT y, 1 + λ2 (5.80) ottenendo la seguente relazione tra la stima OLS e la Ridge Regression: β̂ ridge = β̂ OLS . 1 + λ2 (5.81) Con un ragionamento analogo Tibshirani (1996) mostra che β̂jlasso = sign(β̂jOLS )(|β̂jOLS | − λ1 )+ (5.82) dove l’operazione effettuata sui coefficienti β̂jOLS della stima ai minimi quadrati è quella di soft thresholding. Inoltre Zou e Hastie (2005) ci mostrano la seguente relazione tra la stima OLS, la stima Lasso e la stima del naïve Elastic Net: β̂jN EN = sign(β̂jOLS ) (|β̂jOLS | − λ1 )+ β̂jlasso = . 1 + λ2 1 + λ2 (5.83) Riassumiamo in tabella 5.1 le relazioni tra i vari stimatori che è visualizzata graficamente in figura 5.5, dove è evidente anche il processo di overshrinking del naïve Elastic Net in quanto possiamo osservare come quest’ultimo può essere visto come una procedura in due passi: applicazione della ridge regression, con relativa riduzione dei coefficienti, seguita dall’applicazione di Lasso per il thresholding. Nel caso ortonormale inoltre, è facile verificare che l’Elastic Net si riduce a Lasso, in quanto moltiplichiamo per (1 + λ2 ) la stima naïve. Stimatore Ridge Regression Lasso Elastic Net (naïve) Formula β̂jOLS /(1 + λ2 ) sign(β̂jOLS )(|β̂jOLS | − λ1 )+ sign(β̂jOLS )(|β̂jOLS | − λ1 )+ /(1 + λ2 ) Tabella 5.1: Relazione tra i vari stimatori in caso di input ortonormale. La linea tratteggiata è inserita come riferimento a 45◦ . Dal grafico si vede la trasformazione che che gli stimatori effettuano sulla stima ai minimi quadrati ordinaria 60 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.6. C ASO DI STUDIO Figura 5.5: Resoconto delle trasformazioni che i vari stimatori effettuano sulla stima OLS in caso di matrice di input ortonormale 5.6 Caso di studio In questa sezione finale del capitolo presentiamo un caso di studio con il quale mettere maggiormente in evidenza le differenze tra i vari algoritmi di selezione di variabili: LAR, LARS e LARS-EN. Il dataset che utilizzeremo è estraneo all’analisi della forma ed è lo stesso utilizzato nel capitolo 4 come caso di studio. Ricordiamo comunque che il dataset che adotteremo è composto da n = 442 osservazioni su m = 10 variabili alle quali è associata un’etichetta che fornisce una misura della progressione della malattia (diabete) rispetto ad una baseline. La matrice dei dati è stata opportunamente centrata e standardizzata in quanto le misurazioni non hanno ordini di grandezza omogenei. In questo capitolo utilizzeremo una coppia di strumenti grafici per rappresentare i risultati dei tre algoritmi. Visualizzeremo sia l’intero path delle soluzioni calcolate dagli algoritmi (ricordando che questo è possibile per la natura stessa dell’algoritmo LAR alla base di LARS e LARS-EN) e l’andamento della correlazione di ogni variabile con la soluzione durante tutti i passi dell’algoritmo. Il primo grafico mette in relazione il valore (assoluto) dei singoli coefficienti calcolati dal modello con la norma del vettore dei coefficienti stessi. Il primo aspetto che vale la pena sottolineare è la forte similitudine tra il path delle soluzioni LAR in figura 5.6(a) e quelle delle soluzioni Lasso in figura 5.6(c) calcolate attraverso l’algoritmo LARS, come descritto in questo capitolo. Notiamo, però, un numero maggiore di passi effettuati da LARS, dovuti all’uscita di una delle variabili dal modello al settimo passo. Nelle figure 5.6(e) e 5.6(f), invece, sono rappresentati gli effetti dell’algoritmo LARS-EN sul medesimo dataset. In questo caso abbiamo provato a generare un modello per λ2 = 1.0 ed uno per λ2 = 1000.0, ottenendo dei path delle soluzione molto differenti data la forte regolarizzazione sulla norma `2 imposta nel secondo dei due casi. 61 5. M ETODI DI SELEZIONE NELLA REGRESSIONE LINEARE 5.6. C ASO DI STUDIO (a) Valori dei coefficienti calcolati ai passi dell’algoritmo LAR. (b) Correlazioni (in valore assoluto) tra le variabili e l’errore residuo ad ogni passo dell’algoritmo LAR. (c) Valori dei coefficienti calcolati ai passi dell’algoritmo LARS. (d) Correlazioni (in valore assoluto) tra le variabili e l’errore residuo ad ogni passo dell’algoritmo LARS. (e) Valori dei coefficienti calcolati ai passi dell’algoritmo LARS-EN, con λ = 1.0. (f) Valori dei coefficienti calcolati ai passi dell’algoritmo LARS-EN, con λ = 1000.0. Figura 5.6: Risultati dell’applicazione degli algoritmi LAR, LARS e LARS-EN sul dataset utilizzato come caso di studio. 62 CAPITOLO 6 E SPERIMENTI E RISULTATI Contenuto 6.1 6.2 6.3 6.4 6.5 Descrizione dei dataset . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Mani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Espressioni facciali . . . . . . . . . . . . . . . . . . . . . . 6.1.3 Ippocampi . . . . . . . . . . . . . . . . . . . . . . . . . . . Problema della corrispondenza su superfici prive di landmark Allineamento delle forme attraverso l’analisi di Procrustes . . Decomposizione dei modi di variazione . . . . . . . . . . . . . Decomposizione sparsa dei modi di variazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 64 66 67 68 71 73 77 Nei capitoli precedenti abbiamo trattato diversi aspetti legati alla shape analysis e in questo capitolo cercheremo di mettere in evidenza sperimentalmente le potenzialità che le varie tecniche presentate dimostrano teoricamente di avere. Ci occuperemo sia degli aspetti di preprocessing della forma e della loro rappresentazione, sia della generazione di modelli di variabilità attraverso decomposizione (sparsa) dei modi di variazione (capitoli 2 e 4). Schematizzando, nelle sezioni che seguono, dopo la descrizione dei dataset utilizzati (sezione 6.1) ci occuperemo di: 1. Illustrare le proprietà della metodologia descritta nel capitolo 3 per affrontare il problema della corrispondenza su superfici tridimensionali in assenza di landmark già annotati. 2. Mettere in evidenza la necessità di trattare le forme descritte da landmark attraverso l’analisi di Procrustes, allo scopo di rimuovere effetti di scala, traslazione e rotazione prima di generare i modelli di variabilità. 3. Mostrare gli effetti positivi e negativi delle tecniche di decomposizione classica dei modi di variazione (Principal Component Analysis). 4. Evidenziare l’apporto delle tecniche di decomposizione sparsa (Sparse PCA) alla shape analysis dimostrando sia gli effetti sull’interpretabilità, sia analizzando la relazione tra la correlazione statistica catturata dal modello e la decomposizione spazialmente localizzata dei modi di variazione. 63 6. E SPERIMENTI E RISULTATI 6.1 6.1. D ESCRIZIONE DEI DATASET Descrizione dei dataset Prima di descrivere nel dettaglio i risultati sperimentali ottenuti, introduciamo in questa sezione i dataset a nostra disposizione. Si tratta in particolare di due dataset di landmark bidimensionali annotati manualmente1 e di un dataset di superfici tridimensionali senza alcun tipo di annotazione con il quale avremo la possibilità di sperimentare gli approcci di generazione automatica di landmark risolvendo il problema della corrispondenza. 6.1.1 Mani Il dataset messo a disposizione da Stegmann e Gomez (2002) è composto da 40 immagini di mani (sinistre) acquisite ad una dimensione di 1600 × 1200 pixel. Le mani fanno riferimento a 4 diverse persone, ognuna delle quali ha contribuito con 10 immagini rispettando il seguente schema: • le prime 6 immagini corrispondono ad una sequenza dove la mano passa da una configurazione di massima apertura ad una di massima contrazione (un esempio è visualizzato sulle prime due righe della figura 6.1). • le ultime 4 immagini (un esempio è visualizzato sull’ultima riga della figura 6.1) sono state scelte arbitrariamente dalle 4 persone che si sono prestate alla costruzione del dataset imponendo loro due semplici vincoli: – il palmo della mano doveva restare appoggiato sul tavolo; – il contorno della mano doveva avere una forma semplice, ad esempio non era permesso incrociare le dita. Sul set di immagini così acquisite sono stati posizionati 56 landmark sul contorno della mano secondo questa distribuzione: • 43 landmark anatomici posizionati sui bordi tra l’avambraccio e la mano, in corrispondenza delle nocche e delle unghie; • 9 landmark matematici (8, 12, 18, 23, 28, 33, 38, 43, 48) posizionati nei punti a massima curvatura, punta delle dita e angolo tra due di esse; • 4 pseudo-landmark (2, 11, 54, 55) posizionati sempre manualmente per minimizzare la distanza della spezzata definita dai 56 landmark e il bordo “reale” della mano. In figura 6.2 sono mostrate le annotazioni sulla mano completamente chiusa e completamente aperta della prima serie di immagini acquisite (la prima sulla prima riga e l’ultima sulla seconda riga nella figura 6.1). 1 È possibile reperire entrambi i dataset all’indirizzo http://www2.imm.dtu.dk/~aam/. 64 6. E SPERIMENTI E RISULTATI 6.1. D ESCRIZIONE DEI DATASET Figura 6.1: Prima serie di 10 immagini di mani sulle quali sono stati posizionati i landmark che ne descrivono il contorno. Le prime 6 immagini in alto descrivono una sequenza di chiusura della mano, le 4 immagini restanti si riferiscono a posizioni arbitrarie. (a) Annotazione eseguita su una configurazione di mano completamente aperta. (b) Annotazione eseguita su una configurazione di mano completamente chiusa. Figura 6.2: Esempi di annotazione dei 56 landmark sul dataset di mani. 65 6. E SPERIMENTI E RISULTATI 6.1. D ESCRIZIONE DEI DATASET Figura 6.3: Serie di 6 immagini che mostra le diverse pose con le quali è stato raccolto il dataset. L’ultima immagine della sequenza è completamente arbitraria ed ognuno dei 40 individui ha fornito una sua espressione. 6.1.2 Espressioni facciali Come il precedente, anche questo dataset che prende il nome di IMM Face Database, è stato reso disponibile da Stegmann et al. (2003) ed è stato utilizzato nell’ambito di ricerche legate al riconoscimento facciale attraverso descrittori di forma. Il database comprende 240 immagini di 40 differenti volti umani, tutti senza occhiali. Tra gli individui si conta la presenza di 7 donne e 33 uomini. Le immagini hanno una dimensione di 640 × 480 pixel ed ogni individuo si è prestato ad essere fotografato in 6 diverse pose: 1. viso frontale, espressione neutrale; 2. viso frontale, espressione “sorridente”; 3. viso ruotato di circa 30◦ alla destra nell’individuo, espressione neutrale; 4. viso ruotato di circa 30◦ alla sinistra nell’individuo, espressione neutrale; 5. viso frontale, espressione neutrale, illuminazione alla sinistra dell’individuo2 ; 6. espressione arbitraria. In figura 6.3 è stata riportata una parte del dataset, in particolare si tratta delle 6 diverse pose del primo individuo. Le immagini ottenute sono state annotate attraverso l’uso di 58 landmark suddivisi in 7 diversi gruppi (che formano tre path chiusi e quattro aperti): sopracciglia, occhi, naso, bocca e mento. Un esempio di annotazione è visibile in figura 6.4 dove i vari gruppi di landmark sono mostrati con diversa colorazione. Si tratta della prima e dell’ultima immagine mostrate nella sequenza in figura 6.3. 2 Nei nostri esperimenti, non lavorando direttamente sulle immagini l’illuminazione delle stesse non influisce in alcun modo sui risultati, tranne per il fatto che questo tipo di immagine, di fatto, raddoppia il numero di espressioni di tipo 1 nel dataset. 66 6. E SPERIMENTI E RISULTATI (a) Annotazione eseguita su un individuo in posizione frontale e con espressione neutrale. 6.1. D ESCRIZIONE DEI DATASET (b) Annotazione eseguita su un individuo in posizione arbitraria. Figura 6.4: Esempi di annotazione dei 58 landmark sul dataset di espressioni facciali. 6.1.3 Ippocampi Il dataset di superfici ippocampali, come descritto nel capitolo 3, collega questo lavoro di Tesi al progetto INFN MAGIC-V di segmentazione di volumi cerebrali e analisi del grado di atrofia dell’area ippocampale (Aiello et al., 2009; Calvini et al., 2008). In figura 6.5 sono mostrati tutti gli 8 template in ordine decrescente di atrofia, dove è stato messo in evidenza il template selezionato come riferimento per la generazione e decimazione della mesh. La scelta è caduta sul template n◦ 4 per due principali motivi: rappresenta un prototipo di ippocampo con un grado di atrofia intermedio e allo stesso tempo la superficie, essendo continua e senza cavità (rispetto ad alcuni degli altri template), permette la generazione di una mesh uniforme. L’algoritmo dei marching cubes seguito dall’algoritmo di decimazione (capitolo 3) produce su questa superficie 1352 landmark permettendoci di sperimentare gli algoritmi di decomposizione dei modi di variazione su dimensionalità molto elevate. Oltre ai template, abbiamo a disposizione 21 segmentazioni della pipeline su volumi MRI. Ogni segmentazione è associata alla relativa matrice di deformazione del template rispetto alla segmentazione stessa. Schematizzando, i dati che utilizzeremo sono composti da: • 1 segmentazione ippocampale manuale da utilizzare come riferimento (template n◦ 4); • 21 campi di deformazione dal template selezionato all’ippocampo segmentato. Con questo insieme di dati, vedremo nella prossima sezione i risultati relativi alla generazione automatica della mesh di landmark e alla soluzione del problema della corrispondenza. 67 6. E SPERIMENTI E RISULTATI 6.2. P ROBLEMA DELLA CORRISPONDENZA SU SUPERFICI PRIVE DI LANDMARK Figura 6.5: Segmentazioni manuali di 8 ippocampi destri ordinati secondo il grado di atrofia crescente. Queste segmentazioni (insieme alle corrispondenti box non segmentate in scala di grigi) sono utilizzate dalla pipeline di segmentazione MAGIC-V. L’ippocampo evidenziato in rosso è stato utilizzato per la generazione della mesh di riferimento. 6.2 Problema della corrispondenza su superfici prive di landmark Come descritto nel capitolo 3, l’approccio adottato in questa Tesi per risolvere il problema della corrispondenza sulle superfici 3D degli ippocampi segmentati, fa uso di un’operazione di warping di una mesh di riferimento attraverso una serie di campi di deformazione. Percorriamo le varie fasi di questo processo e visualizziamo i risultati ottenuti. L’algoritmo dei marching cubes è stato applicato al template selezionato ed evidenziato in figura 6.5. La mesh risultante è composta da 2132 landmark ed è visualizzata in figura 6.6(a). È stato quindi utilizzato l’algoritmo di decimazione con varie percentuali di riduzione della mesh conservando sempre la topologia complessiva della mesh. Questo ha imposto un limite superiore alla percentuale di riduzione dei punti e ci ha permesso di produrre la mesh visualizzata in figura 6.6(b) composta da 1352 landmark. La mesh di riferimento così ottenuta è stata deformata attraverso i campi di deformazione calcolati dalla pipeline di segmentazione. Ognuno di essi definisce lo spostamento necessario di ogni pixel della scatola ippocampale per “trasformare” l’ippocampo contenuto nel template di riferimento nell’ippocampo contenuto nella scatola estratta dalla MRI in input. In figura 6.7 68 6. E SPERIMENTI E RISULTATI 6.2. P ROBLEMA DELLA CORRISPONDENZA SU SUPERFICI PRIVE DI LANDMARK (a) Mesh ottenuta dopo l’applicazione dell’algoritmo dei marching cubes sulla superficie del template n◦ 4. (b) Mesh ottenuta dopo l’applicazione dell’algoritmo di decimazione sulla mesh densa in figura 6.6(a). Figura 6.6: Mesh ottenute durante la fase di generazione automatica dei landmark sulle superfici ippocampali. vediamo graficamente un esempio di uno dei campi di deformazione utilizzati. I vettori indicano la direzione dello spostamento e i loro colori ne indicano l’intensità (dall’azzurro al rosso scuro per modulo crescente). In figura 6.7(a) l’origine dei vettori è posizionata in corrispondenza del punto di partenza (nel template), mentre nella figura 6.7(b) è visualizzato il punto di destinazione (nella nuova scatola estratta). Nella figura 6.8 è visualizzato il risultato del warping su 4 delle 21 mesh ippocampali appartenenti al dataset. Nella figura le mesh sono sovrapposte e colorate diversamente. La mesh di colore bianco corrisponde a quella del template di riferimento. Possiamo notare da questo sottoinsieme dei dati come la variabilità sia diffusa su tutta la superficie, dalla testa alla coda dell’ippocampo rendendo difficile individuare visivamente qualsiasi tipo di pattern presente nei dati stessi. Ad ogni modo, il risultato che ci interessa sottolineare in questo esperimento è legato alla capacità di questo approccio di sfruttare in modo efficiente il funzionamento della pipeline MAGIC-V e di risolvere il problema della corrispondenza. Utilizzando infatti i campi di deformazione per “trasferire” i landmark dalla superficie del template di riferimento alle 21 superfici segmentate non perdiamo l’ordinamento dei landmark che, mantenendo la loro distribuzione topologica, vengono spostati sul punto corrispondente alla nuova superficie. Abbiamo così ottenuto delle rappresentazioni sufficientemente fedeli delle superfici segmentate, che possono quindi essere utilizzare per costruire i modelli di variabilità, come vedremo nei test proposti nelle prossime sezioni. 69 6. E SPERIMENTI E RISULTATI 6.2. P ROBLEMA DELLA CORRISPONDENZA SU SUPERFICI PRIVE DI LANDMARK (a) Esempio di campo di deformazione dove i vettori, posizionati sui punti del template di origine, indicano direzione e intensità dello spostamento da effettuare. (b) Esempio di campo di deformazione dove i vettori, posizionati sui punti della box di destinazione, indicano direzione e intensità dello spostamento effettuato. Figura 6.7: Campi di deformazione utilizzati per la generazione del dataset di forme rappresentate attraverso landmark tridimensionali. Figura 6.8: Esempio di deformazione della mesh di riferimento (in bianco) attraverso l’applicazione di 4 diversi campi di deformazione. 70 6. E SPERIMENTI E RISULTATI 6.3 6.3. A LLINEAMENTO DELLE FORME ATTRAVERSO L’ ANALISI DI P ROCRUSTES Allineamento delle forme attraverso l’analisi di Procrustes Ci occuperemo adesso di analizzare gli effetti ottenuti sulle forme descritte da landmark dopo l’applicazione dell’analisi di Procrustes. Per motivi di visualizzazione presenteremo i risultati relativi ai due dataset di landmark bidimensionali in quanto la densità della mesh 3D applicata sugli ippocampi non permette una chiara visualizzazione degli effetti dell’allineamento. La matrici di grafici utilizzati in questa sezione (figure 6.9 e 6.10) sono organizzate in questo modo: • sulla prima riga è visualizzato il dataset nel suo stato originale al quale è stata applicata un’operazione di centramento sull’origine; • sulla seconda riga è visualizzato il dataset dopo l’applicazione dell’analisi di Procrustes generalizzata (rimozione di effetti di traslazione, scala e rotazione); • sulla prima colonna sono visualizzati i contorni delle forme appartenenti al dataset con evidenza dei landmark e dove ogni forma è rappresentata con un diverso colore; • sulla seconda colonna sono visualizzati i landmark delle forme appartenenti al dataset dove ogni gruppo (in letteratura chiamato cloud, nuvola) è rappresentato con un diverso colore. Inoltre nella prima colonna di grafici è visualizzata, con un contorno nero più marcato, la forma media costruita dall’algoritmo di allineamento. Possiamo notare nelle figure 6.9 e 6.10 che nel primo grafico in alto a sinistra la forma media evidenziata corrisponde al valore di inizializzazione dell’algoritmo. In entrambi i casi è stata utilizzata come forma iniziale la prima appartenente al dataset. L’effetto ottenuto è evidente confrontando le immagini sulla prima riga e quelle sulla seconda. Osservando i contorni si nota come sia le mani che le espressioni facciali siano state scalate e opportunamente ruotate in modo da mantenerne la morfologia e limitando la distanza tra i landmark corrispondenti. Osservando invece le nuvole di landmark nei grafici sulla destra si nota come ogni singolo gruppo di landmark possa essere descritto da una distribuzione gaussiana multivariata. Questa ipotesi, evidente visivamente, è una giustificazione all’approccio adottato di generazione dei modelli di variabilità attraverso l’uso di tecniche di decomposizione lineare come la PCA. 71 6. E SPERIMENTI E RISULTATI 6.3. A LLINEAMENTO DELLE FORME ATTRAVERSO L’ ANALISI DI P ROCRUSTES Figura 6.9: Risultato dell’applicazione dell’analisi di Procrustes generalizzata al dataset di mani annotate. In alto il dataset prima dell’allineamento, in basso il dataset allineato. Figura 6.10: Risultato dell’applicazione dell’analisi di Procrustes generalizzata al dataset di espressioni facciali annotate. In alto il dataset prima dell’allineamento, in basso il dataset allineato. 72 6. E SPERIMENTI E RISULTATI 6.4 6.4. D ECOMPOSIZIONE DEI MODI DI VARIAZIONE Decomposizione dei modi di variazione In questo test applicheremo la decomposizione dei modi di variazione attraverso l’uso della Principal Component Analysis ordinaria su tutti e tre i dataset. Tutte le forme sono state precedentemente allineate attraverso l’analisi di Procrustes generalizzata e linearizzate come descritto nel capitolo 2 in modo da formare tre matrici aventi sulle righe il numero di forme e sulle colonne il numero di landmark moltiplicato per il numero di coordinate: • la matrice delle mani ha dimensione 40 × 112 (56 landmark · 2 dimensioni); • la matrice delle espressioni facciali ha dimensione 240 × 116 (58 landmark · 2 dimensioni); • la matrice degli ippocampi ha dimensione 21 × 4056 (1352 landmark · 3 dimensioni). I risultati in questa (e nella prossima) sezione saranno presentati attraverso l’ausilio di due strumenti. In una tabella mostreremo la varianza spiegata dalle componenti principali indicando il numero di elementi non nulli (loadings) sul vettore (indice di sparsità della componente principale). Limitandoci alle prime 12 componenti principali (che in tutti e tre i casi sono in grado di catturare un’alta percentuale di variabilità) mostreremo graficamente i modi di variazione associati ad ognuna delle componenti. Il grafico è composto, per i dataset 2D, da una matrice 3 × 4 di immagini associate, in ordine, alle prime 12 componenti principali. Per il dataset di ippocampi si è ritenuto sufficiente mostrare solo le prime 4 componenti principali, in quanto la visualizzazione degli effetti prodotti comunque meno intuitiva e l’aggiunta di altre immagini non aiuta nell’interpretazione dei risultati. Su ogni grafico è visualizzato un contorno di colore nero che corrisponde alla forma media x̄ calcolata durante l’analisi di Procrustes, e quattro altri contorni ognuno di un diverso colore generati variando la forma media attraverso la componente principale associata al grafico e rispettandone la varianza spiegata. Più precisamente (per maggiori dettagli si veda il capitolo 2), sia Ũ la matrice con le prime 12 componenti principali e sia ỹ = (0, . . . , 0, bi σi , 0, . . . , 0)T ∈ R12 , (6.1) dove σi è la deviazione standard dei dati sulla componente principale, abbiamo “ricostruito” 4 forme appartenenti alla popolazione statistica x̃ ≈ x̄ + Ũỹ, (6.2) associando al valore di bi un colore secondo la tabella 6.1. Per il dataset 3D di ippocampi si è preferito, inoltre, non visualizzare direttamente le mesh di punti (o la triangolazione), in quanto la relazione tra le varie superfici risultava poco visibile. In alternativa si è preferito (utilizzando gli stessi colori) visualizzare le superfici piene a partire dalle mesh “ricostruite”. Colore blu ciano giallo rosso bi −2.5 −1.0 +1.0 +2.5 Tabella 6.1: Associazione dei colori alle forme generate rispetto ai vari modi di variazione. 73 6. E SPERIMENTI E RISULTATI PC PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 6.4. D ECOMPOSIZIONE DEI MODI DI VARIAZIONE % Varianza 54.29% 17.72% 8.93% 6.35% 4.26% 2.08% 1.52% 1.04% 0.71% 0.46% 0.39% 0.32% % Var. Cumulata 54.29% 72.01% 80.94% 87.29% 91.55% 93.63% 95.15% 96.19% 96.91% 97.37% 97.76% 98.07% # Loadings 6= 0 112 112 112 112 112 112 112 112 112 112 112 112 Tabella 6.2: Varianza spiegata dalle prime 12 componenti principali calcolate sul dataset di mani. PC PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 % Varianza 26.24% 13.58% 11.83% 7.18% 5.61% 4.76% 3.32% 2.37% 2.31% 2.22% 1.89% 1.68% % Var. Cumulata 26.24% 39.82% 51.65% 58.83% 64.44% 69.20% 72.52% 74.90% 77.21% 79.43% 81.32% 83.00% # Loadings 6= 0 116 116 116 116 116 116 116 116 116 116 116 116 Tabella 6.3: Varianza spiegata dalle prime 12 componenti principali calcolate sul dataset di espressioni facciali. PC PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 % Varianza 18.11% 13.55% 11.99% 10.42% 6.74% 6.17% 5.28% 4.43% 3.85% 3.37% 2.67% 2.53% % Var. Cumulata 18.11% 31.67% 43.65% 54.08% 60.82% 66.98% 72.26% 76.68% 80.53% 83.90% 86.57% 89.10% # Loadings 6= 0 4056 4056 4056 4056 4056 4056 4056 4056 4056 4056 4056 4056 Tabella 6.4: Varianza spiegata dalle prime 12 componenti principali calcolate sul dataset di ippocampi. 74 6. E SPERIMENTI E RISULTATI 6.4. D ECOMPOSIZIONE DEI MODI DI VARIAZIONE Figura 6.11: Visualizzazione grafica dei modi di variazione associati alle prime 12 componenti principali calcolate sul dataset di mani. Figura 6.12: Visualizzazione grafica dei modi di variazione associati alle prime 12 componenti principali calcolate sul dataset di espressioni facciali. 75 6. E SPERIMENTI E RISULTATI 6.4. D ECOMPOSIZIONE DEI MODI DI VARIAZIONE Figura 6.13: Visualizzazione grafica dei modi di variazione associati alle prime 4 componenti principali calcolate sul dataset di ippocampi. Analizzando i risultati ottenuti sul dataset di mani, la prima componente principale cattura il 54.29% di variabilità. Osservando infatti, il relativo modo di variazione in figura 6.11 notiamo come la variazione dei landmark tende a simulare il movimento di apertura e chiusura della mano (blu chiusa, rossa aperta) contenuto nel 60% delle immagini acquisite ed annotate. La prima componente, però, non si limita a catturare solo questo tipo di informazione ma include anche variazioni sulla dimensione stessa della mano. Al diminuire della varianza, le altre componenti principali catturano via via meno variabilità anche se fino alla sesta componente è visibile una variazione su tutto il contorno della forma. Lo stesso tipo di effetto si ottiene anche nel dataset di espressioni facciali, dove sulla prima componente, la PCA cattura quasi completamente il movimento di rotazione della testa presente in circa il 30% delle immagini annotate. Anche in questo caso però, l’interpretazione delle altre componenti principali risulta problematica data la presenza di variabilità diffusa in tutti i landmark. Sul dataset 3D le problematiche di interpretazione sono notevolmente più evidenti. C’è da dire che il numero di osservazioni, confrontato con il numero di variabili non permette un’analisi statistica soddisfacente ma notiamo, comunque, che nelle prime 12 componenti principali catturiamo quasi il 90% della variabilità complessiva. Visivamente, in figura 6.13, è molto difficile riuscire ad individuare ed interpretare la variabilità significativa in quanto la mesh varia su tutta la superficie. Leggermente evidente risulta, ad esempio, la variazione della coda ippocampale sulla prima componente o la dimensione della testa nella seconda. 76 6. E SPERIMENTI E RISULTATI 6.5 6.5. D ECOMPOSIZIONE SPARSA DEI MODI DI VARIAZIONE Decomposizione sparsa dei modi di variazione Presentiamo adesso i risultati ottenuti applicando la Sparse Principal Component Analysis ai dataset a disposizione. Per la visualizzazione dei risultati utilizzeremo gli stessi strumenti presentati per i risultati ottenuti con l’applicazione della PCA ordinaria. L’algoritmo per il calcolo della SPCA è stato eseguito sui due dataset 2D utilizzando diversi parametri λ2 e λ1 rispettivamente sulla penalità di tipo `2 ed `1 dei coefficienti e dove, in particolare, il valore di λ1 non è stato indicato esplicitamente. Sfruttando infatti le caratteristiche dell’algoritmo LARS-EN, che calcola iterativamente l’intero path delle soluzioni per i diversi valori di λ1 (fissato quello di λ2 ), abbiamo indicando in input per ogni componente principale sparsa, la percentuale di variabili da trattenere nel modello che corrisponde esattamente a fermare l’algoritmo su un punto del path per un dato valore di λ1 . Abbiamo utilizzato per λ2 i valori {0.01, 1.0, 1000.0} calcolando le prime 12 componenti principali sparse con 9 diverse percentuali di variabili non nulle, dal 10% al 90% con passo 10%. In figura 6.14 sono visualizzati i 9 modi di variazione del dataset di mani catturati sulla prima componente principale per ogni diversi valore di di percentuali di variabili e per i vari valori di λ2 . Osservando i risultati ottenuti con λ2 = 0.01 nella figura 6.14(a)) vediamo come un valore così basso del termine di regolarizzazione, produce delle forme non naturali con notevoli artefatti nei contorni generati. Nelle immagini successive, figure 6.14(b) e 6.14(c), si notano due aspetti importanti. I contorni generati sono più naturali e anche utilizzando termini di regolarizzazione così differenti i risultati non mostrano variazioni significative. Si nota in entrambi i casi che, all’aumentare del numero di landmark, la prima componente principale cattura sempre più la variazione diffusa della mano convergendo ai risultati ottenuti con la PCA ordinaria. Lo stesso tipo di effetto si ottiene anche sul dataset delle espressioni facciali i cui risultati sono riportati in figura 6.15. In questo caso è interessante notare come con una bassa regolarizzazione, in figura 6.15(a), bisogna raggiungere almeno la soglia del 60% di variabili prima di avere una certa stabilità, a differenza delle due soluzioni con λ2 maggiore, nelle figure 6.15(b) e 6.15(c), dove questa si raggiunge già con il 30% delle variabili. Come possiamo invece notare nella figura 6.16, lavorando su forme 3D l’interpretazione visiva richiede maggiori attenzioni e nel caso di immagini mediche è necessaria anche una validazione clinica dei risultati ottenuti sulle correlazioni catturate tra i landmark. A livello algoritmico, data la maggiore dimensionalità dei dati, abbiamo potuto constatare tempi di elaborazione molto più elevati rispetto ai dataset 2D, proporzionalmente con il numero di variabili non nulle richieste su ogni componente principale. Su questo dataset abbiamo provato la SPCA calcolando componenti principali con percentuali del 5%, 10%, 15%, e 20%. Inoltre, non abbiamo effettuato il test con il termine λ2 uguale a 0.1 in quanto il valore è troppo basso in relazione alla differenza tra le osservazioni, appena 21, e la dimensionalità. Si nota infatti, confrontando le figure 6.16(a) e 6.16(b) che, a differenza dei casi 2D, è presente una forte variazione tra le componenti calcolate, segno che anche 1.0 è un valore troppo basso per ottenere risultati stabili. Per concludere abbiamo provato ad effettuare un interessante esperimento di confronto tra i risultati della SPCA con la PCA ordinaria. Analizzando i risultati ottenuti con le varie percentuali di variabili selezionate sulle prime 12 componenti principali, abbiamo eseguito un test, sul dataset delle espressioni facciali che ci permette più facilmente di analizzarne gli effetti. Utilizzando un valore intermedio λ2 = 1.0 abbiamo applicato una diversa percentuale di sparsità su ogni componente principale, allo scopo di ottenere 12 componenti principali con una varianza vicina a quella delle prime 12 componenti principali ordinarie. Questo tipo di analisi ci permette di constatare quanto la sparsità può migliorare l’interpretabilità dei modelli tenendo 77 6. E SPERIMENTI E RISULTATI 6.5. D ECOMPOSIZIONE SPARSA DEI MODI DI VARIAZIONE sotto controllo la perdita di informazione. Ricordiamo (tabella 6.3) che le prime 12 componenti principali ordinarie catturano complessivamente l’83% della variabilità globale. In tabella 6.5 sono elencate le percentuali di varianza spiegata dalle componenti principali sparse calcolate dove è indicata anche la percentuale di variabili selezionate su ognuna delle componenti. È interessante notare che per catturare quasi l’82% della variabilità con le componenti principali sparse basta trattenere il 40% delle variabili sulle prime due ed il 30% sulle altre, generando una localizzazione spaziale della variabilità della forma. Dalla figura 6.17, infatti, possiamo catturare due importanti informazioni: • la prima componente principale cattura con il 40% delle variabili quasi tutta la variabilità dovuta alla rotazione della testa, come nel caso della PCA; • nelle altre componenti principali, la correlazione statistica catturata si traduce in correlazione spaziale, fornendo delle componenti principali associabili intuitivamente a determinate espressioni o variazioni morfologiche. Si noti ad esempio l’11a componente principale dove la variabilità evidenzia la presenza di movimenti della bocca dovuti a espressioni “sorridenti“. 78 6. E SPERIMENTI E RISULTATI 6.5. D ECOMPOSIZIONE SPARSA DEI MODI DI VARIAZIONE (a) Risultati ottenuti con λ2 = 0.01 (b) Risultati ottenuti con λ2 = 1.0 (c) Risultati ottenuti con λ2 = 1000.0 Figura 6.14: Visualizzazione dei modi di variazione sparsi del dataset di mani. Ogni blocco si riferisce ad un valore del parametro λ2 . I 9 modi di variazione visualizzati per i tre valori di λ2 si riferiscono alla prima componente principale calcolata con diverse percentuali di variabili non nulle, dal 10% al 90% con passo 10%. 79 6. E SPERIMENTI E RISULTATI 6.5. D ECOMPOSIZIONE SPARSA DEI MODI DI VARIAZIONE (a) Risultati ottenuti con λ2 = 0.01 (b) Risultati ottenuti con λ2 = 1.0 (c) Risultati ottenuti con λ2 = 1000.0 Figura 6.15: Visualizzazione dei modi di variazione sparsi delle espressioni facciali. Ogni blocco si riferisce ad un valore del parametro λ2 . I 9 modi di variazione visualizzati per i tre valori di λ2 si riferiscono alla prima componente principale calcolata con diverse percentuali di variabili non nulle, dal 10% al 90% con passo 10%. 80 6. E SPERIMENTI E RISULTATI 6.5. D ECOMPOSIZIONE SPARSA DEI MODI DI VARIAZIONE (a) Risultati ottenuti con λ2 = 1.0 (b) Risultati ottenuti con λ2 = 1000.0 Figura 6.16: Visualizzazione dei modi di variazione sparsi degli ippocampi. Ogni blocco si riferisce ad un valore del parametro λ2 . I 4 modi di variazione visualizzati per i due valori di λ2 si riferiscono alla prima componente principale calcolata con diverse percentuali di variabili non nulle, dal 5% al 20% con passo 5%. 81 6. E SPERIMENTI E RISULTATI PC PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 6.5. D ECOMPOSIZIONE SPARSA DEI MODI DI VARIAZIONE % Varianza 26.71% 11.77% 9.62% 7.14% 6.15% 4.85% 3.90% 2.69% 2.52% 2.33% 2.06% 2.04% % Var. Cumulata 26.71% 38.48% 48.10% 55.24% 61.39% 66.23% 70.13% 72.82% 75.34% 77.67% 79.73% 81.77% # Loadings 6= 0 46 (40%) 46 (40%) 46 (40%) 34 (30%) 34 (30%) 34 (30%) 34 (30%) 34 (30%) 34 (30%) 34 (30%) 34 (30%) 34 (30%) Tabella 6.5: Varianza spiegata dalle prime 12 componenti principali sparse calcolate sul dataset di espressioni facciali con parametro λ = 1.0. Il numero di variabili su ogni componente principale sparse è stato scelto in modo da catturare una percentuale di varianza vicina a quella ottenuta con la PCA ordinaria. Figura 6.17: Visualizzazione grafica dei modi di variazione associati alle prime 12 componenti principali sparse calcolate sul dataset di espressioni facciali. Ogni componente principale ha un diverso grado di sparsità in modo da poter catturare una varianza vicina a quella della corrispondente componente principale ordinaria (vedi tabella 6.5) 82 CAPITOLO 7 C ONCLUSIONI Le tecniche di shape analysis si sono affermate negli anni come uno strumento molto efficace per risolvere numerosi problemi di Computer Vision e Pattern Recognition. In tale ambito, negli ultimi anni, vivo interesse sia scientifico che tecnologico è stato rivolto all’applicazione della shape analysis negli ambiti biometrico (ad esempio il riconoscimento di volti ed espressioni facciali) e biomedicale (ovvero la stima di parametri funzionali a partire da segmentazioni di tessuti di interesse in immagini radiologiche). In particolare, durante il lavoro di Tesi ci siamo concentrati sui recenti lavori di ricerca riguardanti l’uso di tecniche statistiche robuste per l’analisi e la classificazione di forme 2D e 3D in questi due ambiti. Uno dei principali contributi del presente lavoro è stato lo studio sia teorico che sperimentale del legame esistente tra vincoli statistici (quali la sparsità del modello rispetto alle variabili di controllo) e proprietà morfologiche delle shape analizzate. In dettaglio, il primo problema di cui ci siamo occupati è stato la scelta dello schema di rappresentazione ottimale per le forme in esame. Al fine di effettuare questa scelta è fondamentale mediare opportunamente tra semplicità ed efficienza delle strutture dati utilizzate, da un lato, ed efficacia della successiva classificazione/regressione statistica, dall’altro. Come argomentato diffusamente all’interno del capitolo 3, alla luce della tipologia di dati da utilizzare e dei successivi modelli statistici usati, si è optato per una rappresentazione basata su landmark. Tuttavia, se nell’ambito di forme 2D l’individuazione di opportuni landmark non presenta criticità di rilievo, nel caso di forme 3D l’approccio utilizzato risulta estremamente più delicato. Infatti, persino il posizionamento manuale di un numero sufficiente di questi punti su una superficie tridimensionale, ottenuta ad esempio attraverso un processo di segmentazione, non è affatto banale. Le difficoltà nel visualizzare e confrontare visivamente forme 3D rende il task particolarmente difficile e soggetto ad errore. A questa difficoltà si aggiunge anche la necessità di applicare, sull’intero dataset, landmark corrispondenti su corrispondenti punti delle superfici per ottenere un valido modello di variabilità. In letteratura, queste difficoltà rientrano sotto il nome di “problema della corrispondenza”. Nell’obiettivo di proporre una soluzione efficace in un contesto reale, come l’analisi della morfologia di superfici ippocampali ottenute attraverso la pipeline di segmentazione MAGIC-V, nei capitoli precedenti è stato descritto un approccio basato su algoritmi di generazione di mesh dense di superficie (marching cubes) e di successiva decimazione (per ridurne la dimensionalità), associato ad operazioni di deformazione non rigida delle mesh stesse. Una volta ottenuto un dataset di forme 2D o 3D descritte da landmark, gli approcci classici 83 7. C ONCLUSIONI di shape analysis prevedono, dopo una fase preliminare di allineamento delle forme attraverso l’analisi di Procrustes, l’applicazione di tecniche di decomposizione come la Principal Component Analysis. L’obiettivo che questo tipo di approccio statistico si prepone è di separare sulle differenti componenti principali la variabilità intrinseca nel dataset di forme. Data la natura stessa della PCA, però, i modelli generati rendono difficile l’interpretazione dei risultati. Questo problema deriva direttamente dal fatto che la PCA, di fatto, costruisce un modello di rappresentazione delle forme attraverso meta-variabili (meta-coordinate dei landmark) che sono combinazione lineare di tutte le variabili originali. L’analisi visiva mostra infatti come le singole componenti principali riescano a catturare la variabilità solo in modo globale non fornendone nessuna localizzazione spaziale. Proprio da questo tipo di problematiche nasce lo spunto per lo studio di tecniche di decomposizione alternative. In letteratura, le soluzioni proposte sono spesso poco generali e costruite ah hoc sullo specifico problema. Questo, ci ha portato ad esplorare le possibili metodologie capaci di fornire risultati interpretabili in modo generale. In questa fase di esplorazione, la nostra attenzione si è rivolta alla Sparse Principal Component Analysis (SPCA), una tecnica recente i cui effetti prodotti all’analisi della forma in applicazioni reali non sono stati ancora completamente esplorati sperimentalmente. A differenza delle altre tecniche di decomposizione sparsa delle componenti principali, però, la SPCA è costruita su un framework generale di regressione lineare sparsa che utilizza termini di regolarizzazione di tipo `1 ed `2 . Per questa sua caratteristica, uno studio teorico più approfondito del framework e dei suoi effetti sull’analisi della forma può costituire un ottimo passo verso la definizione di modelli di variabilità sempre più precisi e migliorando i tempi computazionali di generazione. Questo è possibile principalmente attingendo dal vasto insieme delle tecniche di regressione lineare sparsa che, per i notevoli interessi in diversi campi applicativi, è attualmente in crescente espansione. Dall’analisi sperimentale delle componenti principali (PC) sparse generate, infatti, emergono principalmente le seguenti caratteristiche: • i vettori delle PC sparse ottenute, pur essendo una combinazione lineare di un sottoinsieme delle variabili originali, permettono di catturare una varianza vicina a quella della componente principale ordinaria; • in merito al punto precedente, la percentuale delle variabili da utilizzare dipende dalla correlazione statistica tra le stesse; • si è osservato che la correlazione statistica tra le variabili di controllo iniziali si traduce in variabilità spazialmente localizzata nelle variabili ottenute tramite PCA, aumentando l’interpretabilità del modello; come messo in evidenza nel capitolo 6, tale effetto si osserva con maggiore frequenza sulle componenti principali maggiormente sparse. Questi risultati pongono la SPCA tra gli strumenti in grado di sostituire la PCA negli approcci classici di analisi della forma sia per applicazioni di classificazione e riconoscimento, sia nella definizione di modelli di regressione in campo medico, in associazione con dati clinici. Le problematiche attuali sono legate principalmente agli aspetti computazionali. Infatti, per quanto gli algoritmi di regressione lineare utilizzati nell’algoritmo della SPCA esposto siano efficienti anche su dati ad alta dimensionalità, i tempi di convergenza per il calcolo delle PC crescono in relazione a tre fattori: l’aumentare del numero di landmark che descrivono la forma, l’aumentare del numero di componenti principali da calcolare e l’aumentare della percentuale di variabili non nulle richieste su ognuna delle PC. In conclusione, il contributo allo stato dell’arte sulla shape analysis è stato principalmente orientato a fornire un’analisi teorica e sperimentale degli effetti della sparsità. In particolare cercando di colmare quella che abbiamo sentito come una mancanza nella letteratura attuale, 84 7. C ONCLUSIONI ovvero sperimentazioni sulla relazione tra gli aspetti statistici e gli aspetti di localizzazione spaziale e di rappresentazione delle forme. Gli sviluppi futuri di questa Tesi sono proprio legati ad un’evoluzione teorica e computazionale della SPCA. Essendo l’algoritmo definito attraverso algoritmi di regressione lineare regolarizzati, la vasta letteratura disponibile nel campo dell’apprendimento statistico supervisionato, dove il problema della sparsità è sempre stato sentito in particolari applicazioni (come nella biologia computazionale), può fornire nuovi strumenti in grado di migliorare sia gli aspetti computazionali che di accuratezza dei modelli. Quest’ultimo punto, come ovvio, richiede anche degli sforzi nella messa a punto ed evoluzione di precise metodologie di validazione che vadano oltre gli aspetti visivi e di interpretabilità che restano, comunque, molto importanti per permettere l’applicazione di queste tecniche in molti contesti reali. 85 BIBLIOGRAFIA Aiello M., Esposito M., Isgrò F., Santoro M., Calvini P., Chincarini A., Gemme G., Squarcia S. e Tangaro S. (2009). “A novel approach to the generation of hyppocampal templates for the automatic analysis of the hyppocampal region”. In Proceedings of the II Eccomass Conference on Computational Visiona and Medical Image Processing, Porto (Portugal). [citato alle pagine 2, 23 e 67] Alcantara D., Carmichaela O., Delson E., Harcourt-Smith W., Sterner K., Frost S., Dutton R., Thompson P., Aizenstein H., Lopez O., Becker J. e Amenta N. (2007). “Localized Components Analysis”. In Information Processing in Medical Imaging ’07, pagine 519–531. Springer. [citato a pagina 4] Alcantara D., Carmichael O., Harcourt Smith W., Sterner K., Frost S., Dutton R., Thompson P., Delson E. e Amenta N. (2009). “Exploration of Shape Variation Using Localized Components Analysis”. PAMI, 31(8):1510–1516. [citato alle pagine 4 e 18] Bishop C. M. (2006). Pattern Recognition and Machine Learning (Information Science and Statistics). Springer. ISBN 0387310738. [citato a pagina 33] Blum H. (1967). “A Transformation for Extracting New Descriptors of Shape”. Models for the Perception of Speech and Visual Form, pagine 362–380. [citato a pagina 18] Bookstein F. L. (1996). “Landmark Methods for Forms Without Landmarks: Localizing Group Differences in Outline Shape”. In MMBIA ’96: Proceedings of the 1996 Workshop on Mathematical Methods in Biomedical Image Analysis (MMBIA ’96), pagina 279. IEEE Computer Society. [citato alle pagine 2, 3 e 18] Bookstein F. (1978). The Measurement of Biological Shape and Shape Change. Springer. [citato alle pagine 3 e 18] Bookstein F. (1984). “A Statistical Method for Biological Shape Comparisons”. Theoretical Biology, 107:475–520. [citato a pagina 3] Brechbühler C., Gerig G. e Kübler O. (1995). “Parametrization of closed surfaces for 3-D shape description”. Computer Vision and Image Understanding, 61(2):154–170. [citato alle pagine 2 e 19] Calvini P., Chincarini A., Donadio S., Gemme G., Squarcia S., Nobili F., Rodriguez G., Bellotti R., Catanzariti E., Cerello P., Mitri I. D. e Fantacci M. E. (2008). “Automatic localization of the hippocampal region in MR images to asses early diagnosis of Alzheimer’s disease 86 BIBLIOGRAFIA in MCI patients”. Nuclear Science Symposium Conference Record, 2008. NSS ’08. IEEE, pagine 4348–4354. [citato alle pagine 2, 23 e 67] Chennubhotla C. e Jepson A. (2001). “Sparse PCA. Extracting multi-scale structure from data”. In Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on, volume 1, pagine 641–647 vol.1. [citato alle pagine 4 e 35] Cootes T. F. e Taylor C. J. (2004). “Statistical models of appearance for computer vision”. Technical report, University of Manchester. [citato alle pagine 3 e 15] Cootes T., Taylor C., Cooper D. H. e Graham J. (1992). “Training Models of Shape from Sets of Examples”. In In Proc. British Machine Vision Conference, pagine 9–18. Springer-Verlag. [citato alle pagine 2, 3, 14 e 16] Cootes T., Taylor C., Cooper D. H. e Graham J. (1995). “Active Shape Models-Their Training and Application”. Computer Vision and Image Understanding, 61(1):38–59. [citato alle pagine 3, 14 e 15] Cootes T. F., Edwards G. J. e Taylor C. J. (2001). “Active Appearance Models”. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(6):681–685. [citato alle pagine 3 e 18] Davies R. H., Twining C. J., Allen P. D., Cootes T. F. e Taylor C. J. (2003). “Shape Discrimination in the Hippocampus Using an MDL Model”. In Information Processing in Medical Imaging, 18th International Conference, IPMI 2003, Ambleside, UK, July 20-25, 2003, Proceedings, volume 2732 of Lecture Notes in Computer Science, pagine 38–50. Springer. [citato a pagina 2] Dryden I. L. e Mardia K. V. (1998). Statistical Shape Analysis. John Wiley & Sons. [citato alle pagine 1, 3, 4, 7, 8, 13 e 14] Efron B., Hastie T., Johnstone L. e Tibshirani R. (2004). “Least angle regression”. Annals of Statistics, 32:407–499. [citato alle pagine 5, 46, 54 e 58] Frangi A. F., Rueckert D., Schnabel J. A. e Niessen W. J. (2001). “Automatic 3D ASM Construction via Atlas-Based Landmarking and Volumetric Elastic Registration”. In Information Processing in Medical Imaging, 17th International Conference, IPMI 2001, Davis, CA, USA, June 18-22, 2001, Proceedings, volume 2082 of Lecture Notes in Computer Science, pagine 78–91. Springer. [citato alle pagine 3 e 25] Golland P., Grimson W., Shenton M. e Kikinis R. (2005). “Detection and analysis of statistical differences in anatomical shape”. Medical Image Analysis, pagine 69–86. [citato alle pagine 2 e 19] Golub G. H. e Van Loan C. F. (1996). Matrix Computations. The Johns Hopkins University Press. ISBN 0801854148. [citato alle pagine 31, 39, 52 e 55] Goodall C. (1991). “Procrustes Methods in the Statistical Analysis of Shape”. Journal of the Royal Statistical Society. Series B (Methodological), 53(2):285–339. [citato alle pagine 3, 4, 8 e 12] Hastie T., Tibshirani R. e Friedman J. (2009). The Elements of Statistical Learning, Second Edition: Data Mining, Inference, and Prediction (Springer Series in Statistics). Springer New York, 2 edition. ISBN 0387848576. [citato alle pagine 14 e 36] Heitz G., Rohlfing T. e Jr. C. R. M. (2004). “Automatic Generation of Shape Models Using Nonrigid Registration with a Single Segmented Template Mesh”. In Proceedings of the Vision, Modeling, and Visualization Conference 2004 (VMV 2004), Stanford, California, USA, November 16-18, 2004, pagine 73–80. Aka GmbH. [citato alle pagine 3 e 25] 87 BIBLIOGRAFIA Hoerl A. E. e Kennard R. W. (1970). “Ridge Regression: Biased Estimation for Nonorthogonal Problems”. Technometrics, 12:55–67. [citato alle pagine 5 e 46] Jens S. B., Jens T., Pruessner C., Collins C. D. L. e D K. S. (2005). “Hippocampal Shape Analysis Using Medial Surfaces”. NeuroImage, 25:1077–1089. [citato a pagina 19] Johnstone I. e Lu A. (2003). “Sparse Principal Components Analysis”. In IMS Mini-Meeting on Functional Data Analysis. [citato a pagina 4] Jolliffe I. T. (2002). Principal Component Analysis. Springer, second edition. ISBN 0387954422. [citato alle pagine 3, 27 e 35] Jolliffe I. T. (1995). “Rotation of principal components: choice of normalization constraints”. Journal of Applied Statistics, 22:29–135. [citato a pagina 4] Jolliffe I. T. e Cadima J. (1995). “Loadings and correlations in the interpretation of principal components”. Journal of Applied Statistics, 22:203–214. [citato a pagina 4] Kaus M., Pekar V., Lorenz C., Truyen R., Lobregt S. e Weese J. (2003). “Automated 3-D PDM construction from segmented images using deformable models”. IEEE Transactions on Medical Imaging, 22(8):1005–1013. [citato a pagina 25] Kendall D. G. (1977). “The Diffusion of Shape”. Advances in Applied Probability, 9(3):428–430. [citato alle pagine 3 e 18] Kendall D. (1989). “A Survey of the Statistical Theory of Shape”. Statistical Science, 4(2):87–120. [citato a pagina 3] Lorensen W. E. e Cline H. E. (1987). “Marching cubes: A high resolution 3D surface construction algorithm”. SIGGRAPH ’87: Proceedings of the 14th annual conference on Computer graphics and interactive techniques, 21(4):163–169. [citato a pagina 20] Machado A., , Machado A. M. C. e Gee J. C. (1998). “Atlas Warping for Brain Morphometry”. In In SPIE Medical Imaging, Image Processing, pagine 642–651. [citato a pagina 2] Press W., Teukolsky S., Vetterling W. e Flannery B. (1992). Numerical Recipes in C. Cambridge University Press, Cambridge, UK, 2nd edition. [citato a pagina 31] Rueckert D., Frangi A. e Schnabel J. (2003). “Automatic construction of 3-D statistical deformation models of the brain using non-rigid registration”. Medical Imaging, IEEE Transactions on, 22(8):1014–1025. [citato alle pagine 2 e 19] Schroeder W. J., Zarge J. A. e Lorensen W. E. (1992). “Decimation of triangle meshes”. In SIGGRAPH ’92: Proceedings of the 19th annual conference on Computer graphics and interactive techniques, pagine 65–70. ACM. [citato a pagina 20] Sjöstrand K., Stegmann M. B. e Larsen R. (2006). “Sparse Principal Component Analysis in Medical Shape Modeling”. In International Symposium on Medical Imaging 2006, San Diego, CA, USA, volume 6144. The International Society for Optical Engineering (SPIE). [citato alle pagine 5 e 40] Sjöstrand K., Rostrup E., Ryberg C., Larsen R., Studholme C., Baezner H., Ferro J., Fazekas F., Pantoni L., Inzitari D. e Waldemar G. (2007). “Sparse Decomposition and Modeling of Anatomical Shape Variation”. IEEE Transactions on Medical Imaging, 26(12):1625–1635. [citato alle pagine 5 e 18] 88 BIBLIOGRAFIA Stegmann M. B. e Gomez D. D. (2002). “A Brief Introduction to Statistical Shape Analysis”. Technical report. [citato alle pagine 2 e 64] Stegmann M. B., Ersbøll B. K. e Larsen R. (2003). “FAME – A Flexible Appearance Modelling Environment”. IEEE Trans. on Medical Imaging, 22(10):1319–1331. [citato alle pagine 2 e 66] Styner M. e Gerig G. (2001). “Medial Models Incorporating Object Variability for 3D Shape Analysis”. In Information Processing in Medical Imaging, 17th International Conference, IPMI 2001, Davis, CA, USA, June 18-22, 2001, Proceedings, volume 2082 of Lecture Notes in Computer Science, pagine 502–516. Springer. [citato a pagina 2] Tibshirani R. (1996). “Regression shrinkage and selection via the Lasso”. Journal of the Royal Statistical Society, 58(1):267–288. [citato alle pagine 5, 46, 53, 54 e 60] Xie J., Alcantara D., Amenta N., Fletcher E., Martinez O., Persianinova M., De Carli C. e Carmichael O. (2008). “Spatially-Localized Hippocampal Shape Analysis in Late-Life Cognitive Decline”. In MICCAI 2008 Workshop on Computational Anatomy and Physiology of the Hippocampus (CAPH’08), pagine 2–12. [citato a pagina 4] Zou H. e Hastie T. (2005). “Regularization and variable selection via the Elastic Net”. Journal of the Royal Statistical Society, 67:301–320. [citato alle pagine 5, 46, 56, 58 e 60] Zou H., Hastie T. e Tibshirani R. (2004). “Sparse principal component analysis”. Journal of Computational and Graphical Statistics, 15:2006. [citato alle pagine 5, 35, 36, 37, 38, 39 e 40] 89