Metodi per la riduzione della dimensionalità Strumenti quantitativi
Transcript
Metodi per la riduzione della dimensionalità Strumenti quantitativi
5/12/2015 Metodi per la riduzione della dimensionalità Metodi per la riduzione della dimensionalità Strumenti quantitativi per la gestione Emanuele Taufer Introduzione Combinazioni lineari Regressione lineare sulle variabili trasformate Dettaglio teorico Metodi Analisi delle componenti principali (PCA) Criterio di riduzione Coefficienti Esempio: Advertising Punteggi della prima CP Seconda CP Standardizzazione delle variabili nella PCA Percentuale di varianza spiegata Scree plot Regressione con le CP (PCR) Esempio: dati simulati Confronti PCR Ridge LASSO Esempio: PCR sui dati Credit Minimi quadrati parziali (PLS) Prima combinazione lineare PLS Confronto PLS e PCA PLS successive Riferimenti bibliografici Introduzione Gli approcci di selezione visti finora cercano di ridurre la variabilità di f^ riducendo il numero di predittori usati: selezionandone un sottoinsieme (best subset) riducendo alcuni coefficienti a zero, o prossimi allo zero (LASSO e ridge) Un terzo approccio ricorre all’uso di nuove variabili definite attraverso opportune trasformazioni dei predittori L’obiettivo è quello di ottenere un numero di variabili trasformate inferiore al numero di predittori p che siano comunque altamente informative nella previsione di Y In questo caso parliamo di tecniche di riduzione della dimensionalità file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 1/10 5/12/2015 Metodi per la riduzione della dimensionalità Combinazioni lineari Siano dati i predittori X1 , … , Xp Siano Z1 , … ZM , M < p , delle nuove variabili (combinazioni lineari dei predittori) p Zm = ∑ ϕjm Xj m = 1, … , M j=1 ϕ1m , ϕ2m , … ϕpm delle costanti (da determinare) Regressione lineare sulle variabili trasformate L’idea è quella di stimare f (semplicemente con OLS) con un modello di regressione lineare M yi = θ0 + ∑ θm zm + εi , i = 1, … , n m=1 In questo caso i parametri da stimare sono M + 1 : θ0 , θ1 , … θM Il problema si semplifica notevolmente se M << p : anziché stimare p + 1 coefficienti β 0 , β 1 , … , β p si stimano solo gli M + 1 coefficienti θ0 , θ1 , … θM . La tecnica risulta molto efficace se le combinazioni lineari Z1 , … ZM , M adeguatamente l’informazione contenuta nei predittori originali. < p preservano Dettaglio teorico Si noti che possiamo riscrivere M p M ∑ θm zm = ∑ θm ∑ ϕjm x j m=1 m=1 p j=1 M = ∑ ∑ θm ϕjm x j j=1 m=1 p = ∑ βj xj j=1 dove β j = ∑ M m=1 θm ϕjm In termini pratici si adatta un modello di regressione con dei vincoli sui coefficienti β , che devono soddisfare le relazioni β j = ∑ M m=1 θm ϕjm , j = 1, 2, … , p . L’introduzione di vincoli, come abbiamo già visto, riduce la flessibilità del modello e pertanto ci si deve aspettare un incremento del bias a fronte di una riduzione della varianza Ancora una volta la tecnica cerca di agire sul tradeoff biasvarianza per ottenere una stima ottimale di f Metodi file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 2/10 5/12/2015 Metodi per la riduzione della dimensionalità I metodi di riduzione della dimensionalità hanno pertanto due fasi: costruzione di un numero ridotto di variabili Z1 , Z2 , … , ZM , M < p utilizzo di Z1 , Z2 , … , ZM per la stima di un modello di regressione lineare Se M = p il modello costruito sulle variabili Z è equivalente a quello costruito usando i predittori X. Due tecniche di base per la riduzione della dimensionalità sono Le componenti principali (CP) I minimi quadrati parziali (PLS) Analisi delle componenti principali (PCA) La PCA è una tecnica di riduzione della dimensionalità di un insieme di dati rappresentati da una matrice X di dimensioni n × p Ha applicazioni in diversi contesti: dall’analisi esplorativa dei dati alla compressione di grossi file di dati (es. immagini) e riconscimento facciale. In questa sede discuteremo di alcune caratteristiche che ci servono per la sua applicazione nel contesto dell’analisi di regressione. Nel caso di una matrice di dati n × p possiamo pensare a n punti in uno spazio p dimensionale. Se p è elevato l’obiettivo è quello di ridurre la rappresentazione dei punti ad uno spazio di dimensioni più ridotte ma che mantenga nel miglior modo possibile la struttura dei punti originari. Le nuove dimensioni sono individuate dalla componenti principali: se lo spazio ridotto è bidimensionale vi saranno due componenti principali, se a tre dimensioni, tre componenti e così via. Criterio di riduzione Nella tecnica della PCA il miglior modo possibile consiste nella determinazione della combinazione lineare delle variabili originarie che massimizza una misura di variabilità. In altre parole la tecnica della PCA cerca una prima combinazione lineare con varianza massima possibile, dati alcuni vincoli. Successivamente cerca una seconda combinazione lineare che massimizzi la variabilità dati i vincoli e la prima componente e così via. In termini più formali, la prima componente principale per le variabili X1 , X2 , … , Xp è la combinazione lineare normalizzata Z1 = ϕ11 X1 + ⋯ + ϕp1 Xp p che ha variabilità massima. La normalizzazione è riferita al vincolo ∑j=1 ϕ2j1 = 1 Coefficienti Le costanti ϕ11 , … ϕp1 sono i pesi (loadings) della prima componente principale La soluzione è determinabile attraverso la decomposizione della matrice di varianzacovarianza di X in autovalori e autovettori. file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 3/10 5/12/2015 Metodi per la riduzione della dimensionalità Per ogni singola riga della matrice X (n unità di osservazione) è possibile calcolare il corrispondente punteggio (score) fattoriale e utilizzarlo, ad esempio, in una rappresentazione (approssimata) unidimensionale della matrice X . zi1 = ϕ11 x i1 + ϕ21 x i2 + ⋯ + ϕp1 x ip Esempio: Advertising Spesa in pubblicità e popolazione per n = 100 X1 = Popolazione in decine di migliaia X2 = Spesa in pubblicità in migliaia di $ città in USA Z1 = 0.839X1 + 0.544X2 Tipicamente le variabili sono standardizzate prima di calcolare le CP Punteggi della prima CP file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 4/10 5/12/2015 Metodi per la riduzione della dimensionalità Seconda CP La seconda componente principale è la combinazione lineare normalizzata che ha varianza massima ed è incorrelata con la prima componente principale. Formalmente: Z2 = ϕ12 X1 + ⋯ + ϕp2 Xp p tale che ∑j=1 ϕ2j2 = 1 e C or(Z1 , Z2 ) = 0 I punteggi fattoriali della seconda CP possono essere utilizzati assieme ai punteggi fattoriali della prima CP, ad esempio, in una rappresentazione (approssimata) bidimensionale della matrice X di dimensione n × p. zi2 = ϕ12 x i1 + ϕ22 x i2 + ⋯ + ϕp2 x ip Standardizzazione delle variabili nella PCA Le CP possono essere interpretate in diversi modi. Ad esempio, la prima CP identifica la direzione in cui i dati hanno variabilità maggiore. Se la distanza tra punti è misurata con la distanza Euclidea, la prima componente può anche essere interpretata come la retta più vicina alle n osservazioni nello spazio p dimensionale. Se alcune variabili X hanno, per l’unità di misura usata, variabilità molto maggiore rispetto ad altre tendono a dominare la costruzione delle CP. Per evitare quest’effetto dovuto semplicemente alla scala con cui sono misurate e variabili, è opportuno procedere ad una standardizzazione di tutte le variabili prima di effettuare una PCA Percentuale di varianza spiegata Poichèle CP sono calcolate massimizzando la varianza, una misura della bontà dell’approssimazione dello spazio p dimensionale originario è data dalla percentuale di variabilità totale presente nella matrice X spiegata dalle prime M componenti principali. file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 5/10 5/12/2015 Metodi per la riduzione della dimensionalità La variabilità totale nella matrice X (standardizzata) è data da p p 1 ∑ V ar(Xj ) = ∑ j=1 e la varianza spiegata dalla CP m, m 1 j=1 = 1, 2, … , M n ∑z n 2 im = n i=1 ∑x n 2 ij i=1 è 2 p n 1 n ∑ (∑ ϕjm x ij ) i=1 j=1 quindi la percentuale di varianza spiegata (PVE) dalla mesima CP è ∑ n i=1 (∑ ∑ p j=1 2 p j=1 ∑ ϕjm x ij ) n i=1 x 2 ij Per la varianza spiegata dalle prime M CP basta sommare le corrispondenti PVE. In totale ci sono min(n − 1, p) CP e la somma della loro PVE è pari a 1. Scree plot Sinistra: scree plot (PVE delle singole CP) Destra: PVE cumulata Regressione con le CP (PCR) L’approccio alla regressione con le CP consiste nel costruire M CP dai p predittori e utilizzarle come nuovi predittori in un modello di regressione lineare file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 6/10 5/12/2015 Metodi per la riduzione della dimensionalità Poichè le CP cercano di preservare al massimo la variabilità dei predittori, l’assunzione di base, non necessariamente vera, è che questo preservi al massimo anche la relazione con Y Se l’assunto di base della PCR tiene, l’uso di Z1 , … , ZM porta a risultati migliori rispetto all’uso di X1 , … , Xp , poiché la maggior parte o tutta l’informazione dei dati su Y è contenuta in Z1 , … , ZM e stimando solo M << p coefficienti si mitiga l’overfitting. La PCR, utilizzando nuove variabili incorrelate tra loro è una tecnica appropriata anche in caso di forte multicollinearità tra i predittori originali. Esempio: dati simulati Sinistra: dati simulati con p Destra: dati simulati con p = 45 = 45 , n , n = 50 = 50 tutti i predittori legati a Y solo 2 predittori legati a Y Confronti La PCR non è una tecnica di selezione delle variabili poichè usa sempre tutti i predittori originali nella costruzione delle combinazioni lineari In questo senso è molto simile alla regressione ridge E’ opportuno procedere ad una standardizzazione dei predittori prima di calcolare le CP La tecnica funziona bene quando poche componenti riescono a riassumere una parte sostanziale della variabilità totale nei p predittori Il numero M di variabili da usare nella PCR è tipicamente scelto con crossvalidazione PCR Ridge LASSO file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 7/10 5/12/2015 Metodi per la riduzione della dimensionalità Dati imulati in cui le prime 5 CP di X contengono tutta l’informazionesu Y . Esempio: PCR sui dati Credit Sinistra: stime dei coefficienti standardizzati sui dati di Credit per diversi valori di M . Destra: MSE ottenuto da 10fold crossvalidazione utilizzando PCR, in funzione di M . Minimi quadrati parziali (PLS) Il metodo delle CP non considera la relazione esistente tra X1 , … , Xp e Y nella costruzione delle variabili Z1 , … , ZM . Il metodo dei minimi quadrati parziali cerca di considerare quest’aspetto. Il metodo delle CP può essere visto come una tecnica di statistical learning unsupervised mentre il metodo PLS è una tecnica supervised file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 8/10 5/12/2015 Metodi per la riduzione della dimensionalità Prima combinazione lineare PLS Dati p predittori standardizzati, il coefficiente ϕj1 è calcolato da una regressione semplice di Y su Xj , j = 1, … , p e la prima combinazione lineare: Z1 = ϕ11 X1 + ⋯ + ϕp1 Xp Riassumendo: Nella PCA i coefficienti di Z1 sono calcolati massimizzando la varianza della combinazione linere sotto vincolo di normalizzazione (somma dei quadrati pari a uno) Nei PLS ogni coefficiente di Z1 è calcolato da regressioni lineari semplici di Y su ciascuno dei predittori Confronto PLS e PCA Continuo: prima componente PLS Tratteggiato: prima componente PCA PLS successive Per identificare la seconda direzione (componente) ciascun predittore viene prima depurato dall’effetto di Z1 , regredendo ogni variabile su Z1 e calcolandone i residui. Z2 è calcolato sui residui esattamente nello stesso modo in cui è stato calcolato Z1 sui dati originali file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 9/10 5/12/2015 Metodi per la riduzione della dimensionalità Questo approccio iterativo può essere ripetuto M volte per identificare più componenti PLS Z1 , … , ZM Infine, si usano le variabili PLS Z1 , … , ZM esattamente nello stesso modo come per la PCR Il numero M di minimi quadrati parziali da utilizzare è determinato con crossvalidazione Spesso i PLS non producono risultati sensibilmente migliori rispetto alla regressione ridge o PCR. Infatti, sebbene la riduzione della dimensionalità supervised dei PLS possa ridurre il bias, è anche possibile che aumenti la varianza, cosìcché il beneficio complessivo dei PLS rispetto alla PCR è minimo. Riferimenti bibliografici An Introduction to Statistical Learning, with applications in R. (Springer, 2013) Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html 10/10