Metodi per la riduzione della dimensionalità Strumenti quantitativi

Transcript

Metodi per la riduzione della dimensionalità Strumenti quantitativi
5/12/2015
Metodi per la riduzione della dimensionalità
Metodi per la riduzione della
dimensionalità
Strumenti quantitativi per la gestione
Emanuele Taufer
Introduzione
Combinazioni lineari
Regressione lineare sulle variabili trasformate
Dettaglio teorico
Metodi
Analisi delle componenti principali (PCA)
Criterio di riduzione
Coefficienti
Esempio: Advertising
Punteggi della prima CP
Seconda CP
Standardizzazione delle variabili nella PCA
Percentuale di varianza spiegata
Scree plot
Regressione con le CP (PCR)
Esempio: dati simulati
Confronti
PCR ­ Ridge ­ LASSO
Esempio: PCR sui dati Credit
Minimi quadrati parziali (PLS)
Prima combinazione lineare PLS
Confronto PLS e PCA
PLS successive
Riferimenti bibliografici
Introduzione
Gli approcci di selezione visti finora cercano di ridurre la variabilità di f^ riducendo il numero di
predittori usati:
selezionandone un sottoinsieme (best subset)
riducendo alcuni coefficienti a zero, o prossimi allo zero (LASSO e ridge)
Un terzo approccio ricorre all’uso di nuove variabili definite attraverso opportune trasformazioni
dei predittori
L’obiettivo è quello di ottenere un numero di variabili trasformate inferiore al numero di
predittori p che siano comunque altamente informative nella previsione di Y
In questo caso parliamo di tecniche di riduzione della dimensionalità
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
1/10
5/12/2015
Metodi per la riduzione della dimensionalità
Combinazioni lineari
Siano dati i predittori X1 , … , Xp
Siano Z1 , … ZM , M
< p
, delle nuove variabili (combinazioni lineari dei predittori)
p
Zm = ∑ ϕjm Xj
m = 1, … , M
j=1
ϕ1m , ϕ2m , … ϕpm
delle costanti (da determinare)
Regressione lineare sulle variabili trasformate
L’idea è quella di stimare f (semplicemente con OLS) con un modello di regressione lineare
M
yi = θ0 + ∑ θm zm + εi ,
i = 1, … , n
m=1
In questo caso i parametri da stimare sono M
+ 1
: θ0 , θ1 , … θM
Il problema si semplifica notevolmente se M << p : anziché stimare p + 1 coefficienti β 0 , β 1 , … , β p si stimano solo gli M + 1 coefficienti θ0 , θ1 , … θM .
La tecnica risulta molto efficace se le combinazioni lineari Z1 , … ZM , M
adeguatamente l’informazione contenuta nei predittori originali.
< p
preservano
Dettaglio teorico
Si noti che possiamo riscrivere
M
p
M
∑ θm zm = ∑ θm ∑ ϕjm x j
m=1
m=1
p
j=1
M
= ∑ ∑ θm ϕjm x j
j=1 m=1
p
= ∑ βj xj
j=1
dove β j
= ∑
M
m=1
θm ϕjm
In termini pratici si adatta un modello di regressione con dei vincoli sui coefficienti β , che
devono soddisfare le relazioni β j
= ∑
M
m=1
θm ϕjm
, j
= 1, 2, … , p
.
L’introduzione di vincoli, come abbiamo già visto, riduce la flessibilità del modello e pertanto ci
si deve aspettare un incremento del bias a fronte di una riduzione della varianza
Ancora una volta la tecnica cerca di agire sul trade­off bias­varianza per ottenere una stima
ottimale di f
Metodi
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
2/10
5/12/2015
Metodi per la riduzione della dimensionalità
I metodi di riduzione della dimensionalità hanno pertanto due fasi:
costruzione di un numero ridotto di variabili Z1 , Z2 , … , ZM , M < p
utilizzo di Z1 , Z2 , … , ZM per la stima di un modello di regressione lineare
Se M = p il modello costruito sulle variabili Z è equivalente a quello costruito usando i
predittori X.
Due tecniche di base per la riduzione della dimensionalità sono
Le componenti principali (CP)
I minimi quadrati parziali (PLS)
Analisi delle componenti principali (PCA)
La PCA è una tecnica di riduzione della dimensionalità di un insieme di dati rappresentati da una
matrice X di dimensioni n × p
Ha applicazioni in diversi contesti: dall’analisi esplorativa dei dati alla compressione di grossi file di
dati (es. immagini) e riconscimento facciale.
In questa sede discuteremo di alcune caratteristiche che ci servono per la sua applicazione nel
contesto dell’analisi di regressione.
Nel caso di una matrice di dati n × p possiamo pensare a n punti in uno spazio p ­dimensionale. Se p è elevato l’obiettivo è quello di ridurre la rappresentazione dei punti ad uno spazio di dimensioni più
ridotte ma che mantenga nel miglior modo possibile la struttura dei punti originari.
Le nuove dimensioni sono individuate dalla componenti principali: se lo spazio ridotto è
bidimensionale vi saranno due componenti principali, se a tre dimensioni, tre componenti e così via.
Criterio di riduzione
Nella tecnica della PCA il miglior modo possibile consiste nella determinazione della combinazione
lineare delle variabili originarie che massimizza una misura di variabilità.
In altre parole la tecnica della PCA cerca una prima combinazione lineare con varianza massima
possibile, dati alcuni vincoli. Successivamente cerca una seconda combinazione lineare che
massimizzi la variabilità dati i vincoli e la prima componente e così via.
In termini più formali, la prima componente principale per le variabili X1 , X2 , … , Xp è la
combinazione lineare normalizzata
Z1 = ϕ11 X1 + ⋯ + ϕp1 Xp
p
che ha variabilità massima. La normalizzazione è riferita al vincolo ∑j=1 ϕ2j1
= 1
Coefficienti
Le costanti ϕ11 , … ϕp1 sono i pesi (loadings) della prima componente principale
La soluzione è determinabile attraverso la decomposizione della matrice di varianza­covarianza di X
in autovalori e autovettori.
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
3/10
5/12/2015
Metodi per la riduzione della dimensionalità
Per ogni singola riga della matrice X (n unità di osservazione) è possibile calcolare il corrispondente
punteggio (score) fattoriale e utilizzarlo, ad esempio, in una rappresentazione (approssimata)
unidimensionale della matrice X .
zi1 = ϕ11 x i1 + ϕ21 x i2 + ⋯ + ϕp1 x ip
Esempio: Advertising
Spesa in pubblicità e popolazione per n
= 100
X1
= Popolazione in decine di migliaia
X2
= Spesa in pubblicità in migliaia di $
città in USA
Z1 = 0.839X1 + 0.544X2
Tipicamente le variabili sono standardizzate prima di calcolare le CP
Punteggi della prima CP
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
4/10
5/12/2015
Metodi per la riduzione della dimensionalità
Seconda CP
La seconda componente principale è la combinazione lineare normalizzata che ha varianza massima
ed è incorrelata con la prima componente principale.
Formalmente:
Z2 = ϕ12 X1 + ⋯ + ϕp2 Xp
p
tale che ∑j=1 ϕ2j2
= 1
e C or(Z1 , Z2 )
= 0
I punteggi fattoriali della seconda CP possono essere utilizzati assieme ai punteggi fattoriali della
prima CP, ad esempio, in una rappresentazione (approssimata) bidimensionale della matrice X di
dimensione n × p.
zi2 = ϕ12 x i1 + ϕ22 x i2 + ⋯ + ϕp2 x ip
Standardizzazione delle variabili nella PCA
Le CP possono essere interpretate in diversi modi.
Ad esempio, la prima CP identifica la direzione in cui i dati hanno variabilità maggiore.
Se la distanza tra punti è misurata con la distanza Euclidea, la prima componente può anche essere
interpretata come la retta più vicina alle n osservazioni nello spazio p ­dimensionale.
Se alcune variabili X hanno, per l’unità di misura usata, variabilità molto maggiore rispetto ad altre
tendono a dominare la costruzione delle CP.
Per evitare quest’effetto dovuto semplicemente alla scala con cui sono misurate e variabili, è
opportuno procedere ad una standardizzazione di tutte le variabili prima di effettuare una PCA
Percentuale di varianza spiegata
Poichèle CP sono calcolate massimizzando la varianza, una misura della bontà dell’approssimazione
dello spazio p ­dimensionale originario è data dalla percentuale di variabilità totale presente nella
matrice X spiegata dalle prime M componenti principali.
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
5/10
5/12/2015
Metodi per la riduzione della dimensionalità
La variabilità totale nella matrice X (standardizzata) è data da
p
p
1
∑ V ar(Xj ) = ∑
j=1
e la varianza spiegata dalla CP m, m
1
j=1
= 1, 2, … , M
n
∑z
n
2
im
=
n
i=1
∑x
n
2
ij
i=1
è
2
p
n
1
n
∑ (∑ ϕjm x ij )
i=1
j=1
quindi la percentuale di varianza spiegata (PVE) dalla m­esima CP è
∑
n
i=1
(∑
∑
p
j=1
2
p
j=1
∑
ϕjm x ij )
n
i=1
x
2
ij
Per la varianza spiegata dalle prime M CP basta sommare le corrispondenti PVE. In totale ci sono min(n − 1, p) CP e la somma della loro PVE è pari a 1.
Scree plot
Sinistra: scree plot (PVE delle singole CP)
Destra: PVE cumulata
Regressione con le CP (PCR)
L’approccio alla regressione con le CP consiste nel costruire M CP dai p predittori e utilizzarle come
nuovi predittori in un modello di regressione lineare
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
6/10
5/12/2015
Metodi per la riduzione della dimensionalità
Poichè le CP cercano di preservare al massimo la variabilità dei predittori, l’assunzione di base, non
necessariamente vera, è che questo preservi al massimo anche la relazione con Y
Se l’assunto di base della PCR tiene, l’uso di Z1 , … , ZM porta a risultati migliori rispetto all’uso di X1 , … , Xp , poiché la maggior parte o tutta l’informazione dei dati su Y è contenuta in Z1 , … , ZM e stimando solo M << p coefficienti si mitiga l’overfitting.
La PCR, utilizzando nuove variabili incorrelate tra loro è una tecnica appropriata anche in caso di
forte multicollinearità tra i predittori originali.
Esempio: dati simulati
Sinistra: dati simulati con p
Destra: dati simulati con p
= 45
= 45
, n
, n
= 50
= 50
­ tutti i predittori legati a Y
­ solo 2 predittori legati a Y
Confronti
La PCR non è una tecnica di selezione delle variabili poichè usa sempre tutti i predittori originali nella
costruzione delle combinazioni lineari
In questo senso è molto simile alla regressione ridge
E’ opportuno procedere ad una standardizzazione dei predittori prima di calcolare le CP
La tecnica funziona bene quando poche componenti riescono a riassumere una parte sostanziale
della variabilità totale nei p predittori
Il numero M di variabili da usare nella PCR è tipicamente scelto con cross­validazione
PCR ­ Ridge ­ LASSO
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
7/10
5/12/2015
Metodi per la riduzione della dimensionalità
Dati imulati in cui le prime 5 CP di X contengono tutta l’informazionesu Y .
Esempio: PCR sui dati Credit
Sinistra: stime dei coefficienti standardizzati sui dati di Credit per diversi valori di M .
Destra: MSE ottenuto da 10­fold cross­validazione utilizzando PCR, in funzione di M .
Minimi quadrati parziali (PLS)
Il metodo delle CP non considera la relazione esistente tra X1 , … , Xp e Y nella costruzione delle
variabili Z1 , … , ZM .
Il metodo dei minimi quadrati parziali cerca di considerare quest’aspetto.
Il metodo delle CP può essere visto come una tecnica di statistical learning unsupervised mentre il
metodo PLS è una tecnica supervised
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
8/10
5/12/2015
Metodi per la riduzione della dimensionalità
Prima combinazione lineare PLS
Dati p predittori standardizzati, il coefficiente ϕj1 è calcolato da una regressione semplice di Y su Xj , j = 1, … , p e la prima combinazione lineare:
Z1 = ϕ11 X1 + ⋯ + ϕp1 Xp
Riassumendo:
Nella PCA i coefficienti di Z1 sono calcolati massimizzando la varianza della combinazione
linere sotto vincolo di normalizzazione (somma dei quadrati pari a uno)
Nei PLS ogni coefficiente di Z1 è calcolato da regressioni lineari semplici di Y su ciascuno dei
predittori
Confronto PLS e PCA
Continuo: prima componente PLS
Tratteggiato: prima componente PCA
PLS successive
Per identificare la seconda direzione (componente) ciascun predittore viene prima depurato
dall’effetto di Z1 , regredendo ogni variabile su Z1 e calcolandone i residui.
Z2
è calcolato sui residui esattamente nello stesso modo in cui è stato calcolato Z1 sui dati originali
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
9/10
5/12/2015
Metodi per la riduzione della dimensionalità
Questo approccio iterativo può essere ripetuto M volte per identificare più componenti PLS Z1 , … , ZM
Infine, si usano le variabili PLS Z1 , … , ZM esattamente nello stesso modo come per la PCR
Il numero M di minimi quadrati parziali da utilizzare è determinato con cross­validazione
Spesso i PLS non producono risultati sensibilmente migliori rispetto alla regressione ridge o PCR.
Infatti, sebbene la riduzione della dimensionalità supervised dei PLS possa ridurre il bias, è anche
possibile che aumenti la varianza, cosìcché il beneficio complessivo dei PLS rispetto alla PCR è
minimo.
Riferimenti bibliografici
An Introduction to Statistical Learning, with applications in R. (Springer, 2013)
Alcune delle figure in questa presentazione sono tratte dal testo con il permesso degli autori: G.
James, D. Witten, T. Hastie e R. Tibshirani
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html
10/10