PCA (Principal Component Analysis)

Transcript

PCA (Principal Component Analysis)
PCA
(Principal Component Analysis)
- tecnica di riduzione di dimensione
un campione casuale multivariato -
Nella PCA, l’idea è quella di trovare un nuovo sistema di riferimento
in modo da massimizzare la varianza delle variabili rappresentate
lungo gli assi.
La varianza totale delle variabili viene suddivisa in un numero di
variabili uguali a quello di partenza, ma il cui numero può essere
ridotto.
Se le variabili sono indipendenti, l’applicazione della PCA non è produttiva.
 1



0.85
1


 0.14 0.21 1



1
 0.23 0.19 0.90

 0.78 0.95 0.25 0.32 1 


 1



0.85
1


 0.78 0.95

1


0.23
0.19
0.32
1


 0.14 0.21 0.25 0.90 1 


Matrice di correlazione di 5 variabili
calcolate con 30 osservazioni.
Ispezionando la matrice, si individuano
facilmente due gruppi.
Per determinare queste nuove componenti, viene ispezionata proprio
la matrice di correlazione
Si tratta di determinare una trasformazione lineare delle variabili
di partenza.
La prima componente principale va caratterizzata come
o ancora
Y1 = a11 X 1 + a12 X 2 + ⋯ + a1 p X p
Y1 = a1 i X
La ricerca dei coefficienti
viene effettuata massimizzando la varianza
del vettore Y1 = a1 i X
Questo obbiettivo può essere raggiunto scegliendo pesi arbitrariamente larghi.
Pertanto viene imposta la condizione
2
2
2
1 = a11 + a12 + ⋯ + a1 p
Si ha
T Var(Y1 ) = a1 Σ X a1
dove Σ X è la matrice di covarianza di X .
Il secondo passo consiste nel determinare i coefficienti della trasformazione
Y2 = a21 X 1 + a22 X 2 + ⋯ + a2 p X p
tale che
Var(Y1 ) ≥ Var(Y2 )
La ricerca di questi coefficienti viene effettuata tenendo in considerazione due condizioni:
2
2
2
a ) a21 + a22 + ⋯ + a2 p = 1
b) Y1 e Y2 sono indipendenti.
Alla fine del procedimento verranno individuate p variabili
 Y1 = a11 X 1 + a12 X 2 + ⋯ + a1 p X p
Y = a X + a X +⋯ + a X
 2
21 1
22 2
2p
p

⋮

Yp = a p1 X 1 + a p 2 X 2 + ⋯ + a pp X p
ai ⇒ LOADINGS
tali che
a ) ai21 + ai22 + ⋯ + aip2 = 1 per i=1,2,… ,p
b) (Y1 , Y2 ,… , Yp ) sono variabili aleatorie indipendenti.
c) Var (Y1 ) ≥ Var (Y2 ) ≥ ⋯ ≥ Var (Yp )
d) Var (Y1 ) +Var (Y2 ) + ⋯ + Var (Yp ) =
Var ( X 1 ) +Var ( X 2 ) + ⋯ + Var ( X p )
Si dimostra che per determinare le componenti principali di un campione casuale multivariato, è necessario calcolare gli autovalori e gli autovettori della matrice di covarianza associata al campione.
∑ x = λ x ⇒ λ autovalore, x autovettore
In particolare, poichè gli autovalori di una matrice si possono
ordinare λ1 ≥ λ2 ≥ ⋯ ≥ λ p sceglieremo Y1 in modo che
Var (Y1 ) = λ1 ≥ Var (Y2 ) = λ2 ≥ ⋯ ≥ Var (Yp ) = λ p
I loadings sono gli autovettori associati agli autovalori, ossia
a1 è tale che Σ X a1=λ1a1 , etc.
Esempio: misure di crani di mammiferi oreodont; a. peso della scatola cranica; b. lunghezza dei molari; c. lunghezza della bolla; d. profondità della bolla.
PER ESEGUIRE LA PCA IN STATVIEW…
PC!
PC2
PC3
PC4
Autovalori
3.44
0.38
0.11
0.05
Percentuale
0.86
0.097
0.028
0.014
Cumulativo
0.86
0.95
0.98
1.00
In genere, si sceglie un numero di PCA tale che la percentuale di variabilità espressa è l’80 o il 90 percento di quella di partenza.
PC!
PC2
PC3
PC4
Autovalori
3.44
0.38
0.11
0.05
Percentuale
0.86
0.097
0.028
0.014
Cumulativo
0.86
0.95
0.98
1.00
Altre informazioni ricavabili
da STATVIEW
Per questo esempio
STATVIEW non produce
grafici perché c’è una sola
PCA.
Bartlett's test (Barlett’s sphericity test) è un test per verificare se la
matrice di correlazione (dati standardizzati) possa ritenersi uguale
alla matrice identità (nel qual caso la PCA sarebbe inutile).
Come si “leggono” i loadings….
PC1
PC2
PC3
PC4
Cranio
-0.497
-0.488
0.705
-0.135
Molare
-0.503
-0.408
-0.598
0.414
Bolla (D)
-0.519
0.290
-0.307
-0.743
Bolla (P)
-0.482
0.677
0.236
0.508
IN STATVIEW
Le procedure che confluiscono nell’analisi fattoriale hanno come obbiettivo quello di
estrapolare dalla matrice di dati una più semplice struttura soggiacente.
Questa struttura può essere estrapolata usando la matrice di covarianza associata al
vettore
(X ,X
1
2
,… , X p )
R-mode
Q-mode
Se indichiamo con X la matrice dei dati di dimensione n × p
Q = X X ⇒ n×n
T
R = X X ⇒ p× p
T
• Il ruolo principale è giocato dalle variabili
• Matrice di covarianza/correlazione
• Il ruolo principale è giovato dal campionamento
• La dimensione può essere elevata
Esempio: file pca2 a) sabbia di spiaggia e battigia
b) sabbia da un canale limaccioso
c) sabbia da un canale limaccioso (argini)
d) limo di fondo
e) fango preso da un luogo protetto da pioggia

Documenti analoghi

studio dei fattori nascosti mediante PCA

studio dei fattori nascosti mediante PCA Supponiamo che i dati abbiano dimensione 5 a priori, nel senso che sono dati relativi a 5 variabili. Eseguita una PCA potremmo rilevare che 2 o 3 componenti principali raccolgono già l’80-90% della...

Dettagli

Principal Component Analysis

Principal Component Analysis Il vettore a1 è detto vettore dei pesi (loadings). Si intendono normalizzati, ovvero la somma dei loro quadrati è pari a 1. I pesi sono scelti in modo da massimizzare la varianza della variabile p...

Dettagli