Analisi delle componenti principali

Transcript

Analisi delle componenti principali
Analisi delle componenti
principali
(PCA-Principal Component Analysis)
Principal component analysis (PCA)
•
•
•
•
L’idea principale su cui si basa l’PCA è quella di rappresentare
un insieme di dati multivariati con un numero inferiore di variabili
non correlate che siano ottenute da una particolare
combinazione lineare delle variabili originali e che riassumano le
caratteristiche dei dati
La riduzione di dimensionalità genera inevitabilmente una
perdita di informazioni
Generalmente si associa tale perdita con il “rumore” racchiuso
nei dati il cui contenuto informativo è trascurabile
Il metodo PCA cerca di proiettare dei dati multidimensionali in
uno spazio di dimensione minore conservando al massimo la
variazione dei dati originali
Quando utilizzare la PCA
• PCA è utilizzata in più modi all’interno di un processo
di data mining:
– Può costituire (in alcuni casi) una tecnica di data-mining;
– È utilizzata come metodo di interpretazione e visualizzazione
grafica (specialmente se si riduce la dimensionalità a 2 o 3)
per scoprire ed evidenziare strutture nei dati;
– Utilizzata nella fase di pre-processing per trasformare i dati
originali in nuovi dati di input per altre tecniche di datamining
• Il numero delle variabili descrittive (explanatory) è elevato
rispetto al numero dei campioni.
• Le variabili descrittive sono altamente correlate.
• PCA è una tecnica per ridurre la dimensionalità dei
dati
Matrici di Covarianza e Correlazione
• Sia X la matrice dei dati strutturati di dimensione nxp
 x11 ... x1 p 


X =  ... ... ... 
x

...
x
n
1
np


• La matrice di Covarianza è data da:
 n
 ∑ x i1 x i1
 i =1
1
T
S =
X X =  ....
n −1
 n
 ∑ x ip x i 1
 i =1

x
x
∑
i 1 ip 
s
i =1
  11
...
 =  ...
n
 s
x
x
∑
 p1
ip ip 
i =1

n
...
....
...
...
...
...
s1 p 

... 
s pp 
Matrici di Covarianza e Correlazione
• La matrice di Correlazione:

 1

R =  ...
 s p1

 s11 s pp

...
s1 p
...
s11 s pp
...
...
1



 = ( diag ( S ))1 / 2 S ( diag ( S ))1 / 2




• La matrice di correlazione si ottiene dalla matrice di
covarianza normalizzata tramite I sui elementi diagonali
• Le matrici S ed R sono simmetriche definite non-negative
PCA: Iris dataset
– cov (X) = [ 0.6818 -0.0050
-0.0050 0.1774
1.3060 -0.1008
0.5121 -0.0497
1.3060
-0.1008
3.2252
1.3023
0.5121
-0.0497
1.3023
0.5788]
– corrcoeff (X) = [ 1.0000 -0.0144 0.8808 0.8153
-0.0144 1.0000 -0.1332 -0.1549
0.8808 -0.1332 1.0000 0.9532
0.8153 -0.1549 0.9532 1.0000]
PCA: Iris dataset
•
•
•
•
Matrice di
covarinza dei
dati
[PC, LATENT, EXPLAINED] = pcacov (S)
PCÆ componenti principali (autovettori di S)
LATENTÆ autovalori di S
EXPLAINEDÆ percentuale della varianza totale
-0.3610
0.0257
-0.8633
-0.3517
4.3048
-0.5060
-0.8376
0.1176
0.1692
0.1986
0.7614 0.1842
-0.5457 0.0055
-0.2257 -0.4357
-0.2674 0.8810
0.1184 0.0414
autovalori
92.3146% 4.2581% 2.5386% 0.8888% percentuale della varianza
PCA: Iris dataset scree plot