Analisi delle componenti principali

Transcript

Analisi delle componenti
principali
(PCA-Principal Component Analysis)
Principal component analysis (PCA)
•
•
•
•
L’idea principale su cui si basa l’PCA è quella di rappresentare
un insieme di dati multivariati con un numero inferiore di variabili
non correlate che siano ottenute da una particolare
combinazione lineare delle variabili originali e che riassumano le
caratteristiche dei dati
La riduzione di dimensionalità genera inevitabilmente una
perdita di informazioni
Generalmente si associa tale perdita con il “rumore” racchiuso
nei dati il cui contenuto informativo è trascurabile
Il metodo PCA cerca di proiettare dei dati multidimensionali in
uno spazio di dimensione minore conservando al massimo la
variazione dei dati originali
Quando utilizzare la PCA
• PCA è utilizzata in più modi all’interno di un processo
di data mining:
– Può costituire (in alcuni casi) una tecnica di data-mining;
– È utilizzata come metodo di interpretazione e visualizzazione
grafica (specialmente se si riduce la dimensionalità a 2 o 3)
per scoprire ed evidenziare strutture nei dati;
– Utilizzata nella fase di pre-processing per trasformare i dati
originali in nuovi dati di input per altre tecniche di datamining
• Il numero delle variabili descrittive (explanatory) è elevato
rispetto al numero dei campioni.
• Le variabili descrittive sono altamente correlate.
• PCA è una tecnica per ridurre la dimensionalità dei
dati
Matrici di Covarianza e Correlazione
• Sia X la matrice dei dati strutturati di dimensione nxp
 x11 ... x1 p 


X =  ... ... ... 
x

...
x
n
1
np


• La matrice di Covarianza è data da:
 n
 ∑ x i1 x i1
 i =1
1
T
S =
X X =  ....
n −1
 n
 ∑ x ip x i 1
 i =1

x
x
∑
i 1 ip 
s
i =1
  11
...
 =  ...
n
 s
x
x
∑
 p1
ip ip 
i =1

n
...
....
...
...
...
...
s1 p 

... 
s pp 
Matrici di Covarianza e Correlazione
• La matrice di Correlazione:

 1

R =  ...
 s p1

 s11 s pp

...
s1 p
...
s11 s pp
...
...
1



 = ( diag ( S ))1 / 2 S ( diag ( S ))1 / 2




• La matrice di correlazione si ottiene dalla matrice di
covarianza normalizzata tramite I sui elementi diagonali
• Le matrici S ed R sono simmetriche definite non-negative
PCA: Iris dataset
– cov (X) = [ 0.6818 -0.0050
-0.0050 0.1774
1.3060 -0.1008
0.5121 -0.0497
1.3060
-0.1008
3.2252
1.3023
0.5121
-0.0497
1.3023
0.5788]
– corrcoeff (X) = [ 1.0000 -0.0144 0.8808 0.8153
-0.0144 1.0000 -0.1332 -0.1549
0.8808 -0.1332 1.0000 0.9532
0.8153 -0.1549 0.9532 1.0000]
PCA: Iris dataset
•
•
•
•
Matrice di
covarinza dei
dati
[PC, LATENT, EXPLAINED] = pcacov (S)
PCÆ componenti principali (autovettori di S)
LATENTÆ autovalori di S
EXPLAINEDÆ percentuale della varianza totale
-0.3610
0.0257
-0.8633
-0.3517
4.3048
-0.5060
-0.8376
0.1176
0.1692
0.1986
0.7614 0.1842
-0.5457 0.0055
-0.2257 -0.4357
-0.2674 0.8810
0.1184 0.0414
autovalori
92.3146% 4.2581% 2.5386% 0.8888% percentuale della varianza
PCA: Iris dataset scree plot

Analisi delle componenti principali

Transcript

Documenti analoghi

studio dei fattori nascosti mediante PCA

OlfoSense - PCA Technologies

Strumento portatile

armeriapalmieri Pistola Weihrauch HW 40 PCA

1. RADICE QUADRATA DI UNA MATRICE SIMMETRICA DEFINITA

PCA (Principal Component Analysis)

L`ABC di R - Classe delle Lauree in Scienze Biologiche

Principal Component Analysis

Tecniche di ordinamento

time management

01 CADD-Legacy

Esame di Algebra e Geometria - Prof. L. Alessandrini (6 settembre

Come sostituire una PCA Hub a 4 porte

L`espansione del Canale di Panama preoccupa l`ITF

Metodi per la riduzione della dimensionalità Strumenti quantitativi

analisi delle componenti principali (pca)

Il trattamento chirurgico della neoplasia prostatica localmente

AXA Power_PCA_130_brochure_IT_Jan_2012.indd

4-cloroamfetamina (4-CA)

Capitolo 1 Analisi delle componenti principali

Codice Esercizio Convenzionato SPEDIRE A

disfunzione del tessuto adiposo e malattie croniche