Analisi delle componenti principali
Transcript
Analisi delle componenti principali
Analisi delle componenti principali (PCA-Principal Component Analysis) Principal component analysis (PCA) • • • • L’idea principale su cui si basa l’PCA è quella di rappresentare un insieme di dati multivariati con un numero inferiore di variabili non correlate che siano ottenute da una particolare combinazione lineare delle variabili originali e che riassumano le caratteristiche dei dati La riduzione di dimensionalità genera inevitabilmente una perdita di informazioni Generalmente si associa tale perdita con il “rumore” racchiuso nei dati il cui contenuto informativo è trascurabile Il metodo PCA cerca di proiettare dei dati multidimensionali in uno spazio di dimensione minore conservando al massimo la variazione dei dati originali Quando utilizzare la PCA • PCA è utilizzata in più modi all’interno di un processo di data mining: – Può costituire (in alcuni casi) una tecnica di data-mining; – È utilizzata come metodo di interpretazione e visualizzazione grafica (specialmente se si riduce la dimensionalità a 2 o 3) per scoprire ed evidenziare strutture nei dati; – Utilizzata nella fase di pre-processing per trasformare i dati originali in nuovi dati di input per altre tecniche di datamining • Il numero delle variabili descrittive (explanatory) è elevato rispetto al numero dei campioni. • Le variabili descrittive sono altamente correlate. • PCA è una tecnica per ridurre la dimensionalità dei dati Matrici di Covarianza e Correlazione • Sia X la matrice dei dati strutturati di dimensione nxp x11 ... x1 p X = ... ... ... x ... x n 1 np • La matrice di Covarianza è data da: n ∑ x i1 x i1 i =1 1 T S = X X = .... n −1 n ∑ x ip x i 1 i =1 x x ∑ i 1 ip s i =1 11 ... = ... n s x x ∑ p1 ip ip i =1 n ... .... ... ... ... ... s1 p ... s pp Matrici di Covarianza e Correlazione • La matrice di Correlazione: 1 R = ... s p1 s11 s pp ... s1 p ... s11 s pp ... ... 1 = ( diag ( S ))1 / 2 S ( diag ( S ))1 / 2 • La matrice di correlazione si ottiene dalla matrice di covarianza normalizzata tramite I sui elementi diagonali • Le matrici S ed R sono simmetriche definite non-negative PCA: Iris dataset – cov (X) = [ 0.6818 -0.0050 -0.0050 0.1774 1.3060 -0.1008 0.5121 -0.0497 1.3060 -0.1008 3.2252 1.3023 0.5121 -0.0497 1.3023 0.5788] – corrcoeff (X) = [ 1.0000 -0.0144 0.8808 0.8153 -0.0144 1.0000 -0.1332 -0.1549 0.8808 -0.1332 1.0000 0.9532 0.8153 -0.1549 0.9532 1.0000] PCA: Iris dataset • • • • Matrice di covarinza dei dati [PC, LATENT, EXPLAINED] = pcacov (S) PCÆ componenti principali (autovettori di S) LATENTÆ autovalori di S EXPLAINEDÆ percentuale della varianza totale -0.3610 0.0257 -0.8633 -0.3517 4.3048 -0.5060 -0.8376 0.1176 0.1692 0.1986 0.7614 0.1842 -0.5457 0.0055 -0.2257 -0.4357 -0.2674 0.8810 0.1184 0.0414 autovalori 92.3146% 4.2581% 2.5386% 0.8888% percentuale della varianza PCA: Iris dataset scree plot