Calcolo delle componenti principali tramite un esempio numerico

Transcript

Calcolo delle componenti principali tramite un esempio numerico
Calcolo delle
componenti
principali tramite
un esempio
numerico
I Dati
Questo esempio numerico puó essere utile per chiarire il calcolo
delle componenti principali e per introdurre il programma SPAD.
IL PROBLEMA (controllo di qualitá)
Una fabbrica produce wafer su cui verranno stampati dei circuiti
elettrici. Per ciascun tipo di wafer vengono fissate le proporzioni
tra 3 misure: spessore, lunghezza e larghezza. Il responsabile del
processo chiede di verificare se il processo produttivo rispetta le
proporzioni fissate.
Per effettuare lo studio sulla produzione sono stati misurati 10
wafer di uno stesso tipo. La matrice X contiene le osservazioni
relative alla produzione di wafer per il disegno di microchip. Si
tratta di 10 osservazioni é per ogni wafer é stato misurato: lo
spessore (colonna 1), la lunghezza (colonna 2) e la larghezza
(colonna 3).
Traduzione del problema in termini statistici
Se le proporzioni tra le tre misure sono fissate allora esisteranno
delle costanti a, b e c tali che:
(1) Spessore=a*Lunghezza
(2) Spessore=b*Larghezza
(3) Lunghezza=c*Larghezza
Se le tre relazioni fossero vere allora le correlazioni tra le tre
variabili dovrebbero essere 1. Se invece una qualche misura fosse
fuori controllo allora la sua correlazione con le altre variabili sará
prossima allo zero.
Per studiare correlazioni tra piú variabili é si sceglie di utilizzare
l’analisi in componenti principali (ACP).
Matrice delle
correlazioni
La matrice delle correlazioni è la seguente:
LETTURA del risultato:
- lo spessore del chip é correlato con la lunghezza;
- le correlazioni tra le altre variabili sono deboli e
negative.
INTERPRETAZIONE (si fa assieme al committente):
- Le variabili non sono tra loro fortemente correlate,
pertanto il processo produttivo non rispetta le
proporzioni assegnate.
- Esiste una correlazione forte positiva tra lunghezza e
spessore, mentre la larghezza dei wafer é debolmente
associata con lunghezza e spessore. Sembrerebbe
pertanto che la larghezza sia una delle misure meno
controllate nel processo.
Calcoli degli
autovalori ( )
della matrice R
Gli autovalori della matrice R sono i seguenti:
value proportion
1.769
2 .927
3 .304
1
.590
.899
1.000
Notare che:
•
•
Gli autovalori soddisfano la seguente equazione |R- I| = 0
(equazione terzo grado in ): - 3+3 2-2.457 +0.49586=0
La soma degli autovalori é 3 = p = Traccia di R.
LETTURA:
-
La prima componente spiega il 59% della variabilitá
presente nei dati, mentre il primo piano fattoriale (dato
dalle prime due componenti principali) spiega quasi il
90% della variabilitá.
INTERPRETAZIONE:
Se le proporzioni fissate fossero rispettate allora il primo
autovalore dovrebbe spiegare tutta la variabilitá. Esiste un 40% di
variabilitá nel processo dovuta a fattori accidentali.
Calcolo del primo
autovettore della
matrice R.
Il primo autovettore si ottiene sostituendo il primo autovalore
1=1.769 nella equazione |R- I| = 0 e risolvendo il seguente
sistema omogeneo di tre equazioni in tre incognite:
La soluzione, (0.64, 0.69, -0.34), é il primo autovettore (prima
colonna in una matrice 3 per 3 chiamata V).
Calcolo dei
restanti
autovettori,
ovvero la matrice
V
Ripetendo il procedimento per i restanti autovettori (sostituendo
separatamente il secondo e il terzo autovettore nella equazione |RI| = 0) si ottengono le restanti colonne della matrice V:
Si noti che V'V=I (in questo esempio occorre approssimare la terza
cifra decimale).
Calcolo delle
componenti
Principali
Si consideri la matrice diagonale L1/2 i cui elementi sono le radici
quadrate degli autovalori di R. Essi rappresentano lo scarto
quadratico medio associato a ciascun Componente Principale,
poiché gli autovettori (ancien axes unitarie in SPAD)
hanno deviazione standard 1. Le componenti principali sono la
matrice S ottenuta riscalando V con tramite L1/2: S = V L1/2
Poiché le componenti principali sono state calcolate utilizzando la
matrice delle correlazioni R e non la matrice delle Covarianze, gli
elementi di S rappresentano le correlazioni tra variabili e
componenti principali.
LETTURA:
- La prima componente (quella che spiega maggiore
variabilitá) associa positivamente lo spessore alla
lunghezza perché entrambe le variabili hanno
correlazioni similari: 0.91 e 0.85 rispettivamente;
- La prima componente associa negativamente la
larghezza alle restanti variabili perché la larghezza ha
una correlazione si segno opposto alle altre due variabili;
- La larghezza é ben rappresentata nel secondo asse
(correlazione 0.88), mentre le altre varabili hanno una
bassa correlazione.
INTERPRETAZIONE:
La misura che piú sfugge al controllo é la larghezza del wafer
perché é scarsamente associata alle altre variabili.
Proiezione degli
individui sulle
componenti
principali.
Le coordinate degli individui sulle componenti principali si
ottengono dal prodotto ZV dove Z é la matrice dei dati originari (X)
standardizzati (ad ogni osservazione é stata sottratta la media e il
risultato diviso per la deviazione standard).
Le coordinate degli individui sulle prime due componenti principali
sono le seguenti:
Individuo
wafer 1
wafer 2
wafer 3
wafer 4
wafer 5
wafer 6
wafer 7
wafer 8
wafer 9
wafer 10
CP1
CP2
DIST
origine
-0.54
2.8
0.62
-2.16
-0.93
1.14
0.8
-1.25
-0.29
-0.2
0.66
-0.07
0.31
0.96
-1.04
-1.27
1.26
-1.66
-0.02
0.87
0.74
7.99
0.5
5.73
2.09
3.15
2.46
4.3
0.12
2.93
L’ultima colonna rappresenta la distanza dal baricentro della nube
dei punti. É ottenuta sommando il quadrato delle coordinate
(Teorema di Pitagora).
LETTURA:
-
Altri aiuti
all’interpretazione
delle componenti
principali.
Il baricentro della nube di punti rappresenta il wafer di
dimensioni medie osservato nel campione. Pertanto i
Wafer 2 e 4 sembrano i più disomogenei all’interno del
campione.
Altre due quantitá risultano di interesse per valutare la posizione
degli individui su componenti principali. Esse sono i contributi e i
coseni quadrati. Per ciascun individuo di calcolano entrambe:
quanto piú sono elevate tanto piú l’individuo é ben rappresentato
sull’asse.
I coseni quadrati si possono ottenere dividendo il quadrato della
coordinata per la distanza dall’origine. Evidentemente la somma dei
coseni quadrati (3 valori in questo esempio) per un individuo sugli
assi è 1.
I contributi si ottengono dividendo il quadrato della coordinata per
la somma dei quadrati delle coordinate sull’asse. Evidentemente la
somma dei contributi (10 valori in questo esempio) per un asse è 1.
Per i dati osservati i contributi e i coseni sono riportati nella
seguente tabella:
wafer 1
wafer 2
wafer 3
wafer 4
wafer 5
wafer 6
wafer 7
wafer 8
wafer 9
wafer 10
Contributi
CP1
CP2
1.7
4.8
0
44.4
2.1
1
9.9
26.3
4.9
11.8
7.4
17.5
3.6
17.2
8.8
29.6
0.5
0
0.2
8.2
Coseni Quadrati
CP1
CP2
0.4
0.6
0
0.98
0.76
0.19
0.16
0.81
0.42
0.52
0.41
0.52
0.26
0.65
0.36
0.64
0.7
0.01
0.01
0.26
LETTURA:
-
L’osservazione relativa al secondo wafer é ben
rappresentata sulla prima componente principale, cosí
come quella relativa al quarto wafer.
INTERPRETAZIONE:
Esistono delle osservazioni che sono influenti nell’analisi, in
particolare l’osservazione 2 e 4.
Sensitivitá
Analisi di robustezza
Una volta rilevata la presenza di osservazioni influenti occorre
ripetere l’analisi eliminando le osservazioni che si ritiene influenti.
In questo caso eliminando le osservazioni 2 e 4 si ottiene una
matrice R a valori tutti positivi. La variabilitá spiegata nei primi
assi fattoriali non cambia (diminuisce leggermente quella della
prima componente principale) e la larghezza risulta sempre la
correlata con le altre variabili.
INTERPRETAZIONE:
I risultati ottenuti dall’analisi con tutte le osservazioni sono robusti
rispetto alle osservazioni ritenute piú disomogenee presenti nel
campione.