Metodi Probabilistici e Statistici per l`Analisi dei Dati Prof. V

Transcript

Metodi Probabilistici e Statistici per l`Analisi dei Dati Prof. V
Metodi Probabilistici e Statistici per l’Analisi dei Dati
Prof. V. Simoncini
e-mail: [email protected], [email protected]
Testi di Riferimento
Lucidi di Lezione
(http://www.dm.unibo.it/ ~simoncin/DatiII.html)
Applied Multivariate Statistical Analysis,
R. A. Johnson e D. W. Wichern
V edizione, Prentice Hall, 2002.
1
Programma
• Organizzazione dei dati e note introduttive
• Statistiche campionarie e di popolazioni
• Similarità, Cluster Analysis
• Distribuzione multinormale
• Test di Ipotesi e MANOVA
• Analisi della Discriminanza
• Analisi multivariata di Regressione
• Analisi delle Componenti Principali
• Analisi Fattoriale
• Multidimensional Scaling
2
Organizzazione dei dati
Le proprietà studiate vengono rappresentate da variabili
(es. temperatura, misura, ecc.)
⇒ Multivariata
Per ogni variabile ci sono osservazioni
(es. prove ripetute, zone diverse, ecc.)
lunghezza
spessore
zona A
Esempio:
zona B
..
.
zona F
3
···
larghezza max
Rappresentazione dei dati
p variabili
n osservazioni
0
x1,1
B
B x
B 1,1
X=B
B ..
B .
@
xn,1
xj,i
Matrice
x1,2
···
x1,p
x1,2
..
.
···
..
.
x1,p
..
.
xn,2
···
xn,p
1
C
C
C
C
C
C
A
i: variabile, j: osservazione
xj,i può assumere valori discreti (interi), continui oppure
di dicotomia (0/1)
4
Rappresentazione dei dati
2
X = [x1 , x2 , . . . , xp ],
oppure
xT1
6
6 xT
6 2
X=6
6 ..
6 .
4
xTn
3
7
7
7
7
7
7
5
Alcuni problemi e tecniche
Esempio: Misure di tre tipi di Iris
• Classificazione dei dati in gruppi diversi
1. Discriminant analysis: per riconoscere un nuovo dato
2. Cluster analysis: per separare in gruppi omogenei
5
Statistica descrittiva
Supponiamo di avere x1,1 , x2,1 , . . . , xn,1
(n misure della prima variabile)
Media Aritmetica
x̄1 =
n
X
xj,1
j=1
n
——————————————-
Per ogni variabile x:,i , i = 1, . . . , p:
Media Aritmetica
x̄i =
n
X
xj,i
j=1
n
Media Campionaria. Se la media è fatta su un numero limitato di
misure, e non sull’intera popolazione
6
Varianza Campionaria
È una misura di dispersione rispetto alla media
Per la prima variabile:
s21 =
1
n
n
X
j=1
(xj,1 − x̄1 )2
x̄1 media campionaria, xj,1 − x̄1 deviazione (scarto) dalla media
si 2 =
Per ogni variabile x:,i , i = 1, . . . , p:
1
n
n
X
j=1
si,i ≡ s2i
√
(xj,i − x̄i )2
si,i deviazione standard campionaria (unità dei dati)
Nota: per n piccolo (n < 30). Varianza Campionaria:
n
1 X
2
(xj,i − x̄i )2
si =
n − 1 j=1
7
Covarianza campionaria
Indichiamo
x1
x2
x1,1
x1,2
x2,1
..
.
x2,2
..
.
xn,1
s1,2
...
..
.
..
xn,2
x1,p
.
x2,p
..
.
.
xn,p
..
.
..
xp
n
1X
=
(xj,1 − x̄1 )(xj,2 − x̄2 )
n j=1
s1,2 0 se grandi valori di xj,1 e xk,2 hanno luogo per j = k
8
Matrice di covarianza
In generale
si,k
n
1X
=
(xj,i − x̄i )(xj,k − x̄k )
n j=1
Matrice di covarianza:
2
s1,1
6
6 s
6 2,1
Sn = 6
6 ..
6 .
4
sp,1
s1,2
···
s1,p
s2,2
..
.
···
..
.
s2,p
..
.
sp,2
···
sp,p
Sn è simmetrica
9
si,k = sk,i
3
7
7
7
7
7
7
5
p×p
Coefficiente di correlazione campionario
Dati
8
T
>
x
>
1 = [x1,1 , . . . , xn,1 ]
>
<
..
.
>
>
>
: xT = [x , . . . , x ]
1,p
n,p
p
si,j
`=1
ri,j := √
coefficiente adimensionale:
n
1X
=
(x`,i − x̄i )(x`,j − x̄j )
n
si,j
√
si,i sj,j
ri,i = 1,
10
ri,j = rj,i
Matrice di correlazione
2
1
6
6 r
6 2,1
R=6
6 ..
6 .
4
rp,1
r1,2
1
..
.
rp,2
···
r1,p
···
..
.
r2,p
..
.
···
1
3
7
7
7
7
7
7
5
p×p
Misura di associazione lineare tra le variabili
Osservazioni:
• R è simmetrica
• R è la forma standardizzata (adimensionale) di Sn
• R non dipende da fattore per cui ho diviso (n oppure n − 1)
11
Altre proprietà:
• |ri,j | ≤ 1
se ri,j = 0
no correlazione lineare
• sgn(ri,j ) indica il tipo di correlazione
• |ri,j | = 1 se e solo se xi = axj + b,
a, b ∈ R
• Se variabili sono standardizzate allora R ≡ Sn
Standardizzazione:
xi → zi :=
xi − x̄
s
x̄: media,
s2 : varianza
Studio delle matrici di covarianza e correlazione ha vantaggi/svantaggi
12
Esempio (ex. 1.4 p.18 JW)
x1 : ingaggio medio giocatore di Baseball
1977
Squadra
x1
x2
A
3 497 900
.623
B
2 485 475
.593
C
1 782 875
.512
D
1 725 450
.500
E
1 645 575
.463
F
1 469 800
.395
Tutte le squadre: r1,2 = 0.892
Tutte tranne la A: r1,2 = 0.930
Tutte tranne le A, B: r1,2 = 0.997
13
x2 : p.vinte/p.perse nel
Diagramma di dispersione
1
0.9
0.8
rapporto vinte/perse
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.5
1
1.5
2
2.5
ingaggio giocatori
14
3
3.5
4
6
x 10
Trasformazione di dati: (x1 , x52 )
0.1
0.09
0.08
rapporto vinte/perse
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
0
0.5
1
Nuovo coeff. di correlazione:
1.5
2
2.5
ingaggio giocatori
r1,2 = 0.966
15
3
3.5
4
6
x 10
Un solo valore per rappresentare l’informazione:
Varianza Campionaria generalizzata
det(S) ≡ |S|
• det(S) può essere zero
⇒
⇒
• n≤p
x − x̄ colonne lin.dip.
rimuovere misure
⇒
|S| = 0
Varianza Campionaria Totale
tr(S) := s1,1 + s2,2 + · · · + sp,p
(no studio di correlazione)
16
Valori campionari di combinazioni lineari
X = [x1 , x2 , . . . , xp ]
Combinazione lineare:
Xc,
c ∈ Rp
Proprietà:
• Media Campionaria:
• Varianza Campionaria:
x̄T c
V ar(Xc) = cT Sc
• b, c ∈ Rp , Covarianza campionaria:
Cov([Xb, Xc]) = bT Sc
17
Esempio: Osservazioni metereologiche relative ad un periodo di 11 anni
(dal 1920-21 al 1930-31) in una zona agricola inglese. Le variabili
rappresentano
x1
Pioggia caduta in Novembre e Dicembre (mm.)
x2
Temperatura media di Luglio (gradi c.)
x3
Pioggia caduta in Luglio (mm.)
x4
Radiazione in Luglio (ml.)
x5
raccolto medio (in quintali per ettaro)
18
x1
x2
x3
x4
x5
87.9
19.6
1
1661
28.37
89.9
15.2
90.1
968
23.77
153
19.7
56.6
1353
26.04
132.1
17
91
1293
25.74
88.8
18.3
93.7
1153
26.68
220.9
17.8
106.9
1286
24.29
117.7
17.8
65.5
1104
28
109
18.3
41.8
1574
28.37
156.1
17.8
57.4
1222
24.96
181.5
16.8
140.6
902
21.66
181.4
17
74.3
1150
24.37
19
0
1973.3
B
B −4.9206
B
B
S = B 799.56
B
B
@ −2439.4
−57.214
0
1
B
B −0.086584
B
B
R=B
0.49045
B
B
@ −0.23872
−0.60744
−4.9206
1.6367
−29.279
217.2
1.7347
−0.086584
−0.6236
0.73804
0.63947
799.56
−2439.4
−29.279
217.2
1346.9
52915
−62.08
361.8
0.49045
1 − 0.6236
1
−0.80818
−0.79779
1
C
1.7347 C
C
C
−62.08 C
C
C
361.8 A
−6822.7
−6822.7
20
−57.214
4.4958
−0.23872
0.73804
−0.80818
1
0.74179
−0.60744
1
C
0.63947 C
C
C
−0.79779 C
C
C
0.74179 A
1
Distanza (introduzione)
Distanza Euclidea:
P = (x, y)
x ∈ Rn
⇒
⇒
d(O, P ) =
p
x2 + y 2
v
uX
u n 2
d(O, x) = t
xi = kxk2
i=1
• d(P, Q) = kP − Qk2
• I punti equidistanti da un punto stanno su una circonferenza
• Tutte le coord. trattate in modo uguale
21
Standardizzazione
Supponiamo x̄1 = 0, x̄2 = 0
Poniamo:
Distanza “Statistica”:
ds (O, P ) =
p
(x∗1 )2
+
(x∗2 )2
=
s
x1
x∗1 = √
,
s1,1
x22
x21
+
s1,1
s2,2
x2
x∗2 = √
s2,2
(ha senso se s1,1 6= s2,2 )
⇒ punti equidistanti da O stanno su ellissi (in R2 )
In modo analogo (in Rp ). Poniamo
∆2 = diag(s1,1 , s2,2 , . . . , sp,p )
s
(x2 − y2 )2
(xp − yp )2
(x1 − y1 )2
+
+···+
=: kP − Qk(∆2 )−1
ds (P, Q) =
s1,1
s2,2
sp,p
p
(x − y)T (∆2 )−1 (x − y)
=
22
Distanza di Mahalanobis
S matrice di covarianza
2
= kxi − xj k2S −1 = (xi − xj )T S −1 (xi − xj )
Dij
Dij usata nel test T 2 di Hotelling e analisi della discriminanza
Definizione di distanza:
d(P, Q) = d(Q, P )
d(P, Q) > 0 se P 6= Q
d(P, Q) = 0 se P = Q
d(P, Q) ≤ d(P, R) + d(R, Q)
(disuguaglianza triangolare)
23
Misure di similarità
Criteri si somiglianza, primo passo per formare/separare gruppi di
oggetti (non variabili)
Distanze:
p
• Distanza euclidea d(x, y) = (x − y)T (x − y)
p
• Distanza Statistica d(x, y) = (x − y)T S −1 (x − y)
• Distanza “City-block”
d(x, y) =
• Distanza di Minkowski
d(x, y) =
p
X
i=1
|xi − yi |
`Pp
m
|x
−
y
|
i
i
i=1
´m
Nota: cercare di mantenere le caratteristiche “vere” di una distanza
- Anche la matrice di correlazione usata come misura di similarità
- Tutti i coeff. di similarità che vedremo in seguito sono adatti
24
Confronto per la presenza/assenza di caratteristiche
(variabile binaria)
var
x
1
0
0
1
1
y
1
1
0
1
0
8
< 0
2
(xi − yi ) =
: 1
d=
p
X
j=1
se xi = yi = 1, 0
se xi 6= yi
(xi − yi )2
Conta il numero di dissimilarità (d grande se x, y dissimili)
Nota: d penalizza la similarità! (0-0 e 1-1 trattati uguali)
25
Altri coefficienti di similarità
Consideriamo la tabella
1
0
Totali
1
a
b
a+b
0
c
d
c+d
Totali
a+ c
b+d
p=a+b+c+d
a: frequenza di 1-1
b: frequenza di 1-0, ecc.
per l’esempio precedente, a = 2, b = c = d = 1
26
Tabella dei coefficienti di similarità
Coeff. di similarità: s(P, Q) con
(i) s(P, Q) = s(Q, P ),
Coeff.
a
a+b+c
..
.
(iii) s(P, Q) %
Descrizione
a
p
a+d
p
s1 (P, Q) =
s2 (P, Q) =
(ii) s(P, Q) > 0,
peso solo per 1-1
pesi uguali per 0-0 e 1-1
zero peso a 0-0 (irrilevanti)
...
27
Esempio: Caratteristiche di 5 individui:
# indiv.
altezza
peso
occhi
capelli
mancino
m/f
1
0
0
0
1
1
1
2
1
1
1
0
1
0
3
0
1
0
1
1
0
4
0
0
1
0
1
1
5
1
1
1
0
0
0
altezza: 1 se ≥ 72inc, peso: 1 se ≥ 150lb, occhi: 1 se marron,
capelli: 1 se biondi, mancino: 1 se destro, m/f: 1 se femmina.
28
X n × p. Coeff. di similarità
0
6
B
B 1
B
1B
B 4
6B
B
B 4
@
0
Per s1 =
a
,
p
(a+d)
p
per ogni coppia:
1
6
3
6
3
2
6
5
2
2
sarebbe
6
C
C
C
C
C = 1 (XX T + (1n 1Tp − X)(1n 1Tp − X)T )
C
p
C
C
A
1
XX T
p
29
Caso di variabili assenza/presenza
Consideriamo due specie A, B ed un terreno diviso in n unità. Le
variabili definiscono le categorie:
a: # volte ci sono A e B nelle n unità
b: # volte c’è A ma non B nelle n unità
Contingenza media quadrata:
(ad − bc)
r= p
(a + b)(c + d)(a + c)(b + d)
χ2
(r =
)
n
2
misura della similarità delle due variabili (grande r 2 implica grande
dipendenza delle due variabili)
30
Clusters
Scopo: determinare raggruppamenti (clusters) significativi tra dati, senza
dover esaminare tutte le possibili configurazioni.
• Metodi di agglomerazione. Tecniche gerarchiche e non.
• Metodi di separazione
⇒ Fondamentalmente tecniche grafiche. Diagramma risultante:
Dendrogramma
31
Metodi di agglomerazione:
• Metodi delle K-medie (raggruppamento di oggetti in K gruppi)
• Metodi di connessione (linkage). Adatti per raggruppare sia variabili
che osservazioni.
1. Single linkage (basati sulla minima distanza)
2. Complete linkage (basati sulla massima distanza)
3. Average linkage (basati sulla distanza media)
FIG. 12.3
32
Tipica procedura in un metodo gerarchico agglomerativo:
1. Inizia con n gruppi (singoli oggetti) ed una matrice matrice n × n
simmetrica di distanze (o similarità) D
2. Determina la coppia di elementi u e v più vicini (guardando la matrice D)
3. Forma il gruppo (U V )
4. Aggiorna D sostituendo alle due righe di U e V una sola riga della distanza
del gruppo (U V ) dagli altri oggetti. D sarà quindi (n − 1) × (n − 1).
5. Ripeti i passi precedenti 2-4 n − 1 volte
? La matrice D individua la distanza usata
? Step 4 individua il tipo di metodo gerarchico
33
Distanze usate da Matlab
’euclidean’
distanza Euclidea
’seuclidean’
dist. Euclidea standardizzata
(dati prima normalizzati dalla varianza di ogni variabile)
’cityblock’
dist. City Block
’mahalanobis’
dist. Mahalanobis
’minkowski’
dist. Minkowski dik = (
xT
i xk
kxi k kxk k
’cosine’
dik = 1 −
’correlation’
dik = 1 − rik
’spearman’
’hamming’
Pn
dik = 1 − rbik (b
rik correlazione per rango)
percentuale di coordinate diverse:
dik = #(xj,i 6= xj,k )/n
’jaccard’
percentuale di coordinate (non zero) diverse
’chebychev’
dik = maxj |xj,i − xj,k |
34
1
p p
j=1 (xj,i − xj,k ) )
Algoritmo Single linkage
D: matrice delle distanze minime tra gli oggetti
oppure
D: matrice delle massime similarità tra gli oggetti
massima vicinanza: minima distanza o massima similarità
Esempio. D matrice di distanze:
0
0
B
B 9
B
B
D=B
B 3
B
B 6
@
11
Step 2.
min{di,j } = 2,
1
0
7
0
5
9
0
10
2
8
i = 5, j = 3
35
0
C
C
C
C
C
C
C
C
A
⇒ (3 5) gruppo
Esempio. Continua
Step 3.
d(35),1 = min{d31 , d51 } = min{3, 11} = 3,
d(35),2 = min{d32 , d52 } = . . . = 7
d(35),4 = min{d34 , d54 } = . . . = 8
da cui, la nuova matrice di distanze
(prima colonna e riga
0
0
B
B 3
B
D=B
B 7
@
8
corrispondono al gruppo (35))
1
0
9
0
6
5
0
C
C
C
C
C
A
→
0
0
B
D=B
@ 7
6
(35) → (135) → (135), (24) → (12345)
36
1
0
5
0
C
C
A
Dendrogramma
6
5.5
5
distanze
4.5
4
3.5
3
2.5
2
3
5
1
oggetti
37
2
4
Alcune proprietà
Nota: nella ricerca di clusters, l’interesse è nei raggruppamenti intermedi
1. Il livello a cui avviene il raggruppamento è importante. Evidenzia
l’effettiva distanza.
2. Se D ha minimi uguali con indici diversi, si raggruppano i clusters
separatamente
3. Se D ha minimi uguali con indici in comune, si raggruppano solo gli
oggetti con stessa distanza. Es.
d1,4 = 1,
d1,6 = 1,
d4,6 = 2
formo i gruppi (14) oppure (16) ma non (146)
4. I clusters (e dendrogramma) rimangono inalterati se si usano
distanze che mantengono lo stesso ordine.
38
Complete linkage
Come nel single linkage, a parte il calcolo della distanza del cluster dagli
altri oggetti:
d(uv)i = max{dui , dvi }
0
1
0
B
B 9
B
B
D=B 3
B
B
@ 6
11
0
7
0
5
9
0
10
2
8
0
C
C
C
C
C
C
C
A
0
→
(35)
→
(35)(24)
39
0
B
B 11
B
B
B 10
@
9
0
1
0
9
0
6
5
1
0
B
B 10
@
11
0
C
C
C
C
C
A
0
9
0
C
C
A
(35), (124)
Dendrogramma
11
10
9
distanze
8
7
6
5
4
3
2
3
5
1
oggetti
40
2
4
n = 7 oggetti, p = 2 variabili. Distanza euclidea tra gli oggetti
1
0
0
2.0 2.0
0
C
B
B
B 5.5 4.0 C
B 4.0
0
C
B
B
C
B
B
B 5.0 5.0 C
B 4.2 1.1
0
C
B
B
C
B
B
C
B
X = B 1.5 2.5 C
D=B
0
B 0.7 4.2 4.3
C
B
B
B 1.0 1.0 C
B 1.4 5.4 5.6 1.5
0
C
B
B
C
B
B
B 7.0 5.0 C
B 5.8 1.8 2.0 6.0 7.2
A
@
@
5.7
6.5
5.8
41
2.5
1.6
5.8
7.2
1
C
C
C
C
C
C
C
C
C
C
C
C
C
0 C
A
1.9
Scatter plot
8
7
7
6
3
Component 2
5
6
2
4
3
4
1
2
5
1
0
0
1
2
3
4
Component 1
42
5
6
7
8
Dendrogramma
single linkage
4
3.5
3
2.5
2
1.5
1
1
4
5
2
3
7
6
3
6
7
complete linkage
7
6
5
4
3
2
1
1
4
5
2
43
Studio di similarità di variabili
Aziende di servizi (elettrici ed altro) (TAB 12.5)
Matrice di correlazione:
0
B
B
B
B
B
B
B
B
R = B
B
B
B
B
B
B
@
1.0000
0.6427
−0.1028
−0.0820
−0.2591
−0.1517
0.0448
−0.0134
0.6427
1.0000
−0.3476
−0.0863
−0.2601
−0.0096
0.2114
−0.3277
−0.1028
−0.3476
1.0000
0.1003
0.4354
0.0280
0.1147
0.0052
−0.0820
−0.0863
0.1003
1.0000
0.0335
−0.2879
−0.1642
0.4855
−0.2591
−0.2601
0.4354
0.0335
1.0000
0.1764
−0.0191
−0.0071
−0.1517
−0.0096
0.0280
−0.2879
0.1764
1.0000
−0.3737
−0.5605
0.0448
0.2114
0.1147
−0.1642
−0.0191
−0.3737
1.0000
−0.1851
−0.0134
−0.3277
0.0052
0.4855
−0.0071
−0.5605
−0.1851
1.0000
Correlazione negativa ⇒ grande dissimilarità
44
1
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
A
Dendrogramma
single linkage
0.9
distanze
0.8
0.7
0.6
0.5
0.4
1
2
7
3
5
6
4
8
3
5
6
variabili
complete linkage
1.6
1.4
distanze
1.2
1
0.8
0.6
0.4
1
2
7
4
8
variabili
45
Studio di similarità di osservazioni. Stesse aziende. Distanza euclidea per D
single linkage
2500
distanze
2000
1500
1000
500
0
4 10 15 21 12 17
7 13 20
2
1 3 14 18 22
aziende
9
6
5
8 19 11 16
6 14 18 22
8 19 11 16
complete linkage
14000
12000
distanze
10000
8000
6000
4000
2000
0
4 10 15 21 12 17
2
5
1
3
9 7 13 20
aziende
46
Data on Air-Pollution. Variabili (D correlazione)
single linkage
distanze
0.8
0.7
0.6
0.5
3
5
4
7
variabili
6
2
1
2
6
1
complete linkage
distanze
1.2
1
0.8
0.6
3
5
4
7
variabili
47
Data on Air-Pollution. Osservazioni (D distanza euclidea)
single linkage
0.012
distanze
0.01
0.008
0.006
0.004
0.002
0
222617 140 2 5 6 9272915163623 72812371032 4 314312038411133244213181921 82534393035
osservazioni
complete linkage
0.08
distanze
0.06
0.04
0.02
0
222617 2 342 140122914312011332418192130 43715163628 5 6 927 7384125343935 813103223
osservazioni
48