Metodi Probabilistici e Statistici per l`Analisi dei Dati Prof. V
Transcript
Metodi Probabilistici e Statistici per l`Analisi dei Dati Prof. V
Metodi Probabilistici e Statistici per l’Analisi dei Dati Prof. V. Simoncini e-mail: [email protected], [email protected] Testi di Riferimento Lucidi di Lezione (http://www.dm.unibo.it/ ~simoncin/DatiII.html) Applied Multivariate Statistical Analysis, R. A. Johnson e D. W. Wichern V edizione, Prentice Hall, 2002. 1 Programma • Organizzazione dei dati e note introduttive • Statistiche campionarie e di popolazioni • Similarità, Cluster Analysis • Distribuzione multinormale • Test di Ipotesi e MANOVA • Analisi della Discriminanza • Analisi multivariata di Regressione • Analisi delle Componenti Principali • Analisi Fattoriale • Multidimensional Scaling 2 Organizzazione dei dati Le proprietà studiate vengono rappresentate da variabili (es. temperatura, misura, ecc.) ⇒ Multivariata Per ogni variabile ci sono osservazioni (es. prove ripetute, zone diverse, ecc.) lunghezza spessore zona A Esempio: zona B .. . zona F 3 ··· larghezza max Rappresentazione dei dati p variabili n osservazioni 0 x1,1 B B x B 1,1 X=B B .. B . @ xn,1 xj,i Matrice x1,2 ··· x1,p x1,2 .. . ··· .. . x1,p .. . xn,2 ··· xn,p 1 C C C C C C A i: variabile, j: osservazione xj,i può assumere valori discreti (interi), continui oppure di dicotomia (0/1) 4 Rappresentazione dei dati 2 X = [x1 , x2 , . . . , xp ], oppure xT1 6 6 xT 6 2 X=6 6 .. 6 . 4 xTn 3 7 7 7 7 7 7 5 Alcuni problemi e tecniche Esempio: Misure di tre tipi di Iris • Classificazione dei dati in gruppi diversi 1. Discriminant analysis: per riconoscere un nuovo dato 2. Cluster analysis: per separare in gruppi omogenei 5 Statistica descrittiva Supponiamo di avere x1,1 , x2,1 , . . . , xn,1 (n misure della prima variabile) Media Aritmetica x̄1 = n X xj,1 j=1 n ——————————————- Per ogni variabile x:,i , i = 1, . . . , p: Media Aritmetica x̄i = n X xj,i j=1 n Media Campionaria. Se la media è fatta su un numero limitato di misure, e non sull’intera popolazione 6 Varianza Campionaria È una misura di dispersione rispetto alla media Per la prima variabile: s21 = 1 n n X j=1 (xj,1 − x̄1 )2 x̄1 media campionaria, xj,1 − x̄1 deviazione (scarto) dalla media si 2 = Per ogni variabile x:,i , i = 1, . . . , p: 1 n n X j=1 si,i ≡ s2i √ (xj,i − x̄i )2 si,i deviazione standard campionaria (unità dei dati) Nota: per n piccolo (n < 30). Varianza Campionaria: n 1 X 2 (xj,i − x̄i )2 si = n − 1 j=1 7 Covarianza campionaria Indichiamo x1 x2 x1,1 x1,2 x2,1 .. . x2,2 .. . xn,1 s1,2 ... .. . .. xn,2 x1,p . x2,p .. . . xn,p .. . .. xp n 1X = (xj,1 − x̄1 )(xj,2 − x̄2 ) n j=1 s1,2 0 se grandi valori di xj,1 e xk,2 hanno luogo per j = k 8 Matrice di covarianza In generale si,k n 1X = (xj,i − x̄i )(xj,k − x̄k ) n j=1 Matrice di covarianza: 2 s1,1 6 6 s 6 2,1 Sn = 6 6 .. 6 . 4 sp,1 s1,2 ··· s1,p s2,2 .. . ··· .. . s2,p .. . sp,2 ··· sp,p Sn è simmetrica 9 si,k = sk,i 3 7 7 7 7 7 7 5 p×p Coefficiente di correlazione campionario Dati 8 T > x > 1 = [x1,1 , . . . , xn,1 ] > < .. . > > > : xT = [x , . . . , x ] 1,p n,p p si,j `=1 ri,j := √ coefficiente adimensionale: n 1X = (x`,i − x̄i )(x`,j − x̄j ) n si,j √ si,i sj,j ri,i = 1, 10 ri,j = rj,i Matrice di correlazione 2 1 6 6 r 6 2,1 R=6 6 .. 6 . 4 rp,1 r1,2 1 .. . rp,2 ··· r1,p ··· .. . r2,p .. . ··· 1 3 7 7 7 7 7 7 5 p×p Misura di associazione lineare tra le variabili Osservazioni: • R è simmetrica • R è la forma standardizzata (adimensionale) di Sn • R non dipende da fattore per cui ho diviso (n oppure n − 1) 11 Altre proprietà: • |ri,j | ≤ 1 se ri,j = 0 no correlazione lineare • sgn(ri,j ) indica il tipo di correlazione • |ri,j | = 1 se e solo se xi = axj + b, a, b ∈ R • Se variabili sono standardizzate allora R ≡ Sn Standardizzazione: xi → zi := xi − x̄ s x̄: media, s2 : varianza Studio delle matrici di covarianza e correlazione ha vantaggi/svantaggi 12 Esempio (ex. 1.4 p.18 JW) x1 : ingaggio medio giocatore di Baseball 1977 Squadra x1 x2 A 3 497 900 .623 B 2 485 475 .593 C 1 782 875 .512 D 1 725 450 .500 E 1 645 575 .463 F 1 469 800 .395 Tutte le squadre: r1,2 = 0.892 Tutte tranne la A: r1,2 = 0.930 Tutte tranne le A, B: r1,2 = 0.997 13 x2 : p.vinte/p.perse nel Diagramma di dispersione 1 0.9 0.8 rapporto vinte/perse 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 ingaggio giocatori 14 3 3.5 4 6 x 10 Trasformazione di dati: (x1 , x52 ) 0.1 0.09 0.08 rapporto vinte/perse 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 0.5 1 Nuovo coeff. di correlazione: 1.5 2 2.5 ingaggio giocatori r1,2 = 0.966 15 3 3.5 4 6 x 10 Un solo valore per rappresentare l’informazione: Varianza Campionaria generalizzata det(S) ≡ |S| • det(S) può essere zero ⇒ ⇒ • n≤p x − x̄ colonne lin.dip. rimuovere misure ⇒ |S| = 0 Varianza Campionaria Totale tr(S) := s1,1 + s2,2 + · · · + sp,p (no studio di correlazione) 16 Valori campionari di combinazioni lineari X = [x1 , x2 , . . . , xp ] Combinazione lineare: Xc, c ∈ Rp Proprietà: • Media Campionaria: • Varianza Campionaria: x̄T c V ar(Xc) = cT Sc • b, c ∈ Rp , Covarianza campionaria: Cov([Xb, Xc]) = bT Sc 17 Esempio: Osservazioni metereologiche relative ad un periodo di 11 anni (dal 1920-21 al 1930-31) in una zona agricola inglese. Le variabili rappresentano x1 Pioggia caduta in Novembre e Dicembre (mm.) x2 Temperatura media di Luglio (gradi c.) x3 Pioggia caduta in Luglio (mm.) x4 Radiazione in Luglio (ml.) x5 raccolto medio (in quintali per ettaro) 18 x1 x2 x3 x4 x5 87.9 19.6 1 1661 28.37 89.9 15.2 90.1 968 23.77 153 19.7 56.6 1353 26.04 132.1 17 91 1293 25.74 88.8 18.3 93.7 1153 26.68 220.9 17.8 106.9 1286 24.29 117.7 17.8 65.5 1104 28 109 18.3 41.8 1574 28.37 156.1 17.8 57.4 1222 24.96 181.5 16.8 140.6 902 21.66 181.4 17 74.3 1150 24.37 19 0 1973.3 B B −4.9206 B B S = B 799.56 B B @ −2439.4 −57.214 0 1 B B −0.086584 B B R=B 0.49045 B B @ −0.23872 −0.60744 −4.9206 1.6367 −29.279 217.2 1.7347 −0.086584 −0.6236 0.73804 0.63947 799.56 −2439.4 −29.279 217.2 1346.9 52915 −62.08 361.8 0.49045 1 − 0.6236 1 −0.80818 −0.79779 1 C 1.7347 C C C −62.08 C C C 361.8 A −6822.7 −6822.7 20 −57.214 4.4958 −0.23872 0.73804 −0.80818 1 0.74179 −0.60744 1 C 0.63947 C C C −0.79779 C C C 0.74179 A 1 Distanza (introduzione) Distanza Euclidea: P = (x, y) x ∈ Rn ⇒ ⇒ d(O, P ) = p x2 + y 2 v uX u n 2 d(O, x) = t xi = kxk2 i=1 • d(P, Q) = kP − Qk2 • I punti equidistanti da un punto stanno su una circonferenza • Tutte le coord. trattate in modo uguale 21 Standardizzazione Supponiamo x̄1 = 0, x̄2 = 0 Poniamo: Distanza “Statistica”: ds (O, P ) = p (x∗1 )2 + (x∗2 )2 = s x1 x∗1 = √ , s1,1 x22 x21 + s1,1 s2,2 x2 x∗2 = √ s2,2 (ha senso se s1,1 6= s2,2 ) ⇒ punti equidistanti da O stanno su ellissi (in R2 ) In modo analogo (in Rp ). Poniamo ∆2 = diag(s1,1 , s2,2 , . . . , sp,p ) s (x2 − y2 )2 (xp − yp )2 (x1 − y1 )2 + +···+ =: kP − Qk(∆2 )−1 ds (P, Q) = s1,1 s2,2 sp,p p (x − y)T (∆2 )−1 (x − y) = 22 Distanza di Mahalanobis S matrice di covarianza 2 = kxi − xj k2S −1 = (xi − xj )T S −1 (xi − xj ) Dij Dij usata nel test T 2 di Hotelling e analisi della discriminanza Definizione di distanza: d(P, Q) = d(Q, P ) d(P, Q) > 0 se P 6= Q d(P, Q) = 0 se P = Q d(P, Q) ≤ d(P, R) + d(R, Q) (disuguaglianza triangolare) 23 Misure di similarità Criteri si somiglianza, primo passo per formare/separare gruppi di oggetti (non variabili) Distanze: p • Distanza euclidea d(x, y) = (x − y)T (x − y) p • Distanza Statistica d(x, y) = (x − y)T S −1 (x − y) • Distanza “City-block” d(x, y) = • Distanza di Minkowski d(x, y) = p X i=1 |xi − yi | `Pp m |x − y | i i i=1 ´m Nota: cercare di mantenere le caratteristiche “vere” di una distanza - Anche la matrice di correlazione usata come misura di similarità - Tutti i coeff. di similarità che vedremo in seguito sono adatti 24 Confronto per la presenza/assenza di caratteristiche (variabile binaria) var x 1 0 0 1 1 y 1 1 0 1 0 8 < 0 2 (xi − yi ) = : 1 d= p X j=1 se xi = yi = 1, 0 se xi 6= yi (xi − yi )2 Conta il numero di dissimilarità (d grande se x, y dissimili) Nota: d penalizza la similarità! (0-0 e 1-1 trattati uguali) 25 Altri coefficienti di similarità Consideriamo la tabella 1 0 Totali 1 a b a+b 0 c d c+d Totali a+ c b+d p=a+b+c+d a: frequenza di 1-1 b: frequenza di 1-0, ecc. per l’esempio precedente, a = 2, b = c = d = 1 26 Tabella dei coefficienti di similarità Coeff. di similarità: s(P, Q) con (i) s(P, Q) = s(Q, P ), Coeff. a a+b+c .. . (iii) s(P, Q) % Descrizione a p a+d p s1 (P, Q) = s2 (P, Q) = (ii) s(P, Q) > 0, peso solo per 1-1 pesi uguali per 0-0 e 1-1 zero peso a 0-0 (irrilevanti) ... 27 Esempio: Caratteristiche di 5 individui: # indiv. altezza peso occhi capelli mancino m/f 1 0 0 0 1 1 1 2 1 1 1 0 1 0 3 0 1 0 1 1 0 4 0 0 1 0 1 1 5 1 1 1 0 0 0 altezza: 1 se ≥ 72inc, peso: 1 se ≥ 150lb, occhi: 1 se marron, capelli: 1 se biondi, mancino: 1 se destro, m/f: 1 se femmina. 28 X n × p. Coeff. di similarità 0 6 B B 1 B 1B B 4 6B B B 4 @ 0 Per s1 = a , p (a+d) p per ogni coppia: 1 6 3 6 3 2 6 5 2 2 sarebbe 6 C C C C C = 1 (XX T + (1n 1Tp − X)(1n 1Tp − X)T ) C p C C A 1 XX T p 29 Caso di variabili assenza/presenza Consideriamo due specie A, B ed un terreno diviso in n unità. Le variabili definiscono le categorie: a: # volte ci sono A e B nelle n unità b: # volte c’è A ma non B nelle n unità Contingenza media quadrata: (ad − bc) r= p (a + b)(c + d)(a + c)(b + d) χ2 (r = ) n 2 misura della similarità delle due variabili (grande r 2 implica grande dipendenza delle due variabili) 30 Clusters Scopo: determinare raggruppamenti (clusters) significativi tra dati, senza dover esaminare tutte le possibili configurazioni. • Metodi di agglomerazione. Tecniche gerarchiche e non. • Metodi di separazione ⇒ Fondamentalmente tecniche grafiche. Diagramma risultante: Dendrogramma 31 Metodi di agglomerazione: • Metodi delle K-medie (raggruppamento di oggetti in K gruppi) • Metodi di connessione (linkage). Adatti per raggruppare sia variabili che osservazioni. 1. Single linkage (basati sulla minima distanza) 2. Complete linkage (basati sulla massima distanza) 3. Average linkage (basati sulla distanza media) FIG. 12.3 32 Tipica procedura in un metodo gerarchico agglomerativo: 1. Inizia con n gruppi (singoli oggetti) ed una matrice matrice n × n simmetrica di distanze (o similarità) D 2. Determina la coppia di elementi u e v più vicini (guardando la matrice D) 3. Forma il gruppo (U V ) 4. Aggiorna D sostituendo alle due righe di U e V una sola riga della distanza del gruppo (U V ) dagli altri oggetti. D sarà quindi (n − 1) × (n − 1). 5. Ripeti i passi precedenti 2-4 n − 1 volte ? La matrice D individua la distanza usata ? Step 4 individua il tipo di metodo gerarchico 33 Distanze usate da Matlab ’euclidean’ distanza Euclidea ’seuclidean’ dist. Euclidea standardizzata (dati prima normalizzati dalla varianza di ogni variabile) ’cityblock’ dist. City Block ’mahalanobis’ dist. Mahalanobis ’minkowski’ dist. Minkowski dik = ( xT i xk kxi k kxk k ’cosine’ dik = 1 − ’correlation’ dik = 1 − rik ’spearman’ ’hamming’ Pn dik = 1 − rbik (b rik correlazione per rango) percentuale di coordinate diverse: dik = #(xj,i 6= xj,k )/n ’jaccard’ percentuale di coordinate (non zero) diverse ’chebychev’ dik = maxj |xj,i − xj,k | 34 1 p p j=1 (xj,i − xj,k ) ) Algoritmo Single linkage D: matrice delle distanze minime tra gli oggetti oppure D: matrice delle massime similarità tra gli oggetti massima vicinanza: minima distanza o massima similarità Esempio. D matrice di distanze: 0 0 B B 9 B B D=B B 3 B B 6 @ 11 Step 2. min{di,j } = 2, 1 0 7 0 5 9 0 10 2 8 i = 5, j = 3 35 0 C C C C C C C C A ⇒ (3 5) gruppo Esempio. Continua Step 3. d(35),1 = min{d31 , d51 } = min{3, 11} = 3, d(35),2 = min{d32 , d52 } = . . . = 7 d(35),4 = min{d34 , d54 } = . . . = 8 da cui, la nuova matrice di distanze (prima colonna e riga 0 0 B B 3 B D=B B 7 @ 8 corrispondono al gruppo (35)) 1 0 9 0 6 5 0 C C C C C A → 0 0 B D=B @ 7 6 (35) → (135) → (135), (24) → (12345) 36 1 0 5 0 C C A Dendrogramma 6 5.5 5 distanze 4.5 4 3.5 3 2.5 2 3 5 1 oggetti 37 2 4 Alcune proprietà Nota: nella ricerca di clusters, l’interesse è nei raggruppamenti intermedi 1. Il livello a cui avviene il raggruppamento è importante. Evidenzia l’effettiva distanza. 2. Se D ha minimi uguali con indici diversi, si raggruppano i clusters separatamente 3. Se D ha minimi uguali con indici in comune, si raggruppano solo gli oggetti con stessa distanza. Es. d1,4 = 1, d1,6 = 1, d4,6 = 2 formo i gruppi (14) oppure (16) ma non (146) 4. I clusters (e dendrogramma) rimangono inalterati se si usano distanze che mantengono lo stesso ordine. 38 Complete linkage Come nel single linkage, a parte il calcolo della distanza del cluster dagli altri oggetti: d(uv)i = max{dui , dvi } 0 1 0 B B 9 B B D=B 3 B B @ 6 11 0 7 0 5 9 0 10 2 8 0 C C C C C C C A 0 → (35) → (35)(24) 39 0 B B 11 B B B 10 @ 9 0 1 0 9 0 6 5 1 0 B B 10 @ 11 0 C C C C C A 0 9 0 C C A (35), (124) Dendrogramma 11 10 9 distanze 8 7 6 5 4 3 2 3 5 1 oggetti 40 2 4 n = 7 oggetti, p = 2 variabili. Distanza euclidea tra gli oggetti 1 0 0 2.0 2.0 0 C B B B 5.5 4.0 C B 4.0 0 C B B C B B B 5.0 5.0 C B 4.2 1.1 0 C B B C B B C B X = B 1.5 2.5 C D=B 0 B 0.7 4.2 4.3 C B B B 1.0 1.0 C B 1.4 5.4 5.6 1.5 0 C B B C B B B 7.0 5.0 C B 5.8 1.8 2.0 6.0 7.2 A @ @ 5.7 6.5 5.8 41 2.5 1.6 5.8 7.2 1 C C C C C C C C C C C C C 0 C A 1.9 Scatter plot 8 7 7 6 3 Component 2 5 6 2 4 3 4 1 2 5 1 0 0 1 2 3 4 Component 1 42 5 6 7 8 Dendrogramma single linkage 4 3.5 3 2.5 2 1.5 1 1 4 5 2 3 7 6 3 6 7 complete linkage 7 6 5 4 3 2 1 1 4 5 2 43 Studio di similarità di variabili Aziende di servizi (elettrici ed altro) (TAB 12.5) Matrice di correlazione: 0 B B B B B B B B R = B B B B B B B @ 1.0000 0.6427 −0.1028 −0.0820 −0.2591 −0.1517 0.0448 −0.0134 0.6427 1.0000 −0.3476 −0.0863 −0.2601 −0.0096 0.2114 −0.3277 −0.1028 −0.3476 1.0000 0.1003 0.4354 0.0280 0.1147 0.0052 −0.0820 −0.0863 0.1003 1.0000 0.0335 −0.2879 −0.1642 0.4855 −0.2591 −0.2601 0.4354 0.0335 1.0000 0.1764 −0.0191 −0.0071 −0.1517 −0.0096 0.0280 −0.2879 0.1764 1.0000 −0.3737 −0.5605 0.0448 0.2114 0.1147 −0.1642 −0.0191 −0.3737 1.0000 −0.1851 −0.0134 −0.3277 0.0052 0.4855 −0.0071 −0.5605 −0.1851 1.0000 Correlazione negativa ⇒ grande dissimilarità 44 1 C C C C C C C C C C C C C C C A Dendrogramma single linkage 0.9 distanze 0.8 0.7 0.6 0.5 0.4 1 2 7 3 5 6 4 8 3 5 6 variabili complete linkage 1.6 1.4 distanze 1.2 1 0.8 0.6 0.4 1 2 7 4 8 variabili 45 Studio di similarità di osservazioni. Stesse aziende. Distanza euclidea per D single linkage 2500 distanze 2000 1500 1000 500 0 4 10 15 21 12 17 7 13 20 2 1 3 14 18 22 aziende 9 6 5 8 19 11 16 6 14 18 22 8 19 11 16 complete linkage 14000 12000 distanze 10000 8000 6000 4000 2000 0 4 10 15 21 12 17 2 5 1 3 9 7 13 20 aziende 46 Data on Air-Pollution. Variabili (D correlazione) single linkage distanze 0.8 0.7 0.6 0.5 3 5 4 7 variabili 6 2 1 2 6 1 complete linkage distanze 1.2 1 0.8 0.6 3 5 4 7 variabili 47 Data on Air-Pollution. Osservazioni (D distanza euclidea) single linkage 0.012 distanze 0.01 0.008 0.006 0.004 0.002 0 222617 140 2 5 6 9272915163623 72812371032 4 314312038411133244213181921 82534393035 osservazioni complete linkage 0.08 distanze 0.06 0.04 0.02 0 222617 2 342 140122914312011332418192130 43715163628 5 6 927 7384125343935 813103223 osservazioni 48