METODI DI CLASSIFICAZIONE
Transcript
METODI DI CLASSIFICAZIONE
METODI DI CLASSIFICAZIONE Mario Romanazzi 1 Introduzione Iniziamo la presentazione dei metodi di classificazione con un esempio rappresentativo della problematica generale. Esempio 1 Molti programmi per la gestione della posta al computer comprendono metodi per la classificazione di messaggi posta spazzatura (SPAM) o come posta regolare (NON SPAM). Di solito la classificazione è basata su caratteristiche stilistiche del messaggio, come la frequenza di particolari parole o caratteri. La Tabella 1 mostra un esempio di 5 messaggi, 3 SPAM e 2 NON SPAM sui quali vengono rilevate tre caratteristiche, W1 , W2 e W3 . In ciascun messaggio W1 è la frequenza relativa % della parola mail’, W2 è la frequenza relativa % delle lettere maiuscole e W3 è la frequenza relativa % del carattere !mail’. I dati suggeriscono che W2 e W3 tendono ad assumere valori più elevati nei messaggi SPAM rispetto ai NON SPAM, aiutando dunque a discriminare tra le due classi. W1 non sembra invece avere particolari capacità discriminatorie. CLASSE W1 (%) W2 (%) W3 (%) SPAM 1.21 7.05 0.77 SPAM 0.98 3.46 0.55 SPAM 1.30 2.91 0.83 NON SPAM 1.41 1.04 0.09 NON SPAM 0.85 1.28 0.22 Tabella 1: Caratteristiche stilistiche di messaggi di posta al computer e classificazione come SPAM o NON SPAM. In via del tutto euristica, supponiamo di classificare come SPAM tutti i messaggi tali che W2 > 2% ∩ W3 > 0.5%. Questo criterio può fungere da regola di attribuzione per assegnare messaggi di cui non si conosce la classe di appartenenza ad una delle possibili classi. La Tabella 2 riguarda due messaggi di posta al computer, di classe ignota, su cui sono state però rilevate le caratteristiche W1 , W2 e W3 . In base al criterio precedente, il primo messaggio verrebbe attribuito alla classe NON SPAM, il secondo alla classe SPAM. Quali sono gli elementi che concorrono a definire un modello di classificazione? L’Esempio 1 mostra che ci sono tre elementi principali. 1 1 INTRODUZIONE CLASSE VERA IGNOTA IGNOTA 2 W1 (%) W2 (%) W3 (%) 0.92 1.17 0.16 1.18 3.44 0.75 Tabella 2: Classificazione di messaggi di posta al computer in base a caratteristiche stilistiche. 1. Un insieme S avente come elementi le unità, o oggetti, da classificare (corrispondenti ai messaggi dell’Esempio 1). 2. Una partizione di S in un numero finito M di sottoinsiemi C1 , . . . , CM (corrispondenti alle classi SPAM e NON SPAM dell’Esempio 1). Per definizione di partizione ogni unità appartiene ad una ed una sola classe. 3. Un certo numero di caratteristiche X1 , . . . , Xp , o variabili discriminanti, rilevabili su ogni unità (le caratteristiche stilistiche W1 , W2 , W3 dell’Esempio 1). In pratica le variabili discriminanti sono le componenti di un vettore aleatorio X = (X1 , . . . , Xp )T , la cui distribuzione varia a seconda della classe. Inoltre, ad ogni classe si associa la corrispondente probabilità iniziale pm = P (Cm ), m = 1, . . . , M , operativamente interpretabile come la probabilità che un’unità casualmente estratta da S appartenga a Cm . Un metodo di classificazione è una regola che assegna le unità di S alle classi in modo ottimale. Il criterio di ottimalità naturale è la minimizzazione dell’errore di classificazione. A tale proposito risulta utile rappresentare i risultati di una classificazione mediante la cosiddetta matrice di confusione. La matrice di confusione è una tabella con M righe ed altrettante colonne. Le righe corrispondono alle classi vere cui le unità appartengono mentre le colonne corrispondono alle classi previste o stimate mediante un metodo di classificazione. L’elemento generico della tabella fornisce la probabilità condizionale P (classe stimata Cj |classe vera Ci ) ≡ pij , i, j = 1, . . . , M . Le celle diagonali della matrice forniscono le probabilità condizionali di classificazioni esatte mentre le celle non diagonali forniscono le probabilità condizionali di classificazioni errate. Indichiamo con A l’evento che un’unità casualmente estratta da S sia classificata correttamente. In base al teorema della probabilità totale (vedi Appendice A) otteniamo P (A) = M X m=1 P (Cm )P (classe stimata Cm |classe vera Cm ) = M X pm · pm,m . m=1 La probabilità che un’unità casualmente estratta da S sia classificata erroneamente è P (AC ) = 1 − P (A). La matrice di confusione riveste un’importanza fondamentale perchè permette di valutare i risultati di un metodo di classificazione e di confrontare metodi alternativi. Metodi di classificazione validi avranno valori diagonali della matrice di confusione vicini a 1. La probabilità di classificazione corretta P (A) fornisce un criterio 1 INTRODUZIONE 3 quantitativo scalare, ottenuto ponderando gli elementi della matrice di confusione con le probabilità iniziali, idoneo a riassumere il comportamento complessivo di un metodo di classificazione. Gli Esempi 2 e 3 forniscono illustrazioni molto semplici delle definizioni precedenti. Esempio 2 Su un lontano pianeta maschi e femmine hanno caratteristiche fisiche identiche ma indossano abiti di colore tendenzialmente diverso. In termini specifici, per le femmine la probabilità di vestire di rosso è pari a 0.9 mentre per i maschi è pari a 0.2. Inoltre la probabilità iniziali sono 0.6 per la classe Femmina e 0.4 per la classe Maschio. Sulla scorta di questi dati consideriamo la seguente regola di classificazione: se un individuo veste rosso è classificato femmina, se veste non rosso è classificato maschio. La matrice di confusione è riportata nella Tabella 3. La probabilità che un individuo casualmente scelto sia classificato correttamente è P (A) = 0.6 · 0.9 + 0.4 · 0.8 = 0.86 e la probabilità che sia classificato in modo errato è 1 − P (A) = 0.14. CLASSE VERA FEMMINA MASCHIO CLASSE STIMATA FEMMINA MASCHIO 0.9 0.1 0.2 0.8 Tabella 3: Matrice di confusione della classificazione di maschi e femmine dell’Esempio 2. Esempio 3 Un insetto può appartenere a tre diverse specie, C1 , C2 , C3 , aventi le stesse probabilità iniziali. La variabile discriminante X è la lunghezza dell’addome. Il grafico delle tre funzioni di densità è riportato nella Figura 1. Esso mostra che, per gli insetti di classe C1 , 0.5 ≤ X ≤ 1.5; per quelli di classe C2 , 1 ≤ X ≤ 2; per quelli di classe C3 , 2 ≤ X ≤ 4. È evidente che, se 0.5 ≤ X ≤ 1, l’insetto è di classe C1 e che, se 2 ≤ X ≤ 4, l’insetto è di classe C3 perchè le altre classi hanno densità pari a zero in questi intervalli. Ma come si devono classificare gli insetti con 1 < X ≤ 1.5? Un criterio ragionevole è quello di attribuire l’insetto alla classe con la densità più alta. Pertanto la regola di classificazione è: se 0.5 ≤ X ≤ 1.25 assegna l’insetto a C1 , se 1.25 < X ≤ 2 assegna l’insetto a C2 e se 2 < X ≤ 3 assegna l’insetto a C3 . Valutiamo la corrispondente matrice di confusione. Risulta Z 1.25 p11 = 1.5 Z f1 (x)dx = 0.75 , p12 = Z0.52 f1 (x)dx = 0.25 , p22 = f2 (x)dx = 0.875 , p21 = Z1.25 3 p33 = f3 (x)dx = 1 2 (1) Z1.25 1.25 f2 (x)dx = 0.125 , (2) 1 (3) 2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE 4 Distribuzione Variabile Discriminante 1.5 1.0 0.0 0.5 Densità di Probabilità 2.0 C1 C2 C3 0 1 2 3 4 5 X, lunghezza dell'addome (cm) Figura 1: Funzioni di densità della lunghezza dell’addome per le tre specie di insetti nell’Esempio 3. e gli altri elementi sono pari a zero. La matrice di confusione è riportata nella Tabella 4. La probabilità che un insetto casualmente scelto sia classificato correttamente è P (A) = (0.75 + 0.875 + 1)/3 = 0.875 e la probabilità che sia classificato in modo errato è 1 − P (A) = 0.125. 2 Due fondamentali metodi di classificazione L’Esempio 3 illustra il primo fondamentale metodo di classificazione, che assegna l’unità alla classe per la quale i valori assunti dalle variabili discriminanti hanno la massima densità di probabilità. Esso è generalmente noto come classificatore di massima verosimiglianza. Definizione 4 Consideriamo un’unità con valori osservati delle variabili discriminanti (0) (0) x0 = (x1 , . . . , xp )T . Indichiamo inoltre con f (x0 |Cm ) ≡ fm (x0 ), m = 1, . . . , M , i valori assunti dalle densità di probabilità delle M classi nel punto x0 . Il classificatore di 2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE CLASSE VERA C1 C2 C3 5 CLASSE STIMATA C1 C2 C3 0.75 0.25 0 0.125 0.875 0 0 0 1 Tabella 4: Matrice di confusione della classificazione degli insetti dell’Esempio 3. massima verosimiglianza assegna l’unità alla classe che attribuisce a x0 il massimo valore della densità di probabilità. Nota 5 Il riferimento al metodo di stima di massima verosimiglianza non è casuale. Nei problemi di classificazione il parametro da stimare è la classe cui attribuire l’unità in esame. Esso assume un numero finito, M , di modalità distinte. Dato il valore x0 delle variabili discriminanti, la stima di massima verosimiglianza si ottiene pertanto a) calcolando il corrispondente valore della densità fm (x0 ) per ogni classe e b) individuando ∗ col massimo valore della densità. la classe Cm Il classificatore di massima verosimiglianza è un caso particolare del classificatore di Bayes, basato sull’omonimo teorema (vedi Appendice A). Definizione 6 Nelle stesse ipotesi della Definizione 4, usando il teorema di Bayes, la probabilità finale della classe Cm è pari a: pm · fm (x0 ) , m = 1, · · · , M. P (Cm |x0 ) = PM p · f (x ) i i 0 i=1 Il classificatore di Bayes assegna l’unità alla classe avente massima probabilità finale. Nota 7 La quantità che appare a denominatore delle probabilità finali assume lo stesso valore per tutte le classi ed è pertanto irrilevante per quanto riguarda l’identificazione della classe ottimale. A tal fine basterà determinare la classe col massimo valore di pm · fm (x0 ), o equivalentemente, ln pm + lnfm (x0 ), m = 1, · · · , M . Nota 8 La Nota 7 chiarisce la relazione tra il classificatore di Bayes e quello di massima verosimiglianza. Il classificatore di Bayes pondera i valori delle verosimiglianze fm (x0 ) con le probabilità iniziali pm . Questo permette di integrare l’informazione fornita dalle variabili discriminanti (il valore x0 e le corrispondenti densità) con le probabilità iniziali. Se queste sono costanti, i due classificatori sono equivalenti. Il classificatore di Bayes gode di un’importante proprietà, riportata nel Teorema 9. Teorema 9 Il classificatore di Bayes della Definizione 6 è ottimale, cioè produce il minimo valore della probabilità di classificazioni errate. Una dimostrazione si può trovare nei testi di analisi multivariata, ad esempio Mardia et al., Multivariate Analysis, 1979. 2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE 6 Distribuzione Variabile Discriminante 3 2 0 1 Densità di Probabilità 4 5 C1 C2 −0.3 −0.2 −0.1 0.0 0.1 0.2 0.3 0.4 X, utili/fatturato Figura 2: Funzioni di densità del rapporto utili su fatturato per le due classi di imprese dell’Esempio 11. Nota 10 Il classificatore di Bayes richiede una conoscenza molto dettagliata del problema in esame, in particolare a) le probabilità iniziali e b) le distribuzioni di probabilità delle variabili discriminanti di ogni classe. Pertanto, si potrà essere fiduciosi di aver ottenuto il classificatore ottimale, cioè con la minima probabilità d’errore, solo quando sono disponibili stime attendibili di pm e fm (x0 ), m = 1, . . . , M . Esempio 11 Metodi di classificazione sono frequentemente usati per studiare l’affidabilità, o solvibilità, delle imprese per quanto riguarda la concessione di credito da parte delle banche. In queste indagini, l’universo delle imprese è diviso in due classi C1 e C2 comprendenti rispettivamente le imprese non affidabili e affidabili. Le variabili discriminanti sono indicatori di solvibilità solitamente ricavati dai bilanci. In questo esempio semplificato consideriamo una sola variabile discriminante X, data dal rapporto utili su fatturato, e assumiamo che le funzioni di densità di probabilità siano f1 (x) = (5 − 25x)/2 , −0.2 ≤ x ≤ 0.2 , f2 (x) = (5/2 + 25x)/2 , −0.1 ≤ x ≤ 0.3 . (4) (5) 2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE 7 Il grafico delle due distribuzioni è riportato nella Figura 2. Le probabilità iniziali delle classi sono p1 = 0.8, p2 = 1 − p1 = 0.2. Mostreremo ora che il classificatore di Bayes, in accordo col Teorema 9, è migliore del classificatore di massima verosimiglianza per quanto riguarda la probabilità totale d’errore. Siccome f1 (x) = f2 (x) per x = 0.05, il classificatore di massima verosimiglianza è: • assegna l’unità a C1 se x ≤ 0.05, • assegna l’unità a C2 se x > 0.05. Pertanto (M L) p11 Z 0.05 f1 (x)dx = 0.859375 , = (M L) p22 Z 0.3 f2 (x)dx = 0.859375 , = −0.2 (6) 0.05 (M L) (M L) e P (A)(M L) = p1 · p11 + (1 − p1 ) · p22 = 0.859375. Consideriamo ora il classificatore di Bayes. L’uguaglianza p1 f1 (x) = p2 f2 (x) è verificata per x = 0.14 e il classificatore di Bayes è: • assegna l’unità a C1 se x ≤ 0.14, • assegna l’unità a C2 se x > 0.14. I valori nelle celle diagonali della matrice di confusione sono (B) p11 Z 0.14 f1 (x)dx = 0.9775 , = −0.2 (B) (B) p22 Z 0.3 f2 (x)dx = 0.64 , = (7) 0.14 (B) e P (A)(B) = p1 ·p11 +(1−p1 )·p22 = 0.91. Il risultato conferma la proprietà generale stabilita dal Teorema 9. Il vantaggio del classificatore di Bayes rispetto a quello di massima verosimiglianza è |0.91 − 0.859375| ' 0.05. Esso è causato dall’aumento del valore soglia, da 0.05 a 0.14, determinato dalla ponderazione con le probabilità iniziali. Osserviamo, infine, che mentre la matrice di confusione del classificatore di massima verosimiglianza (M L) (M L) è simmetrica, cioè p12 = p21 , quella del classificatore di Bayes è asimmetrica, con (B) (B) p12 p21 . Ciò significa che, per il classificatore di Bayes, la probabilità di classificare come affidabile un’impresa che non lo è risulta molto più bassa della probabilità di classificare come non affidabile un’impresa che invece lo è, in linea col comportamento molto prudente nella concessione di credito da parte delle banche. 3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE 3 3.1 8 Variabili discriminanti con distribuzione normale Distribuzione normale multivariata La distribuzione normale in p dimensioni è un modello distributivo in base al quale i dati sono simmetricamente disposti attorno ad un centro, il vettore delle medie µ = (µ1 , . . . , µp )T , e la dispersione è controllata dalla matrice di covarianza Σ = (σij ), i, j = 1, . . . , p. Gli elementi diagonali di Σ, σii , sono le varianze delle distribuzioni marginali √ univariate e gli elementi non diagonali, σij = ρij σii σjj , i 6= j, sono le covarianze delle distribuzioni marginali bivariate. Qui −1 ≤ ρij ≤ 1 indica il coefficiente di correlazione lineare della coppia Xi , Xj . Il modello distributivo normale è largamente usato nei problemi di classificazione perchè consente di descrivere classi con posizione e dispersione arbitrarie. Tuttavia, la simmetria ellittica implicita nella distribuzione normale – le curve di livello costante della densità normale sono ellissi in due dimensioni, ellissoidi in tre dimensioni, ecc. – si rivela spesso un’ipotesi restrittiva. In questi casi può essere utile far ricorso alla distribuzione normale sghemba (Azzalini, The Skew-normal Distribution and Related Multivariate Families, Scandinavian Journal of Statistics, 2005). Nel seguito usiamo la simbologia X ∼ Np (µ, Σ) per indicare che il vettore di variabili X = (X1 , . . . , Xp )T ha una distribuzione normale p-dimensionale con vettore delle medie µ e matrice di covarianza Σ. La funzione di densità normale è fX (x) = 1 (2π)p/2 (det Σ)1/2 exp{− 1 2 d (x, µ)} , 2 M dove dM (x, µ) = p (x − µ)T Σ−1 (x − µ) è la distanza di Mahalanobis di x ∈ Rp dal centro µ. Nel caso univariato, p = 1, dM (x, µ) = |x1 −µ1 |/σ11 si riduce al valore assoluto del valore standardizzato di x1 . La Figura 3 mostra le curve di valore costante della densità di due normali bivariate. La densità normale dipende dunque dal valore della distanza di Mahalanobis (al quadrato), assumendo il valore massimo se x = µ. È utile ricordare qualche proprietà di tale distanza. La distanza euclidea di x da µ è dE (x, µ) = p (x − µ)T (x − µ) . Questo mostra che dM (x, µ) = dE (x, µ) se Σ = Ip , dove Ip è la matrice identità d’ordine p, cioè la distanza di Mahalanobis si riduce alla distanza euclidea quando le variabili a) sono linearmente indipendenti (e dunque anche stocasticamente indipendenti, data la particolare struttura di dipendenza della normale multivariata) e b) hanno varianza unitaria. In caso contrario essa è diversa dalla distanza euclidea perchè le variabili sono ponderate con coefficienti dipendenti dagli elementi di Σ−1 . Ad esempio, se Σ = diag(σ11 , . . . , σpp ), −1 −1 allora Σ−1 = diag(σ11 , . . . , σpp )e 3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE Curve di Livello Densità Normale (RHO = 0.3 ) 4 4 6 Curve di Livello Densità Normale (RHO = −0.6 ) 9 0.02 2 2 0.04 0.02 0.04 0.06 0.06 0 Y 0 * 8 * 0.0 Y 0.09 0.07 0.08 0.07 0.05 −2 −2 0.03 0.05 0.01 0.01 −6 −4 −4 0.03 −6 −4 −2 0 2 4 6 −6 −4 −2 X 0 2 4 6 X Figura 3: Curve di livello della densità normale bivariata. v uX p u p (xj − µj )2 T −1 dM (x, µ) = (x − µ) Σ (x − µ) = t , σjj j=1 e dunque la ponderazione prodotta dalla distanza di Mahalanobis equivale in questo caso all’uso della distanza euclidea sui dati standardizzati. È facile verificare che Y = Σ−1/2 (X − µ) ∼ Np (0p , Ip ), cioè le componenti P di Y sono variabili normali standardizzate e stocasticamente indipendenti. Allora p1 Yj2 ha una distribuzione chi-quadrato con p gradi di libertà. Poichè p X Yj2 = Y T Y = (X − µ)T Σ−1 (X − µ) = d2M (X, µ) , 1 il quadrato della distanza di Mahalanobis da µ di un vettore normalmente distribuito ha una distribuzione chi-quadrato con p gradi di libertà. 3.2 Classificatore di Bayes (0) (0) Sia x0 = (x1 , . . . , xp )T il vettore dei valori osservati delle variabili discriminanti. Quando le variabili discriminanti hanno in ogni classe una distribuzione congiunta normale, cioè X|Cm ∼ Np (µm , Σm ), il classificatore di Bayes dipende principalmente dalle distanze di Mahalanobis di x0 dai centri delle classi. Vediamo il risultato in dettaglio. 3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE 10 1. In base alla Nota 7, si deve ricercare max1≤m≤M pm · fm (x0 ) o, equivalentemente, max1≤m≤M ln pm + ln fm (x0 ). Sostituendo l’espressione della densità normale, otteniamo 1 ln pm + ln fm (x0 ) = − {d2M (x0 , µm ) + ln det Σm − 2 ln pm + p ln(2π)} . 2 Il massimo di questa espressione per 1 ≤ m ≤ M coincide col minimo di d2M (x0 , µm )+ ln det Σm − 2 ln pm , pertanto l’unità da classificare verrà assegnata alla classe per cui d2M (x0 , µm ) + ln det Σm − 2 ln pm = (x0 − µm )T Σ−1 m (x0 − µm ) + ln det Σm − 2 ln pm assume il valore minimo. 2. Se le probabilità iniziali sono costanti, nella precedente espressione il termine −2 ln pm diventa irrilevante e l’unità da classificare verrà assegnata alla classe per cui d2M (x0 , µm ) + ln det Σm = (x0 − µm )T Σ−1 m (x0 − µm ) + ln det Σm assume il valore minimo. Questo criterio fornisce anche il classificatore di massima verosimiglianza. 3. Quando le classi sono due, l’unità da classificare verrà assegnata a C1 se d2M (x0 , µ1 ) < d2M (x0 , µ2 ) + 2{ln √ p2 p1 − ln √ }. det Σ1 det Σ2 4. Infine, se le classi sono due e le matrici di covarianza sono uguali, cioè Σ1 = Σ2 = Σ, l’unità da classificare verrà assegnata a C1 se (µ2 − µ1 )T Σ−1 (x0 − p1 µ1 + µ2 ) < ln . 2 p2 Quest’ultima espressione prende il nome di funzione discriminante lineare perchè, a differenza delle precedenti, dipende linearmente da x0 . Esempio 12 I metodi di classificazione sono largamente usati nella diagnostica clinica, per discriminare tra soggetti affetti (classe C1 ) e non affetti (classe C2 ) da particolari patologie. Qui consideriamo un caso univariato. Per diagnosticare una malattia viene impiegato un test clinico X tale che X|C1 ∼ N (µ1 = 5, σ1 = 1.5) e X|C2 ∼ N (µ2 = 3, σ2 = 0.5). Le probabilità iniziali sono p1 = 0.05, p2 = 1 − p1 = 0.95. Dal caso 3) visto sopra, ricaviamo che un’unità verrà assegnata a C1 se 3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE 11 0.8 Distribuzione Variabile Discriminante 0.4 0.0 0.2 Densità di probabilità 0.6 C1 C2 0 2 4 6 8 10 12 X, risultato del test clinico Figura 4: Funzioni di densità del valore del test clinico per i soggetti malati (C1 ) e non malati (C2 ) dell’Esempio 12. I segmenti verticali indicano l’intervallo di attribuzione al gruppo C2 secondo il classificatore di massima verosimiglianza. ( x0 − µ 1 2 x0 − µ 2 2 p1 p2 ) <( ) + 2(ln − ln ) , σ1 σ2 σ1 σ2 cioè x0 − 5 2 x0 − 3 2 ) <( ) − 8.086103 . 1.5 0.5 Dunque un’unità con x0 = 3.5 viene assegnata a C2 mentre un’unità con x0 = 4.5 viene assegnata a C1 . Si può verificare che il classificatore di Bayes è ( • assegna l’unità a C1 se x < 1.143 o x > 4.357, • assegna l’unità a C2 se 1.143 ≤ x ≤ 4.357, mentre il classificatore di massima verosimiglianza è • assegna l’unità a C1 se x < 1.696 o x > 3.804, 4 DATI CAMPIONARI 12 • assegna l’unità a C2 se 1.696 ≤ x ≤ 3.804. La Figura 4 mostra l’andamento delle due funzioni di densità e l’intervallo di attribuzione al gruppo C2 secondo il classificatore di massima verosimiglianza. L’intervallo di attribuzione al gruppo C2 secondo il classificatore di Bayes è più ampio perchè p2 > p1 . Concludiamo l’esempio con la matrice di confusione. Per il classificatore di Bayes, (B) p11 (B) p22 Z 1.143 Z ∞ −∞ Z 4.357 (B) f1 (x)dx ' 0.671 , p12 ' 0.329 , f1 (x)dx + = (B) f2 (x)dx ' 0.997 , p21 ' 0.003 , = (8) 4.357 (9) 1.143 e PB (A) ' 0.980. Per il classificatore di massima verosimiglianza, (M L) p11 (M L) p22 Z 1.696 Z ∞ −∞ Z 3.804 (M L) f1 (x)dx ' 0.801 , p12 f1 (x)dx + = (M L) f2 (x)dx ' 0.941 , p21 = ' 0.199 , (10) 3.804 ' 0.058 , (11) 1.696 e PM L (A) ' 0.935 < PB (A), in accordo col Teorema 9. Anche se la probabilità totale di una classificazone corretta è molto alta, va notato che la probabilità subordinata che il test non scopra che un paziente è malato è elevata, in particolare per il classificatore di Bayes, e questo costituisce un aspetto negativo. 4 Dati campionari In precedenza abbiamo sempre supposto che le probabilità iniziali e le distribuzioni delle variabili discriminanti fossero note. In realtà, le une e le altre devono sempre essere stimate sulla base di dati campionari. Per quanto riguarda le probabilità iniziali pm , m = 1, . . . , M , esse vengono solitamente stimate per mezzo delle frequenze relative nm /n, dove nm è il numero delle unità appartenenti a Cm nel campione osservato mentre n è la numerosità totale del campione. Per quanto riguarda invece le distribuzioni delle variabili discriminanti, ci sono due situazioni molto diverse, a seconda del grado di accuratezza delle nostre informazioni. Se le distribuzioni sono note nella loro forma funzionale, a meno dei parametri che le caratterizzano, si sostituiscono i parametri con le loro stime campionarie e si procede come mostrato nelle sezioni precedenti. È quanto accade quando si assume che le variabili discriminanti abbiano una distribuzione normale. I vettori delle medie µm e le matrici di covarianza Σm sono rimpiazzati dalle loro stime, i vettori delle medie campionarie x̄m e le matrici di covarianza campionarie Sm . Se invece le distribuzioni delle variabili discriminanti non sono note, si ricorre alla loro stima con metodi non parametrici. Un esempio notevole è il cosiddetto k-th nearest neighbour che verrà trattato nella Sezione 5. 4 DATI CAMPIONARI 13 Componenti Principali dei Dati Iris 2 1 2 2 2 2 22 2 2 3 3 2 2 1 0 1 22 1 11 1 1 111 11 1 1 1 1 11 11 1 1 111 111 1 1 11 1 1 1 11 11 1 −1 PC2 (23%) 22 3 2 2 2 3 2 3 22 3 3 22 32 333 2 2 2 2 33 22 2 2 2 22 2 33 2 3 2 2 3 3 2 23 2 3 3 3 2 3 33 2 3 3 2 2 3 3 2 3 2 3 3 33 2 2 2 3 3 3 3 3 3 33 1 1 1 11 −2 1 3 3 33 1 1 3 1 33 1 −3 −2 −1 0 1 2 3 PC1 (73%) Figura 5: Prime due componenti principali dei dati Iris. I dati sono stati preventivamente standardizzati. (1: Iris setosa, 2: Iris versicolour, 3: Iris virginica) Insieme con la regola di classificazione, si deve stimare anche la corrispondente matrice di confusione per valutarne l’accuratezza. La soluzione più semplice è quella di sostituire pij con nij /ni , dove ni è la numerosità del campione da Ci e nij è il numero delle unità del campione da Ci assegnate dal classificatore a Cj , i, j = 1, . . . , M . Purtroppo, questo metodo produce stime ottimistiche che sottovalutano sistematicamente la probabilità di classificazione errate. La ragione è che lo stesso campione viene usato per stimare sia il classificatore che la sua accuratezza, introducendo un’ovvia correlazione. Per risolvere il problema il campione viene diviso in due parti, il campione di stima (training sample) usato per stimare il classificatore, e il campione di verifica test sample) usato per stimare la matrice di confusione. Vari accorgimenti sono impiegati per attenuare la perdita di accuratezza delle stime dovuta alla riduzione della numerosità campionaria. Tra questi il più noto è il leave-one-out. Dal campione di n unità si esclude iterativamente l’unità i-esima, dalle restanti n − 1 unità si ricava la stima del classificatore che viene usato per classificare l’unità non considerata. Questo procedimento ha il pregio di separare quasi completamente la stima del classificatore e delle probabilità d’errore, nello stesso tempo riducendo al minimo la perdita di efficienza delle stime. 4 DATI CAMPIONARI CLASSE VERA C1 C2 C3 14 CLASSE STIMATA Discr. Lineare Discr. Quadratico C1 C2 C3 C1 C2 C3 50 0 0 50 0 0 0 48 2 0 47 3 0 1 49 0 1 49 Tabella 5: Matrice di confusione dei dati Iris dell’Esempio 13. Risultati basati sul classificatore bayesiano con ipotesi di normalità delle varabili discriminanti. Gli elementi della matrice di confusione sono stati ottenuti col metodo leave-one-out. Esempio 13 I dati di questo esempio riguardano l’attribuzione di fiori di iris alle rispettive specie. Ci sono tre classi corrispondenti alle specie Iris setosa (C1 ), Iris versicolour (C2 ), Iris virginica (C3 ). Le variabili discriminanti sono quattro, lunghezza e larghezza dei sepali, lunghezza e larghezza dei petali. Per ciascuna classe abbiamo un campione di 50 elementi. La Figura 5 mostra la proiezione dei dati, preventivamente standardizzati, sulle prime due componenti principali. L’approssimazione è buona dato che la percentuale spiegata della varianza totale supera il 95%. Il grafico suggerisce che Iris setosa abbia caratteristiche completamente diverse da quelle delle altre due specie, mentre Iris versicolour e Iris virginica hanno un certo grado di sovrapposizione. Per la classificazione abbiamo usato la versione campionaria del classificatore bayesiano basato sull’ipotesi di normalità delle variabili discriminanti. I risultati sono stati ottenuti per mezzo delle funzioni R lda e qda che differiscono solo per il trattamento delle matrici di covarianza. La prima si basa sull’ipotesi che le matrici di covarianza dei gruppi siano uguali. Le matrici di confusione campionarie (vedi Tabella 5), ottenute col metodo leave-one-out, sono molto simili e forniscono stime delle probabilità d’errore pari a 2% per la funzione discriminante lineare, 2.67% per quella quadratica. Gli errori riguardano solo Iris versicolour e Iris virginica. Il metodo della convalida incrociata conferma questi risultati. Ciascun campione è stato diviso a caso in un sotto-campione di stima del classificatore e un sotto-campione di verifica di pari numerosità. Il procedimento, ripetuto 20 volte, ha fornito in media le seguenti stime delle probabilità d’errore: 2.2% per la funzione discriminante lineare, 2.4% per quella quadratica. 4.1 Capacità discriminatoria delle variabili Le variabili discriminanti non hanno tutte la stessa importanza ai fini della classificazione ed è pertanto utile riconoscere quelle che riescono meglio a discriminare tra le diverse classi. A tale proposito conviene ricordare il teorema di scomposizione della matrice di covarianza (vedi Appendice B): quando le unità campionarie sono divise in gruppi incompatibili ed esaustivi, la matrice di covarianza campionaria è identicamente uguale alla somma della matrici di covarianza within-groups e between-groups. La seconda componente fornisce la misura della variabilità delle medie dei gruppi rispetto alla media generale ed è interpretabile come una misura del grado di separazione dei gruppi. Quanto 5 K-NEAREST NEIGHBOURS 15 IRIS 6 5 4 3 3.0 3.5 Lunghezza dei Petali ● 2 2.5 Larghezza dei Sepali 4.0 7 IRIS 1 2.0 ● Set Ver Vir Specie ● Set Ver Vir Specie Figura 6: Distribuzione della larghezza dei sepali e della lunghezza dei petali dei dati Iris. maggiore la componente between-groups rispetto a quella within-groups tanto più i gruppi sono coesi e separati. Queste considerazioni suggeriscono di calcolare il rapporto tra gli elementi diagonali della matrice di covarianza between-groups e i corrispondenti elementi diagonali della matrice di covarianza totale, onde ottenere un ordinamento delle variabili secondo la capacità discriminatoria. Esempio 14 Per le variabili dei dati Iris, i rapporti (%) varianza between-groups su varianza totale risultano pari a 61.9, 40.1, 94.1, 92.9. In questo caso tutte le variabili hanno un rapporto abbastanza elevato ma i valori raggiunti dalla terza e quarta variabile, lunghezza e larghezza dei petali, sono eccezionali. La Figura 6 permette di interpretare questi risultati. 5 K-nearest neighbours Il metodo di classificazione K-nearest neighbours (KNN), che si può rendere in italiano come vicini più vicini, è basato su presupposti completamente diversi dai metodi parametrici, come quello discusso nella Sezione 4. Supponiamo di avere un campione di dimensione n, con nm unità appartenenti alla classe Cm , m = 1, . . . , M . Supponiamo inoltre di dover classificare un’unità di cui conosci(0) (0) amo il valore delle variabili discriminanti, indicato con x0 = (x1 , . . . , xp )T . Ricordiamo che x0 si interpreta geometricamente come un punto nello spazio euclideo p-dimensionale. Il primo passo è la costruzione di un intorno di x0 . Si calcolano p i valori d1 , . . . , dn delle distanze euclidee di x0 dai punti campionari x1 , . . . , xn , di = (x0 − xi )T (x0 − xi ), e si 5 K-NEAREST NEIGHBOURS 16 Illustrazione Metodo KNN M ● M 1 ● ● ● F F ● F ● ● 0 M # ● F ● F +F ● −1 ● * F ● F −2 Statura (Unità Standard) M M ● −2 −1 0 1 2 Peso (Unità Standard) K=3 Figura 7: Geometria del metodo di classificazione KNN su dati simulati di peso e statura di due campioni di femmine (F) e maschi (M). I cerchi sono gli intorni dei punti P1 = (58, 163)T (∗), P2 = (70, 174)T (#), P3 = (55, 168)T (+) per K = 3. I dati sono stati preventivamente standardizzati. individua il K-esimo valore nel vettore delle distanze ordinate in senso crescente. Sia d(K) il corrispondente valore numerico. L’intorno di x0 è la sfera p-dimensionale centrata in x0 e avente come raggio d(K) . Se i valori delle distanze di sono distinti, nell’intorno (all’interno della sfera o sulla sua frontiera) ci sono esattamente K punti del campione osservato, i K punti più vicini a x0 . La regola di classificazione è ora ovvia: x0 è assegnato alla classe avente il maggior numero di punti nell’intorno definito in precedenza. Esempio 15 Assumiamo che la distribuzione congiunta di peso e statura sia normale con parametri diversi per femmine e maschi. Specificamente, assumiamo che i vettori delle medie e delle deviazioni standard siano rispettivamente µF = (60, 165)T , µM = (75, 178)T , σF = (8, 10)T , σM = (9, 10)T e che il coefficiente di correlazione lineare sia ρF = ρM = 0.7. Simuliamo due campioni di numerosità nF = 8, nM = 5 dalle due distribuzioni e usiamo questi dati per classificare i tre punti P1 = (58, 163)T , P2 = (70, 174), P3 = (55, 168). Poichè le unità di misura e l’ordine di grandezza delle variabili sono diverse, per evitare distorsioni della distanza euclidea, tutti i dati compresi quelli di P1 , P2 , P3 sono pre-standardizzati usando medie e deviazioni standard del campone totale di nF +nM 5 K-NEAREST NEIGHBOURS 17 unità. Ai fini della classificazione poniamo K = 3, cioè consideriamo intorni di P1 , P2 , P3 comprendenti i tre punti più vicini del campione. La Figura 7 illustra i risultati. Gli intorni di P1 e P3 comprendono tre femmine pertanto i due punti sono classificati come femmine. L’intorno di P2 comprende due maschi e una femmina ed il punto è classificato come maschio. Esaminiamo di seguito alcuni aspetti del metodo KNN. Scelta della distanza La distanza più usata è quella euclidea ma non vanno escluse altre soluzioni come la distanza di Mahalanobis con un’opportuna matrice di ponp T derazione. Nell’Esempio 15 è stata usata la distanza (x − y) D−1 (x − y) con D = diag S dove S è la matrice di covarianza campionaria. Questa scelta equivale alla standardizzazione dei dati. Stima della probabilità d’errore. Per ottenere stime non distorte si divide il campione in due sotto-campioni disgiunti usati rispettivamente per la stima del classificatore e la sua verifica. Le unità del campione di verifica sono classificate usando le unità del campione di stima per costruire gli intorni. Il metodo leave-one-out è molto popolare. In questo caso ogni unità campionaria è usata a turno come centro dell’intorno ed è classificata usando le restanti n − 1 unità. Valore di K È raccomandabile usare il valore di K che minimizza la stima della probabilità d’errore. C’è un legame del KNN con i metodi di riferimento, il classificatore di Bayes e quello di massima verosimiglianza? Consideriamo un generico punto x0 dello spazio e sia ∆(K) la misura dell’intorno di x0 (l’area per p = 2, il volume per p = 3, ecc.). Indichiamo inoltre con nm /K la frequenza relativa della classe Cm nell’intorno, m = 1, . . . , M . Il rapporto nm /(K∆(K) è una stima di fm (x0 ), la densità di probabilità nel punto x0 della classe Cm e converge a fm (x0 ) al divergere della numerosità campionaria per ogni fissato valore di K. Pertanto KNN si basa su un principio simile a quello del classificatore di massima verosimiglianza, salvo il fatto che i valori delle funzioni di densità sono stimati con un metodo non parametrico. Esempio 16 Riconsideriamo i dati Iris usando questa volta il classificatore KNN. Vista l’eterogeneità delle deviazioni standard delle variabili i dati sono stati standardizzati. Il valore ottimale di K (vedi Figura 8) è pari a 13 e produce una stima della probabilità d’errore pari a 3.33%, di poco peggiore del classificatore bayesiano basato sull’ipotesi di normalità. Il procedimento di convalida incrociata, eseguito come nell’Esempio 13 fornisce una stima pari a 5.8%. A APPENDICE. PROBABILITÀ TOTALE E FORMULA DI BAYES 18 50 KNN con Dati Iris ● ● ● ● ● 20 30 ● ● ● ● ● ● ● ● 10 Stima Probabilità d'Errore (%) 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● 0 20 40 60 80 100 K Leave−one−out Figura 8: KNN con dati Iris. Andamento della stima col metodo leave-one-out della probabilità d’errore al variare di K. I dati sono stati preventivamente standardizzati. A Appendice. Probabilità totale e formula di Bayes Consideriamo un evento casuale E che può verificarsi in concomitanza con eventi A1 , . . . , AM , M ≥ 2, che formano una partizione dello spazio campionario S. Per definizione gli eventi Am sono a) a due a due incompatibili, cioè non hanno eventi elementari in comune, e b) la loro unione dà l’intero spazio campionario. Quando si studiano i risultati di un test, E è l’evento “un soggetto, scelto casualmente, supera il test” e la partizione dello spazio campionario comprende gli eventi A1 : “il soggetto non è preparato” e A2 : “il soggetto è preparato”. Nel controllo di qualità, in cui si deve valutare se un lotto di prodotti è accettabile, E è l’evento “il controllo di un campione casuale di n pezzi del lotto ha evidenziato la presenza di 0 ≤ k ≤ n pezzi difettosi” e la partizione è formata da A1 : “il lotto non è conforme allo standard di qualità”, A2 : “il lotto è conforme allo standard di qualità”. Nella diagnosi di una malattia mediante test clinici, E è l’evento “un soggetto è risultato positivo al test” e la partizione è la coppia di eventi A1 : “il soggetto è malato”, A2 : “il soggetto non è malato”. Supponiamo di conoscere le probabilità P (Am ) degli eventi della partizione e anche le probabilità subordinate P (E|Am ), m = 1, . . . , M . Il problema risolto dal teorema della A APPENDICE. PROBABILITÀ TOTALE E FORMULA DI BAYES 19 probabilità totale è la probabilità non subordinata di E. Teorema 17 (Probabilità totale) La probabilità totale di E è P (E) = M X P (Am )P (E|Am ) m=1 Dimostrazione. Vale la seguente identità: E = E ∩ S = E ∩ (∪M m=1 Am ) M = ∪m=1 (E ∩ Am ) , (12) (13) in cui gli eventi E ∩Am , m = 1, . . . , M , sono a due a due incompatibili. Possiamo pertanto usare l’assioma di addività e scrivere P (E) = P (∪M m=1 (E ∩ Am )) = M X P (E ∩ Am ) . m=1 Per il teorema del prodotto, P (E ∩ Am ) = P (Am )P (E|Am ), pertanto P (E) = M X P (E ∩ Am ) = m=1 M X P (Am )P (E|Am ) . m=1 La formula di Bayes riguarda le probabilità subordinate degli eventi Am se è noto che l’evento E si è verificato. Teorema 18 (Formula di Bayes) Per m = 1, . . . , M , la probabilità subordinata P (Am |E) è P (Am )P (E|Am ) P (Am |E) = PM j=1 P (Aj )P (E|Aj ) Dimostrazione. La dimostrazione è basata sulla definizione di probabilità subordinata: P (Am |E) = P (Am ∩ E) . P (E) La formula di Bayes si ottiene sostituendo a) a numeratore, ancora per la regola del prodotto, P (Am )P (E|Am ) e b) a denominatore la probabilità totale di E. A APPENDICE. PROBABILITÀ TOTALE E FORMULA DI BAYES 20 Esempio 19 Un test comprende 10 domande indipendenti l’una dall’altra. Per ogni domanda sono fornite tre risposte, una sola delle quali è esatta. Se uno studente è preparato, sceglie la risposta esatta di ogni domanda con probabilità 0.8. Se uno studente non è preparato, sceglie a caso la risposta di ogni domanda. La probabilità che uno studente sia preparato si assume pari a 0.7. Il test è considerato sufficiente con almeno 6 risposte esatte. Vogliamo calcolare a) la probabilità che uno studente superi il test, qualunque sia la sua preparazione e b) la probabilità che uno studente, pur avendo superato il test, sia in realtà non preparato. a) Indichiamo con A l’evento che uno studente casualmente scelto sia preparato e con AC il suo complementare. Indichiamo inoltre con E l’evento che uno studente superi il test. La probabilità richiesta è chiaramente la probabilità totale P (E) = P (A)P (E|A) + P (AC )P (E|AC ) , (14) con P (A) = 0.7. Ma come si valutano P (E|A) e P (E|AC )? Data la struttura del test, con domande indipendenti, possiamo vederlo come un insieme di 10 prove dicotomiche indipendenti con probabilità p costante di successo. Il numero dei successi (successo qui significa risposta esatta) è una variabile aleatoria binomiale Bi(n = 10, p) e la probabilità di superare il test è 10 X 10 x=6 x px (1 − p)10−x . (15) Se lo studente è preparato p = 0.8 e dalla (15) otteniamo P (E|A) = 0.9672065. Se lo studente non è preparato, cerca di indovinare la risposta esatta. In tal caso p = 1/3 e dalla (15) otteniamo P (E|AC ) = 0.07656353. Inserendo i due risultati nella (14) otteniamo infine P (E) = 0.7000136. b) Dobbiamo trovare P (AC |E). Usando la formula di Bayes P (AC |E) = 0.02296905 P (AC )P (E|AC ) = = 0.03281229 . P (E) 0.7000136 Questo risultato va confrontato con la probabilità iniziale P (AC ) = 0.3. Se è noto che lo studente ha passato il test, la probabilità che non sia preparato scende a 0.03281229, circa un decimo del valore iniziale. La differenza fornisce la misura dell’efficacia della prova per discriminare tra studenti preparati e non. Si può rendere il test ancor più selettivo? Basta, ad esempio, aumentare il numero delle alternative per ogni domanda. È facile verificare che, se ci sono quattro alternative per ogni domanda, P (E|A) rimane invariata mentre P (E|AC ) = 0.01972771, P (E) = 0.6829629 e P (AC |E) = 0.005918313/0.6829629 = 0.008665643 < 0.01. B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA B 21 Appendice. Teorema di scomposizione della varianza Consideriamo un vettore aleatorio p-dimensionale X = (X1 , . . . , Xp )T con valore atteso E(X) = µ = (µ1 , . . . , µp )T , con µi = E(Xi ), i = 1, . . . , p, e matrice di covarianza V (X) = Σ = (σij ), dove σii = σi2 = E{(Xi − µi )2 } è la varianza di Xi , i = 1, . . . , p, e σij = E{(Xi − µi )(Xj − µj )} è la covarianza di Xi e Xj , i, j = 1, . . . , p, i 6= j. Supponiamo inoltre che lo spazio campionario sia dotato di una partizione di eventi Cm con probabilità pm = P (Cm ), m = 1, . . . , M . Gli eventi Cm sono spesso interpretabili come gruppi o classi in cui una popolazione è suddivisa. In tale ipotesi i vettori aleatori subordinati X|Cm , m = 1, . . . , M hanno, in generale, distribuzioni diverse. Per m = 1, . . . , M indichiamo con µ(m) e Σ(m) il vettore dei valori medi e la matrice di covarianza di X|Cm . Il teorema di scomposizione della varianza descrive la relazione tra le matrici di covarianza subordinate, Σ(m) , e quella non subordinata, Σ. Preliminare ad esso è un semplice lemma che descrive invece la relazione tra valori medi subordinati, µ(m) , e quello non subordinato, µ. Lemma 20 Se gli eventi {C1 , . . . , CM } sono una partizione dello spazio campionario S con pm = P (Cm ), m = 1, . . . , M , allora il valore atteso di X è identicamente uguale alla media ponderata dei valori attesi di X|Cm : µ = E(X) = EC (E(X|Cm )) = M X P (Cm )E(X|Cm ) (16) m=1 = M X pm µ(m) . (17) m=1 Indichiamo con ΣW e ΣB le matrici di covarianza within-groups e between-groups le cui espressioni sono rispettivamente uguali a ΣW = ΣB = = M X m=1 M X m=1 M X P (Cm )V (X|Cm ) = M X pm Σ(m) , (18) m=1 P (Cm )(E(X|Cm ) − E(X))(E(X|Cm ) − E(X))T (19) pm (µ(m) − µ)(µ(m) − µ)T . (20) m=1 Teorema 21 Se gli eventi {C1 , . . . , CM } sono una partizione dello spazio campionario S con pm = P (Cm ), m = 1, . . . , M , allora la matrice di covarianza di X è identicamente uguale alla somma delle matrici di covarianza within-groups e between-groups: B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA 22 Σ = V (X) = EC (V (X|Cm ) + VC (E(X|Cm ) M M X X = pm Σ(m) + pm (µ(m) − µ)(µ(m) − µ)T m=1 (21) (22) m=1 = Σ W + ΣB . (23) Qui i simboli EC (.) e VC (.) indicano gli operatori valore atteso e varianza rispetto agli eventi della partizione {C1 , . . . , CM }. Nel caso campionario, il Lemma 20 e il Teorema 21 continuano a valere, con parametri delle distribuzioni rimpiazzati dalle rispettive stime, le mede campionarie e le matrici di covarianza campionarie, quest’ultime con divisore pari alla numerosità campionaria. Per maggior chiarezza ne riportiamo di seguito l’espressione. M X nm (m) x̄ , x̄ = n m=1 (24) M M X nm (m) X nm (m) S = S + (x̄ − x̄)(x̄(m) − x̄)T n n m=1 m=1 (25) = SW + SB . (26) Esempio 22 In un campione di studenti universitari comprendente nF = 63 femmine e nM = 71 maschi abbiamo rilevato i dati del peso (X1 , kg) e della statura (X2 , cm). La Figura 9 mostra la distribuzione congiunta delle vriabili. I vettori delle medie e le matrici di covarianza dei due gruppi sono riportati di seguito. x x (F ) (M ) = = 56.31905 166.6317 75.8338 180.8211 , S (F ) , S (M ) = = 51.93011 12.18654 12.18654 34.82217 114.66590 40.86253 40.86253 36.41096 , (27) . (28) Qual è la matrice di covarianza complessiva? E qual è la frazione della varianza complessiva attribuibile alle differenze tra le medie dei due gruppi? Iniziamo a rispondere ai due quesiti calcolando la media complessiva come media ponderata delle medie parziali. nF (F ) nM (M ) 63 x= x + x = n n 134 56.31905 166.6317 71 + 134 75.8338 180.8211 = 66.6590 174.1500 . Iniziamo ad usare il teorema di scomposizione della varianza calcolando la matrice di covarianza within-groups. Essa è la media ponderata delle matrici di covarianza parziali. B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA ● ● 23 ● F M ● 190 ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● 180 ● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ●● 170 Statura (cm) ● ● ● ● ●● ●● ● ●● ● ●● ● ● ●●● 160 ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● 40 ● 50 60 70 80 90 100 Peso (kg) Figura 9: Diagramma di dispersione del peso e della statura di un campione di studenti (F: femmina, M: maschio). nF (F ) nM (M ) S + S n n 63 71 51.93011 12.18654 114.66590 40.86253 = + 40.86253 36.41096 134 12.18654 34.82217 134 85.17072 27.38053 ' . 27.38053 35.66399 SW = Calcoliamo ora la matrice di covarianza between-groups, definita come la matrice di varianza delle medie parziali. B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA nF (F ) nM (M ) x − x (x(F ) − x)T + x − x (x(M ) − x)T n n 63 71 −10.33995 9.1748 −10.33995 −7.5183 + = −7.5183 134 134 6.6711 71 63 106.91457 77.73885 84.17696 61.20601 + = 77.73885 56.52483 134 134 61.20601 44.50358 94.867 68.979 ' . 68.979 50.155 24 SB = 9.1748 6.6711 Siamo giunti al passaggio finale. La matrice di covarianza S è la somma delle matrici di covarianza within-groups e between-groups: S = SW + SB 85.171 27.381 94.867 68.979 180.038 96.360 ' + = . 27.381 35.664 68.979 50.155 96.360 85.819 Siamo ora in grado di calcolare la frazione della varianza totale dovuta alle differenze (B) delle medie parziali dalla media generale. Per il peso, X1 , il rapporto s11 /s11 è circa pari (B) a 52.7% mentre per la statura, X2 , il rapporto s22 /s22 è leggermente più alto, 58.4%. In entrambi i casi il rapporto è elevato indicando un importante contributo delle differenze tra le medie parziali alla variabilità generale. In questo esempio, il peso relativo della variabilità entro i gruppi e della variabilità tra i gruppi è simile.