METODI DI CLASSIFICAZIONE

Transcript

METODI DI CLASSIFICAZIONE
METODI DI CLASSIFICAZIONE
Mario Romanazzi
1
Introduzione
Iniziamo la presentazione dei metodi di classificazione con un esempio rappresentativo
della problematica generale.
Esempio 1 Molti programmi per la gestione della posta al computer comprendono metodi
per la classificazione di messaggi posta spazzatura (SPAM) o come posta regolare (NON
SPAM). Di solito la classificazione è basata su caratteristiche stilistiche del messaggio,
come la frequenza di particolari parole o caratteri. La Tabella 1 mostra un esempio di
5 messaggi, 3 SPAM e 2 NON SPAM sui quali vengono rilevate tre caratteristiche, W1 ,
W2 e W3 . In ciascun messaggio W1 è la frequenza relativa % della parola mail’, W2 è la
frequenza relativa % delle lettere maiuscole e W3 è la frequenza relativa % del carattere
!mail’. I dati suggeriscono che W2 e W3 tendono ad assumere valori più elevati nei
messaggi SPAM rispetto ai NON SPAM, aiutando dunque a discriminare tra le due classi.
W1 non sembra invece avere particolari capacità discriminatorie.
CLASSE
W1 (%) W2 (%) W3 (%)
SPAM
1.21
7.05
0.77
SPAM
0.98
3.46
0.55
SPAM
1.30
2.91
0.83
NON SPAM
1.41
1.04
0.09
NON SPAM
0.85
1.28
0.22
Tabella 1: Caratteristiche stilistiche di messaggi di posta al computer e classificazione
come SPAM o NON SPAM.
In via del tutto euristica, supponiamo di classificare come SPAM tutti i messaggi tali
che W2 > 2% ∩ W3 > 0.5%. Questo criterio può fungere da regola di attribuzione per
assegnare messaggi di cui non si conosce la classe di appartenenza ad una delle possibili
classi. La Tabella 2 riguarda due messaggi di posta al computer, di classe ignota, su cui
sono state però rilevate le caratteristiche W1 , W2 e W3 . In base al criterio precedente, il
primo messaggio verrebbe attribuito alla classe NON SPAM, il secondo alla classe SPAM.
Quali sono gli elementi che concorrono a definire un modello di classificazione? L’Esempio 1 mostra che ci sono tre elementi principali.
1
1 INTRODUZIONE
CLASSE VERA
IGNOTA
IGNOTA
2
W1 (%) W2 (%) W3 (%)
0.92
1.17
0.16
1.18
3.44
0.75
Tabella 2: Classificazione di messaggi di posta al computer in base a caratteristiche
stilistiche.
1. Un insieme S avente come elementi le unità, o oggetti, da classificare (corrispondenti
ai messaggi dell’Esempio 1).
2. Una partizione di S in un numero finito M di sottoinsiemi C1 , . . . , CM (corrispondenti alle classi SPAM e NON SPAM dell’Esempio 1). Per definizione di partizione
ogni unità appartiene ad una ed una sola classe.
3. Un certo numero di caratteristiche X1 , . . . , Xp , o variabili discriminanti, rilevabili
su ogni unità (le caratteristiche stilistiche W1 , W2 , W3 dell’Esempio 1).
In pratica le variabili discriminanti sono le componenti di un vettore aleatorio X =
(X1 , . . . , Xp )T , la cui distribuzione varia a seconda della classe. Inoltre, ad ogni classe si
associa la corrispondente probabilità iniziale pm = P (Cm ), m = 1, . . . , M , operativamente
interpretabile come la probabilità che un’unità casualmente estratta da S appartenga a
Cm .
Un metodo di classificazione è una regola che assegna le unità di S alle classi in modo
ottimale. Il criterio di ottimalità naturale è la minimizzazione dell’errore di classificazione.
A tale proposito risulta utile rappresentare i risultati di una classificazione mediante la
cosiddetta matrice di confusione. La matrice di confusione è una tabella con M righe
ed altrettante colonne. Le righe corrispondono alle classi vere cui le unità appartengono mentre le colonne corrispondono alle classi previste o stimate mediante un metodo
di classificazione. L’elemento generico della tabella fornisce la probabilità condizionale
P (classe stimata Cj |classe vera Ci ) ≡ pij , i, j = 1, . . . , M . Le celle diagonali della matrice
forniscono le probabilità condizionali di classificazioni esatte mentre le celle non diagonali
forniscono le probabilità condizionali di classificazioni errate. Indichiamo con A l’evento
che un’unità casualmente estratta da S sia classificata correttamente. In base al teorema
della probabilità totale (vedi Appendice A) otteniamo
P (A) =
M
X
m=1
P (Cm )P (classe stimata Cm |classe vera Cm ) =
M
X
pm · pm,m .
m=1
La probabilità che un’unità casualmente estratta da S sia classificata erroneamente
è P (AC ) = 1 − P (A). La matrice di confusione riveste un’importanza fondamentale
perchè permette di valutare i risultati di un metodo di classificazione e di confrontare
metodi alternativi. Metodi di classificazione validi avranno valori diagonali della matrice
di confusione vicini a 1. La probabilità di classificazione corretta P (A) fornisce un criterio
1 INTRODUZIONE
3
quantitativo scalare, ottenuto ponderando gli elementi della matrice di confusione con le
probabilità iniziali, idoneo a riassumere il comportamento complessivo di un metodo di
classificazione.
Gli Esempi 2 e 3 forniscono illustrazioni molto semplici delle definizioni precedenti.
Esempio 2 Su un lontano pianeta maschi e femmine hanno caratteristiche fisiche identiche ma indossano abiti di colore tendenzialmente diverso. In termini specifici, per le
femmine la probabilità di vestire di rosso è pari a 0.9 mentre per i maschi è pari a 0.2.
Inoltre la probabilità iniziali sono 0.6 per la classe Femmina e 0.4 per la classe Maschio. Sulla scorta di questi dati consideriamo la seguente regola di classificazione: se un
individuo veste rosso è classificato femmina, se veste non rosso è classificato maschio.
La matrice di confusione è riportata nella Tabella 3. La probabilità che un individuo
casualmente scelto sia classificato correttamente è
P (A) = 0.6 · 0.9 + 0.4 · 0.8 = 0.86
e la probabilità che sia classificato in modo errato è 1 − P (A) = 0.14.
CLASSE VERA
FEMMINA
MASCHIO
CLASSE STIMATA
FEMMINA MASCHIO
0.9
0.1
0.2
0.8
Tabella 3: Matrice di confusione della classificazione di maschi e femmine dell’Esempio 2.
Esempio 3 Un insetto può appartenere a tre diverse specie, C1 , C2 , C3 , aventi le stesse
probabilità iniziali. La variabile discriminante X è la lunghezza dell’addome. Il grafico
delle tre funzioni di densità è riportato nella Figura 1. Esso mostra che, per gli insetti
di classe C1 , 0.5 ≤ X ≤ 1.5; per quelli di classe C2 , 1 ≤ X ≤ 2; per quelli di classe
C3 , 2 ≤ X ≤ 4. È evidente che, se 0.5 ≤ X ≤ 1, l’insetto è di classe C1 e che, se
2 ≤ X ≤ 4, l’insetto è di classe C3 perchè le altre classi hanno densità pari a zero in
questi intervalli. Ma come si devono classificare gli insetti con 1 < X ≤ 1.5? Un criterio
ragionevole è quello di attribuire l’insetto alla classe con la densità più alta. Pertanto la
regola di classificazione è: se 0.5 ≤ X ≤ 1.25 assegna l’insetto a C1 , se 1.25 < X ≤ 2
assegna l’insetto a C2 e se 2 < X ≤ 3 assegna l’insetto a C3 .
Valutiamo la corrispondente matrice di confusione. Risulta
Z
1.25
p11 =
1.5
Z
f1 (x)dx = 0.75 , p12 =
Z0.52
f1 (x)dx = 0.25 ,
p22 =
f2 (x)dx = 0.875 , p21 =
Z1.25
3
p33 =
f3 (x)dx = 1
2
(1)
Z1.25
1.25
f2 (x)dx = 0.125 ,
(2)
1
(3)
2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE
4
Distribuzione Variabile Discriminante
1.5
1.0
0.0
0.5
Densità di Probabilità
2.0
C1
C2
C3
0
1
2
3
4
5
X, lunghezza dell'addome (cm)
Figura 1: Funzioni di densità della lunghezza dell’addome per le tre specie di insetti
nell’Esempio 3.
e gli altri elementi sono pari a zero. La matrice di confusione è riportata nella Tabella 4.
La probabilità che un insetto casualmente scelto sia classificato correttamente è
P (A) = (0.75 + 0.875 + 1)/3 = 0.875
e la probabilità che sia classificato in modo errato è 1 − P (A) = 0.125.
2
Due fondamentali metodi di classificazione
L’Esempio 3 illustra il primo fondamentale metodo di classificazione, che assegna l’unità alla classe per la quale i valori assunti dalle variabili discriminanti hanno la massima densità di probabilità. Esso è generalmente noto come classificatore di massima
verosimiglianza.
Definizione 4 Consideriamo un’unità con valori osservati delle variabili discriminanti
(0)
(0)
x0 = (x1 , . . . , xp )T . Indichiamo inoltre con f (x0 |Cm ) ≡ fm (x0 ), m = 1, . . . , M , i
valori assunti dalle densità di probabilità delle M classi nel punto x0 . Il classificatore di
2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE
CLASSE VERA
C1
C2
C3
5
CLASSE STIMATA
C1
C2
C3
0.75 0.25
0
0.125 0.875
0
0
0
1
Tabella 4: Matrice di confusione della classificazione degli insetti dell’Esempio 3.
massima verosimiglianza assegna l’unità alla classe che attribuisce a x0 il massimo valore
della densità di probabilità.
Nota 5 Il riferimento al metodo di stima di massima verosimiglianza non è casuale.
Nei problemi di classificazione il parametro da stimare è la classe cui attribuire l’unità
in esame. Esso assume un numero finito, M , di modalità distinte. Dato il valore x0
delle variabili discriminanti, la stima di massima verosimiglianza si ottiene pertanto a)
calcolando il corrispondente valore della densità fm (x0 ) per ogni classe e b) individuando
∗
col massimo valore della densità.
la classe Cm
Il classificatore di massima verosimiglianza è un caso particolare del classificatore di
Bayes, basato sull’omonimo teorema (vedi Appendice A).
Definizione 6 Nelle stesse ipotesi della Definizione 4, usando il teorema di Bayes, la
probabilità finale della classe Cm è pari a:
pm · fm (x0 )
, m = 1, · · · , M.
P (Cm |x0 ) = PM
p
·
f
(x
)
i
i
0
i=1
Il classificatore di Bayes assegna l’unità alla classe avente massima probabilità finale.
Nota 7 La quantità che appare a denominatore delle probabilità finali assume lo stesso
valore per tutte le classi ed è pertanto irrilevante per quanto riguarda l’identificazione della
classe ottimale. A tal fine basterà determinare la classe col massimo valore di pm · fm (x0 ),
o equivalentemente, ln pm + lnfm (x0 ), m = 1, · · · , M .
Nota 8 La Nota 7 chiarisce la relazione tra il classificatore di Bayes e quello di massima
verosimiglianza. Il classificatore di Bayes pondera i valori delle verosimiglianze fm (x0 )
con le probabilità iniziali pm . Questo permette di integrare l’informazione fornita dalle
variabili discriminanti (il valore x0 e le corrispondenti densità) con le probabilità iniziali.
Se queste sono costanti, i due classificatori sono equivalenti.
Il classificatore di Bayes gode di un’importante proprietà, riportata nel Teorema 9.
Teorema 9 Il classificatore di Bayes della Definizione 6 è ottimale, cioè produce il minimo valore della probabilità di classificazioni errate. Una dimostrazione si può trovare
nei testi di analisi multivariata, ad esempio Mardia et al., Multivariate Analysis, 1979.
2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE
6
Distribuzione Variabile Discriminante
3
2
0
1
Densità di Probabilità
4
5
C1
C2
−0.3
−0.2
−0.1
0.0
0.1
0.2
0.3
0.4
X, utili/fatturato
Figura 2: Funzioni di densità del rapporto utili su fatturato per le due classi di imprese
dell’Esempio 11.
Nota 10 Il classificatore di Bayes richiede una conoscenza molto dettagliata del problema in esame, in particolare a) le probabilità iniziali e b) le distribuzioni di probabilità
delle variabili discriminanti di ogni classe. Pertanto, si potrà essere fiduciosi di aver ottenuto il classificatore ottimale, cioè con la minima probabilità d’errore, solo quando sono
disponibili stime attendibili di pm e fm (x0 ), m = 1, . . . , M .
Esempio 11 Metodi di classificazione sono frequentemente usati per studiare l’affidabilità,
o solvibilità, delle imprese per quanto riguarda la concessione di credito da parte delle
banche. In queste indagini, l’universo delle imprese è diviso in due classi C1 e C2 comprendenti rispettivamente le imprese non affidabili e affidabili. Le variabili discriminanti
sono indicatori di solvibilità solitamente ricavati dai bilanci. In questo esempio semplificato consideriamo una sola variabile discriminante X, data dal rapporto utili su fatturato,
e assumiamo che le funzioni di densità di probabilità siano
f1 (x) = (5 − 25x)/2 , −0.2 ≤ x ≤ 0.2 ,
f2 (x) = (5/2 + 25x)/2 , −0.1 ≤ x ≤ 0.3 .
(4)
(5)
2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE
7
Il grafico delle due distribuzioni è riportato nella Figura 2. Le probabilità iniziali delle
classi sono p1 = 0.8, p2 = 1 − p1 = 0.2. Mostreremo ora che il classificatore di Bayes, in
accordo col Teorema 9, è migliore del classificatore di massima verosimiglianza per quanto
riguarda la probabilità totale d’errore. Siccome f1 (x) = f2 (x) per x = 0.05, il classificatore
di massima verosimiglianza è:
• assegna l’unità a C1 se x ≤ 0.05,
• assegna l’unità a C2 se x > 0.05.
Pertanto
(M L)
p11
Z
0.05
f1 (x)dx = 0.859375 ,
=
(M L)
p22
Z
0.3
f2 (x)dx = 0.859375 ,
=
−0.2
(6)
0.05
(M L)
(M L)
e P (A)(M L) = p1 · p11 + (1 − p1 ) · p22 = 0.859375.
Consideriamo ora il classificatore di Bayes. L’uguaglianza p1 f1 (x) = p2 f2 (x) è verificata per x = 0.14 e il classificatore di Bayes è:
• assegna l’unità a C1 se x ≤ 0.14,
• assegna l’unità a C2 se x > 0.14.
I valori nelle celle diagonali della matrice di confusione sono
(B)
p11
Z
0.14
f1 (x)dx = 0.9775 ,
=
−0.2
(B)
(B)
p22
Z
0.3
f2 (x)dx = 0.64 ,
=
(7)
0.14
(B)
e P (A)(B) = p1 ·p11 +(1−p1 )·p22 = 0.91. Il risultato conferma la proprietà generale stabilita dal Teorema 9. Il vantaggio del classificatore di Bayes rispetto a quello di massima
verosimiglianza è |0.91 − 0.859375| ' 0.05. Esso è causato dall’aumento del valore soglia,
da 0.05 a 0.14, determinato dalla ponderazione con le probabilità iniziali. Osserviamo,
infine, che mentre la matrice di confusione del classificatore di massima verosimiglianza
(M L)
(M L)
è simmetrica, cioè p12 = p21 , quella del classificatore di Bayes è asimmetrica, con
(B)
(B)
p12 p21 . Ciò significa che, per il classificatore di Bayes, la probabilità di classificare
come affidabile un’impresa che non lo è risulta molto più bassa della probabilità di classificare come non affidabile un’impresa che invece lo è, in linea col comportamento molto
prudente nella concessione di credito da parte delle banche.
3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE
3
3.1
8
Variabili discriminanti con distribuzione normale
Distribuzione normale multivariata
La distribuzione normale in p dimensioni è un modello distributivo in base al quale i
dati sono simmetricamente disposti attorno ad un centro, il vettore delle medie µ =
(µ1 , . . . , µp )T , e la dispersione è controllata dalla matrice di covarianza Σ = (σij ), i, j =
1, . . . , p. Gli elementi diagonali di Σ, σii , sono le varianze delle distribuzioni marginali
√
univariate e gli elementi non diagonali, σij = ρij σii σjj , i 6= j, sono le covarianze delle
distribuzioni marginali bivariate. Qui −1 ≤ ρij ≤ 1 indica il coefficiente di correlazione
lineare della coppia Xi , Xj .
Il modello distributivo normale è largamente usato nei problemi di classificazione
perchè consente di descrivere classi con posizione e dispersione arbitrarie. Tuttavia, la
simmetria ellittica implicita nella distribuzione normale – le curve di livello costante della
densità normale sono ellissi in due dimensioni, ellissoidi in tre dimensioni, ecc. – si rivela
spesso un’ipotesi restrittiva. In questi casi può essere utile far ricorso alla distribuzione normale sghemba (Azzalini, The Skew-normal Distribution and Related Multivariate
Families, Scandinavian Journal of Statistics, 2005).
Nel seguito usiamo la simbologia X ∼ Np (µ, Σ) per indicare che il vettore di variabili
X = (X1 , . . . , Xp )T ha una distribuzione normale p-dimensionale con vettore delle medie
µ e matrice di covarianza Σ. La funzione di densità normale è
fX (x) =
1
(2π)p/2 (det Σ)1/2
exp{−
1 2
d (x, µ)} ,
2 M
dove
dM (x, µ) =
p
(x − µ)T Σ−1 (x − µ)
è la distanza di Mahalanobis di x ∈ Rp dal centro µ. Nel caso univariato, p = 1, dM (x, µ) =
|x1 −µ1 |/σ11 si riduce al valore assoluto del valore standardizzato di x1 . La Figura 3 mostra
le curve di valore costante della densità di due normali bivariate.
La densità normale dipende dunque dal valore della distanza di Mahalanobis (al
quadrato), assumendo il valore massimo se x = µ. È utile ricordare qualche proprietà di
tale distanza. La distanza euclidea di x da µ è
dE (x, µ) =
p
(x − µ)T (x − µ) .
Questo mostra che dM (x, µ) = dE (x, µ) se Σ = Ip , dove Ip è la matrice identità d’ordine p,
cioè la distanza di Mahalanobis si riduce alla distanza euclidea quando le variabili a) sono
linearmente indipendenti (e dunque anche stocasticamente indipendenti, data la particolare struttura di dipendenza della normale multivariata) e b) hanno varianza unitaria. In
caso contrario essa è diversa dalla distanza euclidea perchè le variabili sono ponderate
con coefficienti dipendenti dagli elementi di Σ−1 . Ad esempio, se Σ = diag(σ11 , . . . , σpp ),
−1
−1
allora Σ−1 = diag(σ11
, . . . , σpp
)e
3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE
Curve di Livello Densità Normale (RHO = 0.3 )
4
4
6
Curve di Livello Densità Normale (RHO = −0.6 )
9
0.02
2
2
0.04
0.02
0.04
0.06
0.06
0
Y
0
*
8
*
0.0
Y
0.09
0.07 0.08
0.07
0.05
−2
−2
0.03
0.05
0.01
0.01
−6
−4
−4
0.03
−6
−4
−2
0
2
4
6
−6
−4
−2
X
0
2
4
6
X
Figura 3: Curve di livello della densità normale bivariata.
v
uX
p
u p (xj − µj )2
T
−1
dM (x, µ) = (x − µ) Σ (x − µ) = t
,
σjj
j=1
e dunque la ponderazione prodotta dalla distanza di Mahalanobis equivale in questo caso
all’uso della distanza euclidea sui dati standardizzati.
È facile verificare che Y = Σ−1/2 (X − µ) ∼ Np (0p , Ip ), cioè le componenti
P di Y sono
variabili normali standardizzate e stocasticamente indipendenti. Allora p1 Yj2 ha una
distribuzione chi-quadrato con p gradi di libertà. Poichè
p
X
Yj2 = Y T Y = (X − µ)T Σ−1 (X − µ) = d2M (X, µ) ,
1
il quadrato della distanza di Mahalanobis da µ di un vettore normalmente distribuito ha
una distribuzione chi-quadrato con p gradi di libertà.
3.2
Classificatore di Bayes
(0)
(0)
Sia x0 = (x1 , . . . , xp )T il vettore dei valori osservati delle variabili discriminanti. Quando
le variabili discriminanti hanno in ogni classe una distribuzione congiunta normale, cioè
X|Cm ∼ Np (µm , Σm ), il classificatore di Bayes dipende principalmente dalle distanze di
Mahalanobis di x0 dai centri delle classi. Vediamo il risultato in dettaglio.
3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE
10
1. In base alla Nota 7, si deve ricercare max1≤m≤M pm · fm (x0 ) o, equivalentemente,
max1≤m≤M ln pm + ln fm (x0 ). Sostituendo l’espressione della densità normale, otteniamo
1
ln pm + ln fm (x0 ) = − {d2M (x0 , µm ) + ln det Σm − 2 ln pm + p ln(2π)} .
2
Il massimo di questa espressione per 1 ≤ m ≤ M coincide col minimo di d2M (x0 , µm )+
ln det Σm − 2 ln pm , pertanto l’unità da classificare verrà assegnata alla classe per
cui
d2M (x0 , µm ) + ln det Σm − 2 ln pm = (x0 − µm )T Σ−1
m (x0 − µm ) + ln det Σm − 2 ln pm
assume il valore minimo.
2. Se le probabilità iniziali sono costanti, nella precedente espressione il termine −2 ln pm
diventa irrilevante e l’unità da classificare verrà assegnata alla classe per cui
d2M (x0 , µm ) + ln det Σm = (x0 − µm )T Σ−1
m (x0 − µm ) + ln det Σm
assume il valore minimo. Questo criterio fornisce anche il classificatore di massima
verosimiglianza.
3. Quando le classi sono due, l’unità da classificare verrà assegnata a C1 se
d2M (x0 , µ1 ) < d2M (x0 , µ2 ) + 2{ln √
p2
p1
− ln √
}.
det Σ1
det Σ2
4. Infine, se le classi sono due e le matrici di covarianza sono uguali, cioè Σ1 = Σ2 = Σ,
l’unità da classificare verrà assegnata a C1 se
(µ2 − µ1 )T Σ−1 (x0 −
p1
µ1 + µ2
) < ln .
2
p2
Quest’ultima espressione prende il nome di funzione discriminante lineare perchè, a
differenza delle precedenti, dipende linearmente da x0 .
Esempio 12 I metodi di classificazione sono largamente usati nella diagnostica clinica,
per discriminare tra soggetti affetti (classe C1 ) e non affetti (classe C2 ) da particolari
patologie. Qui consideriamo un caso univariato. Per diagnosticare una malattia viene
impiegato un test clinico X tale che X|C1 ∼ N (µ1 = 5, σ1 = 1.5) e X|C2 ∼ N (µ2 =
3, σ2 = 0.5). Le probabilità iniziali sono p1 = 0.05, p2 = 1 − p1 = 0.95. Dal caso 3) visto
sopra, ricaviamo che un’unità verrà assegnata a C1 se
3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE
11
0.8
Distribuzione Variabile Discriminante
0.4
0.0
0.2
Densità di probabilità
0.6
C1
C2
0
2
4
6
8
10
12
X, risultato del test clinico
Figura 4: Funzioni di densità del valore del test clinico per i soggetti malati (C1 ) e non
malati (C2 ) dell’Esempio 12. I segmenti verticali indicano l’intervallo di attribuzione al
gruppo C2 secondo il classificatore di massima verosimiglianza.
(
x0 − µ 1 2
x0 − µ 2 2
p1
p2
) <(
) + 2(ln
− ln ) ,
σ1
σ2
σ1
σ2
cioè
x0 − 5 2
x0 − 3 2
) <(
) − 8.086103 .
1.5
0.5
Dunque un’unità con x0 = 3.5 viene assegnata a C2 mentre un’unità con x0 = 4.5 viene
assegnata a C1 . Si può verificare che il classificatore di Bayes è
(
• assegna l’unità a C1 se x < 1.143 o x > 4.357,
• assegna l’unità a C2 se 1.143 ≤ x ≤ 4.357,
mentre il classificatore di massima verosimiglianza è
• assegna l’unità a C1 se x < 1.696 o x > 3.804,
4 DATI CAMPIONARI
12
• assegna l’unità a C2 se 1.696 ≤ x ≤ 3.804.
La Figura 4 mostra l’andamento delle due funzioni di densità e l’intervallo di attribuzione al gruppo C2 secondo il classificatore di massima verosimiglianza. L’intervallo
di attribuzione al gruppo C2 secondo il classificatore di Bayes è più ampio perchè p2 > p1 .
Concludiamo l’esempio con la matrice di confusione. Per il classificatore di Bayes,
(B)
p11
(B)
p22
Z
1.143
Z
∞
−∞
Z 4.357
(B)
f1 (x)dx ' 0.671 , p12 ' 0.329 ,
f1 (x)dx +
=
(B)
f2 (x)dx ' 0.997 , p21 ' 0.003 ,
=
(8)
4.357
(9)
1.143
e PB (A) ' 0.980. Per il classificatore di massima verosimiglianza,
(M L)
p11
(M L)
p22
Z
1.696
Z
∞
−∞
Z 3.804
(M L)
f1 (x)dx ' 0.801 , p12
f1 (x)dx +
=
(M L)
f2 (x)dx ' 0.941 , p21
=
' 0.199 ,
(10)
3.804
' 0.058 ,
(11)
1.696
e PM L (A) ' 0.935 < PB (A), in accordo col Teorema 9. Anche se la probabilità totale
di una classificazone corretta è molto alta, va notato che la probabilità subordinata che il
test non scopra che un paziente è malato è elevata, in particolare per il classificatore di
Bayes, e questo costituisce un aspetto negativo.
4
Dati campionari
In precedenza abbiamo sempre supposto che le probabilità iniziali e le distribuzioni delle
variabili discriminanti fossero note. In realtà, le une e le altre devono sempre essere
stimate sulla base di dati campionari. Per quanto riguarda le probabilità iniziali pm ,
m = 1, . . . , M , esse vengono solitamente stimate per mezzo delle frequenze relative nm /n,
dove nm è il numero delle unità appartenenti a Cm nel campione osservato mentre n è la
numerosità totale del campione. Per quanto riguarda invece le distribuzioni delle variabili
discriminanti, ci sono due situazioni molto diverse, a seconda del grado di accuratezza delle
nostre informazioni. Se le distribuzioni sono note nella loro forma funzionale, a meno dei
parametri che le caratterizzano, si sostituiscono i parametri con le loro stime campionarie
e si procede come mostrato nelle sezioni precedenti. È quanto accade quando si assume
che le variabili discriminanti abbiano una distribuzione normale. I vettori delle medie
µm e le matrici di covarianza Σm sono rimpiazzati dalle loro stime, i vettori delle medie
campionarie x̄m e le matrici di covarianza campionarie Sm . Se invece le distribuzioni delle
variabili discriminanti non sono note, si ricorre alla loro stima con metodi non parametrici.
Un esempio notevole è il cosiddetto k-th nearest neighbour che verrà trattato nella Sezione
5.
4 DATI CAMPIONARI
13
Componenti Principali dei Dati Iris
2
1
2
2
2
2
22
2 2
3
3
2
2
1
0
1
22
1 11
1
1
111
11 1
1
1
1
11
11 1
1
111 111
1 1 11
1
1
1
11
11 1
−1
PC2 (23%)
22
3
2
2
2
3
2
3
22
3
3
22
32
333
2 2 2 2
33
22 2 2 2 22
2
33
2 3
2 2 3
3
2
23
2
3
3
3
2 3
33
2
3
3
2 2
3
3
2
3
2
3 3 33
2
2
2
3
3 3
3 3 3 33
1
1 1
11
−2
1
3
3
33
1
1
3
1
33
1
−3
−2
−1
0
1
2
3
PC1 (73%)
Figura 5: Prime due componenti principali dei dati Iris. I dati sono stati preventivamente
standardizzati. (1: Iris setosa, 2: Iris versicolour, 3: Iris virginica)
Insieme con la regola di classificazione, si deve stimare anche la corrispondente matrice
di confusione per valutarne l’accuratezza. La soluzione più semplice è quella di sostituire
pij con nij /ni , dove ni è la numerosità del campione da Ci e nij è il numero delle unità
del campione da Ci assegnate dal classificatore a Cj , i, j = 1, . . . , M . Purtroppo, questo
metodo produce stime ottimistiche che sottovalutano sistematicamente la probabilità di
classificazione errate. La ragione è che lo stesso campione viene usato per stimare sia il
classificatore che la sua accuratezza, introducendo un’ovvia correlazione. Per risolvere il
problema il campione viene diviso in due parti, il campione di stima (training sample)
usato per stimare il classificatore, e il campione di verifica test sample) usato per stimare
la matrice di confusione. Vari accorgimenti sono impiegati per attenuare la perdita di
accuratezza delle stime dovuta alla riduzione della numerosità campionaria. Tra questi
il più noto è il leave-one-out. Dal campione di n unità si esclude iterativamente l’unità
i-esima, dalle restanti n − 1 unità si ricava la stima del classificatore che viene usato per
classificare l’unità non considerata. Questo procedimento ha il pregio di separare quasi
completamente la stima del classificatore e delle probabilità d’errore, nello stesso tempo
riducendo al minimo la perdita di efficienza delle stime.
4 DATI CAMPIONARI
CLASSE VERA
C1
C2
C3
14
CLASSE STIMATA
Discr. Lineare Discr. Quadratico
C1 C2 C3 C1 C2
C3
50 0
0
50 0
0
0 48
2
0 47
3
0
1
49
0
1
49
Tabella 5: Matrice di confusione dei dati Iris dell’Esempio 13. Risultati basati sul classificatore bayesiano con ipotesi di normalità delle varabili discriminanti. Gli elementi della
matrice di confusione sono stati ottenuti col metodo leave-one-out.
Esempio 13 I dati di questo esempio riguardano l’attribuzione di fiori di iris alle rispettive specie. Ci sono tre classi corrispondenti alle specie Iris setosa (C1 ), Iris versicolour
(C2 ), Iris virginica (C3 ). Le variabili discriminanti sono quattro, lunghezza e larghezza
dei sepali, lunghezza e larghezza dei petali. Per ciascuna classe abbiamo un campione di
50 elementi. La Figura 5 mostra la proiezione dei dati, preventivamente standardizzati,
sulle prime due componenti principali. L’approssimazione è buona dato che la percentuale
spiegata della varianza totale supera il 95%. Il grafico suggerisce che Iris setosa abbia caratteristiche completamente diverse da quelle delle altre due specie, mentre Iris versicolour
e Iris virginica hanno un certo grado di sovrapposizione.
Per la classificazione abbiamo usato la versione campionaria del classificatore bayesiano
basato sull’ipotesi di normalità delle variabili discriminanti. I risultati sono stati ottenuti
per mezzo delle funzioni R lda e qda che differiscono solo per il trattamento delle matrici di covarianza. La prima si basa sull’ipotesi che le matrici di covarianza dei gruppi
siano uguali. Le matrici di confusione campionarie (vedi Tabella 5), ottenute col metodo
leave-one-out, sono molto simili e forniscono stime delle probabilità d’errore pari a 2%
per la funzione discriminante lineare, 2.67% per quella quadratica. Gli errori riguardano
solo Iris versicolour e Iris virginica. Il metodo della convalida incrociata conferma questi
risultati. Ciascun campione è stato diviso a caso in un sotto-campione di stima del classificatore e un sotto-campione di verifica di pari numerosità. Il procedimento, ripetuto 20
volte, ha fornito in media le seguenti stime delle probabilità d’errore: 2.2% per la funzione
discriminante lineare, 2.4% per quella quadratica.
4.1
Capacità discriminatoria delle variabili
Le variabili discriminanti non hanno tutte la stessa importanza ai fini della classificazione
ed è pertanto utile riconoscere quelle che riescono meglio a discriminare tra le diverse
classi. A tale proposito conviene ricordare il teorema di scomposizione della matrice di
covarianza (vedi Appendice B): quando le unità campionarie sono divise in gruppi incompatibili ed esaustivi, la matrice di covarianza campionaria è identicamente uguale
alla somma della matrici di covarianza within-groups e between-groups. La seconda componente fornisce la misura della variabilità delle medie dei gruppi rispetto alla media
generale ed è interpretabile come una misura del grado di separazione dei gruppi. Quanto
5 K-NEAREST NEIGHBOURS
15
IRIS
6
5
4
3
3.0
3.5
Lunghezza dei Petali
●
2
2.5
Larghezza dei Sepali
4.0
7
IRIS
1
2.0
●
Set
Ver
Vir
Specie
●
Set
Ver
Vir
Specie
Figura 6: Distribuzione della larghezza dei sepali e della lunghezza dei petali dei dati Iris.
maggiore la componente between-groups rispetto a quella within-groups tanto più i gruppi
sono coesi e separati. Queste considerazioni suggeriscono di calcolare il rapporto tra gli
elementi diagonali della matrice di covarianza between-groups e i corrispondenti elementi
diagonali della matrice di covarianza totale, onde ottenere un ordinamento delle variabili
secondo la capacità discriminatoria.
Esempio 14 Per le variabili dei dati Iris, i rapporti (%) varianza between-groups su
varianza totale risultano pari a 61.9, 40.1, 94.1, 92.9. In questo caso tutte le variabili hanno un rapporto abbastanza elevato ma i valori raggiunti dalla terza e quarta variabile,
lunghezza e larghezza dei petali, sono eccezionali. La Figura 6 permette di interpretare
questi risultati.
5
K-nearest neighbours
Il metodo di classificazione K-nearest neighbours (KNN), che si può rendere in italiano come vicini più vicini, è basato su presupposti completamente diversi dai metodi
parametrici, come quello discusso nella Sezione 4.
Supponiamo di avere un campione di dimensione n, con nm unità appartenenti alla
classe Cm , m = 1, . . . , M . Supponiamo inoltre di dover classificare un’unità di cui conosci(0)
(0)
amo il valore delle variabili discriminanti, indicato con x0 = (x1 , . . . , xp )T . Ricordiamo
che x0 si interpreta geometricamente come un punto nello spazio euclideo p-dimensionale.
Il primo passo è la costruzione di un intorno di x0 . Si calcolano
p i valori d1 , . . . , dn delle
distanze euclidee di x0 dai punti campionari x1 , . . . , xn , di = (x0 − xi )T (x0 − xi ), e si
5 K-NEAREST NEIGHBOURS
16
Illustrazione Metodo KNN
M
●
M
1
●
●
●
F
F
●
F
●
●
0
M
#
●
F
●
F
+F
●
−1
●
*
F
●
F
−2
Statura (Unità Standard)
M
M
●
−2
−1
0
1
2
Peso (Unità Standard)
K=3
Figura 7: Geometria del metodo di classificazione KNN su dati simulati di peso e statura
di due campioni di femmine (F) e maschi (M). I cerchi sono gli intorni dei punti P1 =
(58, 163)T (∗), P2 = (70, 174)T (#), P3 = (55, 168)T (+) per K = 3. I dati sono stati
preventivamente standardizzati.
individua il K-esimo valore nel vettore delle distanze ordinate in senso crescente. Sia
d(K) il corrispondente valore numerico. L’intorno di x0 è la sfera p-dimensionale centrata
in x0 e avente come raggio d(K) . Se i valori delle distanze di sono distinti, nell’intorno
(all’interno della sfera o sulla sua frontiera) ci sono esattamente K punti del campione
osservato, i K punti più vicini a x0 . La regola di classificazione è ora ovvia: x0 è assegnato
alla classe avente il maggior numero di punti nell’intorno definito in precedenza.
Esempio 15 Assumiamo che la distribuzione congiunta di peso e statura sia normale con
parametri diversi per femmine e maschi. Specificamente, assumiamo che i vettori delle
medie e delle deviazioni standard siano rispettivamente µF = (60, 165)T , µM = (75, 178)T ,
σF = (8, 10)T , σM = (9, 10)T e che il coefficiente di correlazione lineare sia ρF = ρM =
0.7. Simuliamo due campioni di numerosità nF = 8, nM = 5 dalle due distribuzioni
e usiamo questi dati per classificare i tre punti P1 = (58, 163)T , P2 = (70, 174), P3 =
(55, 168). Poichè le unità di misura e l’ordine di grandezza delle variabili sono diverse,
per evitare distorsioni della distanza euclidea, tutti i dati compresi quelli di P1 , P2 , P3
sono pre-standardizzati usando medie e deviazioni standard del campone totale di nF +nM
5 K-NEAREST NEIGHBOURS
17
unità. Ai fini della classificazione poniamo K = 3, cioè consideriamo intorni di P1 , P2 , P3
comprendenti i tre punti più vicini del campione. La Figura 7 illustra i risultati. Gli
intorni di P1 e P3 comprendono tre femmine pertanto i due punti sono classificati come
femmine. L’intorno di P2 comprende due maschi e una femmina ed il punto è classificato
come maschio.
Esaminiamo di seguito alcuni aspetti del metodo KNN.
Scelta della distanza La distanza più usata è quella euclidea ma non vanno escluse
altre soluzioni come la distanza di Mahalanobis con un’opportuna
matrice di ponp
T
derazione. Nell’Esempio 15 è stata usata la distanza (x − y) D−1 (x − y) con
D = diag S dove S è la matrice di covarianza campionaria. Questa scelta equivale
alla standardizzazione dei dati.
Stima della probabilità d’errore. Per ottenere stime non distorte si divide il campione in due sotto-campioni disgiunti usati rispettivamente per la stima del classificatore e la sua verifica. Le unità del campione di verifica sono classificate usando
le unità del campione di stima per costruire gli intorni. Il metodo leave-one-out è
molto popolare. In questo caso ogni unità campionaria è usata a turno come centro
dell’intorno ed è classificata usando le restanti n − 1 unità.
Valore di K È raccomandabile usare il valore di K che minimizza la stima della probabilità d’errore.
C’è un legame del KNN con i metodi di riferimento, il classificatore di Bayes e quello
di massima verosimiglianza? Consideriamo un generico punto x0 dello spazio e sia ∆(K)
la misura dell’intorno di x0 (l’area per p = 2, il volume per p = 3, ecc.). Indichiamo
inoltre con nm /K la frequenza relativa della classe Cm nell’intorno, m = 1, . . . , M . Il
rapporto nm /(K∆(K) è una stima di fm (x0 ), la densità di probabilità nel punto x0 della
classe Cm e converge a fm (x0 ) al divergere della numerosità campionaria per ogni fissato
valore di K. Pertanto KNN si basa su un principio simile a quello del classificatore di
massima verosimiglianza, salvo il fatto che i valori delle funzioni di densità sono stimati
con un metodo non parametrico.
Esempio 16 Riconsideriamo i dati Iris usando questa volta il classificatore KNN. Vista
l’eterogeneità delle deviazioni standard delle variabili i dati sono stati standardizzati. Il
valore ottimale di K (vedi Figura 8) è pari a 13 e produce una stima della probabilità
d’errore pari a 3.33%, di poco peggiore del classificatore bayesiano basato sull’ipotesi di
normalità. Il procedimento di convalida incrociata, eseguito come nell’Esempio 13 fornisce
una stima pari a 5.8%.
A APPENDICE. PROBABILITÀ TOTALE E FORMULA DI BAYES
18
50
KNN con Dati Iris
●
●
●
●
●
20
30
● ●
● ●
●
●
●
●
10
Stima Probabilità d'Errore (%)
40
●
●
● ●
● ●
● ●
●
●
● ●
●
● ● ●
●
●
●
●
● ●
● ●
●
●
● ● ●
● ●
●
● ● ●
●
● ● ● ● ●
●
0
●
●
0
20
40
60
80
100
K
Leave−one−out
Figura 8: KNN con dati Iris. Andamento della stima col metodo leave-one-out della
probabilità d’errore al variare di K. I dati sono stati preventivamente standardizzati.
A
Appendice. Probabilità totale e formula di Bayes
Consideriamo un evento casuale E che può verificarsi in concomitanza con eventi A1 , . . . , AM ,
M ≥ 2, che formano una partizione dello spazio campionario S. Per definizione gli eventi
Am sono a) a due a due incompatibili, cioè non hanno eventi elementari in comune, e b)
la loro unione dà l’intero spazio campionario. Quando si studiano i risultati di un test,
E è l’evento “un soggetto, scelto casualmente, supera il test” e la partizione dello spazio
campionario comprende gli eventi A1 : “il soggetto non è preparato” e A2 : “il soggetto
è preparato”. Nel controllo di qualità, in cui si deve valutare se un lotto di prodotti
è accettabile, E è l’evento “il controllo di un campione casuale di n pezzi del lotto ha
evidenziato la presenza di 0 ≤ k ≤ n pezzi difettosi” e la partizione è formata da A1 : “il
lotto non è conforme allo standard di qualità”, A2 : “il lotto è conforme allo standard di
qualità”. Nella diagnosi di una malattia mediante test clinici, E è l’evento “un soggetto è
risultato positivo al test” e la partizione è la coppia di eventi A1 : “il soggetto è malato”,
A2 : “il soggetto non è malato”.
Supponiamo di conoscere le probabilità P (Am ) degli eventi della partizione e anche le
probabilità subordinate P (E|Am ), m = 1, . . . , M . Il problema risolto dal teorema della
A APPENDICE. PROBABILITÀ TOTALE E FORMULA DI BAYES
19
probabilità totale è la probabilità non subordinata di E.
Teorema 17 (Probabilità totale) La probabilità totale di E è
P (E) =
M
X
P (Am )P (E|Am )
m=1
Dimostrazione. Vale la seguente identità:
E = E ∩ S = E ∩ (∪M
m=1 Am )
M
= ∪m=1 (E ∩ Am ) ,
(12)
(13)
in cui gli eventi E ∩Am , m = 1, . . . , M , sono a due a due incompatibili. Possiamo pertanto
usare l’assioma di addività e scrivere
P (E) =
P (∪M
m=1 (E
∩ Am )) =
M
X
P (E ∩ Am ) .
m=1
Per il teorema del prodotto, P (E ∩ Am ) = P (Am )P (E|Am ), pertanto
P (E) =
M
X
P (E ∩ Am ) =
m=1
M
X
P (Am )P (E|Am ) .
m=1
La formula di Bayes riguarda le probabilità subordinate degli eventi Am se è noto che
l’evento E si è verificato.
Teorema 18 (Formula di Bayes) Per m = 1, . . . , M , la probabilità subordinata P (Am |E)
è
P (Am )P (E|Am )
P (Am |E) = PM
j=1 P (Aj )P (E|Aj )
Dimostrazione. La dimostrazione è basata sulla definizione di probabilità subordinata:
P (Am |E) =
P (Am ∩ E)
.
P (E)
La formula di Bayes si ottiene sostituendo a) a numeratore, ancora per la regola del
prodotto, P (Am )P (E|Am ) e b) a denominatore la probabilità totale di E.
A APPENDICE. PROBABILITÀ TOTALE E FORMULA DI BAYES
20
Esempio 19 Un test comprende 10 domande indipendenti l’una dall’altra. Per ogni domanda sono fornite tre risposte, una sola delle quali è esatta. Se uno studente è preparato, sceglie la risposta esatta di ogni domanda con probabilità 0.8. Se uno studente non
è preparato, sceglie a caso la risposta di ogni domanda. La probabilità che uno studente
sia preparato si assume pari a 0.7. Il test è considerato sufficiente con almeno 6 risposte
esatte. Vogliamo calcolare a) la probabilità che uno studente superi il test, qualunque sia
la sua preparazione e b) la probabilità che uno studente, pur avendo superato il test, sia
in realtà non preparato.
a) Indichiamo con A l’evento che uno studente casualmente scelto sia preparato e con AC
il suo complementare. Indichiamo inoltre con E l’evento che uno studente superi il
test. La probabilità richiesta è chiaramente la probabilità totale
P (E) = P (A)P (E|A) + P (AC )P (E|AC ) ,
(14)
con P (A) = 0.7. Ma come si valutano P (E|A) e P (E|AC )? Data la struttura
del test, con domande indipendenti, possiamo vederlo come un insieme di 10 prove
dicotomiche indipendenti con probabilità p costante di successo. Il numero dei successi (successo qui significa risposta esatta) è una variabile aleatoria binomiale
Bi(n = 10, p) e la probabilità di superare il test è
10 X
10
x=6
x
px (1 − p)10−x .
(15)
Se lo studente è preparato p = 0.8 e dalla (15) otteniamo P (E|A) = 0.9672065.
Se lo studente non è preparato, cerca di indovinare la risposta esatta. In tal caso
p = 1/3 e dalla (15) otteniamo P (E|AC ) = 0.07656353. Inserendo i due risultati
nella (14) otteniamo infine P (E) = 0.7000136.
b) Dobbiamo trovare P (AC |E). Usando la formula di Bayes
P (AC |E) =
0.02296905
P (AC )P (E|AC )
=
= 0.03281229 .
P (E)
0.7000136
Questo risultato va confrontato con la probabilità iniziale P (AC ) = 0.3. Se è noto che lo studente ha passato il test, la probabilità che non sia preparato scende a
0.03281229, circa un decimo del valore iniziale. La differenza fornisce la misura
dell’efficacia della prova per discriminare tra studenti preparati e non. Si può rendere il test ancor più selettivo? Basta, ad esempio, aumentare il numero delle
alternative per ogni domanda. È facile verificare che, se ci sono quattro alternative per ogni domanda, P (E|A) rimane invariata mentre P (E|AC ) = 0.01972771,
P (E) = 0.6829629 e P (AC |E) = 0.005918313/0.6829629 = 0.008665643 < 0.01.
B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA
B
21
Appendice. Teorema di scomposizione della varianza
Consideriamo un vettore aleatorio p-dimensionale X = (X1 , . . . , Xp )T con valore atteso
E(X) = µ = (µ1 , . . . , µp )T , con µi = E(Xi ), i = 1, . . . , p, e matrice di covarianza V (X) =
Σ = (σij ), dove σii = σi2 = E{(Xi − µi )2 } è la varianza di Xi , i = 1, . . . , p, e σij =
E{(Xi − µi )(Xj − µj )} è la covarianza di Xi e Xj , i, j = 1, . . . , p, i 6= j. Supponiamo
inoltre che lo spazio campionario sia dotato di una partizione di eventi Cm con probabilità
pm = P (Cm ), m = 1, . . . , M . Gli eventi Cm sono spesso interpretabili come gruppi o classi
in cui una popolazione è suddivisa. In tale ipotesi i vettori aleatori subordinati X|Cm ,
m = 1, . . . , M hanno, in generale, distribuzioni diverse. Per m = 1, . . . , M indichiamo
con µ(m) e Σ(m) il vettore dei valori medi e la matrice di covarianza di X|Cm .
Il teorema di scomposizione della varianza descrive la relazione tra le matrici di covarianza subordinate, Σ(m) , e quella non subordinata, Σ. Preliminare ad esso è un semplice
lemma che descrive invece la relazione tra valori medi subordinati, µ(m) , e quello non
subordinato, µ.
Lemma 20 Se gli eventi {C1 , . . . , CM } sono una partizione dello spazio campionario S
con pm = P (Cm ), m = 1, . . . , M , allora il valore atteso di X è identicamente uguale alla
media ponderata dei valori attesi di X|Cm :
µ = E(X) = EC (E(X|Cm )) =
M
X
P (Cm )E(X|Cm )
(16)
m=1
=
M
X
pm µ(m) .
(17)
m=1
Indichiamo con ΣW e ΣB le matrici di covarianza within-groups e between-groups le
cui espressioni sono rispettivamente uguali a
ΣW =
ΣB =
=
M
X
m=1
M
X
m=1
M
X
P (Cm )V (X|Cm ) =
M
X
pm Σ(m) ,
(18)
m=1
P (Cm )(E(X|Cm ) − E(X))(E(X|Cm ) − E(X))T
(19)
pm (µ(m) − µ)(µ(m) − µ)T .
(20)
m=1
Teorema 21 Se gli eventi {C1 , . . . , CM } sono una partizione dello spazio campionario S
con pm = P (Cm ), m = 1, . . . , M , allora la matrice di covarianza di X è identicamente
uguale alla somma delle matrici di covarianza within-groups e between-groups:
B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA
22
Σ = V (X) = EC (V (X|Cm ) + VC (E(X|Cm )
M
M
X
X
=
pm Σ(m) +
pm (µ(m) − µ)(µ(m) − µ)T
m=1
(21)
(22)
m=1
= Σ W + ΣB .
(23)
Qui i simboli EC (.) e VC (.) indicano gli operatori valore atteso e varianza rispetto agli
eventi della partizione {C1 , . . . , CM }. Nel caso campionario, il Lemma 20 e il Teorema 21
continuano a valere, con parametri delle distribuzioni rimpiazzati dalle rispettive stime, le
mede campionarie e le matrici di covarianza campionarie, quest’ultime con divisore pari
alla numerosità campionaria. Per maggior chiarezza ne riportiamo di seguito l’espressione.
M
X
nm (m)
x̄
,
x̄ =
n
m=1
(24)
M
M
X
nm (m) X nm (m)
S =
S +
(x̄ − x̄)(x̄(m) − x̄)T
n
n
m=1
m=1
(25)
= SW + SB .
(26)
Esempio 22 In un campione di studenti universitari comprendente nF = 63 femmine e
nM = 71 maschi abbiamo rilevato i dati del peso (X1 , kg) e della statura (X2 , cm). La
Figura 9 mostra la distribuzione congiunta delle vriabili. I vettori delle medie e le matrici
di covarianza dei due gruppi sono riportati di seguito.
x
x
(F )
(M )
=
=
56.31905
166.6317
75.8338
180.8211
, S
(F )
, S
(M )
=
=
51.93011 12.18654
12.18654 34.82217
114.66590 40.86253
40.86253 36.41096
,
(27)
.
(28)
Qual è la matrice di covarianza complessiva? E qual è la frazione della varianza
complessiva attribuibile alle differenze tra le medie dei due gruppi? Iniziamo a rispondere
ai due quesiti calcolando la media complessiva come media ponderata delle medie parziali.
nF (F ) nM (M )
63
x=
x +
x
=
n
n
134
56.31905
166.6317
71
+
134
75.8338
180.8211
=
66.6590
174.1500
.
Iniziamo ad usare il teorema di scomposizione della varianza calcolando la matrice di
covarianza within-groups. Essa è la media ponderata delle matrici di covarianza parziali.
B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA
●
●
23
●
F
M
●
190
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
180
●
●
●
●
●
●
●
●
●
●
●●●●
●●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
●●
170
Statura (cm)
●
●
●
●
●●
●●
●
●●
●
●●
●
●
●●●
160
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
40
●
50
60
70
80
90
100
Peso (kg)
Figura 9: Diagramma di dispersione del peso e della statura di un campione di studenti
(F: femmina, M: maschio).
nF (F ) nM (M )
S +
S
n n
63
71
51.93011 12.18654
114.66590 40.86253
=
+
40.86253 36.41096
134 12.18654 34.82217
134
85.17072 27.38053
'
.
27.38053 35.66399
SW =
Calcoliamo ora la matrice di covarianza between-groups, definita come la matrice di
varianza delle medie parziali.
B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA
nF (F )
nM (M )
x − x (x(F ) − x)T +
x
− x (x(M ) − x)T
n n
63
71
−10.33995
9.1748
−10.33995 −7.5183 +
=
−7.5183
134
134 6.6711
71
63
106.91457 77.73885
84.17696 61.20601
+
=
77.73885 56.52483
134
134 61.20601 44.50358
94.867 68.979
'
.
68.979 50.155
24
SB =
9.1748 6.6711
Siamo giunti al passaggio finale. La matrice di covarianza S è la somma delle matrici
di covarianza within-groups e between-groups:
S = SW + SB
85.171 27.381
94.867 68.979
180.038 96.360
'
+
=
.
27.381 35.664
68.979 50.155
96.360 85.819
Siamo ora in grado di calcolare la frazione della varianza totale dovuta alle differenze
(B)
delle medie parziali dalla media generale. Per il peso, X1 , il rapporto s11 /s11 è circa pari
(B)
a 52.7% mentre per la statura, X2 , il rapporto s22 /s22 è leggermente più alto, 58.4%. In
entrambi i casi il rapporto è elevato indicando un importante contributo delle differenze
tra le medie parziali alla variabilità generale. In questo esempio, il peso relativo della
variabilità entro i gruppi e della variabilità tra i gruppi è simile.