METODI DI CLASSIFICAZIONE

Transcript

METODI DI CLASSIFICAZIONE
Mario Romanazzi
1
Introduzione
Iniziamo la presentazione dei metodi di classificazione con un esempio rappresentativo
della problematica generale.
Esempio 1 Molti programmi per la gestione della posta al computer comprendono metodi
per la classificazione di messaggi posta spazzatura (SPAM) o come posta regolare (NON
SPAM). Di solito la classificazione è basata su caratteristiche stilistiche del messaggio,
come la frequenza di particolari parole o caratteri. La Tabella 1 mostra un esempio di
5 messaggi, 3 SPAM e 2 NON SPAM sui quali vengono rilevate tre caratteristiche, W1 ,
W2 e W3 . In ciascun messaggio W1 è la frequenza relativa % della parola mail’, W2 è la
frequenza relativa % delle lettere maiuscole e W3 è la frequenza relativa % del carattere
!mail’. I dati suggeriscono che W2 e W3 tendono ad assumere valori più elevati nei
messaggi SPAM rispetto ai NON SPAM, aiutando dunque a discriminare tra le due classi.
W1 non sembra invece avere particolari capacità discriminatorie.
CLASSE
W1 (%) W2 (%) W3 (%)
SPAM
1.21
7.05
0.77
SPAM
0.98
3.46
0.55
SPAM
1.30
2.91
0.83
NON SPAM
1.41
1.04
0.09
NON SPAM
0.85
1.28
0.22
Tabella 1: Caratteristiche stilistiche di messaggi di posta al computer e classificazione
come SPAM o NON SPAM.
In via del tutto euristica, supponiamo di classificare come SPAM tutti i messaggi tali
che W2 > 2% ∩ W3 > 0.5%. Questo criterio può fungere da regola di attribuzione per
assegnare messaggi di cui non si conosce la classe di appartenenza ad una delle possibili
classi. La Tabella 2 riguarda due messaggi di posta al computer, di classe ignota, su cui
sono state però rilevate le caratteristiche W1 , W2 e W3 . In base al criterio precedente, il
primo messaggio verrebbe attribuito alla classe NON SPAM, il secondo alla classe SPAM.
Quali sono gli elementi che concorrono a definire un modello di classificazione? L’Esempio 1 mostra che ci sono tre elementi principali.
1
1 INTRODUZIONE
CLASSE VERA
IGNOTA
IGNOTA
2
W1 (%) W2 (%) W3 (%)
0.92
1.17
0.16
1.18
3.44
0.75
Tabella 2: Classificazione di messaggi di posta al computer in base a caratteristiche
stilistiche.
1. Un insieme S avente come elementi le unità, o oggetti, da classificare (corrispondenti
ai messaggi dell’Esempio 1).
2. Una partizione di S in un numero finito M di sottoinsiemi C1 , . . . , CM (corrispondenti alle classi SPAM e NON SPAM dell’Esempio 1). Per definizione di partizione
ogni unità appartiene ad una ed una sola classe.
3. Un certo numero di caratteristiche X1 , . . . , Xp , o variabili discriminanti, rilevabili
su ogni unità (le caratteristiche stilistiche W1 , W2 , W3 dell’Esempio 1).
In pratica le variabili discriminanti sono le componenti di un vettore aleatorio X =
(X1 , . . . , Xp )T , la cui distribuzione varia a seconda della classe. Inoltre, ad ogni classe si
associa la corrispondente probabilità iniziale pm = P (Cm ), m = 1, . . . , M , operativamente
interpretabile come la probabilità che un’unità casualmente estratta da S appartenga a
Cm .
Un metodo di classificazione è una regola che assegna le unità di S alle classi in modo
ottimale. Il criterio di ottimalità naturale è la minimizzazione dell’errore di classificazione.
A tale proposito risulta utile rappresentare i risultati di una classificazione mediante la
cosiddetta matrice di confusione. La matrice di confusione è una tabella con M righe
ed altrettante colonne. Le righe corrispondono alle classi vere cui le unità appartengono mentre le colonne corrispondono alle classi previste o stimate mediante un metodo
di classificazione. L’elemento generico della tabella fornisce la probabilità condizionale
P (classe stimata Cj |classe vera Ci ) ≡ pij , i, j = 1, . . . , M . Le celle diagonali della matrice
forniscono le probabilità condizionali di classificazioni esatte mentre le celle non diagonali
forniscono le probabilità condizionali di classificazioni errate. Indichiamo con A l’evento
che un’unità casualmente estratta da S sia classificata correttamente. In base al teorema
della probabilità totale (vedi Appendice A) otteniamo
P (A) =
M
X
m=1
P (Cm )P (classe stimata Cm |classe vera Cm ) =
M
X
pm · pm,m .
m=1
La probabilità che un’unità casualmente estratta da S sia classificata erroneamente
è P (AC ) = 1 − P (A). La matrice di confusione riveste un’importanza fondamentale
perchè permette di valutare i risultati di un metodo di classificazione e di confrontare
metodi alternativi. Metodi di classificazione validi avranno valori diagonali della matrice
di confusione vicini a 1. La probabilità di classificazione corretta P (A) fornisce un criterio
1 INTRODUZIONE
3
quantitativo scalare, ottenuto ponderando gli elementi della matrice di confusione con le
probabilità iniziali, idoneo a riassumere il comportamento complessivo di un metodo di
classificazione.
Gli Esempi 2 e 3 forniscono illustrazioni molto semplici delle definizioni precedenti.
Esempio 2 Su un lontano pianeta maschi e femmine hanno caratteristiche fisiche identiche ma indossano abiti di colore tendenzialmente diverso. In termini specifici, per le
femmine la probabilità di vestire di rosso è pari a 0.9 mentre per i maschi è pari a 0.2.
Inoltre la probabilità iniziali sono 0.6 per la classe Femmina e 0.4 per la classe Maschio. Sulla scorta di questi dati consideriamo la seguente regola di classificazione: se un
individuo veste rosso è classificato femmina, se veste non rosso è classificato maschio.
La matrice di confusione è riportata nella Tabella 3. La probabilità che un individuo
casualmente scelto sia classificato correttamente è
P (A) = 0.6 · 0.9 + 0.4 · 0.8 = 0.86
e la probabilità che sia classificato in modo errato è 1 − P (A) = 0.14.
CLASSE VERA
FEMMINA
MASCHIO
CLASSE STIMATA
FEMMINA MASCHIO
0.9
0.1
0.2
0.8
Tabella 3: Matrice di confusione della classificazione di maschi e femmine dell’Esempio 2.
Esempio 3 Un insetto può appartenere a tre diverse specie, C1 , C2 , C3 , aventi le stesse
probabilità iniziali. La variabile discriminante X è la lunghezza dell’addome. Il grafico
delle tre funzioni di densità è riportato nella Figura 1. Esso mostra che, per gli insetti
di classe C1 , 0.5 ≤ X ≤ 1.5; per quelli di classe C2 , 1 ≤ X ≤ 2; per quelli di classe
C3 , 2 ≤ X ≤ 4. È evidente che, se 0.5 ≤ X ≤ 1, l’insetto è di classe C1 e che, se
2 ≤ X ≤ 4, l’insetto è di classe C3 perchè le altre classi hanno densità pari a zero in
questi intervalli. Ma come si devono classificare gli insetti con 1 < X ≤ 1.5? Un criterio
ragionevole è quello di attribuire l’insetto alla classe con la densità più alta. Pertanto la
regola di classificazione è: se 0.5 ≤ X ≤ 1.25 assegna l’insetto a C1 , se 1.25 < X ≤ 2
assegna l’insetto a C2 e se 2 < X ≤ 3 assegna l’insetto a C3 .
Valutiamo la corrispondente matrice di confusione. Risulta
Z
1.25
p11 =
1.5
Z
f1 (x)dx = 0.75 , p12 =
Z0.52
f1 (x)dx = 0.25 ,
p22 =
f2 (x)dx = 0.875 , p21 =
Z1.25
3
p33 =
f3 (x)dx = 1
2
(1)
Z1.25
1.25
f2 (x)dx = 0.125 ,
(2)
1
(3)
2 DUE FONDAMENTALI METODI DI CLASSIFICAZIONE
4
Distribuzione Variabile Discriminante
1.5
1.0
0.0
0.5
Densità di Probabilità
2.0
C1
C2
C3
0
1
2
3
4
5
X, lunghezza dell'addome (cm)
Figura 1: Funzioni di densità della lunghezza dell’addome per le tre specie di insetti
nell’Esempio 3.
e gli altri elementi sono pari a zero. La matrice di confusione è riportata nella Tabella 4.
La probabilità che un insetto casualmente scelto sia classificato correttamente è
P (A) = (0.75 + 0.875 + 1)/3 = 0.875
e la probabilità che sia classificato in modo errato è 1 − P (A) = 0.125.
2
Due fondamentali metodi di classificazione
L’Esempio 3 illustra il primo fondamentale metodo di classificazione, che assegna l’unità alla classe per la quale i valori assunti dalle variabili discriminanti hanno la massima densità di probabilità. Esso è generalmente noto come classificatore di massima
verosimiglianza.
Definizione 4 Consideriamo un’unità con valori osservati delle variabili discriminanti
(0)
(0)
x0 = (x1 , . . . , xp )T . Indichiamo inoltre con f (x0 |Cm ) ≡ fm (x0 ), m = 1, . . . , M , i
valori assunti dalle densità di probabilità delle M classi nel punto x0 . Il classificatore di
CLASSE VERA
C1
C2
C3
5
CLASSE STIMATA
C1
C2
C3
0.75 0.25
0
0.125 0.875
0
0
0
1
Tabella 4: Matrice di confusione della classificazione degli insetti dell’Esempio 3.
massima verosimiglianza assegna l’unità alla classe che attribuisce a x0 il massimo valore
della densità di probabilità.
Nota 5 Il riferimento al metodo di stima di massima verosimiglianza non è casuale.
Nei problemi di classificazione il parametro da stimare è la classe cui attribuire l’unità
in esame. Esso assume un numero finito, M , di modalità distinte. Dato il valore x0
delle variabili discriminanti, la stima di massima verosimiglianza si ottiene pertanto a)
calcolando il corrispondente valore della densità fm (x0 ) per ogni classe e b) individuando
∗
col massimo valore della densità.
la classe Cm
Il classificatore di massima verosimiglianza è un caso particolare del classificatore di
Bayes, basato sull’omonimo teorema (vedi Appendice A).
Definizione 6 Nelle stesse ipotesi della Definizione 4, usando il teorema di Bayes, la
probabilità finale della classe Cm è pari a:
pm · fm (x0 )
, m = 1, · · · , M.
P (Cm |x0 ) = PM
p
·
f
(x
)
i
i
0
i=1
Il classificatore di Bayes assegna l’unità alla classe avente massima probabilità finale.
Nota 7 La quantità che appare a denominatore delle probabilità finali assume lo stesso
valore per tutte le classi ed è pertanto irrilevante per quanto riguarda l’identificazione della
classe ottimale. A tal fine basterà determinare la classe col massimo valore di pm · fm (x0 ),
o equivalentemente, ln pm + lnfm (x0 ), m = 1, · · · , M .
Nota 8 La Nota 7 chiarisce la relazione tra il classificatore di Bayes e quello di massima
verosimiglianza. Il classificatore di Bayes pondera i valori delle verosimiglianze fm (x0 )
con le probabilità iniziali pm . Questo permette di integrare l’informazione fornita dalle
variabili discriminanti (il valore x0 e le corrispondenti densità) con le probabilità iniziali.
Se queste sono costanti, i due classificatori sono equivalenti.
Il classificatore di Bayes gode di un’importante proprietà, riportata nel Teorema 9.
Teorema 9 Il classificatore di Bayes della Definizione 6 è ottimale, cioè produce il minimo valore della probabilità di classificazioni errate. Una dimostrazione si può trovare
nei testi di analisi multivariata, ad esempio Mardia et al., Multivariate Analysis, 1979.
6
3
2
0
1
Densità di Probabilità
4
5
C1
C2
−0.3
−0.2
−0.1
0.0
0.1
0.2
0.3
0.4
X, utili/fatturato
Figura 2: Funzioni di densità del rapporto utili su fatturato per le due classi di imprese
dell’Esempio 11.
Nota 10 Il classificatore di Bayes richiede una conoscenza molto dettagliata del problema in esame, in particolare a) le probabilità iniziali e b) le distribuzioni di probabilità
delle variabili discriminanti di ogni classe. Pertanto, si potrà essere fiduciosi di aver ottenuto il classificatore ottimale, cioè con la minima probabilità d’errore, solo quando sono
disponibili stime attendibili di pm e fm (x0 ), m = 1, . . . , M .
Esempio 11 Metodi di classificazione sono frequentemente usati per studiare l’affidabilità,
o solvibilità, delle imprese per quanto riguarda la concessione di credito da parte delle
banche. In queste indagini, l’universo delle imprese è diviso in due classi C1 e C2 comprendenti rispettivamente le imprese non affidabili e affidabili. Le variabili discriminanti
sono indicatori di solvibilità solitamente ricavati dai bilanci. In questo esempio semplificato consideriamo una sola variabile discriminante X, data dal rapporto utili su fatturato,
e assumiamo che le funzioni di densità di probabilità siano
f1 (x) = (5 − 25x)/2 , −0.2 ≤ x ≤ 0.2 ,
f2 (x) = (5/2 + 25x)/2 , −0.1 ≤ x ≤ 0.3 .
(4)
(5)
7
Il grafico delle due distribuzioni è riportato nella Figura 2. Le probabilità iniziali delle
classi sono p1 = 0.8, p2 = 1 − p1 = 0.2. Mostreremo ora che il classificatore di Bayes, in
accordo col Teorema 9, è migliore del classificatore di massima verosimiglianza per quanto
riguarda la probabilità totale d’errore. Siccome f1 (x) = f2 (x) per x = 0.05, il classificatore
di massima verosimiglianza è:
• assegna l’unità a C1 se x ≤ 0.05,
• assegna l’unità a C2 se x > 0.05.
Pertanto
(M L)
p11
Z
0.05
f1 (x)dx = 0.859375 ,
=
(M L)
p22
Z
0.3
f2 (x)dx = 0.859375 ,
=
−0.2
(6)
0.05
(M L)
(M L)
e P (A)(M L) = p1 · p11 + (1 − p1 ) · p22 = 0.859375.
Consideriamo ora il classificatore di Bayes. L’uguaglianza p1 f1 (x) = p2 f2 (x) è verificata per x = 0.14 e il classificatore di Bayes è:
• assegna l’unità a C1 se x ≤ 0.14,
• assegna l’unità a C2 se x > 0.14.
I valori nelle celle diagonali della matrice di confusione sono
(B)
p11
Z
0.14
f1 (x)dx = 0.9775 ,
=
−0.2
(B)
(B)
p22
Z
0.3
f2 (x)dx = 0.64 ,
=
(7)
0.14
(B)
e P (A)(B) = p1 ·p11 +(1−p1 )·p22 = 0.91. Il risultato conferma la proprietà generale stabilita dal Teorema 9. Il vantaggio del classificatore di Bayes rispetto a quello di massima
verosimiglianza è |0.91 − 0.859375| ' 0.05. Esso è causato dall’aumento del valore soglia,
da 0.05 a 0.14, determinato dalla ponderazione con le probabilità iniziali. Osserviamo,
infine, che mentre la matrice di confusione del classificatore di massima verosimiglianza
(M L)
(M L)
è simmetrica, cioè p12 = p21 , quella del classificatore di Bayes è asimmetrica, con
(B)
(B)
p12 p21 . Ciò significa che, per il classificatore di Bayes, la probabilità di classificare
come affidabile un’impresa che non lo è risulta molto più bassa della probabilità di classificare come non affidabile un’impresa che invece lo è, in linea col comportamento molto
prudente nella concessione di credito da parte delle banche.
3 VARIABILI DISCRIMINANTI CON DISTRIBUZIONE NORMALE
3
3.1
8
Variabili discriminanti con distribuzione normale
Distribuzione normale multivariata
La distribuzione normale in p dimensioni è un modello distributivo in base al quale i
dati sono simmetricamente disposti attorno ad un centro, il vettore delle medie µ =
(µ1 , . . . , µp )T , e la dispersione è controllata dalla matrice di covarianza Σ = (σij ), i, j =
1, . . . , p. Gli elementi diagonali di Σ, σii , sono le varianze delle distribuzioni marginali
√
univariate e gli elementi non diagonali, σij = ρij σii σjj , i 6= j, sono le covarianze delle
distribuzioni marginali bivariate. Qui −1 ≤ ρij ≤ 1 indica il coefficiente di correlazione
lineare della coppia Xi , Xj .
Il modello distributivo normale è largamente usato nei problemi di classificazione
perchè consente di descrivere classi con posizione e dispersione arbitrarie. Tuttavia, la
simmetria ellittica implicita nella distribuzione normale – le curve di livello costante della
densità normale sono ellissi in due dimensioni, ellissoidi in tre dimensioni, ecc. – si rivela
spesso un’ipotesi restrittiva. In questi casi può essere utile far ricorso alla distribuzione normale sghemba (Azzalini, The Skew-normal Distribution and Related Multivariate
Families, Scandinavian Journal of Statistics, 2005).
Nel seguito usiamo la simbologia X ∼ Np (µ, Σ) per indicare che il vettore di variabili
X = (X1 , . . . , Xp )T ha una distribuzione normale p-dimensionale con vettore delle medie
µ e matrice di covarianza Σ. La funzione di densità normale è
fX (x) =
1
(2π)p/2 (det Σ)1/2
exp{−
1 2
d (x, µ)} ,
2 M
dove
dM (x, µ) =
p
(x − µ)T Σ−1 (x − µ)
è la distanza di Mahalanobis di x ∈ Rp dal centro µ. Nel caso univariato, p = 1, dM (x, µ) =
|x1 −µ1 |/σ11 si riduce al valore assoluto del valore standardizzato di x1 . La Figura 3 mostra
le curve di valore costante della densità di due normali bivariate.
La densità normale dipende dunque dal valore della distanza di Mahalanobis (al
quadrato), assumendo il valore massimo se x = µ. È utile ricordare qualche proprietà di
tale distanza. La distanza euclidea di x da µ è
dE (x, µ) =
p
(x − µ)T (x − µ) .
Questo mostra che dM (x, µ) = dE (x, µ) se Σ = Ip , dove Ip è la matrice identità d’ordine p,
cioè la distanza di Mahalanobis si riduce alla distanza euclidea quando le variabili a) sono
linearmente indipendenti (e dunque anche stocasticamente indipendenti, data la particolare struttura di dipendenza della normale multivariata) e b) hanno varianza unitaria. In
caso contrario essa è diversa dalla distanza euclidea perchè le variabili sono ponderate
con coefficienti dipendenti dagli elementi di Σ−1 . Ad esempio, se Σ = diag(σ11 , . . . , σpp ),
−1
−1
allora Σ−1 = diag(σ11
, . . . , σpp
)e
Curve di Livello Densità Normale (RHO = 0.3 )
4
4
6
Curve di Livello Densità Normale (RHO = −0.6 )
9
0.02
2
2
0.04
0.02
0.04
0.06
0.06
0
Y
0
*
8
*
0.0
Y
0.09
0.07 0.08
0.07
0.05
−2
−2
0.03
0.05
0.01
0.01
−6
−4
−4
0.03
−6
−4
−2
0
2
4
6
−6
−4
−2
X
0
2
4
6
X
Figura 3: Curve di livello della densità normale bivariata.
v
uX
p
u p (xj − µj )2
T
−1
dM (x, µ) = (x − µ) Σ (x − µ) = t
,
σjj
j=1
e dunque la ponderazione prodotta dalla distanza di Mahalanobis equivale in questo caso
all’uso della distanza euclidea sui dati standardizzati.
È facile verificare che Y = Σ−1/2 (X − µ) ∼ Np (0p , Ip ), cioè le componenti
P di Y sono
variabili normali standardizzate e stocasticamente indipendenti. Allora p1 Yj2 ha una
distribuzione chi-quadrato con p gradi di libertà. Poichè
p
X
Yj2 = Y T Y = (X − µ)T Σ−1 (X − µ) = d2M (X, µ) ,
1
il quadrato della distanza di Mahalanobis da µ di un vettore normalmente distribuito ha
una distribuzione chi-quadrato con p gradi di libertà.
3.2
Classificatore di Bayes
(0)
(0)
Sia x0 = (x1 , . . . , xp )T il vettore dei valori osservati delle variabili discriminanti. Quando
le variabili discriminanti hanno in ogni classe una distribuzione congiunta normale, cioè
X|Cm ∼ Np (µm , Σm ), il classificatore di Bayes dipende principalmente dalle distanze di
Mahalanobis di x0 dai centri delle classi. Vediamo il risultato in dettaglio.
10
1. In base alla Nota 7, si deve ricercare max1≤m≤M pm · fm (x0 ) o, equivalentemente,
max1≤m≤M ln pm + ln fm (x0 ). Sostituendo l’espressione della densità normale, otteniamo
1
ln pm + ln fm (x0 ) = − {d2M (x0 , µm ) + ln det Σm − 2 ln pm + p ln(2π)} .
2
Il massimo di questa espressione per 1 ≤ m ≤ M coincide col minimo di d2M (x0 , µm )+
ln det Σm − 2 ln pm , pertanto l’unità da classificare verrà assegnata alla classe per
cui
d2M (x0 , µm ) + ln det Σm − 2 ln pm = (x0 − µm )T Σ−1
m (x0 − µm ) + ln det Σm − 2 ln pm
assume il valore minimo.
2. Se le probabilità iniziali sono costanti, nella precedente espressione il termine −2 ln pm
diventa irrilevante e l’unità da classificare verrà assegnata alla classe per cui
d2M (x0 , µm ) + ln det Σm = (x0 − µm )T Σ−1
m (x0 − µm ) + ln det Σm
assume il valore minimo. Questo criterio fornisce anche il classificatore di massima
verosimiglianza.
3. Quando le classi sono due, l’unità da classificare verrà assegnata a C1 se
d2M (x0 , µ1 ) < d2M (x0 , µ2 ) + 2{ln √
p2
p1
− ln √
}.
det Σ1
det Σ2
4. Infine, se le classi sono due e le matrici di covarianza sono uguali, cioè Σ1 = Σ2 = Σ,
l’unità da classificare verrà assegnata a C1 se
(µ2 − µ1 )T Σ−1 (x0 −
p1
µ1 + µ2
) < ln .
2
p2
Quest’ultima espressione prende il nome di funzione discriminante lineare perchè, a
differenza delle precedenti, dipende linearmente da x0 .
Esempio 12 I metodi di classificazione sono largamente usati nella diagnostica clinica,
per discriminare tra soggetti affetti (classe C1 ) e non affetti (classe C2 ) da particolari
patologie. Qui consideriamo un caso univariato. Per diagnosticare una malattia viene
impiegato un test clinico X tale che X|C1 ∼ N (µ1 = 5, σ1 = 1.5) e X|C2 ∼ N (µ2 =
3, σ2 = 0.5). Le probabilità iniziali sono p1 = 0.05, p2 = 1 − p1 = 0.95. Dal caso 3) visto
sopra, ricaviamo che un’unità verrà assegnata a C1 se
11
0.8
0.4
0.0
0.2
Densità di probabilità
0.6
C1
C2
0
2
4
6
8
10
12
X, risultato del test clinico
Figura 4: Funzioni di densità del valore del test clinico per i soggetti malati (C1 ) e non
malati (C2 ) dell’Esempio 12. I segmenti verticali indicano l’intervallo di attribuzione al
gruppo C2 secondo il classificatore di massima verosimiglianza.
(
x0 − µ 1 2
x0 − µ 2 2
p1
p2
) <(
) + 2(ln
− ln ) ,
σ1
σ2
σ1
σ2
cioè
x0 − 5 2
x0 − 3 2
) <(
) − 8.086103 .
1.5
0.5
Dunque un’unità con x0 = 3.5 viene assegnata a C2 mentre un’unità con x0 = 4.5 viene
assegnata a C1 . Si può verificare che il classificatore di Bayes è
(
• assegna l’unità a C1 se x < 1.143 o x > 4.357,
• assegna l’unità a C2 se 1.143 ≤ x ≤ 4.357,
mentre il classificatore di massima verosimiglianza è
• assegna l’unità a C1 se x < 1.696 o x > 3.804,
4 DATI CAMPIONARI
12
• assegna l’unità a C2 se 1.696 ≤ x ≤ 3.804.
La Figura 4 mostra l’andamento delle due funzioni di densità e l’intervallo di attribuzione al gruppo C2 secondo il classificatore di massima verosimiglianza. L’intervallo
di attribuzione al gruppo C2 secondo il classificatore di Bayes è più ampio perchè p2 > p1 .
Concludiamo l’esempio con la matrice di confusione. Per il classificatore di Bayes,
(B)
p11
(B)
p22
Z
1.143
Z
∞
−∞
Z 4.357
(B)
f1 (x)dx ' 0.671 , p12 ' 0.329 ,
f1 (x)dx +
=
(B)
f2 (x)dx ' 0.997 , p21 ' 0.003 ,
=
(8)
4.357
(9)
1.143
e PB (A) ' 0.980. Per il classificatore di massima verosimiglianza,
(M L)
p11
(M L)
p22
Z
1.696
Z
∞
−∞
Z 3.804
(M L)
f1 (x)dx ' 0.801 , p12
f1 (x)dx +
=
(M L)
f2 (x)dx ' 0.941 , p21
=
' 0.199 ,
(10)
3.804
' 0.058 ,
(11)
1.696
e PM L (A) ' 0.935 < PB (A), in accordo col Teorema 9. Anche se la probabilità totale
di una classificazone corretta è molto alta, va notato che la probabilità subordinata che il
test non scopra che un paziente è malato è elevata, in particolare per il classificatore di
Bayes, e questo costituisce un aspetto negativo.
4
Dati campionari
In precedenza abbiamo sempre supposto che le probabilità iniziali e le distribuzioni delle
variabili discriminanti fossero note. In realtà, le une e le altre devono sempre essere
stimate sulla base di dati campionari. Per quanto riguarda le probabilità iniziali pm ,
m = 1, . . . , M , esse vengono solitamente stimate per mezzo delle frequenze relative nm /n,
dove nm è il numero delle unità appartenenti a Cm nel campione osservato mentre n è la
numerosità totale del campione. Per quanto riguarda invece le distribuzioni delle variabili
discriminanti, ci sono due situazioni molto diverse, a seconda del grado di accuratezza delle
nostre informazioni. Se le distribuzioni sono note nella loro forma funzionale, a meno dei
parametri che le caratterizzano, si sostituiscono i parametri con le loro stime campionarie
e si procede come mostrato nelle sezioni precedenti. È quanto accade quando si assume
che le variabili discriminanti abbiano una distribuzione normale. I vettori delle medie
µm e le matrici di covarianza Σm sono rimpiazzati dalle loro stime, i vettori delle medie
campionarie x̄m e le matrici di covarianza campionarie Sm . Se invece le distribuzioni delle
variabili discriminanti non sono note, si ricorre alla loro stima con metodi non parametrici.
Un esempio notevole è il cosiddetto k-th nearest neighbour che verrà trattato nella Sezione
5.
4 DATI CAMPIONARI
13
Componenti Principali dei Dati Iris
2
1
2
2
2
2
22
2 2
3
3
2
2
1
0
1
22
1 11
1
1
111
11 1
1
1
1
11
11 1
1
111 111
1 1 11
1
1
1
11
11 1
−1
PC2 (23%)
22
3
2
2
2
3
2
3
22
3
3
22
32
333
2 2 2 2
33
22 2 2 2 22
2
33
2 3
2 2 3
3
2
23
2
3
3
3
2 3
33
2
3
3
2 2
3
3
2
3
2
3 3 33
2
2
2
3
3 3
3 3 3 33
1
1 1
11
−2
1
3
3
33
1
1
3
1
33
1
−3
−2
−1
0
1
2
3
PC1 (73%)
Figura 5: Prime due componenti principali dei dati Iris. I dati sono stati preventivamente
standardizzati. (1: Iris setosa, 2: Iris versicolour, 3: Iris virginica)
Insieme con la regola di classificazione, si deve stimare anche la corrispondente matrice
di confusione per valutarne l’accuratezza. La soluzione più semplice è quella di sostituire
pij con nij /ni , dove ni è la numerosità del campione da Ci e nij è il numero delle unità
del campione da Ci assegnate dal classificatore a Cj , i, j = 1, . . . , M . Purtroppo, questo
metodo produce stime ottimistiche che sottovalutano sistematicamente la probabilità di
classificazione errate. La ragione è che lo stesso campione viene usato per stimare sia il
classificatore che la sua accuratezza, introducendo un’ovvia correlazione. Per risolvere il
problema il campione viene diviso in due parti, il campione di stima (training sample)
usato per stimare il classificatore, e il campione di verifica test sample) usato per stimare
la matrice di confusione. Vari accorgimenti sono impiegati per attenuare la perdita di
accuratezza delle stime dovuta alla riduzione della numerosità campionaria. Tra questi
il più noto è il leave-one-out. Dal campione di n unità si esclude iterativamente l’unità
i-esima, dalle restanti n − 1 unità si ricava la stima del classificatore che viene usato per
classificare l’unità non considerata. Questo procedimento ha il pregio di separare quasi
completamente la stima del classificatore e delle probabilità d’errore, nello stesso tempo
riducendo al minimo la perdita di efficienza delle stime.
4 DATI CAMPIONARI
CLASSE VERA
C1
C2
C3
14
CLASSE STIMATA
Discr. Lineare Discr. Quadratico
C1 C2 C3 C1 C2
C3
50 0
0
50 0
0
0 48
2
0 47
3
0
1
49
0
1
49
Tabella 5: Matrice di confusione dei dati Iris dell’Esempio 13. Risultati basati sul classificatore bayesiano con ipotesi di normalità delle varabili discriminanti. Gli elementi della
matrice di confusione sono stati ottenuti col metodo leave-one-out.
Esempio 13 I dati di questo esempio riguardano l’attribuzione di fiori di iris alle rispettive specie. Ci sono tre classi corrispondenti alle specie Iris setosa (C1 ), Iris versicolour
(C2 ), Iris virginica (C3 ). Le variabili discriminanti sono quattro, lunghezza e larghezza
dei sepali, lunghezza e larghezza dei petali. Per ciascuna classe abbiamo un campione di
50 elementi. La Figura 5 mostra la proiezione dei dati, preventivamente standardizzati,
sulle prime due componenti principali. L’approssimazione è buona dato che la percentuale
spiegata della varianza totale supera il 95%. Il grafico suggerisce che Iris setosa abbia caratteristiche completamente diverse da quelle delle altre due specie, mentre Iris versicolour
e Iris virginica hanno un certo grado di sovrapposizione.
Per la classificazione abbiamo usato la versione campionaria del classificatore bayesiano
basato sull’ipotesi di normalità delle variabili discriminanti. I risultati sono stati ottenuti
per mezzo delle funzioni R lda e qda che differiscono solo per il trattamento delle matrici di covarianza. La prima si basa sull’ipotesi che le matrici di covarianza dei gruppi
siano uguali. Le matrici di confusione campionarie (vedi Tabella 5), ottenute col metodo
leave-one-out, sono molto simili e forniscono stime delle probabilità d’errore pari a 2%
per la funzione discriminante lineare, 2.67% per quella quadratica. Gli errori riguardano
solo Iris versicolour e Iris virginica. Il metodo della convalida incrociata conferma questi
risultati. Ciascun campione è stato diviso a caso in un sotto-campione di stima del classificatore e un sotto-campione di verifica di pari numerosità. Il procedimento, ripetuto 20
volte, ha fornito in media le seguenti stime delle probabilità d’errore: 2.2% per la funzione
discriminante lineare, 2.4% per quella quadratica.
4.1
Capacità discriminatoria delle variabili
Le variabili discriminanti non hanno tutte la stessa importanza ai fini della classificazione
ed è pertanto utile riconoscere quelle che riescono meglio a discriminare tra le diverse
classi. A tale proposito conviene ricordare il teorema di scomposizione della matrice di
covarianza (vedi Appendice B): quando le unità campionarie sono divise in gruppi incompatibili ed esaustivi, la matrice di covarianza campionaria è identicamente uguale
alla somma della matrici di covarianza within-groups e between-groups. La seconda componente fornisce la misura della variabilità delle medie dei gruppi rispetto alla media
generale ed è interpretabile come una misura del grado di separazione dei gruppi. Quanto
5 K-NEAREST NEIGHBOURS
15
IRIS
6
5
4
3
3.0
3.5
Lunghezza dei Petali
●
2
2.5
Larghezza dei Sepali
4.0
7
IRIS
1
2.0
●
Set
Ver
Vir
Specie
●
Set
Ver
Vir
Specie
Figura 6: Distribuzione della larghezza dei sepali e della lunghezza dei petali dei dati Iris.
maggiore la componente between-groups rispetto a quella within-groups tanto più i gruppi
sono coesi e separati. Queste considerazioni suggeriscono di calcolare il rapporto tra gli
elementi diagonali della matrice di covarianza between-groups e i corrispondenti elementi
diagonali della matrice di covarianza totale, onde ottenere un ordinamento delle variabili
secondo la capacità discriminatoria.
Esempio 14 Per le variabili dei dati Iris, i rapporti (%) varianza between-groups su
varianza totale risultano pari a 61.9, 40.1, 94.1, 92.9. In questo caso tutte le variabili hanno un rapporto abbastanza elevato ma i valori raggiunti dalla terza e quarta variabile,
lunghezza e larghezza dei petali, sono eccezionali. La Figura 6 permette di interpretare
questi risultati.
5
K-nearest neighbours
Il metodo di classificazione K-nearest neighbours (KNN), che si può rendere in italiano come vicini più vicini, è basato su presupposti completamente diversi dai metodi
parametrici, come quello discusso nella Sezione 4.
Supponiamo di avere un campione di dimensione n, con nm unità appartenenti alla
classe Cm , m = 1, . . . , M . Supponiamo inoltre di dover classificare un’unità di cui conosci(0)
(0)
amo il valore delle variabili discriminanti, indicato con x0 = (x1 , . . . , xp )T . Ricordiamo
che x0 si interpreta geometricamente come un punto nello spazio euclideo p-dimensionale.
Il primo passo è la costruzione di un intorno di x0 . Si calcolano
p i valori d1 , . . . , dn delle
distanze euclidee di x0 dai punti campionari x1 , . . . , xn , di = (x0 − xi )T (x0 − xi ), e si
16
Illustrazione Metodo KNN
M
●
M
1
●
●
●
F
F
●
F
●
●
0
M
#
●
F
●
F
+F
●
−1
●
*
F
●
F
−2
Statura (Unità Standard)
M
M
●
−2
−1
0
1
2
Peso (Unità Standard)
K=3
Figura 7: Geometria del metodo di classificazione KNN su dati simulati di peso e statura
di due campioni di femmine (F) e maschi (M). I cerchi sono gli intorni dei punti P1 =
(58, 163)T (∗), P2 = (70, 174)T (#), P3 = (55, 168)T (+) per K = 3. I dati sono stati
preventivamente standardizzati.
individua il K-esimo valore nel vettore delle distanze ordinate in senso crescente. Sia
d(K) il corrispondente valore numerico. L’intorno di x0 è la sfera p-dimensionale centrata
in x0 e avente come raggio d(K) . Se i valori delle distanze di sono distinti, nell’intorno
(all’interno della sfera o sulla sua frontiera) ci sono esattamente K punti del campione
osservato, i K punti più vicini a x0 . La regola di classificazione è ora ovvia: x0 è assegnato
alla classe avente il maggior numero di punti nell’intorno definito in precedenza.
Esempio 15 Assumiamo che la distribuzione congiunta di peso e statura sia normale con
parametri diversi per femmine e maschi. Specificamente, assumiamo che i vettori delle
medie e delle deviazioni standard siano rispettivamente µF = (60, 165)T , µM = (75, 178)T ,
σF = (8, 10)T , σM = (9, 10)T e che il coefficiente di correlazione lineare sia ρF = ρM =
0.7. Simuliamo due campioni di numerosità nF = 8, nM = 5 dalle due distribuzioni
e usiamo questi dati per classificare i tre punti P1 = (58, 163)T , P2 = (70, 174), P3 =
(55, 168). Poichè le unità di misura e l’ordine di grandezza delle variabili sono diverse,
per evitare distorsioni della distanza euclidea, tutti i dati compresi quelli di P1 , P2 , P3
sono pre-standardizzati usando medie e deviazioni standard del campone totale di nF +nM
17
unità. Ai fini della classificazione poniamo K = 3, cioè consideriamo intorni di P1 , P2 , P3
comprendenti i tre punti più vicini del campione. La Figura 7 illustra i risultati. Gli
intorni di P1 e P3 comprendono tre femmine pertanto i due punti sono classificati come
femmine. L’intorno di P2 comprende due maschi e una femmina ed il punto è classificato
come maschio.
Esaminiamo di seguito alcuni aspetti del metodo KNN.
Scelta della distanza La distanza più usata è quella euclidea ma non vanno escluse
altre soluzioni come la distanza di Mahalanobis con un’opportuna
matrice di ponp
T
derazione. Nell’Esempio 15 è stata usata la distanza (x − y) D−1 (x − y) con
D = diag S dove S è la matrice di covarianza campionaria. Questa scelta equivale
alla standardizzazione dei dati.
Stima della probabilità d’errore. Per ottenere stime non distorte si divide il campione in due sotto-campioni disgiunti usati rispettivamente per la stima del classificatore e la sua verifica. Le unità del campione di verifica sono classificate usando
le unità del campione di stima per costruire gli intorni. Il metodo leave-one-out è
molto popolare. In questo caso ogni unità campionaria è usata a turno come centro
dell’intorno ed è classificata usando le restanti n − 1 unità.
Valore di K È raccomandabile usare il valore di K che minimizza la stima della probabilità d’errore.
C’è un legame del KNN con i metodi di riferimento, il classificatore di Bayes e quello
di massima verosimiglianza? Consideriamo un generico punto x0 dello spazio e sia ∆(K)
la misura dell’intorno di x0 (l’area per p = 2, il volume per p = 3, ecc.). Indichiamo
inoltre con nm /K la frequenza relativa della classe Cm nell’intorno, m = 1, . . . , M . Il
rapporto nm /(K∆(K) è una stima di fm (x0 ), la densità di probabilità nel punto x0 della
classe Cm e converge a fm (x0 ) al divergere della numerosità campionaria per ogni fissato
valore di K. Pertanto KNN si basa su un principio simile a quello del classificatore di
massima verosimiglianza, salvo il fatto che i valori delle funzioni di densità sono stimati
con un metodo non parametrico.
Esempio 16 Riconsideriamo i dati Iris usando questa volta il classificatore KNN. Vista
l’eterogeneità delle deviazioni standard delle variabili i dati sono stati standardizzati. Il
valore ottimale di K (vedi Figura 8) è pari a 13 e produce una stima della probabilità
d’errore pari a 3.33%, di poco peggiore del classificatore bayesiano basato sull’ipotesi di
normalità. Il procedimento di convalida incrociata, eseguito come nell’Esempio 13 fornisce
una stima pari a 5.8%.
A APPENDICE. PROBABILITÀ TOTALE E FORMULA DI BAYES
18
50
KNN con Dati Iris
●
●
●
●
●
20
30
● ●
● ●
●
●
●
●
10
Stima Probabilità d'Errore (%)
40
●
●
● ●
● ●
● ●
●
●
● ●
●
● ● ●
●
●
●
●
● ●
● ●
●
●
● ● ●
● ●
●
● ● ●
●
● ● ● ● ●
●
0
●
●
0
20
40
60
80
100
K
Leave−one−out
Figura 8: KNN con dati Iris. Andamento della stima col metodo leave-one-out della
probabilità d’errore al variare di K. I dati sono stati preventivamente standardizzati.
A
Appendice. Probabilità totale e formula di Bayes
Consideriamo un evento casuale E che può verificarsi in concomitanza con eventi A1 , . . . , AM ,
M ≥ 2, che formano una partizione dello spazio campionario S. Per definizione gli eventi
Am sono a) a due a due incompatibili, cioè non hanno eventi elementari in comune, e b)
la loro unione dà l’intero spazio campionario. Quando si studiano i risultati di un test,
E è l’evento “un soggetto, scelto casualmente, supera il test” e la partizione dello spazio
campionario comprende gli eventi A1 : “il soggetto non è preparato” e A2 : “il soggetto
è preparato”. Nel controllo di qualità, in cui si deve valutare se un lotto di prodotti
è accettabile, E è l’evento “il controllo di un campione casuale di n pezzi del lotto ha
evidenziato la presenza di 0 ≤ k ≤ n pezzi difettosi” e la partizione è formata da A1 : “il
lotto non è conforme allo standard di qualità”, A2 : “il lotto è conforme allo standard di
qualità”. Nella diagnosi di una malattia mediante test clinici, E è l’evento “un soggetto è
risultato positivo al test” e la partizione è la coppia di eventi A1 : “il soggetto è malato”,
A2 : “il soggetto non è malato”.
Supponiamo di conoscere le probabilità P (Am ) degli eventi della partizione e anche le
probabilità subordinate P (E|Am ), m = 1, . . . , M . Il problema risolto dal teorema della
19
probabilità totale è la probabilità non subordinata di E.
Teorema 17 (Probabilità totale) La probabilità totale di E è
P (E) =
M
X
P (Am )P (E|Am )
m=1
Dimostrazione. Vale la seguente identità:
E = E ∩ S = E ∩ (∪M
m=1 Am )
M
= ∪m=1 (E ∩ Am ) ,
(12)
(13)
in cui gli eventi E ∩Am , m = 1, . . . , M , sono a due a due incompatibili. Possiamo pertanto
usare l’assioma di addività e scrivere
P (E) =
P (∪M
m=1 (E
∩ Am )) =
M
X
P (E ∩ Am ) .
m=1
Per il teorema del prodotto, P (E ∩ Am ) = P (Am )P (E|Am ), pertanto
P (E) =
M
X
P (E ∩ Am ) =
m=1
M
X
P (Am )P (E|Am ) .
m=1
La formula di Bayes riguarda le probabilità subordinate degli eventi Am se è noto che
l’evento E si è verificato.
Teorema 18 (Formula di Bayes) Per m = 1, . . . , M , la probabilità subordinata P (Am |E)
è
P (Am )P (E|Am )
P (Am |E) = PM
j=1 P (Aj )P (E|Aj )
Dimostrazione. La dimostrazione è basata sulla definizione di probabilità subordinata:
P (Am |E) =
P (Am ∩ E)
.
P (E)
La formula di Bayes si ottiene sostituendo a) a numeratore, ancora per la regola del
prodotto, P (Am )P (E|Am ) e b) a denominatore la probabilità totale di E.
20
Esempio 19 Un test comprende 10 domande indipendenti l’una dall’altra. Per ogni domanda sono fornite tre risposte, una sola delle quali è esatta. Se uno studente è preparato, sceglie la risposta esatta di ogni domanda con probabilità 0.8. Se uno studente non
è preparato, sceglie a caso la risposta di ogni domanda. La probabilità che uno studente
sia preparato si assume pari a 0.7. Il test è considerato sufficiente con almeno 6 risposte
esatte. Vogliamo calcolare a) la probabilità che uno studente superi il test, qualunque sia
la sua preparazione e b) la probabilità che uno studente, pur avendo superato il test, sia
in realtà non preparato.
a) Indichiamo con A l’evento che uno studente casualmente scelto sia preparato e con AC
il suo complementare. Indichiamo inoltre con E l’evento che uno studente superi il
test. La probabilità richiesta è chiaramente la probabilità totale
P (E) = P (A)P (E|A) + P (AC )P (E|AC ) ,
(14)
con P (A) = 0.7. Ma come si valutano P (E|A) e P (E|AC )? Data la struttura
del test, con domande indipendenti, possiamo vederlo come un insieme di 10 prove
dicotomiche indipendenti con probabilità p costante di successo. Il numero dei successi (successo qui significa risposta esatta) è una variabile aleatoria binomiale
Bi(n = 10, p) e la probabilità di superare il test è
10 X
10
x=6
x
px (1 − p)10−x .
(15)
Se lo studente è preparato p = 0.8 e dalla (15) otteniamo P (E|A) = 0.9672065.
Se lo studente non è preparato, cerca di indovinare la risposta esatta. In tal caso
p = 1/3 e dalla (15) otteniamo P (E|AC ) = 0.07656353. Inserendo i due risultati
nella (14) otteniamo infine P (E) = 0.7000136.
b) Dobbiamo trovare P (AC |E). Usando la formula di Bayes
P (AC |E) =
0.02296905
P (AC )P (E|AC )
=
= 0.03281229 .
P (E)
0.7000136
Questo risultato va confrontato con la probabilità iniziale P (AC ) = 0.3. Se è noto che lo studente ha passato il test, la probabilità che non sia preparato scende a
0.03281229, circa un decimo del valore iniziale. La differenza fornisce la misura
dell’efficacia della prova per discriminare tra studenti preparati e non. Si può rendere il test ancor più selettivo? Basta, ad esempio, aumentare il numero delle
alternative per ogni domanda. È facile verificare che, se ci sono quattro alternative per ogni domanda, P (E|A) rimane invariata mentre P (E|AC ) = 0.01972771,
P (E) = 0.6829629 e P (AC |E) = 0.005918313/0.6829629 = 0.008665643 < 0.01.
B APPENDICE. TEOREMA DI SCOMPOSIZIONE DELLA VARIANZA
B
21
Appendice. Teorema di scomposizione della varianza
Consideriamo un vettore aleatorio p-dimensionale X = (X1 , . . . , Xp )T con valore atteso
E(X) = µ = (µ1 , . . . , µp )T , con µi = E(Xi ), i = 1, . . . , p, e matrice di covarianza V (X) =
Σ = (σij ), dove σii = σi2 = E{(Xi − µi )2 } è la varianza di Xi , i = 1, . . . , p, e σij =
E{(Xi − µi )(Xj − µj )} è la covarianza di Xi e Xj , i, j = 1, . . . , p, i 6= j. Supponiamo
inoltre che lo spazio campionario sia dotato di una partizione di eventi Cm con probabilità
pm = P (Cm ), m = 1, . . . , M . Gli eventi Cm sono spesso interpretabili come gruppi o classi
in cui una popolazione è suddivisa. In tale ipotesi i vettori aleatori subordinati X|Cm ,
m = 1, . . . , M hanno, in generale, distribuzioni diverse. Per m = 1, . . . , M indichiamo
con µ(m) e Σ(m) il vettore dei valori medi e la matrice di covarianza di X|Cm .
Il teorema di scomposizione della varianza descrive la relazione tra le matrici di covarianza subordinate, Σ(m) , e quella non subordinata, Σ. Preliminare ad esso è un semplice
lemma che descrive invece la relazione tra valori medi subordinati, µ(m) , e quello non
subordinato, µ.
Lemma 20 Se gli eventi {C1 , . . . , CM } sono una partizione dello spazio campionario S
con pm = P (Cm ), m = 1, . . . , M , allora il valore atteso di X è identicamente uguale alla
media ponderata dei valori attesi di X|Cm :
µ = E(X) = EC (E(X|Cm )) =
M
X
P (Cm )E(X|Cm )
(16)
m=1
=
M
X
pm µ(m) .
(17)
m=1
Indichiamo con ΣW e ΣB le matrici di covarianza within-groups e between-groups le
cui espressioni sono rispettivamente uguali a
ΣW =
ΣB =
=
M
X
m=1
M
X
m=1
M
X
P (Cm )V (X|Cm ) =
M
X
pm Σ(m) ,
(18)
m=1
P (Cm )(E(X|Cm ) − E(X))(E(X|Cm ) − E(X))T
(19)
pm (µ(m) − µ)(µ(m) − µ)T .
(20)
m=1
Teorema 21 Se gli eventi {C1 , . . . , CM } sono una partizione dello spazio campionario S
con pm = P (Cm ), m = 1, . . . , M , allora la matrice di covarianza di X è identicamente
uguale alla somma delle matrici di covarianza within-groups e between-groups:
22
Σ = V (X) = EC (V (X|Cm ) + VC (E(X|Cm )
M
M
X
X
=
pm Σ(m) +
pm (µ(m) − µ)(µ(m) − µ)T
m=1
(21)
(22)
m=1
= Σ W + ΣB .
(23)
Qui i simboli EC (.) e VC (.) indicano gli operatori valore atteso e varianza rispetto agli
eventi della partizione {C1 , . . . , CM }. Nel caso campionario, il Lemma 20 e il Teorema 21
continuano a valere, con parametri delle distribuzioni rimpiazzati dalle rispettive stime, le
mede campionarie e le matrici di covarianza campionarie, quest’ultime con divisore pari
alla numerosità campionaria. Per maggior chiarezza ne riportiamo di seguito l’espressione.
M
X
nm (m)
x̄
,
x̄ =
n
m=1
(24)
M
M
X
nm (m) X nm (m)
S =
S +
(x̄ − x̄)(x̄(m) − x̄)T
n
n
m=1
m=1
(25)
= SW + SB .
(26)
Esempio 22 In un campione di studenti universitari comprendente nF = 63 femmine e
nM = 71 maschi abbiamo rilevato i dati del peso (X1 , kg) e della statura (X2 , cm). La
Figura 9 mostra la distribuzione congiunta delle vriabili. I vettori delle medie e le matrici
di covarianza dei due gruppi sono riportati di seguito.
x
x
(F )
(M )
=
=
56.31905
166.6317
75.8338
180.8211
, S
(F )
, S
(M )
=
=
51.93011 12.18654
12.18654 34.82217
114.66590 40.86253
40.86253 36.41096
,
(27)
.
(28)
Qual è la matrice di covarianza complessiva? E qual è la frazione della varianza
complessiva attribuibile alle differenze tra le medie dei due gruppi? Iniziamo a rispondere
ai due quesiti calcolando la media complessiva come media ponderata delle medie parziali.
nF (F ) nM (M )
63
x=
x +
x
=
n
n
134
56.31905
166.6317
71
+
134
75.8338
180.8211
=
66.6590
174.1500
.
Iniziamo ad usare il teorema di scomposizione della varianza calcolando la matrice di
covarianza within-groups. Essa è la media ponderata delle matrici di covarianza parziali.
●
●
23
●
F
M
●
190
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
180
●
●
●
●
●
●
●
●
●
●
●●●●
●●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
●●
170
Statura (cm)
●
●
●
●
●●
●●
●
●●
●
●●
●
●
●●●
160
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
40
●
50
60
70
80
90
100
Peso (kg)
Figura 9: Diagramma di dispersione del peso e della statura di un campione di studenti
(F: femmina, M: maschio).
nF (F ) nM (M )
S +
S
n n
63
71
51.93011 12.18654
114.66590 40.86253
=
+
40.86253 36.41096
134 12.18654 34.82217
134
85.17072 27.38053
'
.
27.38053 35.66399
SW =
Calcoliamo ora la matrice di covarianza between-groups, definita come la matrice di
varianza delle medie parziali.
nF (F )
nM (M )
x − x (x(F ) − x)T +
x
− x (x(M ) − x)T
n n
63
71
−10.33995
9.1748
−10.33995 −7.5183 +
=
−7.5183
134
134 6.6711
71
63
106.91457 77.73885
84.17696 61.20601
+
=
77.73885 56.52483
134
134 61.20601 44.50358
94.867 68.979
'
.
68.979 50.155
24
SB =
9.1748 6.6711
Siamo giunti al passaggio finale. La matrice di covarianza S è la somma delle matrici
di covarianza within-groups e between-groups:
S = SW + SB
85.171 27.381
94.867 68.979
180.038 96.360
'
+
=
.
27.381 35.664
68.979 50.155
96.360 85.819
Siamo ora in grado di calcolare la frazione della varianza totale dovuta alle differenze
(B)
delle medie parziali dalla media generale. Per il peso, X1 , il rapporto s11 /s11 è circa pari
(B)
a 52.7% mentre per la statura, X2 , il rapporto s22 /s22 è leggermente più alto, 58.4%. In
entrambi i casi il rapporto è elevato indicando un importante contributo delle differenze
tra le medie parziali alla variabilità generale. In questo esempio, il peso relativo della
variabilità entro i gruppi e della variabilità tra i gruppi è simile.

METODI DI CLASSIFICAZIONE

Transcript

Documenti analoghi

Esame 2012-06-06 (soluzioni)

Compression bounds

Sistemi Avanzati per il Riconoscimento A.A. 2014/2015

VII Foglio di Esercizi (distribuzioni uniforme, gaussiana ed

1 PREVISIONI E PREVISIONI SUBORDINATE (1) Si lancino due

3 - UniFI

testi - Disfida matematica

Indipendenza Indipendenza probabilistica o stocastica A

1 RACCOLTA DI ESERCIZI SUL TEOREMA DI BAYES DA

L`EQUAZIONE DI FOKKER-PLANCK Seminario bAd del 01/12/2009