Esercizio 1 Supponiamo di voler realizzare un sistema anti spam

Transcript

Esercizio 1 Supponiamo di voler realizzare un sistema anti spam
ESERCIZI CORSO RICONOSCIMENTO DI FORME –
Argomenti trattati nel CAPITOLO 2 dei lucidi presentati a lezione
Esercizio 1
Supponiamo di voler realizzare un sistema anti spam che utilizza la
frequenza della parola “viagra” nelle e-mail. Ci aspettiamo che
all’aumentare di questa frequenza aumenti la nostra “certezza” di avere
a che fare con delle e-mail di spam. (Più realisticamente, per ogni mail
viene calcolato uno ‘score’ in base ai vocaboli contenuti)
1) abbozzare un semplice modello, per esempio lineare, per p( x | ωSPAM )
e per p( x | ωMAIL )
2) definire il decisore bayesiano e calcolarne l’errore, nel caso in cui
P(ωMAIL)= P(ωSPAM) e nel caso in cui P(ωMAIL)=10 P(ωSPAM)
3) mostrare graficamente l’errore
1) Modello lineare
2
2
1.5
pspam( x)
pmail( x)
⎧2 x per 0 < x < 1
p ( x | ω SPAM ) = ⎨
altrove
⎩0
⎧2 − 2 x per 0 < x < 1
p ( x | ω MAIL ) = ⎨
altrove
⎩0
0.5
0
x =1 rappresenta il massimo dello ‘score’ attribuito ad una mail
considerata SPAM.
Le costanti si trovano ricordando che
1
/
1
0
0
0
0.2
0.4
0.6
x
0.8
1
1
2) Decisore bayesiano
Supponiamo che le due classi siano equiprobabili.
Decisione ‘razionale’ (MAP):
ωSPAM
Decido ‘spam’ se P(ω SPAM / x) > P(ω MAIL / x)
l ( x) =
Applicando la regola di Bayes,
P(ω / x ) = p( x / ω )
P(ω )
p( x )
p ( x / ωSPAM )
p ( x / ωMAIL )
>
<
ωSPAM
1 ⇒
2x
2 − 2x
ωMAIL
>
<
1 ⇒ x* =
ωMAIL
Posso scrivere il rapporto di verosimiglianza
ω SPAM
l ( x) =
p( x / ω SPAM )
p( x / ω MAIL )
>
<
P(ω MAIL )
P(ω SPAM )
ω MAIL
Regola di decisione Bayesiana: se x>x* decido per SPAM, altrimenti per
MAIL.
Le regioni di decisione sono quindi
MAIL: x ∈ [0, x * ]; SPAM: x ∈ [x * , 1] ; x* =
1
2
1
2
Se supponiamo che le classi non siano equiprobabili, per esempio
P(ωMAIL)=10 P(ωSPAM), si ha
P(ωMAIL)=10/11; P(ωSPAM)=1/11;
ERRORE BAYESIANO:
(classifico come normale una mail di spam) + ( classifico come spam una
mail normale)
ω SPAM
l ( x) =
p ( x / ω SPAM )
p( x / ω MAIL )
>
<
10 ⇒ x * =
10
11
P{x ∈ RMAIL , ω SPAM } + P{x ∈ RSPAM , ω MAIL } =
P{x ∈ RMAIL / ω SPAM } P(ω SPAM ) + P{x ∈ RSPAM / ω MAIL } P(ω MAIL )
ω MAIL
x*
1
0
x*
∫ p( x | ω SPAM )P(ω SPAM )dx + ∫ p( x | ω MAIL )P(ω MAIL )dx
Le regioni di decisione sono quindi
MAIL: x ∈ [0, x * ]; SPAM: x ∈ [x * , 1] ; x* =
10
11
Se P(ωMAIL)=P(ωSPAM),
1/ 2
err =
∫
0
3) mostrare graficamente l’errore
Caso P(ωMAIL)= P(ωSPAM)
1
1
1
1
2 x ⋅ dx + ∫ (2 − 2 x) ⋅ dx =
2
2
4
1/ 2
Se P(ωMAIL)=10 P(ωSPAM)
x*
∫ p( x | ω SPAM )P(ω SPAM )dx +
0
10 / 11
=
∫
0
1
1
∫ p( x | ω
MAIL
)P(ω MAIL )dx =
x*
1
10
10
2 x ⋅ dx + ∫ (2 − 2 x) ⋅ dx =
≅ 0.0183
11
11
121
10 / 11
Caso P(ωMAIL)=10 P(ωSPAM) => P(ωMAIL)=10/11; P(ωSPAM)=1/11;
Esercizio 2
[dhs cap 2 n°2]
Consideriamo un problema di identificazione di traffico intrusivo.
Supponiamo di aver misurato una caratteristica x del traffico, e di voler
discriminare traffico normale da traffico intrusivo usando solo questa
caratteristica. Per esempio, x potrebbe essere legato al tasso di errori di
protocollo nelle connessioni provenienti da un dato host. Siamo di
fronte ad un problema monodimensionale a due classi. Supponiamo
ancora di conoscere con buona approssimazione le funzioni che
‘regolano’ le distribuzioni di traffico normale ed intrusivo, che si
differenziano solo per i valori ai e bi
⎛ x − ai
p ( x | ω i ) ∝ exp⎜⎜ −
bi
⎝
⎞
⎟; i=1 traffico normale; i=2 traffico intusivo;
⎟
⎠
bi>0, a1≤a2
a) Scrivere l’espressione analitica per la densità di probabilità;
b) Calcolare il rapporto di verosimiglianza in funzione di ai e bi
d) Fare un grafico delle distribuzioni e del rapporto di verosimiglianza
p( x | ω 2 )
, trovare la soglia bayesiana e valutare l’errore per
p( x | ω1 )
- a1= -5, b1=1, a2=5 , b2=2
- a1 =0 ; b1=1; a2 =1 ; b2=2
- a1 =0 ; b1=0.4; a2 =1 ; b2=0.4
SVOLGIMENTO
b) Calcolare il rapporto di verosimiglianza in funzione di ai e bi
a) Scrivere l’espressione analitica per la densità di probabilità
Ricordiamo che il criterio di decisione MAP si può esprimere mediante
Affinché le p ( x | ωi ) siano vere densità di probabilità occorre
il confronto tra il rapporto di verosimiglianza l ( x) =
normalizzarle
rapporto fra le probabilità a priori delle classi
⎛ x − ai
+∞
k i ∫ exp⎜⎜ −
−∞
bi
⎝
p( x | ωi ) =
⎞
1
⎟ = 1 → ki =
;
⎟
2bi
⎠
⎛ x − ai
1
exp⎜⎜ −
bi
2bi
⎝
⎞
⎟;
⎟
⎠
ω2
l ( x) =
p( x / ω 2 ) >
p ( x / ω1 ) <
P (ω1 )
=θ
P (ω 2 )
ω1
dove θ è una soglia che non dipende da x.
Notare che la normalizzazione è indipendente da ai, che rappresenta la
posizione sull’asse delle x, ed è quindi irrilevante per la normalizzazione.
p( x / ω2 )
ed il
p ( x / ω1 )
ω2
⎡ x − a1
x − a 2 ⎤ > P(ω1 )
p ( x | ω 2 ) b1
=θ
l ( x) =
=
exp ⎢
−
⎥
p( x | ω1 ) b2
b2 ⎦ < P (ω 2 )
⎣ b1
ω1
Se il rapporto di verosimiglianza eccede θ classifichiamo il traffico come
intrusivo. Questo si traduce nel determinare le regioni di decisione, cioè
stabilire dei valori di soglia per x che ci permettano di effettuare la
discriminazione.
Per fissare le idee, senza perdita di generalità possiamo porre a1≤a2 , e
scrivere
⎧ b1
⎡⎛ a − x ⎞ ⎛ a 2 − x ⎞⎤
⎟⎟ − ⎜⎜
⎟⎟⎥
⎪ exp ⎢⎜⎜ 1
⎪ b2
⎣⎝ b1 ⎠ ⎝ b2 ⎠⎦
⎡⎛ x − a1 ⎞ ⎛ a 2 − x ⎞⎤
p ( x | ω 2 ) ⎪⎪ b1
⎟⎟⎥
⎟⎟ − ⎜⎜
l ( x) =
= ⎨ exp ⎢⎜⎜
p( x | ω1 ) ⎪ b2
⎣⎝ b1 ⎠ ⎝ b2 ⎠⎦
⎪b
⎡⎛ x − a1 ⎞ ⎛ x − a 2 ⎞⎤
⎟⎟ − ⎜⎜
⎟⎟⎥
⎪ 1 exp ⎢⎜⎜
b
b
⎪⎩ b2
1
2
⎝
⎠
⎝
⎠⎦
⎣
per x < a1
per a1 ≤ x ≤ a 2
per x > a 2
caso
; p( x | ωi ) =
l ( x) =
⎡ x − a1 x − a2
p( x | ω2 ) b1
exp ⎢
=
−
p( x | ω1 ) b2
b2
⎣ b1
l ( x ) > 1 se x >
1
1
; xb =
2
2
⎛ x − ai
1
exp⎜⎜ −
bi
2bi
⎝
⎤
⎡ x
x −1 ⎤
−
⎥ = exp ⎢
⎥ >1
⎣ 0.4 0.4 ⎦
⎦
⎞
⎟;
⎟
⎠
4
4
1.2
3
1
p1 ( x)
0.8
p2 ( x)
0.6
soglia( x)
p1 ( x)
p2 ( x)
2
0.4
1
0.2
0
4
3
2
1
0
x
1
2
3
4
0
0
4
−4
3
2
1
0
x
Verosimiglianza
1
2
3
4
4
caso
Aumento la varianza lasciando inalterate le medie
⎧1
⎡
⎛ 1 − x ⎞⎤
⎟⎥
⎪ exp ⎢(− x ) − ⎜
2
2
⎝
⎠⎦
⎣
⎪
p ( x | ω2 ) ⎪ 1
⎡
⎛ 1 − x ⎞⎤
= ⎨ exp ⎢(x ) − ⎜
l( x) =
⎟⎥
p( x | ω1 ) ⎪ 2
⎝ 2 ⎠⎦
⎣
⎪1
⎡
⎛ x − 1 ⎞⎤
⎪ 2 exp ⎢(x ) − ⎜ 2 ⎟⎥
⎝
⎠⎦
⎣
⎩
⎧1
⎡ x + 1⎤
⎪ 2 exp ⎢− 2 ⎥
⎣
⎦
⎪
p ( x | ω2 ) ⎪ 1
⎡ 3 x − 1⎤
= ⎨ exp ⎢
l( x) =
p( x | ω1 ) ⎪ 2
⎣ 2 ⎥⎦
⎪ 1 exp ⎡ x + 1⎤
⎢⎣ 2 ⎥⎦
⎪⎩ 2
per x < 0
per 0 ≤ x ≤ 1
per x > 1
per x < 0
per 0 ≤ x ≤ 1
per x > 1
d) Fare un grafico delle distribuzioni e del rapporto di verosimiglianza
p( x | ω 2 )
, trovare la soglia bayesiana e valutare l’errore per
p( x | ω1 )
- a1= -5, b1=1, a2=5 , b2=2
Vediamo come varia il rapporto di verosimiglianza al variare di x, fissati i
parametri ai e bi
Per a1=-5, b1=1, a2=5 , b2=2 le distribuzioni appaiono ben separate
- a1 =0 ; b1=1; a2 =1 ; b2=2
- a1 =0 ; b1=0.4; a2 =1 ; b2=0.4
⎧ b1
⎡ x + 15 ⎤
⎪ exp ⎢−
2 ⎥⎦
⎣
⎪ b2
p ( x | ω 2 ) ⎪ b1
⎡ 5 + 3x ⎤
= ⎨ exp ⎢
p ( x | ω1 ) ⎪ b2
⎣ 2 ⎥⎦
⎪ b1
⎡ x + 15 ⎤
⎪ b exp ⎢ 2 ⎥
⎣
⎦
⎩ 2
per x < −5
per − 5 ≤ x ≤ 5
per x > 5
4
4
0.5
3
0.4
p2 ( x)
p1 ( x)
p2 ( x)
p1 ( x)
0.3
2
soglia( x)
0.2
1
0.1
0
10
8
6
4
2
0
2
x
- Distribuzioni -
4
6
8
10
0
0
4
−4
3
2
1
0
1
x
- Verosimiglianza –
2
3
4
4
In questo caso può essere abbastanza semplice discriminare i due tipi di
traffico con un piccolo errore, poiché i valori medi della feature x sono
abbastanza lontani fra loro rispetto alla varianza delle distribuzioni.
10
10
8
6
p2 ( x)
p1 ( x)
Se P(ω1)=P(ω2), scelgo la classe ω2 per
soglia( x)
4
2
p( x / ω 2 )
> 1 , cioè per x > -1.205 ( vedi grafico verosimiglianza)
l ( x) =
p( x / ω1 )
0
0
10
− 10
xb = -1.205
8
6
4
2
0
2
4
x
- Rapporto di verosimiglianza -
6
8
10
10
L’errore bayesiano vale:
xB
∫ p( x | ω 2 )P(ω2 )dx +
−∞
∞
∫ p( x | ω )P(ω )dx ≅ 16.8 ⋅10
1
−3
quindi sposterò la soglia a destra. Da notare che NON STIAMO facendo
nessuna considerazione circa il ‘peso’ dei due diversi tipi di errore:
etichettare traffico normale come attacco ( falso positivo) o viceversa
etichettare traffico intrusivo come traffico normale ( falso negativo).
1
xB
L’errore bayesiano vale:
Se invece il traffico normale (la prima classe) è molto più probabile del
traffico intrusivo, per es P(ω1)=10 P(ω2), sceglierò un valore di soglia
l ( x) =
p( x / ω 2 ) P(ω1 )
>
= 10 , cioè xB = 0.33
p( x / ω1 ) P(ω 2 )
xB
∞
−∞
xB
−3
∫ p( x | ω2 )P(ω2 )dx + ∫ p( x | ω1 )P(ω1 )dx ≅ 6.6 ⋅10
Esaminiamo ora il caso i cui le due distribuzioni non sono così ben
separate
.6
0.5
per a1 =0 ; b1=1; a2 =1 ; b2=2
⎧1
⎡ x + 1⎤
⎪ 2 exp ⎢− 2 ⎥
⎣
⎦
⎪
p ( x | ω2 ) ⎪ 1
⎡ 3 x − 1⎤
= ⎨ exp ⎢
p ( x | ω1 ) ⎪ 2
⎣ 2 ⎥⎦
⎡ x + 1⎤
⎪1
⎪ 2 exp ⎢⎣ 2 ⎥⎦
⎩
0.4
per x < 0
p1 ( x)
per 0 ≤ x ≤ 1
p2 ( x)
per x > 1
0.3
0.2
0.1
i valori medi nei due casi non sono più tanto distanti
−0
0
4
−4
3
2
1
0
x
- Distribuzioni -
1
2
3
4
4
Possiamo notare il grado di sovrapposizione delle due distribuzioni. Se
P(ω1)=P(ω2), scelgo la classe ω2 per l ( x) =
6
p( x / ω 2 )
> 1 , cioè per x<-2.38
p( x / ω1 )
6
5
e per x> 0.795, come si nota dal grafico del rapporto di
verosimiglianza.
4
p2 ( x)
p1 ( x)
3
soglia( x)
xb1= -2.38; xb2= 0.795;
2
1
0
0
4
−4
3
2
1
0
1
x
- Verosimiglianza –
2
3
4
4
In questo caso avremo degli errori più elevati nella classificazione.
L’errore bayesiano infatti è
x B1
∫ p( x | ω1 )P(ω1 )dx +
−∞
xB 2
∫ p( x | ω 2 )P(ω 2 )dx +
xb1
∞
∫ p( x | ω )P(ω )dx ≅ 315.5 ⋅ 10
1
−3
1
xB 2
Graficamente possiamo facilmente individuare l’area che rappresenta
l’errore bayesiano ( il minimo possibile) nel caso P(ω1)=P(ω2)
- errore imponendo regioni di decisione connesse-
per a1 =0 ; b1=0.4; a2 =1 ; b2=0.4
1.2
1
p1 ( x)
0.8
p2 ( x)
0.6
0.4
- errore bayesiano – le regioni di decisione non sono
semplicemente connesse –
Cosa succede diminuendo la varianza delle distribuzioni, lasciando
invariate le medie?
0.2
0
4
3
2
1
0
x
1
2
3
4
- Distribuzioni 4
Anche se i valori medi – e quindi le ‘posizioni’ delle distribuzioni - non
sono cambiati, in questo caso l’errore bayesiano è più piccolo. Traffico
normale e attacchi danno luogo a valori di x più concentrati intorno al
proprio valor medio.
4
3
In questo caso identifico il traffico come intrusivo per l ( x) =
cioè per x >0.5.
p2 ( x)
p1 ( x)
2
soglia( x)
xb=0.5
1
0
L’errore Bayesiano è
0
4
−4
3
2
1
0
1
x
- Verosimiglianza –
2
3
4
4
xB
∞
−∞
xB
−3
∫ p( x | ω2 )P(ω2 )dx + ∫ p( x | ω1 )P(ω1 )dx ≅ 143⋅10
p( x / ω 2 )
> 1,
p( x / ω1 )
ESERCIZIO 3
Consideriamo un problema a due classi, in
se invece il traffico normale è molto più probabile del traffico intrusivo,
per es P(ω1)=10 P(ω2)
ottengo
Le due classi sono caratterizzate da densità di probabilità gaussiane
|
/
| |
/
exp
Σ
Ciascun pattern è rappresentato da un vettore in R2 ;
xb=0.961
⎛μ ⎞
Indichiamo con μ i = ⎜⎜ i ,1 ⎟⎟ il vettore media per la classe i-esima
⎝ μ i,2 ⎠
L’errore Bayesiano è
xB
∞
−∞
xB
−3
∫ p( x | ω2 )P(ω2 )dx + ∫ p( x | ω1 )P(ω1 )dx ≅ 82.3⋅10
Utilizzando il criterio MAP
Le distribuzioni che caratterizzano le due classi sono
a) classificare il pattern xT=(1/2, 1/3)’ utilizzando le regioni di decisione
|
b) classificare il pattern xT=(1/2, 1/3)’ usando il rapporto di
verosimiglianza
exp
,
,
=
exp
,
,
=
exp
Sapendo che
P ω
Σ
P ω ; Σ
0
;
0
Σ
1
0
0
1
1
;
1
Scopo dell’esercizio è mostrare come in un problema di classificazione
MAP in Rd è più semplice applicare il test di verosimiglianza piuttosto
che definire le regioni di decisione e verificare l'appartenenza dei
pattern alle regioni trovate.
|
exp
exp
exp
1
1
2
1
2
2
2
1
2
a) classificare il pattern xT=(1/2, 1/3)’ senza usare il rapporto di
verosimiglianza
Dato che i ‘priors’ sono uguali, posso ometterli
p (x / ω1 ) > p (x / ω 2 )
exp
2
2
2
2
1
La regione di decisione per la classe 1 è definita da
exp
2
2
2
2
2
Definisco quindi le due regioni di decisione
ℜ1 = {x | x1 + x 2 < 1}
ℜ 2 = {x | x1 + x 2 > 1}
I pattern per i quali x1 + x2 = 1 possono essere assegnati
indifferentemente alla classe 1 o alla classe 2
Per il pattern xT=(1/2, 1/3)’ si verifica facilmente che xT ∈ ℜ1 . Quindi il
pattern xT viene assegnato alla classe 1.
Da notare che il confine delle regioni di decisione hanno una forma
semplice a causa delle particolari distribuzioni scelte: entrambe
gaussiane, con matrici di covarianza uguale alla matrice identità.
Vedremo che con tali distribuzioni il confine delle regioni di decisione è
sempre lineare.
In genere può non essere possibile trovare dalla diseguaglianza
P (ω1 ) p(x / ω1 ) > p(x / ω2 ) P (ω2 )
le condizioni sulle componenti xi in forma esplicita, e quindi potrei
ottenere una definizione più complessa delle regioni di decisione e dei
corrispondenti test di appartenenza
b) classificare il pattern xT=(1/2, 1/3)’ usando il rapporto di
verosimiglianza
Decido per classe 1 se
l ( x) =
con θ
p (x / ω1 )
> θ,
p(x / ω2 )
= 1 data l’eguaglianza dei ‘priors’
exp
exp
2
2
2
2
x
Classe 1: x
1
Classe 2: x
1
2
2
exp 1
exp 1
E quindi
l ( x T ) = exp[1 − (1 / 2 + 1 / 3)] = exp(1 / 6) ≅ 1.184 > 1
Quindi il pattern xT appartiene alla regione di decisione della classe 1.
Da notare che il test di verosimiglianza coinvolge sempre confronti fra
scalari, e che non è neanche necessario semplificare l’espressione di
l(x), come fatto in questo caso. È sufficiente calcolare il valore di l(x) per
il pattern desiderato, e confrontare il valore ottenuto col valore di soglia
Un’ ultima nota:
in questo esercizio è stato scelto di applicare direttamente il criterio
MAP per mettere in evidenza i procedimenti ai punti a) e b).
In realtà, trovandoci di fronte a distribuzioni gaussiane, sarebbe stato
più comodo utilizzare un metodo specifico (vedi cap. 4, classificatori
basati su modello gaussiano)
Esercizio 4
Supponiamo di voler discriminare fra tre tipi di traffico. Per esempio,
traffico normale e due tipi di attacco che agiscono mediante
meccanismi differenti. Anche in questo esempio utilizziamo una unica
feature x, e supponiamo che il traffico risponda al seguente modello:
1
1
; P(ω 2 ) = P (ω 3 ) =
2
4
⎡ 1 ⎛ x − μi ⎞ 2 ⎤
1
p( x / ω i ) =
exp ⎢− ⎜
⎟ ⎥;
2π σ
⎣⎢ 2 ⎝ σ ⎠ ⎥⎦
μ1 = −4; μ 2 = 0; μ 3 = 5; σ 1 = σ 2 = σ 3 = 1;
P(ω1 ) =
a) Determinare le regioni di decisione mediante il rapporto di
verosimiglianza
b) Determinare l’errore bayesiano
Possiamo
o rappresentare graficameente le distribuzioni e le regioni di
decisionee bayesiane. In questo grafico rappresen
nto Pi p(x/ωi)
/
In questo grafico rappresento
0.5
0.4
0.3
0.2
0.1
0
-10
-8
-6
-4
-2
0
2
4
6
8
10
a) Determiniamo le regioni R1, R2, R3 mediante il rapporto di
verosimiglianza
Dal grafico si nota facilmente che non dobbiamo considerare il valore di
soglia tra la classe 1 e la classe 3.
In questo caso ci muoviamo in uno spazio delle features
monodimensionale. E’ bene notare però che anche in uno spazio a più
dimensioni il rapporto di verosimiglianza ci permette di ottenere una
regola di decisione che utilizza un confronto fra scalari.
Ricordando quanto visto a lezione (lucidi cap. 2)
ω1
l1, 2 ( x) =
p ( x / ω1 ) > P(ω 2 )
= θ12 ;
p ( x / ω 2 ) < P(ω1 )
ω2
ω2
l 2,3 ( x) =
p( x / ω 2 ) > P(ω 3 )
= θ 23
p ( x / ω 3 ) < P(ω 2 )
Ci saranno più soglie definite, di volta in volta, fra le due classi s e t tali
che:
P (ω s / x * ) = P (ω t / x * ) > P (ω i / x * )
ω3
ω1
l13 ( x) =
p ( x / ω1 ) > P (ω 3 )
= θ13
p ( x / ω 3 ) < P(ω1 )
ω3
Quando calcoliamo i valori di soglia dobbiamo prestare attenzione a
questa condizione
Ricaviamo esplicitamente le soglie e le regioni di decisione:
θ12 =
P(ω 2 ) 1
=
P(ω1 ) 2
Nel punto x12* si ha P (ω1 / x12* ) = P (ω 2 / x12* ) > P (ω 3 / x12* )
⎡ 1 ⎛ ⎛ x − μ ⎞ 2 ⎛ x − μ ⎞ 2 ⎞⎤
p( x / ω1 )
2
1
l1, 2 ( x) =
= exp ⎢ ⎜ ⎜
⎟ −⎜
⎟ ⎟⎥ = exp(− 4 x − 8)
⎜
p( x / ω 2 )
σ
σ
2
⎠ ⎝
⎠ ⎟⎠⎥⎦
⎢⎣ ⎝ ⎝
1⎡
1
⎤
l1, 2 ( x ) = θ 12 → x12* = − ⎢log + 8⎥ ≅ - 1.8267
4⎣
2
⎦
Tra classe 1 e classe 2 decido per classe 1 se
,
,
,
,
Cioè se
(dato che
|
|
calcoliamo più semplicemente
|
, dato che il termine p(x) compare in entrambi i membri
della disuguaglianza)
,
0.0188;
,
0.0188
,
7.5669
012
Infine, tra R1 e R3 (da non considerare)
Analogamente, il rapporto di verosimiglianza ci permette di
discriminare tra la regione R2 e la regione R3
θ 23 =
P(ω3 )
= 1;
P(ω 2 )
l 2 ,3 ( x ) = θ 23
l 2 ,3 ( x) =
p( x / ω 2 )
p( x / ω3 )
⎛1
⎞
*
⇒ exp⎜ ( 25 − 10 x ) ⎟ = 1 ⇒ x 23
= 2 .5
⎝2
⎠
Nel punto x 23* si ha P (ω 2 / x 23* ) = P (ω 3 / x 23* ) > P (ω1 / x 23* )
θ13 =
P(ω3 )
p( x / ω1 )
; l1,3 ( x) =
P(ω1 )
p( x / ω3 )
l1,3 ( x ) = θ 13 → x * =
1
1 1
− log ≅ 0.533
2 9
2
Nel punto x13* si ha P (ω1 / x13* ) = P (ω 3 / x13* ) < P (ω 2 / x13* )
Quindi questo valore di soglia non è da considerare
Esercizio 5
b) Determinare l’errore bayesiano
Nel caso a più classi è più semplice passare attraverso il calcolo della
probabilità di classificazione corretta:
Pcorretto =
classi
classi
∑ P( x ∈ R , ω ) = ∑ P( x ∈ R
i
i =1
i
i
/ ω i ) P (ω i ) =
i =1
classi
∑ P(ω ) ∫ p( x / ω ) dx ;
i
i =1
Perrore = 1 − Pcorretto
*
x12
*
x23
P (corretto ) = P(ω1 ) ∫ p ( x / ω1 ) dx + P (ω 2 ) ∫ * p ( x / ω 2 )dx +
−∞
∞
x12
+ P (ω 3 ) ∫ * p ( x / ω 3 )dx = 0.493 + 0.24 + 0.248 = 0.981
Supponiamo di voler discriminare fra due tipi di traffico (traffico
normale e traffico intrusivo). Anche in questo esempio utilizziamo una
unica feature x, e supponiamo che il traffico risponda al seguente
modello:
i
Ri
1
1
P(ω N ) = ; P (ω INTR ) =
2
2
⎡ 1 ⎛ x − μi ⎞ 2 ⎤
1
p ( x / ωi ) =
exp ⎢− ⎜
⎟ ⎥;
2π σ
⎢⎣ 2 ⎝ σ ⎠ ⎥⎦
μ N = 0; μ INTR = 4; σ N = σ INTR = 1;
x23
P (errore) = 1 − P(corretto ) = 0.019
Supponiamo che NON INDIVIDUARE un traffico intrusivo sia dieci volte
più ‘costoso’ dell’errore opposto
a) Determinare le regioni di decisione mediante il rapporto di
verosimiglianza, SENZA considerare i costi. Calcolare l’errore.
b) Determinare la matrice dei costi
c) Determinare le regioni di decisione mediante il criterio di decisione
a minimo rischio. Calcolare l’errore.
a) Determinare le regioni di decisione mediante il rapporto di
verosimiglianza, SENZA considerare i costi
ωN
l ( x) =
p( x / ω N )
p( x / ω INTR )
>
<
P (ω INTR )
=θ ;
P(ω N )
ω INTR
Ricaviamo esplicitamente le regioni di decisione:
θ=
P (ω INTR )
=1
P (ω N )
2
2
⎡1 ⎛⎛ x − μ
p( x / ω N )
⎛ x − μ N ⎞ ⎞⎟⎤
INTR ⎞
⎜
l ( x) =
= exp ⎢ ⎜
⎟ ⎥ = exp(8 − 4 x )
⎟ −⎜
p ( x / ω INTR )
σ
⎠ ⎝ σ ⎠ ⎟⎠⎥⎦
⎢⎣ 2 ⎜⎝ ⎝
16
8
4
8
8
4
1
8
4
ln 1
2
ERRORE BAYESIANO:
(classifico come normale il traffico intrusivo) + ( classifico come intrusivo
il traffico normale)
Indico con RN e RINTR le due regioni di decisione. Se x appartiene alla
regione RN classificherò il traffico come ‘normale’. Se x appartiene alla
regione RINTR classificherò il traffico come ‘intrusivo’.
P{x ∈ RN , x ∈ ω INTR } + P{x ∈ RINTR , x ∈ ω N } =
P{x ∈ RN / ω INTR } P(ω INTR ) + P{x ∈ RINTR / ω N } P(ω N ) =
x*
∫ p( x | ω
INTR
−∞
RN
xb
RINTR
)P(ω INTR )dx +
∞
∫ p( x | ω
N
)P(ω N )dx =
x*
1⎡ 1
⎢
2 ⎣⎢ 2π
⎡ 1
2⎤
exp ⎢ − (x − 4 ) ⎥dx +
⎣ 2
⎦
−∞
1⎡ 1
⎢
2 ⎣⎢ 2π
−2
2
∫
⎡ 1 2⎤
exp ⎢ − ( y ) ⎥dx +
⎣ 2
⎦
−∞
∫
∞
∫
2
∞
∫
2
⎡ 1 2⎤ ⎤
exp ⎢ − (x ) ⎥dx ⎥ =
2π
⎣ 2
⎦ ⎦⎥
1
⎡ 1 2⎤ ⎤
exp ⎢− (x ) ⎥dx ⎥ =
2π
⎣ 2
⎦ ⎦⎥
1
1
[0.0228 + 0.0228] = 0.0228
2
(si risolve controllando i valori della funzione erf, tabellata)
b) Determinare la matrice dei costi
⎡ λN , N
Λ=⎢
⎣λIntr , N
λ N , Intr ⎤ ⎡ 0
=
λIntr , Intr ⎥⎦ ⎢⎣λIntr , N
c) Determinare le regioni di decisione mediante il criterio di decisione a
minimo rischio
λ N , Intr ⎤ ⎡0 10⎤
=
0 ⎥⎦ ⎢⎣1
0 ⎥⎦
Devo minimizzare il rischio
R (α N x) = λN , N P (ω N x) + λN , INTR P (ω INTR x)
R (α INTR x) = λINTR , N P (ω N x) + λINTR , INTR P (ω INTR x)
Decido α N se R(α N x) < R(α Intr x) , altrimenti decido
α INTR
(Decido α N se)
R(α N x) < R(α Intr x) → λN , INTR P(ω INTR x) < λIntr , N P(ω N x)
Applicando Bayes otteniamo
(Decido α N se)
λ N , INTR p( x / ω INTR ) P(ω INTR ) < λIntr , N p( x / ω N ) P(ω N )
(Decido α N se)
λ
p( x / ω N )
P(ωINTR )
> N , INTR
→
p( x / ωINTR ) λIntr, N P(ωN )
p( x / ω N )
P(ωINTR )
> 10
p( x / ωINTR )
P(ω N )
2
2
⎡1 ⎛⎛ x − μ
p( x / ω N )
⎛ x − μ N ⎞ ⎞⎟⎤
INTR ⎞
⎜
l ( x) =
= exp ⎢ ⎜
⎟ ⎥ = exp(8 − 4 x )
⎟ −⎜
p ( x / ω INTR )
σ
⎠ ⎝ σ ⎠ ⎟⎠⎥⎦
⎢⎣ 2 ⎜⎝ ⎝
l ( x) = θ → 8 − 4 x = ln(10) → x * =
RN
x*=1.424
Xb=2
1
(8 − ln(10) ) ≅ 1.424
4
RINTR
Esercizio 6
ERRORE:
(classifico come normale il traffico intrusivo) + ( classifico come intrusivo
il traffico normale)
P{x ∈ RN , x ∈ ωINTR } + P{x ∈ RINTR , x ∈ ωN } =
P{x ∈ RN / ωINTR } P(ωINTR ) + P{x ∈ RINTR / ωN } P(ωN ) =
INTR
−∞
1⎡ 1
⎢
2 ⎣⎢ 2π
La malattia è diagnosticabile rilevando la concentrazione di una certa
sostanza, che aumenta nella popolazione malata.
∞
x*
∫ p( x | ω
Supponiamo di voler diagnosticare una malattia la cui incidenza nella
popolazione (P(ωSANI),P(ωMALATI) ) è nota. Per esempio, P(ωSANI)=0.85 ,
P(ωMALATI) =0.15
)P(ωINTR )dx + ∫ p( x | ωN )P(ωN )dx =
x
1.424
∫
−∞
*
∞
1
⎡ 1
⎡ 1 2⎤ ⎤
2⎤
exp ⎢− (x − 4) ⎥dx + ∫
exp ⎢− (x ) ⎥dx⎥ =
⎣ 2
⎦
⎣ 2
⎦ ⎦⎥
1.424 2π
= 0.0411
Errori singoli (era 0.0228 utilizzando la soglia bayesiana)
Supponiamo di avere il valore μs=4 per la popolazione sana e μn=8 nella
popolazione malata, come valori medi. I valori sono distribuiti
gaussianamente intorno alla media, con σ=1
|
,
; i=1 sani, i=2 malati
a) Come posso ottenere il minimo errore in classificazione?
Calcolate separatamente i due tipi di errore
b) Voglio limitare i falsi negativi (MANCATI ALLARMI) anche a
costo di incrementare i falsi allarmi. Come posso procedere?
c) Posso ridurre ulteriormente l’errore?
0.4
a) come posso ottenere il minimo errore in classificazione?
Calcolate separatamente i due tipi di errore
Attraverso il rapporto di verosimiglianza definisco la regola di
decisione bayesiana, che mi garantisce il minimo errore
ω MALATI
0.3
p ( x / ω MALATI )
l( x) =
p ( x / ω SANI )
>
<
P (ω SANII )
=θ
P (ω MALATI )
ω SANI
Psani⋅p_sani ( x)
Pmalati⋅p_malati( x)
0.2
exp
0.1
exp 4
−0
0
0
0
2
4
6
x
8
10
12
12
24
8
16
16
64
exp 4
24
;
10
6
ln
8
;
6
L( x)
6.4337 ;
6.4337
soglia( x)
4
Se la sostanza in esame presenta una concentrazione x<xb
‘etichetto’ il paziente come SANO, altrimenti come MALATO.
2
0
0
2
4
6
8
x
Rapporto di verosimiglianza
10
12
L’errore bayesiano vale:
xB
∫ p( x | ω
MALATI
−∞
)P(ω MALATI )dx +
b) Voglio limitare i falsi negativi (MANCATI ALLARMI) anche a
costo di incrementare i falsi allarmi. Come posso procedere?
∞
∫ p( x | ω
SANI
)P(ω SANI )dx ≅ 15.14 ⋅ 10 −3
xB
Questo è l’errore minimo, ma significa comunque che
sbaglierò la diagnosi per 15 pazienti ogni 1000 (in media). In
particolare, i falsi positivi (SANI erroneamente classificati come
MALATI) saranno
Ricordiamo che, introdotti i costi λij, in un problema a due
classi decido ω1 se
|
|
Che diventa
|
|
se la decisione corretta ha
∞
costo zero.
xB
NB ora il rapporto di verosimiglianza va confrontato con una
soglia che dipende dal costo dei differenti tipi di errore. Posso
associare un costo maggiore all’errore che voglio ridurre.
−3
∫ p( x | ω SANI )P(ω SANI )dx ≅ 6.35⋅10
mentre i falsi negativi ( MALATI non diagnosticati) saranno
xB
∫ p( x | ω
−∞
MALATI
)P(ω MALATI )dx ≅ 8.79 ⋅ 10 −3
Nel nostro caso, decido per MALATO se:
decido per MALATO se:
|
|
|
|
dove, come al solito, indichiamo con
Trovo la soglia di minimo rischio
exp 4
λSM costo di un falso negativo (decido ‘sano’ se è ‘malato’)
24 esattamente come nel caso precedente
λMS costo di un falso positivo (decido ‘malato’ se è ‘sano’)
Introduco la matrice di costo
0 1 ⎞ = ⎛ λ MM
Λ = ⎛⎜10
0 ⎟⎠ ⎜⎝ λ SM
⎝
λ MS ⎞
;
λ SS ⎟⎠
exp 4
24
5.858 ;
;
6
5.858 (prima avevamo
ln
;
6.4337)
Se la sostanza in esame presenta una concentrazione x<xr
‘etichetto’ il paziente come SANO, altrimenti come MALATO.
L’errore commesso sarà
xr
∞
xr=5.858; la soglia bayesiana era xb= 6.4337; adesso etichetto
una persona come MALATA se la concentrazione della
sostanza è inferiore.
−∞
xr
−3
∫ p( x | ω MALATI )P(ω MALATI )dx + ∫ p( x | ω SANI )P(ω SANI )dx ≅ 29.26 ⋅10
(l’errore bayesiano era 15.14 10-3)
Falsi positivi: 26.84 10-3 (erano 6.35 10-3)
Falsi negativi 2.41 10-3 (erano 8.79 10-3)
Sono riuscito a ridurre i falsi negativi, ma al prezzo di un
innalzamento dell’errore complessivo.
c) Posso ridurre ulteriormente l’errore?
Si, ‘rifiutandomi’ di classificare. Questo significa in concreto
dire ad alcuni pazienti che dovranno ripetere l’esame più
avanti (chi era veramente malato sarà uscito dalla zona di
incertezza…), oppure posso indirizzarli verso un esame più
intrusivo, per esempio una biopsia.
Se evito di classificare i patterns
che cadono nell’area indicata
riesco a ridurre l’errore di
classificazione, al prezzo di una
ulteriore fase di decisione.
Siamo in presenza di due classi ( SANO, MALATO) e tre azioni
(RIGETTO, classifico come SANO, classifico come MALATO)
La soglia bayesiana trovata precedentemente era xb= 6.434
(riferendoci al caso di funzione di costo 0-1), che dava luogo a
Errore=15.14 10-3
Falsi positivi=6.35 10-3
Falsi negativi= 8.79 10-3
Supponiamo di rigettare i pattern in [x1, x2] con
x1=xb-xb/20=6.112; x2=xb+xb/20=6.755;
In questo modo rigettiamo una grande quantità di pattern che
potevano dar luogo ad errori di classificazione
∞
Falsi positivi= ∫ p ( x | ω SANI )P(ω SANI )dx ≅ 2.492 ⋅ 10
−3
x2
x1
Falsi negativi= ∫ p ( x | ω MALATI )P (ω MALATI )dx ≅ 4.43 ⋅ 10
−3
−∞
Si vede che abbiamo ridotto notevolmente l’errore rispetto al
caso bayesiano senza rigetto; gli errori di classificazione
riguardano in media 7 pazienti su 1000, contro i 15 del caso
bayesiano.
Tuttavia NON effettuiamo nessuna classificazione per 24
pazienti
x2
∫ p( x | ω
x1
x2
MALATI
)P(ω MALATI )dx + ∫ p( x | ω SANI )P(ω SANI )dx ≅ 23.82 ⋅ 10 −3
x1
Come posso scegliere le soglie di rigetto utilizzando un criterio
oggettivo? Introduco un costo anche per l’azione di rigetto
Esempio 1
⎛ λR
⎜
Λ = ⎜ λ MM
⎜λ
⎝ SM
λ R ⎞ ⎛ λ R λ R ⎞ ⎛ 0.96 0.96 ⎞
⎟ ⎜
⎟ ⎜
⎟
λ MS ⎟ = ⎜ λc λ E ⎟ = ⎜ 0
1 ⎟;
0 ⎟⎠
λ SS ⎟⎠ ⎜⎝ λ E λC ⎟⎠ ⎜⎝1
Equivale a dire che il costo delle azioni è
azione corretta
⎧λC = 0
⎪
λ = ⎨λ R = 0.96 rigetto
⎪λ = 1
errore
⎩ E
Valutiamo il rischio:
Generalizzando, se decido per la classe ωi (se
Se decido per la classe ω1
R ( scelta = ωi | x ) = ∑ λE P (ω j | x ) + λC [P (ωi | x )] =
R(scelta = ω1 | x) = λE [P(ω 2 | x)] + λC [P(ω1 | x)] =
= λ E [P (ω 2 | x ) ] = [P (ω 2 | x ) ] = [1 − P (ω1 | x ) ]
Se decido per la classe ω2
[
]
j,
j ≠i
= λ E [1 − P (ωi | x )]
Minimizzo il rischio se scelgo
in queste condizioni:
|
R( scelta = ω2 | x) = λE [P(ω1 | x)] + λC [P(ω2 | x)] =
= λ E [P (ω1 | x )] = [P (ω1 | x )] = [1 − P (ω 2 | x )]
0)
|
|
1
|
1
|
,
|
(come già sapevamo)
a meno che non si eviti di classificare (opzione di rigetto)
L’opzione di rigetto comporta il seguente rischio
In genere: REGOLA DI CHOW
R ( scelta = rigetto | x) = ∑ λR [P (ωi | x)] = λR
λE − λR
Posto T = λ − λ ,
E
C
se
Quindi: scelgo
i)
|
ii)
|
Scelgo
|
1
|
|
|
[P(ωi | x)] ≥ T , altrimenti rigetta
classifica se max
i
,
se
i)
ii)
|
,
|
Se vale solo la i) ma non la ii) allora rigetto.
1
Nel nostro esempio:
Esempio 2
azione corretta
⎧λC = 0
⎪
λ = ⎨λ R = 0.96 rigetto
⎪λ = 1
errore
⎩ E
⎛ λR
⎜
Λ = ⎜ λMM
⎜λ
⎝ SM
T=
λE − λR 1 − 0.96
=
= 0.04
λE − λC
1
λR ⎞ ⎛ λR λR ⎞ ⎛ 0.3 0.3 ⎞
⎟ ⎜
⎟ ⎜
⎟
λMS ⎟ = ⎜ λc λE ⎟ = ⎜ 0 1 ⎟;
0 ⎟⎠
λSS ⎟⎠ ⎜⎝ λE λC ⎟⎠ ⎜⎝1
Equivale a dire che il costo delle azioni è
max[P (ωi | x)] ≥ T sempre, quindi NON APPLICO MAI IL
i
RIGETTO
azione corretta
⎧λC = 0
⎪
λ = ⎨λ R = 0.3 rigetto
⎪λ = 1
errore
⎩ E
REGOLA DI CHOW
La diseguaglianza
λ E − λ R 1 − 0 .3
=
=
= 0 .7 ,
T
Posto
1
λ E − λC
[P(ωi | x)] ≥ T , altrimenti rigetta
classifica se max
i
Ricordiamo i termini del problema:
P(ωSANI)=0.85 , P(ωMALATI) =0.15
p( x | ωi ) = N (μ i ,σ 2 )
μ1=4; μ2=8 ; σ=1
; i=1 sani; i=2 malati
max[P (ωi | x)] < T
i
definisce la regione di rigetto.
La soglia di decisione a minimo rischio con costi 0-1 coincide
con la soglia bayesiana, già calcolata al punto a)
xb= 6.4337
Quindi
⎧ P (ω1 | x )
max [P (ω i | x ) ] = ⎨
i
⎩ P (ω 2 | x )
per x < xb
per x > xb
Nuove regioni di decisione:
Regione R1 : x ∈] − ∞, x S1 ]
Regione R2 : x ∈]xS 2 , + ∞[
xS1 → P(ω 1| x) < T e
|
|
xS 2 → P(ω 2| x) < T e
|
|
p( x / ω1 ) P(ω1 )
<T ⇒
p( x)
p( x / ω1 ) P(ω1 )
⇒
<T
p( x / ω1 ) P(ω1 ) + p ( x / ω2 ) P(ω2 )
xS 1 → P(ω 1| x) < T ⇒
Regione Rigetto : x ∈ [ xS1 , xS 2 ]
⇒
p ( x / ω1 ) P (ω1 ) + p ( x / ω 2 ) P (ω 2 ) 1
>
p ( x / ω1 ) P(ω1 )
T
⇒1+
p ( x / ω 2 ) P (ω 2 ) 1
p ( x / ω 2 ) ⎡ 1 ⎤ P (ω1 )
> ⇒
>
− 1⎥
p ( x / ω1 ) P (ω1 ) T
p( x / ω1 ) ⎢⎣ T
⎦ P (ω 2 )
exp 4
4
24
24
ln
6
ln
1
;
1
.
6
6.2218
ln
;
Calcolo la seconda soglia
p( x / ω2 ) P(ω2 )
<T ⇒
p( x)
p ( x / ω2 ) P(ω2 )
⇒
<T
p ( x / ω1 ) P(ω1 ) + p ( x / ω2 ) P(ω2 )
xS 2 → P(ω 2| x) < T ⇒
⇒
p ( x / ω1 ) P (ω1 ) + p ( x / ω2 ) P(ω2 ) 1
>
p ( x / ω2 ) P(ω2 )
T
⇒
p ( x / ω1 ) P (ω1 )
1
p ( x / ω1 ) ⎡ 1 ⎤ P (ω2 )
+1 > ⇒
>
−1
p ( x / ω2 ) P (ω2 )
T
p ( x / ω2 ) ⎢⎣ T ⎥⎦ P (ω1 )
⇒
N ( μ1 , σ 2 ) ⎡ 1 ⎤ P (ω 2 )
>
− 1⎥
N ( μ 2 , σ 2 ) ⎢⎣ T
⎦ P (ω1 )
Calcoliamo l’errore. L’errore bayesiano era
exp 24
4
1
.
Errore=15.14 10-3
1
Falsi positivi=6.35 10-3
24
4
ln
;
6
ln
;
Falsi negativi= 8.79 10-3
Introducendo la regione di rigetto si ha
∞
6
ln
6.6455
Falsi positivi=
∫ p( x | ω
SANI
)P(ωSANI )dx = 3.45 ⋅ 10 −3
xS 2
xS 1
Falsi negativi=
∫ p( x | ω
−∞
Errore= 9.12 10-3
MALATI
)P (ω MALATI ) dx = 5.65 ⋅ 10 −3
Si vede che abbiamo ridotto notevolmente l’errore rispetto al
caso bayesiano senza rigetto; gli errori di classificazione
riguardano in media 9 pazienti su 1000, contro i 15 del caso
bayesiano.
Tuttavia NON effettuiamo nessuna classificazione (rigetto) per
15 pazienti
xS 2
∫ p( x | ω
MALATI
xS 1
≅ 15.22 ⋅ 10 −3
)P (ω MALATI ) dx +
xS 2
∫ p( x | ω
xS 1
SANI
)P (ω SANI ) dx
Notare anche la differenza col criterio di rigetto ‘empirico’ nel
quale, limitandoci a stabilire arbitrariamente una regione di
rigetto, ottenevamo un errore medio su 7 pazienti
rigettandone 24
Esercizio 7
Supponiamo di voler discriminare fra due tipi di traffico
(traffico normale e traffico intrusivo). Anche in questo esempio
utilizziamo una unica feature x, e supponiamo che il traffico
risponda al seguente modello:
p( x / ωi ) =
⎡ 1 ⎛ x − μi ⎞ 2 ⎤
exp ⎢− ⎜
⎟ ⎥;
2π σ
⎣⎢ 2 ⎝ σ ⎠ ⎦⎥
1
μ N = 0; μ INTR = 4; σ N = σ INTR = 1;
A differenza dei casi esaminati negli esercizi precedenti
riteniamo che le probabilità a priori non siano disponibili
(stime non affidabili, prior variabili nel tempo, ecc).
Scegliere la soglia di decisione per questo task di classificazione
facendo le considerazioni opportune sui differenti ‘costi’ dei
due tipi di errore
Criterio MINIMAX
Minimizzo il rischio massimo – minimizzo il rischio che
otterrei nel caso peggiore
Possiamo scegliere di imporre una matrice di costo in base a
considerazioni sulla natura del problema
Il rischio globale si può scrivere come
R=
Matrice di costo scelta:
⎡ λN , N
Λ=⎢
⎣λIntr , N
λN , Intr ⎤ ⎡ 0
=
λIntr , Intr ⎥⎦ ⎢⎣λIntr , N
∫ (λ
NN
ℜ1
λN , Intr ⎤
⎡0 2 ⎤
=
0 ⎥⎦ ⎢⎣1 0⎥⎦
Non potendomi avvalere di una stima affidabile dei prior,
utilizzo il metodo MINIMAX
+
∫ (λ
Intr , N
⋅ P1 ⋅ p ( x ω1 ) + λN ,Intr ⋅ P2 ⋅ p ( x ω2 ) )dx +
⋅ P1 ⋅ p ( x ω1 ) + λIntr ,Intr ⋅ P2 ⋅ p ( x ω2 ) )dx =
ℜ2
Una volta fissata la matrice dei costi, posso agire solo sulle
regioni di decisione ℜ1 e ℜ2 , che posso controllare agendo
sulla soglia.
Ricordiamo che
Pi = P(ω i ) i prior)
0 e che
(indico con
∫
∫
R = λN , Intr ⋅ P2 ⋅ p( x ω2 ) dx + λIntr , N ⋅ P1 ⋅ p( x ω1 ) dx =
ℜ1
ℜ2
∫
R = λN , Intr ⋅ p( x ω2 ) dx +
ℜ1
= ∫ λN ,Intr ⋅ (1 − P1 ) ⋅ p( x ω2 ) dx + ∫ λIntr , N ⋅ P1 ⋅ p( x ω1 ) dx =
ℜ1
ℜ2
⎡
⎤
+ P1 ⋅ ⎢λIntr , N ⋅ p( x ω1 ) dx − λN , Intr ⋅ p( x ω2 ) dx ⎥;
⎢⎣
⎥⎦
ℜ
ℜ
∫
∫
2
1
Ho espresso R in funzione di P1 e delle regioni di decisione
= ∫ λN , Intr ⋅ p ( x ω2 ) dx − P1 ⋅ ∫ λN , Intr ⋅ p ( x ω2 ) dx +
ℜ1
ℜ1
+ P1 ⋅ ∫ λIntr , N ⋅ p ( x ω1 ) dx =
ℜ2
Ricordiamo che P1 non è nota: se calcolassi le regioni di
decisione in funzione di una stima di P1 e la stima fosse errata
(o se P1 cambiasse nel tempo) R varierebbe linearmente in
funzione di P1.
Minimizzazione del rischio massimo (MINIMAX)
R
(1)
∫
R = λN , Intr ⋅ p( x ω2 ) dx +
ℜ1
(2)
⎡
⎤
+ P1 ⋅ ⎢λIntr , N ⋅ p( x ω1 ) dx − λN , Intr ⋅ p( x ω2 ) dx ⎥;
⎢⎣
⎥⎦
ℜ
ℜ
∫
∫
2
1
Una volta fissata la soglia, R(P1) è una funzione lineare della
sola P1
Se impongo una soglia tale da annullare il termine [], allora il
rischio è indipendente da P1 e P2, non note
0
P1*
P1**
1
(1) Rischio ottenuto se fisso la soglia stimando
poi varia
(2) Rischio ottenuto se fisso la soglia stimando
poi varia
P1
,e
,e
Imponendo che
Da questa ultima relazione posso ricavare la soglia a
λIntr , N ⋅ ∫ p( x ω1 ) dx − λN ,Intr ⋅ ∫ p( x ω2 ) dx = 0
ℜ2
ℜ1
Si ha
∫ p( x ω ) dx − 2 ⋅ ∫ p( x ω ) dx = 0
1
2
ℜ2
ℜ1
∞
∫ N (μ ,σ
1
a
a
2
) dx − 2 ∫ N ( μ2 , σ 2 ) dx = 0
−∞
La regola di decisione sarà: decido per traffico normale se
p( x / ω1 )
<a
p( x / ω 2 )
Altrimenti decido per traffico intrusivo
Esercizio 8
The Base-Rate Fallacy
Ci sottoponiamo al test ed il medico ci comunica di
avere per noi una buona notizia ed una cattiva notizia.
Consideriamo un esame medico la cui accuratezza
dichiarata sia del 99%
Cattiva notizia: il test è positivo
Specifichiamo meglio il significato di tale accuratezza.
Somministrando il test ad una popolazione di malati, il
99% risulta essere positivo al test
Somministrando il test ad una popolazione di sani, il
99% risulta essere negativo al test
Buona notizia: l’incidenza
popolazione considerata è
della malattia
10
nella
Date queste informazioni, quale è la probabilità di
essere malati?
Ci interessa
Dati sulla popolazione:
|
10
1
10
dato che il test ha dato esito positivo
|
Dati di accuratezza sul test
|
Popolazione malata:
0.99
|
|
1
|
Popolazione sana:
|
|
0.99
1
|
0.99
0.99
0.99 10
|
0.99 10
1 0.99 1
10
9.8 10