Esercizio 1 Supponiamo di voler realizzare un sistema anti spam
Transcript
Esercizio 1 Supponiamo di voler realizzare un sistema anti spam
ESERCIZI CORSO RICONOSCIMENTO DI FORME – Argomenti trattati nel CAPITOLO 2 dei lucidi presentati a lezione Esercizio 1 Supponiamo di voler realizzare un sistema anti spam che utilizza la frequenza della parola “viagra” nelle e-mail. Ci aspettiamo che all’aumentare di questa frequenza aumenti la nostra “certezza” di avere a che fare con delle e-mail di spam. (Più realisticamente, per ogni mail viene calcolato uno ‘score’ in base ai vocaboli contenuti) 1) abbozzare un semplice modello, per esempio lineare, per p( x | ωSPAM ) e per p( x | ωMAIL ) 2) definire il decisore bayesiano e calcolarne l’errore, nel caso in cui P(ωMAIL)= P(ωSPAM) e nel caso in cui P(ωMAIL)=10 P(ωSPAM) 3) mostrare graficamente l’errore 1) Modello lineare 2 2 1.5 pspam( x) pmail( x) ⎧2 x per 0 < x < 1 p ( x | ω SPAM ) = ⎨ altrove ⎩0 ⎧2 − 2 x per 0 < x < 1 p ( x | ω MAIL ) = ⎨ altrove ⎩0 0.5 0 x =1 rappresenta il massimo dello ‘score’ attribuito ad una mail considerata SPAM. Le costanti si trovano ricordando che 1 / 1 0 0 0 0.2 0.4 0.6 x 0.8 1 1 2) Decisore bayesiano Supponiamo che le due classi siano equiprobabili. Decisione ‘razionale’ (MAP): ωSPAM Decido ‘spam’ se P(ω SPAM / x) > P(ω MAIL / x) l ( x) = Applicando la regola di Bayes, P(ω / x ) = p( x / ω ) P(ω ) p( x ) p ( x / ωSPAM ) p ( x / ωMAIL ) > < ωSPAM 1 ⇒ 2x 2 − 2x ωMAIL > < 1 ⇒ x* = ωMAIL Posso scrivere il rapporto di verosimiglianza ω SPAM l ( x) = p( x / ω SPAM ) p( x / ω MAIL ) > < P(ω MAIL ) P(ω SPAM ) ω MAIL Regola di decisione Bayesiana: se x>x* decido per SPAM, altrimenti per MAIL. Le regioni di decisione sono quindi MAIL: x ∈ [0, x * ]; SPAM: x ∈ [x * , 1] ; x* = 1 2 1 2 Se supponiamo che le classi non siano equiprobabili, per esempio P(ωMAIL)=10 P(ωSPAM), si ha P(ωMAIL)=10/11; P(ωSPAM)=1/11; ERRORE BAYESIANO: (classifico come normale una mail di spam) + ( classifico come spam una mail normale) ω SPAM l ( x) = p ( x / ω SPAM ) p( x / ω MAIL ) > < 10 ⇒ x * = 10 11 P{x ∈ RMAIL , ω SPAM } + P{x ∈ RSPAM , ω MAIL } = P{x ∈ RMAIL / ω SPAM } P(ω SPAM ) + P{x ∈ RSPAM / ω MAIL } P(ω MAIL ) ω MAIL x* 1 0 x* ∫ p( x | ω SPAM )P(ω SPAM )dx + ∫ p( x | ω MAIL )P(ω MAIL )dx Le regioni di decisione sono quindi MAIL: x ∈ [0, x * ]; SPAM: x ∈ [x * , 1] ; x* = 10 11 Se P(ωMAIL)=P(ωSPAM), 1/ 2 err = ∫ 0 3) mostrare graficamente l’errore Caso P(ωMAIL)= P(ωSPAM) 1 1 1 1 2 x ⋅ dx + ∫ (2 − 2 x) ⋅ dx = 2 2 4 1/ 2 Se P(ωMAIL)=10 P(ωSPAM) x* ∫ p( x | ω SPAM )P(ω SPAM )dx + 0 10 / 11 = ∫ 0 1 1 ∫ p( x | ω MAIL )P(ω MAIL )dx = x* 1 10 10 2 x ⋅ dx + ∫ (2 − 2 x) ⋅ dx = ≅ 0.0183 11 11 121 10 / 11 Caso P(ωMAIL)=10 P(ωSPAM) => P(ωMAIL)=10/11; P(ωSPAM)=1/11; Esercizio 2 [dhs cap 2 n°2] Consideriamo un problema di identificazione di traffico intrusivo. Supponiamo di aver misurato una caratteristica x del traffico, e di voler discriminare traffico normale da traffico intrusivo usando solo questa caratteristica. Per esempio, x potrebbe essere legato al tasso di errori di protocollo nelle connessioni provenienti da un dato host. Siamo di fronte ad un problema monodimensionale a due classi. Supponiamo ancora di conoscere con buona approssimazione le funzioni che ‘regolano’ le distribuzioni di traffico normale ed intrusivo, che si differenziano solo per i valori ai e bi ⎛ x − ai p ( x | ω i ) ∝ exp⎜⎜ − bi ⎝ ⎞ ⎟; i=1 traffico normale; i=2 traffico intusivo; ⎟ ⎠ bi>0, a1≤a2 a) Scrivere l’espressione analitica per la densità di probabilità; b) Calcolare il rapporto di verosimiglianza in funzione di ai e bi d) Fare un grafico delle distribuzioni e del rapporto di verosimiglianza p( x | ω 2 ) , trovare la soglia bayesiana e valutare l’errore per p( x | ω1 ) - a1= -5, b1=1, a2=5 , b2=2 - a1 =0 ; b1=1; a2 =1 ; b2=2 - a1 =0 ; b1=0.4; a2 =1 ; b2=0.4 SVOLGIMENTO b) Calcolare il rapporto di verosimiglianza in funzione di ai e bi a) Scrivere l’espressione analitica per la densità di probabilità Ricordiamo che il criterio di decisione MAP si può esprimere mediante Affinché le p ( x | ωi ) siano vere densità di probabilità occorre il confronto tra il rapporto di verosimiglianza l ( x) = normalizzarle rapporto fra le probabilità a priori delle classi ⎛ x − ai +∞ k i ∫ exp⎜⎜ − −∞ bi ⎝ p( x | ωi ) = ⎞ 1 ⎟ = 1 → ki = ; ⎟ 2bi ⎠ ⎛ x − ai 1 exp⎜⎜ − bi 2bi ⎝ ⎞ ⎟; ⎟ ⎠ ω2 l ( x) = p( x / ω 2 ) > p ( x / ω1 ) < P (ω1 ) =θ P (ω 2 ) ω1 dove θ è una soglia che non dipende da x. Notare che la normalizzazione è indipendente da ai, che rappresenta la posizione sull’asse delle x, ed è quindi irrilevante per la normalizzazione. p( x / ω2 ) ed il p ( x / ω1 ) ω2 ⎡ x − a1 x − a 2 ⎤ > P(ω1 ) p ( x | ω 2 ) b1 =θ l ( x) = = exp ⎢ − ⎥ p( x | ω1 ) b2 b2 ⎦ < P (ω 2 ) ⎣ b1 ω1 Se il rapporto di verosimiglianza eccede θ classifichiamo il traffico come intrusivo. Questo si traduce nel determinare le regioni di decisione, cioè stabilire dei valori di soglia per x che ci permettano di effettuare la discriminazione. Per fissare le idee, senza perdita di generalità possiamo porre a1≤a2 , e scrivere ⎧ b1 ⎡⎛ a − x ⎞ ⎛ a 2 − x ⎞⎤ ⎟⎟ − ⎜⎜ ⎟⎟⎥ ⎪ exp ⎢⎜⎜ 1 ⎪ b2 ⎣⎝ b1 ⎠ ⎝ b2 ⎠⎦ ⎡⎛ x − a1 ⎞ ⎛ a 2 − x ⎞⎤ p ( x | ω 2 ) ⎪⎪ b1 ⎟⎟⎥ ⎟⎟ − ⎜⎜ l ( x) = = ⎨ exp ⎢⎜⎜ p( x | ω1 ) ⎪ b2 ⎣⎝ b1 ⎠ ⎝ b2 ⎠⎦ ⎪b ⎡⎛ x − a1 ⎞ ⎛ x − a 2 ⎞⎤ ⎟⎟ − ⎜⎜ ⎟⎟⎥ ⎪ 1 exp ⎢⎜⎜ b b ⎪⎩ b2 1 2 ⎝ ⎠ ⎝ ⎠⎦ ⎣ per x < a1 per a1 ≤ x ≤ a 2 per x > a 2 caso ; p( x | ωi ) = l ( x) = ⎡ x − a1 x − a2 p( x | ω2 ) b1 exp ⎢ = − p( x | ω1 ) b2 b2 ⎣ b1 l ( x ) > 1 se x > 1 1 ; xb = 2 2 ⎛ x − ai 1 exp⎜⎜ − bi 2bi ⎝ ⎤ ⎡ x x −1 ⎤ − ⎥ = exp ⎢ ⎥ >1 ⎣ 0.4 0.4 ⎦ ⎦ ⎞ ⎟; ⎟ ⎠ 4 4 1.2 3 1 p1 ( x) 0.8 p2 ( x) 0.6 soglia( x) p1 ( x) p2 ( x) 2 0.4 1 0.2 0 4 3 2 1 0 x 1 2 3 4 0 0 4 −4 3 2 1 0 x Verosimiglianza 1 2 3 4 4 caso Aumento la varianza lasciando inalterate le medie ⎧1 ⎡ ⎛ 1 − x ⎞⎤ ⎟⎥ ⎪ exp ⎢(− x ) − ⎜ 2 2 ⎝ ⎠⎦ ⎣ ⎪ p ( x | ω2 ) ⎪ 1 ⎡ ⎛ 1 − x ⎞⎤ = ⎨ exp ⎢(x ) − ⎜ l( x) = ⎟⎥ p( x | ω1 ) ⎪ 2 ⎝ 2 ⎠⎦ ⎣ ⎪1 ⎡ ⎛ x − 1 ⎞⎤ ⎪ 2 exp ⎢(x ) − ⎜ 2 ⎟⎥ ⎝ ⎠⎦ ⎣ ⎩ ⎧1 ⎡ x + 1⎤ ⎪ 2 exp ⎢− 2 ⎥ ⎣ ⎦ ⎪ p ( x | ω2 ) ⎪ 1 ⎡ 3 x − 1⎤ = ⎨ exp ⎢ l( x) = p( x | ω1 ) ⎪ 2 ⎣ 2 ⎥⎦ ⎪ 1 exp ⎡ x + 1⎤ ⎢⎣ 2 ⎥⎦ ⎪⎩ 2 per x < 0 per 0 ≤ x ≤ 1 per x > 1 per x < 0 per 0 ≤ x ≤ 1 per x > 1 d) Fare un grafico delle distribuzioni e del rapporto di verosimiglianza p( x | ω 2 ) , trovare la soglia bayesiana e valutare l’errore per p( x | ω1 ) - a1= -5, b1=1, a2=5 , b2=2 Vediamo come varia il rapporto di verosimiglianza al variare di x, fissati i parametri ai e bi Per a1=-5, b1=1, a2=5 , b2=2 le distribuzioni appaiono ben separate - a1 =0 ; b1=1; a2 =1 ; b2=2 - a1 =0 ; b1=0.4; a2 =1 ; b2=0.4 ⎧ b1 ⎡ x + 15 ⎤ ⎪ exp ⎢− 2 ⎥⎦ ⎣ ⎪ b2 p ( x | ω 2 ) ⎪ b1 ⎡ 5 + 3x ⎤ = ⎨ exp ⎢ p ( x | ω1 ) ⎪ b2 ⎣ 2 ⎥⎦ ⎪ b1 ⎡ x + 15 ⎤ ⎪ b exp ⎢ 2 ⎥ ⎣ ⎦ ⎩ 2 per x < −5 per − 5 ≤ x ≤ 5 per x > 5 4 4 0.5 3 0.4 p2 ( x) p1 ( x) p2 ( x) p1 ( x) 0.3 2 soglia( x) 0.2 1 0.1 0 10 8 6 4 2 0 2 x - Distribuzioni - 4 6 8 10 0 0 4 −4 3 2 1 0 1 x - Verosimiglianza – 2 3 4 4 In questo caso può essere abbastanza semplice discriminare i due tipi di traffico con un piccolo errore, poiché i valori medi della feature x sono abbastanza lontani fra loro rispetto alla varianza delle distribuzioni. 10 10 8 6 p2 ( x) p1 ( x) Se P(ω1)=P(ω2), scelgo la classe ω2 per soglia( x) 4 2 p( x / ω 2 ) > 1 , cioè per x > -1.205 ( vedi grafico verosimiglianza) l ( x) = p( x / ω1 ) 0 0 10 − 10 xb = -1.205 8 6 4 2 0 2 4 x - Rapporto di verosimiglianza - 6 8 10 10 L’errore bayesiano vale: xB ∫ p( x | ω 2 )P(ω2 )dx + −∞ ∞ ∫ p( x | ω )P(ω )dx ≅ 16.8 ⋅10 1 −3 quindi sposterò la soglia a destra. Da notare che NON STIAMO facendo nessuna considerazione circa il ‘peso’ dei due diversi tipi di errore: etichettare traffico normale come attacco ( falso positivo) o viceversa etichettare traffico intrusivo come traffico normale ( falso negativo). 1 xB L’errore bayesiano vale: Se invece il traffico normale (la prima classe) è molto più probabile del traffico intrusivo, per es P(ω1)=10 P(ω2), sceglierò un valore di soglia l ( x) = p( x / ω 2 ) P(ω1 ) > = 10 , cioè xB = 0.33 p( x / ω1 ) P(ω 2 ) xB ∞ −∞ xB −3 ∫ p( x | ω2 )P(ω2 )dx + ∫ p( x | ω1 )P(ω1 )dx ≅ 6.6 ⋅10 Esaminiamo ora il caso i cui le due distribuzioni non sono così ben separate .6 0.5 per a1 =0 ; b1=1; a2 =1 ; b2=2 ⎧1 ⎡ x + 1⎤ ⎪ 2 exp ⎢− 2 ⎥ ⎣ ⎦ ⎪ p ( x | ω2 ) ⎪ 1 ⎡ 3 x − 1⎤ = ⎨ exp ⎢ p ( x | ω1 ) ⎪ 2 ⎣ 2 ⎥⎦ ⎡ x + 1⎤ ⎪1 ⎪ 2 exp ⎢⎣ 2 ⎥⎦ ⎩ 0.4 per x < 0 p1 ( x) per 0 ≤ x ≤ 1 p2 ( x) per x > 1 0.3 0.2 0.1 i valori medi nei due casi non sono più tanto distanti −0 0 4 −4 3 2 1 0 x - Distribuzioni - 1 2 3 4 4 Possiamo notare il grado di sovrapposizione delle due distribuzioni. Se P(ω1)=P(ω2), scelgo la classe ω2 per l ( x) = 6 p( x / ω 2 ) > 1 , cioè per x<-2.38 p( x / ω1 ) 6 5 e per x> 0.795, come si nota dal grafico del rapporto di verosimiglianza. 4 p2 ( x) p1 ( x) 3 soglia( x) xb1= -2.38; xb2= 0.795; 2 1 0 0 4 −4 3 2 1 0 1 x - Verosimiglianza – 2 3 4 4 In questo caso avremo degli errori più elevati nella classificazione. L’errore bayesiano infatti è x B1 ∫ p( x | ω1 )P(ω1 )dx + −∞ xB 2 ∫ p( x | ω 2 )P(ω 2 )dx + xb1 ∞ ∫ p( x | ω )P(ω )dx ≅ 315.5 ⋅ 10 1 −3 1 xB 2 Graficamente possiamo facilmente individuare l’area che rappresenta l’errore bayesiano ( il minimo possibile) nel caso P(ω1)=P(ω2) - errore imponendo regioni di decisione connesse- per a1 =0 ; b1=0.4; a2 =1 ; b2=0.4 1.2 1 p1 ( x) 0.8 p2 ( x) 0.6 0.4 - errore bayesiano – le regioni di decisione non sono semplicemente connesse – Cosa succede diminuendo la varianza delle distribuzioni, lasciando invariate le medie? 0.2 0 4 3 2 1 0 x 1 2 3 4 - Distribuzioni 4 Anche se i valori medi – e quindi le ‘posizioni’ delle distribuzioni - non sono cambiati, in questo caso l’errore bayesiano è più piccolo. Traffico normale e attacchi danno luogo a valori di x più concentrati intorno al proprio valor medio. 4 3 In questo caso identifico il traffico come intrusivo per l ( x) = cioè per x >0.5. p2 ( x) p1 ( x) 2 soglia( x) xb=0.5 1 0 L’errore Bayesiano è 0 4 −4 3 2 1 0 1 x - Verosimiglianza – 2 3 4 4 xB ∞ −∞ xB −3 ∫ p( x | ω2 )P(ω2 )dx + ∫ p( x | ω1 )P(ω1 )dx ≅ 143⋅10 p( x / ω 2 ) > 1, p( x / ω1 ) ESERCIZIO 3 Consideriamo un problema a due classi, in se invece il traffico normale è molto più probabile del traffico intrusivo, per es P(ω1)=10 P(ω2) ottengo Le due classi sono caratterizzate da densità di probabilità gaussiane | / | | / exp Σ Ciascun pattern è rappresentato da un vettore in R2 ; xb=0.961 ⎛μ ⎞ Indichiamo con μ i = ⎜⎜ i ,1 ⎟⎟ il vettore media per la classe i-esima ⎝ μ i,2 ⎠ L’errore Bayesiano è xB ∞ −∞ xB −3 ∫ p( x | ω2 )P(ω2 )dx + ∫ p( x | ω1 )P(ω1 )dx ≅ 82.3⋅10 Utilizzando il criterio MAP Le distribuzioni che caratterizzano le due classi sono a) classificare il pattern xT=(1/2, 1/3)’ utilizzando le regioni di decisione | b) classificare il pattern xT=(1/2, 1/3)’ usando il rapporto di verosimiglianza exp , , = exp , , = exp Sapendo che P ω Σ P ω ; Σ 0 ; 0 Σ 1 0 0 1 1 ; 1 Scopo dell’esercizio è mostrare come in un problema di classificazione MAP in Rd è più semplice applicare il test di verosimiglianza piuttosto che definire le regioni di decisione e verificare l'appartenenza dei pattern alle regioni trovate. | exp exp exp 1 1 2 1 2 2 2 1 2 a) classificare il pattern xT=(1/2, 1/3)’ senza usare il rapporto di verosimiglianza Dato che i ‘priors’ sono uguali, posso ometterli p (x / ω1 ) > p (x / ω 2 ) exp 2 2 2 2 1 La regione di decisione per la classe 1 è definita da exp 2 2 2 2 2 Definisco quindi le due regioni di decisione ℜ1 = {x | x1 + x 2 < 1} ℜ 2 = {x | x1 + x 2 > 1} I pattern per i quali x1 + x2 = 1 possono essere assegnati indifferentemente alla classe 1 o alla classe 2 Per il pattern xT=(1/2, 1/3)’ si verifica facilmente che xT ∈ ℜ1 . Quindi il pattern xT viene assegnato alla classe 1. Da notare che il confine delle regioni di decisione hanno una forma semplice a causa delle particolari distribuzioni scelte: entrambe gaussiane, con matrici di covarianza uguale alla matrice identità. Vedremo che con tali distribuzioni il confine delle regioni di decisione è sempre lineare. In genere può non essere possibile trovare dalla diseguaglianza P (ω1 ) p(x / ω1 ) > p(x / ω2 ) P (ω2 ) le condizioni sulle componenti xi in forma esplicita, e quindi potrei ottenere una definizione più complessa delle regioni di decisione e dei corrispondenti test di appartenenza b) classificare il pattern xT=(1/2, 1/3)’ usando il rapporto di verosimiglianza Decido per classe 1 se l ( x) = con θ p (x / ω1 ) > θ, p(x / ω2 ) = 1 data l’eguaglianza dei ‘priors’ exp exp 2 2 2 2 x Classe 1: x 1 Classe 2: x 1 2 2 exp 1 exp 1 E quindi l ( x T ) = exp[1 − (1 / 2 + 1 / 3)] = exp(1 / 6) ≅ 1.184 > 1 Quindi il pattern xT appartiene alla regione di decisione della classe 1. Da notare che il test di verosimiglianza coinvolge sempre confronti fra scalari, e che non è neanche necessario semplificare l’espressione di l(x), come fatto in questo caso. È sufficiente calcolare il valore di l(x) per il pattern desiderato, e confrontare il valore ottenuto col valore di soglia Un’ ultima nota: in questo esercizio è stato scelto di applicare direttamente il criterio MAP per mettere in evidenza i procedimenti ai punti a) e b). In realtà, trovandoci di fronte a distribuzioni gaussiane, sarebbe stato più comodo utilizzare un metodo specifico (vedi cap. 4, classificatori basati su modello gaussiano) Esercizio 4 Supponiamo di voler discriminare fra tre tipi di traffico. Per esempio, traffico normale e due tipi di attacco che agiscono mediante meccanismi differenti. Anche in questo esempio utilizziamo una unica feature x, e supponiamo che il traffico risponda al seguente modello: 1 1 ; P(ω 2 ) = P (ω 3 ) = 2 4 ⎡ 1 ⎛ x − μi ⎞ 2 ⎤ 1 p( x / ω i ) = exp ⎢− ⎜ ⎟ ⎥; 2π σ ⎣⎢ 2 ⎝ σ ⎠ ⎥⎦ μ1 = −4; μ 2 = 0; μ 3 = 5; σ 1 = σ 2 = σ 3 = 1; P(ω1 ) = a) Determinare le regioni di decisione mediante il rapporto di verosimiglianza b) Determinare l’errore bayesiano Possiamo o rappresentare graficameente le distribuzioni e le regioni di decisionee bayesiane. In questo grafico rappresen nto Pi p(x/ωi) / In questo grafico rappresento 0.5 0.4 0.3 0.2 0.1 0 -10 -8 -6 -4 -2 0 2 4 6 8 10 a) Determiniamo le regioni R1, R2, R3 mediante il rapporto di verosimiglianza Dal grafico si nota facilmente che non dobbiamo considerare il valore di soglia tra la classe 1 e la classe 3. In questo caso ci muoviamo in uno spazio delle features monodimensionale. E’ bene notare però che anche in uno spazio a più dimensioni il rapporto di verosimiglianza ci permette di ottenere una regola di decisione che utilizza un confronto fra scalari. Ricordando quanto visto a lezione (lucidi cap. 2) ω1 l1, 2 ( x) = p ( x / ω1 ) > P(ω 2 ) = θ12 ; p ( x / ω 2 ) < P(ω1 ) ω2 ω2 l 2,3 ( x) = p( x / ω 2 ) > P(ω 3 ) = θ 23 p ( x / ω 3 ) < P(ω 2 ) Ci saranno più soglie definite, di volta in volta, fra le due classi s e t tali che: P (ω s / x * ) = P (ω t / x * ) > P (ω i / x * ) ω3 ω1 l13 ( x) = p ( x / ω1 ) > P (ω 3 ) = θ13 p ( x / ω 3 ) < P(ω1 ) ω3 Quando calcoliamo i valori di soglia dobbiamo prestare attenzione a questa condizione Ricaviamo esplicitamente le soglie e le regioni di decisione: θ12 = P(ω 2 ) 1 = P(ω1 ) 2 Nel punto x12* si ha P (ω1 / x12* ) = P (ω 2 / x12* ) > P (ω 3 / x12* ) ⎡ 1 ⎛ ⎛ x − μ ⎞ 2 ⎛ x − μ ⎞ 2 ⎞⎤ p( x / ω1 ) 2 1 l1, 2 ( x) = = exp ⎢ ⎜ ⎜ ⎟ −⎜ ⎟ ⎟⎥ = exp(− 4 x − 8) ⎜ p( x / ω 2 ) σ σ 2 ⎠ ⎝ ⎠ ⎟⎠⎥⎦ ⎢⎣ ⎝ ⎝ 1⎡ 1 ⎤ l1, 2 ( x ) = θ 12 → x12* = − ⎢log + 8⎥ ≅ - 1.8267 4⎣ 2 ⎦ Tra classe 1 e classe 2 decido per classe 1 se , , , , Cioè se (dato che | | calcoliamo più semplicemente | , dato che il termine p(x) compare in entrambi i membri della disuguaglianza) , 0.0188; , 0.0188 , 7.5669 012 Infine, tra R1 e R3 (da non considerare) Analogamente, il rapporto di verosimiglianza ci permette di discriminare tra la regione R2 e la regione R3 θ 23 = P(ω3 ) = 1; P(ω 2 ) l 2 ,3 ( x ) = θ 23 l 2 ,3 ( x) = p( x / ω 2 ) p( x / ω3 ) ⎛1 ⎞ * ⇒ exp⎜ ( 25 − 10 x ) ⎟ = 1 ⇒ x 23 = 2 .5 ⎝2 ⎠ Nel punto x 23* si ha P (ω 2 / x 23* ) = P (ω 3 / x 23* ) > P (ω1 / x 23* ) θ13 = P(ω3 ) p( x / ω1 ) ; l1,3 ( x) = P(ω1 ) p( x / ω3 ) l1,3 ( x ) = θ 13 → x * = 1 1 1 − log ≅ 0.533 2 9 2 Nel punto x13* si ha P (ω1 / x13* ) = P (ω 3 / x13* ) < P (ω 2 / x13* ) Quindi questo valore di soglia non è da considerare Esercizio 5 b) Determinare l’errore bayesiano Nel caso a più classi è più semplice passare attraverso il calcolo della probabilità di classificazione corretta: Pcorretto = classi classi ∑ P( x ∈ R , ω ) = ∑ P( x ∈ R i i =1 i i / ω i ) P (ω i ) = i =1 classi ∑ P(ω ) ∫ p( x / ω ) dx ; i i =1 Perrore = 1 − Pcorretto * x12 * x23 P (corretto ) = P(ω1 ) ∫ p ( x / ω1 ) dx + P (ω 2 ) ∫ * p ( x / ω 2 )dx + −∞ ∞ x12 + P (ω 3 ) ∫ * p ( x / ω 3 )dx = 0.493 + 0.24 + 0.248 = 0.981 Supponiamo di voler discriminare fra due tipi di traffico (traffico normale e traffico intrusivo). Anche in questo esempio utilizziamo una unica feature x, e supponiamo che il traffico risponda al seguente modello: i Ri 1 1 P(ω N ) = ; P (ω INTR ) = 2 2 ⎡ 1 ⎛ x − μi ⎞ 2 ⎤ 1 p ( x / ωi ) = exp ⎢− ⎜ ⎟ ⎥; 2π σ ⎢⎣ 2 ⎝ σ ⎠ ⎥⎦ μ N = 0; μ INTR = 4; σ N = σ INTR = 1; x23 P (errore) = 1 − P(corretto ) = 0.019 Supponiamo che NON INDIVIDUARE un traffico intrusivo sia dieci volte più ‘costoso’ dell’errore opposto a) Determinare le regioni di decisione mediante il rapporto di verosimiglianza, SENZA considerare i costi. Calcolare l’errore. b) Determinare la matrice dei costi c) Determinare le regioni di decisione mediante il criterio di decisione a minimo rischio. Calcolare l’errore. a) Determinare le regioni di decisione mediante il rapporto di verosimiglianza, SENZA considerare i costi ωN l ( x) = p( x / ω N ) p( x / ω INTR ) > < P (ω INTR ) =θ ; P(ω N ) ω INTR Ricaviamo esplicitamente le regioni di decisione: θ= P (ω INTR ) =1 P (ω N ) 2 2 ⎡1 ⎛⎛ x − μ p( x / ω N ) ⎛ x − μ N ⎞ ⎞⎟⎤ INTR ⎞ ⎜ l ( x) = = exp ⎢ ⎜ ⎟ ⎥ = exp(8 − 4 x ) ⎟ −⎜ p ( x / ω INTR ) σ ⎠ ⎝ σ ⎠ ⎟⎠⎥⎦ ⎢⎣ 2 ⎜⎝ ⎝ 16 8 4 8 8 4 1 8 4 ln 1 2 ERRORE BAYESIANO: (classifico come normale il traffico intrusivo) + ( classifico come intrusivo il traffico normale) Indico con RN e RINTR le due regioni di decisione. Se x appartiene alla regione RN classificherò il traffico come ‘normale’. Se x appartiene alla regione RINTR classificherò il traffico come ‘intrusivo’. P{x ∈ RN , x ∈ ω INTR } + P{x ∈ RINTR , x ∈ ω N } = P{x ∈ RN / ω INTR } P(ω INTR ) + P{x ∈ RINTR / ω N } P(ω N ) = x* ∫ p( x | ω INTR −∞ RN xb RINTR )P(ω INTR )dx + ∞ ∫ p( x | ω N )P(ω N )dx = x* 1⎡ 1 ⎢ 2 ⎣⎢ 2π ⎡ 1 2⎤ exp ⎢ − (x − 4 ) ⎥dx + ⎣ 2 ⎦ −∞ 1⎡ 1 ⎢ 2 ⎣⎢ 2π −2 2 ∫ ⎡ 1 2⎤ exp ⎢ − ( y ) ⎥dx + ⎣ 2 ⎦ −∞ ∫ ∞ ∫ 2 ∞ ∫ 2 ⎡ 1 2⎤ ⎤ exp ⎢ − (x ) ⎥dx ⎥ = 2π ⎣ 2 ⎦ ⎦⎥ 1 ⎡ 1 2⎤ ⎤ exp ⎢− (x ) ⎥dx ⎥ = 2π ⎣ 2 ⎦ ⎦⎥ 1 1 [0.0228 + 0.0228] = 0.0228 2 (si risolve controllando i valori della funzione erf, tabellata) b) Determinare la matrice dei costi ⎡ λN , N Λ=⎢ ⎣λIntr , N λ N , Intr ⎤ ⎡ 0 = λIntr , Intr ⎥⎦ ⎢⎣λIntr , N c) Determinare le regioni di decisione mediante il criterio di decisione a minimo rischio λ N , Intr ⎤ ⎡0 10⎤ = 0 ⎥⎦ ⎢⎣1 0 ⎥⎦ Devo minimizzare il rischio R (α N x) = λN , N P (ω N x) + λN , INTR P (ω INTR x) R (α INTR x) = λINTR , N P (ω N x) + λINTR , INTR P (ω INTR x) Decido α N se R(α N x) < R(α Intr x) , altrimenti decido α INTR (Decido α N se) R(α N x) < R(α Intr x) → λN , INTR P(ω INTR x) < λIntr , N P(ω N x) Applicando Bayes otteniamo (Decido α N se) λ N , INTR p( x / ω INTR ) P(ω INTR ) < λIntr , N p( x / ω N ) P(ω N ) (Decido α N se) λ p( x / ω N ) P(ωINTR ) > N , INTR → p( x / ωINTR ) λIntr, N P(ωN ) p( x / ω N ) P(ωINTR ) > 10 p( x / ωINTR ) P(ω N ) 2 2 ⎡1 ⎛⎛ x − μ p( x / ω N ) ⎛ x − μ N ⎞ ⎞⎟⎤ INTR ⎞ ⎜ l ( x) = = exp ⎢ ⎜ ⎟ ⎥ = exp(8 − 4 x ) ⎟ −⎜ p ( x / ω INTR ) σ ⎠ ⎝ σ ⎠ ⎟⎠⎥⎦ ⎢⎣ 2 ⎜⎝ ⎝ l ( x) = θ → 8 − 4 x = ln(10) → x * = RN x*=1.424 Xb=2 1 (8 − ln(10) ) ≅ 1.424 4 RINTR Esercizio 6 ERRORE: (classifico come normale il traffico intrusivo) + ( classifico come intrusivo il traffico normale) P{x ∈ RN , x ∈ ωINTR } + P{x ∈ RINTR , x ∈ ωN } = P{x ∈ RN / ωINTR } P(ωINTR ) + P{x ∈ RINTR / ωN } P(ωN ) = INTR −∞ 1⎡ 1 ⎢ 2 ⎣⎢ 2π La malattia è diagnosticabile rilevando la concentrazione di una certa sostanza, che aumenta nella popolazione malata. ∞ x* ∫ p( x | ω Supponiamo di voler diagnosticare una malattia la cui incidenza nella popolazione (P(ωSANI),P(ωMALATI) ) è nota. Per esempio, P(ωSANI)=0.85 , P(ωMALATI) =0.15 )P(ωINTR )dx + ∫ p( x | ωN )P(ωN )dx = x 1.424 ∫ −∞ * ∞ 1 ⎡ 1 ⎡ 1 2⎤ ⎤ 2⎤ exp ⎢− (x − 4) ⎥dx + ∫ exp ⎢− (x ) ⎥dx⎥ = ⎣ 2 ⎦ ⎣ 2 ⎦ ⎦⎥ 1.424 2π = 0.0411 Errori singoli (era 0.0228 utilizzando la soglia bayesiana) Supponiamo di avere il valore μs=4 per la popolazione sana e μn=8 nella popolazione malata, come valori medi. I valori sono distribuiti gaussianamente intorno alla media, con σ=1 | , ; i=1 sani, i=2 malati a) Come posso ottenere il minimo errore in classificazione? Calcolate separatamente i due tipi di errore b) Voglio limitare i falsi negativi (MANCATI ALLARMI) anche a costo di incrementare i falsi allarmi. Come posso procedere? c) Posso ridurre ulteriormente l’errore? 0.4 a) come posso ottenere il minimo errore in classificazione? Calcolate separatamente i due tipi di errore Attraverso il rapporto di verosimiglianza definisco la regola di decisione bayesiana, che mi garantisce il minimo errore ω MALATI 0.3 p ( x / ω MALATI ) l( x) = p ( x / ω SANI ) > < P (ω SANII ) =θ P (ω MALATI ) ω SANI Psani⋅p_sani ( x) Pmalati⋅p_malati( x) 0.2 exp 0.1 exp 4 −0 0 0 0 2 4 6 x 8 10 12 12 24 8 16 16 64 exp 4 24 ; 10 6 ln 8 ; 6 L( x) 6.4337 ; 6.4337 soglia( x) 4 Se la sostanza in esame presenta una concentrazione x<xb ‘etichetto’ il paziente come SANO, altrimenti come MALATO. 2 0 0 2 4 6 8 x Rapporto di verosimiglianza 10 12 L’errore bayesiano vale: xB ∫ p( x | ω MALATI −∞ )P(ω MALATI )dx + b) Voglio limitare i falsi negativi (MANCATI ALLARMI) anche a costo di incrementare i falsi allarmi. Come posso procedere? ∞ ∫ p( x | ω SANI )P(ω SANI )dx ≅ 15.14 ⋅ 10 −3 xB Questo è l’errore minimo, ma significa comunque che sbaglierò la diagnosi per 15 pazienti ogni 1000 (in media). In particolare, i falsi positivi (SANI erroneamente classificati come MALATI) saranno Ricordiamo che, introdotti i costi λij, in un problema a due classi decido ω1 se | | Che diventa | | se la decisione corretta ha ∞ costo zero. xB NB ora il rapporto di verosimiglianza va confrontato con una soglia che dipende dal costo dei differenti tipi di errore. Posso associare un costo maggiore all’errore che voglio ridurre. −3 ∫ p( x | ω SANI )P(ω SANI )dx ≅ 6.35⋅10 mentre i falsi negativi ( MALATI non diagnosticati) saranno xB ∫ p( x | ω −∞ MALATI )P(ω MALATI )dx ≅ 8.79 ⋅ 10 −3 Nel nostro caso, decido per MALATO se: decido per MALATO se: | | | | dove, come al solito, indichiamo con Trovo la soglia di minimo rischio exp 4 λSM costo di un falso negativo (decido ‘sano’ se è ‘malato’) 24 esattamente come nel caso precedente λMS costo di un falso positivo (decido ‘malato’ se è ‘sano’) Introduco la matrice di costo 0 1 ⎞ = ⎛ λ MM Λ = ⎛⎜10 0 ⎟⎠ ⎜⎝ λ SM ⎝ λ MS ⎞ ; λ SS ⎟⎠ exp 4 24 5.858 ; ; 6 5.858 (prima avevamo ln ; 6.4337) Se la sostanza in esame presenta una concentrazione x<xr ‘etichetto’ il paziente come SANO, altrimenti come MALATO. L’errore commesso sarà xr ∞ xr=5.858; la soglia bayesiana era xb= 6.4337; adesso etichetto una persona come MALATA se la concentrazione della sostanza è inferiore. −∞ xr −3 ∫ p( x | ω MALATI )P(ω MALATI )dx + ∫ p( x | ω SANI )P(ω SANI )dx ≅ 29.26 ⋅10 (l’errore bayesiano era 15.14 10-3) Falsi positivi: 26.84 10-3 (erano 6.35 10-3) Falsi negativi 2.41 10-3 (erano 8.79 10-3) Sono riuscito a ridurre i falsi negativi, ma al prezzo di un innalzamento dell’errore complessivo. c) Posso ridurre ulteriormente l’errore? Si, ‘rifiutandomi’ di classificare. Questo significa in concreto dire ad alcuni pazienti che dovranno ripetere l’esame più avanti (chi era veramente malato sarà uscito dalla zona di incertezza…), oppure posso indirizzarli verso un esame più intrusivo, per esempio una biopsia. Se evito di classificare i patterns che cadono nell’area indicata riesco a ridurre l’errore di classificazione, al prezzo di una ulteriore fase di decisione. Siamo in presenza di due classi ( SANO, MALATO) e tre azioni (RIGETTO, classifico come SANO, classifico come MALATO) La soglia bayesiana trovata precedentemente era xb= 6.434 (riferendoci al caso di funzione di costo 0-1), che dava luogo a Errore=15.14 10-3 Falsi positivi=6.35 10-3 Falsi negativi= 8.79 10-3 Supponiamo di rigettare i pattern in [x1, x2] con x1=xb-xb/20=6.112; x2=xb+xb/20=6.755; In questo modo rigettiamo una grande quantità di pattern che potevano dar luogo ad errori di classificazione ∞ Falsi positivi= ∫ p ( x | ω SANI )P(ω SANI )dx ≅ 2.492 ⋅ 10 −3 x2 x1 Falsi negativi= ∫ p ( x | ω MALATI )P (ω MALATI )dx ≅ 4.43 ⋅ 10 −3 −∞ Si vede che abbiamo ridotto notevolmente l’errore rispetto al caso bayesiano senza rigetto; gli errori di classificazione riguardano in media 7 pazienti su 1000, contro i 15 del caso bayesiano. Tuttavia NON effettuiamo nessuna classificazione per 24 pazienti x2 ∫ p( x | ω x1 x2 MALATI )P(ω MALATI )dx + ∫ p( x | ω SANI )P(ω SANI )dx ≅ 23.82 ⋅ 10 −3 x1 Come posso scegliere le soglie di rigetto utilizzando un criterio oggettivo? Introduco un costo anche per l’azione di rigetto Esempio 1 ⎛ λR ⎜ Λ = ⎜ λ MM ⎜λ ⎝ SM λ R ⎞ ⎛ λ R λ R ⎞ ⎛ 0.96 0.96 ⎞ ⎟ ⎜ ⎟ ⎜ ⎟ λ MS ⎟ = ⎜ λc λ E ⎟ = ⎜ 0 1 ⎟; 0 ⎟⎠ λ SS ⎟⎠ ⎜⎝ λ E λC ⎟⎠ ⎜⎝1 Equivale a dire che il costo delle azioni è azione corretta ⎧λC = 0 ⎪ λ = ⎨λ R = 0.96 rigetto ⎪λ = 1 errore ⎩ E Valutiamo il rischio: Generalizzando, se decido per la classe ωi (se Se decido per la classe ω1 R ( scelta = ωi | x ) = ∑ λE P (ω j | x ) + λC [P (ωi | x )] = R(scelta = ω1 | x) = λE [P(ω 2 | x)] + λC [P(ω1 | x)] = = λ E [P (ω 2 | x ) ] = [P (ω 2 | x ) ] = [1 − P (ω1 | x ) ] Se decido per la classe ω2 [ ] j, j ≠i = λ E [1 − P (ωi | x )] Minimizzo il rischio se scelgo in queste condizioni: | R( scelta = ω2 | x) = λE [P(ω1 | x)] + λC [P(ω2 | x)] = = λ E [P (ω1 | x )] = [P (ω1 | x )] = [1 − P (ω 2 | x )] 0) | | 1 | 1 | , | (come già sapevamo) a meno che non si eviti di classificare (opzione di rigetto) L’opzione di rigetto comporta il seguente rischio In genere: REGOLA DI CHOW R ( scelta = rigetto | x) = ∑ λR [P (ωi | x)] = λR λE − λR Posto T = λ − λ , E C se Quindi: scelgo i) | ii) | Scelgo | 1 | | | [P(ωi | x)] ≥ T , altrimenti rigetta classifica se max i , se i) ii) | , | Se vale solo la i) ma non la ii) allora rigetto. 1 Nel nostro esempio: Esempio 2 azione corretta ⎧λC = 0 ⎪ λ = ⎨λ R = 0.96 rigetto ⎪λ = 1 errore ⎩ E ⎛ λR ⎜ Λ = ⎜ λMM ⎜λ ⎝ SM T= λE − λR 1 − 0.96 = = 0.04 λE − λC 1 λR ⎞ ⎛ λR λR ⎞ ⎛ 0.3 0.3 ⎞ ⎟ ⎜ ⎟ ⎜ ⎟ λMS ⎟ = ⎜ λc λE ⎟ = ⎜ 0 1 ⎟; 0 ⎟⎠ λSS ⎟⎠ ⎜⎝ λE λC ⎟⎠ ⎜⎝1 Equivale a dire che il costo delle azioni è max[P (ωi | x)] ≥ T sempre, quindi NON APPLICO MAI IL i RIGETTO azione corretta ⎧λC = 0 ⎪ λ = ⎨λ R = 0.3 rigetto ⎪λ = 1 errore ⎩ E REGOLA DI CHOW La diseguaglianza λ E − λ R 1 − 0 .3 = = = 0 .7 , T Posto 1 λ E − λC [P(ωi | x)] ≥ T , altrimenti rigetta classifica se max i Ricordiamo i termini del problema: P(ωSANI)=0.85 , P(ωMALATI) =0.15 p( x | ωi ) = N (μ i ,σ 2 ) μ1=4; μ2=8 ; σ=1 ; i=1 sani; i=2 malati max[P (ωi | x)] < T i definisce la regione di rigetto. La soglia di decisione a minimo rischio con costi 0-1 coincide con la soglia bayesiana, già calcolata al punto a) xb= 6.4337 Quindi ⎧ P (ω1 | x ) max [P (ω i | x ) ] = ⎨ i ⎩ P (ω 2 | x ) per x < xb per x > xb Nuove regioni di decisione: Regione R1 : x ∈] − ∞, x S1 ] Regione R2 : x ∈]xS 2 , + ∞[ xS1 → P(ω 1| x) < T e | | xS 2 → P(ω 2| x) < T e | | p( x / ω1 ) P(ω1 ) <T ⇒ p( x) p( x / ω1 ) P(ω1 ) ⇒ <T p( x / ω1 ) P(ω1 ) + p ( x / ω2 ) P(ω2 ) xS 1 → P(ω 1| x) < T ⇒ Regione Rigetto : x ∈ [ xS1 , xS 2 ] ⇒ p ( x / ω1 ) P (ω1 ) + p ( x / ω 2 ) P (ω 2 ) 1 > p ( x / ω1 ) P(ω1 ) T ⇒1+ p ( x / ω 2 ) P (ω 2 ) 1 p ( x / ω 2 ) ⎡ 1 ⎤ P (ω1 ) > ⇒ > − 1⎥ p ( x / ω1 ) P (ω1 ) T p( x / ω1 ) ⎢⎣ T ⎦ P (ω 2 ) exp 4 4 24 24 ln 6 ln 1 ; 1 . 6 6.2218 ln ; Calcolo la seconda soglia p( x / ω2 ) P(ω2 ) <T ⇒ p( x) p ( x / ω2 ) P(ω2 ) ⇒ <T p ( x / ω1 ) P(ω1 ) + p ( x / ω2 ) P(ω2 ) xS 2 → P(ω 2| x) < T ⇒ ⇒ p ( x / ω1 ) P (ω1 ) + p ( x / ω2 ) P(ω2 ) 1 > p ( x / ω2 ) P(ω2 ) T ⇒ p ( x / ω1 ) P (ω1 ) 1 p ( x / ω1 ) ⎡ 1 ⎤ P (ω2 ) +1 > ⇒ > −1 p ( x / ω2 ) P (ω2 ) T p ( x / ω2 ) ⎢⎣ T ⎥⎦ P (ω1 ) ⇒ N ( μ1 , σ 2 ) ⎡ 1 ⎤ P (ω 2 ) > − 1⎥ N ( μ 2 , σ 2 ) ⎢⎣ T ⎦ P (ω1 ) Calcoliamo l’errore. L’errore bayesiano era exp 24 4 1 . Errore=15.14 10-3 1 Falsi positivi=6.35 10-3 24 4 ln ; 6 ln ; Falsi negativi= 8.79 10-3 Introducendo la regione di rigetto si ha ∞ 6 ln 6.6455 Falsi positivi= ∫ p( x | ω SANI )P(ωSANI )dx = 3.45 ⋅ 10 −3 xS 2 xS 1 Falsi negativi= ∫ p( x | ω −∞ Errore= 9.12 10-3 MALATI )P (ω MALATI ) dx = 5.65 ⋅ 10 −3 Si vede che abbiamo ridotto notevolmente l’errore rispetto al caso bayesiano senza rigetto; gli errori di classificazione riguardano in media 9 pazienti su 1000, contro i 15 del caso bayesiano. Tuttavia NON effettuiamo nessuna classificazione (rigetto) per 15 pazienti xS 2 ∫ p( x | ω MALATI xS 1 ≅ 15.22 ⋅ 10 −3 )P (ω MALATI ) dx + xS 2 ∫ p( x | ω xS 1 SANI )P (ω SANI ) dx Notare anche la differenza col criterio di rigetto ‘empirico’ nel quale, limitandoci a stabilire arbitrariamente una regione di rigetto, ottenevamo un errore medio su 7 pazienti rigettandone 24 Esercizio 7 Supponiamo di voler discriminare fra due tipi di traffico (traffico normale e traffico intrusivo). Anche in questo esempio utilizziamo una unica feature x, e supponiamo che il traffico risponda al seguente modello: p( x / ωi ) = ⎡ 1 ⎛ x − μi ⎞ 2 ⎤ exp ⎢− ⎜ ⎟ ⎥; 2π σ ⎣⎢ 2 ⎝ σ ⎠ ⎦⎥ 1 μ N = 0; μ INTR = 4; σ N = σ INTR = 1; A differenza dei casi esaminati negli esercizi precedenti riteniamo che le probabilità a priori non siano disponibili (stime non affidabili, prior variabili nel tempo, ecc). Scegliere la soglia di decisione per questo task di classificazione facendo le considerazioni opportune sui differenti ‘costi’ dei due tipi di errore Criterio MINIMAX Minimizzo il rischio massimo – minimizzo il rischio che otterrei nel caso peggiore Possiamo scegliere di imporre una matrice di costo in base a considerazioni sulla natura del problema Il rischio globale si può scrivere come R= Matrice di costo scelta: ⎡ λN , N Λ=⎢ ⎣λIntr , N λN , Intr ⎤ ⎡ 0 = λIntr , Intr ⎥⎦ ⎢⎣λIntr , N ∫ (λ NN ℜ1 λN , Intr ⎤ ⎡0 2 ⎤ = 0 ⎥⎦ ⎢⎣1 0⎥⎦ Non potendomi avvalere di una stima affidabile dei prior, utilizzo il metodo MINIMAX + ∫ (λ Intr , N ⋅ P1 ⋅ p ( x ω1 ) + λN ,Intr ⋅ P2 ⋅ p ( x ω2 ) )dx + ⋅ P1 ⋅ p ( x ω1 ) + λIntr ,Intr ⋅ P2 ⋅ p ( x ω2 ) )dx = ℜ2 Una volta fissata la matrice dei costi, posso agire solo sulle regioni di decisione ℜ1 e ℜ2 , che posso controllare agendo sulla soglia. Ricordiamo che Pi = P(ω i ) i prior) 0 e che (indico con ∫ ∫ R = λN , Intr ⋅ P2 ⋅ p( x ω2 ) dx + λIntr , N ⋅ P1 ⋅ p( x ω1 ) dx = ℜ1 ℜ2 ∫ R = λN , Intr ⋅ p( x ω2 ) dx + ℜ1 = ∫ λN ,Intr ⋅ (1 − P1 ) ⋅ p( x ω2 ) dx + ∫ λIntr , N ⋅ P1 ⋅ p( x ω1 ) dx = ℜ1 ℜ2 ⎡ ⎤ + P1 ⋅ ⎢λIntr , N ⋅ p( x ω1 ) dx − λN , Intr ⋅ p( x ω2 ) dx ⎥; ⎢⎣ ⎥⎦ ℜ ℜ ∫ ∫ 2 1 Ho espresso R in funzione di P1 e delle regioni di decisione = ∫ λN , Intr ⋅ p ( x ω2 ) dx − P1 ⋅ ∫ λN , Intr ⋅ p ( x ω2 ) dx + ℜ1 ℜ1 + P1 ⋅ ∫ λIntr , N ⋅ p ( x ω1 ) dx = ℜ2 Ricordiamo che P1 non è nota: se calcolassi le regioni di decisione in funzione di una stima di P1 e la stima fosse errata (o se P1 cambiasse nel tempo) R varierebbe linearmente in funzione di P1. Minimizzazione del rischio massimo (MINIMAX) R (1) ∫ R = λN , Intr ⋅ p( x ω2 ) dx + ℜ1 (2) ⎡ ⎤ + P1 ⋅ ⎢λIntr , N ⋅ p( x ω1 ) dx − λN , Intr ⋅ p( x ω2 ) dx ⎥; ⎢⎣ ⎥⎦ ℜ ℜ ∫ ∫ 2 1 Una volta fissata la soglia, R(P1) è una funzione lineare della sola P1 Se impongo una soglia tale da annullare il termine [], allora il rischio è indipendente da P1 e P2, non note 0 P1* P1** 1 (1) Rischio ottenuto se fisso la soglia stimando poi varia (2) Rischio ottenuto se fisso la soglia stimando poi varia P1 ,e ,e Imponendo che Da questa ultima relazione posso ricavare la soglia a λIntr , N ⋅ ∫ p( x ω1 ) dx − λN ,Intr ⋅ ∫ p( x ω2 ) dx = 0 ℜ2 ℜ1 Si ha ∫ p( x ω ) dx − 2 ⋅ ∫ p( x ω ) dx = 0 1 2 ℜ2 ℜ1 ∞ ∫ N (μ ,σ 1 a a 2 ) dx − 2 ∫ N ( μ2 , σ 2 ) dx = 0 −∞ La regola di decisione sarà: decido per traffico normale se p( x / ω1 ) <a p( x / ω 2 ) Altrimenti decido per traffico intrusivo Esercizio 8 The Base-Rate Fallacy Ci sottoponiamo al test ed il medico ci comunica di avere per noi una buona notizia ed una cattiva notizia. Consideriamo un esame medico la cui accuratezza dichiarata sia del 99% Cattiva notizia: il test è positivo Specifichiamo meglio il significato di tale accuratezza. Somministrando il test ad una popolazione di malati, il 99% risulta essere positivo al test Somministrando il test ad una popolazione di sani, il 99% risulta essere negativo al test Buona notizia: l’incidenza popolazione considerata è della malattia 10 nella Date queste informazioni, quale è la probabilità di essere malati? Ci interessa Dati sulla popolazione: | 10 1 10 dato che il test ha dato esito positivo | Dati di accuratezza sul test | Popolazione malata: 0.99 | | 1 | Popolazione sana: | | 0.99 1 | 0.99 0.99 0.99 10 | 0.99 10 1 0.99 1 10 9.8 10