Informazione associata a valore x avente probabilitá p(x) é Nota
Transcript
Informazione associata a valore x avente probabilitá p(x) é Nota
Entropia Informazione associata a valore x avente probabilitá p(x) é 1 i(x) = log2 p(x) Nota: Eventi meno probabili danno maggiore informazione Entropia di v.c. X ∼ P : informazione media elementi di X X X H(X) = p(x)i(x) = − p(x) log2 p(x) x∈X x∈X Rappresenta l’incertezza su esito X – p. 1/49 Proprietà dell’entropia L’unitá di misura dell’entropia sono i bits (Usiamo log in base 2) Se si cambia la base del logaritmo, il valore dell’entropia cambia solo di un fattore costante Lemma Hb (X) = H(X) lg b Dim. Hb (X) = X x∈X 1 = p(x) lgb p(x) X p(x) x∈X 1 lg p(x) lg b 1 X 1 H (X) = p(x) lg = lg b p(x) lg b x∈X – p. 2/49 Entropia Binaria (v.c. di Bernulli) X= a b p 1−p ! def 1 1 = h(p) H(X) = p lg + (1 − p) lg p (1 − p) h′ (p) = lg 1−p p log e h′′ (p) = − p(1−p) h(p) 1.0 0.5 h(p) ≥ 2 min{p, 1 − p} 0 0 0.5 p 1.0 – p. 3/49 Entropia congiunta Def. Date due v.c. X e Y con d.d.p. congiunta p(x, y), definiamo entropia congiunta la quantità : H (X, Y ) = XX x∈X y∈Y p(x, y) y = 0 y = 1 x=0 1/4 1/4 x=1 1/2 0 1 p (x, y) lg p (x, y) = E lg 1 p (X, Y ) H(X, Y ) = H(1/4, 1/4, 1/2) 1 3 1 = 2 log 4 + log 2 = bits 4 2 2 – p. 4/49 Entropia condizionata Entropia condizionata H(Y /X): X H (Y /X) = p (x) H (Y /X = x) x∈X H (Y /X = x): entropia di Y sapendo che X = x p(x, y) y = 0 y = 1 p(x) H(Y /X = x) x=0 1/2 x=1 1/4 H(Y /X) = 34 h bits 1/4 0 1 3 3/4 H(2/3, 1/3) = h(1/3) 1/4 H(1, 0) = h(1) = 0 1 3 1 + 4 h (1) = 4 h 3 p(y/x) = p(x,y) p(x) – p. 5/49 Entropia condizionata H (Y /X) = X p (x) H (Y /X = x) x∈X = X x∈X = X x∈X y∈Y = X x∈X y∈Y p (x) X y∈Y 1 p (y/x) lg p (y/x) 1 p (x) p (y/x) lg p (y/x) 1 p (x, y) lg p (y/x) = E lg 1 p(y/x) – p. 6/49 Entropia condizionata H (Y /X) = X x∈X y∈Y 1 p (x, y) lg p (y/x) = E lg 1 p(y/x) rappresenta l’informazione addizionale media di Y nota X . H(X, Y ) H(Y /X) H(X) H(Y ) – p. 7/49 Regola della catena H(X, Y ) = H(X) + H(Y /X) H (X, Y ) = = = = = X 1 1 = p (x, y) lg p (x, y) lg p (x, y) p (y/x) p(x) x,y x,y X 1 1 + lg p (x, y) lg p (x) p (y/x) x,y X X 1 1 p (x, y) lg + p (x, y) lg p (x) x,y p (y/x) x,y ! X X 1 p (x, y) lg + H (Y /X) p (x) x y X 1 + H (Y /X) = H (X) + H (Y /X) p (x) lg p (x) x X – p. 8/49 Regola della catena: dimostrazione alternativa Consideriamo la sequente dimostrazione alternativa: 1 1 = E lg H (X, Y ) = E lg p (X, Y ) p(Y /X)p(X) 1 1 = E lg + lg p (X) p (Y /X) 1 1 = E lg + E lg p (X) p (Y /X) = H (X) + H (Y /X) Il log trasforma prodotti di probabilitá in somme di entropie – p. 9/49 Mutua Informazione Date due v.c. X e Y con d.p. congiunta p(x, y), la mutua informazione è definita come . I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X) La mutua informazione rappresenta i bit di informazione che una delle variabili fornisce circa l’altra. H (X, Y ) H (X/Y ) H (Y /X ) I (X ; Y ) H (X ) H (Y ) Nota: uso ”;” (es I(X, Z; Y ) 6= I(X; Z, Y )) – p. 10/49 Mutua Informazione Es. Lanciamo 10 monete: X rappresenta i valori delle prime 7 monete, Y quelli delle ultime 5. H(X) = 7 H(Y ) = 5, H(X/Y ) = 5 H(Y /X) = 3 ⇒ I(X; Y ) = I(Y ; X) = 2 – p. 11/49 Mutua Informazione I(X; Y ) = H(X) − H(X/Y ) = H(Y ) − H(Y /X) = I(Y ; X) I(X; Y ) − I(Y ; X) = H(X) − H(X/Y ) − H(Y ) + H(Y /X) = H(X) + H(Y /X) − (H(Y ) + H(X/Y )) = H(X, Y ) − H(X, Y ) = 0 I(X; Y ) = H(X) + H(Y ) − H(X, Y ) I(X; X) = H(X) – p. 12/49 Mutua Informazione Condizionata I(X; Y /Z) = H(X/Z) − H(X/Y Z) = H(Y /Z) − H(Y /XZ) Nota: Il condizionamento di Z si applica SIA ad X che ad Y I(X; Y /Z) = H(X/Z) − H(X/Y Z) = H(X/Z) − (H(X, Y /Z) − H(Y /Z)) = H(X/Z) + H(Y /Z) − H(X, Y /Z) Regola della catena per la mutua informazione I(X1 , . . . , Xn ; Y ) = n X I(Xi ; Y /X1 , . . . , Xi−1 ) i=1 Nota: I(X1 , . . . , Xn ; Y ) = H(X1 , . . . , Xn ) + H(Y ) − H(X1 , . . . , Xn , Y ) – p. 13/49 Riepilogo/Anteprima N.B.: Le disugualianze saranno provate in seguito Entropia H(X) = P x∈X 1 p(x) log p(x) H(X) ≥ 0, uguaglianza sse ∃ x t.c. p(x) = 1 H(X) ≤ log |X |, uguaglianza sse p(x) = 1/|X | ∀x ∈ X Il condizionamento non aumenta l’entropia H(X/Y ) ≤ H(X) uguaglianza sse X, Y indipendenti Regola della catena: H(X, Y ) = H(X) + H(Y /X) ≤ H(X) + H(Y ), uguaglianza sse P X, Y indipendenti Pn n H(X1 , . . . , Xn ) = i=1 H(Xi /Xi−1 . . . x1 ) ≤ i=1 H(Xi ), uguaglianza sse X1 , . . . , Xn indipendenti – p. 14/49 Riepilogo/Anteprima Mutua Informazione: I(X; Y ) = H(X) − H(X/Y ) = H(X) + H(Y ) − H(X, Y ) Simmetrica e positiva: I(X; Y ) = I(Y ; X) ≥ 0, uguaglianza sse X, Y indipendenti Infatti I(X; Y ) = H(X) − H(X/Y ) ≥ H(X) − H(X) = 0 con H(X/Y ) = H(X) sse X, Y indipendenti – p. 15/49 Funzioni concave/convesse Def. Una funzione f (x) si dice concava su un intervallo (a, b) se ∀x1 , x2 ∈ (a, b) e ∀0 ≤ λ ≤ 1 f (λ · x1 + (1 − λ) · x2 ) ≥ λ · f (x1 ) + (1 − λ) · f (x2 ) f è strettamente concava se la disuguaglianza é stretta per 0 < λ < 1. Esempio lg x è una funzione strettamente concava di x. Def. Una funzione f (x) si dice convessa su un intervallo (a, b) se −f (x) è concava sull’ intervallo (a, b). Esempio x2 , x lg x sono funzioni strett. convesse di x. – p. 16/49 – p. 17/49 Diseguaglianza di Jensen X= x1 p1 f (X) = x2 p2 ... xn ... pn ! f : funzione ! f (x1 ) f (x2 ) . . . f (xn ) . p1 p2 ... pn Risulta E[f (X)] ≤ f (E[X]), Se f strettamente concava: E[f (X)] = f (E[X]), sse X è concentrata in un’ unico punto (cioé é costante) – p. 18/49 La dimostrazione procede per induzione su |X |. Base induzione: |X | = 2. Si consideri la v.c. X= x1 x2 p1 p2 ! Per la definizione di funzione concava, si ha che E [f (X)] = p1 f (x1 ) + p2 f (x2 ) ≤ f (p1 x1 + p2 x2 ) = f (E [X]) . Se f strett. concava l’uguaglianza vale sse p1 = 1 oppure p2 = 1. – p. 19/49 Passo induttivo: Supponiamo che la disuguaglianza di Jensen sia verificata per |X | = k − 1. Dimostriamo che la disuguaglianza è verificata per |X | = k . E [f (X)] = k X pi f (xi ) = pk f (xk ) + pi f (xi ) i=1 i=1 = pk f (xk ) + (1 − pk ) k−1 X k−1 X i=1 ! pi f (xi ) (1 − pk ) – p. 20/49 Osserviamo che k−1 P i=1 ′ pi (1−pk ) f (xi ) X = x1 p1 1−pk = E[f (X ′ )] dove X ′ è la v.c. ... xk−1 pk−1 ... 1−p k ! L’ipotesi induttiva implica E[f (X ′ )] ≤ f (E[X ′ ]) per cui risulta: ! k−1 X pi xi . E[f (X)] ≤ pk f (xk ) + (1 − pk )f 1 − pk i=1 Applichiamo la definizione di funzione concava al termine destro – p. 21/49 Otteniamo E[f (X)] ≤ f pk xk + (1 − pk ) k−1 X i=1 = f k X i=1 pi xi ! pi xi 1 − pk ! = f (E [X]) . Se f strettamente concava: uguaglianza sse tutti ≤ sono = Pk−1 (= in def. f concava): pk = 1 o pk = 0 (cioé i=1 pi = 1) se pk = 1 ⇒ X concentrata in un’unico punto (cioé xk ) (= in i.i.): pk = 0 e, per i.i., X ′ concentrata in un’unico punto ⇒ X concentrata in un’unico punto (tra x1 . . . xk−1 ). – p. 22/49 Proprietà dell’entropia Lemma. Sia X ∼ P v.c. con alfabeto X . 1. H(X) ≥ 0; uguaglianza sse ∃ x ∈ X t.c. p(x) = 1. 2. H(X) ≤ lg |X |; l’uguaglianza vale sse X è uniformemente distribuita. Dim. Punto 1. 0 ≤ p(x) ≤ 1 ⇒ log 1 p(x) ≥0⇒ 1 p(x) log x p(x) ≥ 0 P Esiste x ∈ X con 0 < p(x) < 1 sse H(x) > 0 – p. 23/49 Dim. punto 2. 1 H(X) = E lg P (X) 1 . . . p(x) ... 1 ≤ lg E disug. Jensen su lg e P (X) . . . p(x) . . . X X 1 = lg p(x) = lg 1 = lg |X |. p(x) x∈X x∈X La disuguglianza di Jensen vale con il segno di “=” sse 1 p(x) = c costante, ∀x ∈ X . 1 p(x) = c ⇒ p(x) = 1 c ⇒ 1= Quindi c = |X | e p(x) = 1 c = P 1 |X | . x∈X p(x) = 1 x∈X c P = |X | c . – p. 24/49 Condizionamento non aumenta entropia H(Y /X) ≤ H(Y ), uguaglianza sse X e Y indipendenti X X 1 1 − p(y) lg p(x, y) lg H(Y /X) − H(Y ) = p(y/x) p(y) y∈Y x∈X y∈Y = = x∈X y∈Y X 1 1 p(x, y) lg − p(x, y) lg p(y/x) p(y) X X p(y) p(y) p(x, y) lg ≤ lg p(x, y) p(y/x) p(y/x) x,y X x,y = lg x∈X y∈Y X p(y/x)p(x)p(y) = lg X p(x)p(y) p(y/x) x,y X X X = lg p(x) p(y) = lg p(x) = lg 1 = 0 x,y x y x – p. 25/49 La disuguglianza di Jensen applicata a vale con il segno di “=” sse p(y) p(y/x) =c ⇒ p(y) p(y/x) ... p(y) p(y/x) ... . . . p(x, y) . . . ! = c costante, ∀x, y . p(y) = c p(y/x) Sommando su y X X X 1= p(y) = c p(y/x) = c p(y/x) = c y∈Y y∈Y y∈Y Quindi p(y) = p(y/x), ∀x, y , cioé X, Y sono indipendenti. – p. 26/49 Corollario H(X, Y ) ≤ H(X) + H(Y ) Corollario P H(X, Y /Z) = 1 p(xyz) log x,y,z p(xy/z) = H(X/Z) + H(Y /X, Z) Dim. (lasciata come esercizio) Nota: In generale non è vero che H(X/Y ) = H(Y /X). – p. 27/49 Estensione Regola della catena Teorema Siano X1 , . . . , Xn n v.c. con d.d.p. p(x1 , . . . , xn ) H (X1 , ..., Xn ) = n X H (Xi /Xi−1 ...X1 ) i=1 Dim. Procediamo per induzione su n. Per n = 2, applicando la regola della catena abbiamo H (X1 , X2 ) = H (X1 ) + H (X2 /X1 ) – p. 28/49 Iterando (assumiamo l’asserto vero per n − 1) H (X1 , ..., Xn ) = H (Xn /X1 , ..., Xn−1 ) + H (X1 , ..., Xn−1 ) = H(Xn /Xn−1 . . . X1 ) + H(Xn−1 /Xn−2 . . . X1 ) + . . . + H(X2 /X1 ) + H(X1 ) = n X H (Xi /Xi−1 , ..., X1 ) i=1 – p. 29/49 Teorema H(X1 , . . . , Xn ) ≤ n X H (Xi ), i=1 l’uguaglianza vale sse X1 , . . . , Xn sono indipendenti. Dim. H (X1 , . . . , Xn ) = n X i=1 H (Xi /X1 , ..., Xi−1 ) ≤ n X H (Xi ) i=1 L’ultima disuguaglianza vale con il segno di “=” sse X1 , . . . , Xn sono indipendenti. – p. 30/49 Divergenza informazionale Def. Date due d.d.p. p(x) e q(x), la divergenza informazionale (o entropia relativa, o distanza Kullback Leibler) D (p||q) di p(x) e q(x) è definita come D (p||q) = X x∈X p(x) p(x) lg q(x) Divergenza D (p||q) misura la distanza tra le due d.p. p e q . Non é simmetrica, infatti in generale D (p||q) 6= D (q||p) – p. 31/49 D(p||q) ≥ 0 con l’uguaglianza sse p = q Proviamo −D(p||q) ≤ 0 usando la disuguaglianza di Jensen: X q(x) q(x) ≤ lg −D(p||q) = p(x) p(x) lg p(x) p(x) x∈X x∈X X = lg q(x) = 0 X x∈X dove dis. Jensen applicata a v.c. ... q(x) p(x) ... . . . p(x) . . . ! : q(x) Uguaglianza sse p(x) = c =costante ∀x, P P da cui 1 = x q(x) = c x p(x) = c. Quindi c = 1 e q(x) = p(x), ∀x. – p. 32/49 Date due v.c. X e Y con probabilità congiunta p(x, y), la mutua informazione corrisponde all’entropia relativa tra p(x, y) e p(x)p(y): I (X; Y ) = H(X) + H(Y ) − H(X, Y ) X p (x, y) = p (x, y) lg p (x) p (y) x∈X y∈Y = D (p(x, y)||p(x)p(y)) – p. 33/49 Esempio Esempio Y \X 1 1 2 3 4 1 8 1 16 1 32 1 32 2 1 16 1 8 1 32 1 32 3 1 16 1 16 1 16 1 16 4 1 4 0 0 0 – p. 34/49 Determiniamo le d.d.p. marginali. Sommando le probabilità in ciascuna colonna: ! 1 2 3 4 X= 1 1 1 1 2 4 8 8 Sommando le probabilità in ciascuna riga: ! 1 2 3 4 Y = 1 1 1 1 4 4 4 4 – p. 35/49 H (X/Y ) = 4 X p (y = i) H (X/Y = i) i=1 1 H = 4 1 + H 4 1 1 1 1 , , , 2 4 8 8 1 1 1 1 , , , 4 4 4 4 1 1 1 = + 4 2 4 1 1 1 = + 4 2 2 1 + H 4 1 1 1 1 , , , 2 4 8 8 1 + H (1, 0, 0, 0) 4 1 1 1 · 2 + 2 · · 3 2 + lg 4 + 0 8 4 4 3 1 1 7 1 11 + 2+ = + = 4 2 2 4 2 8 – p. 36/49 13 H (Y /X) = 8 27 11 = H(X, Y ) = H(Y ) + H(X/Y ) = 2 + 8 8 7 11 3 I(X; Y ) = H(X) − H(X/Y ) = − = 4 8 8 3 13 = = H(Y ) − H(Y /X) = 2 − 8 8 – p. 37/49 Esercizio Esercizio Dimostrare che, data la funzione f , risulta H (X) ≥ H (f (X)) Suggerimento: considerare H (X, f (X)) – p. 38/49 Esempio Condizioni meteo modellate da v.c. X = xp xn 1 2 1 2 ! Yari esce con ombrello in accordo alla v.c. Y = yo yn p(yo ) p(yn ) ! X\Y con [p(y/x)] = xp xn yo yn 1 3 2 3 1 0 Abbiamo P (yo ) = p(xp )p(yo /xp ) + p(xn )p(yo /xn ) = 2/3, ! yo yn quindi Y = 1 2 3 3 – p. 39/49 X= xp xn 1 2 1 2 ! , Y = yo yn 2 3 1 3 ! , X\Y xp xn yo yn 1 3 2 3 1 0 Risulta 1 H(X) = 1, H(Y ) = h 3 1 P 1 1 H(Y /X) = x p(x)H(Y /X = x) = 2 h 3 + 2 h(1) = 12 h 1 1 1 I(X; Y ) = H(Y ) − H(Y /X) = h 3 − 2 h( 3 ) = 21 h( 13 ) 1 3 – p. 40/49 Zelda per indovinare che tempo fa osserva Yari: Se Yari ha ombrello dice xp Se Yari non ha ombrello, lancia una moneta: se testa dice xn , altr. dice xp Previsione Zelda dipende solo dal comportamento di Yari! Sia Z la v.c. che rappresenta la previsione di Zelda. Per ogni x, y, z p(z/xy) = p(z/y) Previsione Z (elda) fornisce meno informazione su X che l’osservazione diretta comportamento di Y (ari)!, Formalmente I(X; Z) ≤ I(X; Y ) – p. 41/49 Catene di Markov X, Y, Z formano una catena di Markov (X → Y → Z ) sse Z é condizionalmente indipendente da X noto Y , formalmente p(z/xy) = p(z/y), ∀x, y, z – p. 42/49 Teorema del Data Processing Esercizio: X → Y → Z sse Z → Y → X Teorema(Data Processing) Se X → Y → Z allora a)I(X; Z) ≤ I(X; Y ) b)I(X; Z) ≤ I(Z; Y ) Dim. Proviamo a). Disuguaglianza b) segue applicando a) a Z → Y → X . – p. 43/49 Se X → Y → Z allora I(X; Z) ≤ I(X; Y ) Poiché X → Y → Z H(X/Y Z) = E[− lg p(x/yz)] = E[− lg p(x/y)] = H(X/Y ) Da cui I(X; Y Z) = H(X) − H(X/Y Z) = H(X) − H(X/Y ) = I(X; Y ) Inoltre I(X; Y Z) = H(X) − H(X/Y Z) ≥ H(X) − H(X/Z) = I(X; Z) – p. 44/49 Stima di v.c. ! yo yn Y /X xp xn yo yn 1 2 X= , Y = , xp 1 2 1 1 3 3 2 2 3 3 xn 1 0 Zelda per indovinare che tempo fa osserva Yari: ! Se Yari ha ombrello dice xp Se Yari non ha ombrello dice xn v.c. Z =stima Zelda fa di X conoscendo Y . ( xp se Y = yo Z = g(Y ) = xn se Y = yn Quale é la probabilità che Zelda fa una stima esatta di X ? – p. 45/49 Disuguaglianza di Fano Siano X, Y v.c.. Vogliamo stimare X dall’osservazione di Y . Osserviamo Y , calcoliamo g(Y ) = X̂ (stima di X ). Probabilitá X 6= X̂ ? Sia Pe = P r{X̂ 6= X} Teorema (Disuguaglianza di Fano) h(Pe ) + Pe lg(|X | − 1) ≥ H(X|Y ) )−h(Pe ) Nota: Teorema implica Pe ≥ H(X|Y ≥ lg(|X |−1) Nota: Pe = 0 ⇒ H(X|Y ) = 0 Nota: X → Y → X̂ . H(X|Y )−1 lg(|X |) – p. 46/49 Dim. . Definiamo la v.c. errore E t.c. ( 1 E= 0 se X = 6 X̂ , se X = X̂ cioé E= 1 0 Pe 1 − Pe ! H(X|Y ) = H(X|Y ) + H(E|X, Y ) = H(E, X|Y ) = H(E|Y ) + H(X|E, Y ) ≤ h(Pe ) + H(X|E, Y ) con H(X|E, Y ) = P r{E = 0}H(X|E = 0, Y ) + P r{E = 1}H(X|E = 1, Y ) ≤ (1 − Pe )0 + Pe lg(|X | − 1) = Pe lg(|X | − 1) – p. 47/49 Riepilogo Misure di Informazione Entropia: H(X) = P x∈X 1 p(x) log p(x) Limiti: 0 ≤ H(X) ≤ log |X |, Il condizionamento non aumenta l’entropia: H(X/Y ) ≤ H(X) Regola della catena: Pn Pn H(X1 , . . . , Xn ) = i=1 H(Xi /Xi−1 . . . x1 ) ≤ i=1 H(Xi ), Pn H(X1 , . . . , Xn /Y1 , . . . , Yn ) ≤ i=1 H(Xi /Yi ) P Divergenza informazionale: D (p||q) = x∈X p(x) lg p(x) q(x) ≥ 0 – p. 48/49 Riepilogo Misure di Informazione Mutua Informazione: I(X; Y ) = H(X) − H(X/Y ) = H(X) + H(Y ) − H(X, Y ) = D(p(x, y)||p(x)p(y)) Simmetrica e positiva: I(X; Y ) = I(Y ; X) ≥ 0, X, Y indipendenti ⇒ I(X; Y ) = H(X) − H(X/Y ) = 0 X → Y → Z ⇒ I(X; Z) ≤ I(X; Y ) Fano: X → Y → X̂ , Pe = P r{X̂ 6= X} ⇒ h(Pe ) + Pe lg(|X | − 1) ≥ H(X|Y ) – p. 49/49