Informazione associata a valore x avente probabilitá p(x) é Nota

Transcript

Informazione associata a valore x avente probabilitá p(x) é Nota
Entropia
Informazione associata a valore x avente probabilitá p(x) é
1
i(x) = log2
p(x)
Nota: Eventi meno probabili danno maggiore informazione
Entropia di v.c. X ∼ P : informazione media elementi di X
X
X
H(X) =
p(x)i(x) = −
p(x) log2 p(x)
x∈X
x∈X
Rappresenta l’incertezza su esito X
– p. 1/49
Proprietà dell’entropia
L’unitá di misura dell’entropia sono i bits
(Usiamo log in base 2)
Se si cambia la base del logaritmo, il valore
dell’entropia cambia solo di un fattore costante
Lemma Hb (X) =
H(X)
lg b
Dim.
Hb (X) =
X
x∈X
1
=
p(x) lgb
p(x)
X
p(x)
x∈X
1
lg p(x)
lg b
1 X
1
H (X)
=
p(x) lg
=
lg b
p(x)
lg b
x∈X
– p. 2/49
Entropia Binaria (v.c. di Bernulli)
X=
a
b
p 1−p
!
def
1
1
= h(p)
H(X) = p lg + (1 − p) lg
p
(1 − p)
h′ (p) = lg 1−p
p
log e
h′′ (p) = − p(1−p)
h(p)
1.0
0.5
h(p) ≥ 2 min{p, 1 − p}
0
0
0.5
p
1.0
– p. 3/49
Entropia congiunta
Def. Date due v.c. X e Y con d.d.p. congiunta p(x, y),
definiamo entropia congiunta la quantità :
H (X, Y ) =
XX
x∈X y∈Y
p(x, y) y = 0 y = 1
x=0
1/4
1/4
x=1
1/2
0
1
p (x, y) lg
p (x, y)
= E lg
1
p (X, Y )
H(X, Y ) = H(1/4, 1/4, 1/2)
1
3
1
= 2 log 4 + log 2 = bits
4
2
2
– p. 4/49
Entropia condizionata
Entropia condizionata H(Y /X):
X
H (Y /X) =
p (x) H (Y /X = x)
x∈X
H (Y /X = x): entropia di Y sapendo che X = x
p(x, y) y = 0 y = 1 p(x) H(Y /X = x)
x=0
1/2
x=1
1/4
H(Y /X) = 34 h
bits
1/4
0
1
3
3/4
H(2/3, 1/3) = h(1/3)
1/4
H(1, 0) = h(1) = 0
1
3
1
+ 4 h (1) = 4 h 3
p(y/x) =
p(x,y)
p(x)
– p. 5/49
Entropia condizionata
H (Y /X) =
X
p (x) H (Y /X = x)
x∈X
=
X
x∈X
=
X
x∈X
y∈Y
=
X
x∈X
y∈Y
p (x)
X
y∈Y
1
p (y/x) lg
p (y/x)
1
p (x) p (y/x) lg
p (y/x)
1
p (x, y) lg
p (y/x)
= E lg
1
p(y/x)
– p. 6/49
Entropia condizionata
H (Y /X) =
X
x∈X
y∈Y
1
p (x, y) lg
p (y/x)
= E lg
1
p(y/x)
rappresenta l’informazione addizionale media di Y nota X .
H(X, Y )
H(Y /X)
H(X)
H(Y )
– p. 7/49
Regola della catena
H(X, Y ) = H(X) + H(Y /X)
H (X, Y ) =
=
=
=
=
X
1
1
=
p (x, y) lg
p (x, y) lg
p (x, y)
p (y/x) p(x)
x,y
x,y
X
1
1
+ lg
p (x, y) lg
p (x)
p (y/x)
x,y
X
X
1
1
p (x, y) lg
+
p (x, y) lg
p (x) x,y
p (y/x)
x,y
!
X X
1
p (x, y) lg
+ H (Y /X)
p (x)
x
y
X
1
+ H (Y /X) = H (X) + H (Y /X)
p (x) lg
p (x)
x
X
– p. 8/49
Regola della catena: dimostrazione alternativa
Consideriamo la sequente dimostrazione alternativa:
1
1
= E lg
H (X, Y ) = E lg
p (X, Y )
p(Y /X)p(X)
1
1
= E lg
+ lg
p (X)
p (Y /X)
1
1
= E lg
+ E lg
p (X)
p (Y /X)
= H (X) + H (Y /X)
Il log trasforma prodotti di probabilitá in somme di entropie
– p. 9/49
Mutua Informazione
Date due v.c. X e Y con d.p. congiunta p(x, y), la mutua
informazione è definita come
.
I(X; Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
La mutua informazione rappresenta i bit di informazione
che una delle variabili fornisce circa l’altra.
H (X, Y )
H (X/Y )
H (Y /X )
I (X ; Y )
H (X )
H (Y )
Nota: uso ”;” (es I(X, Z; Y ) 6= I(X; Z, Y ))
– p. 10/49
Mutua Informazione
Es. Lanciamo 10 monete:
X rappresenta i valori delle prime 7 monete,
Y quelli delle ultime 5.
H(X) = 7
H(Y ) = 5,
H(X/Y ) = 5 H(Y /X) = 3
⇒ I(X; Y ) = I(Y ; X) = 2
– p. 11/49
Mutua Informazione
I(X; Y ) = H(X) − H(X/Y ) = H(Y ) − H(Y /X) = I(Y ; X)
I(X; Y ) − I(Y ; X) = H(X) − H(X/Y ) − H(Y ) + H(Y /X)
= H(X) + H(Y /X) − (H(Y ) + H(X/Y ))
= H(X, Y ) − H(X, Y ) = 0
I(X; Y ) = H(X) + H(Y ) − H(X, Y )
I(X; X) = H(X)
– p. 12/49
Mutua Informazione Condizionata
I(X; Y /Z) = H(X/Z) − H(X/Y Z) = H(Y /Z) − H(Y /XZ)
Nota: Il condizionamento di Z si applica SIA ad X che ad Y
I(X; Y /Z) = H(X/Z) − H(X/Y Z)
= H(X/Z) − (H(X, Y /Z) − H(Y /Z))
= H(X/Z) + H(Y /Z) − H(X, Y /Z)
Regola della catena per la mutua informazione
I(X1 , . . . , Xn ; Y ) =
n
X
I(Xi ; Y /X1 , . . . , Xi−1 )
i=1
Nota:
I(X1 , . . . , Xn ; Y ) = H(X1 , . . . , Xn ) + H(Y ) − H(X1 , . . . , Xn , Y )
– p. 13/49
Riepilogo/Anteprima
N.B.: Le disugualianze saranno provate in seguito
Entropia H(X) =
P
x∈X
1
p(x) log p(x)
H(X) ≥ 0, uguaglianza sse ∃ x t.c. p(x) = 1
H(X) ≤ log |X |, uguaglianza sse p(x) = 1/|X | ∀x ∈ X
Il condizionamento non aumenta l’entropia
H(X/Y ) ≤ H(X) uguaglianza sse X, Y indipendenti
Regola della catena:
H(X, Y ) = H(X) + H(Y /X) ≤ H(X) + H(Y ),
uguaglianza sse P
X, Y indipendenti
Pn
n
H(X1 , . . . , Xn ) = i=1 H(Xi /Xi−1 . . . x1 ) ≤ i=1 H(Xi ),
uguaglianza sse X1 , . . . , Xn indipendenti
– p. 14/49
Riepilogo/Anteprima
Mutua Informazione:
I(X; Y ) = H(X) − H(X/Y ) = H(X) + H(Y ) − H(X, Y )
Simmetrica e positiva: I(X; Y ) = I(Y ; X) ≥ 0,
uguaglianza sse X, Y indipendenti
Infatti
I(X; Y ) = H(X) − H(X/Y ) ≥ H(X) − H(X) = 0
con H(X/Y ) = H(X) sse X, Y indipendenti
– p. 15/49
Funzioni concave/convesse
Def. Una funzione f (x) si dice concava su un intervallo
(a, b) se ∀x1 , x2 ∈ (a, b) e ∀0 ≤ λ ≤ 1
f (λ · x1 + (1 − λ) · x2 ) ≥ λ · f (x1 ) + (1 − λ) · f (x2 )
f è strettamente concava se la disuguaglianza é stretta per
0 < λ < 1.
Esempio lg x è una funzione strettamente concava di x.
Def. Una funzione f (x) si dice convessa su un intervallo
(a, b) se −f (x) è concava sull’ intervallo (a, b).
Esempio x2 , x lg x sono funzioni strett. convesse di x.
– p. 16/49
– p. 17/49
Diseguaglianza di Jensen
X=
x1
p1
f (X) =
x2
p2
... xn
... pn
!
f : funzione
!
f (x1 ) f (x2 ) . . . f (xn )
.
p1
p2
...
pn
Risulta E[f (X)] ≤ f (E[X]),
Se f strettamente concava: E[f (X)] = f (E[X]), sse X è
concentrata in un’ unico punto (cioé é costante)
– p. 18/49
La dimostrazione procede per induzione su |X |.
Base induzione: |X | = 2.
Si consideri la v.c.
X=
x1 x2
p1 p2
!
Per la definizione di funzione concava, si ha che
E [f (X)] = p1 f (x1 ) + p2 f (x2 ) ≤ f (p1 x1 + p2 x2 ) = f (E [X]) .
Se f strett. concava l’uguaglianza vale sse p1 = 1 oppure
p2 = 1.
– p. 19/49
Passo induttivo: Supponiamo che la disuguaglianza di
Jensen sia verificata per |X | = k − 1. Dimostriamo che la
disuguaglianza è verificata per |X | = k .
E [f (X)] =
k
X
pi f (xi ) = pk f (xk ) +
pi f (xi )
i=1
i=1
= pk f (xk ) + (1 − pk )
k−1
X
k−1
X
i=1
!
pi
f (xi )
(1 − pk )
– p. 20/49
Osserviamo che
k−1
P
i=1
′
pi
(1−pk ) f (xi )
X =
x1
p1
1−pk
= E[f (X ′ )] dove X ′ è la v.c.
... xk−1
pk−1
... 1−p
k
!
L’ipotesi induttiva implica E[f (X ′ )] ≤ f (E[X ′ ]) per cui risulta:
!
k−1
X pi
xi .
E[f (X)] ≤ pk f (xk ) + (1 − pk )f
1 − pk
i=1
Applichiamo la definizione di funzione concava al termine
destro
– p. 21/49
Otteniamo
E[f (X)] ≤ f
pk xk + (1 − pk )
k−1
X
i=1
= f
k
X
i=1
pi xi
!
pi
xi
1 − pk
!
= f (E [X]) .
Se f strettamente concava: uguaglianza sse tutti ≤ sono =
Pk−1
(= in def. f concava): pk = 1 o pk = 0 (cioé i=1 pi = 1)
se pk = 1 ⇒ X concentrata in un’unico punto (cioé xk )
(= in i.i.): pk = 0 e, per i.i., X ′ concentrata in un’unico
punto
⇒ X concentrata in un’unico punto (tra x1 . . . xk−1 ).
– p. 22/49
Proprietà dell’entropia
Lemma. Sia X ∼ P v.c. con alfabeto X .
1. H(X) ≥ 0; uguaglianza sse ∃ x ∈ X t.c. p(x) = 1.
2. H(X) ≤ lg |X |;
l’uguaglianza vale sse X è uniformemente distribuita.
Dim. Punto 1.
0 ≤ p(x) ≤ 1
⇒ log
1
p(x)
≥0⇒
1
p(x)
log
x
p(x) ≥ 0
P
Esiste x ∈ X con 0 < p(x) < 1 sse H(x) > 0
– p. 23/49
Dim. punto 2.
1
H(X) = E lg
P (X)


1
. . . p(x)
...
1


≤ lg E
disug. Jensen su lg e
P (X)
. . . p(x) . . .
X
X
1
= lg
p(x)
= lg
1 = lg |X |.
p(x)
x∈X
x∈X
La disuguglianza di Jensen vale con il segno di “=” sse
1
p(x) = c costante, ∀x ∈ X .
1
p(x)
= c ⇒ p(x) =
1
c
⇒ 1=
Quindi c = |X | e p(x) =
1
c
=
P
1
|X | .
x∈X
p(x) =
1
x∈X c
P
=
|X |
c .
– p. 24/49
Condizionamento non aumenta entropia
H(Y /X) ≤ H(Y ), uguaglianza sse X e Y indipendenti
X
X
1
1
−
p(y) lg
p(x, y) lg
H(Y /X) − H(Y ) =
p(y/x)
p(y)
y∈Y
x∈X
y∈Y
=
=
x∈X
y∈Y
X
1
1
p(x, y) lg
−
p(x, y) lg
p(y/x)
p(y)
X
X
p(y)
p(y)
p(x, y) lg
≤ lg
p(x, y)
p(y/x)
p(y/x)
x,y
X
x,y
= lg
x∈X
y∈Y
X p(y/x)p(x)p(y)
= lg
X
p(x)p(y)
p(y/x)
x,y
X
X
X
= lg
p(x)
p(y) = lg
p(x) = lg 1 = 0
x,y
x
y
x
– p. 25/49
La disuguglianza di Jensen applicata a
vale con il segno di “=” sse
p(y)
p(y/x)
=c
⇒
p(y)
p(y/x)
...
p(y)
p(y/x)
...
. . . p(x, y) . . .
!
= c costante, ∀x, y .
p(y) = c p(y/x)
Sommando su y
X
X
X
1=
p(y) =
c p(y/x) = c
p(y/x) = c
y∈Y
y∈Y
y∈Y
Quindi p(y) = p(y/x), ∀x, y , cioé X, Y sono indipendenti.
– p. 26/49
Corollario H(X, Y ) ≤ H(X) + H(Y )
Corollario P
H(X, Y /Z) =
1
p(xyz)
log
x,y,z
p(xy/z) = H(X/Z) + H(Y /X, Z)
Dim. (lasciata come esercizio)
Nota: In generale non è vero che H(X/Y ) = H(Y /X).
– p. 27/49
Estensione Regola della catena
Teorema Siano X1 , . . . , Xn n v.c. con d.d.p. p(x1 , . . . , xn )
H (X1 , ..., Xn ) =
n
X
H (Xi /Xi−1 ...X1 )
i=1
Dim.
Procediamo per induzione su n.
Per n = 2, applicando la regola della catena abbiamo
H (X1 , X2 ) = H (X1 ) + H (X2 /X1 )
– p. 28/49
Iterando (assumiamo l’asserto vero per n − 1)
H (X1 , ..., Xn ) = H (Xn /X1 , ..., Xn−1 ) + H (X1 , ..., Xn−1 )
= H(Xn /Xn−1 . . . X1 ) + H(Xn−1 /Xn−2 . . . X1 )
+ . . . + H(X2 /X1 ) + H(X1 )
=
n
X
H (Xi /Xi−1 , ..., X1 )
i=1
– p. 29/49
Teorema
H(X1 , . . . , Xn ) ≤
n
X
H (Xi ),
i=1
l’uguaglianza vale sse X1 , . . . , Xn sono indipendenti.
Dim.
H (X1 , . . . , Xn ) =
n
X
i=1
H (Xi /X1 , ..., Xi−1 ) ≤
n
X
H (Xi )
i=1
L’ultima disuguaglianza vale con il segno di “=” sse
X1 , . . . , Xn sono indipendenti.
– p. 30/49
Divergenza informazionale
Def. Date due d.d.p. p(x) e q(x),
la divergenza informazionale
(o entropia relativa, o distanza Kullback Leibler)
D (p||q) di p(x) e q(x) è definita come
D (p||q) =
X
x∈X
p(x)
p(x) lg
q(x)
Divergenza D (p||q) misura la distanza tra le due d.p. p e q .
Non é simmetrica, infatti in generale D (p||q) 6= D (q||p)
– p. 31/49
D(p||q) ≥ 0 con l’uguaglianza sse p = q
Proviamo −D(p||q) ≤ 0 usando la disuguaglianza di Jensen:
X
q(x)
q(x)
≤ lg
−D(p||q) =
p(x)
p(x) lg
p(x)
p(x)
x∈X
x∈X
X
= lg
q(x) = 0
X
x∈X
dove dis. Jensen applicata a v.c.
...
q(x)
p(x)
...
. . . p(x) . . .
!
:
q(x)
Uguaglianza sse p(x)
= c =costante ∀x,
P
P
da cui 1 = x q(x) = c x p(x) = c.
Quindi c = 1 e q(x) = p(x), ∀x.
– p. 32/49
Date due v.c. X e Y con probabilità congiunta p(x, y), la
mutua informazione corrisponde all’entropia relativa tra
p(x, y) e p(x)p(y):
I (X; Y ) = H(X) + H(Y ) − H(X, Y )
X
p (x, y)
=
p (x, y) lg
p (x) p (y)
x∈X
y∈Y
= D (p(x, y)||p(x)p(y))
– p. 33/49
Esempio
Esempio
Y \X
1
1
2
3
4
1
8
1
16
1
32
1
32
2
1
16
1
8
1
32
1
32
3
1
16
1
16
1
16
1
16
4
1
4
0
0
0
– p. 34/49
Determiniamo le d.d.p. marginali.
Sommando le probabilità in ciascuna colonna:
!
1 2 3 4
X=
1 1 1 1
2
4
8
8
Sommando le probabilità in ciascuna riga:
!
1 2 3 4
Y =
1 1 1 1
4
4
4
4
– p. 35/49
H (X/Y ) =
4
X
p (y = i) H (X/Y = i)
i=1
1
H
=
4
1
+ H
4
1 1 1 1
, , ,
2 4 8 8
1 1 1 1
, , ,
4 4 4 4
1 1 1
=
+
4 2 4
1 1 1
=
+
4 2 2
1
+ H
4
1 1 1 1
, , ,
2 4 8 8
1
+ H (1, 0, 0, 0)
4
1
1
1
· 2 + 2 · · 3 2 + lg 4 + 0
8
4
4
3
1
1 7
1
11
+
2+ =
+ =
4
2
2 4
2
8
– p. 36/49
13
H (Y /X) =
8
27
11
=
H(X, Y ) = H(Y ) + H(X/Y ) = 2 +
8
8
7 11
3
I(X; Y ) = H(X) − H(X/Y ) = −
=
4
8
8
3
13
=
= H(Y ) − H(Y /X) = 2 −
8
8
– p. 37/49
Esercizio
Esercizio Dimostrare che, data la funzione f , risulta
H (X) ≥ H (f (X))
Suggerimento: considerare H (X, f (X))
– p. 38/49
Esempio
Condizioni meteo modellate da v.c. X =
xp xn
1
2
1
2
!
Yari esce con ombrello in accordo alla v.c.
Y =
yo
yn
p(yo ) p(yn )
!
X\Y
con [p(y/x)] = xp
xn
yo yn
1
3
2
3
1
0
Abbiamo P (yo ) = p(xp )p(yo /xp ) + p(xn )p(yo /xn ) = 2/3,
!
yo yn
quindi Y =
1
2
3
3
– p. 39/49
X=
xp xn
1
2
1
2
!
,
Y =
yo yn
2
3
1
3
!
,
X\Y
xp
xn
yo yn
1
3
2
3
1
0
Risulta
1
H(X) = 1,
H(Y ) = h 3
1
P
1
1
H(Y /X) = x p(x)H(Y /X = x) = 2 h 3 + 2 h(1) = 12 h
1 1
1
I(X; Y ) = H(Y ) − H(Y /X) = h 3 − 2 h( 3 ) = 21 h( 13 )
1
3
– p. 40/49
Zelda per indovinare che tempo fa osserva Yari:
Se Yari ha ombrello dice xp
Se Yari non ha ombrello, lancia una moneta: se testa
dice xn , altr. dice xp
Previsione Zelda dipende solo dal comportamento di Yari!
Sia Z la v.c. che rappresenta la previsione di Zelda.
Per ogni x, y, z
p(z/xy) = p(z/y)
Previsione Z (elda) fornisce meno informazione su X che
l’osservazione diretta comportamento di Y (ari)!,
Formalmente
I(X; Z) ≤ I(X; Y )
– p. 41/49
Catene di Markov
X, Y, Z formano una catena di Markov (X → Y → Z )
sse
Z é condizionalmente indipendente da X noto Y ,
formalmente
p(z/xy) = p(z/y),
∀x, y, z
– p. 42/49
Teorema del Data Processing
Esercizio: X → Y → Z sse Z → Y → X
Teorema(Data Processing) Se X → Y → Z allora
a)I(X; Z) ≤ I(X; Y )
b)I(X; Z) ≤ I(Z; Y )
Dim. Proviamo a).
Disuguaglianza b) segue applicando a) a Z → Y → X .
– p. 43/49
Se X → Y → Z allora I(X; Z) ≤ I(X; Y )
Poiché X → Y → Z
H(X/Y Z) = E[− lg p(x/yz)] = E[− lg p(x/y)] = H(X/Y )
Da cui
I(X; Y Z) = H(X) − H(X/Y Z) = H(X) − H(X/Y ) = I(X; Y )
Inoltre
I(X; Y Z) = H(X) − H(X/Y Z) ≥ H(X) − H(X/Z) = I(X; Z)
– p. 44/49
Stima di v.c.
!
yo yn
Y /X
xp xn
yo yn
1
2
X=
, Y =
,
xp
1
2
1
1
3
3
2
2
3
3
xn
1 0
Zelda per indovinare che tempo fa osserva Yari:
!
Se Yari ha ombrello dice xp
Se Yari non ha ombrello dice xn
v.c. Z =stima Zelda fa di X conoscendo Y .
(
xp se Y = yo
Z = g(Y ) =
xn se Y = yn
Quale é la probabilità che Zelda fa una stima esatta di X ?
– p. 45/49
Disuguaglianza di Fano
Siano X, Y v.c.. Vogliamo stimare X dall’osservazione di Y .
Osserviamo Y , calcoliamo g(Y ) = X̂ (stima di X ).
Probabilitá X 6= X̂ ? Sia
Pe = P r{X̂ 6= X}
Teorema (Disuguaglianza di Fano)
h(Pe ) + Pe lg(|X | − 1) ≥ H(X|Y )
)−h(Pe )
Nota: Teorema implica Pe ≥ H(X|Y
≥
lg(|X |−1)
Nota: Pe = 0 ⇒ H(X|Y ) = 0
Nota: X → Y → X̂ .
H(X|Y )−1
lg(|X |)
– p. 46/49
Dim. . Definiamo la v.c. errore E t.c.
(
1
E=
0
se X =
6 X̂
,
se X = X̂
cioé
E=
1
0
Pe 1 − Pe
!
H(X|Y ) = H(X|Y ) + H(E|X, Y ) = H(E, X|Y )
= H(E|Y ) + H(X|E, Y )
≤ h(Pe ) + H(X|E, Y )
con
H(X|E, Y ) = P r{E = 0}H(X|E = 0, Y ) + P r{E = 1}H(X|E = 1, Y )
≤ (1 − Pe )0 + Pe lg(|X | − 1) = Pe lg(|X | − 1)
– p. 47/49
Riepilogo Misure di Informazione
Entropia: H(X) =
P
x∈X
1
p(x) log p(x)
Limiti: 0 ≤ H(X) ≤ log |X |,
Il condizionamento non aumenta l’entropia:
H(X/Y ) ≤ H(X)
Regola della catena:
Pn
Pn
H(X1 , . . . , Xn ) = i=1 H(Xi /Xi−1 . . . x1 ) ≤ i=1 H(Xi ),
Pn
H(X1 , . . . , Xn /Y1 , . . . , Yn ) ≤ i=1 H(Xi /Yi )
P
Divergenza informazionale: D (p||q) = x∈X p(x) lg p(x)
q(x) ≥ 0
– p. 48/49
Riepilogo Misure di Informazione
Mutua Informazione:
I(X; Y ) = H(X) − H(X/Y ) = H(X) + H(Y ) − H(X, Y )
= D(p(x, y)||p(x)p(y))
Simmetrica e positiva: I(X; Y ) = I(Y ; X) ≥ 0,
X, Y indipendenti ⇒ I(X; Y ) = H(X) − H(X/Y ) = 0
X → Y → Z ⇒ I(X; Z) ≤ I(X; Y )
Fano:
X → Y → X̂ , Pe = P r{X̂ 6= X} ⇒
h(Pe ) + Pe lg(|X | − 1) ≥ H(X|Y )
– p. 49/49