Capitolo 2 Richiami di Teoria dell`informazione: la codifica di sorgente

Transcript

Capitolo 2 Richiami di Teoria dell`informazione: la codifica di sorgente
Capitolo 2
Richiami di Teoria dell'informazione:
la codifica di sorgente
I sistemi multimediali hanno come obiettivo la
• trasmissione,
• memorizzazione,
• elaborazione
di dati di natura multimediale, che devono essere rappresentati in modo parsimonioso, aderente, e robusto. La sorgente
dell'informazione da trattare puo essere di natura differente, e conseguentemente la rappresentazione del messaggio
cambia. Si vuole qui delineare quali sono i limiti stabiliti dalla teoria dell'informazione alla rappresentazione del
segnale, limiti entro i quali si collocano i differenti criteri di rappresentazione, gli algoritmi di codifica, gli standard
internazionali operativamente piu diffusi.
Richiameremo pertanto alcuni risultati2.1 della teoria dell'informazione che caratterizzano la sorgente di informazione, per
• valutare, almeno in linea teorica, la rappresentazione piu parsimoniosa che ne puo essere data;
• capire se la rappresentazione rappresenta la sorgente perfettamente o solo in modo approssimato;
• misurare quantitativamente la distorsione introdotta in quest'ultimo caso.
Gli strumenti utilizzati differiranno in funzione della natura della sorgente considerata. Per procedere, operiamo
una classificazione delle sorgenti in base alla modalita con cui essa emette informazione. La sorgente di informazione
puo essere
• discreta, cioe emettere simboli estratti da un alfabeto di dimensione finita,
• analogica, cioe emettere segnali tipicamente definiti su un dominio continuo e a valori in un dominio anch'esso
continuo.
2.1 Le
dimostrazioni dei risultati sono omesse in questa trattazione; il lettore interessato le puo trovare nei libri consigliati in bibliografia.
3
4
CAPITOLO 2. RICHIAMI DI TEORIA DELL'INFORMAZIONE:
2.1
LA CODIFICA DI SORGENTE
Sorgente discreta
La sorgente discreta puo emettere simboli indipendenti o meno. Consideriamo inizialmente il caso che i simboli
siano statisticamente indipendenti, ovvero che la sorgente sia senza memoria, e successivamente il caso di simboli
statisticamente dipendenti; tratteremo entrambi i casi limitatamente all'ipotesi che la sorgente sia stazionaria.
2.1.1
Sorgente discreta senza memoria, o Discrete Memoryless source, DMS
La sorgente discreta senza memoria emette simboli xn indipendedenti e identicamente distribuiti (i.i.d) estratti
da un alfabeto A di dimensione finita L ed e pertanto completamente caratterizzata dalla misura di probabilita
pi , i = 0, · · · , L − 1 attribuita agli L simboli dell'alfabeto. Supponiamo di misurare
l'informazione convogliata dalla
1 2.2
estrazione del simbolo i-esimo (anche detta autoinformazione) come Ii = log2
. L'informazione emessa dalla
pi
sorgente puo quindi misurarsi come informazione media per simbolo emesso o entropia:
H(X) =
L−1
X
i=0
pi log2
1
pi
L'entropia della sorgente si riflette nel numero di cifre necessarie a caratterizzare i simboli emessi.
Codifica simbolo per simbolo
Supponiamo di rappresentare i simboli di sorgente mediante L parole di codice binario di lughezza variabile ni ,
che verifichino la condizione, detta regola del prefisso, che nessuna parola di codice sia l'inizio di un'altra parola di
codice; cio assicura che il codice sia immediatamente decodificabile2.3. Sotto queste condizioni, esiste un codice che
PL−1
consente di rappresentare i simboli emessi dalla sorgente con un numero medio di bit per simbolo n = i=0 pini
che soddisfi la seguente disuguaglianza:
H(X) ≤ n < H(x) + 1
Un algoritmo di codifica simbolo per simbolo ottimo - nel senso che consegue il minimo numero di bit - e soddisfa
la regola del prefisso e stato definito da Huffman nel 1952; tale algoritmo richiede la conoscenza della funzione di
probabilita dell'alfabeto di sorgente.
Codifica a blocchi
Supponiamo ora di codificare i simboli emessi non singolarmente, ma raggruppandoli in blocchi di J simboli
consecutivi. Possiamo interpretare tali blocchi come emessi da una sorgente discreta senza memoria con alfabeto di
(J )
dimensione LJ e di entropia H(X (J ) ), per la quale e possibile trovare un codice con lunghezza di parola ni
soddisfa il vincolo H(X
(J )
)≤n
(J )
< H(X
(J )
che
) + 1. A questo punto, osserviamo che, dal momento che l'entropia
e additiva su eventi indipendenti, risulta H(X (J ) ) = JH(X). Allora, il numero medio di bit per simbolo utilizzati
per rappresentare la sorgente originaria, ovvero n(J ) /J, soddisfa la seguente disuguaglianza:
H(X) ≤
2.2 La
n(J )
< H(X) + 1/J
J
misura logaritmica ha la caratteristica di risultare additiva su eventi indipendenti, e la scelta della base 2 consente di assegnare una misura
unitaria (1 bit) a una estrazione binaria di simboli equiprobabili.
2.3 Condizione necessaria a sufficiente affinche esista un codice binario che soddisfi la regola del prefisso e che le lunghezze delle parole
PL−1 −n
i ≤ 1
soddisfino la disuguaglianza detta di Kraft:
i=0 2
2.1. SORGENTE DISCRETA
5
Otteniamo cosi' l'interessante risultato che in generale conviene accorpare in blocchi i simboli di sorgente e codificarli
congiuntamente, anche quando essi siano statisticamente indipendenti.
2.1.2
Sorgente discreta con memoria
La sorgente discreta senza memoria emette simboli xn statisticamente dipendedenti; assumiamo che essa sia stazionaria, ovvero che, comunque estratto un insieme finito di simboli, la funzione di probabilita congiunta che li caratterizza
dipenda unicamente dall'allocazione relativa degli indici di estrazione. Nel caratterizzare l'informazione emessa dalla
sorgente all'atto dell'estrazione di un simbolo, dobbiamo tener conto non della dipendenza relativa fra simboli emessi.
A questo fine, possiamo considerare caratterizzanti due quantita: la prima,
1
H(X1 , · · · , XK−1)
K
rappresenta l'informazione media per simbolo valutata su un blocco di lunghezza K; la seconda
H(XK |, XK−1 · · · , X1)
rappresenta l'entropia della variabile aleatoria estratta all'indice k-esimo condizionata ai simboli gia emessi. E'
possibile dimostrare che, al tendere di K all'infinito, le due quantita tendono allo stesso valore H∞ (X). Tale valore
e assunto come misura dell'entropia di una sorgente a simboli dipendenti:
1
def
H(X) = H∞ (X) = lim
H(X1 , · · · , XK ) = lim H(XK |, XK−1 · · · , X1 )
k⇒∞ K
k⇒∞
Codifica a blocchi
Per valutare il costo della rappresentazione codificata dei simboli emessi da una sorgente stazionaria, supponiamo
ancora di codificare i simboli emessi non singolarmente, ma raggruppandoli in blocchi di K simboli consecutivi, e
codificandoli con un codice a lunghezza variabile che soddisfi la regola del prefisso ricavato mediante algoritmo di
(K)
Huffmann. Il codice e caratterizzato da una lunghezza di parola ni
che per l'ottimalita del codice di Huffmann
soddisfa il vincolo
H(X1 , · · · , XK ) ≤ n(K) < H(X1 , · · · , XK ) + 1
ovvero, dividendo ambo i membri per K,
1
n(K)
1
1
H(X1 , · · · , XK ) ≤
< H(X1 , · · · , XK ) +
K
K
K
K
All'aumentare della lunghezza del blocco K e possibile ottenere un codice che caratterizzato da un numero medio
di bit per simbolo n = n(K) /K che approssima arbitrariamente l'entropia della sorgente:
H∞ (X) ≤ n < H∞ (X) + o(K)
L'informazione emessa da una sorgente con memori puo pertanto essere efficientemente rappresentata raggruppando
i simboli di sorgente e codificandoli congiuntamente.
In sintesi, osserviamo che l'informazione media associata alla emissione di un simbolo da parte di una sorgente
discreta e misurata ricorrendo al concetto di entropia, che riflette direttamente l'aleatorieta intrinseca nel comportamento della sorgente. Il numero di bit necessario per rappresentare senza ambiguita il simbolo emesso non puo
scendere al di sotto di tale entropia. Infine, la collezione di simboli consecutivi ai fini di una codifica congiunta
consente di trovare codici piu efficienti, al costo di un aumento della complessita modellistica -e infatti necessario
caratterizzare probabilisticamente la sorgente congiunta- e computazionale.
6
CAPITOLO 2. RICHIAMI DI TEORIA DELL'INFORMAZIONE:
2.2
LA CODIFICA DI SORGENTE
Sorgente analogica
Consideriamo ora il caso che la sorgente emetta segnali definiti in un dominio e codominio continui, e supponiamo
che essi siano caratterizzabili come segnali deterministici. Il Teorema del Campionamento2.4 per segnali determnistici
assicura che se i segnali emessi dalla sorgente sono limitati in banda [−w, w] essi sono perfettamente ricostruibili a
partire dalla conoscenza dei loro campioni estratti a passo di campionamento Tc ≤ 1/2w, ovvero
x(t) =
1
x(nTc )sinc π (t − nTc )
Tc
n=−∞
+∞
X
Supponiamo ora che i segnali emessi siano caratterizzabili come realizzazioni di un processo aleatorio stazionario ed
ergodico. Il teorema del campionamento per processi stocastici assicura che se e limitato in banda il processo da cui
sono estratti, cioe e limitata in banda la funzione di autocorrelazione del processo
1
T →∞ T
Rx (τ ) = lim
Z
T /2
x(t)x(t + τ )dt
−T /2
ovvero lo spettro di densita di potenza del processo Px (f) = F{Rx(τ )} e nullo al di fuori della banda [−w, w],
allora essi sono ricostruibili con un errore quadratico medio pari a zero, ovvero
"

#2 
+∞

X
1
E
x(t) −
=0
x(nTc )sinc π (t − nTc )


Tc
n=−∞
Nei limiti di applicabilita del Teorema del Campionamento la discretizzazione del dominio del segnale pertanto non
comporta perdita di informazione.
Per cio che concerne invece la discretizzazione del codominio, osserviamo che ciascun campione rappresenta
un'istanza di una variabile aleatoria analogica X, e la sua rappresentazione in un codominio discreto X̃ = Q(x) e
irreversibile. Pertanto, il problema della rappresentazione dei campioni dei segnali emessi dalla sorgente richiede l'analisi del costo di rappresentazione della X̃ congiuntamente alla valutazione dell'errore introdotto, misurato mediante
una opportuna funzione di distorsione d(X, X̃). La teoria dell'informazione consente di valutare tali aspetti mediante
il concetto di Rate-Distortion function R(D), che indica il minimo numero di bit di informazione necessari per rappresentare la variabile aleatoria X con una distorsione media inferiore o al piu uguale a D, ovvero E {d(x, x̃)} ≤ D. Per
introdurne formalmente la definizione, introduciamo innanzitutto la nozione di entropia differenziale di una variabile
aleatoria continua:
H(X) =
Z
+∞
pX (x) log2
−∞
1
pX (x)
dx
e la nozione di entropia condizionata della variabile aleatoria X alla variabile aleatoria Y:
H(X|Y ) =
Z
+∞
−∞
Z
+∞
pX|Y (x|y) log2
−∞
1
pX|Y (x|y)
dx pY (y)dy
Osserviamo che, a differenza del concetto di entropia di una variabile aleatoria discreta, l'entropia differenziale di
una variabile aleatoria continua non ha l'immediato significato di numero di bit necessari a rappresentarla. Tuttavia
2.4 Per
segnali impulsivi la dimostrazione e data nel dominio di Fourier, per segnali non Fourier-trasformabili la dimostrazione sfrutta il teorema
del campionamento applicato alla funzione sinc, pre i processi la dimostrazione sfrutta il teorema del campionamento applicato alla funzione sinc
e alla funzione di autocorrelazione.
2.2. SORGENTE ANALOGICA
7
le definizioni sopra esposte ci consentono di quantificare la riduzione di incertezza sulla variabile aleatoria X quando
si osserva la variabile aleatoria Y. Tale quantita, detta informazione mutua media fra X e Y, e definita come
I(X, Y ) = H(X) − H(X|Y )
ed e anche uguale alla riduzione di incertezza sulla variabile aleatoria Y quando si osserva la variabile aleatoria X,
ovvero I(X, Y ) = H(X) − H(X|Y ).
Con tali premesse, nel contesto della Teoria dell'informazione, la Rate distortion function si definisce come la
minima informazione mutua media fra X e la sua rappresentazione X̃ = Q(X), sotto il vincolo che la distorsione
media sia inferiore o al piu uguale a D, ovvero
def
R(D) =
min
I(X, X̃)
Q, E{d(x,x̃)}≤D
=
min
H(X) − H(X|X̃)
Q, E{d(x,x̃)}≤D
=
min
H(X̃) − H(X̃|X)
Q, E{d(x,x̃)}≤D
Tale definizione ha carattere generale, e la H(X) assume il significato di entropia nel caso di variabile aleatoria X
discreta e di entropia differenziale nel caso di variabile aleatoria X continua. La funzione R(D) gode di interessanti
proprieta:
• e sempre positiva
• e non crescente
• e convessa
• ha pendenza continua.
Per funzione di distorsione quadratica d(x, x̃) = (x − x̃)2 , si puo dimostrare che un limite superiore alla funzione
R(D) di una variabile alatoria di varianza σx2 e costituito dalla R(D) dela variabile aleatoria Gaussiana, per la quale
si ha
2


 1 log2 σx
D ≤ σx2
D
Rg (D) = 2


0
D > σx2
Inoltre, un limite inferiore alla Rate-Distortion function di una variabile aleatoria di entropia (differenziale) H(X)e
costituito dal cosiddetto Shannon Lower Bound, che corrisponde al caso di massima incertezza residua su X una
volta osservata X̃ sotto il vincolo di una distorsione D:
R ∗ (D) = H(X) −
1
log2 (2πeD)
2
Lo studio puo essere esteso al caso di N v.a. Gaussiane di varianza σn2 , n = 0, . . .N − 1. Supponiamo, in prima
analisi, che esse siano statisticamente indipendenti. In tal caso, si puo dimostrare che la R(D) congiunta assume la
forma:
2 σn
1
Rg (θ) =
max 0, log2
2
θ
n=0
N
−1
X
Dg (θ) =
N
−1
X
n=0
min σn2 , θ)
8
CAPITOLO 2. RICHIAMI DI TEORIA DELL'INFORMAZIONE:
LA CODIFICA DI SORGENTE
La formulazione della R(D) esprime una sorta di reverse water-filling: fintanto che la distorsione media e al di sotto
della minima fra le N varianze, la soluzione ottima conduce ad introdurre la stessa distorsione θ = D/N su tutte
σn2
1
;
le variabili aleatorie codificandole ciascuna indipendentemente con un corrispondente numero di bit log2
2
θ
osserviamo che cio corrisponde ad una diversa ripartizione dei bit allocati alle diverse variabili, che dipendono
logaritmicamente da σn2 . Quando la distorsione media raggiunge il livello della minima varianza, la variabile aleatoria
corrispondente non viene piu codificata e subisce una distorsione pari alla sua varianza. Al crescere della distorsione,
la soluzione ottima conduce ad azzerare i bit allocati alle variabili di varianza piu, il cui contributo alla distorsione
totale risulta quindi pari alla loro varianza. E' interessante osservare che, a parita di somma delle varianze, la
situazione piu sfavorevole - piu costosa a parita di distorsione introdotta- e costituita dal caso di variabili aleatorie
di uguale varianza. Diversamente, il caso di variabili di varianze sbilanciate e conveniente nel senso che consente di
sbilanciare il costo di rappresentazione a favore di alcune variabii tralasciando completamente altre.
Nel caso di N v.a. Gaussiane statisticamente dipendenti caratterizzate da una matrice di covarianza Kx , la R(D)
assume la forma
2 λn
1
max 0, log2
2
θ
n=0
Rg (θ) =
N
−1
X
Dg (θ) =
N
−1
X
min λ2n , θ)
n=0
dove i termini λn rappresentano gli autovalori della matrice di covarianza Kx . La formula puo essere interpretata
osservando che per un insieme di N v.a. Gaussiane correlate la rappresentazione ottima consiste nell'operare una
trasformazione, e piu precisamente una opportuna rotazione2.5 della base di rappresentazione delle variabili aleatorie,
e assegnare i bit alle nuove componenti secondo il criterio di reverse water filling sopra esposto, eventualmente
scartando completamente le variabili aleatorie di varianza piu piccola per rappresentare con maggiore accuratezza
quelle di varianza maggiore.
Rate distortion di Processi aleatori Gaussiani
Analoghe argomentazioni possono essere applicate a processi aleatori Gaussiani. Infatti, per il Teorema di Rappresentazione spettrale, un processo aleatorio stazionario Gaussiano a valor medio nullo e di densita spettrale di
potenza Px (ejω ) puo essere rappresentato come sovrapposizione di processi Gausssiani indipendenti nelle diverse
bande di frequenza, e si ha
Px (ejω )
1
Rg (θ) = max 0, log2
dω
2
θ
Z
Dg (θ) = min Px (ejω ), θ dω
Z
Per campi aleatori bidimensionali Gaussiani infine si ha
Z Z
Px (ejω1 , ejω2 )
1
Rg (θ) =
max 0, log2
dω1dω2
2
θ
Z Z
Dg (θ) =
min Px (ejω1 , ejω2 ), θ dω1 dω2
2.5 La
rotazione e tale da eleggere come nuovi vettori della base gli autovettori della matrice di correlazione, e conduce a variabili alatorie
incorrelate (indipendenti) di varianza data dagli autovalori della matrice stessa.
2.3. QUANTIZZAZIONE SCALARE OTTIMA: IL QUANTIZZATORE DI LLOYD-MAX
9
Rate Distortion function: esempio di calcolo
Figura 2.1: Calcolo della rate distortion di 4 variabili Gaussiane indipendenti di assegnata varianza.
2.3
Quantizzazione scalare ottima: il quantizzatore di Lloyd-Max
La quantizzazione dei valori di ampiezza del segnale introduce una distorsione media che dipende non solo dal numero
di bit per campione ma anche dalla modalita di assegnazione del valore di ampiezza ai livelli discreti ammissibili,
ovvero alla scelta degli intervalli di quantizzazione del segnale.
Supponiamo che la distorsione sia misurata da una funzione quadratica, e che ciascun campione sia rappresentato
da b = log2 L bits. Siano qk , k = 0, · · ·L − 1 i valori di ampiezza assumibili dalla variabile quantizzata x̃ e θk , k =
0, · · · L gli estremi dei corrispondenti L intervalli di decisione del quantizzatore. Il quantizzatore ottimo secondo il
criterio dell'errore quadratico medio, cioe quello per cui e minima la distorsione quadratica D = E (x − x̃)2 e
individuato dalla soluzione congiunta, rispetto alle incognite θk e qk , delle equazioni2.6

 θk+1 = (qk + qk+1)/2

(2.3.1)
qk = E {x|θk ≤ x ≤ θk+1 }
dove
E {x|θk ≤ x ≤ θk+1 } =
R θk+1
x · pX (x)dx
R θk+1
pX (ξ)dξ
θk
θk
Tale quantizzatore prende il nome di quantizatore di Lloyd-Max.
A titolo di esempio consideriamo il caso che la variabile d'aleatoria di ingresso sia uniforme nell'intervallo
[−A, A] e che sia quantizzata a L = 2b livelli mediante quantizzazione uniforme. In tal caso la distorsione quadratica
misurata e
D=
2.6 Infatti,
la distorsione puo essere scritta come D =
(2A/2b)2
A2 −2b
=
2
12
3
P L−1 R θk+1
k=0
θk
(x−qk )2 px (x) . Derivando tale espressione rispetto a θk e qk e uguagliando
a zero tali derivate, i.e. ∂D/∂θk = 0, ∂D/∂qk = 0, k = 0, · · · L − 1, si ricavano le espressioni sopra riportate.
10
CAPITOLO 2. RICHIAMI DI TEORIA DELL'INFORMAZIONE:
LA CODIFICA DI SORGENTE
e diminuisce di 6 dB per ogni bit per campione aggiuntivo2.7.
Quantizzazione di LLoyd-Max: esempi
Figura 2.2: Calcolo dei valori quantizzati e delle soglie assegnate ad una distribuzione normale a media nulla e varianza
unitaria: L=2, 4.
2.7 La
diminuzione di distorsione di circa 6 dB per bit si osserva anche nella R(D) di una v.a. Gaussiana, in cui D = σ 2 /22R . A titolo
indicativo, la formula \6 dB per bit" puo essere applicata nella grande generalita dei casi.
Bibliografia
[1] J.G. Proakis, \Digital Communications", McGraw-Hill.
[2] A.K. Jain, \Fundamentals of Digital Image Processing", Prentice-Hall International.
11