1 INTRODUZIONE AI PROBLEMI INVERSI

Transcript

1 INTRODUZIONE AI PROBLEMI INVERSI
1 INTRODUZIONE AI PROBLEMI INVERSI
Vedi file aggiuntivo I
Il modello che adotteremo negli sviluppi successivi prevede che il sensore misuri la
temperatura apparente al variare dell’angolo θ di puntamento, con un errore di misurazione
che include anche l’effetto di eventuali sorgenti di brillanza esterne alla atmosfera di cui si
vuole stimare il profilo di temperatura, e le imprecisioni dello strumento1 , ad esempio gli errori
di angolo. Le misure effettuate saranno discrete e in numero finito, e quindi la relazione di
partenza è
TM k =
Z
H
Wk (z) T (z) dz + k
(1)
0
Nella (1):
T (z) profilo di temperatura da ricostruire, limitato all’intervallo (0, H) (e assunto nullo fuori);
TM k temperatura misurata dal sensore, con puntamento θk ;
Wk (z) funzione di trasferimento del problema, pari all’integrando di TDN , esclusa la temperatura, e valutato per θk ;
k rumore della misura k–esima, che supponiamo a media nulla, e con matrice di covarianza
S .
La (1) contiene ovviamente anche un errore di modello. La limitazione a un numero
finito di misure, oltre a essere un problema tecnologico (e di tempo di misure) può servire
anche a ridurre quest’ultimo, o a ridurre la instabilità della soluzione. La (1) vale nell’ipotesi di
atmosfera stratificata, e ogni deviazione da tale ipotesi incrementa l’errore di modello. È facile
immaginare che l’ipotesi di atmosfera stratificata vale tanto meglio al ridursi della estensione
laterale della atmosfera interessata. Al crescere di θ, aumenta tale estensione laterale, e quindi
peggiora l’ipotesi di atmosfera stratificata. Inoltre, per θ prossimo a 90o , la radiazione dalle
zone superiori della atmosfera viene molto attenuata, e quindi risulterà più difficile ricostruirne
la temperatura in maniera affidabile.
Da un punto di vista matematico, l’inversione del modello (1) per ricavare T (z) dalle
TM k presenta un problema di forte instabilità. Si dimostra infatti che i due profili di temperatura
T (z) e T (z) + A sin(hz) producono praticamente la stessa temperatura apparente al sensore,
qualunque sia A (anche molto grande!), a patto di scegliere hH sufficientemente grande (ovvero
profili rapidamente variabili). Il problema di inversione non ha quindi soluzione unica, ed è
1
È però possibile tener conto, ovviamente in modo statistico, di queste imprecisioni nel modello
utilizzato. Più avanti daremo qualche cenno su una tecnica in grado di compensare, almeno
parzialmente, questi errori.
1
pertanto mal–posto. Si può ottenere un problema ben–posto, e quindi risolvibile, se esistono
ulteriori informazioni a priori2 su T (z) che possano essere sfruttate per stabilizzare il problema.
Va inoltre notato che, avendo un numero discreto e finito di dati, le incognite ricostruibili
saranno discrete e in numero finito. Occorrerà quindi eseguire una discretizzazione della incognita
(esplicita o, come vedremo, implicita). Discretizzazione esplicita significa porre
T (z) =
N
X
ap fp (z)
(2)
p=1
in cui le funzioni di base fp (z) sono note, mentre il vettore numerico a è l’incognita del problema.
Le funzioni fp dipendono dalla natura del problema, e dalle eventuali informazioni a priori,
e possono essere impulsi rettangolari, triangolari, o con forme similiari (e allora le ap sono
sostanzialmente dei campioni della T (z)), oppure fuznioni trigonometriche o polinomiali. La
discretizzazione (2) può ridurre la instabilità del problema, escludendo alcune delle soluzioni
non uniche, o addirittura eliminarla. È questo il caso delle elaborazioni SAR, in cui l’uso della
F F T vincola la massima banda (spaziale) della incognita consentendo una inversone stabile.
Sostituendo la (2) nella (1) il modello (1) viene ricondotto a un modello algebrico
TM k =
N
X
p=1
ap
Z
H
Wk (z) fp (z) dz + k =
0
N
X
ap Wkp + k
k = 1...M
(3)
p=1
in cui
Wkp =
Z
H
Wk (z) fp (z) dz
0
è la temperatura apparente di un profilo di temperatura termodinamica pari a fp (z). La (3)
viene normalmente espressa in forma matriciale
TM = W a + (4)
ed è in questa forma che discuteremo il problema della inversione del profilo di temperatura.
2 SOLUZIONE A MINIMA VARIANZA
Il problema di ricostruire il profilo di temperatura può essere formulato come problema
di stima, e risolto con una delle tecniche di stima statistica ottimale. Qui ci occuperemo solo
della stima a minima varianza.
Indichiamo con â la stima della temperatura derivata dalla (4), e con p̂ una stima di a
derivata dalle informazioni a priori disponibili. Ognuna di queste due stime ha una sua matrice
2
L’ipotesi che l’atmosfrea sia stratificata è un caso tipico di informazione a priori. In sua assenza
la temperatura, che ha un andamento bi–dimensionale, non potrebbe essere ricostruita solo da
misure con sensore fisso al variare di θ.
2
di covarianza, rispettivamente S a e S p . In base ai risultati della appendice 1, una stima migliore,
a minima varianza, della temperatura è data da
i
h
−1
S
p̂
(5)
â
+
 = S T · S −1
p
a
essendo
i−1
h
−1
S T = S −1
a + Sp
(6)
â = D TM
(7)
E[â] = D · E[T̂M ] = D · W a + E[] = D W a = a
(8)
la varianza della stima Â.
La stima â può essere ottenuta dalla (4), introducendo una matrice D, definita da
W · D = IM e D · W = IN (matrice identica di ordine M , o N ), che è una pseudo–inversa di W .
Si noti che possono esistere infinite pseudo–inverse, ma vederemo che la stima (6) è indipendente
dalla pseudo–inversa scelta.
La stima che ci interessa è
Per essa risulta
(la stima è quindi senza bias) in quanto il rumore è a media nulla. La matrice di covarianza
della stima è, per definizione ( e ricordando la (8))
S a = E ââT − a aT
ed è una matrice N × N , in quanto â è un vettore colonna, il suo trasposto un vettore riga e
il prodotto è righe per colonne. Sostituendo la (7)
h
i
i
h
h
T i
S a = E D TM D TM
− a aT = E D TM TTM DT − a aT = D E TM TTM D T − a aT
i
h
La matrice E TM TTM si ottiene dalla (4)
i
h
h
T i
= W a aT W T + S E TM TTM = E W a + · W a + i
h i
h
in quanto i termini del tipo E W a T = W a E T sono nulli. Sostituendo
i
h
S a = D W a aT W T + S DT − a aT = D S DT
(9)
Di S a occorre la matrice inversa. Se i vari fattori fossero invertibili, tale matrice sarebbe
W T S −1 W . Nonostante D sia, in generale, rettangolare, possiamo dimostrare che
T
−1
S −1
a = W S W
Infatti
T
T
−1
T
T
T
W T S −1
W · D S D = W S · S D = W · D = IN
Pertanto la (6) diventa
3
i−1
h
−1
S T = W T S −1
W
S
+
p
e la stima (5) vale
i
h
−1
 = S T · W T S −1
W â + S p p̂
h
i
i
h
T
−1
−1
= S T · W T S −1
T̂M + S −1
W D T̂M + S p p̂ = S T · W S p p̂
(10)
(11)
e, come anticipato, è indipendente da D .
Se poniamo TM = (TM − W p̂) + W p̂, e sostituiamo nella (11),si ha
o
h
n
−1
W
W
S
p̂
(T
−
p̂)
+
p̂
+
 = S T · W T S −1
M
p
h
n
o
−1 T
−1
W
S
W
W
S
+
(T
−
p̂)
+
= S T · W T S −1
p̂
M
p
L’ultima matrice in parentesi quadra è l’inversa di S T e segue quindi una espressione di
 come correzione a p̂:
(TM − W p̂)
 = p̂ + S T W T S −1
Il termine correttivo è la differenza tra i dati misurati, e quelli che si sarebbero misurati,
senza rumore, se il profilo fosse stato proprio p̂.
Per quanto riguarda la stima p̂, derivabile dalle informazioni a priori, si possono fare solo
degli esempi. Una prima possibilità è di conoscere un valore “medio” del profilo di temperatura,
che avrà quindi una sua varianza (di stima).
In alternativa (o aggiunta, naturalmente) possiamo considerare vincoli matematici (ulteriori a quelli impliciti nella discretizzazione (2)), come ad esempio
dist(a, a0 ) =
q
(a − a0 )T · (a − a0 ) ≤ α
(12)
essendo a0 un opportuno profilo (costante, o nullo, ad esempio). La (12) implica che le soluzioni
ammissibili siano tutte e soli i vettori inclusi in una (iper–)sfera di raggio α centrata su a0 . In
termini probabilistici a è uniformemente distribuita in tale sfera. Se assumiamo che le componenti di a sono indipendenti
distribuite, segue S p = γIN . Per calcolare la varianza
n e ugualmente
o
γ possiamo notare che Pr dist(a, a0 ) ≤ r, con r ≤ α, è il rapporto tra il volume della sfera di
3
raggio r e quello della sfera di raggio α, pari a r /α3 (mentre, per r > α, la probabilità è uno),
2
che è la distribuzione di probabilità. La pdf della distanza è quindi 3r /α3 , e la varianza totale
vale
Nγ =
Z
0
α
3r 2
r
dr −
α3
2
Z
0
α
3r 2
r 3 dr
α
4
2
2
3 α4
3 α5
3 2
−
α
= 3
=
3
α 5
α 4
80
3 SOLUZIONE AI MINIMI QUADRATI
In molti problemi inversi, la soluzione classica di un sistema lineare non è utilizzabile, in
quanto il numero di righe M e di colonne N può essere diverso, essendo legato a criteri di scelta
diversi (il numero di righe è pari alle misure utilizzabili, quello delle colonne alla discretizzazione
necessaria a rappresentare bene l’incognita). Il numero di misure, in particolare, sarà sempre
il massimo possibile, in modo da utilizzare la relativa ridondanza di informazioni per filtrare il
rumore presente sui dati.
Occorre quindi dare una definizione diversa di soluzione, che generalizzi quella classica.
Quella preferita è la soluzione ai minimi quadrati aLS , definita come la soluzione del problema
di minimo
W · a − TM k2
kW
min!
(13)
Ovviamente, se esiste una soluzione classica, questa annulla l’espressione nella (13), ed
è quindi anche una soluzione ai minimi quadrati. Possiamo quindi dire che la soluzione (13)
generalizza quella standard. Il significato di soluzione ai minimi quadrati risulta chiaro se si
ricorda che, se a fosse il vero valore dell’incognita, A · a sarebbe il vero valore del vettore dei
termini noti, ovvero i veri risultati delle misure. La soluzione ai minimi quadrati minimizza lo
scarto quadratico medio tra le misure effettivamente ottenute, e quelle che si sarebbero dovute
ottenere.
Qualore vi siano più vettori a che minimizzano la (13), la soluzione ai minimi quadrati
è il vettore di norma più piccola tra quelli che minimizzano la (13).
Al pari della soluzione classica, anche la soluzione ai minimi quadrati ha una sensibilità
W ) della matrice, e quindi sarà necesagli errori che dipende dal numero di condizionamento k(W
saria una tecnica di soluzione che consenta di ridurre tale sensibilità. Questo si ottiene tramite
la SVD della matrice W
W = U ·Σ ·VT
(14)
Supponiamo inizialmente che M > N , ovvero che le incognite siano meno delle equazioni. Tale scelta appare ragionevole in quanto è del tutto evidente che non è possibile estrarre
più informazioni indipendenti dei dati indipendenti a disposizione, e nessuno ci assicura (al
momento) che tutte le misure che facciamo siano effettivamente indipendenti.
In ogni caso il vettore a può essere sempre decomposto nella base costituita dalle colonne
di V
a=
N
X
cm vm
(15)
m=1
e, allo stesso modo, il vettore TM può essere espanso nella base delle colonne di U
TM =
M
X
bn un
(16)
n=1
Sfruttando l’ortogonalità degli un si trova che bn = uTn · TM
Per determinare i coefficienti cm calcoliamo W ·a e sostituiamolo, insieme alla (16), nella
(13).
5
W ·a=
N
X
cm W · vm =
cm σm um
(17)
m=1
m=1
da cui
N
X
N
2
M
X
X
W · a − TM k2 = kW
cm σm um −
bn un m=1
(18)
n=1
Possiamo riarrangiare la (18), ricordando che M > N , come
N
M
X
X
[cm σm − bm ] um −
m=1
n=N +1
2
N
M
X
X
2
[cm σm − bm ] +
bn u n =
m=1
b2n
(19)
n=N +1
sempre per la ortogonalità degli un .
Si vede immediatamente che il minimo della (19) si ottiene scegliendo
cm =
1
1
bm =
uT · TM
σm
σm n
(20)
e vale
ρLS =
M
X
b2n
n=N +1
La soluzione ai minimi quadrati risulta dunque
aLS =
e la sua norma vale
2
kaLS k =
N
X
uTm · TM
vm
σ
m
m=1
N
X
m=1
uTm · TM
2
σm
2
=
N
X
b2m
2
σm
m=1
(21)
(22)
La sua sensibilità agli errori è ancora pari al numero di condizionamento. Infatti un
errore sui dati ∆TM produce un errore sulla soluzione pari a
∆aLS =
la cui norma vale
2
k∆aLS k =
N
X
m=1
uTm · ∆TM
2
σm
N
X
uTm · ∆TM
vm
σ
m
m=1
2
≤
N
2
k∆TM k2
1 X T
≤
u
·
∆T
M
m
2
2
σN
σN
m=1
(23)
(24)
W · ak ≤ kW
W k kak = σ1 kak, moltiplicando per la (24) e
Ricordando che kTM k = kW
riordinando si ottiene
6
k∆aLS k
σ1 k∆TM k
k∆TM k
W)
≤
= k(W
kak
σN kTM k
kTM k
(25)
Per ridurre la sensibilità agli errori è possibile utilizzare una versione troncata della (21)
R
X
uTm · TM
vm
aR =
σm
m=1
(26)
dove R < N è scelto oportunamente. Il numero di condizionamento di tale soluzione vale
σ1
W)
< k(W
σR
(27)
W · a − TM k2 aumenta e ora vale (confronta la (19))
ma naturalmente il residuo kW
W · aR − TM k2 =
ρR = kW
M
X
b2m =
N
X
b2m +
b2m = ρLS +
m=N +1
m=R+1
m=R+1
M
X
N
X
b2m
m=R+1
2
2
≤ σR+1
. Possiamo allora moltiplicare i termini
Essendo R + 1 ≤ m risulterà σm
2
2
σ
dell’ultima sommatoria per R+1/σm , maggiorandone il valore, e ottenendo
N
X
2
W · aR − TM k2 ≤ ρLS + σR+1
kW
m=R+1
b2m
2
≤ ρLS + σR+1
kaLS k2
2
σm
(28)
valore singolare normalizzato
valore singolare normalizzato
La soluzione (26) viene in genere detta soluzione a componenti principali, in quanto il
vettore soluzione a è espanso utilizzando solo le prime R colonne di V, che possiamo considerare
come quelle principali.
La soluzione (26) contiene anche una altra informazione. Il valore della soluzione a
dipende solo da R informazioni estratte dal vettore dei dati misurati TM . Possiamo quindi dire
che solo R misure sono indipendenti, ovvero che il set di misure ha solo R gradi di libertà. Di
conseguenza anche x ha R gradi di libertà, e quindi le altre N − R informazioni contenute dentro
a sono in realtà ottenute per interpolazione a partire dalle R informazioni effetive.
1
0.8
0.6
0.4
0.2
0
1
6
12
18
indice del valore singolare
24
1
0.8
0.6
0.4
0.2
0
1
6
12
18
indice del valore singolare
24
Fig. 1: Andamenti tipici di valori singolari: a gradino (sin.) e variabile con continuità (des.)
7
Il valore ottimale di R viene fuori da un trade–off tra il condizionamento della soluzione
(27) (che si riduce con R) e la sua accuratezza (28) (che, viceversa, cresce con R). Questo
trade–off dipende poi dall’andamento dei σn . Come noto, i valori singolari sono decrescenti, ma
l’andamento può essere molto diverso. In Fig. 1 sono riportati due andamenti tipici dei valori
singolari. Nel caso di andamento a gradino, come quello a sinistra in Fig. 1 , il valore di R
da scegliere è quello corrispondente all’inizio del gradino (punto A della curva). Infatti, in tal
caso, aumentare R, ovvero passare da A a C, incrementa molto il numero di condizionamento
senza miglioramenti significativi sulla accuratezza. Viceversa, ridurre R, passando da A a B,
peggiora molto l’accuratezza (σR+1 passa da C ad A) senza miglioramenti veri nel numero di
condizionamento.
Se invece l’andamento dei valori singolari è più regolare (come a destra in Fig. 1), la
scelta di R è evidentemente più critica, e va necessariamente legata anche agli errori effettivamente presenti su W e TM .
La soluzione a componenti principali aR può essere considerata come appartenente ad
una famiglia di soluzioni date da
N
X
uTm · TM
vm fm
af =
σm
m=1
(29)
dove gli fm sono detti fattori di filtro e, per la soluzione aR valgono
fm =
(
1 m = 1, R;
0 m = R + 1, N.
Questi fattori di filtro sono evidentemente adatti al caso in cui i valori singolari hanno
un andamento a gradino. Invece, se i σn hanno un andamento più dolce, conviene scegliere
anche i fattori di filtro con un andamento più regolare. Una possibile scelta (Tikhonov) è
fm =
σm
σm + γ
(30)
dove γ va scelto in base agli errori sui dati. Per m piccolo i fattori di filtro sono prossimi a
1, e quindi sostanzialmente coincidono con quelli relativi a aR . Al crescere di m tendono poi
gradualmente a 0, in modo da includere tutte le colonne di V, ma con una ampiezza decrescente.
Finora abbiamo considerato il caso di M > N , ma (avendo ben chiaro in mente che il
vettore soluzione a non è costituito solo da elementi indipendenti) è possibile, e spesso utile,
scegliere N ≥ M . Per M = N tutti i discorsi precedenti sono validi. Solo nel secondo membro
della (19) mancherà il secondo termine.
Se invece M < N vi sono diversi cambiamenti. La prima differenza si ha nella (17).
Infatti ora per m > M si ha W · vm = 0 e quindi la (17) va sostituita da
W ·a=
N
X
m=1
cm W · vm =
M
X
cm σm um +
m=1
N
X
m=M +1
cm · 0 =
M
X
cm σm um
(31)
m=1
Nella (19), quindi, sono coinvolti solo i primi M coefficienti cm . La soluzione ai minimi
quadrati sarà allora
8
cm
 1

uTn · TM
= σm

qualunque
m = 1, M
(32)
m = M + 1, N
che sostituisce la (20). Vi sono quindi infinite soluzioni ai minimi quadrati, e tutte forniscono
residuo nullo. In base alla richiesta che aLS debba essere quello di norma minima, allora occorre
scegliere
cm = 0
m = M + 1, N
In tal modo si eliminano da a tutte le componenti ad alta frequenza (m elevato), che
sono quelle che vengono filtrate da W .
La soluzione a componenti principali resta uguali, e cosı̀ quella coi fattori di filtro, in
cui però la somma va terminata ad M .
Per concludere il discorso vogliamo notare che la soluzione ai minimi quadrati (13) può
anche essere espressa nel seguente modo: determinare un vettore TM o tale che
kTM − TM o k2
s.a. W · a = TM o
min!
(33)
in cui il vincolo (introdotto da ”s.a.”) richiede che esista una a tale che W · a = TM o , ovvero
che TM o sia nel range di W .
Questa forma, del tutto equivalente alla (13), mostra che la soluzione ai minimi quadrati
cerca di modificare TM , ovvero le misure, in modo che il vettore modificato TM o sia il più vicino
possibile a TM , ma sia anche un vettore di misure ottenibili. Ricordiamo infatti che l’insieme
di tutti i vettori W · a al variare di a è l’insieme di tuti i vettori di misura ammissibili.
In generale, a causa degli errori di misura, il vettore misurato TM non sarà ammissibile.
Cercare il vettore ammissibile più vicino a TM equivale a filtrare il rumore sui dati.
Nel nostro caso, comunque, anche W è affetta da errore, e quindi la soluzione ai minimi
quadrati (33) non è necessariamente la più efficace. Una strategia alternativa, e più efficace, è
quella di cercare di modificare non solo TM ma anche W , ovvero di filtrare il rumore da entrambi.
Ciò equivale a cercare Ao e TM o (total least square solution, TLS) tali che
W − W o k2 + kTM − TM o k2
kW
min!
s.a. W o · a = TM o
(34)
La soluzione TLS può ancora essere ottenuta mediante la SVD.
4 METODO DI BACKUS–GILBERT
Il metodo di Backus–Gilbert si basa su di un approccio diverso alla inversione di problemi descritti da equazioni come la (1). In particolare, anzichè determinare tutto il profilo di
temperatura, come i metodi descritti precedentemente, il metodo di Backus–Gilbert determina
campioni “singoli” della temperatura. Può quindi ricostruire profili con punti fitti a piacere, o
con densità diversa nelle varie zone, o addirittura solo in alcune zone, in maniera indipendente
9
dalla vera variabilità del profilo. Naturalmente, come vedremo, la risoluzione ottenibile dipende
ancora dai dati del problema, ma la ricostruzione ne è indipendente1 .
Cominciamo ad occuparci del problema di inversione in assenza di rumore, descritto
quindi dalla
TM k =
Z
H
Wk (z) T (z) dz
(35)
0
La stima T̂ (z0 ) della temperatura in un punto z0 dipende evidentemente solo dalle M
misure di temperatura TM k , e vi dipende in maniera lineare. Possiamo quindi porre
T̂ (z0 ) =
M
X
TM k ak (z0 )
(36)
k=1
dove gli ak (z0 ) sono degli opportuni coefficienti, da determinare, e che ovviamente dipenderanno
dal punto z0 in cui si vuole la stima. Si noti che, nonostante la strategia sia diversa, la (36) mostra
che anche il metodo di Backus–Gilbert può essere formulato a partire da una discretizzazione
(2). Solo che in questo caso i coefficienti sono noti, mentre vanno determinate le funzioni di
base.
Sostutiendo (35) in (36) segue
T̂ (z0 ) =
M
X
ak (z0 )
k=1
con
Z
H
Wk (z) T (z) dz =
0
A(z, z0 ) =
M
X
Z
H
A(z, z0 ) T (z) dz
(37)
0
ak (z0 ) Wk (z)
(38)
k=1
La (37) mostra che T̂ (z0 ) è una media pesata dei valori del profilo vero T (z), con peso
dato dalla funzione A(z, z0 ). Ci si aspetta che A(z, z0 ) abbia un picco, ragionevolmente elevato,
in z = z0 , e la sua larghezza evidentemente determinerà la risoluzione con cui si è ottenuta
la stima T̂ (z0 ). La funzione peso A(z, z0 ) deve inoltre soddisfare a un vincolo di coerenza. Se
il profilo di temperatura fosse costante, la stima dovrebbe essere pari a tale valore costante
(Assenza di bias). Questo richiede che
Z
H
A(z, z0 ) dz =
0
M
X
k=1
ak (z0 )
Z
H
Wk (z)dz = 1
∀z0
(39)
0
La larghezza della funzione peso viene misurata dallo spread di tale funzione, dato da2
1
Usando opportune disrcetizzazioni (2), anche gli altri metodi descritti sono in grado di avere
valori di temperatura distribuiti in maniera non uniforme, ma sempre in dipendenza dalla
variabilità del profilo di temperatura. E, in ogni caso, occorre sempre ricostruire tutto il
profilo.
2
Lo spread è costruito per analogia: se A2 (z0 , z) fosse la pdf di una V.A., lo spread ne sarebbe,
a meno di una costante, la varianza.
10
Z
S(z0 ) = 12
H
(z − z0 )2 A2 (z, z0 ) dz
(40)
0
Sostituendo (38) in (40) segue
S(z0 ) = 12
Z
"
H
(z − z0 )2
0
=
M
X
ak (z0 )
M
X
h=1
k=1
"
M
X
# "
ak (z0 ) Wk (z)
k=1
12
Z
H
M
X
#
ah (z0 ) Wh (z) dz
h=1
#
2
(z − z0 ) Wk (z)Wh (z) dz ah (z0 )
0
Possiamo introdurre il vettore colonna a, contenente i ccoefficienti ak (z0 ), e la matrice
S , definita da
Skh = 12
H
Z
(z − z0 )2 Wk (z)Wh (z) dz
0
simmetrica e dipendente da z0 , e scrivere lo spread come
S(z0 ) =
M
X
ak (z0 )
M
X
Skh ah (z0 ) = aT S a
(41)
h=1
k=1
Il vettore dei coefficienti che forniscono la stima (36) si ottengono minimizzando lo
spread rispetto agli elementi di a, col vincolo (39), che diventa
T
a U=1
con
Uk =
Z
H
Wk (z)dz
(42)
0
Il problema di minimo della (41), col vincolo (42), puó essere risolto usando un opportuno moltiplicatore di Lagrange3 λ, e minimizzando (senza vincoli)
aT S a + λ aT U
(43)
Calcolando il gradiente della (43) rispetto ad a e ponendolo uguale a zero si ottiene
2S a + λ U = 0
=⇒
a=−
λ −1
S U
2
(44)
Il valore di λ si ottiene imponendo il vincolo (42)
aT U = −
per cui
λ
λ h −1 iT
S U U = − UT S −1 U = 1
2
2
=⇒
−
1
λ
= T −1
2
U S U
(45)
1
S −1 U
(46)
U S −1 U
La matrice S é invertibile, ma la sua inversione é normalmente mal condizionata. Si
noti inoltre che il calcolo di S −1 va fatto per ogni punto z0 .
a=
3
T
Si veda il paragrafo sul rapporto assiale.
11
Il problema puó essere stabilizzato includendo il rumore di misura. In presenza di
rumore la (35) va sostituita dalla (1). Pertanto la stima (36) diventa
T̂ (z0 ) =
M
X
ak (z0 )
k=1
Z
H
Wk (z) T (z) dz +
0
M
X
ak (z0 ) k =
Z
H
A(z, z0 ) T (z) dz + aT (47)
0
k=1
che sostituisce la (37). La stima T̂ (z0 ) quindi diventa una media pesata corrotta da rumore.
Si puó ancira definire uno spread (40), ma minimizzare lo spread puó non migliorare la qualitá
della stima. Va infatti tenuto conto che questa stima (la cui media é la (37)) ha una varianza,
e occorre anche controllare questa varianza per ottenere una buona stima.
La varianza della stima (47) é data da

V = E  T̂ (z0 ) −
Z
H
A(z, z0 ) T (z) dz
0
!2 
=E
aT aT = aT E[ T ] a = aT S a (48)
Conviene allora minimizzare direttamente una opportuna combinazione delle due grandezze spread e varianza4
S + k S ) a = aT R a
S + kV = aT S a + k aT S a = aT (S
con
R = S + k S
(49)
sempre col vincolo (42). Il valore di k, che é un parametro con dimensione, va scelto a seconda
della importanza relativa che si vuole dare a uno spread piccolo rispetto a una varianza piccola. Ovviamente, un valore piccolo di k produrra una soluzione con uno spread (e quindi una
risoluzione) piccola, ma molto corrotta dal rumore. Viceversa, un valore grande di k filtrerá
molto il rumore, ma a spese della risoluzione. La minimizzazione della (49) segue le stesse linee
della (41). Introducendo ancora un moltiplicatore di Lagrange λ occorre minimizzare (senza
vincoli) aT R a + λ aT U, che é del tutto analoga alla (43). La soluzione della (49) (vedi (46))
vale allora
a=
4
1
R−1 U
−1
U R U
T
(50)
In alternativa, si può minimizzare lo spread (o la varianza) con un vincolo sull’altra grandezza,
ma occorre usae due moltiplicatori di Lagrange, con calcoli notevolmente più complessi per
imporre quest’ultimo vinvolo.
12
APPENDICE 1: COMBINAZIONE A MINIMA VARIANZA DI STIME
Supponiamo di avere due stime indipendenti, e senza bias, x1 ed x2 della stessa
grandezza x, e siano σ12 e σ22 le relative varianze. Una stima migliore X si può ottenere usando le due stime, ovviamente tenendo conto che, se le varianze sono diverse, anche la qualità
delle stime lo sarà. pertanto occorrerà pesare di più la stima migliore.
Scegliamo come stima risultante
X = a1 x1 + a2 x2
con il vincolo che la stima sia senza bias, ovvero che la media di X sia anch’essa x. Segue
EX = a1 E[x1 ] + a2 E[x2 ] = a1 x + a2 x
=⇒
a1 + a2 = 1
Per determinare a1 e a2 imponiamo che la varianza di X sia la più piccola possibile.
Possiamo porre xi = x + i , con gli errori di stima i incorrelati e a media nulla. Allora
var[X] = E[(a1 x1 + a2 x2 )2 ] − x2 = a21 E[x21 ] + 2a1 a2 E[x1 x2 ] + a22 E[x22 ] − x2
= a21 (x2 + σ12 ) + 2a1 a2 E[(x + 1 )(x + 2 )] + a22 (x2 + σ22 ) − x2
Ora E[(x + 1 )(x + 2 )] = x2 + x(E[1 ] + E[2 ]) + E[1 ]E[2 ] = x2 per cui, raccogliendo
var[X] = (a1 + a2 )2 x2 + a21 σ12 + a22 σ22 − x2 = a21 σ12 + (1 − a1 )2 σ22
avendo usato il vincolo di assenza di bias nella stima.
La varianza minima si ottiene derivando, e uguagliando a zero la derivata:
2a1 σ12 − 2(1 − a1 )σ22 = 0
=⇒
a1 =
σ22
σ12 + σ22
e a2 =
σ12
σ12 + σ22
Dividendo per σ12 σ22 si ottiene una forma estrapolabile al caso vettoriale
a1 =
[σ12 ]−1
[σ12 ]−1 + [σ22 ]−1
e a2 =
[σ22 ]−1
[σ12 ]−1 + [σ22 ]−1
Il valore della varianza minima è
varmin = a21 σ12 + a22 σ22 =
h
= [σ12 ]−1 +
[σ12 ]−1
{[σ12 ]−1
i−1
[σ22 ]−1
+
2
[σ22 ]−1 }
13
+
[σ22 ]−1
{[σ12 ]−1
+
2
[σ22 ]−1 }
=
1
[σ12 ]−1 + [σ22 ]−1
APPENDICE 2: SENSIBILITÁ DI UN SISTEMA LINEARE
In molti problemi inversi, la grandezza di interesse è la soluzione di un sistema lineare
A·x =b
(51)
in cui, normalmente, sia A , (che è una matrice invertibile), sia b non sono noti esattamente, a
causa di errori di misura, imprecisione dei parametri doello strumento, rumore, semplificazioni
introdotte (rumore di modell) e cosı̀ via.
Pertanto, quello che si ottiene è in realtà un vettore y, soluzione di
A + ∆A
A · x = b + ∆b
(52)
che costituisce una stima del vero valore x. Per valutare la qualità di tale stima, possiamo usare
l’errore relativo
eR =
ky − xk
kxk
(53)
in cui la norma di un vettore kxk è la radice della somma del quadrato dei suoi elementi, e
misura la grandezza del vettore.
Ovviamente eR dipenderà dagli errori relativi su A e b, ma anche dalla struttura della
A
matrice .
Per valutare la (53), consideriamo la famiglia di sistemi lineari
A + ∆A
A · x() = b + ∆b
(54)
Poichè x(0) = x e x(1) = y, possiamo sviluppare in serie di Taylor y
y = x(1) ' x(0) + d(0)
con
d() =
dx
d
e sostituendo nella (53)
eR =
kd(0)k
kxk
La derivata di x si ottiene derivando la (54) rispetto a , e poi ponendo = 0
A · x() + A + ∆A
A · d() = ∆b
∆A
A · x(0) + A · d(0) = ∆b
∆A
Sostituendo si ottiene l’errore relativo
−1
A
A
·
∆b
−
∆A
·
x
eR =
kxk
A · xk ≤ kA
Ak kxk e kx + yk ≤ kxk + kyk , e quindi
Per le proprietà della norma: kA
Ak kxk
| A−1 k k∆bk + k∆A
k∆bk
−1
Ak +
= k A k k∆A
(55)
eR ≤
kxk
kxk
14
Ak kxk. Sostituendo nella (55) e poi mettendo in evidenza k Ak
Ora, dalla (51), kbk ≤ kA
segue
Ak k∆bk
k∆A
k∆bkk Ak
−1
Ak +
+
≤ k A kk Ak
eR ≤ k A k k∆A
kbk
k Ak
kbk
Gli errori relativi sui dati si riflettono su eR tramite il numero di condizionamento della
matrice A
−1
A) = k A−1 kk Ak > 1
k(A
(56)
APPENDICE 3: DECOMPOSIZIONE A VALORI SINGOLARI
Nel paragrafo precedente abbiamo considerato la sensibilità agli errori di un sistema
lineare a matrice quadrata. Per estendere il discorso al caso di un sistema rettangolare, conviene
introdurre la decomposizione a valori singolari, o SV D.
Data una matrice1 A , di dimensioni M × N , la sua decomposizione a valori singolari è
A = U · Σ · VT
(57)
in cui le matrici U (di dimensioni M × M ) e V (di dimensioni N × N ) sono matrici ortogonali,
ovvero la loro inversa coincide con la loro trasposta, mentre Σ è una matrice “diagonale”. Più
precisamente è diagonale se M = N . Altrimenti si ha
h i
 Σd
se M > N
0
Σ=

Σd 0] se M < N
[Σ
con Σd diagonale. Gli elementi di Σ, o di Σd , sono detti valori singolari, e sono reali2 e ordinati
in senso decrescente
σ1 ≥ σ2 ≥ σ3 ≥ . . .
I valori singolari sono in numero pari a min(N, M ), e alcuni possono essere anche uguali
a zero. Se i valori singolari diversi da zero sono in numero pari a R, si dimostra che
σ1
σR
Le colonne delle matrici ortogonali U e V sono tra loro ortonormali, e hanno quindi il
ruolo dei versori. In altri termini, l’insieme delle colonne di una matrice ortogonale costituisce
una base ortonormale dello spazio vettoriale dei vettori numerici. Indicando con
k A k = σ1
A) =
k(A
1
Considereremo qui solo il caso reale, ma, con qualche modifica, il discorso si estende anche al
caso di matrice complessa
2
I valori singolari sono reali anche nel caso di matrice complessa
15
i
h
V = v1 , v2 , . . . , vN
i
h
U = u1 , u2 , . . . , uM
le colonne di queste matrici, che sono detti anche vettori singolari di A , si ha poi
A · ui = σi vi
A · vj = σj uj
sottintendendo che il secondo membro è nullo se manca il corrispondente valore singolare.
Se A è quadrata, e a rango pieno R = N , allora la soluzione di (51) è
x = V · Σ−1 · U T · b
in cui Σ−1 è diagonale, e contiene 1/σi se σi 6= 0, e zero altrimenti.
16
INDICE
1.
2.
3.
4.
App. 1.
App. 2.
App. 3.
INTRODUZIONE AI PROBLEMI INVERSI . . . . .
SOLUZIONE A MINIMA VARIANZA
. . . . . . .
SOLUZIONE AI MINIMI QUADRATI . . . . . . .
METODO DI BACKUS–GILBERT . . . . . . . . .
COMBINAZIONE A MINIMA VARIANZA DI STIME
SENSIBILITÁ DI UN SISTEMA LINEARE . . . . .
DECOMPOSIZIONE A VALORI SINGOLARI . . . .
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 1
. 2
. 4
. 9
13
13
15