1 INTRODUZIONE AI PROBLEMI INVERSI
Transcript
1 INTRODUZIONE AI PROBLEMI INVERSI
1 INTRODUZIONE AI PROBLEMI INVERSI Vedi file aggiuntivo I Il modello che adotteremo negli sviluppi successivi prevede che il sensore misuri la temperatura apparente al variare dell’angolo θ di puntamento, con un errore di misurazione che include anche l’effetto di eventuali sorgenti di brillanza esterne alla atmosfera di cui si vuole stimare il profilo di temperatura, e le imprecisioni dello strumento1 , ad esempio gli errori di angolo. Le misure effettuate saranno discrete e in numero finito, e quindi la relazione di partenza è TM k = Z H Wk (z) T (z) dz + k (1) 0 Nella (1): T (z) profilo di temperatura da ricostruire, limitato all’intervallo (0, H) (e assunto nullo fuori); TM k temperatura misurata dal sensore, con puntamento θk ; Wk (z) funzione di trasferimento del problema, pari all’integrando di TDN , esclusa la temperatura, e valutato per θk ; k rumore della misura k–esima, che supponiamo a media nulla, e con matrice di covarianza S . La (1) contiene ovviamente anche un errore di modello. La limitazione a un numero finito di misure, oltre a essere un problema tecnologico (e di tempo di misure) può servire anche a ridurre quest’ultimo, o a ridurre la instabilità della soluzione. La (1) vale nell’ipotesi di atmosfera stratificata, e ogni deviazione da tale ipotesi incrementa l’errore di modello. È facile immaginare che l’ipotesi di atmosfera stratificata vale tanto meglio al ridursi della estensione laterale della atmosfera interessata. Al crescere di θ, aumenta tale estensione laterale, e quindi peggiora l’ipotesi di atmosfera stratificata. Inoltre, per θ prossimo a 90o , la radiazione dalle zone superiori della atmosfera viene molto attenuata, e quindi risulterà più difficile ricostruirne la temperatura in maniera affidabile. Da un punto di vista matematico, l’inversione del modello (1) per ricavare T (z) dalle TM k presenta un problema di forte instabilità. Si dimostra infatti che i due profili di temperatura T (z) e T (z) + A sin(hz) producono praticamente la stessa temperatura apparente al sensore, qualunque sia A (anche molto grande!), a patto di scegliere hH sufficientemente grande (ovvero profili rapidamente variabili). Il problema di inversione non ha quindi soluzione unica, ed è 1 È però possibile tener conto, ovviamente in modo statistico, di queste imprecisioni nel modello utilizzato. Più avanti daremo qualche cenno su una tecnica in grado di compensare, almeno parzialmente, questi errori. 1 pertanto mal–posto. Si può ottenere un problema ben–posto, e quindi risolvibile, se esistono ulteriori informazioni a priori2 su T (z) che possano essere sfruttate per stabilizzare il problema. Va inoltre notato che, avendo un numero discreto e finito di dati, le incognite ricostruibili saranno discrete e in numero finito. Occorrerà quindi eseguire una discretizzazione della incognita (esplicita o, come vedremo, implicita). Discretizzazione esplicita significa porre T (z) = N X ap fp (z) (2) p=1 in cui le funzioni di base fp (z) sono note, mentre il vettore numerico a è l’incognita del problema. Le funzioni fp dipendono dalla natura del problema, e dalle eventuali informazioni a priori, e possono essere impulsi rettangolari, triangolari, o con forme similiari (e allora le ap sono sostanzialmente dei campioni della T (z)), oppure fuznioni trigonometriche o polinomiali. La discretizzazione (2) può ridurre la instabilità del problema, escludendo alcune delle soluzioni non uniche, o addirittura eliminarla. È questo il caso delle elaborazioni SAR, in cui l’uso della F F T vincola la massima banda (spaziale) della incognita consentendo una inversone stabile. Sostituendo la (2) nella (1) il modello (1) viene ricondotto a un modello algebrico TM k = N X p=1 ap Z H Wk (z) fp (z) dz + k = 0 N X ap Wkp + k k = 1...M (3) p=1 in cui Wkp = Z H Wk (z) fp (z) dz 0 è la temperatura apparente di un profilo di temperatura termodinamica pari a fp (z). La (3) viene normalmente espressa in forma matriciale TM = W a + (4) ed è in questa forma che discuteremo il problema della inversione del profilo di temperatura. 2 SOLUZIONE A MINIMA VARIANZA Il problema di ricostruire il profilo di temperatura può essere formulato come problema di stima, e risolto con una delle tecniche di stima statistica ottimale. Qui ci occuperemo solo della stima a minima varianza. Indichiamo con â la stima della temperatura derivata dalla (4), e con p̂ una stima di a derivata dalle informazioni a priori disponibili. Ognuna di queste due stime ha una sua matrice 2 L’ipotesi che l’atmosfrea sia stratificata è un caso tipico di informazione a priori. In sua assenza la temperatura, che ha un andamento bi–dimensionale, non potrebbe essere ricostruita solo da misure con sensore fisso al variare di θ. 2 di covarianza, rispettivamente S a e S p . In base ai risultati della appendice 1, una stima migliore, a minima varianza, della temperatura è data da i h −1 S p̂ (5) â +  = S T · S −1 p a essendo i−1 h −1 S T = S −1 a + Sp (6) â = D TM (7) E[â] = D · E[T̂M ] = D · W a + E[] = D W a = a (8) la varianza della stima Â. La stima â può essere ottenuta dalla (4), introducendo una matrice D, definita da W · D = IM e D · W = IN (matrice identica di ordine M , o N ), che è una pseudo–inversa di W . Si noti che possono esistere infinite pseudo–inverse, ma vederemo che la stima (6) è indipendente dalla pseudo–inversa scelta. La stima che ci interessa è Per essa risulta (la stima è quindi senza bias) in quanto il rumore è a media nulla. La matrice di covarianza della stima è, per definizione ( e ricordando la (8)) S a = E ââT − a aT ed è una matrice N × N , in quanto â è un vettore colonna, il suo trasposto un vettore riga e il prodotto è righe per colonne. Sostituendo la (7) h i i h h T i S a = E D TM D TM − a aT = E D TM TTM DT − a aT = D E TM TTM D T − a aT i h La matrice E TM TTM si ottiene dalla (4) i h h T i = W a aT W T + S E TM TTM = E W a + · W a + i h i h in quanto i termini del tipo E W a T = W a E T sono nulli. Sostituendo i h S a = D W a aT W T + S DT − a aT = D S DT (9) Di S a occorre la matrice inversa. Se i vari fattori fossero invertibili, tale matrice sarebbe W T S −1 W . Nonostante D sia, in generale, rettangolare, possiamo dimostrare che T −1 S −1 a = W S W Infatti T T −1 T T T W T S −1 W · D S D = W S · S D = W · D = IN Pertanto la (6) diventa 3 i−1 h −1 S T = W T S −1 W S + p e la stima (5) vale i h −1  = S T · W T S −1 W â + S p p̂ h i i h T −1 −1 = S T · W T S −1 T̂M + S −1 W D T̂M + S p p̂ = S T · W S p p̂ (10) (11) e, come anticipato, è indipendente da D . Se poniamo TM = (TM − W p̂) + W p̂, e sostituiamo nella (11),si ha o h n −1 W W S p̂ (T − p̂) + p̂ +  = S T · W T S −1 M p h n o −1 T −1 W S W W S + (T − p̂) + = S T · W T S −1 p̂ M p L’ultima matrice in parentesi quadra è l’inversa di S T e segue quindi una espressione di  come correzione a p̂: (TM − W p̂)  = p̂ + S T W T S −1 Il termine correttivo è la differenza tra i dati misurati, e quelli che si sarebbero misurati, senza rumore, se il profilo fosse stato proprio p̂. Per quanto riguarda la stima p̂, derivabile dalle informazioni a priori, si possono fare solo degli esempi. Una prima possibilità è di conoscere un valore “medio” del profilo di temperatura, che avrà quindi una sua varianza (di stima). In alternativa (o aggiunta, naturalmente) possiamo considerare vincoli matematici (ulteriori a quelli impliciti nella discretizzazione (2)), come ad esempio dist(a, a0 ) = q (a − a0 )T · (a − a0 ) ≤ α (12) essendo a0 un opportuno profilo (costante, o nullo, ad esempio). La (12) implica che le soluzioni ammissibili siano tutte e soli i vettori inclusi in una (iper–)sfera di raggio α centrata su a0 . In termini probabilistici a è uniformemente distribuita in tale sfera. Se assumiamo che le componenti di a sono indipendenti distribuite, segue S p = γIN . Per calcolare la varianza n e ugualmente o γ possiamo notare che Pr dist(a, a0 ) ≤ r, con r ≤ α, è il rapporto tra il volume della sfera di 3 raggio r e quello della sfera di raggio α, pari a r /α3 (mentre, per r > α, la probabilità è uno), 2 che è la distribuzione di probabilità. La pdf della distanza è quindi 3r /α3 , e la varianza totale vale Nγ = Z 0 α 3r 2 r dr − α3 2 Z 0 α 3r 2 r 3 dr α 4 2 2 3 α4 3 α5 3 2 − α = 3 = 3 α 5 α 4 80 3 SOLUZIONE AI MINIMI QUADRATI In molti problemi inversi, la soluzione classica di un sistema lineare non è utilizzabile, in quanto il numero di righe M e di colonne N può essere diverso, essendo legato a criteri di scelta diversi (il numero di righe è pari alle misure utilizzabili, quello delle colonne alla discretizzazione necessaria a rappresentare bene l’incognita). Il numero di misure, in particolare, sarà sempre il massimo possibile, in modo da utilizzare la relativa ridondanza di informazioni per filtrare il rumore presente sui dati. Occorre quindi dare una definizione diversa di soluzione, che generalizzi quella classica. Quella preferita è la soluzione ai minimi quadrati aLS , definita come la soluzione del problema di minimo W · a − TM k2 kW min! (13) Ovviamente, se esiste una soluzione classica, questa annulla l’espressione nella (13), ed è quindi anche una soluzione ai minimi quadrati. Possiamo quindi dire che la soluzione (13) generalizza quella standard. Il significato di soluzione ai minimi quadrati risulta chiaro se si ricorda che, se a fosse il vero valore dell’incognita, A · a sarebbe il vero valore del vettore dei termini noti, ovvero i veri risultati delle misure. La soluzione ai minimi quadrati minimizza lo scarto quadratico medio tra le misure effettivamente ottenute, e quelle che si sarebbero dovute ottenere. Qualore vi siano più vettori a che minimizzano la (13), la soluzione ai minimi quadrati è il vettore di norma più piccola tra quelli che minimizzano la (13). Al pari della soluzione classica, anche la soluzione ai minimi quadrati ha una sensibilità W ) della matrice, e quindi sarà necesagli errori che dipende dal numero di condizionamento k(W saria una tecnica di soluzione che consenta di ridurre tale sensibilità. Questo si ottiene tramite la SVD della matrice W W = U ·Σ ·VT (14) Supponiamo inizialmente che M > N , ovvero che le incognite siano meno delle equazioni. Tale scelta appare ragionevole in quanto è del tutto evidente che non è possibile estrarre più informazioni indipendenti dei dati indipendenti a disposizione, e nessuno ci assicura (al momento) che tutte le misure che facciamo siano effettivamente indipendenti. In ogni caso il vettore a può essere sempre decomposto nella base costituita dalle colonne di V a= N X cm vm (15) m=1 e, allo stesso modo, il vettore TM può essere espanso nella base delle colonne di U TM = M X bn un (16) n=1 Sfruttando l’ortogonalità degli un si trova che bn = uTn · TM Per determinare i coefficienti cm calcoliamo W ·a e sostituiamolo, insieme alla (16), nella (13). 5 W ·a= N X cm W · vm = cm σm um (17) m=1 m=1 da cui N X N 2 M X X W · a − TM k2 = kW cm σm um − bn un m=1 (18) n=1 Possiamo riarrangiare la (18), ricordando che M > N , come N M X X [cm σm − bm ] um − m=1 n=N +1 2 N M X X 2 [cm σm − bm ] + bn u n = m=1 b2n (19) n=N +1 sempre per la ortogonalità degli un . Si vede immediatamente che il minimo della (19) si ottiene scegliendo cm = 1 1 bm = uT · TM σm σm n (20) e vale ρLS = M X b2n n=N +1 La soluzione ai minimi quadrati risulta dunque aLS = e la sua norma vale 2 kaLS k = N X uTm · TM vm σ m m=1 N X m=1 uTm · TM 2 σm 2 = N X b2m 2 σm m=1 (21) (22) La sua sensibilità agli errori è ancora pari al numero di condizionamento. Infatti un errore sui dati ∆TM produce un errore sulla soluzione pari a ∆aLS = la cui norma vale 2 k∆aLS k = N X m=1 uTm · ∆TM 2 σm N X uTm · ∆TM vm σ m m=1 2 ≤ N 2 k∆TM k2 1 X T ≤ u · ∆T M m 2 2 σN σN m=1 (23) (24) W · ak ≤ kW W k kak = σ1 kak, moltiplicando per la (24) e Ricordando che kTM k = kW riordinando si ottiene 6 k∆aLS k σ1 k∆TM k k∆TM k W) ≤ = k(W kak σN kTM k kTM k (25) Per ridurre la sensibilità agli errori è possibile utilizzare una versione troncata della (21) R X uTm · TM vm aR = σm m=1 (26) dove R < N è scelto oportunamente. Il numero di condizionamento di tale soluzione vale σ1 W) < k(W σR (27) W · a − TM k2 aumenta e ora vale (confronta la (19)) ma naturalmente il residuo kW W · aR − TM k2 = ρR = kW M X b2m = N X b2m + b2m = ρLS + m=N +1 m=R+1 m=R+1 M X N X b2m m=R+1 2 2 ≤ σR+1 . Possiamo allora moltiplicare i termini Essendo R + 1 ≤ m risulterà σm 2 2 σ dell’ultima sommatoria per R+1/σm , maggiorandone il valore, e ottenendo N X 2 W · aR − TM k2 ≤ ρLS + σR+1 kW m=R+1 b2m 2 ≤ ρLS + σR+1 kaLS k2 2 σm (28) valore singolare normalizzato valore singolare normalizzato La soluzione (26) viene in genere detta soluzione a componenti principali, in quanto il vettore soluzione a è espanso utilizzando solo le prime R colonne di V, che possiamo considerare come quelle principali. La soluzione (26) contiene anche una altra informazione. Il valore della soluzione a dipende solo da R informazioni estratte dal vettore dei dati misurati TM . Possiamo quindi dire che solo R misure sono indipendenti, ovvero che il set di misure ha solo R gradi di libertà. Di conseguenza anche x ha R gradi di libertà, e quindi le altre N − R informazioni contenute dentro a sono in realtà ottenute per interpolazione a partire dalle R informazioni effetive. 1 0.8 0.6 0.4 0.2 0 1 6 12 18 indice del valore singolare 24 1 0.8 0.6 0.4 0.2 0 1 6 12 18 indice del valore singolare 24 Fig. 1: Andamenti tipici di valori singolari: a gradino (sin.) e variabile con continuità (des.) 7 Il valore ottimale di R viene fuori da un trade–off tra il condizionamento della soluzione (27) (che si riduce con R) e la sua accuratezza (28) (che, viceversa, cresce con R). Questo trade–off dipende poi dall’andamento dei σn . Come noto, i valori singolari sono decrescenti, ma l’andamento può essere molto diverso. In Fig. 1 sono riportati due andamenti tipici dei valori singolari. Nel caso di andamento a gradino, come quello a sinistra in Fig. 1 , il valore di R da scegliere è quello corrispondente all’inizio del gradino (punto A della curva). Infatti, in tal caso, aumentare R, ovvero passare da A a C, incrementa molto il numero di condizionamento senza miglioramenti significativi sulla accuratezza. Viceversa, ridurre R, passando da A a B, peggiora molto l’accuratezza (σR+1 passa da C ad A) senza miglioramenti veri nel numero di condizionamento. Se invece l’andamento dei valori singolari è più regolare (come a destra in Fig. 1), la scelta di R è evidentemente più critica, e va necessariamente legata anche agli errori effettivamente presenti su W e TM . La soluzione a componenti principali aR può essere considerata come appartenente ad una famiglia di soluzioni date da N X uTm · TM vm fm af = σm m=1 (29) dove gli fm sono detti fattori di filtro e, per la soluzione aR valgono fm = ( 1 m = 1, R; 0 m = R + 1, N. Questi fattori di filtro sono evidentemente adatti al caso in cui i valori singolari hanno un andamento a gradino. Invece, se i σn hanno un andamento più dolce, conviene scegliere anche i fattori di filtro con un andamento più regolare. Una possibile scelta (Tikhonov) è fm = σm σm + γ (30) dove γ va scelto in base agli errori sui dati. Per m piccolo i fattori di filtro sono prossimi a 1, e quindi sostanzialmente coincidono con quelli relativi a aR . Al crescere di m tendono poi gradualmente a 0, in modo da includere tutte le colonne di V, ma con una ampiezza decrescente. Finora abbiamo considerato il caso di M > N , ma (avendo ben chiaro in mente che il vettore soluzione a non è costituito solo da elementi indipendenti) è possibile, e spesso utile, scegliere N ≥ M . Per M = N tutti i discorsi precedenti sono validi. Solo nel secondo membro della (19) mancherà il secondo termine. Se invece M < N vi sono diversi cambiamenti. La prima differenza si ha nella (17). Infatti ora per m > M si ha W · vm = 0 e quindi la (17) va sostituita da W ·a= N X m=1 cm W · vm = M X cm σm um + m=1 N X m=M +1 cm · 0 = M X cm σm um (31) m=1 Nella (19), quindi, sono coinvolti solo i primi M coefficienti cm . La soluzione ai minimi quadrati sarà allora 8 cm 1 uTn · TM = σm qualunque m = 1, M (32) m = M + 1, N che sostituisce la (20). Vi sono quindi infinite soluzioni ai minimi quadrati, e tutte forniscono residuo nullo. In base alla richiesta che aLS debba essere quello di norma minima, allora occorre scegliere cm = 0 m = M + 1, N In tal modo si eliminano da a tutte le componenti ad alta frequenza (m elevato), che sono quelle che vengono filtrate da W . La soluzione a componenti principali resta uguali, e cosı̀ quella coi fattori di filtro, in cui però la somma va terminata ad M . Per concludere il discorso vogliamo notare che la soluzione ai minimi quadrati (13) può anche essere espressa nel seguente modo: determinare un vettore TM o tale che kTM − TM o k2 s.a. W · a = TM o min! (33) in cui il vincolo (introdotto da ”s.a.”) richiede che esista una a tale che W · a = TM o , ovvero che TM o sia nel range di W . Questa forma, del tutto equivalente alla (13), mostra che la soluzione ai minimi quadrati cerca di modificare TM , ovvero le misure, in modo che il vettore modificato TM o sia il più vicino possibile a TM , ma sia anche un vettore di misure ottenibili. Ricordiamo infatti che l’insieme di tutti i vettori W · a al variare di a è l’insieme di tuti i vettori di misura ammissibili. In generale, a causa degli errori di misura, il vettore misurato TM non sarà ammissibile. Cercare il vettore ammissibile più vicino a TM equivale a filtrare il rumore sui dati. Nel nostro caso, comunque, anche W è affetta da errore, e quindi la soluzione ai minimi quadrati (33) non è necessariamente la più efficace. Una strategia alternativa, e più efficace, è quella di cercare di modificare non solo TM ma anche W , ovvero di filtrare il rumore da entrambi. Ciò equivale a cercare Ao e TM o (total least square solution, TLS) tali che W − W o k2 + kTM − TM o k2 kW min! s.a. W o · a = TM o (34) La soluzione TLS può ancora essere ottenuta mediante la SVD. 4 METODO DI BACKUS–GILBERT Il metodo di Backus–Gilbert si basa su di un approccio diverso alla inversione di problemi descritti da equazioni come la (1). In particolare, anzichè determinare tutto il profilo di temperatura, come i metodi descritti precedentemente, il metodo di Backus–Gilbert determina campioni “singoli” della temperatura. Può quindi ricostruire profili con punti fitti a piacere, o con densità diversa nelle varie zone, o addirittura solo in alcune zone, in maniera indipendente 9 dalla vera variabilità del profilo. Naturalmente, come vedremo, la risoluzione ottenibile dipende ancora dai dati del problema, ma la ricostruzione ne è indipendente1 . Cominciamo ad occuparci del problema di inversione in assenza di rumore, descritto quindi dalla TM k = Z H Wk (z) T (z) dz (35) 0 La stima T̂ (z0 ) della temperatura in un punto z0 dipende evidentemente solo dalle M misure di temperatura TM k , e vi dipende in maniera lineare. Possiamo quindi porre T̂ (z0 ) = M X TM k ak (z0 ) (36) k=1 dove gli ak (z0 ) sono degli opportuni coefficienti, da determinare, e che ovviamente dipenderanno dal punto z0 in cui si vuole la stima. Si noti che, nonostante la strategia sia diversa, la (36) mostra che anche il metodo di Backus–Gilbert può essere formulato a partire da una discretizzazione (2). Solo che in questo caso i coefficienti sono noti, mentre vanno determinate le funzioni di base. Sostutiendo (35) in (36) segue T̂ (z0 ) = M X ak (z0 ) k=1 con Z H Wk (z) T (z) dz = 0 A(z, z0 ) = M X Z H A(z, z0 ) T (z) dz (37) 0 ak (z0 ) Wk (z) (38) k=1 La (37) mostra che T̂ (z0 ) è una media pesata dei valori del profilo vero T (z), con peso dato dalla funzione A(z, z0 ). Ci si aspetta che A(z, z0 ) abbia un picco, ragionevolmente elevato, in z = z0 , e la sua larghezza evidentemente determinerà la risoluzione con cui si è ottenuta la stima T̂ (z0 ). La funzione peso A(z, z0 ) deve inoltre soddisfare a un vincolo di coerenza. Se il profilo di temperatura fosse costante, la stima dovrebbe essere pari a tale valore costante (Assenza di bias). Questo richiede che Z H A(z, z0 ) dz = 0 M X k=1 ak (z0 ) Z H Wk (z)dz = 1 ∀z0 (39) 0 La larghezza della funzione peso viene misurata dallo spread di tale funzione, dato da2 1 Usando opportune disrcetizzazioni (2), anche gli altri metodi descritti sono in grado di avere valori di temperatura distribuiti in maniera non uniforme, ma sempre in dipendenza dalla variabilità del profilo di temperatura. E, in ogni caso, occorre sempre ricostruire tutto il profilo. 2 Lo spread è costruito per analogia: se A2 (z0 , z) fosse la pdf di una V.A., lo spread ne sarebbe, a meno di una costante, la varianza. 10 Z S(z0 ) = 12 H (z − z0 )2 A2 (z, z0 ) dz (40) 0 Sostituendo (38) in (40) segue S(z0 ) = 12 Z " H (z − z0 )2 0 = M X ak (z0 ) M X h=1 k=1 " M X # " ak (z0 ) Wk (z) k=1 12 Z H M X # ah (z0 ) Wh (z) dz h=1 # 2 (z − z0 ) Wk (z)Wh (z) dz ah (z0 ) 0 Possiamo introdurre il vettore colonna a, contenente i ccoefficienti ak (z0 ), e la matrice S , definita da Skh = 12 H Z (z − z0 )2 Wk (z)Wh (z) dz 0 simmetrica e dipendente da z0 , e scrivere lo spread come S(z0 ) = M X ak (z0 ) M X Skh ah (z0 ) = aT S a (41) h=1 k=1 Il vettore dei coefficienti che forniscono la stima (36) si ottengono minimizzando lo spread rispetto agli elementi di a, col vincolo (39), che diventa T a U=1 con Uk = Z H Wk (z)dz (42) 0 Il problema di minimo della (41), col vincolo (42), puó essere risolto usando un opportuno moltiplicatore di Lagrange3 λ, e minimizzando (senza vincoli) aT S a + λ aT U (43) Calcolando il gradiente della (43) rispetto ad a e ponendolo uguale a zero si ottiene 2S a + λ U = 0 =⇒ a=− λ −1 S U 2 (44) Il valore di λ si ottiene imponendo il vincolo (42) aT U = − per cui λ λ h −1 iT S U U = − UT S −1 U = 1 2 2 =⇒ − 1 λ = T −1 2 U S U (45) 1 S −1 U (46) U S −1 U La matrice S é invertibile, ma la sua inversione é normalmente mal condizionata. Si noti inoltre che il calcolo di S −1 va fatto per ogni punto z0 . a= 3 T Si veda il paragrafo sul rapporto assiale. 11 Il problema puó essere stabilizzato includendo il rumore di misura. In presenza di rumore la (35) va sostituita dalla (1). Pertanto la stima (36) diventa T̂ (z0 ) = M X ak (z0 ) k=1 Z H Wk (z) T (z) dz + 0 M X ak (z0 ) k = Z H A(z, z0 ) T (z) dz + aT (47) 0 k=1 che sostituisce la (37). La stima T̂ (z0 ) quindi diventa una media pesata corrotta da rumore. Si puó ancira definire uno spread (40), ma minimizzare lo spread puó non migliorare la qualitá della stima. Va infatti tenuto conto che questa stima (la cui media é la (37)) ha una varianza, e occorre anche controllare questa varianza per ottenere una buona stima. La varianza della stima (47) é data da V = E T̂ (z0 ) − Z H A(z, z0 ) T (z) dz 0 !2 =E aT aT = aT E[ T ] a = aT S a (48) Conviene allora minimizzare direttamente una opportuna combinazione delle due grandezze spread e varianza4 S + k S ) a = aT R a S + kV = aT S a + k aT S a = aT (S con R = S + k S (49) sempre col vincolo (42). Il valore di k, che é un parametro con dimensione, va scelto a seconda della importanza relativa che si vuole dare a uno spread piccolo rispetto a una varianza piccola. Ovviamente, un valore piccolo di k produrra una soluzione con uno spread (e quindi una risoluzione) piccola, ma molto corrotta dal rumore. Viceversa, un valore grande di k filtrerá molto il rumore, ma a spese della risoluzione. La minimizzazione della (49) segue le stesse linee della (41). Introducendo ancora un moltiplicatore di Lagrange λ occorre minimizzare (senza vincoli) aT R a + λ aT U, che é del tutto analoga alla (43). La soluzione della (49) (vedi (46)) vale allora a= 4 1 R−1 U −1 U R U T (50) In alternativa, si può minimizzare lo spread (o la varianza) con un vincolo sull’altra grandezza, ma occorre usae due moltiplicatori di Lagrange, con calcoli notevolmente più complessi per imporre quest’ultimo vinvolo. 12 APPENDICE 1: COMBINAZIONE A MINIMA VARIANZA DI STIME Supponiamo di avere due stime indipendenti, e senza bias, x1 ed x2 della stessa grandezza x, e siano σ12 e σ22 le relative varianze. Una stima migliore X si può ottenere usando le due stime, ovviamente tenendo conto che, se le varianze sono diverse, anche la qualità delle stime lo sarà. pertanto occorrerà pesare di più la stima migliore. Scegliamo come stima risultante X = a1 x1 + a2 x2 con il vincolo che la stima sia senza bias, ovvero che la media di X sia anch’essa x. Segue EX = a1 E[x1 ] + a2 E[x2 ] = a1 x + a2 x =⇒ a1 + a2 = 1 Per determinare a1 e a2 imponiamo che la varianza di X sia la più piccola possibile. Possiamo porre xi = x + i , con gli errori di stima i incorrelati e a media nulla. Allora var[X] = E[(a1 x1 + a2 x2 )2 ] − x2 = a21 E[x21 ] + 2a1 a2 E[x1 x2 ] + a22 E[x22 ] − x2 = a21 (x2 + σ12 ) + 2a1 a2 E[(x + 1 )(x + 2 )] + a22 (x2 + σ22 ) − x2 Ora E[(x + 1 )(x + 2 )] = x2 + x(E[1 ] + E[2 ]) + E[1 ]E[2 ] = x2 per cui, raccogliendo var[X] = (a1 + a2 )2 x2 + a21 σ12 + a22 σ22 − x2 = a21 σ12 + (1 − a1 )2 σ22 avendo usato il vincolo di assenza di bias nella stima. La varianza minima si ottiene derivando, e uguagliando a zero la derivata: 2a1 σ12 − 2(1 − a1 )σ22 = 0 =⇒ a1 = σ22 σ12 + σ22 e a2 = σ12 σ12 + σ22 Dividendo per σ12 σ22 si ottiene una forma estrapolabile al caso vettoriale a1 = [σ12 ]−1 [σ12 ]−1 + [σ22 ]−1 e a2 = [σ22 ]−1 [σ12 ]−1 + [σ22 ]−1 Il valore della varianza minima è varmin = a21 σ12 + a22 σ22 = h = [σ12 ]−1 + [σ12 ]−1 {[σ12 ]−1 i−1 [σ22 ]−1 + 2 [σ22 ]−1 } 13 + [σ22 ]−1 {[σ12 ]−1 + 2 [σ22 ]−1 } = 1 [σ12 ]−1 + [σ22 ]−1 APPENDICE 2: SENSIBILITÁ DI UN SISTEMA LINEARE In molti problemi inversi, la grandezza di interesse è la soluzione di un sistema lineare A·x =b (51) in cui, normalmente, sia A , (che è una matrice invertibile), sia b non sono noti esattamente, a causa di errori di misura, imprecisione dei parametri doello strumento, rumore, semplificazioni introdotte (rumore di modell) e cosı̀ via. Pertanto, quello che si ottiene è in realtà un vettore y, soluzione di A + ∆A A · x = b + ∆b (52) che costituisce una stima del vero valore x. Per valutare la qualità di tale stima, possiamo usare l’errore relativo eR = ky − xk kxk (53) in cui la norma di un vettore kxk è la radice della somma del quadrato dei suoi elementi, e misura la grandezza del vettore. Ovviamente eR dipenderà dagli errori relativi su A e b, ma anche dalla struttura della A matrice . Per valutare la (53), consideriamo la famiglia di sistemi lineari A + ∆A A · x() = b + ∆b (54) Poichè x(0) = x e x(1) = y, possiamo sviluppare in serie di Taylor y y = x(1) ' x(0) + d(0) con d() = dx d e sostituendo nella (53) eR = kd(0)k kxk La derivata di x si ottiene derivando la (54) rispetto a , e poi ponendo = 0 A · x() + A + ∆A A · d() = ∆b ∆A A · x(0) + A · d(0) = ∆b ∆A Sostituendo si ottiene l’errore relativo −1 A A · ∆b − ∆A · x eR = kxk A · xk ≤ kA Ak kxk e kx + yk ≤ kxk + kyk , e quindi Per le proprietà della norma: kA Ak kxk | A−1 k k∆bk + k∆A k∆bk −1 Ak + = k A k k∆A (55) eR ≤ kxk kxk 14 Ak kxk. Sostituendo nella (55) e poi mettendo in evidenza k Ak Ora, dalla (51), kbk ≤ kA segue Ak k∆bk k∆A k∆bkk Ak −1 Ak + + ≤ k A kk Ak eR ≤ k A k k∆A kbk k Ak kbk Gli errori relativi sui dati si riflettono su eR tramite il numero di condizionamento della matrice A −1 A) = k A−1 kk Ak > 1 k(A (56) APPENDICE 3: DECOMPOSIZIONE A VALORI SINGOLARI Nel paragrafo precedente abbiamo considerato la sensibilità agli errori di un sistema lineare a matrice quadrata. Per estendere il discorso al caso di un sistema rettangolare, conviene introdurre la decomposizione a valori singolari, o SV D. Data una matrice1 A , di dimensioni M × N , la sua decomposizione a valori singolari è A = U · Σ · VT (57) in cui le matrici U (di dimensioni M × M ) e V (di dimensioni N × N ) sono matrici ortogonali, ovvero la loro inversa coincide con la loro trasposta, mentre Σ è una matrice “diagonale”. Più precisamente è diagonale se M = N . Altrimenti si ha h i Σd se M > N 0 Σ= Σd 0] se M < N [Σ con Σd diagonale. Gli elementi di Σ, o di Σd , sono detti valori singolari, e sono reali2 e ordinati in senso decrescente σ1 ≥ σ2 ≥ σ3 ≥ . . . I valori singolari sono in numero pari a min(N, M ), e alcuni possono essere anche uguali a zero. Se i valori singolari diversi da zero sono in numero pari a R, si dimostra che σ1 σR Le colonne delle matrici ortogonali U e V sono tra loro ortonormali, e hanno quindi il ruolo dei versori. In altri termini, l’insieme delle colonne di una matrice ortogonale costituisce una base ortonormale dello spazio vettoriale dei vettori numerici. Indicando con k A k = σ1 A) = k(A 1 Considereremo qui solo il caso reale, ma, con qualche modifica, il discorso si estende anche al caso di matrice complessa 2 I valori singolari sono reali anche nel caso di matrice complessa 15 i h V = v1 , v2 , . . . , vN i h U = u1 , u2 , . . . , uM le colonne di queste matrici, che sono detti anche vettori singolari di A , si ha poi A · ui = σi vi A · vj = σj uj sottintendendo che il secondo membro è nullo se manca il corrispondente valore singolare. Se A è quadrata, e a rango pieno R = N , allora la soluzione di (51) è x = V · Σ−1 · U T · b in cui Σ−1 è diagonale, e contiene 1/σi se σi 6= 0, e zero altrimenti. 16 INDICE 1. 2. 3. 4. App. 1. App. 2. App. 3. INTRODUZIONE AI PROBLEMI INVERSI . . . . . SOLUZIONE A MINIMA VARIANZA . . . . . . . SOLUZIONE AI MINIMI QUADRATI . . . . . . . METODO DI BACKUS–GILBERT . . . . . . . . . COMBINAZIONE A MINIMA VARIANZA DI STIME SENSIBILITÁ DI UN SISTEMA LINEARE . . . . . DECOMPOSIZIONE A VALORI SINGOLARI . . . . 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . 2 . 4 . 9 13 13 15